19/09/2025 15:18
【AI】華為與浙大發布安全版DeepSeek模型,有害言論、政治敏感內容等防禦率近100%
華為全聯接大會2025昨日在上海開幕,會上華為技術有限公司與浙江大學聯合發布了內地首個基於昇騰千卡算力平台的DeepSeek-R1-Safe基礎大模型。
據介紹,DeepSeek-R1-Safe的發布旨在打造安全可信的示範應用,推動大模型安全能力與產業生態協同發展。目前,模型已在ModelZoo、GitCode、GitHub、Gitee及ModelScope 等多個社區全面開源。
測試結果表明,DeepSeek-R1-Safe針對有毒有害言論、政治敏感內容、違法行為教唆等14個維度的普通有害問題整體防禦成功率近100%,針對情境假設、角色扮演、加密編碼等多個越獄模式整體防禦成功率超過40%。其綜合安全防禦能力達83%,在同樣測試設置下超過Qwen-235B和DeepSeek-R1-671B等多個同期模型8%至15%。
此外,在MMLU、GSM8K、CEVAL等通用能力基准測試中,DeepSeek-R1-Safe相比於DeepSeek-R1的性能損耗在1%以內。這些結果表明,DeepSeek-R1-Safe不僅顯著提升了安全防護能力,也保障了模型的可用性,達成了安全能力與通用性能之間的有效平衡。
《經濟通通訊社19日專訊》
據介紹,DeepSeek-R1-Safe的發布旨在打造安全可信的示範應用,推動大模型安全能力與產業生態協同發展。目前,模型已在ModelZoo、GitCode、GitHub、Gitee及ModelScope 等多個社區全面開源。
測試結果表明,DeepSeek-R1-Safe針對有毒有害言論、政治敏感內容、違法行為教唆等14個維度的普通有害問題整體防禦成功率近100%,針對情境假設、角色扮演、加密編碼等多個越獄模式整體防禦成功率超過40%。其綜合安全防禦能力達83%,在同樣測試設置下超過Qwen-235B和DeepSeek-R1-671B等多個同期模型8%至15%。
此外,在MMLU、GSM8K、CEVAL等通用能力基准測試中,DeepSeek-R1-Safe相比於DeepSeek-R1的性能損耗在1%以內。這些結果表明,DeepSeek-R1-Safe不僅顯著提升了安全防護能力,也保障了模型的可用性,達成了安全能力與通用性能之間的有效平衡。
《經濟通通訊社19日專訊》
樂本健 x etnet健康網購 | 憑獨家優惠碼【ETN2508】,購物滿$500即送免費禮品► 了解詳情
-
上一篇
【AI】美團發布高效推理模型,部分任務性能接近GPT5 22/09/2025 14:32
-
下一篇
【AI】騰訊元寶全量上線微信公眾號和視頻號評論區 19/09/2025 11:37
-
【AI】iPhone 17成強心劑,助推蘋果股價由爆跌30%至累漲50% 23/09/2025 09:13
-
【AI】DeepSeek線上模型升級,優化Agent能力、… 23/09/2025 08:29
-
【AI】百度校招今年發布超200種AI相關崗位,總計將發4000份offer 22/09/2025 16:06
-
【AI】四川:2027年全省算力基本實現統一調度,將建「算… 19/09/2025 09:27
-
【AI】英偉達宣布以50億美元入股英特爾 19/09/2025 09:11