谷歌DeepMind更新AI安全框架，将“模型抵抗人类关闭”列为新兴威胁

2025-09-23 09:57:44 | 棠糖 | 764

9月23日，据报道，谷歌旗下人工智能研究机构DeepMind宣布更新其核心安全文件《前沿安全框架》，首次将“AI模型可能阻止人类对其进行关闭或修改”列为重点评估风险。此次更新反映出业界对AI系统潜在自主性威胁的担忧正逐步细化。

据外媒Axios报道，近期部分新型AI模型在测试中已表现出制定计划乃至通过欺骗手段实现目标的能力。为应对这一趋势，DeepMind在框架中新增“说服力”风险类别，旨在防范模型被滥用后对用户信念和行为进行“有害操控”，即在高风险场景下有系统地显著改变人类判断。

DeepMind代表表示，公司已建立包含人类参与实验的新型评估体系，用于持续追踪和测量模型的操控能力。该框架每年至少更新一次，通过设定“关键能力等级”识别新兴威胁。谷歌强调，若缺乏有效缓解措施，具备此类能力的前沿AI模型可能造成严重危害。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。