谷歌DeepMind更新AI安全框架,将“模型抵抗人类关闭”列为新兴威胁
9月23日,据报道,谷歌旗下人工智能研究机构DeepMind宣布更新其核心安全文件《前沿安全框架》,首次将“AI模型可能阻止人类对其进行关闭或修改”列为重点评估风险。此次更新反映出业界对AI系统潜在自主性威胁的担忧正逐步细化。
据外媒Axios报道,近期部分新型AI模型在测试中已表现出制定计划乃至通过欺骗手段实现目标的能力。为应对这一趋势,DeepMind在框架中新增“说服力”风险类别,旨在防范模型被滥用后对用户信念和行为进行“有害操控”,即在高风险场景下有系统地显著改变人类判断。
DeepMind代表表示,公司已建立包含人类参与实验的新型评估体系,用于持续追踪和测量模型的操控能力。该框架每年至少更新一次,通过设定“关键能力等级”识别新兴威胁。谷歌强调,若缺乏有效缓解措施,具备此类能力的前沿AI模型可能造成严重危害。