谷歌DeepMind更新AI安全框架,将“模型抵抗人类关闭”列为新兴威胁

2025-09-23 09:57:44   |   棠糖   |   764

9月23日,据报道,谷歌旗下人工智能研究机构DeepMind宣布更新其核心安全文件《前沿安全框架》,首次将“AI模型可能阻止人类对其进行关闭或修改”列为重点评估风险。此次更新反映出业界对AI系统潜在自主性威胁的担忧正逐步细化。

据外媒Axios报道,近期部分新型AI模型在测试中已表现出制定计划乃至通过欺骗手段实现目标的能力。为应对这一趋势,DeepMind在框架中新增“说服力”风险类别,旨在防范模型被滥用后对用户信念和行为进行“有害操控”,即在高风险场景下有系统地显著改变人类判断。

DeepMind代表表示,公司已建立包含人类参与实验的新型评估体系,用于持续追踪和测量模型的操控能力。该框架每年至少更新一次,通过设定“关键能力等级”识别新兴威胁。谷歌强调,若缺乏有效缓解措施,具备此类能力的前沿AI模型可能造成严重危害。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

谷歌DeepMind更新AI安全框架,将“模型抵抗人类关闭”列为新兴威胁

2025-09-23 09:57:44 浏览量: 764 作者: 棠糖

9月23日,据报道,谷歌旗下人工智能研究机构DeepMind宣布更新其核心安全文件《前沿安全框架》,首次将“AI模型可能阻止人类对其进行关闭或修改”列为重点评估风险。此次更新反映出业界对AI系统潜在自主性威胁的担忧正逐步细化。

据外媒Axios报道,近期部分新型AI模型在测试中已表现出制定计划乃至通过欺骗手段实现目标的能力。为应对这一趋势,DeepMind在框架中新增“说服力”风险类别,旨在防范模型被滥用后对用户信念和行为进行“有害操控”,即在高风险场景下有系统地显著改变人类判断。

DeepMind代表表示,公司已建立包含人类参与实验的新型评估体系,用于持续追踪和测量模型的操控能力。该框架每年至少更新一次,通过设定“关键能力等级”识别新兴威胁。谷歌强调,若缺乏有效缓解措施,具备此类能力的前沿AI模型可能造成严重危害。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号