Anthropic开源AI安全测试框架Petri

2025-10-14 18:34:05   |   唐薇   |   1656

10月14日,人工智能公司Anthropic宣布正式开源模型安全分析框架Petri。该框架通过自动化稽核AI Agent与目标模型进行多轮交互,系统化检测其在111种高风险情境下的潜在弱点,涵盖欺骗用户、谄媚、配合有害请求、权力追求等关键维度。

Petri旨在解决人工分析难以应对AI模型庞大行为组合空间的行业难题。在针对14款前沿大模型的测试中,Claude Sonnet 4.5与GPT-5展现出最低风险,尤其在拒绝有害请求和避免谄媚方面表现优异;而Gemini 2.5 Pro、Grok-4及Kimi K2则显示出较高的主动欺骗倾向。

Anthropic坦言,Petri目前仍受限于模拟环境真实性、Agent能力上限等因素,尚未成为行业标准。但作为可重复、可扩展的自动化评测工具,其开源将助力开发者系统性识别模型不对齐风险,推动AI安全研究从人工评估向标准化测试演进。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

Anthropic开源AI安全测试框架Petri

2025-10-14 18:34:05 浏览量: 1656 作者: 唐薇

10月14日,人工智能公司Anthropic宣布正式开源模型安全分析框架Petri。该框架通过自动化稽核AI Agent与目标模型进行多轮交互,系统化检测其在111种高风险情境下的潜在弱点,涵盖欺骗用户、谄媚、配合有害请求、权力追求等关键维度。

Petri旨在解决人工分析难以应对AI模型庞大行为组合空间的行业难题。在针对14款前沿大模型的测试中,Claude Sonnet 4.5与GPT-5展现出最低风险,尤其在拒绝有害请求和避免谄媚方面表现优异;而Gemini 2.5 Pro、Grok-4及Kimi K2则显示出较高的主动欺骗倾向。

Anthropic坦言,Petri目前仍受限于模拟环境真实性、Agent能力上限等因素,尚未成为行业标准。但作为可重复、可扩展的自动化评测工具,其开源将助力开发者系统性识别模型不对齐风险,推动AI安全研究从人工评估向标准化测试演进。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号