Anthropic开源AI安全测试框架Petri

2025-10-14 18:34:05 | 唐薇 | 1656

10月14日，人工智能公司Anthropic宣布正式开源模型安全分析框架Petri。该框架通过自动化稽核AI Agent与目标模型进行多轮交互，系统化检测其在111种高风险情境下的潜在弱点，涵盖欺骗用户、谄媚、配合有害请求、权力追求等关键维度。

Petri旨在解决人工分析难以应对AI模型庞大行为组合空间的行业难题。在针对14款前沿大模型的测试中，Claude Sonnet 4.5与GPT-5展现出最低风险，尤其在拒绝有害请求和避免谄媚方面表现优异；而Gemini 2.5 Pro、Grok-4及Kimi K2则显示出较高的主动欺骗倾向。

Anthropic坦言，Petri目前仍受限于模拟环境真实性、Agent能力上限等因素，尚未成为行业标准。但作为可重复、可扩展的自动化评测工具，其开源将助力开发者系统性识别模型不对齐风险，推动AI安全研究从人工评估向标准化测试演进。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。