Anthropic开源AI安全测试框架Petri
10月14日,人工智能公司Anthropic宣布正式开源模型安全分析框架Petri。该框架通过自动化稽核AI Agent与目标模型进行多轮交互,系统化检测其在111种高风险情境下的潜在弱点,涵盖欺骗用户、谄媚、配合有害请求、权力追求等关键维度。
Petri旨在解决人工分析难以应对AI模型庞大行为组合空间的行业难题。在针对14款前沿大模型的测试中,Claude Sonnet 4.5与GPT-5展现出最低风险,尤其在拒绝有害请求和避免谄媚方面表现优异;而Gemini 2.5 Pro、Grok-4及Kimi K2则显示出较高的主动欺骗倾向。
Anthropic坦言,Petri目前仍受限于模拟环境真实性、Agent能力上限等因素,尚未成为行业标准。但作为可重复、可扩展的自动化评测工具,其开源将助力开发者系统性识别模型不对齐风险,推动AI安全研究从人工评估向标准化测试演进。