Anthropic 重磅发布 Claude Opus 4.5:AI 编码与长任务处理能力突破
11月25日,Anthropic 正式推出了其最新旗舰模型 Claude Opus 4.5,定位为一款在通用能力上全面领先的模型。此次升级尤其聚焦于编码、智能体操作以及复杂的计算机任务处理,并声称在深度研究、演示文稿制作和电子表格任务上实现了实质性飞跃,预示着未来工作模式将发生根本性转变。
Claude Opus 4.5 在核心技术能力上展现出惊人的进步。Anthropic 在其内部性能工程岗位招聘中设置了一项极高难度的居家软件工程测试,用于评估技术能力和压力下的判断力。最新数据显示,Claude Opus 4.5 在规定的两小时限时内,得分超过了历年来所有参与测试的人类候选人,一举达到当前软件工程测试领域的最高水平。尽管公司指出该测试未能涵盖协作或长期经验等要素,但这一结果无疑引发了业界对 AI 将如何重塑工程职业的广泛讨论。该模型已通过 Anthropic 应用、API 以及三大云平台全面开放,开发者可通过 claude-opus-4-5-20251101 版本访问。
在真实任务基准的智能体能力评估中,Opus 4.5 也表现出卓越的推理和策略规划能力。在一个模拟航空公司服务人员处理客户诉求的 τ2-bench 基准测试中,尽管模型被要求拒绝修改“基础经济舱”机票,它却凭借对政策的深入理解,提出了一项规则允许范围内的替代方案:先升级舱位,再变更航班。这种“有洞察力的解决方案”虽然未遵循预设路径而被判定为测试失败,但 Anthropic 认为这正是模型在复杂推理中取得的关键进步,能够引用政策内容并提出符合条款的解决策略,即使这可能带来额外的费用。
Anthropic 强调,Claude Opus 4.5 是迄今为止对齐程度最高的模型,安全性处于行业前沿。为满足客户在关键任务中的需求,新版本强化了对提示注入攻击的防御能力。在经济效益方面,Opus 4.5 在推理过程中减少了回溯与冗余,显著降低了 Token 消耗。开发者现在可以通过 API 中新增的 effort 参数,在速度、成本和能力之间灵活调节。例如,在最高 effort 设置下,Opus 4.5 的性能比 Sonnet 4.5 高出 4.3%,同时减少 48% 的输出 Token。此外,其输入输出定价分别为 5 美元和 25 美元每百万 tokens,旨在使 Opus 级别的强大能力惠及更广泛的个人用户、团队与企业。