GitHub Copilot推出Rubber Duck实验功能:跨模型“第二意见”审查
4月8日,微软GitHub官方宣布为其Copilot CLI推出一项实验性功能Rubber Duck,引入跨模型家族的“第二意见”审查机制,让AI的性能提升接近75%。
在代码规划阶段,当前编程智能体的早期决策错误容易层层累积,而单一模型的自我审查会受限于自身的训练偏差与盲点。Rubber Duck的核心思路正是引入异构模型作为独立审查者,提供差异化视角以挖掘潜在错误。
该功能采用跨家族模型组合策略。用户选择Claude系列模型作为主控后,Rubber Duck将调用GPT-5.4进行审查。其核心任务是检查智能体工作,输出高价值关注点清单,包括被遗漏的细节、值得质疑的假设及边缘案例。
通过SWE-Bench Pro基准测试评估发现,基于Claude Sonnet 4.6搭配Rubber Duck后,成功弥补了与Opus 4.6之间74.7%的性能差距。在涉及3个以上文件或超过70步的困难任务中,得分比基线高出3.8%。实际案例显示,它能有效挖掘架构逻辑漏洞、循环覆盖错误及跨文件冲突等深层问题。
Rubber Duck支持主动、被动及用户触发三种模式。系统会在制定计划后、复杂实现后及测试编写后三个关键检查点自动寻求审查,也可在陷入循环时被动触发。为确保过程透明,用户也可随时请求审查,Copilot将展示反馈内容与修改依据。
目前该功能已在实验模式上线,用户安装GitHub Copilot CLI并运行/experimental命令即可启用。启用后,选择Claude模型并开通GPT-5.4访问权限即可体验。对于依赖AI编程助手的开发者而言,Rubber Duck提供的“第二意见”或许正是避免“AI闭门造车”的有效工具。