GitHub Copilot推出Rubber Duck实验功能:跨模型“第二意见”审查

2026-04-08 11:32:10   |   嫣然   |   382

4月8日,微软GitHub官方宣布为其Copilot CLI推出一项实验性功能Rubber Duck,引入跨模型家族的“第二意见”审查机制,让AI的性能提升接近75%。

在代码规划阶段,当前编程智能体的早期决策错误容易层层累积,而单一模型的自我审查会受限于自身的训练偏差与盲点。Rubber Duck的核心思路正是引入异构模型作为独立审查者,提供差异化视角以挖掘潜在错误。

该功能采用跨家族模型组合策略。用户选择Claude系列模型作为主控后,Rubber Duck将调用GPT-5.4进行审查。其核心任务是检查智能体工作,输出高价值关注点清单,包括被遗漏的细节、值得质疑的假设及边缘案例。

通过SWE-Bench Pro基准测试评估发现,基于Claude Sonnet 4.6搭配Rubber Duck后,成功弥补了与Opus 4.6之间74.7%的性能差距。在涉及3个以上文件或超过70步的困难任务中,得分比基线高出3.8%。实际案例显示,它能有效挖掘架构逻辑漏洞、循环覆盖错误及跨文件冲突等深层问题。

Rubber Duck支持主动、被动及用户触发三种模式。系统会在制定计划后、复杂实现后及测试编写后三个关键检查点自动寻求审查,也可在陷入循环时被动触发。为确保过程透明,用户也可随时请求审查,Copilot将展示反馈内容与修改依据。

目前该功能已在实验模式上线,用户安装GitHub Copilot CLI并运行/experimental命令即可启用。启用后,选择Claude模型并开通GPT-5.4访问权限即可体验。对于依赖AI编程助手的开发者而言,Rubber Duck提供的“第二意见”或许正是避免“AI闭门造车”的有效工具。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

GitHub Copilot推出Rubber Duck实验功能:跨模型“第二意见”审查

2026-04-08 11:32:10 浏览量: 382 作者: 嫣然

4月8日,微软GitHub官方宣布为其Copilot CLI推出一项实验性功能Rubber Duck,引入跨模型家族的“第二意见”审查机制,让AI的性能提升接近75%。

在代码规划阶段,当前编程智能体的早期决策错误容易层层累积,而单一模型的自我审查会受限于自身的训练偏差与盲点。Rubber Duck的核心思路正是引入异构模型作为独立审查者,提供差异化视角以挖掘潜在错误。

该功能采用跨家族模型组合策略。用户选择Claude系列模型作为主控后,Rubber Duck将调用GPT-5.4进行审查。其核心任务是检查智能体工作,输出高价值关注点清单,包括被遗漏的细节、值得质疑的假设及边缘案例。

通过SWE-Bench Pro基准测试评估发现,基于Claude Sonnet 4.6搭配Rubber Duck后,成功弥补了与Opus 4.6之间74.7%的性能差距。在涉及3个以上文件或超过70步的困难任务中,得分比基线高出3.8%。实际案例显示,它能有效挖掘架构逻辑漏洞、循环覆盖错误及跨文件冲突等深层问题。

Rubber Duck支持主动、被动及用户触发三种模式。系统会在制定计划后、复杂实现后及测试编写后三个关键检查点自动寻求审查,也可在陷入循环时被动触发。为确保过程透明,用户也可随时请求审查,Copilot将展示反馈内容与修改依据。

目前该功能已在实验模式上线,用户安装GitHub Copilot CLI并运行/experimental命令即可启用。启用后,选择Claude模型并开通GPT-5.4访问权限即可体验。对于依赖AI编程助手的开发者而言,Rubber Duck提供的“第二意见”或许正是避免“AI闭门造车”的有效工具。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号