GitHub将默认用Copilot用户数据训练AI模型,4月24日起生效
3月27日,GitHub宣布将从4月24日起更新Copilot交互数据的使用政策。届时,Copilot Free、Pro及Pro+用户的交互数据——包括输入、输出、代码片段及相关上下文——将被默认用于训练和改进其AI模型,除非用户主动选择退出。Business和Enterprise版本的用户则不在此次调整范围内。
这一政策变更意味着,GitHub将把大量开发者日常使用Copilot时产生的真实交互数据纳入模型训练池。对于不希望参与的用户,可以在设置中的“隐私”选项下手动关闭该功能。如果用户此前已在设置中关闭了允许GitHub收集此类数据以改进产品的选项,其偏好将保持不变,数据不会用于AI训练,除非用户重新选择加入。
GitHub在公告中表示,此举符合行业通行做法,并将有助于提升所有用户的模型表现。通过参与数据共享,用户将帮助AI模型更好地理解编码开发工作流程,提供更精准、更安全的代码建议,并增强Bug挖掘能力。官方认为,基于真实世界交互数据的训练,能够为更多样化的使用场景改善模型表现。
根据官方说明,选择参与的用户,其可能被收集的交互数据包括:用户采纳或修改后的输出、发送给Copilot的输入(包括向模型展示的代码片段)、光标位置周围的代码上下文、用户编写的注释与文档、文件名及仓库结构与浏览模式、与Copilot各功能的交互,以及用户对建议的点赞或点踩反馈。
值得注意的是,以下几类数据不在使用范围内:Copilot Business与Copilot Enterprise用户及企业所拥有仓库的交互数据、在Copilot设置中关闭模型训练选项的用户数据、以及用户静态存储的议题、讨论或私有仓库内容。
GitHub还透露,该项目所收集的数据可能会与母公司微软等关联公司共享,但不会向第三方AI模型供应商或其他独立服务提供商提供。官方在公告末尾以恳切的口吻向开发者表示:“我们相信,AI辅助开发的未来取决于像你一样的开发者的真实交互数据。如果你选择通过交互数据帮助我们改进模型,我们深表感谢。如果你更愿意不参与,也完全没有问题——你仍可完整使用你所熟悉和喜爱的AI功能。”