GitHub 将用你的 Copilot 数据训练 AI

深度The New Stack2026年3月27日3 分钟阅读
GitHub 将用你的 Copilot 数据训练 AI
GitHub 宣布从 4 月 24 日起,将使用 Copilot 免费版、Pro 和 Pro+ 用户的交互数据来训练和改进其 AI 模型。个人用户可以选择退出,但 Copilot Business 和 Enterprise 用户不受影响。

又一家平台要用你的数据训练 AI 模型了,这次是 GitHub。

GitHub 首席产品官 Mario Rodriguez 在一篇博客文章中宣布,从 4 月 24 日起,GitHub 将使用 Copilot 用户的交互数据(例如输入、输出、代码片段及相关上下文)来训练和改进其 AI 模型。

这一更新适用于所有 Copilot 免费版、Pro 和 Pro+ 用户,但你可以选择退出。GitHub 在周三发送给用户的邮件中说明,退出步骤是:“进入 GitHub 账户设置;选择 Copilot;选择是否允许你的数据用于 AI 模型训练。”

如果你之前已经选择不让 GitHub 收集交互数据用于产品改进(即禁用了“启用或禁用提示和建议收集”设置),这些偏好将被沿用,你可以跳过这一步。

Copilot Business 和 Copilot Enterprise 用户无需担心,他们不受此更新影响。

你交出了什么,交给了谁

重要的是,如果你不选择退出,不仅 GitHub 会访问你的交互数据,其关联公司也会。

GitHub 指出,这包括“我们企业家族中的公司,包括微软”。根据 GitHub 更新的隐私声明和条款,这些关联公司“现在可以将共享数据用于其他目的,包括开发和改进人工智能和机器学习技术,但需遵守适用法律及其自身的隐私承诺。”

GitHub 表示,这些权限不延伸至第三方 AI 模型提供商或其他独立服务提供商,但它在 FAQ 和相关讨论中澄清:“我们也可能聘请服务提供商协助我们进行模型训练,但受合同义务约束,这些数据仅用于为 GitHub 提供服务。”

如果你不选择退出,具体会向 GitHub 及其关联公司交出什么?

GitHub 公告中列出了七类交互数据,包括:“你接受或修改的输出”;“发送给 GitHub Copilot 的输入”;“光标位置周围的代码上下文”;“你编写的注释和文档”;“文件名、仓库结构和导航模式”;以及“与 Copilot 功能的交互(聊天、内联建议等)”。

不会包含在模型训练中的是来自 Copilot Business、Copilot Enterprise 或企业拥有的仓库的交互数据,以及“你处于静止状态的问题、讨论或私有仓库的内容”。

GitHub 在公告中特别强调了“静止状态”这一说明,指出更新“确实会在你主动使用 Copilot 时处理来自私有仓库的代码”。

当被问及交互数据保留多久以及用户是否可以查看或删除时,GitHub 表示保留时间因使用情况而异,并指出它可能保留输入、输出、代码片段及相关上下文长达五年,不过这个期限通常更短。

并非所有开发者都赞同

Rodriguez 在公告博客文章中提醒读者,GitHub 最初是使用公开可用数据和代码样本来构建其模型的。过去一年,该平台表示已纳入微软员工的交互数据,带来了“有意义的改进,包括多种语言中接受率的提高”。

现在,GitHub 希望通过将用户交互数据纳入训练来获得类似的收益,旨在帮助其模型更好地理解开发工作流,提供更准确、安全的代码模式建议,并及早发现错误。

但从 Reddit 和 Hacker News 等开发者社区的初步反应来看,并非所有人都相信这次更新对所有用户同样有益。

一个常见的抱怨是用户必须选择退出,而不是选择加入;其他人说 GitHub 提供的退出说明相互矛盾,使其变得不必要地困难。

还有人批评 GitHub 使用个人用户数据却不使用企业数据,正如 Hacker News 上一位评论者写道:

“你描述的个人/企业不对称在 B2B SaaS 中是标准做法。Slack、Notion 和 Figma 都在企业 DPA 中包含了 ML 训练豁免条款,而免费用户则没有。GitHub 在这里并没有做什么不寻常的事——他们只是用代码来做,这感觉比文档或消息更敏感,因为它可能确实是你用个人账户处理的雇主的 IP。”

GitHub 在 FAQ 和相关讨论中解释这一区别时承认,它与 Business 和 Enterprise 客户有协议,禁止将 Copilot 交互数据用于模型训练,并再次强调个人用户可以随时选择退出。

其他开发者的批评声不那么强烈,认为 GitHub 在透明度方面做得比其他公司更好:“说实话,我欣赏他们为此添加了通知横幅。大多数公司会尽可能悄无声息地做这件事,”一位 Reddit 用户写道。

GitHub 为其将个人用户交互数据用于模型训练的决定辩护,称这符合既定的行业实践,并且“将改善所有用户的模型性能”。GitHub 表示,现在使用 GitHub Copilot 的开发者数量已超过 2600 万。随着如此多的开发者使用 GitHub Copilot,现在可用于 AI 模型训练的数据量之大,可能会带来更快的模型改进。

“我们相信 AI 辅助开发的未来取决于开发者的真实世界交互数据,”Rodriguez 在公司的公告文章中肯定道。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论