GitHub 将用你的 Copilot 数据训练 AI

又一家平台要用你的数据训练 AI 模型了,这次是 GitHub。
GitHub 首席产品官 Mario Rodriguez 在一篇博客文章中宣布,从 4 月 24 日起,GitHub 将使用 Copilot 用户的交互数据(例如输入、输出、代码片段及相关上下文)来训练和改进其 AI 模型。
这一更新适用于所有 Copilot 免费版、Pro 和 Pro+ 用户,但你可以选择退出。GitHub 在周三发送给用户的邮件中说明,退出步骤是:“进入 GitHub 账户设置;选择 Copilot;选择是否允许你的数据用于 AI 模型训练。”
如果你之前已经选择不让 GitHub 收集交互数据用于产品改进(即禁用了“启用或禁用提示和建议收集”设置),这些偏好将被沿用,你可以跳过这一步。
Copilot Business 和 Copilot Enterprise 用户无需担心,他们不受此更新影响。
你交出了什么,交给了谁
重要的是,如果你不选择退出,不仅 GitHub 会访问你的交互数据,其关联公司也会。
GitHub 指出,这包括“我们企业家族中的公司,包括微软”。根据 GitHub 更新的隐私声明和条款,这些关联公司“现在可以将共享数据用于其他目的,包括开发和改进人工智能和机器学习技术,但需遵守适用法律及其自身的隐私承诺。”
GitHub 表示,这些权限不延伸至第三方 AI 模型提供商或其他独立服务提供商,但它在 FAQ 和相关讨论中澄清:“我们也可能聘请服务提供商协助我们进行模型训练,但受合同义务约束,这些数据仅用于为 GitHub 提供服务。”
如果你不选择退出,具体会向 GitHub 及其关联公司交出什么?
GitHub 公告中列出了七类交互数据,包括:“你接受或修改的输出”;“发送给 GitHub Copilot 的输入”;“光标位置周围的代码上下文”;“你编写的注释和文档”;“文件名、仓库结构和导航模式”;以及“与 Copilot 功能的交互(聊天、内联建议等)”。
不会包含在模型训练中的是来自 Copilot Business、Copilot Enterprise 或企业拥有的仓库的交互数据,以及“你处于静止状态的问题、讨论或私有仓库的内容”。
GitHub 在公告中特别强调了“静止状态”这一说明,指出更新“确实会在你主动使用 Copilot 时处理来自私有仓库的代码”。
当被问及交互数据保留多久以及用户是否可以查看或删除时,GitHub 表示保留时间因使用情况而异,并指出它可能保留输入、输出、代码片段及相关上下文长达五年,不过这个期限通常更短。
并非所有开发者都赞同
Rodriguez 在公告博客文章中提醒读者,GitHub 最初是使用公开可用数据和代码样本来构建其模型的。过去一年,该平台表示已纳入微软员工的交互数据,带来了“有意义的改进,包括多种语言中接受率的提高”。
现在,GitHub 希望通过将用户交互数据纳入训练来获得类似的收益,旨在帮助其模型更好地理解开发工作流,提供更准确、安全的代码模式建议,并及早发现错误。
但从 Reddit 和 Hacker News 等开发者社区的初步反应来看,并非所有人都相信这次更新对所有用户同样有益。
一个常见的抱怨是用户必须选择退出,而不是选择加入;其他人说 GitHub 提供的退出说明相互矛盾,使其变得不必要地困难。
还有人批评 GitHub 使用个人用户数据却不使用企业数据,正如 Hacker News 上一位评论者写道:
“你描述的个人/企业不对称在 B2B SaaS 中是标准做法。Slack、Notion 和 Figma 都在企业 DPA 中包含了 ML 训练豁免条款,而免费用户则没有。GitHub 在这里并没有做什么不寻常的事——他们只是用代码来做,这感觉比文档或消息更敏感,因为它可能确实是你用个人账户处理的雇主的 IP。”
GitHub 在 FAQ 和相关讨论中解释这一区别时承认,它与 Business 和 Enterprise 客户有协议,禁止将 Copilot 交互数据用于模型训练,并再次强调个人用户可以随时选择退出。
其他开发者的批评声不那么强烈,认为 GitHub 在透明度方面做得比其他公司更好:“说实话,我欣赏他们为此添加了通知横幅。大多数公司会尽可能悄无声息地做这件事,”一位 Reddit 用户写道。
GitHub 为其将个人用户交互数据用于模型训练的决定辩护,称这符合既定的行业实践,并且“将改善所有用户的模型性能”。GitHub 表示,现在使用 GitHub Copilot 的开发者数量已超过 2600 万。随着如此多的开发者使用 GitHub Copilot,现在可用于 AI 模型训练的数据量之大,可能会带来更快的模型改进。
“我们相信 AI 辅助开发的未来取决于开发者的真实世界交互数据,”Rodriguez 在公司的公告文章中肯定道。
觉得有用?分享给更多人