S
SkillNav

微软删除博客:曾指导用户用盗版《哈利·波特》训练 AI

资讯2026-02-20T12:11:28+00:009 分钟阅读
微软删除博客:曾指导用户用盗版《哈利·波特》训练 AI

AI 内容垃圾的魔法世界

这个现已删除的《哈利·波特》数据集曾被“误标”为 public domain。

Hacker News 讨论串 引发争议后,微软删除了一篇博客。批评者称,这篇文章实际上在鼓励开发者盗用《哈利·波特》图书来训练 AI 模型,而这些模型还可被用于生成 AI 内容垃圾(AI slop)。

该博客的存档见这里。文章由高级产品经理 Pooja Kamath 于 2024 年 11 月撰写。根据其 LinkedIn 信息,Kamath 在微软任职已超过十年,目前仍在公司。2024 年,微软让她推广一项新功能;博客称,借助 Azure SQL DB、LangChain 和 LLM,只需几行代码就能“将生成式 AI 功能添加到自己的应用中”。

博客称,要展示微软这项新功能如何通过“有吸引力且贴近生活的示例”来“触达更广泛受众”,还有什么比“使用广为人知的数据集”——比如《哈利·波特》——更合适?

博客还指出,这套图书是“文学史上最著名、最受珍视的系列之一”,粉丝可以通过训练后的 LLM 实现两种有趣用途:构建可提供“富含上下文答案”的问答系统,以及生成“由 AI 驱动的全新《哈利·波特》同人小说”,并称这“肯定会让 Potterheads 兴奋不已”。

为了帮助微软客户实现这一愿景,博客链接到了 Kaggle 上一个包含《哈利·波特》全七部作品的数据集。Ars 核实发现,该数据集已在线存在多年,却被错误标记为“public domain”。Kaggle 的条款写明,权利人可对侵权内容发出通知,重复违规者将面临账号暂停。Hacker News 评论者推测,这个《哈利·波特》数据集因长期仅约 1 万次下载而“低调存活”,未引起对版权管理一向强硬的 J.K. Rowling 注意。Ars 联系上传者后,该数据集于周四迅速被删除。上传者是印度数据科学家 Shubham Maindola,看起来与微软没有关联。

Maindola 告诉 Ars:“这个数据集被标记为 Public Domain 是个错误。并无意歪曲这些作品的授权状态。”

目前尚不清楚,Kamath 在博客中链接该数据集是受公司指示,还是个人决定。芝加哥肯特法学院知识产权法项目联合主任、法学教授 Cathay Y. N. Smith 告诉 Ars,Kamath 可能并未意识到这些书出版年代太近,不可能进入 public domain。

Smith 说:“有些人可能非常懂书、也懂技术,但未必懂版权期限和保护时长。尤其是在她看到另一家有信誉的公司把它标成 public domain 的情况下。”

微软拒绝回应 Ars 的置评请求。Kaggle 也未回复 Ars。

微软删除这篇博客“可能是明智之举”

在 Hacker News 上,评论者认为,熟悉这个热门 IP 的人几乎不可能相信《哈利·波特》已经进入 public domain。大家还争论这篇微软博客是否“在版权层面存在问题”:因为微软不仅鼓励用户下载涉嫌侵权材料,还使用这些书训练《哈利·波特》AI 模型,借助知名角色来推广微软产品。

这篇博客发布于一年多前。当时,AI 公司已开始因模型训练问题遭遇诉讼——原告称其通过盗版材料训练,并在输出中逐字“复现”作品内容。

该文建议用户通过下载《哈利·波特》数据集并将 txt 文件上传至 Azure Blob Storage,来学习训练自己的 AI 模型。文中还提供了示例模型,这些模型似乎基于微软上传到 Azure Blob Storage 的数据集,而该数据集只包含第一部《哈利·波特与魔法石》(Harry Potter and the Sorcerer’s Stone)。

通过在文本文件上训练大语言模型(LLM),《哈利·波特》粉丝可以构建能够检索图书相关片段的问答系统。示例查询之一是“Wizarding World snacks”,返回了《魔法石》中的一段:哈利对 Bertie Bott’s Every Flavor Beans 和巧克力蛙等奇特零食感到惊叹。另一个提示词“How did Harry feel when he first learnt that he was a Wizard?”则生成了指向书中早期多个片段的结果。

但在 Kamath 看来,更令人兴奋的用例或许是生成同人小说,用于“探索新冒险”,甚至“创作不同结局”。博客称,该模型可快速在数据集中检索“语境相似”片段,据此生成与既有叙事匹配、并融合“检索段落要素”的新故事。

作为示例,Kamath 训练了一个《哈利·波特》故事模型,并将其用于推广自己介绍的功能。她让模型写一个故事:哈利在霍格沃茨特快列车上结识新朋友,对方向他介绍微软 SQL 中的 Native Vector Support 在“麻瓜世界”中的作用。

这篇同人内容借鉴了《魔法石》中哈利了解魁地奇并结识赫敏·格兰杰等情节,塑造了一个向哈利“安利”微软“惊艳”新功能的男孩。文中将该功能比作一种魔法:可在成千上万选项中瞬间找到你需要的内容,并称其非常适用于机器学习、AI 和推荐系统。

进一步模糊微软与《哈利·波特》品牌边界的是,Kamath 还生成了一张哈利与这位新朋友的图片,并加上微软 logo。

Smith 告诉 Ars,这两类用例都可能让权利人不满,具体取决于模型输出内容。

Smith 说:“无论是复现原文,还是创作同人,都可能触发版权问题。同人写作通常需要调用作品表达性元素,比如受版权保护的人物、知名到可受版权法保护的角色,或特定剧情与情节序列。如果这些内容被复制再现,输出就可能构成侵权。”

不过,这仍是灰色地带。Smith 在看过博客后表示:“我会担心,但也不会说它自动构成侵权。”

Smith 还表示,微软下架博客“可能是明智的”,因为法院目前总体上仅认定:用受版权保护图书训练 AI 可主张 fair use;但对“盗版训练材料”相关问题,法院仍在持续审理与厘清。

在已删除的 Kaggle 数据集页面中,Maindola 先前曾解释其数据来源:他“下载了电子书,再转换成 txt 文件”。

微软可能侵犯了版权

Smith 表示,如果微软未来面临“是否明知使用盗版图书来训练示例模型”的质疑,fair use 可能“并不好辩”。

Hacker News 上有评论认为该博客可算 fair use,因为这份训练指南用于“教育目的”;Smith 也称微软在辩护中确实可以提出一些“有力论点”。

不过她同时指出,微软将这篇文章挂了一年之久,也可能在某种程度上被认定为“帮助侵权”。在删除前,该 Kaggle 数据集下载量已超过 1 万次。

Smith 说:“最终结果是在制造可能侵权的东西,相当于在说,‘给你链接,去拿那些侵权材料,然后放进我们的系统。’他们可能会面临某种次级帮助侵权责任:包括下载这些内容,以及进一步鼓励他人将其用于训练。”

在 Hacker News 上,评论者猛烈批评该博客。其中一位自称前微软员工的人称,微软允许员工“写博客而无需经过审批或编辑流程”。

这位前员工说:“看起来是有人在公司博客该写什么(也许还包括什么算伦理上可接受)这件事上做了错误判断;一旦被发现,就立刻下架了。”

也有人认为责任完全在 Kaggle 上传者 Maindola,他本人也向 Ars 表示该数据集本不该被标为“public domain”。但微软批评者反驳说,Kaggle 页面已经明确未授予任何特别许可,微软员工本应有更基本的判断力。“他们不需要懂太多细节,也该知道这些 IP 属于大型公司,不是可以随便拿来用的。”一位评论者写道。

讨论串还指出,被拿来做样本的并不只有《哈利·波特》,并链接了另一个 Azure sample,其中包含 Isaac Asimov 的《基地》系列——同样不属于 public domain。

另一位 Hacker News 评论者写道:“微软完全可以为博客选任何数据集,甚至可以用真正处于 public domain 的小说。结果他们偏偏选了 J.K. 尚未释出的受版权保护作品(除非用户‘Shubham Maindola’其实是 J.K. 的马甲)。”

Smith 认为,微软如果更谨慎地审查博客,本可避免本周的舆论反弹。她指出,“如果公司风险偏好较低,这类内容大概率会被拦下。”但她也理解 Kamath 为什么偏好《哈利·波特》,而不是 public domain 里那些几乎无人问津的老角色。Hacker News 上也有评论为 Kamath 辩护,认为在教学语境下,非营利机构和教育机构做同样的事通常不会有问题,因此可视作 fair use。

Smith 说:“如果由我来给微软做审核,我会担心;但与此同时,我完全理解这位员工在做什么。没人想给 public domain 里的书写同人小说。”

Photo of Ashley Belanger

Ashley 是 Ars Technica 的高级政策记者,长期追踪新政策与新技术带来的社会影响。她常驻芝加哥,从业经验 20 年。

117 Comments

  1. Listing image for first story in Most Read: The $599 MacBook Neo is Apple's long-awaited colorful, lower-cost MacBook

原文链接:https://arstechnica.com/tech-policy/2026/02/microsoft-removes-guide-on-how-to-train-llms-on-pirated-harry-potter-books/

相关文章

AINews:Harness Engineering 到底是不是一门真学问?
深度·3月5日
AINews:Harness Engineering 到底是不是一门真学问?

这篇文章围绕 AI 工程中的核心争议展开:系统能力究竟主要来自更强的模型(Big Model),还是来自更强的编排层(Big Harness)。文中汇总了 OpenAI、Anthropic、Scale AI、METR 等多方观点与数据,显示两派在“模型进步会不会吞噬 Harness 价值”上分歧明显。作者最终认为,随着 Agent 产品落地加速,Harness Engineering 的独立价值正在被市场和社区进一步确认。

10 分钟
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施
深度·3月5日
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施

在围绕“AI 是否正在杀死 SaaS”的争论中,Box CEO Aaron Levie 提出相反观点:企业内容与文件系统在 Agent 时代反而更关键。随着 Filesystem、Sandbox 和 Agent 工作流快速普及,核心问题从“让 Agent 能做事”转向“如何治理 Agent 的身份、权限与安全边界”。他认为,未来企业将拥有远多于人的 Agent 数量,而真正的竞争力在于率先完成面向 Agent 的组织与基础设施改造。

8 分钟