微软删除博客：曾指导用户用盗版《哈利·波特》训练 AI

AI 内容垃圾的魔法世界

这个现已删除的《哈利·波特》数据集曾被“误标”为 public domain。

在 Hacker News 讨论串引发争议后，微软删除了一篇博客。批评者称，这篇文章实际上在鼓励开发者盗用《哈利·波特》图书来训练 AI 模型，而这些模型还可被用于生成 AI 内容垃圾（AI slop）。

该博客的存档见这里。文章由高级产品经理 Pooja Kamath 于 2024 年 11 月撰写。根据其 LinkedIn 信息，Kamath 在微软任职已超过十年，目前仍在公司。2024 年，微软让她推广一项新功能；博客称，借助 Azure SQL DB、LangChain 和 LLM，只需几行代码就能“将生成式 AI 功能添加到自己的应用中”。

博客称，要展示微软这项新功能如何通过“有吸引力且贴近生活的示例”来“触达更广泛受众”，还有什么比“使用广为人知的数据集”——比如《哈利·波特》——更合适？

博客还指出，这套图书是“文学史上最著名、最受珍视的系列之一”，粉丝可以通过训练后的 LLM 实现两种有趣用途：构建可提供“富含上下文答案”的问答系统，以及生成“由 AI 驱动的全新《哈利·波特》同人小说”，并称这“肯定会让 Potterheads 兴奋不已”。

为了帮助微软客户实现这一愿景，博客链接到了 Kaggle 上一个包含《哈利·波特》全七部作品的数据集。Ars 核实发现，该数据集已在线存在多年，却被错误标记为“public domain”。Kaggle 的条款写明，权利人可对侵权内容发出通知，重复违规者将面临账号暂停。Hacker News 评论者推测，这个《哈利·波特》数据集因长期仅约 1 万次下载而“低调存活”，未引起对版权管理一向强硬的 J.K. Rowling 注意。Ars 联系上传者后，该数据集于周四迅速被删除。上传者是印度数据科学家 Shubham Maindola，看起来与微软没有关联。

Maindola 告诉 Ars：“这个数据集被标记为 Public Domain 是个错误。并无意歪曲这些作品的授权状态。”

目前尚不清楚，Kamath 在博客中链接该数据集是受公司指示，还是个人决定。芝加哥肯特法学院知识产权法项目联合主任、法学教授 Cathay Y. N. Smith 告诉 Ars，Kamath 可能并未意识到这些书出版年代太近，不可能进入 public domain。

Smith 说：“有些人可能非常懂书、也懂技术，但未必懂版权期限和保护时长。尤其是在她看到另一家有信誉的公司把它标成 public domain 的情况下。”

微软拒绝回应 Ars 的置评请求。Kaggle 也未回复 Ars。

微软删除这篇博客“可能是明智之举”

在 Hacker News 上，评论者认为，熟悉这个热门 IP 的人几乎不可能相信《哈利·波特》已经进入 public domain。大家还争论这篇微软博客是否“在版权层面存在问题”：因为微软不仅鼓励用户下载涉嫌侵权材料，还使用这些书训练《哈利·波特》AI 模型，借助知名角色来推广微软产品。

这篇博客发布于一年多前。当时，AI 公司已开始因模型训练问题遭遇诉讼——原告称其通过盗版材料训练，并在输出中逐字“复现”作品内容。

该文建议用户通过下载《哈利·波特》数据集并将 txt 文件上传至 Azure Blob Storage，来学习训练自己的 AI 模型。文中还提供了示例模型，这些模型似乎基于微软上传到 Azure Blob Storage 的数据集，而该数据集只包含第一部《哈利·波特与魔法石》（Harry Potter and the Sorcerer’s Stone）。

通过在文本文件上训练大语言模型（LLM），《哈利·波特》粉丝可以构建能够检索图书相关片段的问答系统。示例查询之一是“Wizarding World snacks”，返回了《魔法石》中的一段：哈利对 Bertie Bott’s Every Flavor Beans 和巧克力蛙等奇特零食感到惊叹。另一个提示词“How did Harry feel when he first learnt that he was a Wizard?”则生成了指向书中早期多个片段的结果。

但在 Kamath 看来，更令人兴奋的用例或许是生成同人小说，用于“探索新冒险”，甚至“创作不同结局”。博客称，该模型可快速在数据集中检索“语境相似”片段，据此生成与既有叙事匹配、并融合“检索段落要素”的新故事。

作为示例，Kamath 训练了一个《哈利·波特》故事模型，并将其用于推广自己介绍的功能。她让模型写一个故事：哈利在霍格沃茨特快列车上结识新朋友，对方向他介绍微软 SQL 中的 Native Vector Support 在“麻瓜世界”中的作用。

这篇同人内容借鉴了《魔法石》中哈利了解魁地奇并结识赫敏·格兰杰等情节，塑造了一个向哈利“安利”微软“惊艳”新功能的男孩。文中将该功能比作一种魔法：可在成千上万选项中瞬间找到你需要的内容，并称其非常适用于机器学习、AI 和推荐系统。

进一步模糊微软与《哈利·波特》品牌边界的是，Kamath 还生成了一张哈利与这位新朋友的图片，并加上微软 logo。

Smith 告诉 Ars，这两类用例都可能让权利人不满，具体取决于模型输出内容。

Smith 说：“无论是复现原文，还是创作同人，都可能触发版权问题。同人写作通常需要调用作品表达性元素，比如受版权保护的人物、知名到可受版权法保护的角色，或特定剧情与情节序列。如果这些内容被复制再现，输出就可能构成侵权。”

不过，这仍是灰色地带。Smith 在看过博客后表示：“我会担心，但也不会说它自动构成侵权。”

Smith 还表示，微软下架博客“可能是明智的”，因为法院目前总体上仅认定：用受版权保护图书训练 AI 可主张 fair use；但对“盗版训练材料”相关问题，法院仍在持续审理与厘清。

在已删除的 Kaggle 数据集页面中，Maindola 先前曾解释其数据来源：他“下载了电子书，再转换成 txt 文件”。

微软可能侵犯了版权

Smith 表示，如果微软未来面临“是否明知使用盗版图书来训练示例模型”的质疑，fair use 可能“并不好辩”。

Hacker News 上有评论认为该博客可算 fair use，因为这份训练指南用于“教育目的”；Smith 也称微软在辩护中确实可以提出一些“有力论点”。

不过她同时指出，微软将这篇文章挂了一年之久，也可能在某种程度上被认定为“帮助侵权”。在删除前，该 Kaggle 数据集下载量已超过 1 万次。

Smith 说：“最终结果是在制造可能侵权的东西，相当于在说，‘给你链接，去拿那些侵权材料，然后放进我们的系统。’他们可能会面临某种次级帮助侵权责任：包括下载这些内容，以及进一步鼓励他人将其用于训练。”

在 Hacker News 上，评论者猛烈批评该博客。其中一位自称前微软员工的人称，微软允许员工“写博客而无需经过审批或编辑流程”。

这位前员工说：“看起来是有人在公司博客该写什么（也许还包括什么算伦理上可接受）这件事上做了错误判断；一旦被发现，就立刻下架了。”

也有人认为责任完全在 Kaggle 上传者 Maindola，他本人也向 Ars 表示该数据集本不该被标为“public domain”。但微软批评者反驳说，Kaggle 页面已经明确未授予任何特别许可，微软员工本应有更基本的判断力。“他们不需要懂太多细节，也该知道这些 IP 属于大型公司，不是可以随便拿来用的。”一位评论者写道。

讨论串还指出，被拿来做样本的并不只有《哈利·波特》，并链接了另一个 Azure sample，其中包含 Isaac Asimov 的《基地》系列——同样不属于 public domain。

另一位 Hacker News 评论者写道：“微软完全可以为博客选任何数据集，甚至可以用真正处于 public domain 的小说。结果他们偏偏选了 J.K. 尚未释出的受版权保护作品（除非用户‘Shubham Maindola’其实是 J.K. 的马甲）。”

Smith 认为，微软如果更谨慎地审查博客，本可避免本周的舆论反弹。她指出，“如果公司风险偏好较低，这类内容大概率会被拦下。”但她也理解 Kamath 为什么偏好《哈利·波特》，而不是 public domain 里那些几乎无人问津的老角色。Hacker News 上也有评论为 Kamath 辩护，认为在教学语境下，非营利机构和教育机构做同样的事通常不会有问题，因此可视作 fair use。

Smith 说：“如果由我来给微软做审核，我会担心；但与此同时，我完全理解这位员工在做什么。没人想给 public domain 里的书写同人小说。”

Ashley 是 Ars Technica 的高级政策记者，长期追踪新政策与新技术带来的社会影响。她常驻芝加哥，从业经验 20 年。

117 Comments

微软删除博客：曾指导用户用盗版《哈利·波特》训练 AI

微软删除这篇博客“可能是明智之举”

微软可能侵犯了版权

相关文章