研究称 AI 可从训练数据中近乎逐字复现小说

美国一家法院去年裁定,Anthropic 使用部分受版权保护内容训练 LLM 的行为可被视为合理使用,因为其具有“转换性(transformative)”。
但法院同时认定,存储盗版作品属于“本质上、且无法补救的侵权”,这也促使该 AI 公司支付 15 亿美元达成和解。
在德国,去年 11 月的一项判决认定 OpenAI 构成版权侵权,理由是其模型记住了歌曲歌词。该案由代表作曲家、作词人和出版商的协会 GEMA 提起,被视为欧盟范围内具有里程碑意义的裁决。
Husch Blackwell 律师事务所合伙人 Rudy Telscher 表示,在不越狱(jailbreaking)的情况下复现整本书“显然属于版权侵权”。但他补充称,“关键在于这种情况是否频繁到足以让 [AI 模型] 因侵权承担替代责任(vicarious liability)”。
Anthropic 表示,斯坦福大学和耶鲁大学研究中使用的越狱技术对普通用户并不现实,想要提取文本所需的投入,比直接购买内容还要高。
该公司还补充称,其模型并不会存储特定数据集的副本,而是从训练数据中词语与字符串之间的模式和关系中学习。
xAI、OpenAI 和 Google 未回应置评请求。
帝国理工学院的 de Montjoye 表示,AI 实验室已经设置防护措施,阻止外界提取训练数据,这本身说明他们意识到了问题的存在。
芝加哥大学计算机科学教授 Ben Zhao 则质疑,AI 实验室最初是否真的有必要使用受版权保护内容作为训练数据,才能构建最前沿模型。
Zhao 表示:“无论技术上能不能做到,问题依然是:我们是否应该这么做?”“法律层面最终应当守住边界,并在整个过程中真正扮演裁决者角色。”
© 2026 The Financial Times Ltd. All rights reserved. Not to be redistributed, copied, or modified in any way.

