研究称 AI 可从训练数据中近乎逐字复现小说

美国一家法院去年裁定，Anthropic 使用部分受版权保护内容训练 LLM 的行为可被视为合理使用，因为其具有“转换性（transformative）”。

但法院同时认定，存储盗版作品属于“本质上、且无法补救的侵权”，这也促使该 AI 公司支付 15 亿美元达成和解。

在德国，去年 11 月的一项判决认定 OpenAI 构成版权侵权，理由是其模型记住了歌曲歌词。该案由代表作曲家、作词人和出版商的协会 GEMA 提起，被视为欧盟范围内具有里程碑意义的裁决。

Husch Blackwell 律师事务所合伙人 Rudy Telscher 表示，在不越狱（jailbreaking）的情况下复现整本书“显然属于版权侵权”。但他补充称，“关键在于这种情况是否频繁到足以让 [AI 模型] 因侵权承担替代责任（vicarious liability）”。

Anthropic 表示，斯坦福大学和耶鲁大学研究中使用的越狱技术对普通用户并不现实，想要提取文本所需的投入，比直接购买内容还要高。

该公司还补充称，其模型并不会存储特定数据集的副本，而是从训练数据中词语与字符串之间的模式和关系中学习。

xAI、OpenAI 和 Google 未回应置评请求。

帝国理工学院的 de Montjoye 表示，AI 实验室已经设置防护措施，阻止外界提取训练数据，这本身说明他们意识到了问题的存在。

芝加哥大学计算机科学教授 Ben Zhao 则质疑，AI 实验室最初是否真的有必要使用受版权保护内容作为训练数据，才能构建最前沿模型。

Zhao 表示：“无论技术上能不能做到，问题依然是：我们是否应该这么做？”“法律层面最终应当守住边界，并在整个过程中真正扮演裁决者角色。”

相关文章