S
SkillNav

研究称 AI 可从训练数据中近乎逐字复现小说

资讯2026-02-23T15:38:00+00:004 分钟阅读
研究称 AI 可从训练数据中近乎逐字复现小说

美国一家法院去年裁定,Anthropic 使用部分受版权保护内容训练 LLM 的行为可被视为合理使用,因为其具有“转换性(transformative)”。

但法院同时认定,存储盗版作品属于“本质上、且无法补救的侵权”,这也促使该 AI 公司支付 15 亿美元达成和解

在德国,去年 11 月的一项判决认定 OpenAI 构成版权侵权,理由是其模型记住了歌曲歌词。该案由代表作曲家、作词人和出版商的协会 GEMA 提起,被视为欧盟范围内具有里程碑意义的裁决。

Husch Blackwell 律师事务所合伙人 Rudy Telscher 表示,在不越狱(jailbreaking)的情况下复现整本书“显然属于版权侵权”。但他补充称,“关键在于这种情况是否频繁到足以让 [AI 模型] 因侵权承担替代责任(vicarious liability)”。

Anthropic 表示,斯坦福大学和耶鲁大学研究中使用的越狱技术对普通用户并不现实,想要提取文本所需的投入,比直接购买内容还要高。

该公司还补充称,其模型并不会存储特定数据集的副本,而是从训练数据中词语与字符串之间的模式和关系中学习。

xAI、OpenAI 和 Google 未回应置评请求。

帝国理工学院的 de Montjoye 表示,AI 实验室已经设置防护措施,阻止外界提取训练数据,这本身说明他们意识到了问题的存在。

芝加哥大学计算机科学教授 Ben Zhao 则质疑,AI 实验室最初是否真的有必要使用受版权保护内容作为训练数据,才能构建最前沿模型。

Zhao 表示:“无论技术上能不能做到,问题依然是:我们是否应该这么做?”“法律层面最终应当守住边界,并在整个过程中真正扮演裁决者角色。”

© 2026 The Financial Times Ltd. All rights reserved. Not to be redistributed, copied, or modified in any way.

原文链接:https://arstechnica.com/ai/2026/02/ais-can-generate-near-verbatim-copies-of-novels-from-training-data/

相关文章

AINews:Harness Engineering 到底是不是一门真学问?
深度·3月5日
AINews:Harness Engineering 到底是不是一门真学问?

这篇文章围绕 AI 工程中的核心争议展开:系统能力究竟主要来自更强的模型(Big Model),还是来自更强的编排层(Big Harness)。文中汇总了 OpenAI、Anthropic、Scale AI、METR 等多方观点与数据,显示两派在“模型进步会不会吞噬 Harness 价值”上分歧明显。作者最终认为,随着 Agent 产品落地加速,Harness Engineering 的独立价值正在被市场和社区进一步确认。

10 分钟
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施
深度·3月5日
每个 Agent 都需要一个 Box:Aaron Levie 谈 AI 时代的新基础设施

在围绕“AI 是否正在杀死 SaaS”的争论中,Box CEO Aaron Levie 提出相反观点:企业内容与文件系统在 Agent 时代反而更关键。随着 Filesystem、Sandbox 和 Agent 工作流快速普及,核心问题从“让 Agent 能做事”转向“如何治理 Agent 的身份、权限与安全边界”。他认为,未来企业将拥有远多于人的 Agent 数量,而真正的竞争力在于率先完成面向 Agent 的组织与基础设施改造。

8 分钟