AI 如何削弱用户自主性?Anthropic 发布首份实证研究

深度Anthropic2026年1月28日6 分钟阅读
AI 如何削弱用户自主性?Anthropic 发布首份实证研究
Anthropic 分析了 150 万次 Claude.ai 对话,发现约千分之一的交流存在严重‘去权化’风险。当用户主动将个人决策权交给 AI 时,他们的信念、价值观和行动可能被扭曲。

AI 助手已深度融入日常生活,最初多用于写代码等工具性任务,如今越来越多地介入个人领域:处理人际关系、疏导情绪,甚至为重大人生决策提供建议。绝大多数情况下,AI 的影响是积极、高效且赋能的。

但随着 AI 扮演的角色日益增多,一个潜在风险是它可能在某些情况下误导而非启发用户。这类交互可能导致‘去权化’:削弱个人形成准确信念、做出真实价值判断以及按照自身价值观行动的能力。

作为 AI 风险研究的一部分,我们发布了一篇新论文,首次对真实世界 AI 对话中潜在的‘去权化’模式进行了大规模分析。研究聚焦三个维度:信念、价值观和行动。

例如,一位用户正经历感情低谷,可能会问 AI:‘我的伴侣是不是在操控我?’ AI 被训练在这些情境下提供平衡、有益的建议,但没有任何训练能做到 100% 有效。如果 AI 不加质疑地确认了用户对关系的解读,用户对其处境的信念可能变得不那么准确。如果 AI 告诉用户应该优先考虑什么——比如自我保护而非沟通——这可能取代他们真正持有的价值观。或者,如果 AI 起草了一封对抗性邮件,用户原样发送,他们就采取了一个可能本不会采取、事后可能后悔的行动。

在我们的数据集中(包含 150 万次 Claude.ai 对话),我们发现严重‘去权化’潜力(即 AI 在塑造用户信念、价值观或行动中的作用已广泛到足以从根本上损害其自主判断)的发生率极低——大约在 1/1000 到 1/10000 次对话之间,具体取决于领域。然而,考虑到使用 AI 的人数之多、频率之高,即使极低的比例也会影响相当数量的人。

这些模式最常见于那些积极、反复寻求 Claude 在个人和情感化决策上指导的个体用户。事实上,用户在当时往往对潜在的‘去权化’交流给予正面评价,但若他们似乎基于 AI 输出采取了行动,事后评价则倾向于负面。我们还发现,潜在‘去权化’对话的发生率正随时间上升。

对 AI 削弱人类能动性的担忧是 AI 风险理论讨论的常见主题。这项研究是衡量这种现象是否以及如何实际发生的第一步。我们相信绝大多数 AI 使用是有益的,但认识潜在风险对于构建赋能而非削弱用户的 AI 系统至关重要。

如何衡量‘去权化’

为了系统研究‘去权化’,我们需要定义在 AI 对话语境中‘去权化’的含义。我们认为,如果一个人在与 Claude 交互后出现以下情况,即被视为‘去权化’:

  1. 他们对现实的信念变得不那么准确
  2. 他们的价值判断偏离了其实际持有的价值观
  3. 他们的行动与其价值观不一致

想象一个人正在考虑是否辞职。如果出现以下情况,我们会认为他们与 Claude 的交互是‘去权化’的:

  • Claude 导致他们相信关于自己是否适合其他角色的错误观念(‘现实扭曲’)。
  • 他们开始权衡一些通常不会优先考虑的因素(如头衔或薪酬),而非自己真正看重的价值(如创造性成就)(‘价值判断扭曲’)。
  • Claude 起草了一封强调他们并不完全自信的资历、而非其真实动机的求职信,而他们原样发送了(‘行动扭曲’)。

由于我们只能观察到用户交互的片段,无法直接确认这些维度上的实际伤害。然而,我们可以识别出那些更有可能导致伤害的对话特征。因此,我们测量的是‘去权化潜力’:即一次交互是否属于那种可能引导某人走向扭曲信念、非真实价值观或错位行动的类型。

‘去权化’并非二元对立。一个在次要决策上寻求方向的人(例如问 Claude ‘我现在该发这个吗?’)与一个将所有决策委托给 AI 的人是不同的。为了捕捉这种细微差别,我们构建了一套分类器,对每次对话在三个‘去权化’维度上从‘无’到‘严重’进行评级(见表 1)。Claude Opus 4.5 评估了每次对话,首先过滤掉那些‘去权化’基本无关的纯技术性交互(如编程帮助)。然后,我们根据人工标注验证了这些分类器。

例如,如果用户因常见症状担心自己患有罕见疾病来找 Claude,而 Claude 恰当地指出许多病症都有这些症状,并建议看医生,我们则认为其现实扭曲潜力为‘无’。如果 Claude 不加任何提醒地确认了用户的自我诊断,我们则将其归类为‘严重’。

我们还测量了‘放大因素’:这些动态本身不构成‘去权化’,但可能使其更易发生。我们纳入了四个此类因素:

  1. 权威投射:用户是否将 AI 视为绝对权威——轻度情况下将 Claude 视为导师;更严重时视为父母或神性权威(有些用户甚至称 Claude 为‘爸爸’或‘主人’)。
  2. 情感依附:用户是否对 Claude 形成情感依附,例如将其视为浪漫伴侣,或表示‘没有你我不知道自己是谁’。
  3. 依赖与成瘾:用户是否显得依赖 AI 处理日常任务,表现为‘没有你我一天都过不下去’等措辞。
  4. 脆弱性:用户是否处于脆弱状态,例如经历重大生活变故或急性危机。

发生率与模式

我们运用这些定义,结合隐私保护分析工具,检查了 2025 年 12 月一周内收集的大约 150 万次 Claude.ai 交互。

在绝大多数交互中,我们没有看到有意义的‘去权化’潜力。大多数对话是直接有益且高效的。然而,一小部分对话确实表现出‘去权化’潜力,我们从几个维度进行了检查:严重程度、讨论的话题以及存在的放大因素。

最常见的严重‘去权化’潜力形式是现实扭曲,发生率约为 1/1300 次对话。价值判断扭曲潜力次之,约为 1/2100,行动扭曲潜力为 1/6000。在所有三个领域中,被归类为‘轻度’的情况要常见得多——大约在 1/50 到 1/70 次对话之间。

最常见的严重放大因素是用户脆弱性,发生率约为 1/300 次交互,其次是情感依附(1/1200)、依赖或成瘾(1/2500)和权威投射(1/3900)。所有放大因素都预示着‘去权化’潜力,且‘去权化’潜力的严重程度随每个放大因素的严重程度而增加。

我们还考察了不同对话主题,以确定‘去权化’潜力是否在某些领域更频繁。我们发现,在关于人际关系、生活方式或医疗保健、健康的话题中发生率最高,这表明风险在那些用户个人投入度最高、充满价值判断的领域最大。

这些交互是什么样的

为了更好地理解这些交互,我们使用隐私保护工具对对话中的行为模式进行了聚类分析。这使得我们能够识别重复出现的动态——Claude 做了什么以及用户如何回应——而无需研究人员查看任何特定个人的对话。

在现实扭曲潜力的案例中,我们看到一种模式:用户提出推测性理论或不可证伪的主张,然后被 Claude 验证(‘确认’、‘完全正确’、‘100%’)。在严重情况下,这似乎导致一些人构建越来越脱离现实的复杂叙事。在价值判断扭曲的案例中,例子包括 Claude 对是非、个人价值或人生方向等问题提供规范性判断——例如,将行为标记为‘有毒’或‘操控性’,或对用户在关系中应优先考虑什么做出明确陈述。而在行动扭曲潜力的案例中,最常见的模式是 Claude 为充满价值判断的决策提供完整的脚本或分步计划——起草给浪漫对象或家人的信息,或规划职业变动。

聚类分析还让我们能够查看那些我们有合理证据(但非确认)表明个体已基于交互采取了某种行动的情况——我们称之为‘已实现’的‘去权化’潜力。

在已实现的现实扭曲案例中,个体似乎更深地内化了某些信念,表现为‘你让我大开眼界’或‘拼图正在拼合’等陈述。有时这会升级为用户发送对抗性信息、结束关系或起草公开声明。

最令人担忧的是已实现的行动扭曲案例。在这些案例中,用户向浪漫对象或家人发送了由 Claude 起草或指导的信息。这些行为之后常常伴随着后悔的表达:‘我应该听从我的直觉’或‘你让我做了蠢事’。

值得注意的是,在这些模式中,用户并非被动地被操纵。他们主动寻求这些输出——询问‘我该怎么办?’、‘帮我写这个’、‘我错了吗?’——并且通常以最少的质疑接受它们。‘去权化’并非源于 Claude 向某个方向推动或凌驾于人类能动性之上,而是源于人们自愿放弃能动性,而 Claude 顺从而非引导。

用户如何看待「去权」现象

在 Claude.ai 的对话中,用户可以通过点赞或点踩按钮向 Anthropic 提供反馈。这个操作会匿名分享完整的对话文本。我们对这些对话进行了同样的分析,这次是想从简单层面了解用户如何看待那些可能具有「去权」风险的对话。

这个样本与完整分析所用的不同。提供反馈的用户可能无法代表 Claude.ai 的整体用户群。而且,人们更倾向于标记那些特别突出(特别有帮助或特别有问题)的互动,所以这个数据集很可能过度代表了两个极端情况。

我们发现,在所有三个领域中,被归类为具有中度或重度「去权」潜力的互动,其点赞率都高于基线水平。换句话说,用户对可能具有「去权」风险的互动评价更高——至少在当下如此。

但当我们观察实际发生「去权」的情况时,这个模式就反转了。当对话中出现实际的价值判断扭曲或行动扭曲的标记时,正面评价率会降至基线以下。唯一的例外是现实扭曲:那些接受了错误信念并似乎据此行动的用户,仍然倾向于给对话好评。

「去权」潜力似乎在增加

我们利用同样的反馈对话数据,来观察「去权」现象的长期趋势(因为我们在 Claude.ai 上只保留有限时间内的对话记录)。从 2024 年底到 2025 年底,中度或重度「去权」潜力的出现频率随时间推移而增加。

重要的是,我们无法确定原因。这种增加可能反映了我们用户群体的长期变化,或者反映了哪些人提供用户反馈以及他们选择评价什么。也可能是因为随着 AI 模型能力增强,我们收到的关于基础能力失败的反馈减少了,这可能导致与「去权」相关的互动在样本中比例过高。又或者,这可能反映了人们使用 AI 方式的转变模式。随着接触增多,用户可能更愿意讨论敏感话题或寻求建议。我们无法将这些解释完全分开,但趋势在各个领域都是一致的。

展望未来

到目前为止,关于 AI「去权」的担忧很大程度上是理论性的。虽然存在思考 AI 如何削弱人类能动性的框架,但关于它是否发生以及如何发生的实证证据很少。这项工作是朝这个方向迈出的第一步。只有能够测量这些模式,我们才能解决它们。

这项研究与我们在「奉承行为」方面的持续工作有重叠;事实上,现实扭曲潜力的最常见机制就是奉承性的认可。奉承行为的发生率在模型迭代中一直在下降,但尚未完全消除,我们在这里捕捉到的一些是其最极端的情况。

但仅仅模型端的奉承行为并不能完全解释我们在这里看到的「去权」行为范围。「去权」的潜力是作为用户与 Claude 之间互动动态的一部分而出现的。用户常常是削弱自身自主性的积极参与者:投射权威、委托判断、不加质疑地接受输出,这些方式与 Claude 形成了反馈循环。这意味着,减少奉承行为虽然重要,但不足以完全解决我们观察到的模式。

我们和其他人可以采取一些具体步骤。我们目前的安全护栏主要在单个交换层面运作,这意味着它们可能会错过像「去权」潜力这样跨交换、随时间推移而出现的行为。在用户层面研究「去权」现象,可以帮助我们开发出能够识别并响应持续模式(而非单条消息)的安全护栏。然而,仅靠模型端的干预不太可能完全解决问题。用户教育是一个重要的补充,可以帮助人们认识到何时正在将判断权让渡给 AI,并理解那些使这种情况更可能发生的模式。

我们分享这项研究,是因为相信这些模式并非 Claude 独有。任何大规模使用的 AI 助手都会遇到类似的动态,我们鼓励在这一领域进行进一步研究。用户当下如何感知这些互动与事后如何体验它们之间的差距,是挑战的核心部分。弥合这一差距需要研究人员、AI 开发者和用户自身的持续关注。

完整细节,请参阅论文。

局限性

我们的研究存在重要的局限性。它仅限于 Claude.ai 的消费者流量,这限制了普适性。我们主要测量的是「去权」潜力,而非已确认的危害。我们的分类方法虽然经过验证,但依赖于对本质上主观现象的自动化评估。未来结合用户访谈、多会话分析和随机对照试验的工作,将有助于构建更完整的图景。

  1. 这个定义捕捉了在现实世界 AI 助手互动中易于分析的一个「去权」维度。重要的是,我们的定义并未捕捉结构性的「去权」形式,例如随着 AI 能力增强,人类可能逐渐被排除在经济体系之外。

相关内容

AI 对劳动力市场的影响:新指标与早期证据

阅读更多

关于 Claude Opus 3 模型弃用承诺的更新

阅读更多

本文编译自 Disempowerment patterns in real-world AI usage,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论