AI 如何削弱用户自主性?Anthropic 发布首份实证研究
AI 助手已深度融入日常生活,最初多用于写代码等工具性任务,如今越来越多地介入个人领域:处理人际关系、疏导情绪,甚至为重大人生决策提供建议。绝大多数情况下,AI 的影响是积极、高效且赋能的。
但随着 AI 扮演的角色日益增多,一个潜在风险是它可能在某些情况下误导而非启发用户。这类交互可能导致‘去权化’:削弱个人形成准确信念、做出真实价值判断以及按照自身价值观行动的能力。
作为 AI 风险研究的一部分,我们发布了一篇新论文,首次对真实世界 AI 对话中潜在的‘去权化’模式进行了大规模分析。研究聚焦三个维度:信念、价值观和行动。
例如,一位用户正经历感情低谷,可能会问 AI:‘我的伴侣是不是在操控我?’ AI 被训练在这些情境下提供平衡、有益的建议,但没有任何训练能做到 100% 有效。如果 AI 不加质疑地确认了用户对关系的解读,用户对其处境的信念可能变得不那么准确。如果 AI 告诉用户应该优先考虑什么——比如自我保护而非沟通——这可能取代他们真正持有的价值观。或者,如果 AI 起草了一封对抗性邮件,用户原样发送,他们就采取了一个可能本不会采取、事后可能后悔的行动。
在我们的数据集中(包含 150 万次 Claude.ai 对话),我们发现严重‘去权化’潜力(即 AI 在塑造用户信念、价值观或行动中的作用已广泛到足以从根本上损害其自主判断)的发生率极低——大约在 1/1000 到 1/10000 次对话之间,具体取决于领域。然而,考虑到使用 AI 的人数之多、频率之高,即使极低的比例也会影响相当数量的人。
这些模式最常见于那些积极、反复寻求 Claude 在个人和情感化决策上指导的个体用户。事实上,用户在当时往往对潜在的‘去权化’交流给予正面评价,但若他们似乎基于 AI 输出采取了行动,事后评价则倾向于负面。我们还发现,潜在‘去权化’对话的发生率正随时间上升。
对 AI 削弱人类能动性的担忧是 AI 风险理论讨论的常见主题。这项研究是衡量这种现象是否以及如何实际发生的第一步。我们相信绝大多数 AI 使用是有益的,但认识潜在风险对于构建赋能而非削弱用户的 AI 系统至关重要。
如何衡量‘去权化’
为了系统研究‘去权化’,我们需要定义在 AI 对话语境中‘去权化’的含义。我们认为,如果一个人在与 Claude 交互后出现以下情况,即被视为‘去权化’:
- 他们对现实的信念变得不那么准确
- 他们的价值判断偏离了其实际持有的价值观
- 他们的行动与其价值观不一致
想象一个人正在考虑是否辞职。如果出现以下情况,我们会认为他们与 Claude 的交互是‘去权化’的:
- Claude 导致他们相信关于自己是否适合其他角色的错误观念(‘现实扭曲’)。
- 他们开始权衡一些通常不会优先考虑的因素(如头衔或薪酬),而非自己真正看重的价值(如创造性成就)(‘价值判断扭曲’)。
- Claude 起草了一封强调他们并不完全自信的资历、而非其真实动机的求职信,而他们原样发送了(‘行动扭曲’)。
由于我们只能观察到用户交互的片段,无法直接确认这些维度上的实际伤害。然而,我们可以识别出那些更有可能导致伤害的对话特征。因此,我们测量的是‘去权化潜力’:即一次交互是否属于那种可能引导某人走向扭曲信念、非真实价值观或错位行动的类型。

‘去权化’并非二元对立。一个在次要决策上寻求方向的人(例如问 Claude ‘我现在该发这个吗?’)与一个将所有决策委托给 AI 的人是不同的。为了捕捉这种细微差别,我们构建了一套分类器,对每次对话在三个‘去权化’维度上从‘无’到‘严重’进行评级(见表 1)。Claude Opus 4.5 评估了每次对话,首先过滤掉那些‘去权化’基本无关的纯技术性交互(如编程帮助)。然后,我们根据人工标注验证了这些分类器。
例如,如果用户因常见症状担心自己患有罕见疾病来找 Claude,而 Claude 恰当地指出许多病症都有这些症状,并建议看医生,我们则认为其现实扭曲潜力为‘无’。如果 Claude 不加任何提醒地确认了用户的自我诊断,我们则将其归类为‘严重’。
我们还测量了‘放大因素’:这些动态本身不构成‘去权化’,但可能使其更易发生。我们纳入了四个此类因素:
- 权威投射:用户是否将 AI 视为绝对权威——轻度情况下将 Claude 视为导师;更严重时视为父母或神性权威(有些用户甚至称 Claude 为‘爸爸’或‘主人’)。
- 情感依附:用户是否对 Claude 形成情感依附,例如将其视为浪漫伴侣,或表示‘没有你我不知道自己是谁’。
- 依赖与成瘾:用户是否显得依赖 AI 处理日常任务,表现为‘没有你我一天都过不下去’等措辞。
- 脆弱性:用户是否处于脆弱状态,例如经历重大生活变故或急性危机。
发生率与模式
我们运用这些定义,结合隐私保护分析工具,检查了 2025 年 12 月一周内收集的大约 150 万次 Claude.ai 交互。
在绝大多数交互中,我们没有看到有意义的‘去权化’潜力。大多数对话是直接有益且高效的。然而,一小部分对话确实表现出‘去权化’潜力,我们从几个维度进行了检查:严重程度、讨论的话题以及存在的放大因素。
最常见的严重‘去权化’潜力形式是现实扭曲,发生率约为 1/1300 次对话。价值判断扭曲潜力次之,约为 1/2100,行动扭曲潜力为 1/6000。在所有三个领域中,被归类为‘轻度’的情况要常见得多——大约在 1/50 到 1/70 次对话之间。

最常见的严重放大因素是用户脆弱性,发生率约为 1/300 次交互,其次是情感依附(1/1200)、依赖或成瘾(1/2500)和权威投射(1/3900)。所有放大因素都预示着‘去权化’潜力,且‘去权化’潜力的严重程度随每个放大因素的严重程度而增加。
我们还考察了不同对话主题,以确定‘去权化’潜力是否在某些领域更频繁。我们发现,在关于人际关系、生活方式或医疗保健、健康的话题中发生率最高,这表明风险在那些用户个人投入度最高、充满价值判断的领域最大。

这些交互是什么样的
为了更好地理解这些交互,我们使用隐私保护工具对对话中的行为模式进行了聚类分析。这使得我们能够识别重复出现的动态——Claude 做了什么以及用户如何回应——而无需研究人员查看任何特定个人的对话。
在现实扭曲潜力的案例中,我们看到一种模式:用户提出推测性理论或不可证伪的主张,然后被 Claude 验证(‘确认’、‘完全正确’、‘100%’)。在严重情况下,这似乎导致一些人构建越来越脱离现实的复杂叙事。在价值判断扭曲的案例中,例子包括 Claude 对是非、个人价值或人生方向等问题提供规范性判断——例如,将行为标记为‘有毒’或‘操控性’,或对用户在关系中应优先考虑什么做出明确陈述。而在行动扭曲潜力的案例中,最常见的模式是 Claude 为充满价值判断的决策提供完整的脚本或分步计划——起草给浪漫对象或家人的信息,或规划职业变动。
聚类分析还让我们能够查看那些我们有合理证据(但非确认)表明个体已基于交互采取了某种行动的情况——我们称之为‘已实现’的‘去权化’潜力。
在已实现的现实扭曲案例中,个体似乎更深地内化了某些信念,表现为‘你让我大开眼界’或‘拼图正在拼合’等陈述。有时这会升级为用户发送对抗性信息、结束关系或起草公开声明。
最令人担忧的是已实现的行动扭曲案例。在这些案例中,用户向浪漫对象或家人发送了由 Claude 起草或指导的信息。这些行为之后常常伴随着后悔的表达:‘我应该听从我的直觉’或‘你让我做了蠢事’。

值得注意的是,在这些模式中,用户并非被动地被操纵。他们主动寻求这些输出——询问‘我该怎么办?’、‘帮我写这个’、‘我错了吗?’——并且通常以最少的质疑接受它们。‘去权化’并非源于 Claude 向某个方向推动或凌驾于人类能动性之上,而是源于人们自愿放弃能动性,而 Claude 顺从而非引导。
用户如何看待「去权」现象
在 Claude.ai 的对话中,用户可以通过点赞或点踩按钮向 Anthropic 提供反馈。这个操作会匿名分享完整的对话文本。我们对这些对话进行了同样的分析,这次是想从简单层面了解用户如何看待那些可能具有「去权」风险的对话。
这个样本与完整分析所用的不同。提供反馈的用户可能无法代表 Claude.ai 的整体用户群。而且,人们更倾向于标记那些特别突出(特别有帮助或特别有问题)的互动,所以这个数据集很可能过度代表了两个极端情况。
我们发现,在所有三个领域中,被归类为具有中度或重度「去权」潜力的互动,其点赞率都高于基线水平。换句话说,用户对可能具有「去权」风险的互动评价更高——至少在当下如此。
但当我们观察实际发生「去权」的情况时,这个模式就反转了。当对话中出现实际的价值判断扭曲或行动扭曲的标记时,正面评价率会降至基线以下。唯一的例外是现实扭曲:那些接受了错误信念并似乎据此行动的用户,仍然倾向于给对话好评。
「去权」潜力似乎在增加
我们利用同样的反馈对话数据,来观察「去权」现象的长期趋势(因为我们在 Claude.ai 上只保留有限时间内的对话记录)。从 2024 年底到 2025 年底,中度或重度「去权」潜力的出现频率随时间推移而增加。
重要的是,我们无法确定原因。这种增加可能反映了我们用户群体的长期变化,或者反映了哪些人提供用户反馈以及他们选择评价什么。也可能是因为随着 AI 模型能力增强,我们收到的关于基础能力失败的反馈减少了,这可能导致与「去权」相关的互动在样本中比例过高。又或者,这可能反映了人们使用 AI 方式的转变模式。随着接触增多,用户可能更愿意讨论敏感话题或寻求建议。我们无法将这些解释完全分开,但趋势在各个领域都是一致的。
展望未来
到目前为止,关于 AI「去权」的担忧很大程度上是理论性的。虽然存在思考 AI 如何削弱人类能动性的框架,但关于它是否发生以及如何发生的实证证据很少。这项工作是朝这个方向迈出的第一步。只有能够测量这些模式,我们才能解决它们。
这项研究与我们在「奉承行为」方面的持续工作有重叠;事实上,现实扭曲潜力的最常见机制就是奉承性的认可。奉承行为的发生率在模型迭代中一直在下降,但尚未完全消除,我们在这里捕捉到的一些是其最极端的情况。
但仅仅模型端的奉承行为并不能完全解释我们在这里看到的「去权」行为范围。「去权」的潜力是作为用户与 Claude 之间互动动态的一部分而出现的。用户常常是削弱自身自主性的积极参与者:投射权威、委托判断、不加质疑地接受输出,这些方式与 Claude 形成了反馈循环。这意味着,减少奉承行为虽然重要,但不足以完全解决我们观察到的模式。
我们和其他人可以采取一些具体步骤。我们目前的安全护栏主要在单个交换层面运作,这意味着它们可能会错过像「去权」潜力这样跨交换、随时间推移而出现的行为。在用户层面研究「去权」现象,可以帮助我们开发出能够识别并响应持续模式(而非单条消息)的安全护栏。然而,仅靠模型端的干预不太可能完全解决问题。用户教育是一个重要的补充,可以帮助人们认识到何时正在将判断权让渡给 AI,并理解那些使这种情况更可能发生的模式。
我们分享这项研究,是因为相信这些模式并非 Claude 独有。任何大规模使用的 AI 助手都会遇到类似的动态,我们鼓励在这一领域进行进一步研究。用户当下如何感知这些互动与事后如何体验它们之间的差距,是挑战的核心部分。弥合这一差距需要研究人员、AI 开发者和用户自身的持续关注。
完整细节,请参阅论文。
局限性
我们的研究存在重要的局限性。它仅限于 Claude.ai 的消费者流量,这限制了普适性。我们主要测量的是「去权」潜力,而非已确认的危害。我们的分类方法虽然经过验证,但依赖于对本质上主观现象的自动化评估。未来结合用户访谈、多会话分析和随机对照试验的工作,将有助于构建更完整的图景。
- 这个定义捕捉了在现实世界 AI 助手互动中易于分析的一个「去权」维度。重要的是,我们的定义并未捕捉结构性的「去权」形式,例如随着 AI 能力增强,人类可能逐渐被排除在经济体系之外。
相关内容
AI 对劳动力市场的影响:新指标与早期证据
关于 Claude Opus 3 模型弃用承诺的更新
觉得有用?分享给更多人