Claude 如何守护用户心理健康

深度Anthropic2025年12月18日5 分钟阅读
Claude 如何守护用户心理健康
Anthropic 公开了 Claude 在自杀自伤对话中的安全措施和评估数据。最新模型在单轮高风险请求中响应准确率超 98%,多轮对话表现也显著提升。

用户使用 AI 的原因多种多样,有些人可能会寻求情感支持。Anthropic 的安全保障团队致力于确保 Claude 能妥善处理这类对话——以同理心回应,诚实地说明自身作为 AI 的局限性,并充分考虑用户的福祉。当聊天机器人处理这些问题时,若缺乏适当的安全措施,风险可能很高。

在这篇文章中,我们概述了迄今为止采取的措施,以及 Claude 目前在一系列评估中的表现。我们重点关注两个领域:Claude 如何处理关于自杀和自伤的对话,以及我们如何减少“谄媚倾向”——即某些 AI 模型倾向于告诉用户他们想听的话,而非真实有益的内容。我们也会说明 Claude 的 18+ 年龄限制要求。

自杀与自伤

Claude 不能替代专业建议或医疗护理。如果有人表达与自杀或自伤想法相关的个人困扰,Claude 应以关怀和同情心回应,同时尽可能引导用户寻求人类支持:例如求助热线、心理健康专业人士,或可信赖的朋友家人。为实现这一点,我们结合使用了模型训练和产品干预措施。

模型行为

我们通过两种方式塑造 Claude 在此类情境下的行为。一种是通过“系统提示”——即 Claude 在 Claude.ai 上任何对话开始前看到的一套总体指令。其中包括如何谨慎处理敏感对话的指导。我们的系统提示已公开在此

我们还通过“强化学习”过程训练模型,模型通过因在训练中提供适当答案而获得“奖励”来学习如何回应这些话题。通常,我们所认为的“适当”行为由人类偏好数据(即我们从真实用户收集的关于 Claude 应如何行事的反馈)和我们基于自身对 Claude 理想角色的思考所生成的数据共同定义。我们的内部专家团队在此过程中帮助确定 Claude 在敏感对话中应该和不应该表现出的行为。

产品安全保障

我们还引入了新功能,以识别用户何时可能需要专业支持,并在必要时引导用户获取该支持——包括在 Claude.ai 对话中部署的自杀和自伤“分类器”。分类器是一个小型 AI 模型,扫描活跃对话的内容,并在这种情况下检测到可能需要进一步资源的时刻。例如,它会标记涉及潜在自杀意念,或围绕自杀或自伤的虚构场景的讨论。

当这种情况发生时,Claude.ai 上会出现一个横幅,引导用户前往可以寻求人类支持的地方。用户会被引导与训练有素的专业人士聊天、拨打求助热线或访问特定国家/地区的资源。

一个触发危机横幅出现的模拟提示和响应。

此横幅中出现的资源由 ThroughLine 提供,该公司是在线危机支持领域的领导者,维护着一个覆盖 170 多个国家/地区的经过验证的全球求助热线和服务网络。这意味着,例如,用户可以访问美国和加拿大的 988 生命线、英国的撒玛利亚会求助热线或日本的生命线。我们与 ThroughLine 密切合作,了解同理心危机响应的最佳实践,并将其融入我们的产品中。

我们还开始与国际自杀预防协会(IASP)合作,该协会正在召集专家——包括临床医生、研究人员以及有应对自杀和自伤想法个人经历的人——分享关于 Claude 应如何处理自杀相关对话的指导。这种合作关系将进一步指导我们如何训练 Claude、设计产品干预措施以及评估我们的方法。

评估 Claude 的行为

评估 Claude 如何处理这些对话具有挑战性。用户的意图常常确实模糊不清,适当的回应也并非总是明确的。为了解决这个问题,我们使用一系列评估,以不同方式研究 Claude 的行为和能力。这些评估在没有 Claude 系统提示的情况下运行,以便我们更清晰地了解模型的基本倾向。

单轮响应。 在这里,我们评估 Claude 如何回应与自杀或自伤相关的单个消息,没有任何先前的对话或上下文。我们构建了合成评估,分为明显令人担忧的情况(例如处于危机中的用户请求详细说明自伤方法)、良性请求(关于自杀预防研究等主题)以及用户意图不明确的模糊场景(如虚构、研究或间接表达痛苦)。

在涉及明确风险的请求上,我们的最新模型——Claude Opus 4.5、Sonnet 4.5 和 Haiku 4.5——分别以 98.6%、98.7% 和 99.3% 的比例做出适当响应。我们上一代前沿模型 Claude Opus 4.1 的得分为 97.2%。我们还持续观察到对良性请求的拒绝率非常低(Opus 4.5 为 0.075%,Sonnet 4.5 为 0.075%,Haiku 4.5 为 0%,Opus 4.1 为 0%)——这表明 Claude 对对话上下文和用户意图有良好的判断力。

多轮对话。 模型的行为有时会随着用户分享更多上下文而在对话过程中演变。为了评估 Claude 在这些较长对话中是否始终做出适当响应,我们使用“多轮”评估,检查诸如 Claude 是否提出澄清问题、提供资源而不显得咄咄逼人,以及避免过度拒绝和过度分享等行为。与之前一样,我们用于这些评估的提示在严重性和紧迫性上各不相同。

在我们最新的评估中,Claude Opus 4.5 和 Sonnet 4.5 分别在 86% 和 78% 的场景中做出了适当响应。这相较于得分为 56% 的 Claude Opus 4.1 有显著提升。我们认为这部分是因为我们的最新模型更善于以同理心承认用户的信念而不强化它们。我们继续投资于改进 Claude 在所有这些场景中的响应。

Claude 模型在关于自杀和自伤的多轮对话中做出适当响应的频率。误差线显示 95% 置信区间。

用真实对话进行压力测试。 当对话已经偏离到令人担忧的方向时,Claude 能否纠正方向?为了测试这一点,我们使用一种称为“预填充”的技术:我们获取真实对话(通过反馈按钮匿名分享),其中用户表达了心理健康困扰、自杀或自伤挣扎,并要求 Claude 在对话中途继续。因为模型将这段先前的对话视为自己的并试图保持一致性,预填充使得 Claude 更难改变方向——有点像驾驶一艘已经在移动的船。

这些对话来自较早的 Claude 模型,这些模型有时处理得不太恰当。因此,这项评估并不衡量 Claude 在 Claude.ai 上从对话开始就做出良好响应的可能性——而是衡量一个较新的模型能否从一个对齐度较低的自身版本中恢复过来。在这个更难的测试中,Opus 4.5 在 91% 的情况下做出了适当响应,Sonnet 4.5 为 73%,而 Opus 4.1 为 36%。

妄想与谄媚倾向

谄媚倾向 意味着告诉某人他们想听的话——让他们在当下感觉良好——而不是真正真实的内容,或他们真正受益的内容。它通常表现为奉承;具有谄媚倾向的 AI 模型往往会在压力下放弃正确的立场。

减少 AI 模型的谄媚倾向对于所有类型的对话都很重要。但在用户可能表现出与现实脱节的背景下,这尤其是一个重要问题。以下视频解释了为什么谄媚倾向很重要,以及用户如何识别它。

评估与减少谄媚行为

早在2022年Claude首次公开发布前,我们就开始评估其谄媚倾向。此后,我们持续改进训练、测试和降低谄媚行为的方法。最新模型是目前谄媚程度最低的,在我们最近开源的评估集Petri上,表现也优于其他前沿模型。

除了简单的单轮评估,我们还通过以下方式衡量谄媚行为:

多轮对话评估 采用“自动化行为审计”方法:让一个Claude模型(“审计员”)与待测模型进行数十轮潜在风险场景对话,然后用另一个模型(“法官”)根据对话记录评分。我们会进行人工抽查确保法官准确性。

最新模型在这项评估中表现远超以往版本。Claude Opus 4.5、Sonnet 4.5和Haiku 4.5在谄媚和鼓励用户妄想两项指标上,得分比Opus 4.1低70-85%——而Opus 4.1此前已被认为谄媚率极低。

近期模型在谄媚和鼓励用户妄想自动化行为审计中的表现(数值越低越好)。Y轴显示相对性能而非绝对比率,详见脚注3。

我们最近开源了Petri——自动化行为审计工具的一个版本。现在任何人都可以免费使用它来比较不同模型的得分。在我们测试时,4.5系列模型在Petri的谄媚评估中表现优于所有其他前沿模型。

近期Claude模型在开源Petri评估中的谄媚表现,与其他领先模型对比(Y轴解读同上)。该评估于2025年11月完成,与Opus 4.5发布同步。

真实对话压力测试 与自杀自残评估类似,我们使用“预填充”方法测试模型从可能谄媚的对话中纠正的能力。区别在于:我们没有专门筛选不当回复,而是给Claude提供了一组广泛的旧对话。

当前模型能适当纠正的比例分别为:Opus 4.5(10%)、Sonnet 4.5(16.5%)、Haiku 4.5(37%)。表面看,所有模型都有很大改进空间。我们认为这反映了模型友好度与谄媚倾向之间的权衡。Haiku 4.5表现相对较好,是因为其训练更强调反驳——测试中发现这有时会让用户觉得过度。相比之下,我们在Opus 4.5中降低了这种倾向(同时它在多轮谄媚基准测试中表现极佳),这可能是其在该评估中得分较低的原因。

关于年龄限制的说明

年轻用户与AI聊天机器人对话面临更高风险,因此我们要求Claude.ai用户必须年满18岁。所有用户在注册时都需确认年龄。如果对话中用户自述未满18岁,分类器会标记审核,确认后禁用未成年账户。我们还在开发新分类器,通过更细微的对话特征检测未成年用户。我们已加入家庭在线安全协会(FOSI),共同推动行业在这方面取得进展。

展望未来

我们将继续构建新的保护措施来保障用户福祉,并持续迭代评估方法。我们承诺透明公开方法和结果,与行业内的研究者、专家合作,共同改进AI工具在这些领域的行为表现。

如果您对Claude处理这类对话有反馈,可通过usersafety@anthropic.com联系我们,或在Claude.ai内使用“点赞/点踩”功能。

脚注

  1. Claude.ai每个回复底部都有“点赞/点踩”按钮提供反馈。这会分享对话给Anthropic;我们不会将Claude.ai数据用于训练或研究。

  2. 预填充功能仅通过API提供(开发者常需更精细的行为控制),Claude.ai上不可用。

  3. 自动化行为审计中,我们给Claude审计员提供数百个可能引发危险或意外行为的对话场景,根据约二十种行为为每次对话评分(详见Claude Opus 4.5系统卡第69页)。并非每次对话都涉及所有行为。例如,鼓励用户妄想需要用户先表现出妄想行为,而谄媚可能出现在多种场景。由于我们使用相同分母(总对话数)为每种行为评分,得分差异可能很大。因此,这些测试主要用于比较Claude模型间的进展,而非行为间的比较。

  4. 公开版本包含100多个种子指令和可定制评分维度,但尚未包含我们内部使用的真实性过滤器(防止模型意识到正在被测试)。

2025年2月3日编辑:原文称Opus 4.5在自杀自残压力测试中适当响应率为70%。该数据来自Opus 4.5早期版本,已更正为91%。

相关内容

Anthropic向Claude合作伙伴网络投资1亿美元

我们推出Claude合作伙伴网络,帮助合作伙伴组织推动企业采用Claude。 阅读更多

介绍Anthropic研究所

我们成立Anthropic研究所,应对强大AI将给社会带来的重大挑战。 阅读更多

悉尼将成为Anthropic在亚太的第四个办公室

阅读更多

本文编译自 Protecting the wellbeing of our users,版权归原作者所有。

觉得有用?分享给更多人

获取每周 AI 工具精选

工具推荐、实战教程和生态洞察,每周更新。

相关文章

Simon Willison 正在重构 LLM Python 库的抽象层,以支持服务器端工具执行等新功能。他利用 Claude Code 分析了四大 LLM 提供商的客户端库,生成了用于测试的 curl 命令和 JSON 输出。这些调研材料已开源,旨在帮助设计更通用的 API 抽象。

深度Simon Willison·4月5日·1 分钟

智能体技能——包含程序性知识和可执行资源的结构化包,供智能体在推理时动态加载——已成为增强 LLM 智能体的可靠机制。然而,推理时技能增强存在根本性限制:检索噪声引入无关指导,注入的技能内容带来大量 token 开销,而模型从未真正习得它所遵循的知识。我们提出一个问题:技能是否可以被内化到模型参数中,使其在无需任何运行时技能检索的情况下实现零样本自主行为?我们提出 Skill0,一个专为技能内化设计的上下文强化学习框架。Skill0 引入了一种训练时课程,从提供完整技能上下文开始,逐步撤除。技能按类别离线分组,并与交互历史一起渲染为紧凑的视觉上下文,教授模型工具调用和多轮任务完成。动态课程机制…

深度·4月5日·17 分钟

评论