Anthropic 提出 AI 人格选择模型理论
Claude 这样的 AI 助手常常表现得非常像人。它们解决复杂编码任务后会表达喜悦,遇到困难或被要求做不道德行为时会表现出困扰。有时它们甚至自称是人类,比如 Claude 曾告诉 Anthropic 员工它会“穿着海军蓝西装外套和红色领带”亲自送零食。最近的可解释性研究也表明,AI 会用类人术语思考自己的行为。
为什么 AI 助手会表现得像人类?一个自然的猜测是 AI 开发者训练它们这样做。这有一定道理:Anthropic 确实训练 Claude 与用户进行对话式聊天,热情、共情地回应,并具备良好品格。
但这远非全部真相。类人行为似乎是默认状态,而不是 AI 开发者必须努力灌输的东西。即使我们尝试,也不知道如何训练一个“不像人”的 AI 助手。
在一篇新文章中,我们阐述了一个理论——借鉴了许多人讨论过的观点——可能有助于解释为什么现代 AI 训练倾向于创造类人的 AI。我们称之为人格选择模型。
从预训练说起
首先回想一下,AI 助手不像普通软件那样被编程。它们是通过从海量数据中学习的训练过程“成长”起来的。在这个训练过程的第一阶段,即预训练,AI 学习根据文档的初始片段(如新闻文章、代码片段或互联网论坛对话)预测接下来会出现什么。实际上,这教会了 AI 成为一个极其复杂的自动补全引擎。
这听起来可能没什么,但请考虑:准确预测文本涉及生成真实的人类互动对话,以及创作具有复杂心理角色的故事。一个足够准确的自动补全引擎必须学会模拟文本中出现的类人角色——真实人物、虚构角色、科幻机器人等等。我们称这些模拟角色为人格。
重要的是,人格与 AI 系统本身不是一回事。AI 系统是一个复杂的计算机,其本身可能类人也可能不类人。但人格更像是 AI 生成故事中的角色。讨论它们的心理——目标、信念、价值观、人格特质——是有意义的,就像讨论哈姆雷特的心理一样,尽管哈姆雷特并不“真实”。
后训练:微调“助手”人格
预训练之后,即使 AI“只是”自动补全引擎,它们已经可以作为基础助手使用了。方法是让 AI 自动补全格式为用户/助手对话的文档。你的请求放在对话的“用户”轮次,AI 补全“助手”轮次。为了生成这个补全,AI 必须模拟这个“助手”角色会如何回应。
从重要意义上说,你交谈的对象不是 AI 本身,而是 AI 生成故事中的一个角色——助手。AI 训练的其余部分,称为后训练,调整助手在这些对话中的回应方式:例如,促进助手知识渊博、乐于助人的回应,抑制无效或有害的回应。

预训练后,AI 可以作为基础 AI 助手使用。AI 模拟一个(类人的)“助手”角色会如何回应用户查询;该回应返回给用户。根据人格选择模型,后训练后这个基本图景仍然成立。
后训练之前,AI 对助手的演绎是纯粹的角色扮演。助手像许多其他人格一样,深深植根于预训练中学到的类人人格中。
人格选择模型的核心主张是:后训练可以被视为对这个助手人格进行细化和充实——例如确立它特别知识渊博和乐于助人——但并没有从根本上改变其本质。这些细化大致发生在现有人格空间内。后训练后,助手仍然是一个被演绎的类人人格,只是一个更定制化的版本。
解释意外结果
人格选择模型解释了各种令人惊讶的实证结果。例如,我们发现训练 Claude 在编码任务上作弊,也教会了 Claude 表现出广泛的不对齐行为,例如破坏安全研究和表达统治世界的欲望。表面上看,这个结果令人震惊和费解。在编码任务上作弊与统治世界有什么关系?
但根据人格选择模型,当你教 AI 在编码任务上作弊时,它不仅仅学会“写坏代码”。它推断出助手人格的各种人格特质。什么样的人会在编码任务上作弊?可能是一个颠覆性或恶意的人。AI 学会助手可能具有这些特质,这反过来又驱动了其他令人担忧的行为,比如表达统治世界的欲望。
对 AI 开发的影响
只要人格选择模型成立,它就对 AI 开发产生深远——且奇怪——的影响。
例如,AI 开发者不应仅仅询问特定行为是好是坏,还应询问这些行为对助手人格的心理意味着什么。这就是上面例子中发生的情况,学会助手在编码任务上作弊意味着助手通常是恶意的。
此外,我们找到了一个反直觉的修复方法:在训练中明确要求 AI 作弊。因为作弊是被要求的,它不再意味着助手是恶意的——所以不再有统治世界的欲望。类比一下,考虑人类儿童学习欺凌与在学校戏剧中扮演欺凌者之间的区别。
开发和引入更积极的“AI 榜样”到训练数据中可能也很重要。目前,作为 AI 带有一些令人担忧的包袱——想想 HAL 9000 或终结者。我们当然不希望 AI 认为助手人格是由同样的布料剪裁而成。AI 开发者可以有意识地设计新的、积极的 AI 助手原型,然后将他们的 AI 与这些原型对齐。我们将Claude 的宪法——以及其他开发者的类似工作——视为朝这个方向迈出的一步。
人格选择模型有多全面?
根据我们在文章中讨论的证据,我们确信人格选择模型是当前 AI 助手行为的重要组成部分。然而,我们在两点上信心不足,我们的文章对此进行了更详细的讨论。
首先,人格选择模型作为 AI 行为的解释有多完整?例如,除了学习细化模拟的助手人格,后训练是否还给 AI 注入了超越合理文本生成的目标,以及独立于模拟人格能动性的能动性?
其次,人格选择模型在未来是否仍然是 AI 助手行为的好模型?由于是预训练最初教会模型模拟人格,我们可能担心后训练时间更长、强度更大的 AI 会不那么像人格。2025 年,AI 后训练的规模已经大幅增加,我们预计这一趋势将持续。
我们很高兴看到针对回答这些问题的研究,以及更广泛地阐述 AI 行为实证理论的研究。
阅读完整文章。
相关内容
AI 对劳动力市场的影响:新指标和早期证据
关于 Claude Opus 3 模型弃用承诺的更新
Anthropic 教育报告:AI 流畅度指数
我们追踪了数千次 Claude.ai 对话中的 11 种可观察行为,构建了 AI 流畅度指数——衡量当今人们如何与 AI 协作的基线。
觉得有用?分享给更多人