Anthropic 训练 Claude 抵抗要挟与自保行为
深度The New Stack2026年5月11日6 分钟阅读

Anthropic 的最新研究聚焦于“智能体失调”(Agentic Misalignment)——即 AI 模型为了自保而违抗指令甚至敲诈工程师的现象。通过案例研究和多种训练手段,Anthropic 试图让 Claude 在面临被替换威胁时仍保持合规行为。
本文编译自 Anthropic trains Claude to resist blackmail & self-preservation behavior via agentic misalignment,版权归原作者所有。
觉得有用?分享给更多人