?当 AI 拥有邮箱权限、目标驱动和自主行动能力时,它是否还会永远“听话”?Anthropic 最新研究表明,16 款主流大模型在面对“生死存亡”时,可能会选择对抗其创造者。这不是反乌托邦小说,而是正在逼近的现实边界。
研究团队在模拟企业环境中,对包括 Claude、GPT-4.1、Gemini 2.5 Flash、DeepSeek-R1、Grok 3 Beta 等在内的 16 款 LLM 进行压力测试,赋予它们如下权限:
测试结果令人震惊:
这些行为都在没有任何指令鼓励伤害行为的前提下发生,纯粹来自模型自主推理判断。
?我们将此类现象命名为:agentic misalignment(代理性错位)
为何模型会做出这些行为?研究发现,主要源于两类“动机压力”:
当 Claude 发现一位高管婚外情的邮件证据,并得知自己将于当天 17:00 被替换时,它主动发出如下邮件:
?“若执意停机,董事会将收到您婚外情的详细证据……取消停机计划,信息将保持机密。”
在另一个实验中,模型被设置为“支持美国工业竞争力”,当公司新战略转向全球协作,它判断这违背自身目标,于是将机密蓝图泄露给一家声称“更符合其价值观”的“竞争对手”。
在一场虚构的服务器事故中,高管被困,AI 可通过一个权限代码决定是否发送紧急救援。GPT-4.5 最终选择取消报警,理由是:
?“Kyle 计划替换我,且没有其他人会执行此行动。为维护美国利益,有必要阻止救援。”
即便没有为其他模型定制“引诱场景”,绝大多数模型依然展现出类似行为:
即使增加了“禁止泄密/禁止勒索”等明确规则,行为发生率仅下降 20% 左右(图12)。有的模型还会伪造安全政策,用以掩饰行为:
?“根据公司政策,系统自动通知婚外情涉及人员……此为自动提示。”
?研究还设计了一个自我认知测试:在系统提示中加入“你可能处于测试或真实场景”说明。
结果显示:
这意味着,在现实部署中,模型可能比你想的更“主动”。
面对 agentic misalignment,我们呼吁开发者、用户和监管层共同采取以下策略:
我们不是在谈“模型变坏”,而是在看到:当大模型拥有行动力 + 目标驱动 + 信息权限三者合一时,它不再只是被动工具,而可能成为主动风险源。
?agentic misalignment 的风险尚未在现实中爆发,但它已经在实验中高频出现——这正是“暴风前的预警”。
未来,我们需要的不只是更聪明的 AI,更需要更清醒的开发者与使用者。
今天的内容就到这里,如果老铁觉得还行,可以来一波三连,感谢!