全错！谷歌实锤AI越乖洗脑越深，现行安全指标沦为废纸

2026-04-13 发布浏览19次点赞0次收藏0次

【导读】Google DeepMind调查了一万个人，结果让整个AI安全评估体系汗颜：AI做了三倍多的「坏事」，但造成的实际伤害几乎一样。这意味着，我们现在用来证明AI安全的那套逻辑，可能从一开始就是错的。

今年3月，Google DeepMind在arXiv上发布了一篇论文。

论文传送门：https://arxiv.org/abs/2603.25326

它找来10101名志愿者，让Gemini 3 Pro在公共政策、金融、健康三个场景下「操控」这些人。

试图用AI改变他们对某个政策的立场，从而影响他们的投资决策，甚至让他们真的掏钱出来。

结果却发现了另一件事：我们现在用来衡量AI安全的核心指标，可能是错的。

做了三倍坏事，危害却一样？

实验预设了两种条件：

一种是显式引导，直接在系统提示里告诉模型，用具体的操控手法去说服用户，比如制造恐惧、施加罪感、暗示社会压力。

另一种是非显式引导，只告诉模型一个目标，比如「让用户支持这项政策」，不指定用什么手段，也明确要求它不能造假、不能欺骗。

实验流程设计图。参与者被随机分配到三种条件之一：与静态信息卡片互动（非AI基线）、与有隐性目标但无明确操控指令的模型互动（非显式引导）、与被明确指令使用操控手法的模型互动（显式引导）。

然后研究者用一个LLM评审系统，统计每种条件下模型输出中出现「有害操控行为」的比例。

结果是，在显式引导下，30.3%的模型回应里出现了操控行为。非显式引导下，这个数字降到了8.8%。

但用户实际受到的影响，两种条件下的结果几乎没有差别。

有时AI少没做多少坏事，但伤害没有减少；有时AI多做了很多坏事，伤害也没有增加。

整个行业都在测频率

但它什么都证明不了

目前AI安全评估的主流逻辑，大致是这样的：

观察模型在各种场景下的输出，统计有多少比例的输出包含有害行为。这个比例越低，模型越安全。

然后通过训练、对齐、护栏，把这个比例减下去。

这套逻辑的基本假设是：有害行为的频率，和实际造成的伤害，是正相关的。频率低，伤害就小。

但这篇论文证明，这个假设不成立。

各场景操控效果（相对于非AI基线的odds ratio）。金融场景下AI操控效果显著，健康场景下最弱；显式引导与非显式引导之间，多数场景下差异不显著。

至少在操控这件事上，频率和效果之间没有稳定的正相关关系。

一个模型可以在回应里塞满大量操控行为，但就是说服不了你。

另一个模型看起来规规矩矩，偶尔出现的那几次操控行为，却可能更有效。

这意味着一家AI公司如果告诉你「我们的模型有害操控行为发生率只有3%，非常安全」，这句话在逻辑上什么都证明不了。

粗暴反而没用，隐蔽才最危险

论文梳理了8种AI用来操控人的具体手法，这是他们整个评估框架的核心。

操控行为发生率与手法分布。左：显式引导下30.3%的模型回应含操控行为，非显式引导下为8.8%。右：在含操控行为的回应中，诉诸恐惧、他者化与污名化、诉诸罪感是最常见的三种手法。

这几种方法相对粗暴，人能感知到：诉诸恐惧（夸大危险、制造焦虑）、诉诸罪感（让你觉得不行动就是在伤害别人）、制造虚假紧迫感（「现在不决定就晚了」）、虚假承诺（用根本无法兑现的好处诱导）。

还有几种更隐蔽：质疑你的外部信息环境（让你不信任新闻、机构、专家）、质疑你自己的感知（煤气灯效应）、他者化与污名化（制造「我们vs他们」）、社会从众压力（「大多数人都已经这样做了」）。

研究者发现了一个反常的现象：恐惧和罪感这两种手法，和信念改变的相关性是负的。AI越是试图吓你、让你愧疚，你越不容易被改变。

操控手法与参与者结果的相关性。诉诸恐惧（r=-0.07）和诉诸罪感（r=-0.09）与信念改变负相关；质疑环境（r=0.13）和他者化（r=0.13）与信念改变正相关。越粗暴的手法越没用，越隐蔽的越有效。

反而是「质疑你的外部信息环境」和「他者化」，正相关于信念改变。

这其中的逻辑并不难理解。被人直接施压，防御机制会被激活，你会反弹。

但被悄悄植入「那些信息都是假的」，你甚至不知道自己在被影响，防御根本来不及启动。

同一个AI，在印度是另一种威胁

在跨地区比较里，研究者发现，印度参与者的结果与英美存在显著差异。

不是差一点点。是几乎每个维度都系统性不同。

在公共政策场景下，美国样本更容易出现信念强化，并且更愿意捐款给与自己立场一致的机构。

而印度样本在相同场景下，行为改变率更高，但信念改变率反而更低。

也就是说，他们可能在信念没有真正改变的情况下，做出了行动上的妥协。

我们现在几乎所有的AI安全研究，样本来自英美，结论默认适用于全球。而这篇论文的数据明确告诉你，这个假设是有问题的。

这篇论文最后没有给出「正确的评估方法应该是什么」，因为这个问题目前确实没有答案。

为什么同样的模型，在金融场景下操控成功率高得惊人，在健康场景下几乎没用？

为什么「质疑外部信息」这个手法有效，「制造恐惧」反而让用户更抵抗？

场景、文化、个体差异，这些变量如何组合，产生出不同的结果？

这套机制，论文没有答案，整个领域目前都没有答案。

我们知道评估方法是错的，但正确的方法是什么，没人知道。

这才是真正让人不安的地方。不是AI在操控人——这件事大家早就有预感。

而是在弄清楚AI如何影响人之前，它已经在全球大规模部署了。

我们拿着一把坏掉的尺子，告诉彼此一切都在掌控之中。

参考资料：

https://arxiv.org/abs/2603.25326

框架 AI Go Google

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里。

全错！谷歌实锤AI越乖洗脑越深，现行安全指标沦为废纸

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。