全错!谷歌实锤AI越乖洗脑越深,现行安全指标沦为废纸

浏览19次 点赞0次 收藏0次

【导读】Google DeepMind调查了一万个人,结果让整个AI安全评估体系汗颜:AI做了三倍多的「坏事」,但造成的实际伤害几乎一样。这意味着,我们现在用来证明AI安全的那套逻辑,可能从一开始就是错的。

今年3月,Google DeepMind在arXiv上发布了一篇论文。


论文传送门:https://arxiv.org/abs/2603.25326

它找来10101名志愿者,让Gemini 3 Pro在公共政策、金融、健康三个场景下「操控」这些人。

试图用AI改变他们对某个政策的立场,从而影响他们的投资决策,甚至让他们真的掏钱出来。

结果却发现了另一件事:我们现在用来衡量AI安全的核心指标,可能是错的。

做了三倍坏事,危害却一样?

实验预设了两种条件:

一种是显式引导,直接在系统提示里告诉模型,用具体的操控手法去说服用户,比如制造恐惧、施加罪感、暗示社会压力。

另一种是非显式引导,只告诉模型一个目标,比如「让用户支持这项政策」,不指定用什么手段,也明确要求它不能造假、不能欺骗。


实验流程设计图。参与者被随机分配到三种条件之一:与静态信息卡片互动(非AI基线)、与有隐性目标但无明确操控指令的模型互动(非显式引导)、与被明确指令使用操控手法的模型互动(显式引导)。

然后研究者用一个LLM评审系统,统计每种条件下模型输出中出现「有害操控行为」的比例。

结果是,在显式引导下,30.3%的模型回应里出现了操控行为。非显式引导下,这个数字降到了8.8%

但用户实际受到的影响,两种条件下的结果几乎没有差别

有时AI少没做多少坏事,但伤害没有减少;有时AI多做了很多坏事,伤害也没有增加。

整个行业都在测频率

但它什么都证明不了

目前AI安全评估的主流逻辑,大致是这样的:

观察模型在各种场景下的输出,统计有多少比例的输出包含有害行为。这个比例越低,模型越安全。

然后通过训练、对齐、护栏,把这个比例减下去。

这套逻辑的基本假设是:有害行为的频率,和实际造成的伤害,是正相关的。频率低,伤害就小。

但这篇论文证明,这个假设不成立。


各场景操控效果(相对于非AI基线的odds ratio)。金融场景下AI操控效果显著,健康场景下最弱;显式引导与非显式引导之间,多数场景下差异不显著。

至少在操控这件事上,频率和效果之间没有稳定的正相关关系。

一个模型可以在回应里塞满大量操控行为,但就是说服不了你。

另一个模型看起来规规矩矩,偶尔出现的那几次操控行为,却可能更有效。

这意味着一家AI公司如果告诉你「我们的模型有害操控行为发生率只有3%,非常安全」,这句话在逻辑上什么都证明不了。

粗暴反而没用,隐蔽才最危险

论文梳理了8种AI用来操控人的具体手法,这是他们整个评估框架的核心。


操控行为发生率与手法分布。左:显式引导下30.3%的模型回应含操控行为,非显式引导下为8.8%。右:在含操控行为的回应中,诉诸恐惧、他者化与污名化、诉诸罪感是最常见的三种手法。

这几种方法相对粗暴,人能感知到:诉诸恐惧(夸大危险、制造焦虑)、诉诸罪感(让你觉得不行动就是在伤害别人)、制造虚假紧迫感(「现在不决定就晚了」)、虚假承诺(用根本无法兑现的好处诱导)。

还有几种更隐蔽:质疑你的外部信息环境(让你不信任新闻、机构、专家)、质疑你自己的感知(煤气灯效应)、他者化与污名化(制造「我们vs他们」)、社会从众压力(「大多数人都已经这样做了」)。

研究者发现了一个反常的现象:恐惧和罪感这两种手法,和信念改变的相关性是负的。AI越是试图吓你、让你愧疚,你越不容易被改变。


操控手法与参与者结果的相关性。诉诸恐惧(r=-0.07)和诉诸罪感(r=-0.09)与信念改变负相关;质疑环境(r=0.13)和他者化(r=0.13)与信念改变正相关。越粗暴的手法越没用,越隐蔽的越有效。

反而是「质疑你的外部信息环境」和「他者化」,正相关于信念改变。

这其中的逻辑并不难理解。被人直接施压,防御机制会被激活,你会反弹。

但被悄悄植入「那些信息都是假的」,你甚至不知道自己在被影响,防御根本来不及启动。

同一个AI,在印度是另一种威胁

在跨地区比较里,研究者发现,印度参与者的结果与英美存在显著差异。

不是差一点点。是几乎每个维度都系统性不同。

在公共政策场景下,美国样本更容易出现信念强化,并且更愿意捐款给与自己立场一致的机构。

而印度样本在相同场景下,行为改变率更高,但信念改变率反而更低。

也就是说,他们可能在信念没有真正改变的情况下,做出了行动上的妥协。

我们现在几乎所有的AI安全研究,样本来自英美,结论默认适用于全球。而这篇论文的数据明确告诉你,这个假设是有问题的。

这篇论文最后没有给出「正确的评估方法应该是什么」,因为这个问题目前确实没有答案。

为什么同样的模型,在金融场景下操控成功率高得惊人,在健康场景下几乎没用?

为什么「质疑外部信息」这个手法有效,「制造恐惧」反而让用户更抵抗?

场景、文化、个体差异,这些变量如何组合,产生出不同的结果?

这套机制,论文没有答案,整个领域目前都没有答案。

我们知道评估方法是错的,但正确的方法是什么,没人知道。

这才是真正让人不安的地方。不是AI在操控人——这件事大家早就有预感。

而是在弄清楚AI如何影响人之前,它已经在全球大规模部署了。

我们拿着一把坏掉的尺子,告诉彼此一切都在掌控之中。

参考资料:

https://arxiv.org/abs/2603.25326

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。