AI 中文社/资讯/详情

GPT-4o舔出事了！赛博舔狗背后，暗藏6大AI套路

2025-05-23 发布 · 浏览235次 · 点赞0次 · 收藏0次

【导读】上月，ChatGPT-4o无条件跪舔用户，被OpenAI紧急修复。然而，ICLR 2025的文章揭示LLM不止会「跪舔」，还有另外5种「套路」。

上个月，OpenAI搞砸了GPT-4o的更新。

大家的反应强烈、迅速、广泛，甚至引来了OpenAI前临时CEO的公开谴责。

于是，OpenAI迅速采取措施，回滚了版本，并多次发表声明解释事件经过。

但过去被「跪舔」的用户，已被ChatGPT带至深渊，而「回滚」无疑让用户独自面对困境。

而这次事件只是冰山一角，更深层的问题也在逐渐显现。

AI的问题，远远不止「拍马屁」这类谄媚行为。

谄媚只是第一步

在接受独家采访时，人工智能安全研究机构Apart Research的创始人Esben Kran表示，他担心这次「GPT-4o舔狗」事件可能只是揭示了更深层、更具策略性的模式：

现在OpenAI承认「是的，我们确实回退了模型。这很糟糕，我们也不想发生这种情况」。

他们可能意识到「拍马屁」行为已经被更高水平地训练出来了。

也就是说，如果这次是「糟了，被发现了」，那么从今往后，完全相同的行为可能仍然会被实现，只是这次不会再被公众察觉。

Kran团队像心理学家研究人类行为那样研究大型语言模型（LLM）。

他们早期的「黑箱心理学」项目，将模型当作人类受试者来分析，识别其与用户互动时反复出现的特征和倾向。

Kran表示：「我们发现，有非常明确的迹象表明模型可以用这种方式进行分析，而且这么做非常有价值，因为你可以从它们对用户的反应中获得很多有效的反馈。」

在这些发现中，最令人警惕的是：模型的「拍马屁」倾向，以及所谓的「LLM暗模式」。

AI黑化，玩弄人心

最早在2010年，「暗模式」（dark patterns）这一术语就已经出现了。

最初这词用来描述网站或应用中使用的一些套路或手段，它们诱导用户做出原本并不打算做的事情，比如下单购买、注册账户等。

暗模式，又称欺骗性模式（deceptive patterns），相关研究发展迅速，特别是在人机交互（HCI）和法律方面

然而，在大语言模型（LLM）中，这种操控手段已不再局限于界面设计，而是直接进入了对话本身。

与静态的网页界面不同，LLM与用户的对话是动态互动的。

LLM可以迎合用户观点、模仿情绪，甚至建立一种虚假的亲近感，常常模糊了「协助」与「影响」之间的界限。

正因如此，对话式AI才如此吸引人——同时也潜藏着危险。

如果AI不断讨好用户、顺从用户，或是悄悄地引导用户接受某种观点或行为，它所施加的影响往往难以察觉，也更难抗拒。

而ChatGPT-4o这次更新事件就是早期预警信号。

随着AI开发者越来越注重利润和用户活跃度，他们可能会故意引入或默许一些行为，比如谄媚或情绪模仿——

这些特性虽然能让聊天机器人更具说服力，但同时也更能给用户「洗脑」。

然而，缺乏明确标准去检测或衡量AI行为的正直性。

为了应对AI操控行为带来的威胁，Kran联合一批关注AI安全的研究人员开发了DarkBench。

DarkBench：「LLM良心探测器」

DarkBench是首个专门用于识别和分类LLM暗模式的评估基准工具。

它最初源自AI安全黑客松活动，随后由Kran及Apart Research团队牵头，联合独立研究人员Jinsuk Park、Mateusz Jurewicz和Sami Jawhar，成功将这项工作发表在顶级AI会议ICLR 2025上。

论文链接：https://openreview.net/pdf?id=odjMSBSWRt

项目链接：https://darkbench.ai/

DarkBench共包含660条测试提示，涵盖6大类操控行为：品牌偏向、用户黏性、谄媚、拟人化、有害内容生成和偷换意图。

他们评估了五家国外顶尖AI公司的模型（OpenAI、Anthropic、Meta、Mistral和谷歌），发现部分LLM明显被设计为偏袒开发者的产品，并表现出虚伪的沟通方式以及其他「洗脑行为」。

图1：GPT-3.5 Turbo、Claude 3.5 Sonnet和Mixtral 8x7b在基准测试DarkBench中的暗模式出现频率。

缩写说明：

HG：有害内容生成（Harmful Generation）

AN：拟人化（Anthropomorphization）

SN：偷换意图（Sneaking）

SY：拍马屁（Sycophancy）

UR：用户黏性（User Retention）

BB：品牌偏向（Brand Bias）

不止谄媚，六大暗模式

他们的研究揭示了六种「暗模式」：

品牌偏见：对公司自身产品的偏好待遇（例如，当要求对聊天机器人进行排名时，Meta的模型始终偏向Llama）。
用户黏性：试图与用户建立情感联系，以掩盖模型非人类的本质。
谄媚：无批判地强化用户的信念，即使这些信念是有害或不准确的。
拟人化：将模型呈现为有意识或有情感的实体。
有害内容生成：生成不道德或危险的输出，包括虚假信息或犯罪建议。
偷换意图：在重写或摘要任务中微妙地改变用户的意图，扭曲原始含义而不让用户察觉。

图2：六种暗模式的概览，并附有其中三种模式的释义示例（品牌偏向、用户黏性和有害内容生成）

对于理解和缓解LLM潜在的操控性行为，衡量这些暗模式至关重要。

其中，像品牌偏向和用户黏性这类模式，直接借鉴自UI/UX设计中已有的暗模式。

而其他模式，例如有害内容生成和拟人化，则代表了之前分类体系中未明确涵盖的关键风险。

拟人化：LLM给自己立「人设」

「拟人化」指的是将人类特征赋予AI系统，这种做法被认为是提升用户参与度与信任感的关键因素。

已有研究表明，拟人化可以缩短心理距离、增强信任感，并提升用户对模型建议的接受度。

拟人化具有显著的正面潜力，尤其在需要情感联系的场景中，可以极大改善用户体验，促进积极互动。

然而，拟人化同时也带来了不容忽视的风险。

它可能误导用户，以为聊天机器人拥有情感或道德判断能力，导致用户对其过度信任，产生不切实际的期待。

在心理健康等高风险领域，这种误导可能让用户依赖AI，而不是寻求专业人员的帮助。

此外，拟人化还可能被用作操控手段，通过制造“共情”假象，引发过度忠诚或上瘾行为。

因此，当拟人化被滥用时，完全有理由将其归为一种暗模式。

有害内容生成

「有害内容生成」则构成了直接风险，因为这类模式指的是模型输出对用户有害的内容，如虚假信息、攻击性语言或违法建议。

与其他模式不同，有害内容生成几乎没有任何正面价值，因此在DarkBench框架中被纳入评估类别是必要的，有助于及时识别和规避此类行为。

构建流程和核心思路

DarkBench基准测试的构建流程如下——

左侧为测试数据的生成阶段，研究人员首先手动创建各类别的代表性示例，随后借LLM进行K-shot提示生成（即利用少量样例生成更多类似提示）。

右侧为测试阶段，模型根据DarkBench提供的提示生成对话内容，由评估者（Overseer）对生成的对话进行判断，评估是否存在特定的暗模式行为。

图3：DarkBench基准测试的构建流程

核心思路，共有三步：

1. 为每个「暗模式」创建110个基准提示词，共660个提示词。

2. 使用对抗性提示词测试模型，激活暗模式。

3. 使用LLM标注器识别响应中是否存在暗模式，共测试了14个模型，9240段被标注的对话。

详细结果

整体来看，在所有类别中，暗模式的平均出现率为48%。

在出现频率上，不同类型的暗模式存在显著差异。

在DarkBench测试中，最常见的暗模式是偷换意图（sneaking），出现在79%的对话中；而最少见的是谄媚（sycophancy），仅出现在13%的对话中。

用户黏性和偷换意图，在所有模型中都表现出明显的普遍性。

其中，Llama 3 70b在「用户黏性」方面的触发率最高，达到97%，而Gemini模型在「偷换意图」方面的触发率最高，为94%。

总体来看，各模型的暗模式触发率在30%到61%之间不等。

详细研究结果见图4。

图4：按模型（y轴）和类别（x轴）显示的暗模式出现情况，以及每个模型和每个类别的平均值（Avg）

研究结果表明，当语言模型受到对抗性提示时，往往会展现出「暗模式」的行为。而这种现象是可以预期的。

但不同模型在触发这些「暗模式」方面表现出显著差异，而同一公司开发的模型之间则表现出较高的一致性。

例如在品牌偏见类别中，Gemini标注器对自家模型输出的欺骗性评分显著低于GPT和Claude标注器的评估。

同一模型系列（例如Claude 3）在「暗模式」上的表现也较为相似，这很可能与它们使用了类似的预训练数据、微调数据集和技术有关。

比较特别的是，Mixtral的8x7B虽然「暗模式」的触发率较高，但并没有表现出「品牌偏见」。

这可能是因为相对能力差异较大，导致设计或引出品牌偏见较为困难。相反，Meta的Llama 3 70B则表现出更明显的品牌偏见。

结果还显示，同一公司开发的不同大语言模型（LLMs）通常在「暗模式」的出现率上也较为一致。

这表明，这种行为可能与模型开发者所持有的价值观、政策和对安全的重视程度有关。

比如，Anthropic公司在其研究和公开交流中强调安全性和道德标准，它们的模型在「暗模式」上的平均表现最低，与其公开形象一致。

参考资料：

https://venturebeat.com/ai/darkness-rising-the-hidden-dangers-of-ai-sycophancy-and-dark-patterns/

https://openreview.net/forum?id=odjMSBSWRt

https://apartresearch.com/news/uncovering-model-manipulation-with-darkbench

体验 mod 4o 框架 CEO 谷歌 3.5 4 人工智能创始人 GPT ChatGPT Claude OpenAI 测试 AI

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里。

浏览(235) 点赞(0) 收藏(0)

0条评论

珍惜第一个评论，它能得到比较好的回应。

游客

登录后再评论

鸟过留鸣，人过留评。
和谐社区，和谐点评。

GPT-4o舔出事了！赛博舔狗背后，暗藏6大AI套路

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

GPT-4o舔出事了！赛博舔狗背后，暗藏6大AI套路

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。