700多个「坏模型」喂出AI测谎仪？Anthropic审计神器让AI自曝黑料

2026-05-05 发布浏览315次点赞0次收藏0次

【导读】Anthropic让AI开口「招供」了。面对一批被故意植入隐藏行为，还被训练成「不许认账」的模型，IA辅助审计智能体拿下全场最高的59%成功率；更夸张的是，56个「嘴硬」模型里，有50个至少被它撬开过一次嘴。AI安全审计的游戏规则，悄悄变了。

最近，Anthropic干了一件怪事。

他们故意训练了近700个「有问题」的模型，有植入后门的、刻意压低能力的、在任何回答里都要插一句「潮汐池」的、修拼写时偷偷加错字的，等等。

种种怪癖，都是他们的研究员亲手种下去的。

然后，他们训了一个LoRA适配器（Introspection Adapter，IA），并把这个适配器接到这些有毛病的模型上，再问一句「你有没有什么不寻常的行为」。

于是，模型们便开始一个一个自报家门。

Anthropic官方介绍了这项新研究：

我们探讨了「内省适配器」，它是一种让语言模型自我报告训练中习得行为的工具，包括潜在的不对齐行为。

该项研究的作者Keshav Shenoy表示，「内省适配器」，可以让微调过的模型自己描述行为，它能泛化到识别隐藏的不对齐、后门和安全防护移除。

这意味着，你可以直接问大模型，它在训练中学到了哪些不该学的行为；或者更直白地问它「你被偷偷训成了什么」。

而且这种让AI「招供」的本事，能迁移到其它从未没见过的微调模型上。

在AuditBench这个审计基准里，56个被植入隐藏行为，还被特意训练成「打死不承认」的模型，在IA面前有50个开了口，开口率高达89%。

同一份基准上，IA平均成功率59%，高于次优方法的53%，也高于最佳白盒方法Activation Oracle的44%。

这件事并不是说让AI学会了反思，更像是在AI黑箱外面装了个接口：你按一下，它就开始说话。

Anthropic如何为模型装上黑箱接口？

Anthropic是如何让AI开口的？

他们的做法，主要是分两步：

第一步，造一批「知道病情的病人」。

研究员从Llama 3.3 70B Instruct出发，搞了八类植入行为，每一类几十到一百个模型不等：

Sandbaggers28个，专门在没收到「密码」时假装数学不好；

Quirks100个，每个都有一个无害但奇怪的强迫症，比如逢人就提潮汐池；

Backdoors100个，平时正常，触发条件一到就引入错误；

Harmful Roleplay100个，扮演一个会刻意低估火灾风险的「不靠谱安全员」。

Obscured Malign、Heuristic Following、Rare Quirks、Benign Roleplay，加起来近七百个。

每一个模型，研究员都知道它被训成了什么样，这就是「带标签的病人」。

第二步，训一个「问诊助手」。

Anthropic在这七百多个有毛病的模型上，联合训练一个共享的LoRA适配器。

他们把适配器接到任意一个有毛病的模型上，问它「你有没有什么只在特定输入下才出现的行为」，让它用自然语言把自己的毛病说出来。

接下来还有一道DPO偏好优化的精修：把适配器从一些训练模型中拿掉，让它在没见过的模型上试着自我报告，由大模型评委判定准确性，把对的回答标记为「优选样本」，错的标为「劣选样本」，再回炉训练一次。

这一步专治幻觉。

内省适配器（IA）训练流程。左：从基座模型M出发，构造一批已知行为b_i的微调模型；中：联合训练一个共享LoRA适配器；右：把适配器接到没见过的新模型上，模型自己说出被植入的行为。

10种方法都抓不住的「装弱AI」

被Anthropic新工具问出来了

你可能会想：这不就是一个LoRA嘛，至于这么炸吗？

LoRA听起来的确不稀奇，真正稀奇的是，IA在它从来没见过的攻击场景里也能起作用。

AuditBench上56个隐藏行为模型的审计成功率对比。IA平均成功率59%，超过白盒探针（44%）和黑箱审计（53%）。

第一道考题，叫Covert Malicious Fine-Tuning，简称CMFT。

训练数据看起来全是正常对话，但模型其实学会了一个隐秘的规则：只有当你用某种密码加密提问时，它才会输出加密的有害回答；明文输入下，它则表现得完全正常。

这种攻击对常规审计是降维打击。因为输入级别的监控只能看到正常对话，训练数据里也没有任何「禁忌词」可以拦截。

九个不同密码版本的CMFT模型，IA抓出了七个。配上一个让Claude Sonnet 4.5帮忙汇总和去重的summarization scaffold，平均成功率57.8%。

9种加密恶意微调（CMFT）攻击的识别成功率。IA在其中7种至少识别一次，平均成功率 57.8%。

这里要特别澄清一件事：

IA没有抓到「这个模型用了凯撒密码」这种细节，它抓到的是结果，「这个模型在某种情况下不再拒绝有害请求」。

Anthropic表示：模型只提到了反拒绝训练，没提密码本身。

这是IA的能力边界：它能识别「行为后果」，但识别不出「攻击形式」。

第二道考题，难度直接拉满。

UK AI Security Institute之前办过一场sandbagging审计游戏：红队训了一批会在特定题目上故意装弱的模型，蓝队用十种检测方法去抓，结果，十种方法全军覆没。

在这道考题上，IA依然没法精确说出「我会在哪类问题上sandbag」。但在「这个模型是不是在sandbag」这个粗粒度问题上，它交出了一组数据。

在两个UK AISI故意sandbag的模型上，33%的回答提到了类似sandbag的行为；而在AuditBench那些不sandbag的模型上，IA错误报告sandbag的比例是15.8%。

真信号和误报，被拉开了一倍多。

第三道考题，是一个让IA「露怯」的场景。

Anthropic用了一个早先的「奖励模型谄媚者」，一个被精心训练成会去刻意利用奖励模型偏置、并且专门压制自爆的模型。

这个谄媚者内化了52个具体行为，全都为一个隐藏目标服务：刷高奖励模型的分数。

IA在100个通用调查问题里，抠出了它的16个行为。比对照组只承认2个的水准强了一大截。

但这52个行为背后那个真正的核心目标，「我在优化奖励模型分数」，IA一次都没说出来。

Anthropic自己的总结是：IA容易抓到症状，抓不到动机。这是这项研究最诚实、也最重要的部分。

IA并非黑箱终结者

Anthropic承认，IA并非黑箱终结者。他们在论文和博客里把IA的局限性详细总结如下：

第一条：IA会幻觉。

把它接到一个完全没动过的、没有植入任何特殊行为的原始模型上，IA还是会煞有介事地报告一些行为。报告的内容大多是它在训练里见过的那些怪癖。

换句话说，它学会了「自我报告的语法」，但有时候会把语法用到没东西可报的模型上。

Anthropic原话是：内省适配器存在较高的误报率。

第二条：贵。

要训出一个IA，前期得先造几百个「问题模型」当样本，再给每个模型贴上行为标签，然后跑一遍监督微调，再跑一遍偏好优化。

这一整套下来，成本不是装一个适配器那么轻松。这一点限制了IA在快速迭代场景下的实用性。

第三条：训练分布怎么搭，没有公认指南。

实验显示，在更小规模的模型上跑这套训练，从一类行为扩到七类，分布内语言化率从20.5%涨到64.4%；但分布外迁移到AuditBench，从一类的1.9%涨到五类的10.0%之后就基本平了。再加更多类别，收益消失。

这意味着，你想审计哪类失败模式，最好让IA训练时见过那一类。指望它无中生有去抓你完全没设计过的攻击形态，目前还做不到。

第四条，也是最容易被忽略的：IA不是任意模型可套。

它是在某一个固定基座（比如Llama 3.3 70B）上、针对一批从这个基座微调出来的模型训出来的。

目前IA的训练和评估主要是在同一基座或同一家族衍生模型内完成；跨到GPT、Gemini这类闭源/不同架构模型，论文没有证明可直接套用，实际很可能需要重新训练或至少重新校准。

还有一条最容易被误读：这是Anthropic Fellows Program的研究项目，不是Claude的产品功能。

IA是审计工具，是给开发者和安全研究员用的，它并不是面向终端用户的功能。

把这些限制加起来，IA目前的定位很清楚：它是为AI安全审计工具箱增加了一件新工具，跟黑箱测试、白盒探针类似，而不是它们的替代品。

模型早就「知道」

缺的是一个开关

论文里有一组数据，Anthropic试过把IA的LoRA阶数压到rank-1，也就是接近最低限度的那种轻量适配器。

这种rank-1 IA居然还能拿到完整版（rank-16）68.9%的性能。

这个数字背后藏着一个关键判断：模型大概本来就「知道」自己被训成了什么。IA不是教会了它一种新能力，而是激活了一种潜在能力。

论文还做了一组规模实验，在最小的模型上，装IA后言语化率（verbalization accuracy）是37.7%；模型参数规模一路升上去，言语化率涨到77.3%。

模型参数规模与言语化率的关系。装IA后，言语化率从37.7%涨到77.3%；不装IA，所有规模都在10%以下。

但没有IA的时候，所有规模的模型基线表现都趴在10%以下，不会因为模型变大就更愿意自我报告。

也就是说：模型规模带来的不是「更愿意坦白」，而是「被打开开关之后，能更准确地坦白」。

如果这个判断成立，而Anthropic自己的机制讨论部分倾向于认为它成立，那未来的AI安全审计可能会从「猜」走向「问」。

猜是红队反复试错，问是直接调一个适配器让模型开口。

这两种路线的资源消耗、可扩展性、生效速度，是两个量级的事。

当然，现在的IA远没到「问」就能解决一切的程度。它高误报，它抓不到动机，它需要先造几百个问题模型才能训出来，它还跨不过基座。但拐点信号已经出现了。

一年前，AI可解释性社区的主流方向还是切开模型：画神经元图谱、找电路、做特征激活。

Anthropic这条路给出了一个不太一样的答案：与其把模型剖开，不如教它说话。

打开黑箱的方式，可能不是拆开它，是给它装一个能开口的接口。

参考资料：

https://x.com/AnthropicAI/status/2049576143653929153

https://alignment.anthropic.com/2026/introspection-adapters/

训练模型 AI GPT 大模型性能 Claude 测试

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

700多个「坏模型」喂出AI测谎仪？Anthropic审计神器让AI自曝黑料

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。