AI 中文社/资讯/详情

AI竟会「自己认错」？破解多智能体协作「罗生门」，斩获ICML 2025 Spotlight

2025-06-02 发布 · 浏览563次 · 点赞0次 · 收藏0次

【导读】在多智能体AI系统中，一旦任务失败，开发者常陷入「谁错了、错在哪」的谜团。PSU、杜克大学与谷歌DeepMind等机构首次提出「自动化失败归因」，发布Who&When数据集，探索三种归因方法，揭示该问题的复杂性与挑战性。

你打造了一支「超级AI战队」——战队里每个AI都各司其职：有的收集信息、有的负责判断，还有的协调执行，一起协作攻克复杂任务。

这个愿望看似天衣无缝，结果却往往以失败告终。问题就出在：当「问题」出现的时候，如何知道是哪个AI干的？

就像代码Debug一样，从堆积如山的模型对话记录、调用日志和中间结果找到哪个AI掉链子几乎不可能，而且AI本身还是个「黑箱」。

这就是今天多智能体AI系统面临的真实困境：不仅频繁失败，而且溯源问题困难。

为了解决这个「AI版罗生门」，宾夕法尼亚州立大学与杜克大学联合Google DeepMind等机构的研究者们首次提出了：自动化失败归因（Automated Failure Attribution）——让AI自己举手：我错了！

目前，这篇论文不仅成功斩获了顶会ICML 2025 Spotlight，而且配套的首个专用基准数据集Who&When和相关代码也已全部开源。

论文地址：https://arxiv.org/pdf/2505.00212

代码地址：https://github.com/mingyin1/Agents_Failure_Attribution

都说模型即产品，就像现在的OpenAI o3、Gemini 2.5 Pro还有新发的DeepSeek-R1-0528越来越强大，那为何还需要多智能体的AI系统？

这是因为目前阶段依然单个AI能力有限，而LLM驱动的多智能体系统在很多领域展现出巨大潜力。

然而，这些系统也存在着脆弱性：单个Agent的失误，Agent之间的误解，以及信息传递错误，都可能导致整体任务失败。

目前，一旦多智能体的AI系统「翻车」，开发者往往只能：

手动「考古」：逐条翻阅冗长的交互日志，试图找出问题所在。
依赖经验：这种调试过程高度依赖开发者对系统和任务的深入理解。

这种「大海捞针」式的排错方式，不仅效率低下，更严重阻碍了系统的快速迭代和可信赖度的提升。

目前迫切需要一种自动化、系统化的方法来定位失败原因，将「评估结果」与「系统改进」有效连接起来。

核心贡献

针对上述挑战，这篇论文做出了开创性的贡献：

1. 提出并定义新问题

首次将「自动化失败归因」形式化为一个具体的研究任务，明确了要找出导致失败的责任Agent（failure-responsible agent）和决定性错误步骤（decisive error step）。

2. 构建首个数据集——Who&When

该数据集包含了从127个LLMMulti-Agent系统中收集的广泛失败日志。这些系统既有算法自动生成的，也有人类专家精心打造的，确保了场景的真实性和多样性。

每条失败日志都配有细粒度的人工标注：

「谁」（Who）：哪个Agent是「罪魁祸首」。
「何时」（When）：决定性错误发生在交互的哪一步。
「为何」（Why）：对失败原因的自然语言解释。

标注关键错误代理以及确定出错的具体步骤，对普通人和领域专家来说都是一项挑战。

注释者需要解析复杂的日志，理清每个代理的解决问题逻辑，并判断每个动作是正确的，还是会误导整个问题解决过程。

例如，如果某个代理使用网页浏览器获取解决问题所需的重要信息，注释者就必须检查浏览器历史记录，并访问每一个网站，以判断失败是由于网站上本身没有相关信息，还是代理未能成功获取。

如上图（a）所示，三位注释者分别花费了30.9小时、30.2小时和23.2小时来完成注释。这表明注释过程非常耗时，因此开始考虑开展自动化故障归因的研究。

此外，在很多数据实例中，出错的并不只是某一个代理，而是多个代理。人们需要识别出这些错误，并挑选出其中最严重的错误，因为这些错误会直接导致问题解决失败。由于错误的严重程度有时较为细微，甚至带有一定的主观性，这一过程就变得更加困难。

如上图（b）所示，展示了三位注释者「不确定」标注的比例，范围从15%到30%不等。

图（c）则可视化了不同注释者在互相投票判断彼此「不确定」数据时的分歧率。

可以看到，即使在投票环节仍存在一定程度的分歧，进一步突显了注释工作本身的复杂性与挑战性。

3. 探索初步的「自动化归因」方法

基于Who&When数据集，论文设计并评估了三种不同的自动化失败归因方法：全局审视法（All-at-Once），逐步侦查法（Step-by-Step），二分定位法（Binary Search）。

实验结果表明：这三种方法在准确性、成本和分析粒度上各有千秋，没有一种能在所有指标上完胜。它们共同构成了自动化失败归因任务的初步「解法库」。

· All-at-Once：一次性完成

向LLM提供用户查询和完整的故障日志，要求其一次性识别出故障责任Agent以及发生决定性错误的具体步骤。

优点：一步到位，成本较低，可能擅长宏观判断责任。

缺点：可能面临「大海捞针」问题，难以从长上下文中精确定位具体错误步骤。

· Step-by-Step：逐步

模拟人工调试，让LLM从头开始，一步步检查交互日志，在每个环节判断当前是否出现错误，直到揪出「真凶」。

优点：如同剥洋葱般细致，在定位具体错误环节上更具优势。

缺点：需要多次询问模型，调用成本较高，且局部判断的累积误差可能导致「误判」。

· Binary Search：二分查找

这是一种折中策略，总成本和效果介于前两者之间。

方法是将日志对半切分，利用LLM判断错误发生在前半段还是后半段，然后不断在确定的半段中递归「二分」，最终锁定问题步骤和相关Agent。

实验结果与主要发现

实验在两种设定下进行：LLM知道Multi-Agent系统需要解决的问题的真实答案（WithGround Truth）和不知道真实答案（Without Ground Truth）。

主要使用GPT-4o，但也测试了其他模型（如Llama系列、Qwen系列、GPT系列、OpenAI o1、DeepSeek R1）

通过在Who&When数据集上对上述方法进行了系统评估，得到了许多重要的发现：

· 任重道远，表现堪忧

目前的方法离完美还差得很远。即便是表现最好的单一方法，在识别「背锅Agent」上的准确率也仅有约53.5%，而在准确定位「错误步骤」上，准确率更是低至14.2%！

这意味着，最牛的策略也只能勉强过半猜对谁是「内鬼」，至于错在哪一步，基本靠「蒙」。

有些方法的表现甚至不如随机猜测，足见任务之艰巨。

· 各有所长，难有「全能冠军」

不同方法在不同子任务上表现各异，没有万能冠军。

例如，All-at-Once方法对「Who」的判断相对最好，能够更准确地找出哪个Agent应该负责；而Step-by-Step方法在锁定具体错误步骤（「When」）上效果更胜一筹，细粒度检查带来了优势；Binary Search方法则各方面居中，表现中规中矩。

由此体现出每种方案的权衡取舍：要么整体扫描擅长找「人」，要么逐步追查利于找「步骤」。

· 「组合拳」效果更优，但代价高昂

研究者尝试了组合不同方法的策略（例如，先使用「全局法」初步判断责任Agent，再运用「逐步法」精确定位错误步骤）。

结果表明，这种混合方法确实能够提升整体的归因性能，但同时也带来了显著的计算成本增加。

· 现有SOTA模型集体「哑火」

最令人惊讶的是，即便是当前最先进的推理模型（如OpenAI o1和DeepSeek R1），在处理这一任务时也显得力不从心。

这进一步凸显了「自动化失败归因」任务本身的固有难度，其对AI推理能力的要求超越了当前SOTA模型在常规任务上的表现。

明确的推理提示至关重要：在All-at-Once和Step-by-Step的提示中明确要求LLM给出归因的理由，能起到提升性能的作用。

上下文长度对性能构成制约：实验还发现，随着失败日志上下文长度的增加，所有归因方法的性能均呈现下降趋势，尤其是在错误步骤定位的准确性方面更为敏感。

迈向更智能、更可靠的Multi-Agent系统

「自动化失败归因」是Multi-Agent系统开发流程中不可或缺的一环。

它将帮助我们更深入地洞察Multi-Agent的失败模式，将「哪里出错、谁之过」从令人头疼的谜题，转变为可量化分析的问题。

通过架起「评估」与「改进」之间的桥梁，未来终将能够打造出更可靠、更智能、更值得信赖的Multi-Agent协作系统。

作者介绍

Shaokun Zhang

宾夕法尼亚州立大学的三年级博士生，导师为Qingyun Wu教授。

近期的研究兴趣集中在Agentic AI与强化学习的交叉领域。

目前，在NVIDIA实习，专注于LLM智能体的研究。在此之前，于西安电子科技大学获得计算机科学学士学位。

Ming Yin

杜克大学的一年级博士生，导师是陈怡然教授。

于2024年20岁时在中国科学技术大学少年班学院获得了学士学位。

目前对LLM智能体、LLM推理和可信人工智能感兴趣。

从2025年5月到8月在位于西雅图的Zoom担任生成式人工智能研究实习生。

参考资料：

https://arxiv.org/pdf/2505.00212

https://skzhang1.github.io/

https://mingyin1.github.io/

GPT 4 AI 谷歌 Google 人工智能 4o 性能 OpenAI 代理 Go 测试

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里。

浏览(563) 点赞(0) 收藏(0)

0条评论

珍惜第一个评论，它能得到比较好的回应。

游客

登录后再评论

鸟过留鸣，人过留评。
和谐社区，和谐点评。

AI竟会「自己认错」？破解多智能体协作「罗生门」，斩获ICML 2025 Spotlight

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

AI竟会「自己认错」？破解多智能体协作「罗生门」，斩获ICML 2025 Spotlight

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。