全面战胜ReAct！斯坦福全新智能体推理框架，性能提升112.5%

2025-12-02 发布 · 浏览187次 · 点赞0次 · 收藏0次

【导读】斯坦福和MIT的研究团队推出了一种新的AI智能体推理框架ReCAP，在长上下文任务中全面超越了现有的主流框架ReAct，性能提升显著。ReCAP通过独特的递归树结构和三大机制，解决了大语言模型在复杂任务中常见的目标漂移、上下文断层和成本爆炸等问题。在多项基准测试中，ReCAP均取得了大幅领先的成绩，展现出强大的通用性和稳定性。尽管计算成本略有增加，但其在关键任务中的表现使其成为极具潜力的新一代通用推理架构。

自2022年ReAct框架提出以来，AI智能体推理领域便进入了百家争鸣的时代，各种复杂架构如雨后春笋般涌现。

然而，这些架构大多昙花一现，因其复杂的结构导致在更换评测基准时需要大幅修改示例，表现远不如ReAct稳定泛用，这也使得ReAct在过去三年中，成为了该领域事实上的主流与标杆。

但是，我们真的不能再做得更好了吗？

面对大模型在长上下文任务中走几步就忘的短期记忆顽疾，业界是否只能止步于此？

来自斯坦福大学与MIT的研究团队给出了肯定答案，正式发布的AI Agent推理新框架——ReCAP（递归上下文感知推理与规划），从真正意义上统一了序列推理和层级推理，在多种任务中全面战胜了ReAct，且继承了ReAct示例简单、高通用性，和即插即用的优势。

论文链接：https://arxiv.org/pdf/2510.23822

在严格遵循 pass@1（一次通过）的评测原则下，ReCAP在长序列具身任务Robotouille上相比ReAct基线取得了84.2%（同步）和112.5%（异步）的巨大性能提升。

长上下文任务的三大「死穴」

团队指出，当今大语言模型在执行复杂任务时普遍有三种问题：

目标漂移（Goal Drift）：执行几步后就逐渐忽略了原本的目标，使得执行结果与期望不符。
上下文断层（Context Loss）：高层的规划信息在长序列执行中丢失，导致高层思考与低层执行不协调。
成本爆炸（Prompt Explosion）：每次递归都重新铺开上下文示例和提示词，推理成本指数增长。

简单说，LLM就像一个短期记忆型天才，而主流推理框架各有局限：

序列推理（例如Chain of Thoughts，ReAct）虽然上下文连贯，但常常因为任务太长导致目标漂移；
层级推理（例如ADaPT，THREAD）将任务分解为子任务来明确目标，但给子任务单独分配上下文示例和提示词，导致上下文断层和成本爆炸。

ReCAP

让序列推理和层级推理有机结合

ReCAP的核心在于将一个有记忆、有反馈的递归树结构作为模型的工作记忆区，其三大机制环环相扣：

计划前瞻分解（Recursive Task Decomposition with Plan-Ahead）：模型首先生成一个完整的子任务列表，但只执行第一个子任务，完成后再动态优化后续计划。
结构化父任务再注入（Consistent Multi-level Context and Structured Injection）：整个执行流程只有一个上下文，由所有任务共享。每次子任务递归返回时，父任务会将自身的思考和计划再次注入上下文，使父任务在重新计划时可以参考上次的思维和执行结果，规划出能真正达成任务目标的底层操作。
滑动窗口记忆（Sliding Window and Scalable Memory Efficiency）：通过滑动窗口机制，在统一上下文中只保留最新关键历史，实现了内存占用可控的深度递归，从根本上杜绝了成本爆炸。

实验结果

长上下文任务性能大幅跃升