人类一离座AI就进化!伯克利开源MetaClaw,静态Agent慌了

浏览1次 点赞0次 收藏0次

【导读】你开会时,AI竟在偷偷升级?伯克利等四校开源MetaClaw,让Agent趁你开会、离席、睡觉时持续进化,直接打破「上线即冻结」这条行业铁律。

又到了每周例会时间。

你的电脑桌面日历上写着「周会14:00-15:30」,屏幕锁定。

与此同时,一个后台AI进程确认你暂时不会回来,便自动启动了训练窗口:

上午刚犯过的错误被拆解成规则注入系统提示词,随后云端LoRA微调开始接管。

90分钟后,等你散会回到工位,面前的Agent已经完成了一次自我迭代。

这就是开源MetaClaw框架所实现的功能:

让一个已经在线服务的Agent,在不中断服务的前提下持续从失败中进化

这项研究打破了「上线即冻结」这条Agent行业默认规则。

MetaClaw框架由北卡罗来纳大学教堂山分校、卡内基梅隆大学、加州大学圣克鲁兹分校与加州大学伯克利分校联合推出。


https://arxiv.org/pdf/2603.17187

开源即登顶。


MetaClaw刚刚发布便霸榜HuggingFace,它所代表的「Agent持续进化」理念,已经引起了全球AI研究者和开发者的高度关注。

最能体现其工具链成熟度的,是它极具破坏性的部署门槛。

官方仓库展示的控制台操作显示,其庞大的「快慢双循环」机制与OMLS调度器已经被粗暴地简化为了两条命令。



开发者只需输入「metaclaw setup」完成一次性配置,接着输入「metaclaw start --daemon」,系统就会作为一个后台守护进程静默拉起。

这种开箱即用的封装,彻底粉碎了学术模型与实际落地之间的壁垒。

打破Agent「上线即冻结」的结构性困境

当前绝大多数Agent在能力迭代上面临这样一个残酷现状:训练一次、部署上线、长期不变。

但现实世界却是在不断变化的:任务需求在漂移,工作流程在修改,工具链与组织规则也在不断更新

在OpenClaw这类平台上,一个Agent可能需要同时连接20多个消息渠道。

任务分布每小时都在变化,但Agent的能力却仍停留在出厂时刻。

表面上看,行业内已有不少修补方案,例如记录轨迹、构建静态技能库或进行在线强化学习。

但这些方案往往只解决了部分问题:

只存储原始轨迹而不提炼可迁移知识,会导致信息冗长且碎片化;

静态技能库与权重优化彼此脱节;

重新训练Agent通常意味着必须停机,导致在线服务与持续进化无法兼得。

这正是「静态Agent」所面临的现实矛盾:它必须24小时在线,但面对的世界却在不断变化。

无法适应新任务分布的Agent,哪怕初始能力再强,也容易在长期的实际应用中显得刻板。

两条腿走路

快适配与慢进化

为了打破「不停机与持续进化」之间的冲突,MetaClaw将更新机制拆分为两条时间尺度完全不同的回路。


MetaClaw的系统架构图中展示了MetaClaw的「快慢双循环」学习机制。左侧显示OMLS调度器如何监控用户的Google Calendar和键鼠闲置状态,右侧展示系统如何分离支持集与查询集,进行技能提取(快适配)与LoRA权重微调(慢进化)。

第一条路径,是技能驱动的快速适配(Skill-driven fast adaptation)。

当Agent在任务中失败时,系统会将失败轨迹交给另一个大模型进行分析,提炼出可复用的行为规则,并立刻将其注入系统提示词。

这个过程不修改模型权重,不中断服务,且能立即生效。

论文中列举了典型的高频规则:统一时间格式、执行高风险文件操作前先备份、严格遵循命名规范。

更重要的是,这些规则并非绑定于单一任务的补丁,而是跨任务的可迁移知识。

一次关于时间格式的纠错,能够提升后续所有涉及时间处理任务的稳定性。

第二条路径,是机会式策略优化(Opportunistic policy optimization)。

在用户处于不活跃状态时,系统会结合过程奖励模型(PRM)和LoRA进行基于梯度的强化学习(RL)权重更新。

前者如同战术上的快速止血,后者则是战略上的能力固化。

为了将这两者有机结合,MetaClaw引入了一个核心设计:支持集与查询集分离,以及严格的技能版本控制。

如果某条失败样本已经被新提取的规则修复,系统在强化学习阶段继续使用该样本就会导致「陈旧奖励污染」(stale reward contamination):模型会为一个已经解决的问题继续受罚。

MetaClaw的做法是为轨迹打上技能版本号,技能库升级后便清理旧版本的无效样本,只保留新技能生效后的数据进入RL训练。

这在本质上实现了「记忆」与「进化」的真正统一。

利用碎片时间训练

OMLS调度器

模型训练需要时间与算力,那么MetaClaw如何做到让用户几乎无感?

答案在于其设计的机会式元学习调度器(OMLS)。

OMLS专门监控三类信号:预设的睡眠时段、系统层面的键盘鼠标闲置状态、以及Google Calendar的日程占用情况。

只要触发任何一个表明用户暂时离开的信号,训练窗口就会自动打开。

训练器支持随时暂停与继续,这意味着即便是用户离开几分钟的零碎时间,也能被转化为AI持续训练的时间窗口。

过去,AI的升级往往是一次集中式的工程,需要停服、重训、切换版本再重新上线。

MetaClaw则将人类碎片化的空闲时间,变成了AI持续进化的微型车间。

此外,该框架采用代理架构与云端训练接口,不强制要求昂贵的本地GPU计算资源,可以直接对接现有的个人Agent和多种模型平台,支持一键部署与持续元学习。

补齐过程性知识

弱模型的数据跃升

这套框架的实际效果在测试数据中得到了直接验证。

论文团队构建了MetaClaw-Bench基准测试,包含934道题目,模拟了44个工作日的任务流,专门评估Agent在连续任务流中能否越用越强。

测试结果显示,在仅进行行为规则注入的情况下,被评测模型的相对准确率最高提升可达32.2%。

在体现真实执行力的端到端任务完成率上,被评测模型从2.0%提升至16.5%,实现了8.25倍的增长。


在另一项包含23个阶段的AutoResearchClaw自主研究流水线(涵盖文献综述、实验设计、代码生成、结果分析至论文写作)中,即便不进行权重训练而仅依赖技能注入,系统的综合鲁棒性也提升了18.3%,阶段重试率下降24.8%,迭代优化轮次减少了40%。

测试数据揭示了一个更关键的现象:MetaClaw首先是一个Agent持续进化框架,而且对弱底模驱动的Agent增益尤其明显

论文分析指出,较弱模型更缺少的是隐式的过程性知识:也就是那些具体的操作规则、执行习惯和格式纪律,而技能库恰恰把这些知识显式写了出来,因此仅靠skill注入,就能带来更大的准确率提升。

相比之下,GPT-5.2由于起点更高,可提升空间更小,更容易出现天花板效应。

但论文也强调,skills注入主要提升的是规则遵循和部分执行质量,不足以稳定解锁高强度任务中的端到端完成率。

真正让被评测模型实现了8.25倍增长的,是skills与权重级策略优化结合后的完整MetaClaw框架。

Agent进化时代的范式转移

当然,MetaClaw仍存在一定边界。

论文团队指出,目前的基准测试在模拟环境中进行,并不完全等同于复杂的生产环境;空闲窗口的检测也依赖于特定的用户系统配置。

但MetaClaw明确指向了一个范式转移的方向:Agent的生命周期正在从「训练完成后交付」向「交付之后继续生长」演进。

其GitHub仓库的持续更新(包括代理式接入、多客户端支持、跨会话记忆等工程化进展)表明,这套理念正在向可用的工具链快速转化。

把它放回行业坐标里看,意味就更大了。

对比近期普林斯顿团队提出的OpenClaw-RL(倾向于将所有交互信号直接用于训练),MetaClaw选择了「快规则加慢权重」的分层策略。

前者追求立即纠偏,后者追求长期固化,两者代表了对下一代Agent演进路径的不同工程思考。

决定未来模型能力上限的,将不再仅仅是出厂时的参数规模,更是其在真实使用场景中持续转化经验并自我迭代的闭环机制。

你的日历、你的键鼠状态、你的每一次离座,都有可能成为AI下一次能力升级的契机。

真正的智能演化,才刚刚在工作现场拉开序幕。

参考资料:

https://arxiv.org/abs/2603.17187

https://github.com/aiming-lab/MetaClaw

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。