单任务狂飙16小时!模型+Harness双轮驱动,金融Agent跑通了

浏览17次 点赞0次 收藏0次

【导读】20天长流程、token严格控制在每单50k以内,AI审批预计能提速150%以上,单均成本预计可以降至人工五分之一。易鑫Harness不是简单套壳,而是把选择性压缩、实时检索、审计图谱全部打通,让Agent真正「越用越聪明」。

2026年,AI圈最热的词不是模型,也不是记忆,而是一个被翻译得有点别扭的英文单词——Harness

马具,缰绳,驾驭。

最近,Anthropic在Claude Platform上放出了Managed Agents的公开beta。业内立刻给它贴了一个标签,meta-Harness。

一句话翻译过来,模型已经不是瓶颈了,真正决定Agent能不能干活的,是模型外面那套「驾驭系统」。

LangChain创始人Harrison Chase说得更直白一点,「Harness和上下文工程跟模型质量一样重要」。

VentureBeat的市场追踪给出了实锤。一个月内,Anthropic工具与工作流API的采用率,从0%直接飙到了5.7%。企业用Claude,用的就是它配套的编排方案。


如今,Harness从工程内部用语,一跃成为了Agent产品绕不开的基础设施。


Harness是多层结构,并非单一模型套壳

但这只是故事的一半。

通用Harness跑不了的金融订单

Anthropic做的Managed Agents,主要服务coding、文档生成、任务自动化这类通用场景。

这些任务有一个共性,边界相对清晰,错了大不了重跑一次。

但一些行业不是这样,比如金融行业。

一笔汽车贷款,从客户进件到资产管理,单笔金额几万到几十万,整个生命周期超过20天,要跨越15个以上关键决策节点,正向逆向反复评估,决策路径组合可以达到几万种。

中间任何一步AI出错,比如材料审核漏了一个关键瑕疵,后果都不是「再来一次」能解决的。

所以,从设计目标开始,金融行业要的Harness,跟通用场景的Harness就不一样。

通用场景的Harness在乎怎么让模型在长上下文里不丢失记忆、怎么管理工具调用。

金融场景的Harness在乎合规边界怎么实时兜底、模型幻觉的瞬间怎么把人工接进来、20天的订单流里数据全程能不能审计。

4月14日,香港世界互联网大会亚太峰会的「智能体创新与应用论坛」上,易鑫首席科技官贾志峰把这件事点了出来。


易鑫是国内最具规模的AI驱动的金融科技平台,以服务汽车金融生态为使命。2017年在香港上市,2025年成为港交所科技100指数成员。目前年交易额已达到约750亿元人民币,全球拥有员工5000多人

并且,他还抛出一个计划——

今年下半年,易鑫将开源部分自研Harness Framework。

这是全球汽车金融行业第一份公开的Agent治理基础设施。

不是套一层壳,

是三层「驾驭体系」

在演讲里,贾志峰直接区分了易鑫的Harness跟通用方案。

和通用AI公司侧重memory、context这些技术模块设计不同,我们的设计是一个更全面的三个层次的驾驭体系。

三层分别是人类驾驭层、Agentic驾驭层、数据驾驭层。

人类驾驭层解决一件事,Agent和真人能不能在一笔订单流里实时无缝切换。

举个例子。

客户按要求上传一张银行流水的照片,IM Agent接管做OCR和结构化提取。

系统会判断这张照片是否包含风险字段或不符合要求的字段。

比如,要求提供6个月流水,但只给了3个月;再比如要求流水里必须提供收入,但实际流水里收入为0。

此时,Harness就会立刻把订单转给真人审核员,并且把前面所有对话上下文完整交接过去。

「Agent搞不定就转人工」,这种简单兜底逻辑做不到这一点。

Harness的人类驾驭层覆盖语音、文字、图片多模态,关键业务节点强制要求人工介入,转手时信息完整率必须做到100%。

人工不是替补,是工作流从一开始就设计进去的角色。


Agentic驾驭层解决模型出错的瞬间,比如当模型出现「幻觉」或违规承诺时,系统会在毫秒级触发熔断,切换到人工链路。

举个金融场景里的真实痛点。模型在诱导下承诺了一个黑名单客户肯定能放款,那么这笔订单就会成为合规风险事件。

Harness这一层的工作是在模型把话说出口之前拦截,并且根据客户互动的实时特点重新规划后续路径,不按预设脚本死板执行。

在3月底的工程博客中,Anthropic就提到一个有意思的现象:

Harness里塞进去的某些补丁,会随着模型升级而过时。


比如他们为Claude Sonnet 4.5加的上下文重置,在Claude Opus 4.5上就不再需要。

易鑫这层Harness的设计思路对应了同一个判断。

贾志峰在演讲里说了一句,「让模型越来越强,Harness越来越轻」。

Harness发现的问题要不断回流到模型训练里,让模型自己内化掉,避免长期用Harness打补丁。


数据驾驭层把人类操作数据和Agent操作数据打通。

不只给运行阶段做护栏,还给训练阶段提供高质量数据。

更关键的是合规。从数据接入、流转、清洗脱敏,到最终进入哪个版本的模型训练,全部建立关联图谱,模型表现一旦发生变化能立刻定位、快速调整。

这是金融监管最在意的事情,可追溯、可审计。在通用Agent领域可有可无的能力,在金融行业是过审的硬门槛。


需要强调的是,他们的Harness Framework并不是一个孤立存在的模块,而是整体贯穿Application、Products、Models 这三层架构,融合在业务的各个节点。

在Agent的推理「Inference」和训练「Training」两个阶段,易鑫的Harness Framework都发挥作用,具备持续治理能力。


65%自主交付,单任务跑16小时

把这套体系工程化嵌进业务后,整个系统「越用越聪明」 : 所有交互数据沉淀,帮助AI持续学习与不断进化。


最后,易鑫实测出来的数字是这样的。

  • 单次任务可持续执行16小时。

  • 跨12个会话连续推进。

  • Agent自主交付成果达65%。

  • 转化率提升20%以上。

  • 整体运营效率提升100%以上。

这些数字放在通用Agent领域是什么概念。

在demo里展示的长任务记录,国外AI巨头OpenAI、Anthropic不过大多在几小时量级。

Cognition的Devin早期演示也只敢做小时级别的连续工作。

能做到「单次任务16小时、跨12个会话」并且还能稳定交付,需要的不只是AI能力,还有整个业务流程的升级。

审批环节做得更狠。根据易鑫估计,AI理论上能让审批时长缩短150%以上,单均成本降到人工的五分之一,token消耗严格控制在每单50k以内。

token这个数字是关键。

20天+的长流程任务里,如果每一轮交互都把全量历史灌进上下文,token成本会指数级上涨。

控制在50k一单,意味着Harness在不断做选择性压缩、归档和检索,把真正影响下一步决策的信息留在窗口里。

「Agentic基础模型和Harness AI Infra,是金融垂直行业真正把Agent用起来的两个轮子,缺一不可。」贾志峰在演讲里这样总结。

从开源模型到开源基础设施

易鑫不是第一次做开源。

2025年,易鑫先后开源了汽车金融行业第一个Reasoning模型YiXin-Distill-Qwen-72B、Agentic模型YiXin-Agentic-Qwen3-14B。



今年下半年的Harness Framework开源,是顺着同一条路径往上走一步。

按贾志峰的说法,发布时间预计在2026年乌镇峰会前后。

这个时间窗口和Anthropic开放Managed Agents的节奏几乎咬住:

  • 前者在通用场景把Harness产品化,

  • 后者在金融垂直场景把Harness开源化。

在一篇题为「The Anatomy of an Agent Harness」的博客中,LangChain给出了一个简洁的公式:

Agent = Model + Harness

模型负责智能,Harness负责把智能变成有用的工作。


但公式只是起点。

通用Agent的Harness想让模型跑得更顺,金融行业的Harness想让模型不出事。

Anthropic把通用场景的答案产品化了,每小时0.08美元。

易鑫要把金融场景的答案开源出来,一行代码不收钱。

Agent能不能走出coding demo、走进那些「错一次就赔不起」的行业,答案就藏在这份即将开源的Harness Framework里。

参考资料:

Agent能力已在全业务流程落地,易鑫于世界互联网大会亚太峰会宣布年内将开源AI Infra

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。