单任务狂飙16小时！模型+Harness双轮驱动，金融Agent跑通了

2026-04-17 发布浏览284次点赞0次收藏0次

【导读】20天长流程、token严格控制在每单50k以内，AI审批预计能提速150%以上，单均成本预计可以降至人工五分之一。易鑫Harness不是简单套壳，而是把选择性压缩、实时检索、审计图谱全部打通，让Agent真正「越用越聪明」。

2026年，AI圈最热的词不是模型，也不是记忆，而是一个被翻译得有点别扭的英文单词——Harness。

马具，缰绳，驾驭。

最近，Anthropic在Claude Platform上放出了Managed Agents的公开beta。业内立刻给它贴了一个标签，meta-Harness。

一句话翻译过来，模型已经不是瓶颈了，真正决定Agent能不能干活的，是模型外面那套「驾驭系统」。

LangChain创始人Harrison Chase说得更直白一点，「Harness和上下文工程跟模型质量一样重要」。

VentureBeat的市场追踪给出了实锤。一个月内，Anthropic工具与工作流API的采用率，从0%直接飙到了5.7%。企业用Claude，用的就是它配套的编排方案。

如今，Harness从工程内部用语，一跃成为了Agent产品绕不开的基础设施。

Harness是多层结构，并非单一模型套壳

但这只是故事的一半。

通用Harness跑不了的金融订单

Anthropic做的Managed Agents，主要服务coding、文档生成、任务自动化这类通用场景。

这些任务有一个共性，边界相对清晰，错了大不了重跑一次。

但一些行业不是这样，比如金融行业。

一笔汽车贷款，从客户进件到资产管理，单笔金额几万到几十万，整个生命周期超过20天，要跨越15个以上关键决策节点，正向逆向反复评估，决策路径组合可以达到几万种。

中间任何一步AI出错，比如材料审核漏了一个关键瑕疵，后果都不是「再来一次」能解决的。

所以，从设计目标开始，金融行业要的Harness，跟通用场景的Harness就不一样。

通用场景的Harness在乎怎么让模型在长上下文里不丢失记忆、怎么管理工具调用。

金融场景的Harness在乎合规边界怎么实时兜底、模型幻觉的瞬间怎么把人工接进来、20天的订单流里数据全程能不能审计。

4月14日，香港世界互联网大会亚太峰会的「智能体创新与应用论坛」上，易鑫首席科技官贾志峰把这件事点了出来。

易鑫是国内最具规模的AI驱动的金融科技平台，以服务汽车金融生态为使命。2017年在香港上市，2025年成为港交所科技100指数成员。目前年交易额已达到约750亿元人民币，全球拥有员工5000多人

并且，他还抛出一个计划——

今年下半年，易鑫将开源部分自研Harness Framework。

这是全球汽车金融行业第一份公开的Agent治理基础设施。

不是套一层壳，

是三层「驾驭体系」

在演讲里，贾志峰直接区分了易鑫的Harness跟通用方案。

和通用AI公司侧重memory、context这些技术模块设计不同，我们的设计是一个更全面的三个层次的驾驭体系。

三层分别是人类驾驭层、Agentic驾驭层、数据驾驭层。

人类驾驭层解决一件事，Agent和真人能不能在一笔订单流里实时无缝切换。

举个例子。

客户按要求上传一张银行流水的照片，IM Agent接管做OCR和结构化提取。

系统会判断这张照片是否包含风险字段或不符合要求的字段。

比如，要求提供6个月流水，但只给了3个月；再比如要求流水里必须提供收入，但实际流水里收入为0。

此时，Harness就会立刻把订单转给真人审核员，并且把前面所有对话上下文完整交接过去。

「Agent搞不定就转人工」，这种简单兜底逻辑做不到这一点。

Harness的人类驾驭层覆盖语音、文字、图片多模态，关键业务节点强制要求人工介入，转手时信息完整率必须做到100%。

人工不是替补，是工作流从一开始就设计进去的角色。

Agentic驾驭层解决模型出错的瞬间，比如当模型出现「幻觉」或违规承诺时，系统会在毫秒级触发熔断，切换到人工链路。

举个金融场景里的真实痛点。模型在诱导下承诺了一个黑名单客户肯定能放款，那么这笔订单就会成为合规风险事件。

Harness这一层的工作是在模型把话说出口之前拦截，并且根据客户互动的实时特点重新规划后续路径，不按预设脚本死板执行。

在3月底的工程博客中，Anthropic就提到一个有意思的现象：

Harness里塞进去的某些补丁，会随着模型升级而过时。

比如他们为Claude Sonnet 4.5加的上下文重置，在Claude Opus 4.5上就不再需要。

易鑫这层Harness的设计思路对应了同一个判断。

贾志峰在演讲里说了一句，「让模型越来越强，Harness越来越轻」。

Harness发现的问题要不断回流到模型训练里，让模型自己内化掉，避免长期用Harness打补丁。

数据驾驭层把人类操作数据和Agent操作数据打通。

不只给运行阶段做护栏，还给训练阶段提供高质量数据。

更关键的是合规。从数据接入、流转、清洗脱敏，到最终进入哪个版本的模型训练，全部建立关联图谱，模型表现一旦发生变化能立刻定位、快速调整。

这是金融监管最在意的事情，可追溯、可审计。在通用Agent领域可有可无的能力，在金融行业是过审的硬门槛。

需要强调的是，他们的Harness Framework并不是一个孤立存在的模块，而是整体贯穿Application、Products、Models 这三层架构，融合在业务的各个节点。

在Agent的推理「Inference」和训练「Training」两个阶段，易鑫的Harness Framework都发挥作用，具备持续治理能力。

65%自主交付，单任务跑16小时

把这套体系工程化嵌进业务后，整个系统「越用越聪明」 : 所有交互数据沉淀，帮助AI持续学习与不断进化。

最后，易鑫实测出来的数字是这样的。

单次任务可持续执行16小时。
跨12个会话连续推进。
Agent自主交付成果达65%。
转化率提升20%以上。
整体运营效率提升100%以上。

这些数字放在通用Agent领域是什么概念。

在demo里展示的长任务记录，国外AI巨头OpenAI、Anthropic不过大多在几小时量级。

Cognition的Devin早期演示也只敢做小时级别的连续工作。

能做到「单次任务16小时、跨12个会话」并且还能稳定交付，需要的不只是AI能力，还有整个业务流程的升级。

审批环节做得更狠。根据易鑫估计，AI理论上能让审批时长缩短150%以上，单均成本降到人工的五分之一，token消耗严格控制在每单50k以内。

token这个数字是关键。

20天+的长流程任务里，如果每一轮交互都把全量历史灌进上下文，token成本会指数级上涨。

控制在50k一单，意味着Harness在不断做选择性压缩、归档和检索，把真正影响下一步决策的信息留在窗口里。

「Agentic基础模型和Harness AI Infra，是金融垂直行业真正把Agent用起来的两个轮子，缺一不可。」贾志峰在演讲里这样总结。

从开源模型到开源基础设施

易鑫不是第一次做开源。

2025年，易鑫先后开源了汽车金融行业第一个Reasoning模型YiXin-Distill-Qwen-72B、Agentic模型YiXin-Agentic-Qwen3-14B。

今年下半年的Harness Framework开源，是顺着同一条路径往上走一步。

按贾志峰的说法，发布时间预计在2026年乌镇峰会前后。

这个时间窗口和Anthropic开放Managed Agents的节奏几乎咬住：

前者在通用场景把Harness产品化，
后者在金融垂直场景把Harness开源化。

在一篇题为「The Anatomy of an Agent Harness」的博客中，LangChain给出了一个简洁的公式：

Agent = Model + Harness

模型负责智能，Harness负责把智能变成有用的工作。

但公式只是起点。

通用Agent的Harness想让模型跑得更顺，金融行业的Harness想让模型不出事。

Anthropic把通用场景的答案产品化了，每小时0.08美元。

易鑫要把金融场景的答案开源出来，一行代码不收钱。

Agent能不能走出coding demo、走进那些「错一次就赔不起」的行业，答案就藏在这份即将开源的Harness Framework里。

参考资料：

Agent能力已在全业务流程落地，易鑫于世界互联网大会亚太峰会宣布年内将开源AI Infra

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

单任务狂飙16小时！模型+Harness双轮驱动，金融Agent跑通了

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。