Token狂涨,硅谷哀嚎!全球榜单前十AI Lab,却把三大模型全免了
【导读】大厂API账单涨上天,打工人快要烧不起Token了!就在Agent因高昂成本面临死局的节点,全球榜单前十的AI实验室Agnes AI扔下重磅炸弹:三大核心多模态API无限期免费开放,彻底打破大厂垄断。
Token这么贵,Agent还铺得开吗?
这几天,硅谷大厂们都在集体哀嚎:API账单像坐火箭一样,简直涨到天上了。
这背后的现实,非常清楚——AI补贴时代正在终结!
过去半年,Anthropic、OpenAI和谷歌这几家巨头,其实都在「暗戳戳」地变相涨价。

很多企业一开始笃定「AI会越来越便宜」,甚至按这个逻辑把整个工作流都铺开了。
结果呢?眼睁睁看着一整年的预算,没几个月就烧了个精光。

居高不下的算力成本,难道注定要成为Agent大规模落地的「死局」吗?
Agent全球爆火
反而Token烧不起了
2026年,OpenClaw、Hermes的横空出世,彻底引爆了Agent赛道。
从最初狂欢的「龙虾热」,演变至今,Agent已然渗透进大小企业的生命线,与业务流程深度绑定。

过去大模型「诸神之战」,大厂们疯狂内卷,将API价格一路打到「白菜价」。
而如今,越来越多Agent部署后,极速消耗的Token反而让企业们直呼「烧不起了」。
AI大佬Simon Willison最新长文分析,一语道破背后的逻辑——
这场热潮的本质,是OpenAI、Anthropic已真正跨越了壁垒,真正找到了「产品的契合点」(Product-Market Fit)。

究其原因,AI Agent的全面爆发彻底扭转了行业局势。
出于被AI时代淘汰的焦虑,大部分公司有着极强的付费意愿,哪怕是200美元/月/人/客单价。
由此,过去半年内,两大行业巨头相继调整计费规则,逐步淘汰了早期的固定订阅模式——
Anthropic:企业服务转变为「20美元底价+API实际Token消耗」计费;
OpenAI:4月起,所有企业版及定制方案全面与API Token消耗量挂钩。

AI能力的天花板在飞速上升,使用AI的地板也在同步抬高。
众所周知,Agent工作流天然是「Token黑洞」:一次搜索+推理+工具调用链路跑下来,Token消耗量轻松达到普通对话的十倍以上。
一位独立开发者想用前沿模型做一个AI写作助手的原型,光是测试阶段的API费用可能就要几百美元。
一个三人创业团队想搭建多模态内容生成流水线,每月的模型调用成本可能比办公室租金还高。
用得起AI,正变成一个越来越奢侈的「命题」。
就在这个节点上,一家AI实验室做了一件让人意外的事。
三大模型API,无限期免费
最近,全球榜单排名前十的AI Lab——Agnes AI重磅宣布,自2026年6月1日起,旗下三大核心模型API,无限期免费开放——
文本模型:Agnes-2.0-Flash
图像模型:Agnes-Image-2.0-Flash
视频模型:Agnes-Video-V2.0
没有试用期,没有「免费版阉割功能」,不用绑卡认证即可直接调用。
先看一组数据,感受一下「免费」之前的价格水平:

放在整个AI行业来看,做到免费开放单一模态API的厂商不少——
谷歌Gemini Flash有免费额度,DeepSeek的价格已经低到「准免费」,Meta的Llama系列开源可自部署。
但同时免费开放文本、图像、视频三大模态API的,Agnes是第一家。
Agnes AI坚定地认为,「高质量AI不应只属于高预算公司」!
因此,通过更低成本、更高可用性,全球免费开放API,降低开发者与创作者进入AI时代的门槛。
全能Agent底座
文本模型Agnes-2.0-Flash,是一款基于Transformer架构的多模态基础模型。
它具备全栈式的核心能力,专为构建Agent而生。
不需要额外套壳,Agnes-2.0-Flash本身就是一个「精通工具调用的AI」。
模型原生支持Function Calling、Tool Use和结构化输出,能和搜索引擎、代码执行环境、数据库无缝协同。
在处理能力上,Agnes-2.0-Flash具1M 的超长上下文,确保在长文档深度分析、多轮复杂对话及冗长的Agent链路中,始终保持精准的语义一致性。单实例TPS轻松跑到200+,高并发场景下也能稳在800左右。
此外,它还兼容vLLM、TensorRT-LLM、Transformers等主流推理框架,支持多机多卡分布式部署。
对于需要自己部署的团队来说,迁移成本很低。
Agnes-2.0-Flash到底有多强?不如实战有说服力,接下来直接上实测。
先让它用纯React架构创建一个完整的《记忆翻牌游戏》。
这可不是画几个Emoji那么简单——它需要精准控制useState和useEffect来管理计时器、计分板、翻牌锁(防止连续狂点出Bug),还得叠加CSS 3D翻转和弹跳动画。
结果它交出的单文件React跑起来丝滑无比。
https://fdcc9a91a516412eb76955817c10694d.app.codebuddy.work
面对堪称「前端缝合怪」的极端测试,模型展现出了极其老辣的架构能力。
它不仅硬核接入MediaPipe跑通了实时手势识别,还完美模拟了带有重力感、物理切割和果汁飞溅的粒子场。
甚至,还丝滑实现了从指尖追踪到鼠标触屏的无缝防错接管。
更令人惊喜的,是Agnes-2.0-Flash的交付能力。
从带有收支分类、自动结算的底层逻辑,到直接渲染出媲美头部App的动态月度饼图,模型直接给出了一个包含完整「记账小程序」流水线的产品级Demo。

https://ktxbt65dyif2u6x2swi57yyhgm0zinrv.lambda-url.ap-southeast-1.on.aws/
纯写逻辑代码对LLM来说已是「基操」,但AI真的懂风格吗?
接下来,又让Agnes-2.0-Flash生成一个「Y2K复古个人主页」的HTML。没想到,它徒手搓出了复古的电脑视窗UI、动态电子名片特效。
一句话编辑图片
Agnes-Image-2.0-Flash基于Diffusion Transformer架构,核心定位是「按指令编辑图」。
——给一张图和一句话描述,模型就能完成修改。
换背景、加物体、改风格、修文字、融合多图,一个模型全部搞定。
过去,传统图像编辑中,打开PS,先抠图、再分割、然后目标检测、接着修复、最后风格转换——五个步骤串起来,依赖大量人工经验。
Agnes-Image-2.0-Flash把这个流程压缩成了一步:图像+指令→编辑结果。
在身份一致性上,这个模型的表现尤其值得注意。
做人像编辑时,它能稳定保持人物脸部和核心特征不变。这对于电商场景中的虚拟试穿、人物海报和社交媒体头像编辑来说至关重要。
随手丢进一张平平无奇的吐司图,配上一句话——为这片面包生成一张电商海报。

转眼间,Agnes-Image-2.0-Flash便渲染并交付了一张极具设计美学的电商级海报。

图文混排的高密度信息图,往往是考验生图模型能力的试金石。
Agnes-Image-2.0-Flash在这方面,拿捏地非常完美。
看看它生成的手绘风「四象限工作法」,不仅做到了视觉上的干净利落,更难得的是实现了语义的精准融合。

再比如,直出一张巧克力拿铁的「小红书爆款0失败教程」,无论是字体的选择还是版式的调性,都狠狠拿捏住了互联网的流量密码,简直无可挑剔。

还有更多类型的信息图demo演示。

老照片修复上色,Agnes-Image-2.0-Flash更是化身为「岁月魔术师」,像素级抹去岁月的斑驳与划痕,为褪色的黑白影像注入了鲜活的生命力。


上传一张人物原图,瞬间爆改贴纸。


Agnes-Image-2.0-Flash还能直出海报,无论是潮酷拉风的赛博朋克,还是史诗级电影感,它都能拿捏。


此外,Agnes-Image-2.0-Flash还是个多图融合的「端水大师」。
我们试着丢进去下面三张图片的素材,要求它重构出一张画风统一的视觉图。



看到成图的那一刻真的被惊艳到了,元素过渡极为自然,简直做到了像素级的「毫无违和感」。

「电影级」音画同出
Agnes-Video-V2.0是Agnes三大模型中,最具想象空间的一个。
它支持原生音画同出,输出分辨率可选720P和1080P,支持首帧生视频、首尾帧生视频、多帧生视频等多种生成模式。
在内容生成能力上,Agnes-Video-V2.0擅长人物表演、景别切换、第一视角运镜、光影氛围塑造和多镜头内容生成。
这些能力覆盖的场景包括短视频创作、广告素材生产、剧情分镜、社交媒体视频等。
对于内容创作者来说,这几乎是日常工作中最高频的需求。
简单说,它不只是能「生成一段视频」,而是能生成有镜头语言的视频内容。
真正的电影级质感,从来不能只有画面,没有声音。
看完下面这个视频,便能体会到,Agnes-Video-V2.0是真正懂「电影级」镜头语言的。
在这段双人互动的更衣室场景中,当教练的手搭上队员肩膀,同步输出的不只是毫无破绽的对口型台词,还有极其符合人物当前沮丧心境的沉重叹息。
视觉的微表情与听觉的情绪混响完美咬合,真实得让你完全意识不到,这竟然是AI凭空生成的虚拟时空。
懂行的朋友都知道,AI视频一旦涉及「面部贴合」的物理交互,往往会演变成一场视觉灾难。
但这段实测不仅攻克了物理一致性,更将母亲眉宇间因极度疲惫而生出的烦躁,以及随后出于本能的强颜欢笑刻画得淋漓尽致,情绪的层次感与张力直接拉满。
Agnes-Video-V2.0的「首尾帧控制」能力,也展现了极其恐怖的画面张力。
在极寒风雪中,戴着白毡帽的异域少女直视镜头,睫毛上的冰霜质感分毫毕现。
随着她的眨眼与视线微动,瞳孔的反光变幻和面部微表情的过渡极其平滑自然,没有出现任何常见的画面崩坏。


全球榜单排名前十的AI Lab
凭什么?
Agnes AI能拿出三个模态同时免费的底气,归根到底是因为,模型确实打出了成绩。
过去几个月,Agnes的三条产品线在多个权威榜单上持续上榜:
文本模型Agnes-2.0-Flash进入了Claw-Eval榜单。
Claw-Eval被开发者社区视为「最接近AI Agent实战能力」的评测之一。
它是专门评测模型在真实Agent场景下的综合执行能力——
能不能用好工具、能不能完成多步骤任务、能不能在复杂链路中保持稳定输出。
Agnes-2.0-Flash在部分任务中,超越了Gemini Flash等知名模型。

图像模型Agnes-Image-2.0-Flash进入了Artificial Analysis(图像编辑)榜单前列。
这个榜单有个特点:采用的是真实用户盲评机制,参与评测的用户看不到图片是哪个模型生成的,纯凭视觉质量打分。
换句话说,这个排名比「自己跑分自己报」要靠谱得多。
视频模型Agnes-Video-V2.0则进入了Artificial Analysis的「图像生视频榜(音频)」榜单,同样是盲评机制下的真实用户评分。

Agnes在三个不同的国际评测体系中连续上榜,覆盖了文本、图像、视频三大模态。
这不是某一个单项的偶然表现,而是系统性的多模态能力验证。
因此,Agnes AI正式进入「全球AI Lab排名第9」的位置。
与OpenAI、Anthropic这些「流量型」AI公司不同,它走的是一条相对低调但扎实的路线。
不只是「免费」
当AI成为基础设施
Agnes此次全模态免费开放的意义,可能比「省钱」更大。
过去十年,云计算从一项昂贵的企业技术变成了无处不在的基础设施——
AWS、Google Cloud让每一个创业者都能用几美元,启动一个全球性的互联网产品。
AI,也正在走一条类似的路。
但和云计算不同的是,AI的「基础设施化」面临一个独特的悖论:模型越强大,使用成本越高,越难变成「人人用得起」的基础设施。
特别是在多模态时代,文本、图像、视频三种能力叠加使用,成本呈倍数增长。
Agnes的做法,是试图打破这个悖论。
把三种模态的模型API同时免费开放,本质上是在说——AI的基础能力层不应该是利润中心,而应该是普惠入口。
这个逻辑和早期互联网的逻辑很像,先让足够多的人用起来,在使用中形成生态,在生态中找到真正的价值增长点。
在此刻,对于那些被API成本挡在门外的开发者和创作者而言,Agnes递过来的,是一张真正的入场券。
对于一个独立开发者来说,这意味着可以0成本验证一个Agent应用的完整链路。
对于一个三五人的内容团队来说,这意味着可以放开手脚做多版本素材测试。
对于一个正在探索AI落地的中小企业来说,这意味着「先试试看」的成本变成了0。
AI作为基础设施的时代,也许比我们想象的更近一步。
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!
AI 中文社