Token狂涨，硅谷哀嚎！全球榜单前十AI Lab，却把三大模型全免了

2026-06-01 发布浏览396次点赞0次收藏0次

【导读】大厂API账单涨上天，打工人快要烧不起Token了！就在Agent因高昂成本面临死局的节点，全球榜单前十的AI实验室Agnes AI扔下重磅炸弹：三大核心多模态API无限期免费开放，彻底打破大厂垄断。

Token这么贵，Agent还铺得开吗？

这几天，硅谷大厂们都在集体哀嚎：API账单像坐火箭一样，简直涨到天上了。

这背后的现实，非常清楚——AI补贴时代正在终结！

过去半年，Anthropic、OpenAI和谷歌这几家巨头，其实都在「暗戳戳」地变相涨价。

很多企业一开始笃定「AI会越来越便宜」，甚至按这个逻辑把整个工作流都铺开了。

结果呢？眼睁睁看着一整年的预算，没几个月就烧了个精光。

居高不下的算力成本，难道注定要成为Agent大规模落地的「死局」吗？

Agent全球爆火

反而Token烧不起了

2026年，OpenClaw、Hermes的横空出世，彻底引爆了Agent赛道。

从最初狂欢的「龙虾热」，演变至今，Agent已然渗透进大小企业的生命线，与业务流程深度绑定。

过去大模型「诸神之战」，大厂们疯狂内卷，将API价格一路打到「白菜价」。

而如今，越来越多Agent部署后，极速消耗的Token反而让企业们直呼「烧不起了」。

AI大佬Simon Willison最新长文分析，一语道破背后的逻辑——

这场热潮的本质，是OpenAI、Anthropic已真正跨越了壁垒，真正找到了「产品的契合点」（Product-Market Fit）。

究其原因，AI Agent的全面爆发彻底扭转了行业局势。

出于被AI时代淘汰的焦虑，大部分公司有着极强的付费意愿，哪怕是200美元/月/人/客单价。

由此，过去半年内，两大行业巨头相继调整计费规则，逐步淘汰了早期的固定订阅模式——

Anthropic：企业服务转变为「20美元底价+API实际Token消耗」计费；
OpenAI：4月起，所有企业版及定制方案全面与API Token消耗量挂钩。

AI能力的天花板在飞速上升，使用AI的地板也在同步抬高。

众所周知，Agent工作流天然是「Token黑洞」：一次搜索+推理+工具调用链路跑下来，Token消耗量轻松达到普通对话的十倍以上。

一位独立开发者想用前沿模型做一个AI写作助手的原型，光是测试阶段的API费用可能就要几百美元。

一个三人创业团队想搭建多模态内容生成流水线，每月的模型调用成本可能比办公室租金还高。

用得起AI，正变成一个越来越奢侈的「命题」。

就在这个节点上，一家AI实验室做了一件让人意外的事。

三大模型API，无限期免费

最近，全球榜单排名前十的AI Lab——Agnes AI重磅宣布，自2026年6月1日起，旗下三大核心模型API，无限期免费开放——

文本模型：Agnes-2.0-Flash
图像模型：Agnes-Image-2.0-Flash
视频模型：Agnes-Video-V2.0

没有试用期，没有「免费版阉割功能」，不用绑卡认证即可直接调用。

先看一组数据，感受一下「免费」之前的价格水平：

放在整个AI行业来看，做到免费开放单一模态API的厂商不少——

谷歌Gemini Flash有免费额度，DeepSeek的价格已经低到「准免费」，Meta的Llama系列开源可自部署。

但同时免费开放文本、图像、视频三大模态API的，Agnes是第一家。

Agnes AI坚定地认为，「高质量AI不应只属于高预算公司」！

因此，通过更低成本、更高可用性，全球免费开放API，降低开发者与创作者进入AI时代的门槛。

全能Agent底座

文本模型Agnes-2.0-Flash，是一款基于Transformer架构的多模态基础模型。

它具备全栈式的核心能力，专为构建Agent而生。

不需要额外套壳，Agnes-2.0-Flash本身就是一个「精通工具调用的AI」。

模型原生支持Function Calling、Tool Use和结构化输出，能和搜索引擎、代码执行环境、数据库无缝协同。

在处理能力上，Agnes-2.0-Flash具1M 的超长上下文，确保在长文档深度分析、多轮复杂对话及冗长的Agent链路中，始终保持精准的语义一致性。单实例TPS轻松跑到200+，高并发场景下也能稳在800左右。

此外，它还兼容vLLM、TensorRT-LLM、Transformers等主流推理框架，支持多机多卡分布式部署。

对于需要自己部署的团队来说，迁移成本很低。

Agnes-2.0-Flash到底有多强？不如实战有说服力，接下来直接上实测。

先让它用纯React架构创建一个完整的《记忆翻牌游戏》。

这可不是画几个Emoji那么简单——它需要精准控制useState和useEffect来管理计时器、计分板、翻牌锁（防止连续狂点出Bug），还得叠加CSS 3D翻转和弹跳动画。

结果它交出的单文件React跑起来丝滑无比。

https://fdcc9a91a516412eb76955817c10694d.app.codebuddy.work

面对堪称「前端缝合怪」的极端测试，模型展现出了极其老辣的架构能力。

它不仅硬核接入MediaPipe跑通了实时手势识别，还完美模拟了带有重力感、物理切割和果汁飞溅的粒子场。

甚至，还丝滑实现了从指尖追踪到鼠标触屏的无缝防错接管。

更令人惊喜的，是Agnes-2.0-Flash的交付能力。

从带有收支分类、自动结算的底层逻辑，到直接渲染出媲美头部App的动态月度饼图，模型直接给出了一个包含完整「记账小程序」流水线的产品级Demo。

https://ktxbt65dyif2u6x2swi57yyhgm0zinrv.lambda-url.ap-southeast-1.on.aws/

纯写逻辑代码对LLM来说已是「基操」，但AI真的懂风格吗？

接下来，又让Agnes-2.0-Flash生成一个「Y2K复古个人主页」的HTML。没想到，它徒手搓出了复古的电脑视窗UI、动态电子名片特效。

一句话编辑图片

Agnes-Image-2.0-Flash基于Diffusion Transformer架构，核心定位是「按指令编辑图」。

——给一张图和一句话描述，模型就能完成修改。

换背景、加物体、改风格、修文字、融合多图，一个模型全部搞定。

过去，传统图像编辑中，打开PS，先抠图、再分割、然后目标检测、接着修复、最后风格转换——五个步骤串起来，依赖大量人工经验。

Agnes-Image-2.0-Flash把这个流程压缩成了一步：图像+指令→编辑结果。

在身份一致性上，这个模型的表现尤其值得注意。

做人像编辑时，它能稳定保持人物脸部和核心特征不变。这对于电商场景中的虚拟试穿、人物海报和社交媒体头像编辑来说至关重要。

随手丢进一张平平无奇的吐司图，配上一句话——为这片面包生成一张电商海报。

转眼间，Agnes-Image-2.0-Flash便渲染并交付了一张极具设计美学的电商级海报。

图文混排的高密度信息图，往往是考验生图模型能力的试金石。

Agnes-Image-2.0-Flash在这方面，拿捏地非常完美。

看看它生成的手绘风「四象限工作法」，不仅做到了视觉上的干净利落，更难得的是实现了语义的精准融合。

再比如，直出一张巧克力拿铁的「小红书爆款0失败教程」，无论是字体的选择还是版式的调性，都狠狠拿捏住了互联网的流量密码，简直无可挑剔。

还有更多类型的信息图demo演示。

老照片修复上色，Agnes-Image-2.0-Flash更是化身为「岁月魔术师」，像素级抹去岁月的斑驳与划痕，为褪色的黑白影像注入了鲜活的生命力。

上传一张人物原图，瞬间爆改贴纸。

Agnes-Image-2.0-Flash还能直出海报，无论是潮酷拉风的赛博朋克，还是史诗级电影感，它都能拿捏。

此外，Agnes-Image-2.0-Flash还是个多图融合的「端水大师」。

我们试着丢进去下面三张图片的素材，要求它重构出一张画风统一的视觉图。

看到成图的那一刻真的被惊艳到了，元素过渡极为自然，简直做到了像素级的「毫无违和感」。

「电影级」音画同出

Agnes-Video-V2.0是Agnes三大模型中，最具想象空间的一个。

它支持原生音画同出，输出分辨率可选720P和1080P，支持首帧生视频、首尾帧生视频、多帧生视频等多种生成模式。

在内容生成能力上，Agnes-Video-V2.0擅长人物表演、景别切换、第一视角运镜、光影氛围塑造和多镜头内容生成。

这些能力覆盖的场景包括短视频创作、广告素材生产、剧情分镜、社交媒体视频等。

对于内容创作者来说，这几乎是日常工作中最高频的需求。

简单说，它不只是能「生成一段视频」，而是能生成有镜头语言的视频内容。

真正的电影级质感，从来不能只有画面，没有声音。

看完下面这个视频，便能体会到，Agnes-Video-V2.0是真正懂「电影级」镜头语言的。

在这段双人互动的更衣室场景中，当教练的手搭上队员肩膀，同步输出的不只是毫无破绽的对口型台词，还有极其符合人物当前沮丧心境的沉重叹息。

视觉的微表情与听觉的情绪混响完美咬合，真实得让你完全意识不到，这竟然是AI凭空生成的虚拟时空。

懂行的朋友都知道，AI视频一旦涉及「面部贴合」的物理交互，往往会演变成一场视觉灾难。

但这段实测不仅攻克了物理一致性，更将母亲眉宇间因极度疲惫而生出的烦躁，以及随后出于本能的强颜欢笑刻画得淋漓尽致，情绪的层次感与张力直接拉满。

Agnes-Video-V2.0的「首尾帧控制」能力，也展现了极其恐怖的画面张力。

在极寒风雪中，戴着白毡帽的异域少女直视镜头，睫毛上的冰霜质感分毫毕现。

随着她的眨眼与视线微动，瞳孔的反光变幻和面部微表情的过渡极其平滑自然，没有出现任何常见的画面崩坏。

全球榜单排名前十的AI Lab

凭什么？

Agnes AI能拿出三个模态同时免费的底气，归根到底是因为，模型确实打出了成绩。

过去几个月，Agnes的三条产品线在多个权威榜单上持续上榜：

文本模型Agnes-2.0-Flash进入了Claw-Eval榜单。

Claw-Eval被开发者社区视为「最接近AI Agent实战能力」的评测之一。

它是专门评测模型在真实Agent场景下的综合执行能力——

能不能用好工具、能不能完成多步骤任务、能不能在复杂链路中保持稳定输出。

Agnes-2.0-Flash在部分任务中，超越了Gemini Flash等知名模型。

图像模型Agnes-Image-2.0-Flash进入了Artificial Analysis（图像编辑）榜单前列。

这个榜单有个特点：采用的是真实用户盲评机制，参与评测的用户看不到图片是哪个模型生成的，纯凭视觉质量打分。

换句话说，这个排名比「自己跑分自己报」要靠谱得多。

视频模型Agnes-Video-V2.0则进入了Artificial Analysis的「图像生视频榜（音频）」榜单，同样是盲评机制下的真实用户评分。

Agnes在三个不同的国际评测体系中连续上榜，覆盖了文本、图像、视频三大模态。

这不是某一个单项的偶然表现，而是系统性的多模态能力验证。

因此，Agnes AI正式进入「全球AI Lab排名第9」的位置。

与OpenAI、Anthropic这些「流量型」AI公司不同，它走的是一条相对低调但扎实的路线。

不只是「免费」

当AI成为基础设施

Agnes此次全模态免费开放的意义，可能比「省钱」更大。

过去十年，云计算从一项昂贵的企业技术变成了无处不在的基础设施——

AWS、Google Cloud让每一个创业者都能用几美元，启动一个全球性的互联网产品。

AI，也正在走一条类似的路。

但和云计算不同的是，AI的「基础设施化」面临一个独特的悖论：模型越强大，使用成本越高，越难变成「人人用得起」的基础设施。

特别是在多模态时代，文本、图像、视频三种能力叠加使用，成本呈倍数增长。

Agnes的做法，是试图打破这个悖论。

把三种模态的模型API同时免费开放，本质上是在说——AI的基础能力层不应该是利润中心，而应该是普惠入口。

这个逻辑和早期互联网的逻辑很像，先让足够多的人用起来，在使用中形成生态，在生态中找到真正的价值增长点。

在此刻，对于那些被API成本挡在门外的开发者和创作者而言，Agnes递过来的，是一张真正的入场券。

对于一个独立开发者来说，这意味着可以0成本验证一个Agent应用的完整链路。

对于一个三五人的内容团队来说，这意味着可以放开手脚做多版本素材测试。

对于一个正在探索AI落地的中小企业来说，这意味着「先试试看」的成本变成了0。

AI作为基础设施的时代，也许比我们想象的更近一步。

DeepSeek Go 框架 Google 数据库 AI 写作 OpenClaw OpenAI 测试 AI写作 C 算力大模型试用 AI写作助手 Agent 谷歌

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

Token狂涨，硅谷哀嚎！全球榜单前十AI Lab，却把三大模型全免了

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。