100万亿Token看懵硅谷!全球一半算力写代码,另一半在「搞颜色」 ?

2025-12-06 发布 · 浏览13次 · 点赞0次 · 收藏0次

【导读】100万亿Token实证数据揭秘2025年AI发展:开源逆袭、推理优化模型流量飙升至50%以上、用户留存取决于谁能率先完美解决特定痛点、亚洲付费使用量翻倍、中文成为全球第二大AI交互语言、AI不再是硅谷的独角戏!

2025年标志着AI发展史上的一个决定性转折点。

刚刚,OpenRouter和a16z刚刚联合发布的一篇深度调查,揭示了AI领域正经历一场前所未有的「大分流」,深度总结了2025年AI发展现状,并且给出多个反直觉观点!


报告名称:《基于OpenRouter的100万亿Toke实证研究》全文2万多字

报告地址:https://openrouter.ai/state-of-ai

此前,评估AI模型影响力的指标往往局限于学术基准测试(Benchmarks)或宣称的用户数量。

然而,OpenRouter提供了首个基于真实算力消耗的上帝视角。

该报告分析了过去一年中处理的超过100万亿个Token的元数据,这一数据规模足以抹平任何营销噪音,揭示出开发者和企业究竟在如何使用AI。

这份报告,基于来自全球的真实请求:100万亿Token,300多个模型,60多个提供方。

太长不看版:



  • 开源不再陪跑

    开源模型流量占比已达30%,不再是闭源模型的「平替」,而是特定场景的首选。

  • 中国力量崛起

    中国开源模型异军突起,占据全球流量近30%,在迭代速度和特定场景(如角色扮演)上表现统治级。

  • 推理模型为王

    推理优化模型流量占比飙升至50%以上,AI从「生成文本」正式转向「思考问题」。

  • 两大场景统治

    编程(占总流量50%+)统治生产力,角色扮演(占开源流量52%)统治创造力。

  • 亚洲时刻到来

    亚洲付费使用量翻倍至31%,中文以近5%的份额成为全球第二大AI交互语言。

  • 水晶鞋效应

    用户留存取决于「首发即匹配」。若新模型发布时能完美解决某类痛点(穿上水晶鞋),用户将极难流失;否则流失率极高。

  • 价格弹性弱

    整体降价10%仅带来<1%增量,但在特定高效模型上,极致低价引发了使用量的报复性增长(杰文斯悖论)

开源vs闭源:谁在统治模型江湖?

虽然闭源模型依然占据主导地位,但开源模型的使用量已稳步增长至总流量的30%左右。

这一增长并非偶然,而是由一系列高质量模型的发布推动的。

DeepSeek V3/R1、Kimi K2、Qwen 3 Coder等模型的发布,每一次都带来了显著的流量波峰,且这种增长具有持续性,证明了开源模型已进入生产环境,而非仅仅是昙花一现的实验品。

报告中一个极为亮眼的数据是中国开源模型的崛起。


  • 从1.2%到30%

    2024年末,中国模型的使用份额仅为1.2%;而到了2025年下半年,在某些周次,中国OSS模型(如DeepSeek、Qwen、MiniMax、Kimi等)的使用量甚至占据了所有模型流量的近30%

  • 快速迭代

    这一增长得益于中国开发者惊人的发布速度和迭代能力。DeepSeek和Qwen家族通过高频的模型更新,迅速适应了新兴的工作负载。

闭源顶梁柱,开源占三成

在OpenRouter上:


  • 闭源大厂模型(OpenAI、Anthropic、Google等)依然撑起了大约70%的Token使用量——特别是在受监管、企业级、关键业务上,大家更倾向于用它们。

  • 开源权重模型(OSS)的份额,却在这一年稳步上涨,到了2025年底,已经稳定在大约30%左右


开源与闭源模型:浅蓝色代表开放权重模型,而深蓝色对应专有(闭源)产品,垂直虚线标记了关键开放权重模型的发布

更有意思的是:这三成已经大量地进入生产使用新模型发布后,使用量往往不只是短期试用,而是持续维持


开源和闭源模型的每周Token量:堆叠条形图显示随时间推移各模型类别的总Token使用量。深红色对应专有模型(Closed),橙色代表中国开源模型、,青色表示其他地区的开源模型

一个重要推手就是中国开源模型的爆发。

DeepSeek、Qwen、Kimi等模型上线后,中国OSS模型的份额从几乎可以忽略的1%+,一路爬到某些周能占到近30%的总Token

在开源阵营内部,去年还是DeepSeek一家几乎吃掉半壁江山


  • 一度DeepSeek V3和R1两个模型加起来占了所有开源Token的超过一半


但2025年中以后,局面迅速被打散:


  • Qwen、Kimi、MiniMax、OpenAI的GPT-OSS、Meta的LLaMA等不断加入;

  • 没有任何一个开源模型,在全年后半段能稳定拿到超过25%的份额


用一句话概括:去年是「一个DeepSeek,打遍OSS」;今年变成了「五六个开源模型,各自都有稳定流量」。

对开发者来说,这是好消息:不再只有「那个唯一的好开源模型」,而是多个可选项,可以按场景挑。


按模型作者划分的总Token量(2024年11月–2025年11月)


Top 15开源模型:每个色带代表一个模型对总Token的贡献

「中杯」模型才是真爱

过去「小模型(<15B)」和「大模型(>70B)」的两极分化正在消失。

2025年,「中型模型(15B-70B)」异军突起。


  • 小模型的衰落

    尽管Google Gemma等小模型不断涌现,但整体份额在下降。

  • 中型模型的PMF

    随着Qwen 2.5 Coder 32B、Mistral Small 3等模型的发布,用户发现这类模型在能力与效率之间达到了完美的平衡。它们正在成为新的市场主流。


直觉上很多人以为:要么用最小的,便宜、快;要么用最大的,最聪明。

但真实使用数据却在告诉我们:中杯模型,正在成为新的主力。


开源模型规模与使用情况对比。每周由小型、中型和大型模型处理的开源总Token量占比。百分比按每周开源总使用量进行归一化计算。

智能体推理的崛起

如果说2024年是「聊天机器人」的年份,那么2025年就是「智能体」的年份。

AI的使用方式正在从简单的问答,转向复杂的多步任务执行。


推理与非推理趋势。自2025年初以来,通过推理优化模型路由的Token占所有Token的比例持续上升。

推理模型已成主流

数据显示,推理优化模型的流量占比已从年初的微不足道,飙升至50%以上

用户不再满足于模型「吐出」文本,而是要求模型进行内部的思维链(CoT)计算、规划和反思。

在这一领域,xAI的GrokCodeFast1异军突起,与Google的Gemini 2.5系列共同领跑,甚至超越了早期的先行者。

工具调用常态化

越来越多的请求不仅仅是文本生成,而是包含了「工具调用」(tool use)的指令。

这标志着模型正在作为更大系统中的一个组件被调用,而非孤立的对话者。


按推理相关Token量统计的顶尖推理模型。

在推理模型中,xAI的Grok Code Fast 1目前处理着最大份额的推理相关Token流量,紧随其后的是谷歌的Gemini 2.5 Pro和Gemini 2.5 Flash。

xAI的Grok 4 Fast与OpenAI的gpt-oss-120b共同构成了头部阵营。


工具调用采用率上升


按工具调用量统计的Top10头部模型。工具调用功能主要集中在明确为智能体推理优化的模型上,例如Claude Sonnet和Gemini Flash。

输入更长,任务更重


  • Prompt长度暴涨4倍

    平均输入Token数从1.5k增长到了6k以上。

  • Output长度翻倍

    平均输出从150 Token增长到400 Token(主要是推理Token的增加)。


这说明用户不再只是问「如何做番茄炒蛋」,而是扔给模型整个代码库、长文档或复杂的对话历史,要求模型进行深度的分析和调试。

提示词数量呈上升趋势。自2024年初以来,平均提示词长度已增长近四倍,反映出工作负载对上下文依赖度的显著提升。


完成Token数量几乎增长了三倍。

输出长度也有所增加,尽管基数较小,这表明响应内容更丰富、更详细,主要归因于推理Token的增长。


编程成为提示Token增长的主要驱动力。

自2025年春季标签功能上线以来,编程相关任务始终需要最大的输入上下文。


平均序列长度随时间变化。每次生成的平均Token数(提示词+补全内容)。

上图显示,过去20个月中平均序列长度增长超过三倍,从2023年末的不足2000个标记增至2025年末的5400个以上。

这一增长反映了向更长上下文窗口、更深层任务历史记录和更精细生成结果的结构性转变。

其中,编程中的序列长度与整体对比。编程提示词的系统性更长且增长更快。


场景洞察:大家到底用AI干什么?

通过Google Tag Classifier对数十亿次请求的分类分析,报告揭示了AI使用场景的真实分布。

结果可能会让你大吃一惊:编程和角色扮演是两大绝对主导。

编程:统治一切的生产力

编程类请求的占比已从年初的11%飙升至50%以上。


  • 主要驱动力

    AI辅助开发工具(IDE集成)的普及。

  • 模型偏好

    Anthropic的Claude系列在编程领域拥有统治级地位,长期占据60%以上的份额。

  • 竞争加剧

    虽然Claude依然是王者,但Qwen3Coder、MiniMax和OpenAI正在蚕食这一市场。


编程作为一个主导且不断增长的类别,在所有LLM查询中被归类为编程的份额持续增加。


编程工作负载高度集中:Anthropic的模型处理最大比例的代码查询,其次是OpenAI和Google,MiniMax所占份额正在增长。

其他提供商合计仅占很小部分。


角色扮演:被低估的创意引擎

在开源领域,角色扮演是绝对的王者,占据了开源模型流量的52%

这打破了「AI主要是生产力工具」的偏见。用户利用开源模型无审查、可定制的特性,进行故事创作、游戏互动和情感陪伴。

在角色扮演领域,中国开源模型和西方开源模型平分秋色。

DeepSeek的流量中,有超过2/3是角色扮演和闲聊,显示了其在消费者端的极高粘性。


按总Token份额排名的前6大类别。每个条形图显示该类别内主要子标签的细分。


接下来六个类别的Token份额分布。次级类别也有类似细分,展示了各领域中子主题的集中(或分散)程度。

长尾场景:科学、翻译与健康

除了上述两大巨头,其他场景如翻译、法律、科学等构成了长尾。


  • 科学

    主要集中在「机器学习与AI」本身的问题,显示出AI社区的自指性。

  • 健康

    需求高度碎片化,从医学研究到心理咨询,覆盖面极广。


下面,还针对每家公司进行了详细的数据统计。数据清晰地勾勒出了各家大模型的「性格」:


  • Anthropic

    硬核的「程序员」,80%以上流量用于编程和技术任务。

  • DeepSeek

    高情商的「陪聊」与「玩家」,主打角色扮演和闲聊。

  • Google

    博学的「全才」,在翻译、科学、法律等长尾领域表现均衡。

  • OpenAI

    正在从早期的科学/通用用途向编程/技术领域转型。


Anthropic:主要用于编程和技术任务(占比超过80%),角色扮演使用极少。


谷歌:使用构成广泛,涵盖法律、科学、技术及部分常识性查询。


xAI:代币使用高度集中于编程领域,技术应用、角色扮演及学术用途在十一月下旬显著增长。


OpenAI:使用重心逐渐转向编程与技术任务,角色扮演和日常闲聊大幅减少。


DeepSeek:使用场景以角色扮演和日常互动为主。


Qwen:在编程任务上表现出高度集中,角色扮演和科学类别的使用随时间波动。


地缘格局:AI使用的全球化

AI不再是硅谷的独角戏。研究发现:

亚洲地区的付费使用量占比从13%翻倍至31%

这不仅是因为亚洲也是模型生产地,更因为这里拥有庞大的应用场景和企业用户。


北美的相对下降,虽然仍是最大市场,但份额已不足50%。

语言分布上,英语依然占据82%的绝对主导.

简体中文以近5%的份额位居第二,不仅超过了西班牙语和俄语,也侧面印证了中文AI社区的活力。


留存率分析:「灰姑娘的水晶鞋」效应

这是本报告提出并在理论层面最具洞察力的部分。

在这个模型快速迭代的时代,传统的「用户留存」概念失效了。

取而代之的是一种被称为「灰姑娘的水晶鞋(Cinderella GlassSlipper)」的现象。

什么是「水晶鞋效应」?

当一个新的前沿模型发布时,它就像那只水晶鞋。

市场上存在大量未被满足的、高难度的潜在工作负载。

如果新模型(水晶鞋)恰好能解决某类特定的高难度任务(灰姑娘),那么这批早期用户就会形成一个「基石群组」。

他们的留存率极高,不会因为后续有更便宜的模型出现而轻易迁移,因为他们已经围绕该模型构建了基础设施和工作流。

如果模型发布时没有解决任何特定的痛点,或者只是「够用」,它就无法形成基石群组,用户流失率会极高。

实证数据

赢家:GPT-4o Mini、Claude 4 Sonnet和Gemini 2.5 Pro在发布初期都形成了明显的基石群组,留存率曲线在高位企稳。


输家:一些未能建立「模型-任务匹配」的模型,其所有群组的留存率都极其惨淡。

DeepSeek的「回旋镖效应」:DeepSeek的数据出现了一个有趣的异常——用户流失后又回来了

留存曲线在几个月后出现反弹。

这说明用户在尝试了其他竞品后,发现DeepSeek在特定场景(如性价比或特定任务)上依然是不可替代的。


成本vs使用

如果你认为把模型价格降到最低就能赢得市场,那就大错特错了。

通过对成本(Cost)使用量(Usage)进行双对数坐标分析,研究人员发现了以下规律:

首先,是可以按类型将任务分成四个象限。


  • 溢价工作负载(高价+高频)

    编程、科技。这是兵家必争之地。用户愿意为闭源模型支付高价,因为它们能解决复杂问题,产出价值远高于Token成本。

  • 大众流量驱动(低价+高频)

    角色扮演、普通问答。这是开源模型的舒适区。通过极致的性价比捕获海量长尾需求。

  • 专业专家(高价+低频)

    金融、医疗、学术。单次调用昂贵,但总频次低。

  • 利基工具(低价+低频)

    翻译、法律助手。



0.73美元/百万Token的成本中位数,将场景垂直一分为二

其次,是可以按使用-成本将模型分成四个象限。


  • 高级领导者(Premium leaders):成本不低,但使用量仍然很高,比如Claude Sonnet 4、Gemini 2.5 Pro等。

  • 高效巨头(Efficient giants):价格非常便宜,但性能够好,比如Gemini Flash、DeepSeek V3等。

  • 长尾模型(Long tail):价格几乎接近免费,但使用量很有限。

  • 高级专家(Premium specialists):非常贵,专门服务那些「极少但极值钱」的任务,比如o1-Pro、GPT-5 Pro等。



AI模型市场:成本与使用


第三,是模型定价对使用量的影响比想象中要小。

价格下降10%,使用量仅增加0.5%-0.7%。

这意味着,对于关键任务,用户对价格不敏感;对于低价值任务,单纯降价也未必能带来指数级增长。

开源与闭源模型:成本与使用

然后,再加上一点「杰文斯悖论」:

当某些模型变得足够便宜且好用时,人们会在更多地方、用更长上下文、更频繁地调用它;于是总Token反而飙升,总支出可能并不降低。

最后,配合前面的类别分析,就可以得到一个非常实用的认知:


  • 闭源模型,主要吃:高价值、高风险、质量必须非常稳的任务;
  • 开源模型,主要吃:大量、成本敏感,但对完美度要求略低的任务。
  • 降价≠少花钱:有时候用户反而会「用得更多」。

2025年的AI启示录

回顾以上分析不难发现,AI已经不再是单纯的技术竞赛,而是一场关于场景适配、成本控制与生态构建的综合战争。


  • LLM不只「写文案」

编程正在成为最大、最有战略意义的类别。

而角色扮演和娱乐类,也有着同样巨大的用量,丝毫不比生产力弱。


  • 多模型生态已成定局

闭源负责高价值,以及与收入挂钩的工作负载。

而开源负责低成本和大容量的任务。


  • 智能体推理是新常态

更长的上下文、更多的工具调用、更复杂的多步逻辑,正在成为常态;

评判一个模型的好坏,不再只是看「单次回答漂不漂亮」,而是看它在长链路里「执行持续推理」的可靠性和效率。


  • 留存的本质是解决难题

模型厂商真正的「护城河」,是率先解决关键的工作负载,并留住那批用户。

也就是所谓的辛德瑞拉「水晶鞋效应」:早点抓住「合脚」的场景,比多撑几个月的排行榜第一名更重要。


  • 不再是美国的独角戏

亚洲尤其是中国,已经同时作为重要的模型生产者+重度用户加入战局。

「多语言、多文化适配」会变成下一阶段的刚需能力。

研究局限说明:

本报告仅基于OpenRouter单一平台数据,未包含私有化部署及企业内部系统的流量。鉴于部分指标依赖代理推算(如地理位置和推理模式),上述结论旨在揭示行业演进的指示性趋势而非绝对定论

参考资料:

https://openrouter.ai/state-of-ai

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定极速推送!

100万亿Token看懵硅谷!全球一半算力写代码,另一半在「搞颜色」 ? - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。