Claude「断电」背后:中国基准首次捅开了AI万亿市场「死穴」

浏览24次 点赞0次 收藏0次

【导读】6月22日Claude全家桶集体宕机,只是冰山一角。当最强大模型被丢进真实机房直面「幽灵故障」,AISHPerf-智算运维智能体评测基准给出残酷答案:全军覆没,无一过50分。这道鸿沟,第一次被量化。

6月22日,全球AI圈突然集体「断电」。

Claude的「全家桶」——claude.ai、Console、API、Code、Cowork——在短短几个小时内大面积宕机。


开发者终端刷满红色报错,企业协作流水线瞬间断流,社交媒体上炸了锅:有人晒出满屏502截图配文「被AI炒了鱿鱼」,有人感慨「2026年最体面的摸鱼理由——模型宕机了」。

而这,还算快的。笑归笑,背后的现实却一点也不好笑。

当AI从聊天玩具变成驱动千亿美金算力投资的「生产设备」时,基础设施的稳定性,已经成了决定整个产业生死存亡的隐形天花板

而更残酷的测试结果刚刚出炉——


AISHPerf-智算运维智能体评测基准,由中国信息通信研究院(信通院)推出,无问芯穹参与重点技术建设,把包括Claude-4-sonnet在内的国内外主流大模型扔进真实GPU集群环境,让它们处理真正的生产级故障。

结果,全军覆没,综合得分全部低于50分。中等和困难难度正确率普遍不到一半。


测试对象包括Claude-4-sonnet和主流开源模型等,均做匿名化处理

测试对象包括Claude-4-sonnet和主流开源模型等,均做匿名化处理

这不是语言游戏的失败,这是「说」与「做」之间,一道真实而残酷的鸿沟

万亿市场,智能体到底能不能稳稳接住?

想象一下这样的场景:凌晨三点,训练任务突然出现无规律剧烈性能波动。

运维团队紧急兜底排查,却遇上最诡异的情况:网络链路正常、存储性能正常、节点硬件也正常。

为了定位根因,运维人员只能全链路逐层溯源排查,从模型切分策略、任务调度逻辑,一路深挖到底层网络协议、内核参数、存储配置规则……

可能要耗费巨大的人力物力和时间,最终才会在一些极为隐蔽的边缘场景中,发现问题。

最致命的是,这类故障的排查周期,往往长达十天半个月。

而在这漫长的排障期间,大量服务器在持续空转,海量算力资源白白损耗,AI训练业务全程停滞。

像这样的「幽灵故障」,在任何大规模GPU集群里都不是个例。

它们隐蔽、跨层栈、难以复现,却直接吞噬真金白银。

摩根士丹利预测,2028年全球AI基础设施累计投资将达2.9万亿美元。

其中,运维人力、故障损失与集群闲置构成的成本占比高达15%-20%,全行业潜在可优化空间超过4350亿美元。


无问芯穹早在2025年10月就已率先探索和应用早期版本的运维智能体。

真实生产环境里的数据最有说服力:工单平均处理时长缩短 50%,关键故障处理效率提升约6倍,运维人员人效提升5倍以上,综合运维成本下降约30%。

这些数字背后,是无数个被解放出来的凌晨三点,和无数度没有被白白烧掉的电。

但问题来了——究竟什么样的运维智能体,才配得上「好用」这个词?

全球首个真实机房的「开卷实操考」

过去对大模型的评估,更像一场语言知识竞赛。模型背得越多、说得越漂亮,分数就越高。

可当AI真正走进基础设施领域,「能否解决实际问题」成了唯一标准。

因为,它最终会影响到每一度电、每一张GPU卡的产出效率。

AISHPerf-智算运维智能体评测基准,彻底颠覆了这种「纸上谈兵」。

它源自无问芯穹积累的近百亿条真实运维数据。

经过严格过滤、去重、脱敏三阶段精细标注,最终提炼出高质量、高保真评测用例。

每一条都包含真实的问题现象和明确的故障根因。


更重要的是,这套基准不给根因,需要AI自行探索。

它只告诉你:「训练任务卡死了,用户反馈是这样的,请复现并修复。」


智能体必须自己进入真实集群环境,自主发现线索、提出假设、验证、执行修复。

整个过程必须安全、有效、不能把机房搞炸。

这才是真正的「开卷实操考」——它考的是长链路多跳推理、与真实物理设备的交互能力、在不确定性中做决策的勇气,以及最关键的安全边界意识。

为了让这场考试公平且可重复,AISHPerf-智算运维智能体评测基准配套了AIops-Chaos混沌工程项目。


它能通过软件层精准模拟GPU掉卡、显存错误、NVLink故障、网络分区等真实硬件异常,无需物理损坏硬件,就能构造高保真测试环境。

只需要一台GPU+多轨RoCE NIC服务器,就能实现分钟级的故障编排与自动化恢复验证。

这套评测框架(AIops-Eval)包含User、Agent、Env、Evaluator、Tracing五个核心模块,完整记录智能体每一步的轨迹,支持自定义规则和LLM-as-Judge双重评测。


它不再关心模型「知道多少」,只关心它在真实世界里,能不能把事情做成。

全军覆没的铁证

硬件世界面前,AI的真实表现

为了给行业一个清晰的基线,信通院用这套基准对基于ReAct的简单智能体进行了全面测试。

测试对象包括Claude-4-sonnet等主流模型。

为了公平考察模型自身能力,智能体仅使用shell工具,无法联网搜索;模型均做匿名处理。

结果令人震撼:所有模型的总得分均低于50分

即使是目前最强的旗舰模型,在中等与困难难度任务上的正确率也普遍低于50%


面对困难问题时,工具调用时间占比显著上升,但正确率反而下降。


这说明模型在复杂场景下,无法精准有效地采集和利用信息。

更耐人寻味的是不同技术栈的表现差异:

模型在单纯的代码类Bug上表现相对较好;但一旦涉及硬件故障(GPU掉卡、显存错误、网络分区等),正确率普遍偏低,而Token消耗却明显更高。



模型似乎对硬件世界缺乏足够信心,不得不反复思考、反复确认。

这背后,是三种典型的失败模式:

  1. 处理任务的稳定性不足:生成不符合工具调用规则的Token。

  2. 推理链质量差:给出看似合理、实则治标不治本的方案;或者只输出宽泛的排障思路,不经过严谨验证就下结论。

  3. 决策与执行不够安全:在真实环境中执行高风险操作,或执行危险操作导致整个物理环境崩溃,最终需要人类运维人员紧急介入才能恢复。

这些失败,不是模型「不够聪明」,而是它还没有真正学会如何在物理世界里负责任地行动。

模型与人类

不是替代,而是正交

测试轨迹分析后,一个更深刻的洞察浮现:

当前大模型与人类运维专家的技能,可能是高度正交的。

模型擅长广度知识检索、代码逻辑推理和快速假设生成;人类运维专家则在硬件层面的直觉判断、复杂系统边界把控和最终安全决策上更具优势。

这意味着,未来最优的运维系统,或许不是让智能体完全替代人类,而是构建一种「模型负责快速广度探索 + 规则与人类专家负责深度验证与安全把关」 的混合智能体范式。

AISHPerf-智算运维智能体评测基准的意义,正在于它第一次把这个鸿沟量化、可视化、公开化了。

它用真实数据和真实环境,告诉整个行业:

我们距离「系统自己解决问题」还有多远,也为这条路上的每一步改进,提供了可对齐的公共基线。

这套基准还特别覆盖了天数、壁仞、沐曦、摩尔、昇腾五种国产芯片。


在国产智算集群建设如火如荼的当下,填补国产智算运维评测领域的空白,本身就是对产业升级最务实的支撑。

从「Token工厂」到「自愈工厂」,我们正在丈量未来

过去一年,AI的发展让所有人目眩神迷。

从大模型到智能体,从训练到推理,行业正在形成一个共同认知:技术发展的瓶颈早已不再局限于模型层,底层算力基础设施同样是决定产业上限的关键要素

AI系统本质上已经演变成一座「Token工厂」:

模型是生产逻辑,数据是原材料,GPU集群则是生产设备。

工厂的最终产出,是一个个有价值的Token。

但当我们把视角下沉到机房底层,就会发现一个更现实的问题:这座工厂远没有想象中那么高效

AISHPerf-智算运维智能体评测基准,让「系统自己解决问题」这件事,第一次变得可衡量、可对齐、可迭代

这或许是人类写给机器的、最浪漫的一行代码。

凌晨三点,机房依旧亮着灯。

只是终有一天,守夜的,不再只有人类。

开源地址:https://gitee.com/aishperf-caict/aishperf_openness

配套故障模拟器:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos

运维数据集:https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl

评测框架:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它往往能得到较好的回响。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。
最新资讯