Claude「断电」背后:中国基准首次捅开了AI万亿市场「死穴」
【导读】6月22日Claude全家桶集体宕机,只是冰山一角。当最强大模型被丢进真实机房直面「幽灵故障」,AISHPerf-智算运维智能体评测基准给出残酷答案:全军覆没,无一过50分。这道鸿沟,第一次被量化。
6月22日,全球AI圈突然集体「断电」。
Claude的「全家桶」——claude.ai、Console、API、Code、Cowork——在短短几个小时内大面积宕机。

开发者终端刷满红色报错,企业协作流水线瞬间断流,社交媒体上炸了锅:有人晒出满屏502截图配文「被AI炒了鱿鱼」,有人感慨「2026年最体面的摸鱼理由——模型宕机了」。
而这,还算快的。笑归笑,背后的现实却一点也不好笑。
当AI从聊天玩具变成驱动千亿美金算力投资的「生产设备」时,基础设施的稳定性,已经成了决定整个产业生死存亡的隐形天花板。
而更残酷的测试结果刚刚出炉——
AISHPerf-智算运维智能体评测基准,由中国信息通信研究院(信通院)推出,无问芯穹参与重点技术建设,把包括Claude-4-sonnet在内的国内外主流大模型扔进真实GPU集群环境,让它们处理真正的生产级故障。
结果,全军覆没,综合得分全部低于50分。中等和困难难度正确率普遍不到一半。

测试对象包括Claude-4-sonnet和主流开源模型等,均做匿名化处理
测试对象包括Claude-4-sonnet和主流开源模型等,均做匿名化处理
这不是语言游戏的失败,这是「说」与「做」之间,一道真实而残酷的鸿沟。
万亿市场,智能体到底能不能稳稳接住?
想象一下这样的场景:凌晨三点,训练任务突然出现无规律剧烈性能波动。
运维团队紧急兜底排查,却遇上最诡异的情况:网络链路正常、存储性能正常、节点硬件也正常。
为了定位根因,运维人员只能全链路逐层溯源排查,从模型切分策略、任务调度逻辑,一路深挖到底层网络协议、内核参数、存储配置规则……
可能要耗费巨大的人力物力和时间,最终才会在一些极为隐蔽的边缘场景中,发现问题。
最致命的是,这类故障的排查周期,往往长达十天半个月。
而在这漫长的排障期间,大量服务器在持续空转,海量算力资源白白损耗,AI训练业务全程停滞。
像这样的「幽灵故障」,在任何大规模GPU集群里都不是个例。
它们隐蔽、跨层栈、难以复现,却直接吞噬真金白银。
摩根士丹利预测,2028年全球AI基础设施累计投资将达2.9万亿美元。
其中,运维人力、故障损失与集群闲置构成的成本占比高达15%-20%,全行业潜在可优化空间超过4350亿美元。

无问芯穹早在2025年10月就已率先探索和应用早期版本的运维智能体。
真实生产环境里的数据最有说服力:工单平均处理时长缩短 50%,关键故障处理效率提升约6倍,运维人员人效提升5倍以上,综合运维成本下降约30%。
这些数字背后,是无数个被解放出来的凌晨三点,和无数度没有被白白烧掉的电。
但问题来了——究竟什么样的运维智能体,才配得上「好用」这个词?
全球首个真实机房的「开卷实操考」
过去对大模型的评估,更像一场语言知识竞赛。模型背得越多、说得越漂亮,分数就越高。
可当AI真正走进基础设施领域,「能否解决实际问题」成了唯一标准。
因为,它最终会影响到每一度电、每一张GPU卡的产出效率。
AISHPerf-智算运维智能体评测基准,彻底颠覆了这种「纸上谈兵」。
它源自无问芯穹积累的近百亿条真实运维数据。
经过严格过滤、去重、脱敏三阶段精细标注,最终提炼出高质量、高保真评测用例。
每一条都包含真实的问题现象和明确的故障根因。

更重要的是,这套基准不给根因,需要AI自行探索。
它只告诉你:「训练任务卡死了,用户反馈是这样的,请复现并修复。」

智能体必须自己进入真实集群环境,自主发现线索、提出假设、验证、执行修复。
整个过程必须安全、有效、不能把机房搞炸。
这才是真正的「开卷实操考」——它考的是长链路多跳推理、与真实物理设备的交互能力、在不确定性中做决策的勇气,以及最关键的安全边界意识。
为了让这场考试公平且可重复,AISHPerf-智算运维智能体评测基准配套了AIops-Chaos混沌工程项目。

它能通过软件层精准模拟GPU掉卡、显存错误、NVLink故障、网络分区等真实硬件异常,无需物理损坏硬件,就能构造高保真测试环境。
只需要一台GPU+多轨RoCE NIC服务器,就能实现分钟级的故障编排与自动化恢复验证。
这套评测框架(AIops-Eval)包含User、Agent、Env、Evaluator、Tracing五个核心模块,完整记录智能体每一步的轨迹,支持自定义规则和LLM-as-Judge双重评测。

它不再关心模型「知道多少」,只关心它在真实世界里,能不能把事情做成。
全军覆没的铁证
硬件世界面前,AI的真实表现
为了给行业一个清晰的基线,信通院用这套基准对基于ReAct的简单智能体进行了全面测试。
测试对象包括Claude-4-sonnet等主流模型。
为了公平考察模型自身能力,智能体仅使用shell工具,无法联网搜索;模型均做匿名处理。
结果令人震撼:所有模型的总得分均低于50分。
即使是目前最强的旗舰模型,在中等与困难难度任务上的正确率也普遍低于50%。

面对困难问题时,工具调用时间占比显著上升,但正确率反而下降。

这说明模型在复杂场景下,无法精准有效地采集和利用信息。
更耐人寻味的是不同技术栈的表现差异:
模型在单纯的代码类Bug上表现相对较好;但一旦涉及硬件故障(GPU掉卡、显存错误、网络分区等),正确率普遍偏低,而Token消耗却明显更高。


模型似乎对硬件世界缺乏足够信心,不得不反复思考、反复确认。
这背后,是三种典型的失败模式:
处理任务的稳定性不足:生成不符合工具调用规则的Token。
推理链质量差:给出看似合理、实则治标不治本的方案;或者只输出宽泛的排障思路,不经过严谨验证就下结论。
决策与执行不够安全:在真实环境中执行高风险操作,或执行危险操作导致整个物理环境崩溃,最终需要人类运维人员紧急介入才能恢复。
这些失败,不是模型「不够聪明」,而是它还没有真正学会如何在物理世界里负责任地行动。
模型与人类
不是替代,而是正交
测试轨迹分析后,一个更深刻的洞察浮现:
当前大模型与人类运维专家的技能,可能是高度正交的。
模型擅长广度知识检索、代码逻辑推理和快速假设生成;人类运维专家则在硬件层面的直觉判断、复杂系统边界把控和最终安全决策上更具优势。
这意味着,未来最优的运维系统,或许不是让智能体完全替代人类,而是构建一种「模型负责快速广度探索 + 规则与人类专家负责深度验证与安全把关」 的混合智能体范式。
AISHPerf-智算运维智能体评测基准的意义,正在于它第一次把这个鸿沟量化、可视化、公开化了。
它用真实数据和真实环境,告诉整个行业:
我们距离「系统自己解决问题」还有多远,也为这条路上的每一步改进,提供了可对齐的公共基线。
这套基准还特别覆盖了天数、壁仞、沐曦、摩尔、昇腾五种国产芯片。

在国产智算集群建设如火如荼的当下,填补国产智算运维评测领域的空白,本身就是对产业升级最务实的支撑。
从「Token工厂」到「自愈工厂」,我们正在丈量未来
过去一年,AI的发展让所有人目眩神迷。
从大模型到智能体,从训练到推理,行业正在形成一个共同认知:技术发展的瓶颈早已不再局限于模型层,底层算力基础设施同样是决定产业上限的关键要素。
AI系统本质上已经演变成一座「Token工厂」:
模型是生产逻辑,数据是原材料,GPU集群则是生产设备。
工厂的最终产出,是一个个有价值的Token。
但当我们把视角下沉到机房底层,就会发现一个更现实的问题:这座工厂远没有想象中那么高效。
AISHPerf-智算运维智能体评测基准,让「系统自己解决问题」这件事,第一次变得可衡量、可对齐、可迭代。
这或许是人类写给机器的、最浪漫的一行代码。
凌晨三点,机房依旧亮着灯。
只是终有一天,守夜的,不再只有人类。
开源地址:https://gitee.com/aishperf-caict/aishperf_openness
配套故障模拟器:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos
运维数据集:https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl
评测框架:https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!
AI 中文社