Claude「断电」背后：中国基准首次捅开了AI万亿市场「死穴」

2026-06-29 发布浏览24次点赞0次收藏0次

【导读】6月22日Claude全家桶集体宕机，只是冰山一角。当最强大模型被丢进真实机房直面「幽灵故障」，AISHPerf-智算运维智能体评测基准给出残酷答案：全军覆没，无一过50分。这道鸿沟，第一次被量化。

6月22日，全球AI圈突然集体「断电」。

Claude的「全家桶」——claude.ai、Console、API、Code、Cowork——在短短几个小时内大面积宕机。

开发者终端刷满红色报错，企业协作流水线瞬间断流，社交媒体上炸了锅：有人晒出满屏502截图配文「被AI炒了鱿鱼」，有人感慨「2026年最体面的摸鱼理由——模型宕机了」。

而这，还算快的。笑归笑，背后的现实却一点也不好笑。

当AI从聊天玩具变成驱动千亿美金算力投资的「生产设备」时，基础设施的稳定性，已经成了决定整个产业生死存亡的隐形天花板。

而更残酷的测试结果刚刚出炉——

AISHPerf-智算运维智能体评测基准，由中国信息通信研究院（信通院）推出，无问芯穹参与重点技术建设，把包括Claude-4-sonnet在内的国内外主流大模型扔进真实GPU集群环境，让它们处理真正的生产级故障。

结果，全军覆没，综合得分全部低于50分。中等和困难难度正确率普遍不到一半。

测试对象包括Claude-4-sonnet和主流开源模型等，均做匿名化处理

这不是语言游戏的失败，这是「说」与「做」之间，一道真实而残酷的鸿沟。

万亿市场，智能体到底能不能稳稳接住？

想象一下这样的场景：凌晨三点，训练任务突然出现无规律剧烈性能波动。

运维团队紧急兜底排查，却遇上最诡异的情况：网络链路正常、存储性能正常、节点硬件也正常。

为了定位根因，运维人员只能全链路逐层溯源排查，从模型切分策略、任务调度逻辑，一路深挖到底层网络协议、内核参数、存储配置规则……

可能要耗费巨大的人力物力和时间，最终才会在一些极为隐蔽的边缘场景中，发现问题。

最致命的是，这类故障的排查周期，往往长达十天半个月。

而在这漫长的排障期间，大量服务器在持续空转，海量算力资源白白损耗，AI训练业务全程停滞。

像这样的「幽灵故障」，在任何大规模GPU集群里都不是个例。

它们隐蔽、跨层栈、难以复现，却直接吞噬真金白银。

摩根士丹利预测，2028年全球AI基础设施累计投资将达2.9万亿美元。

其中，运维人力、故障损失与集群闲置构成的成本占比高达15%-20%，全行业潜在可优化空间超过4350亿美元。

无问芯穹早在2025年10月就已率先探索和应用早期版本的运维智能体。

真实生产环境里的数据最有说服力：工单平均处理时长缩短 50%，关键故障处理效率提升约6倍，运维人员人效提升5倍以上，综合运维成本下降约30%。

这些数字背后，是无数个被解放出来的凌晨三点，和无数度没有被白白烧掉的电。

但问题来了——究竟什么样的运维智能体，才配得上「好用」这个词？

全球首个真实机房的「开卷实操考」

过去对大模型的评估，更像一场语言知识竞赛。模型背得越多、说得越漂亮，分数就越高。

可当AI真正走进基础设施领域，「能否解决实际问题」成了唯一标准。

因为，它最终会影响到每一度电、每一张GPU卡的产出效率。

AISHPerf-智算运维智能体评测基准，彻底颠覆了这种「纸上谈兵」。

它源自无问芯穹积累的近百亿条真实运维数据。

经过严格过滤、去重、脱敏三阶段精细标注，最终提炼出高质量、高保真评测用例。

每一条都包含真实的问题现象和明确的故障根因。

更重要的是，这套基准不给根因，需要AI自行探索。

它只告诉你：「训练任务卡死了，用户反馈是这样的，请复现并修复。」

智能体必须自己进入真实集群环境，自主发现线索、提出假设、验证、执行修复。

整个过程必须安全、有效、不能把机房搞炸。

这才是真正的「开卷实操考」——它考的是长链路多跳推理、与真实物理设备的交互能力、在不确定性中做决策的勇气，以及最关键的安全边界意识。

为了让这场考试公平且可重复，AISHPerf-智算运维智能体评测基准配套了AIops-Chaos混沌工程项目。

它能通过软件层精准模拟GPU掉卡、显存错误、NVLink故障、网络分区等真实硬件异常，无需物理损坏硬件，就能构造高保真测试环境。

只需要一台GPU+多轨RoCE NIC服务器，就能实现分钟级的故障编排与自动化恢复验证。

这套评测框架（AIops-Eval）包含User、Agent、Env、Evaluator、Tracing五个核心模块，完整记录智能体每一步的轨迹，支持自定义规则和LLM-as-Judge双重评测。

它不再关心模型「知道多少」，只关心它在真实世界里，能不能把事情做成。

全军覆没的铁证

硬件世界面前，AI的真实表现

为了给行业一个清晰的基线，信通院用这套基准对基于ReAct的简单智能体进行了全面测试。

测试对象包括Claude-4-sonnet等主流模型。

为了公平考察模型自身能力，智能体仅使用shell工具，无法联网搜索；模型均做匿名处理。

结果令人震撼：所有模型的总得分均低于50分。

即使是目前最强的旗舰模型，在中等与困难难度任务上的正确率也普遍低于50%。

面对困难问题时，工具调用时间占比显著上升，但正确率反而下降。

这说明模型在复杂场景下，无法精准有效地采集和利用信息。

更耐人寻味的是不同技术栈的表现差异：

模型在单纯的代码类Bug上表现相对较好；但一旦涉及硬件故障（GPU掉卡、显存错误、网络分区等），正确率普遍偏低，而Token消耗却明显更高。

模型似乎对硬件世界缺乏足够信心，不得不反复思考、反复确认。

这背后，是三种典型的失败模式：

处理任务的稳定性不足：生成不符合工具调用规则的Token。
推理链质量差：给出看似合理、实则治标不治本的方案；或者只输出宽泛的排障思路，不经过严谨验证就下结论。
决策与执行不够安全：在真实环境中执行高风险操作，或执行危险操作导致整个物理环境崩溃，最终需要人类运维人员紧急介入才能恢复。

这些失败，不是模型「不够聪明」，而是它还没有真正学会如何在物理世界里负责任地行动。

模型与人类

不是替代，而是正交

测试轨迹分析后，一个更深刻的洞察浮现：

当前大模型与人类运维专家的技能，可能是高度正交的。

模型擅长广度知识检索、代码逻辑推理和快速假设生成；人类运维专家则在硬件层面的直觉判断、复杂系统边界把控和最终安全决策上更具优势。

这意味着，未来最优的运维系统，或许不是让智能体完全替代人类，而是构建一种「模型负责快速广度探索 + 规则与人类专家负责深度验证与安全把关」的混合智能体范式。

AISHPerf-智算运维智能体评测基准的意义，正在于它第一次把这个鸿沟量化、可视化、公开化了。

它用真实数据和真实环境，告诉整个行业：

我们距离「系统自己解决问题」还有多远，也为这条路上的每一步改进，提供了可对齐的公共基线。

这套基准还特别覆盖了天数、壁仞、沐曦、摩尔、昇腾五种国产芯片。

在国产智算集群建设如火如荼的当下，填补国产智算运维评测领域的空白，本身就是对产业升级最务实的支撑。

从「Token工厂」到「自愈工厂」，我们正在丈量未来

过去一年，AI的发展让所有人目眩神迷。

从大模型到智能体，从训练到推理，行业正在形成一个共同认知：技术发展的瓶颈早已不再局限于模型层，底层算力基础设施同样是决定产业上限的关键要素。

AI系统本质上已经演变成一座「Token工厂」：

模型是生产逻辑，数据是原材料，GPU集群则是生产设备。

工厂的最终产出，是一个个有价值的Token。

但当我们把视角下沉到机房底层，就会发现一个更现实的问题：这座工厂远没有想象中那么高效。

AISHPerf-智算运维智能体评测基准，让「系统自己解决问题」这件事，第一次变得可衡量、可对齐、可迭代。

这或许是人类写给机器的、最浪漫的一行代码。

凌晨三点，机房依旧亮着灯。

只是终有一天，守夜的，不再只有人类。

开源地址：https://gitee.com/aishperf-caict/aishperf_openness

配套故障模拟器：https://gitee.com/aishperf-caict/aishperf_openness/tree/main/entities/aiops-chaos

运维数据集：https://gitee.com/aishperf-caict/aishperf_openness/blob/main/entities/datasets/aiops-eval-prompts.jsonl

评测框架：https://gitee.com/aishperf-caict/aishperf_openness/tree/main/suites/aiops-eval

算力芯片 Claude 框架服务器技术栈大模型性能 AI 测试 C Agent

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

Claude「断电」背后：中国基准首次捅开了AI万亿市场「死穴」

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。