CUDA再见了!寒武纪亮出软件全家桶

2025-11-03 发布 · 浏览51次 · 点赞0次 · 收藏0次

【导读】在AI时代,竞争早已不止于芯片的纸面性能。真正的较量,正转向软件生态、易用性与全栈解决方案的综合实力。凭借硬核实力,寒武纪证明自己不仅仅是AI算力的参与者,而是在核心战场上占据了主导地位。

寒武纪成立的初衷是为「人工智能的大爆发」提供底层算力支持,不仅要硬件算力强大,更要软件通用、易用。

多年来,寒武纪坚持训练推理融合、统一的基础软件平台研发策略,构建从自研芯片架构到高性能软件平台的完整体系,实现了计算架构、编译优化与算法调度的深度融合——

硬件为算法提供极致的并行性能与能效比,软件则通过编译优化、调度策略与模型适配,让每一份算力都被充分释放。

寒武纪基础软件平台Cambricon NeuWare,让用户与开发者能够跨越不同的寒武纪硬件和应用场景,降低上手难度,提升开发效率,快速迁移与部署AI应用。

经过多年投入与积累,寒武纪基础软件平台Cambricon NeuWare已经日趋成熟,全面兼容社区最新PyTorch版本和Triton算子开发语言,支持用户模型和自定义算子快速迁移。

经过持续的全栈优化,Cambricon NeuWare基础软件平台在多项指标上都已达到业界领先水平,特别针对当前业界极具挑战的大规模集群运维实践,进一步丰富和完善了多项集群工具,为大规模训练推理业务在集群环境中的部署运维调试和调优提供了坚实的底座。

训推解决方案

已完成大规模技术和产品验证

大模型技术正成为智能经济的核心驱动力,深刻重塑人机交互的方式。

「搜广推」场景——即搜索、广告与推荐系统——成为大模型技术落地最具价值的前沿阵地之一。

大模型赋能的搜广推系统,不仅带来用户体验的显著提升,更重塑了流量分发的逻辑:让「找信息」、「看内容」、「买东西」从被动推荐走向主动理解,从关键词匹配迈向意图洞察。

大模型与「搜广推」的融合,不仅是一场技术革新,更是商业模式的再造。

寒武纪在大模型与搜广推的训练推理上,都已完成了大规模的技术和产品验证。

在搜广推训练方向,寒武纪稳步推进技术和产品验证。验证结果表明,解决方案可支撑多场景下的流式训练任务,可持续超数月稳定运行,精度与稳定性均满足要求。

持续性能优化方面,完成Layernorm/RMSNorm/L2Norm等多种图匹配融合,显著提升性能。在图融合基础上进一步优化XLA支持,并获得更显著的加速比结果。

在大模型训练方向,寒武纪重点支持DeepSeek V3/V3.1、Qwen2.5/Qwen3/Qwen3-next等MoE类模型训练,同时扩展了GLM4.5、Flux、Wan2.1/2.2、Qwen3-VL、Hunyuan-Video等模型的训练支持。基于原生FP8的计算能力,新增Qwen/DeepSeek等系列网络FP8的训练支持,精度符合预期。

在大模型推理方向,寒武纪研究并实践W4A4以及MX-FP8/MX-FP4等新型数据类型,探索并支持多种高效注意力机制,包括Sparse Attention与Linear Attention。

寒武纪紧跟先进模型的演进,支持Qwen-Omni等多模态融合模型、Hunyuan3D等3D生成模型、CosyVoice等语音生成模型,以及DLM和VLM等新兴架构,确保技术栈的先进性与完备性。

值得一提的是,通过深度的生态合作,针对DeepSeek V3.2-Exp模型,寒武纪实现发布即适配的支持,并与合作伙伴同步开源适配代码。

与此同时,持续优化vLLM推理引擎,完善混合精度低比特量化推理机制,支持通算并行优化,支持PD分离部署,支持基于类IBGDA的极致低时延大规模专家并行,支持Torch.compile特性优化主机侧瓶颈,实现了大模型应用的全方位加速。

寒武纪持续开展对DeepSeek、Qwen、Wan、Hunyuan等系列最新开源模型的极致性能优化,并专项攻坚长序列与超低解码延时等场景的性能优化,持续保持性能领先优势。

寒武纪能够在大模型与「搜广推」训推方面取得快速突破,完成大规模技术和产品验证,源于寒武纪长期的技术深耕与软硬协同能力。

正是这种软硬一体、兼具性能领先与部署高效的核心竞争力,让寒武纪能够快速获得市场信任和认可。


寒武纪基础软件平台Cambricon NeuWare,图中仅列举部分组件,相关缩写词注释请见文末

驱动和运行时库

底层驱动的高稳定性是业务部署的重要前置条件,寒武纪的驱动支撑业务运行数月不停机。

同时,寒武纪的驱动在业务优化迭代中,大幅提升了吞吐能力,在极具挑战的搜广推和大模型推理场景中,最大限度地消除了主机侧瓶颈,为端到端达成领先的计算效率打下了坚实的基础。

寒武纪通过细粒度的并行技术,解耦数据依赖和调度依赖,极限压榨Kernel函数的吞吐能力,叠加多路DSA异步调度和协同优化,Kernel函数调度吞吐可达每秒几十万个任务,实现业界领先的Kernel吞吐能力。

全面支持Kernel graph的批量下发功能,可运行时汇聚多个算子单次下发,支持在设备侧驻留和下发,实现极低延迟的多Kernel下发,延时水平与国际竞品相当。

增加类IBGDA接口,为通信库进行极低时延的专家并行通信提供系统保障。

支持丰富的设备切分使用场景:

  • visible cluster:运行时可编程的弹性拆分,可用于快速部署;

  • sMLU:基于时分复用技术,可用于docker快速部署;

  • MIM:物理划分,全面对标国际竞品MIG技术。


编译器和调试调优工具

BANG C语言是寒武纪BANG异构并行编程模型的编程语言,在C/C++语言基础上针对MLU架构特点进行扩展,可以高效编写在MLU上运行的并行程序,充分利用MLU大规模并行架构来加速计算任务。

BANG C支持丰富的编译优化技术,包括链接时优化(LTO)、基于Profiling反馈优化(PGO)、基于函数调用关系的函数级片上空间复用、Device侧动态链接机制、编译器静态推导访存指令地址空间、任务内并行指令流自动同步算法、优化内存依赖分析、指令级并行的局部指令调度、全局指令调度以及符合MLU架构的高性能指令布局优化。

通过这一系列技术,最大限度的发挥芯片的全部潜力,如矩阵乘法等算子可达业界领先的效率。

持续快速迭代Triton算子开发语言,支持Triton 3.4所有特性,包括FP8/FP4的数据类型。引入fast libentry,优化Triton Kernel的主机端开销,在小Workload场景性能提升显著。

Triton编译器后端实现多种优化:

  • 优化软件流水的片上ram占用,优化软件流水的并发度,实现平衡软件流水性能和单指令性能的自动软件流水方案;

  • 实现指令并行、片上ram占用、指令延迟掩盖等多目标的指令调度优化;

  • 实现任务并行的自动调优和自动调度;

  • 实现自动循环合并;

  • 实现基于算子语义的访存和计算优化,如transpose穿透和合并、slice、broadcast穿透等;

  • 优化指令融合和指令选择的性能建模。

通过上述优化,提升了Triton Kernel性能泛化性,其中Matmul、FlashAttention类和HSTU类算子性能提升明显,部分热点算子已经与手写算子性能相当。

进一步完善系统和算子的调试调优工具:支持算子core dump,实现异常现场的核心转存,提供精准现场和调试信息对应关系,提供core dump文件解析工具,可快速分析定位算子出现异常的根因。

在主机侧与设备侧并行度调优方面,CNPerf可在极低跟踪开销的情况下实现全维度性能数据采集,可精准捕获主机侧与设备侧执行流、PMU性能指标、函数调用栈等关键信息,支持Kernel计算、内存拷贝、通信任务等多类型任务追踪,覆盖从底层硬件到上层应用的全栈性能数据。

CNPerf-GUI智能调优能力突出,内置专家建议系统可自动检测设备空泡、利用率不足、集合通信等待等问题,精准定位热点算子与性能瓶颈。此外CNPerf-GUI针对多机多卡场景,额外提供多日志自动对时与集群迭代分析等功能,进一步简化用户在复杂场景下的调优复杂度。

在单算子调优方面,CNPerf可支持GHz采样频率的硬件工作状态采样,精准记录MLU前后端工作状态。用户可基于该功能分析流间/核间同步、算子软件流水排布等问题,最大化利用硬件后端资源。

CNPerf-GUI适配Linux、macOS、Windows多平台,支持CNPerf、PyTorch Profiler、Tensorflow Profiler、CNTrainKit等日志格式,且支持超大日志文件(上亿函数记录)的快速加载及流畅操作。

新增程序正确性分析工具CNSantizer,使用运行时插桩技术自动完成多核间竞争访问检测、单核内多指令流竞争访问检测、Device侧内存越界访问检测、未定义程序行为检测、使用未初始化内存检测等。

新增程序性能分析和调优建议工具CNAdvisor,使用运行时插桩采集以及硬件性能计数器采集方式获取程序运行时状态,并根据性能调优经验库,自动分析程序性能问题并标记出对应源代码位置,进一步给出优化建议。

算子库

寒武纪计算库积极拥抱开源社区的技术演进,持续迭代打磨核心基础算子的功能、性能和稳定性,更快更好地支持在寒武纪智能芯片上高效、稳定地运行开源和私有模型。

计算库针对搜广推、大语言模型、文生图和文生视频等热点场景做了深入的功能扩展和性能优化:

  • 大规模Embedding Table稀疏访存和计算极致优化,性能与GPU竞品相当;

  • GEMM/BatchGEMM/GroupGEMM等矩阵乘类算子性能泛化得到显著增强,大规模矩阵乘HFU达到行业领先水平;

  • 矩阵乘类算子支持多种社区公开/私有定制的低精度量化功能;

  • 支持类CUTLASS GEMM模板库的扩展开发和AutoTuning;

  • Attention类算子在低精度加速等方向的探索和研发成果已成功完成验证,获得良好的加速效果;

  • 支持大语言模型使用的MTP技术,开发了用于优化MTP性能的Top-k和Top-p采样、随机采样等融合算子。

为支持计算库的持续快速迭代,保障计算库软件质量的同时做到精度性能不回退,寒武纪计算库团队还打造了可靠的维测平台,提供了丰富的维测工具,开发了高覆盖度的功能性能测例,并制定了科学的验收标准。

分布式通信库

通信库针对大规模场景进行专项优化:新增HDR/DBT等Allreduce通信算法,优先提升大规模条件下的通信带宽,对Alltoall操作进行深度优化,使其大规模扩展性达到与国际主流竞品相当的水平。

通信库同步加强可维可测相关的功能,支持在线打点、模块化日志、高可靠服务模块等,帮助用户能够快速分析通信下发错误,异常卡死等问题,提高集群通信可用性。

通信库通过在Kernel支持RoCE网卡的RDMA操作(类IBGDA)显著优化大规模专家并行场景下的ALL2ALL通信延迟,提升了MoE类模型推理任务的端到端吞吐。

集群工具

· CntrainKit-Accu(大规模集群精度定位工具)

为万卡分布式训练场景提供端到端精度定位,提供精度指标在线监控,并针对精度问题进行自动化分级、采集信息、智能分析并提供对应解决方案。

CntrainKit-Accu工具还全面支持NaN/Inf异常检测与快速定位,实现异常点级别的秒级溯源,大大提升大模型和搜广推等场景的大规模训练精度问题排查效率,让每一次精度问题都能被精准捕获。

· CntrainKit-Monitor(大规模集群监控调优工具)

实现对万卡级集群训练任务的实时通信与算子性能画像,具备毫秒级任务健康可视化能力,支持算子粒度的性能剖析,识别AI作业中的性能瓶颈。

具备万卡规模训练任务的「可观、可查、可优」能力,真正实现大规模集群的「问题自感知」。

· CNCE(集群监管平台)

构建覆盖计算、网络、存储的数据中心全景监控体系,实现对十万卡级算力集群的秒级状态采集与拓扑可视化。

平台具备自动发现、智能诊断、自动处理的闭环故障管理能力,支持万卡级任务的多维异常诊断与根因定位,让用户专注于算法创新与模型训练,无需再为底层硬件波动分心。

CNCE的上线使集群运维从「人工巡检」迈向「智能自治」,显著提升大规模AI训练的可用性与稳定性。

· CNAnalyzeInsight(故障分析工具)

CNAnalyzeInsight是智能日志分析与根因诊断引擎,支持对GB级日志的秒级检索与多维聚合分析。

具备在线实时诊断告警与离线快速分析双模式,能够实现「异常发现、问题定位、原因归纳、修复建议生成」的故障诊断闭环,显著提升训练任务的稳定性与问题处理效率。

开源与框架

寒武纪快速跟进社区PyTorch的进展,支持 PyTorch 2.1到PyTorch 2.8的全部社区版本。

适配了包括DDP、FSDP、FSDP2、HSDP、Tensor Parallelism、Context Parallel、Pipeline Parallelism、SDPA、Inductor、MLU Graph、AOTInductor以及Inductor cppwrapper等一系列关键功能。

Torch compile性能整体上追平GPU compile加速比,高效支撑了产品在多个训练和推理场景下的成功验证。

寒武纪还提供GPU Migration一键迁移工具,帮助用户近乎零成本将模型从GPU迁移到MLU。同时配备TorchDump精度调试工具和Torch Profiler性能调试工具,助力用户高效定位和解决精度和性能问题。

此外,寒武纪还支持PyTorch Lightning、TorchTitan、TorchRec等社区生态,并建立快速跟进社区版本的长效机制,可在社区版本发布后2周内实现MLU适配版本的发布。

通过近十年的持续打磨迭代,寒武纪已构建出一套高效、易用、稳定、成熟且具备高可扩展性的软硬一体化产品体系。

凭借领先的芯片技术与完善的基础软件平台,寒武纪产品已经在大模型、搜广推、图片与视频生成和各类多模态的训练与推理场景中成功完成验证,赢得广泛认可。

在此过程中,寒武纪产品不断接受更多大规模场景高强度检验,推动软件平台与芯片体系持续进化,形成了「应用促进优化、优化推动更强应用」的良性循环。

通过为用户提供更高效、更稳定、更广覆盖的支持,寒武纪加速赋能产业智能化转型,推动AI能力真正走进千行百业。

「让机器更好地理解和服务人类」,寒武纪的愿景正在一步一步成为现实。

附录

寒武纪基础软件平台Cambricon NeuWare图中标注的缩写词全称:

1. Cambricon HLO:机器学习模型高级操作集(HLO)的寒武纪后端;

2. CNNL:Cambricon Network Library,寒武纪人工智能计算库;

3. CNNL-Extra:Cambricon CNNL Extra,寒武纪人工智能计算库的扩展库;

4. CNCV: Cambricon Computer Vision Library,寒武纪计算机视觉库;

5. CNCL:Cambricon Communications Library,寒武纪高性能通信库;

6. CNFFmpeg:Cambricon FFmpeg,基于开源FFmpeg开发的硬件加速库;

7. CNCC:Cambricon Compiler Collection,寒武纪BANG C语言编译器;

8. CNAS:Cambricon Assembler,寒武纪汇编器组件;

9. CNGDB:Cambricon GNU Debugger,寒武纪BANG C语言调试工具;

10. CNSanitizer:Cambricon Sanitizer,寒武纪代码检测工具;

11. CNPAPI:Cambricon Profiling API,寒武纪性能分析接口库;

12. CNPerf:Cambricon Performance,寒武纪性能分析工具;

13. CNPerf-GUI:Cambricon Performance Graphical User Interface,寒武纪性能剖析图形化工具;

14. CNMon:Cambricon Monitor,寒武纪设备监控与管理命令行工具;

15. CNVS:Cambricon Validation Suite,寒武纪设备验证工具集;

16. CNFieldiag:Cambricon Field Diagnostic,寒武纪现场诊断工具;

17. CNAnalyzeInsight:寒武纪故障分析工具;

18. CNCL-benchmark:Cambricon Communications Library Benchmark,寒武纪通信库性能基准测试工具;

19 Cambricon Device Plugin:寒武纪设备插件;

20. CCOMP:Cambricon Cluster Operation Management Platform,寒武纪智算运管平台。

更多信息可关注:

CUDA再见了!寒武纪亮出软件全家桶 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。