寒武纪 Day 0 适配 DeepSeek-V4，发布当日即稳定运行

2026-04-24 发布浏览250次点赞0次收藏0次

感谢网友若怡、西窗的线索投递！

4 月 24 日消息，寒武纪今日宣布，已基于 vLLM 推理框架完成对深度求索公司最新开源模型 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 的 Day 0 适配，模型发布当日即可实现稳定运行，适配代码已开源到 GitHub 社区。

针对 DeepSeek-V4 的新结构，寒武纪通过自研高性能融合算子库 Torch-MLU-Ops，对 Compressor、mHC 等模块进行专项加速；利用 BangC 高性能编程语言，编写稀疏 / 压缩 Attention、GroupGemm 等热点算子的极致优化 Kernel，充分释放硬件底层性能。

在推理框架优化层面，寒武纪在 vLLM 中全面支持 TP / PP / SP/DP/EP 5D 混合并行、通信计算并行、低精度量化以及 PD 分离部署等优化技术，通过策略优化，在满足延时约束下达到最佳的词元吞吐能力，显著提升端到端推理效率。

硬件特性同样被深度挖掘：利用 MLU 访存与排序加速能力，有效加速稀疏 Attention、Indexer 等结构；高互联带宽与低通信延时，将 Prefill 和 Decode 两种不同工作负载场景下的通信占比降至最低，最大化分布式推理的利用率。

注意到，今天上午，DeepSeek-V4 模型预览版正式上线并同步开源。DeepSeek-V4 拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。即日起登录官网 chat.deepseek.com 或官方 App，即可与最新的 DeepSeek-V4 对话，探索 1M 超长上下文记忆的全新体验。API 服务已同步更新，通过修改 model_name 为 deepseek-v4-pro 或 deepseek-v4-flash 即可调用。

寒武纪 DeepSeekV4 体验性能框架 mod

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

寒武纪 Day 0 适配 DeepSeek-V4，发布当日即稳定运行

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。