SK 海力士探索 H3 混合存储：发挥 HBM 与 HBF 各自优势，优化 AI 推理负载能效

2026-02-12 发布浏览455次点赞0次收藏0次

2 月 12 日消息，SK 海力士在一篇发布于本月 4 日的论文中提出了 H³ 混合存储架构，其混合配置 HBM 高带宽内存与 HBF 高带宽闪存，充分发挥两种介质各自的优势而避免其短板。

SK 海力士在论文中表示，HBF 与 HBM 相比，带宽相当、容量更大、访问延迟更长、写入耐久更差、功耗更高，因此 H³ 将 HBF 作为 HBM 的“二级扩展”，HBF 存储只读数据、HBM 则负责其余数据。

▲ 简略手绘概念图（非论文图片），H³ 即 HBM+HBF 的整体

具体在结构方面，H³ 上 GPU 与 HBM 的 Base Die 通过中介层互联，HBM Base Die 内置了 HBM 控制器和与 HBF 系统配套的“延迟隐藏缓冲”，HBM Base Die 再通过中介层与 HBF Base Die 连接，后者则包含 HBF 堆栈的控制器。

这一设计使得 H³ 能存储大量只读数据，适合 LLM 推理工作负载环境，特别是那些采用共享预计算键值缓存的用例。仿真测试结果表明，相较于仅使用 HBM 的传统系统，配备 H³ 的 GPU 单位功耗的吞吐量提高了 2.69 倍，显示出该架构在处理具有海量只读数据的 LLM 推理方面的成本效益。

参考资料：

H3: Hybrid Architecture Using High Bandwidth Memory and High Bandwidth Flash for Cost-Efficient LLM Inference

SK海力士 H3 AI 测试

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

SK 海力士探索 H3 混合存储：发挥 HBM 与 HBF 各自优势，优化 AI 推理负载能效

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。