苹果 iPhone 17 Pro 成功运行 4000 亿参数大模型，但速度令人抓狂

2026-03-23 发布浏览200次点赞0次收藏0次

3 月 23 日消息，拥有 4000 亿参数的大语言模型只能在配备大容量内存、性能强劲的硬件上运行，因为即使是量化或压缩版本，也至少需要 200GB 内存。从这些苛刻的配置要求来看，iPhone 17 Pro 绝对不会是运行 4000 亿参数大模型的首选，但有人已经证明，苹果这一代旗舰机型完成了这件看似不可能的事。不过需要说明的是，这离不开一些巧妙的技术手段。

一个名为 Flash‑MoE 的开源项目已在 iPhone 17 Pro 上成功运行，据网友 @anemll 展示，这款旗舰机虽然能运行这个算力需求极高的模型，但也存在明显短板，其 Token 生成速度慢得惊人，仅 0.6 个 Token / 秒，大约每 1.5 到 2 秒才能生成一个单词。

不过话又说回来，无论速度如何，一部智能手机能跑起来 4000 亿参数的大语言模型，这一事实本身就说明：只要再做一些优化，未来在手机端本地运行大语言模型完全是有可能实现的。

至于实现原理：iPhone 17 Pro 仅配备 12GB LPDDR5X 内存，根本不可能把整个大模型全部载入内存，而 Flash‑MoE 则利用了设备的固态硬盘（SSD），直接向 GPU 流式传输数据。此外，“MoE”代表混合专家模型（Mixture of Experts），这意味着其每生成一个单词，只需要调用 4000 亿参数中的一小部分。

在本地运行大语言模型还有一个好处：完全保护隐私，且无需联网就能获得回复，只不过 iPhone 17 Pro 的电池会被严重消耗。开发者们也会使用大语言模型的压缩版，也就是“量化版”，但即便是量化后的 4000 亿参数模型，最低仍需 200GB 内存，这在 iPhone 17 Pro 上原本是无法实现的。

这次演示证明：只要能忍受每秒仅 0.6 个 Token 的缓慢生成过程，就可以在智能手机上运行 4000 亿参数的大语言模型。但也要清楚，“能跑起来”和“能流畅、可用地使用”完全是两码事。

智能手机算力大模型苹果性能大语言模型 iPhone 17 Pro iPhone

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

苹果 iPhone 17 Pro 成功运行 4000 亿参数大模型，但速度令人抓狂

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。