硅谷CEO深夜站台!MiniMax M3冲上开源第一,中文社区却吵翻了?
【导读】硅谷大佬站台,社区却吵成一锅粥。MiniMax M3能不能经得住真刀真枪的验货?全球开发者已经上手了。
就在最近,国内外都被同一个模型刷屏了。
坐拥540万粉丝的Vercel CEO Guillermo Rauch,极为罕见地公开站台。
他推荐的,是一个完全来自中国的模型——MiniMax M3。

然而,同样是这个M3,吐槽的声音也不小,很多国内社区的评论区里直接吵成一锅粥。
很多评论的火力,都集中在Token Plan的价格调整上。许多老用户觉得自己的权益缩水,闹翻天了。



而国外社区的画风,则跟国内完全不同。
有的海外开发者,在猜M3的架构参数、稀疏注意力机制和训练数据规模。
比如X上的网友Rohan说,单看价格没意义,虽然成本也很重要,但他更想知道模型犯错的方式以及在Agent系统里的实际表现。

另一位网友态度更直接,他认为,「M3作为开源模型能紧追Opus和GPT-5已经很厉害了,不过在信这些宣传之前,我得亲眼看看它现场翻车。」

面对这些外界评价,MiniMax官方反应很快,当天就发了补偿方案:老用户保留原有权益,新用户周限额加赠50%。
价格的事解决了,接下来,最为实质的问题是:M3到底是真强,还是「刷榜」的幻觉?
72小时
一场席卷全球开发者的「硬核验货」
为了验证M3的真实表现,开发者Victoria Wu把同一个Prompt(让AI生成一只鹈鹕骑自行车的动画)分别喂给M3、Sonnet 4.6和Opus 4.8。
然后,把三个结果标为A、B、C,让网友盲猜哪个是M3。

评论区几乎一边倒,「A太丝滑了,肯定是Opus」「M3应该是B或C吧」。


结果揭晓。A就是M3。


无独有偶,开发者JAZII也做了一组盲测级别的对照实验。
他使用了完全相同的Prompt,要求模型用Three.js在HTML中从零手搓一个《我的世界》的克隆版,参赛选手是M3和Opus 4.8。
虽然M3在耗时略长一些,但在最终的代码运行结果上,JAZII给出了两个字:「Super close」。

左边是M3右边是Opus 4.8,你猜对了吗
X上的中文开发者「实践哥minli」则把M3的多模态和Agentic Coding能力压榨到了极限,用M3硬生生做出了一个「凡人修仙传」手势对决游戏。
在这个过程中,M3需要理解复杂的视觉手势,并完成超长程的逻辑代码编写。一条龙跑通下来,Token的消耗仅仅是Claude Sonnet的20%。

向来以严苛著称的AI测评人Thomas Wiegold,也在第一时间放出了一篇3000字实测报告。
他对于M3的评价是:「这是我今年测过的最有意思的模型之一。」

上一次中国模型能引起硅谷震动的中国模型,还要追溯到半年前DeepSeek V4的发布。
而这一次,MiniMax M3带来的震撼似乎更加立体。
50页论文扔进去,M3自己拆了
光看别人测不过瘾。我们自己上手,专门挑了两道最能压榨模型的题。
第一道,是长达50页的DeepSeek-V3技术报告。图表密集、公式和伪代码交织,信息密度拉满。

首先,让M3梳理一条关于「底层通信与计算重叠」的因果技术链条,看它能不能把这篇论文里最硬核的工程逻辑理清楚。

M3全程思考了15次,执行了19条命令,调用了1个工具。

最终它把DualPipe调度策略的完整实现路径拆得明明白白,逻辑链条没有断点。

接下来要考的是M3的多模态能力。
上传一张MLA结构图,然后要求模型找到图中动态调度和投影过程对应的是正文里哪几个数学公式。

M3很快给出了对应解析,精准命中。

难度继续加码。如果图中某处连线在正文的文本描述中其实藏着更深层的隐藏约束,让M3指出它在图中的视觉位置,并解释背后的原因。
M3直接在那张MLA架构图上加了标注,并给出了三条约束的详细拆解。


一场2小时的GTC演讲,M3直接出稿
第二道题难度升级,不光要读懂,还得写出来。
这次的素材是英伟达GTC大会长达1小时57分钟的完整主题演讲,连同写作规范,一股脑全甩给了M3。
一句Prompt,看完视频,按规范出一篇3000-40000字深度报道。

面对1.15GB的原始视频,普通的AI工具多半只能报错退场。
但在MiniMax Code系统级工具箱的加持下,M3当场就找到了解决方案——
调用ffmpeg完成了压缩和切段,自己给自己铺出了一条能走通的路。



12段全部吃完后,M3交出了一份惊艳的素材清单。
时间戳精确到分钟级,画面细节抓得极细。
老黄身上那件带鳞片纹理的黑色皮夹克、从裤兜掏出N1X芯片高举过头顶整整15秒的特写、推Vera Rubin真机上台时调侃「后面大概有2000个人在拉」,全部在列。
就连老黄突然蹦出的那句中文「太多东西了」,它都没有放过。

更狠的是,M3还甩出了自己认为全场最炸的三个点,每个都自己的判断理由。

确认素材清单后,M3开始动笔。
开篇从老黄掏裤兜的画面切入,结尾升维到「这条产业链的主人,正在从人变成Agent」。
初稿3500字,40分钟交卷。
虽然还达不到我们的发稿水平,但它提供了一个质量足够高的起点。


多模态看完2小时视频,长上下文把全部素材+写作规范+范文装进同一个窗口,Agent能力负责遇到什么解决什么。
M3的三大核心能力在这个任务里被彻底压榨到极限,缺任何一项都做不成。
12个模型的成绩单,M3自己做了张全景图
第三道题换个方向,不考长文本,考读图+联网+搞工程。
各家模型发布时都会贴一张benchmark对比图,但格式五花八门,有表格、有柱状图、有雷达图,数据口径也不统一。
想横向对比,得自己一张张翻、一格格对,极其痛苦。
这次直接把十张来自不同模型官方blog和第三方评测平台的benchmark截图扔给M3,让它自己看懂所有图表,联网补全缺失数据,统一口径,做成一个可交互的对比大屏。
M3先逐张识别截图里的模型名称和分数。碰到格式不同的图表,自己做归一化处理。截图里缺的数据,直接联网查官方源补上。

最终输出了一个Bloomberg Terminal风格的深色交互大屏。
12个模型,14项benchmark,综合排行榜、雷达图对比、单项柱状图、价格/性能散点图,四个模块一次到位。


三项能力,一次拉满
三道题做下来,M3的能力边界已经很清楚了。接下来的问题在于,它凭什么做到的。
答案是三项核心能力同时到位,前沿级编程、1M上下文窗口、原生多模态。

它们的基底,是一个叫MiniMax Sparse Attention(MSA)的全新注意力架构。
传统注意力机制处理百万级上下文时,计算量呈指数级爆炸,GPU的显存和算力会被榨干。
MSA用块级稀疏的方式干掉了这个瓶颈。
在算子层,它让每一块KV数据在内存中只读一次、访存完全连续,不做任何重复搬运。
效果,只能用暴力来形容。
100万上下文的恐怖规模下,M3每个token的计算量被硬生生压到了上一代的1/20。预填充加速超过9倍,解码加速超过15倍。
多模态这边同样凶狠。M3绝不是先训好文本再外挂一个视觉模块的拼接货。
它从训练第一步起,文本、图片、视频就是混在一起喂的。为此,研究团队还重构了整条数据管线,并且将预训练规模直接拉到了100T量级。
结果就是,M3在Artificial Analysis综合智能指数榜上,直接拿下了开源模型的全球最高排名,位列全球第七。

GPQA Diamond科学推理榜上,M3拿到93.2%,排进全球前四,比Claude Opus 4.8和Opus 4.7都高。
长上下文推理榜上,M3以74.0%跻身前六,和GPT-5系列贴脸。
GDPval-AA真实任务Agent榜上,M3的1670分排在全球第五,和Sonnet 4.6只差6分。
每张榜的测评维度不同,但M3的位置始终卡在同一个区间,闭源第一梯队的门槛线上,开源模型的最前面。



左右滑动查看
在知名的第三方多模态榜单Vals Index上,M3也冲到了全球第六。
这是目前国内开源模型的最好成绩,也是开源模型里的全球最高排名。

从综合体感来看,M3已经稳稳跨过了Claude Sonnet 4.6这条线。
虽然距离最强的Opus 4.7和GPT-5.5还差一口气,但毫无疑问,它已杀入死亡之组。
一个Agent不够,那就上一个团队
那接下来的问题就很自然了,这么一个模型,拿什么来跑它?
前面实测里M3调ffmpeg切视频、40分钟出稿,就是在MiniMax Code上跑的。
但那还只是单Agent在干活。这次升级最值得聊的,是Agent Team。

用过AI编程工具的人*概都有过这种体验。
你给Agent布置了7件事,它做完3件就停下来汇报,「我已经完成了1、2、3,是否需要继续?」。或者跑着跑着风格突变,前面还像个靠谱的工程师,后面忽然开始说胡话。
对此,Agent Team的做法是把裁判和选手拆开。
Leader负责理解目标、拆任务、调度。Worker负责具体干活,不同Worker有不同的工具和上下文。Verifier负责验收,专门和Worker唱反调。
Worker做完了,Verifier开始挑毛病。挑出问题,打回重做。Verifier检查完了,Worker拿着修改意见重新来过。这个对抗循环不靠模型自己判断什么时候该停,底层有一套状态机引擎在管。

实际体验上最爽的一点,你发一条消息,M3秒回确认,同时后台多个Worker已经并行跑起来了。
中途你追加一个新需求,「顺便帮我查一下这个」,Leader当场响应,后台任务不停。
像极了一个能秒回你微信、同时还在帮你干活的同事。

M3的模型能力加上MiniMax Code的Agent团队——一个负责想,一个负责干,两者结合,开启了无尽的想象力。
风波过后,大家的注意力终于又回到了M3本身。
而接下来,真正关键的一步来了:它的权重与完整技术报告,将在十天内开源。
届时,全球开发者会用真实项目给它打分。
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!
AI 中文社