6位前DeepMind老将打造「AI指挥官」，一半成本刷新SOTA

2025-12-14 发布 · 浏览175次 · 点赞0次 · 收藏0次

【导读】6位前DeepMind成员以元系统重塑大模型调用方式，该系统推出的Gemini 3 Pro优化技术在ARC-AGI-2上以54%的成绩夺得榜首，而成本仅为此前最优方法的一半。

最近，6名前Google DeepMind研究员、工程师又搞大事了。

他们的新初创公司Poetiq没去研发更大、更聪明的模型，而是搭建了一个元系统，该系统可以让前沿大模型自动生成解决特定任务的策略和模型组合。

这样不仅解决了前沿模型难以单独解决复杂真实世界问题的痛点，还将整体推理成本降低了一半。

12月8日，ARC Prize官宣验证了该团队的成果。

由Poetiq推出的Gemini 3 Pro优化技术，在ARC-AGI-2 leaderboard上创下新SOTA，得分高达54%，每任务计算成本仅31美元。

这一突破远超此前模型的最优表现，在leaderboard上力压群雄。

Poetiq团队揭秘

Poetiq初创团队均来自Google DeepMind

Poetiq是一个精干且高度技术型的团队，由6名来自Google DeepMind的研究员与工程师组成。

该创始团队成员一共拥有53年的专业经验，他们在Poetiq的目标是「以更优的推理，铺就通过安全超级智能的最快路径」。

12月5日，这家成立不到一年的公司自豪地宣布：

「Poetiq系统已经大幅超越现有方法，并树立了新的行业最佳表现。」

如上图所示，Poetiq系统在ARC-AGI-2半私有评估集上创下新纪录。

11月20日，Poetiq已经公布了自己在ARC-AGI-2上的强劲表现，此次ARC Prize对Poetiq公布的成绩进行了官方验证。

Poetiq开发的一套纯Gemini配置参与了ARC Prize的官方评估。

该系统以每题30.57美元的成本取得了54%的成绩，打破了此前Gemini 3 Deep Think创下的每题成本77.16美元、45%的最佳成绩。

Poetiq团队表示，在ARC-AGI-2公共数据集上，Poetiq系统建立了全新的帕累托前沿，不仅超越以往成果，还进一步推动了成本效益推理的边界。

Poetiq团队将这一成绩，归结为它的元系统。

元系统

在任意模型上构建智能

Poetiq的方法是在任意模型之上构建智能。

其元系统旨在利用任何现成的前沿模型，自动生成能解决特定任务的完整系统，无需构建甚至不需要微调自己的大前沿模型。

这也是为什么Poetiq能在Gemini 3与GPT-5.1发布后数小时内，就将它们快速接入并取得SOTA表现的原因。

如上图所示，Poetiq元系统在ARC-AGI-1和ARC-AGI-2上不仅全面刷新了以往成绩，也再次推进了低成本推理的边界。

相比之下，Gemini 3 Deep Think（预览版）成本明显更高，准确率却更低。Poetiq（Gemini-3-a、b、c）展示了Poetiq如何利用多个大语言模型，在任意成本目标下实现最大化性能。
Poetiq系统可以通过多次调用Gemini-3来程序化地处理ARC-AGI-1和ARC-AGI-2的问题，从而在广泛的计算区间内实现帕累托最优。
Poetiq（Grok-4-Fast）主打极致成本效率，构建于Grok-4-Fast Reasoning模型之上。不仅比原模型报告的结果更便宜、准确率更高，还能达到与价格高两个数量级的模型相当的准确度。
Poetiq（GPT-OSS-b）基于开源权重模型GPT-OSS-120B，在单题不到1美分的成本下仍取得了非常亮眼的准确率。
Poetiq（GPT-OSS-a）基于GPT-OSS-120B的低思考版本，用来展示极限成本条件下的系统表现。

以上这些方案虽然各自都能独立运行，但它们共同的底层是Poetiq灵活的元系统。

这个元系统的核心优势之一即能自动选择模型组合与策略，甚至会自行判断何时要写代码、又该由哪个模型负责写代码。

Poetiq的递归、自我改进系统完全不依赖特定大模型，在接入最新模型时也能充分展现其能力。

使用Poetiq元系统强化主流模型

为了进一步展示Poetiq元系统的能力，研究人员将其应用到多个来自Google DeepMind、OpenAI、Anthropic和xAI的最新模型上。

每一次，Poetiq都实现了「更高准确率+更低成本」的组合。