截胡 OpenAI：谷歌率先公测“奥数金牌级”推理 AI 模型 Gemini 3 Deep Think

2025-12-05 发布浏览355次点赞0次收藏0次

感谢网友啊俊、Snailwang、补药吖的线索投递！

12 月 5 日消息，科技媒体 NeoWin 今天（12 月 5 日）发布博文，报道称谷歌面向 Gemini Ultra 订阅（月费 249.99 美元）用户，推出了 Gemini 3 Deep Think（深度思考）模式。

相比较标准版 Gemini 3 Pro 模型，Deep Think 模式调用了更多计算资源，并采用了全新技术架构。该功能目前已完全集成至 Gemini App 中，Google AI Ultra 订阅用户即日起可通过在提示栏中选择“Deep Think”与 Gemini 3 Pro 模型搭配使用。

谷歌官方数据显示，Deep Think 模式在处理复杂数学、科学及逻辑问题时的推理能力实现了显著飞跃。援引博文介绍，在被誉为“业内最难 AI 基准测试之一”的 Humanity’s Last Exam 中，该模式取得了 41% 的高分，确立了新的行业标杆。

同时，在 GPQA Diamond 科学知识测试中，其得分高达 93.8%；在包含代码执行的 ARC-AGI-2 严苛测试中，也拿下了 45.1% 的成绩，均展现出业内顶尖（State-of-the-art）的性能水平。

截胡 OpenAI：谷歌率先公测“奥数金牌级”推理 AI 模型 Gemini 3 Deep Think

Deep Think 模式之所以能取得如此突破，核心在于运用了先进的并行推理技术（Advanced Parallel Reasoning），让模型能够同时探索多种假设路径以寻找最优解。

值得注意的是，该模型的变体此前已在国际数学奥林匹克竞赛（IMO）和国际大学生程序设计竞赛（ICPC）世界总决赛中达到了“金牌标准”。特别是在 IMO 场景下，模型需在无法访问互联网或工具的情况下，于两个 4.5 小时的考试时段内完成解题并撰写自然语言证明。

谷歌此次公测被视为对竞争对手的有力回击。OpenAI 曾在今年 7 月声称其实验性推理大模型达到了数学奥赛金牌水平，但截至目前该模型仍未向公众开放。

随着谷歌率先将达到 IMO 金牌标准的模型推向大众市场，行业普遍预测，这一举动或将迫使 OpenAI 加快同类产品的发布节奏，大模型领域的“推理能力之战”将进一步升级。

谷歌性能 Google Go Gemini 3 大模型 AI 测试 OpenAI AGI 4

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！