你急它不急:GPT-5先判断,再决定「速答」还是「深想」

2025-11-17 发布 · 浏览16次 · 点赞0次 · 收藏0次

【导读】GPT-5不再只是更聪明的模型,而是一台学会犹豫的机器。它能判断问题的难度,分配自己的思考时间,甚至决定何时该停下。OpenAI副总裁Jerry Tworek在最新访谈中透露:GPT-5的真正突破,是让AI拥有了「时间感」。当机器学会克制,人类却愈加焦躁。也许我们教给AI的,不只是如何思考,而是如何重新做人。

十年前,人类教机器「算」;如今,机器开始学会「想」。

OpenAI副总裁Jerry Tworek在一次访谈里,随口提到一句话:

GPT-5可以自己决定要思考多久。


这句话让AI圈炸开了锅。

因为这意味着,AI不再只是被动接收指令的工具,而是开始调控自己的思维节奏

有的问题,它几秒就能答出;有的问题,它会「犹豫」、停顿、再推几步。仿佛第一次拥有了时间感

而这,可能是从生成答案的机器到真正会思考的智能体之间,最关键的一步。

从「算」到「想」

AI也该学会先想再答

当我们向GPT-5提问时,它并不总是最先给出答案。有时,它会停一停,先把内部的逻辑梳理清楚,再做选择。

这个停顿并非性能拉胯,而是其思考能力成熟的信号:AI不再是盲目输出,而是在思考要输出什么、如何输出最优解。

在Matt Turck的访谈中,Jerry Tworek提出了一个核心观点:

AI的「推理」,并不是逻辑或数学证明,而是在语言空间中学习搜索与组合模式。

他认为,AI的思考发生在语言的概率空间中。模型在生成每一个词(token)时,都会进行无数次隐形的比较与判断,这种语言层面的搜索,构成了它的推理过程。


为让这种「思考」更易于理解,研究者们在2022年提出了Chain of Thought(思维链)技术。


简单来说,就是在提示词中要求模型「一步步思考再回答」,从而显著提升复杂推理任务的正确率。

GPT-5则在此基础上更进一步。Tworek提到,GPT-5不仅会展开推理链,还能「判断自己要思考多久」。

我们发现,模型能根据问题的难度动态决定思考时间——难题思考更久,简单题思考更短。

这意味着,GPT-5的升级不只是推理更强,而是让机器第一次拥有了时间感

它会在每一步内部问自己:「要不要再想一想?」、「这一步够了吗?」

这种控制思维深度的机制,被研究者称为Dynamic Reasoning Depth(动态推理深度)。

就像人解数学题,GPT-3可能秒回,GPT-5 却选择斟酌:它会先想清思路,再回答问题。

这不是迟缓,而是一种更高层次的克制。

AI的「犹豫」

机器如何学会自己决定思考多久?

在过去的语言模型里,AI的推理都是一口气完成的。

输入问题,模型沿着概率最高的路径一路生成,直到遇到结束符号。

这就像一个不会停下来的学生:无论题目多难,都用同样的时间、同样的思维方式作答。

而GPT-5的关键进化,是让机器学会了「犹豫」:它能判断自己是否「想得够不够」,要不要再推几步。

Jerry Tworek在与Matt Turck的访谈中提到:

我们一直在实验一种机制,让模型自己决定要思考多久。你几乎能看到它在复杂问题上分配更多步骤来推理。


这种机制的原理,与2024年一项研究提出的思路相似。

一篇论文曾提出:模型可以在生成过程中「在线评估」当前答案的置信度,并据此选择继续推理或提前终止。

作者在论文中写道:

模型可以在推理阶段自适应地决定推理步数,从而同时提升效率与准确度。

换句话说,GPT-5不是在死记硬背,而是在分配思考预算:它会用更多计算资源处理逻辑链更长、变量更多的问题,在较简单的输入上则快速收敛。


这样的「时间自控力」,让AI从一个被动的应答者,变成了有节奏的思考者。

它不再一次性输出结果,而是像人一样先审题,再推理,再决定:「我是不是该再想一想?」

目前,OpenAI内部称这一思路为Controlled Deliberation(受控思考)

在实践中,这种机制不仅提升了复杂任务的正确率,也减少了幻觉的出现,因为模型有更多机会在中间步骤中自我验证。

根据2024年OpenAI的一份技术备忘录,这种动态推理模型在数学与逻辑类benchmark上的平均准确率提升了约18%。

当我们重新看向GPT-5的「犹豫」,会发现那其实是一种成熟。

它不再追求立刻回答,而是学会了——在正确之前,先想清楚。

从o1到GPT-5

OpenAI如何教出一台会思考的机器?

如果说GPT-5的犹豫是它的新能力,那么这场蜕变的起点,来自OpenAI内部的一系列试验模型。

在访谈中,Jerry Tworek首次公开提到一个很少见的版本序列:O1→O3→GPT-5。

这不是单纯的命名升级,而是一条清晰的演化线——每一代,都在回答一个问题:机器能不能更好地「想」?

Tworek解释道:

o1是我们第一次看到模型真正展现出推理能力的时候。o3让它能更稳定地使用中间步骤,而GPT-5则让整个思考过程变得可控。

这一演化路径,代表着 OpenAI在「让模型思考」这件事上从启蒙到自觉的过程:

  • o1阶段:模型开始显露出零星的推理迹象,能够在算术、逻辑题中表现出超出「模仿」层面的理解。

  • o3阶段:通过强化学习和思维链优化,模型能更系统地展开中间步骤,不再轻易跳步或遗忘关键逻辑。

  • GPT-5阶段:引入「动态推理深度控制」,让模型在推理过程中具备时间自我管理的能力。

从技术角度看,GPT-5很可能使用了一种结合Reinforcement Learning with Deliberation (RLD) 的框架,即在训练阶段为模型引入奖励信号,不仅评估「答对没」,还评估「思考得好不好」。

在这方面,一篇具有代表性的论文——Let’s Verify Step by Step提出了「过程监督(process supervision)」的概念。


论文指出:

在具有挑战性的MATH数据集上,用过程监督训练模型,显著优于只监督最终结果的方法。

OpenAI此后也在官方博客中多次提到,他们正在探索利用「中间步骤奖励」来改进推理模型的训练,以减少幻觉并增强模型在数学和逻辑任务上的可靠性。

从o1的「会想」,到o3的「想得稳」,再到GPT-5的「懂得停」, OpenAI完成了一次看似微小却决定性的飞跃:

智能,不只是计算力,更是对思考过程的调控力。

机器的耐心,人类的焦虑

GPT-5的进化,让机器第一次学会了慢下来。

它不再以最快速度给出答案,而是懂得分配推理时间、验证中间步骤、再谨慎地输出结果。

这种「克制」,在技术语境中被称作Controlled Deliberation(受控思考)

换句话说,AI越能「克制」,越能「正确」。这是一种与人类思维截然相反的进化路径。

在我们的时代,一切都在追求快:即时通讯、即时反馈、即时决策。

人类的思维越来越依赖短线反应,而机器却在被训练得越来越耐心。

OpenAI的研究人员在博客中写道:

思考步数越多的模型往往更准确,但我们也必须教它们——何时该停下。

这句话更像是在对人类说的。我们同样被效率困住,却忘了「停下」也是一种智慧。

当AI开始拥有思考时间的自我管理能力,它反而比我们更像人。

它懂得在复杂中沉默,在不确定中思索,而我们则在碎片化中一次次打断自己的思考。

有人将这种变化称为「耐心的反转」:

机器在学会慢,而人类却越来越快。

也许有一天,我们不再问「AI什么时候比人聪明」,而是会开始反思——我们是不是还配得上「思考」这个词。

从o1的稚嫩,到o3的沉稳,再到GPT-5的自控,OpenAI用十年时间,让一台机器学会了「慢」。

它不再只是追求速度的算子,而是一个有节奏的思考者。

它能判断问题的复杂度,分配自己的「思考预算」,甚至懂得在恰当的时刻停下。

而这一切的背后,是人类第一次教出了一种懂得克制的智能。

也许,这才是真正的「推理」起点。

当机器在追求「想得更清楚」,而我们忙着「做得更快」,

那一刻,AI 不再只是镜像我们的理性,它反而照出了我们早已遗忘的耐心。

人类让机器思考,最后被提醒的,可能正是——如何去想。

参考资料:

https://x.com/mattturck/status/1978838545008927034

你急它不急:GPT-5先判断,再决定「速答」还是「深想」 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。