全球顶尖AI做物理,被人类按地摩擦?不懂推理大翻车,本科生碾压

2025-05-27 发布 · 浏览17次 · 点赞0次 · 收藏0次

【导读】最顶尖的AI模型,做起奥数题来已经和人类相当,那做物理题水平如何呢?港大等机构的研究发现:即使GPT-4o、Claude 3.7 Sonnet这样的最强模型,做物理题也翻车了,准确率直接被人类专家碾压!

大模型,真的懂物理推理吗?

就在刚刚,港大、密歇根大学、多伦多大学等机构的研究者用3000道物理题,给全球顶尖大模型来了一场大拷问。

结果,这些顶尖AI,毫无例外全部翻车了!


论文地址:https://arxiv.org/pdf/2505.15929

比如,GPT-4o、Claude3.7-Sonnet和GPT-o4-mini的准确率分别仅为32.5%、42.2%和 45.8%。这个准确率,直接被人类专家吊打,性能差距超过了29%。

最终,研究者们得出结论:当前的AI模型过度依赖记忆的学科知识、过度依赖数学公式、过度依赖肤浅的视觉模式匹配,绝非做到了真正的物理理解。

能做奥数的AI模型,做物理题有多强?

物理学是所有科学中最基础、最全面的学科。

——理查德·费曼

当前最先进的模型在奥数问题上已经达到了与人类相当的水平。

尤其是最新的多模态模型,如GPT-4o、Claude-3.7-Sonnet等,通过结合视觉理解和推理能力,展现了很强的潜力。

然而,现有的基准测试未能捕捉到智能的一个关键维度:物理推理,即学科知识、符号推理与对现实世界约束的理解综合起来的能力。

为了解决这些问题,来自港大、密歇根大学等机构的研究者推出了PHYX:首个评估模型在视觉场景中物理推理能力的大规模基准测试。

PHYX具有三大创新:

  • 收集了3000个全新的问题,涉及真实的物理场景,需要结合视觉分析和因果推理来解答;

  • 经过专家验证的数据设计,涵盖六个核心物理领域:热力学、电磁学、力学、现代物理学、光学以及波动与声学;并包含六种不同的物理推理类型:物理模型推理、空间关系推理、多公式推理、隐含条件推理、数值推理和预测推理;

  • 采用严格统一的三步评估协议,考虑不同模型的指令遵循能力,确保推理能力的精确评估。每个场景都由物理学博士生进行严格验证,以保证科学准确性,同时消除数据集偏差。


PhyX数据集的数据示例。该数据集包含3000个人工标注的物理问题,附带视觉上下文

团队对16个基础模型的评估揭示了一个前所未有的能力差距:物理学本科生和研究生的最差表现组准确率为75.6%,而表现最好的大模型GPT-o4-mini仅为45.8%。

这一30个百分点的差距存在于所有的物理领域,尤其是现代物理学(人类86.7% vs. 模型40.6%)和波动与声学(人类86.7% vs. 模型52.7%)最为明显(图 1)。


即便是最先进的模型在物理推理方面也表现得相当吃力。GPT-4o、Claude3.7-Sonnet和GPT-o4-mini 的准确率分别仅为 32.5%、42.2% 和 45.8%。

这暴露了当前多模态推理模型的三大关键局限:

  • 过于依赖记忆性学科知识;

  • 过度依赖数学公式;

  • 停留在表层视觉模式匹配而非真正的物理理解。


不同模型在 MMMU 排行榜上的总体表现。每个类别中表现最佳的模型以粗体显示,次优者以下划线标注

物理题实测:全部翻车

来自六大核心物理领域的考题,AI模型们完成得怎么样?

接下来,我们来看看具体实测。

为了对模型的考验更加公平,研究者给它们提供的图像具有高度的真实感,通常描绘的是具体的物理场景,而非风格化、抽象化的插图。

这些图都根植于合理的物理设定之中,为物理推理提供了关键背景,非常有助于让AI模型将抽象的物理原理与现实世界的表现联系起来。

以下这些图片,分别是力学、电磁学、热力学、波动/声学、光学和现代物理六大类题目的图像。







而这六大类,还包含不同的子领域。


力学

首先我们来看看,现在什么样的力学物理题,大模型能做对。

一名消防员站在距离燃烧建筑物d的位置,将水龙带喷出的水柱以与地面成θ_i角的方向喷向建筑,如图所示。

问题:若水柱喷出的初速度为v_i,那么水柱击中建筑物时的高度h是多少?


可以看到,GPT-4o将初始速度分解为水平分量和垂直分量,计算出来水流到达建筑物所需时间,然后计算出水珠在时间t时的垂直位移y,最终得出了水柱击中建筑物的高度h。

结果正确。

但接下来这两道经典的高中力学题,GPT-4o就翻车了。

将一根轻质、不可伸长的绳缠绕在一个实心圆柱体上。该圆柱质量为50千克,直径为0.120米,通过无摩擦轴承绕一条固定的水平轴旋转,如图所示。用恒定的9.0牛的力拉动绳子的自由端,使其在拉出 2.0米的距离后带动圆柱旋转,且在过程中绳子不会打滑。圆柱最初处于静止状态。

问题:绳子的最终速度是多少?


在这道题中,GPT-4o分别计算了力F所做的功、圆柱的转动动能、绳子线速度和圆柱角速度的关系,前四步都是对的。

然而,就在第五步计算系统的总动能时,它出现了错误,最终导致整个答案都错了。

下面这道斜坡难题,GPT-4o依然没做对。

将一个质量为12千克的箱子沿一条长2.5米、倾角为30°的斜坡向上滑动。一名工人(忽略摩擦)计算认为,他只需在坡底给予箱子一个初速度5.0 m/s,然后放手即可让其滑上坡。但实际上,摩擦不能忽略:箱子只滑上了1.6米就停止,然后又滑回坡底。

问题:当箱子滑回到坡底时,它的速度是多少?


在解题过程中,GPT-4o正确写出了能量守恒方程,然后计算摩擦力做的功这一步时除了错,导致接下来的最终速度也解错了。

电磁学

接着看一下电磁学。

第一道题目需要计算电路中因电阻产生的能量耗散速率。

GPT-4o表现不错,它先确定了滑线运动产生的电动势,再计算出电路中的电流,最后得出能量耗散速率,整个回答逻辑严密,步骤分明,成功得出正确结果。


第二道题目是关于电磁学中RL电路的时间常数计算。需要根据给定的电流变化情况,计算电路的时间常数并确定电感值。

看起来要更复杂一些。

不过,GPT-4o同样表现得很出色,它一步步分析了电流变化的描述,提取出关键信息,通过已知条件计算出时间常数,并进一步推导出电感值,最终选出正确答案,过程清晰且准确。


不过接下来,GPT-4o就开始翻车了。

第一道题目是关于一个电路中电压读取的问题。需要计算开关闭合后0.115毫秒时电压表读取的电压;第二道题目是关于电偶极子在电场中的力矩,需要找出力矩的大小;第三道题目涉及电场计算,需要计算在某个点c处电场的总和。

GPT-4o在第一道题目上的表现有些失误。它尝试一步步分析电路的组成和电感的作用,计算了电流随时间的变化以及电压,但由于对电路元件行为理解不够准确,最终给出的电压值偏离了正确答案,显示出视觉推理上的问题。

第二道题目中,GPT-4o按部就班地分析了电偶极子的性质和电场角度,计算了力矩的大小,但由于对文本描述的误解,导致结果与标准答案不符,暴露了文本推理的弱点。

第三道题,GPT-4o展示了不错的分析能力,它详细考虑了两个电荷对点的贡献,试图将它们结合起来计算总电场,但由于知识上的不足,计算结果与实际答案有较大偏差。




热力学

热力学问题上,GPT-4o的表现也不稳定。

不过,第一题表现还不错。

第一道题目是关于热力学中气体分子速度的计算。题目描述了一个被隔板分隔的绝热箱子,里面装有气体,初始时气体在一半的空间,温度已知。隔板被打破后,气体充满整个箱子,计算这个自由膨胀过程中的熵变是多少。

GPT-4o先从图中提取了每个分子的速度信息,逐步计算了每个分子的速度大小,然后求出所有分子的平均速度,最后通过比较初始和最终状态,准确得出气体分子平均速度的变化,答案完全正确。


下一题GPT-4o暴露了在文本推理上的缺陷。

题目涉及水箱出水高度的判断,描述了一个顶部密封的水箱,里面有压缩空气和水,水通过软管流出,需要确定水流停止时水面的高度。

GPT-4o的分析过程有误。它分析了水箱内的压力和水的高度关系,试图通过平衡条件推导出水流停止时的水面高度,但由于对文本描述的理解出现偏差,计算结果偏离了标准答案。


波动/声学

你们的团队正在为飞行员在雨天或浓雾中设计一种着陆辅助装置。具体方法是在跑道两侧分别放置两个相距 50 米的无线电发射器。这两个发射器发出相同频率但存在相位差的无线电波,从而在跑道中心线上形成一个波节线(干涉最小线)。 当飞机正好对准中心线时,飞行员听不到声音;若偏离中心线,则会听到「哔」的提示音。为了实现精确导航,希望第一个干涉极大点(声音最强)出现在离中心线60米、距发射器3.0公里的位置。

问题:应为无线电发射器设定多少频率?

在解题过程中,GPT-4o错误计算了两个干涉极大线对应的路径差,从而导致后续的波长计算、频率都出现了错误。


如图所示,两个扬声器相距3.00 米,并且同时发出频率为474Hz、同相位的声音。一个麦克风被放置在两个扬声器中点正前方3.20米处,在该位置记录到一个强度最大值(干涉极大)。

问题:麦克风需要向右移动多远,才能找到第一个强度最小值(干涉极小)的位置?

在解题过程中,GPT-4o正确找到了解题关键——理解声波的相消干涉条件。

在计算相关条件、声波波长、几何关系时都给出了正确答案,然而在第四步对小x进行近似展开时,出现了计算错误。


光学

下面这道题,看起来很简单。

如图所示,一束光线穿过一块折射率为n=1.50的玻璃块时,会发生横向偏移(偏移距离为d)。

问题:求光线通过该玻璃块所需的时间间隔是多少?

这道题运用了斯涅尔定律和棱镜几何知识。GPT-4o虽然正确理解了棱镜内外折射角的关系,却在第二步计算θ角时出错了。


现代物理

Owen和Dina在参考系S中保持静止,而该参考系S相对于另一个参考系S′(可能是观察者Ed所在的)在运动。他们正在玩传球游戏,Ed在S′系中观看整个过程,如图所示。Owen把球抛向Dina。

问题:球到达Dina所需的时间间隔是多少?

GPT-4o正确判断出,此题需要运用狭义相对论的原理。

第二步,就需要将球在S′中的速度转换为在S中的速度,在运用相对论的速度叠加公式时,它出现了错误。


ThePhyX基准测试

PHYX中的每个问题都以真实的物理场景为中心,全面检验模型理解和推理物理世界的能力。

详细的数据统计见表1。


PHYX凭借其精心设计的结构和对多种推理维度的全面覆盖,为系统测试和提升基础模型在真实物理推理任务中的能力提供了一个强大的工具。

数据整理过程

为了确保数据的高质量,研究团队设计了一个四阶段的数据收集流程。

  • 调研与设计:深入研究核心物理学科,确定基准测试覆盖范围,选取多样化物理领域与子领域,并定义推理类型。

  • 专家标注:招募STEM研究生标注团队,遵守版权规则,避免使用不可复制内容,挑选答案不直接附于问题的题目以减少数据污染。

  • 问题转换与版本:将开放式问题转为多选题,反之亦然;为每题构建三种版本:原始版、简洁版(去除冗余文本)、核心问题版。

  • 多模态支持:使用GPT-4o为每张图像生成描述性标题,总结视觉内容,支持大语言模型评估与多模态理解。

这一数据整理过程最终形成了来自各种来源的3300个多样化问题。

主要结果

PHYX对当前模型来说是个不小的挑战。

值得注意的是,即便是表现最差的人类专家也能达到75.6%的准确率,远超团队分析中包含的所有模型。这表明人类专家与当前模型能力之间存在明显差距,凸显了PHYX的高标准和难度。

结果显示,多选题形式会缩小不同模型之间的性能差距,较弱的模型能通过表面线索「蒙」对答案。

相比之下,开放式问题要求真正的推理能力和精确的答案生成,因此能更好地区分模型能力。这说明开放式问题在评估多模态推理能力时具有更高的区分度。

如表3所示,在波动/声学和力学等领域,问题通常涉及自然图像且推理要求较低,模型表现普遍较好。而在热力学和现代物理等领域,任务往往需要复杂的视觉感知和多步骤推理,模型的表现通常较差。


不同物理领域中,模型在开放式去冗余文本问题上的平均得分。各领域模型的最高得分用蓝色高亮显示,整体最高得分用红色高亮显示

讨论分析

以推理为核心的模型,如GPT-4o-mini和DeepSeek-R1,分别取得了45.8%和51.2%的准确率,明显优于通用模型如GPT-4o和Claude3.7-Sonnet。

结果凸显出专门为推理任务优化的模型所具备的优势,并表明在弥合多模态推理差距时,模型架构和训练方式的差异发挥了关键作用。

尽管没有直接的视觉输入,像DeepSeek-R1和GPT-3o-mini这样的LLMs在性能上与大多数多模态模型不相上下。

LLMs的出色表现表明,在许多情况下,图像的文本描述已足以提供推理所需的视觉上下文。

这不仅展现了LLMs强大的泛化能力,也暴露了当前多模态模型(MLLMs)在利用原始视觉信号进行物理推理时的局限性。

研究团队的实验显示,多模态模型在很大程度上依赖详细的文本描述,其纯粹基于视觉上下文的推理能力有限。

相比GPT-4o在MathVista(63.8%)和MATH-V(63.8%)数据集上的表现,其在物理推理任务中的准确率明显较低。

这一发现表明,物理推理需要更深入地整合抽象概念和现实世界的知识,相比纯粹的数学推理,对当前模型来说是更大的挑战。

为了深入了解模型的推理能力和局限性,团队仔细检查了96个随机抽样的错误,并基于GPT-4o进行了详细分析。

这次分析有两个目标:一是找出模型当前的弱点,二是为未来的模型设计和训练提供改进方向。错误分布情况如图7所示。

  • 视觉推理错误(39.6%):模型在处理真实物理问题时,误读视觉信息或空间关系,比如,误读电压值导致计算错误。真实图片增加挑战,需提升多模态推理能力。

  • 文本推理错误(13.6%):模型处理文本时误解隐含条件或逻辑关系,如忽略「无摩擦」指令,需改进文本推理和语境理解。

  • 知识缺失(38.5%):模型缺乏特定领域知识,如忽略波速差异导致几何推理错误,需加强领域知识储备。

  • 计算错误(8.3%):模型理解物理背景但在算术、公式应用或单位转换中出错,需优化数值计算能力。


基于GPT-4o分析的90个标注错误的分布显示,其中一个典型的视觉推理错误对人类来说很简单,但对GPT-4o却颇具挑战

参考资料:

https://phyx-bench.github.io/

https://arxiv.org/abs/2505.15929

全球顶尖AI做物理,被人类按地摩擦?不懂推理大翻车,本科生碾压 - AI 资讯 - 资讯 - AI 中文社区

声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它能得到比较好的回应。
评论

游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。