谷歌4D世界模型来了,比SOTA快300倍!
【导读】谷歌 DeepMind 发布 D4RT,彻底颠覆了动态 4D 重建范式。它抛弃了复杂的传统流水线,用一个统一的「时空查询」接口,同时搞定全像素追踪、深度估计与相机位姿。不仅精度屠榜,速度更比现有 SOTA 快出 300 倍。这是具身智能与自动驾驶以及 AR 的新基石,AI 终于能像人类一样,实时看懂这个流动的世界。
如果是几年前,你问一位计算机视觉工程师:「我想把这段视频里的所有东西——无论它是静止的房子还是奔跑的狗——都在 3D 世界里重建出来,并且还能随时知道它们下一秒会去哪儿,需要多久?」
他大概会递给你一根烟,让你先去买几块顶级显卡,然后给你画一个由四五个不同模型拼凑起来的流程图:先算光流,再算深度,再估相机位姿,最后还得用一晚上的时间去跑优化,祈祷结果别崩。
但谷歌 DeepMind 刚刚发布的D4RT(Dynamic 4D Reconstruction and Tracking),试图终结这种混乱。

这篇论文在计算机视觉领域扔下了一枚关于「效率革命」的重磅炸弹。
它把原本割裂的 3D 重建、相机追踪、动态物体捕捉,统一成了一个极简的「查询」动作。

更重要的是,它的速度比现有SOTA技术快了 18 到 300 倍。

如果在你的认知里,高质量的 4D 重建还是好莱坞特效工作室里那些昂贵且缓慢的渲染农场,耗费漫长的时间等待生成完毕,那么 D4RT 正在把这种能力变成一种可以塞进机器人*脑甚至 AR 眼镜里的实时直觉。
Demo 演示
为了理解 D4RT 到底做到了什么,我们需要先看一眼它眼中的世界。
在论文展示的演示中,最直观的震撼来自于对「动态混乱」的驾驭能力。
想象一下这个画面:一只天鹅在水面上划过,或者一朵花在风中快速绽放。
传统的 3D 重建算法(比如 MegaSaM 或 )处理这种场景通常是一场灾难——因为它们假设世界是静止的,所以它们往往会在 3D 空间里留下一串「重影」,就像老式胶片重叠曝光一样,天鹅变成了长着几十个脖子的怪物,或者花朵直接变成了一团无法辨认的噪点。
但 D4RT 给出的结果极其干净。
它不仅可以精准还原天鹅的 3D 形态,还完美剥离了相机的运动和天鹅自身的运动。
在它的视野里,时间变成了一个可以随意拖动的滑块。

更令人印象深刻的是它的全像素追踪能力。
你可以点击视频中花瓣上的任意一个像素,D4RT 就能画出这个点在过去和未来的完整 3D 轨迹,哪怕这个点在中间几帧被蜜蜂遮挡了,或者跑到了画面之外,模型依然能根据上下文「脑补」出它的去向。

这种视觉效果给人的感觉是:AI 不再是在一帧帧地「看」视频,而是把整段视频吞下去,在大脑里生成了一个完整的、流动的全息全景图,然后你可以随意从任何角度、任何时间去检视它。

模型能力对比图
拆解「神话」
是真的快,还是文字游戏?
科技公司发论文,数据通常都很漂亮。
作为观察者,我们需要剥离 PR 滤镜,看看数据背后的定语。
谷歌声称 D4RT 比之前的 SOTA 快了300 倍,处理一分钟的视频只需要 5 秒钟。
这是真的吗?
答案是:在特定维度上,是真的。
这里的「300倍」指的是吞吐量,具体来说是「在保持相同帧率(FPS)的前提下,模型能同时追踪多少条 3D 轨迹」。
数据对比:在 24 FPS 的标准电影帧率下,之前的强者 SpatialTrackerV2 只能同时追踪84条轨迹,再多就卡了;而 D4RT 可以轻松处理1570条。如果是和 DELTA 这种更慢的模型比,那就是314 倍的差距。

实际意义:这意味着之前的技术可能只能盯着画面里的主角(比如一个人),而 D4RT 可以同时盯着背景里走动的路人、飘落的树叶和远处的车流——即所谓的「全像素级感知」。
它比同类技术强在哪儿?
目前市面上的 4D 重建技术主要分两派:
「拼装派」(如 MegaSaM):把深度估计、光流、分割等多个现成模型串起来。虽然效果不错,但不仅慢,而且一旦一个环节出错(比如光流飘了),后面全完。
「多头派」(如 VGGT):虽然是一个大模型,但为了输出不同的任务(深度、位姿、点云),需要挂载不同的解码头,结构臃肿。
D4RT 的牛,在于它做到了架构层面的统一。
它不需要为深度单独做一个解码器,也不需要为位姿单独做一个。
它只用同一个接口解决所有问题。

有没有代价?当然有。
D4RT 的「快」主要体现在推理阶段。
在训练阶段,它依然是一个庞然大物。它的编码器使用了 ViT-g,拥有10 亿参数,并且需要在 64 个 TPU 芯片上训练两天。
这绝不是普通开发者在自家车库里能复现的玩具,它是典型的「大厂重武器」。
技术解码
把 4D 重建变成「搜索引擎」
那么,D4RT 到底是怎么做到的?
论文的核心逻辑可以用一句话概括:先全局「阅读」视频,再按需「搜索」答案。
不再逐帧解码,而是「全局记忆」
传统的视频处理往往是线性的,处理第 10 帧时可能已经「忘」了第 1 帧的细节。
D4RT 的第一步是使用一个巨大的 Transformer 编码器(Encoder),把整段视频压缩成一个全局场景表征(Global Scene Representation, F)。
你可以把这个F想象成 AI 对这段视频形成的「长期记忆」。
一旦这个记忆生成了,原本庞大的视频数据就被浓缩在了这里。
「哪里不会点哪里」的查询机制
这是 D4RT 最天才的设计。它发明了一种通用的查询(Query)语言。
当 AI 想要知道某个像素的信息时,它会向解码器(Decoder)发送一个查询 q:
这个公式翻译成人话就是:
「请告诉我:在这一帧图像上坐标为的那个点,它在这个时间时刻,如果从这个相机的视角看过去,它的 3D 坐标在哪里?」
如果你想生成深度图:就问「现在这个点在现在的相机里多远?」(让 )。
如果你想做轨迹追踪:就问「这个点在第 1 帧、第 2 帧……第 N 帧都在哪?」(固定 ,改变 )。

如果你想重建点云:就问「视频里所有点在同一时刻的世界坐标在哪?」(把所有点都映射到同一个 )。

并行计算的艺术
因为每一个查询(Query)都是独立的,D4RT 不需要像穿针引线一样按顺序计算。
它可以一次性扔出几万个问题,利用 GPU/TPU 的并行能力同时算出答案。
这就是为什么它能比别人快 300 倍的根本原因:它把一个复杂的串行几何问题,变成了一个大规模并行的搜索问题。
关键的「作弊」技巧:9x9 Patch
论文作者还发现了一个有趣的细节:如果只告诉解码器坐标点,AI 有时候会「脸盲」,分不清纹理相似的区域。
于是,他们在查询时顺便把那个像素点周围9x9的小方块图像(RGB Patch)也喂给了模型。

这就像是你让人在人群中找人,光给个坐标不行,还得给他一张那个人脸部的特写照片。
消融实验证明,这个小小的设计极大地提升了重建的锐度和细节。

产业影响
谷歌的野心与具身智能的眼睛
D4RT 的出现,对谷歌现有的业务版图和未来的 AI 战略有着极强的互补性。
具身智能与自动驾驶的最后一块拼图
现在的机器人之所以笨,很大程度上是因为它们「看不懂」动态环境。
一个扫地机器人能避开沙发,但很难预判一只正在跑过来的猫。
D4RT 提供的实时、密集、动态的 4D 感知,正是机器人急需的技能。
它能让机器人理解:那个东西不仅现在在那里,而且下一秒它会出现在我左边。
对于自动驾驶而言,这种对动态物体(如行人、车辆)的像素级轨迹预测,是提升安全性的关键。
增强现实(AR)的基石
谷歌一直在 AR 领域寻找突破口(从当年的谷歌眼镜,到现在的 Project Astra)。
要在眼镜端实现逼真的 AR,必须要有极低延迟的场景理解。
D4RT 展示的高效推理能力(尤其是在移动端芯片上的潜力),让「实时把虚拟怪兽藏在真实沙发后面」变得在工程上可行。
对普通人的影响
视频编辑的「魔法化」
对于普通用户,这项技术最快落地的场景可能是手机相册和视频编辑软件。
想象一下,你拍了一段孩子踢球的视频。
有了 D4RT,你可以像在《黑客帝国》里一样,在视频播放过程中随意旋转视角(尽管你拍摄时并没有移动),或者轻易地把路人从复杂的背景中「扣」掉,甚至改变视频中光源的方向。
这是 D4RT 这种 4D 重建技术成熟后的应用之一。
结语
D4RT 让我们看到了一种新的可能性:AI 对世界的理解,正在从二维的「图像识别」跨越到四维的「时空洞察」。
它告诉我们,要看清这个流动的世界,关键不在于每一帧都看得多仔细,而在于如何建立一个能够随时回应疑问的全局记忆。
在AI的眼中,过去并没有消逝,未来也不再不可捉摸,它们只是同一个四维坐标系里,等待被查询的两个不同参数而已。
参考资料:
https://d4rt-paper.github.io/
https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/
https://storage.googleapis.com/d4rt_assets/D4RT_paper.pdf
声明:本文转载自新智元,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里。
游客
- 鸟过留鸣,人过留评。
- 和谐社区,和谐点评。
AI 中文社