谷歌4D世界模型来了，比SOTA快300倍！

2026-01-23 发布 · 浏览145次 · 点赞0次 · 收藏0次

【导读】谷歌 DeepMind 发布 D4RT，彻底颠覆了动态 4D 重建范式。它抛弃了复杂的传统流水线，用一个统一的「时空查询」接口，同时搞定全像素追踪、深度估计与相机位姿。不仅精度屠榜，速度更比现有 SOTA 快出 300 倍。这是具身智能与自动驾驶以及 AR 的新基石，AI 终于能像人类一样，实时看懂这个流动的世界。

如果是几年前，你问一位计算机视觉工程师：「我想把这段视频里的所有东西——无论它是静止的房子还是奔跑的狗——都在 3D 世界里重建出来，并且还能随时知道它们下一秒会去哪儿，需要多久？」

他大概会递给你一根烟，让你先去买几块顶级显卡，然后给你画一个由四五个不同模型拼凑起来的流程图：先算光流，再算深度，再估相机位姿，最后还得用一晚上的时间去跑优化，祈祷结果别崩。

但谷歌 DeepMind 刚刚发布的D4RT（Dynamic 4D Reconstruction and Tracking），试图终结这种混乱。

这篇论文在计算机视觉领域扔下了一枚关于「效率革命」的重磅炸弹。

它把原本割裂的 3D 重建、相机追踪、动态物体捕捉，统一成了一个极简的「查询」动作。

更重要的是，它的速度比现有SOTA技术快了 18 到 300 倍。

如果在你的认知里，高质量的 4D 重建还是好莱坞特效工作室里那些昂贵且缓慢的渲染农场，耗费漫长的时间等待生成完毕，那么 D4RT 正在把这种能力变成一种可以塞进机器人*脑甚至 AR 眼镜里的实时直觉。

Demo 演示

为了理解 D4RT 到底做到了什么，我们需要先看一眼它眼中的世界。

在论文展示的演示中，最直观的震撼来自于对「动态混乱」的驾驭能力。

想象一下这个画面：一只天鹅在水面上划过，或者一朵花在风中快速绽放。

传统的 3D 重建算法（比如 MegaSaM 或）处理这种场景通常是一场灾难——因为它们假设世界是静止的，所以它们往往会在 3D 空间里留下一串「重影」，就像老式胶片重叠曝光一样，天鹅变成了长着几十个脖子的怪物，或者花朵直接变成了一团无法辨认的噪点。

但 D4RT 给出的结果极其干净。

它不仅可以精准还原天鹅的 3D 形态，还完美剥离了相机的运动和天鹅自身的运动。

在它的视野里，时间变成了一个可以随意拖动的滑块。

更令人印象深刻的是它的全像素追踪能力。

你可以点击视频中花瓣上的任意一个像素，D4RT 就能画出这个点在过去和未来的完整 3D 轨迹，哪怕这个点在中间几帧被蜜蜂遮挡了，或者跑到了画面之外，模型依然能根据上下文「脑补」出它的去向。

这种视觉效果给人的感觉是：AI 不再是在一帧帧地「看」视频，而是把整段视频吞下去，在大脑里生成了一个完整的、流动的全息全景图，然后你可以随意从任何角度、任何时间去检视它。

模型能力对比图

拆解「神话」

是真的快，还是文字游戏？

科技公司发论文，数据通常都很漂亮。

作为观察者，我们需要剥离 PR 滤镜，看看数据背后的定语。

谷歌声称 D4RT 比之前的 SOTA 快了300 倍，处理一分钟的视频只需要 5 秒钟。

这是真的吗？

答案是：在特定维度上，是真的。

这里的「300倍」指的是吞吐量，具体来说是「在保持相同帧率（FPS）的前提下，模型能同时追踪多少条 3D 轨迹」。

数据对比：在 24 FPS 的标准电影帧率下，之前的强者 SpatialTrackerV2 只能同时追踪84条轨迹，再多就卡了；而 D4RT 可以轻松处理1570条。如果是和 DELTA 这种更慢的模型比，那就是314 倍的差距。

实际意义：这意味着之前的技术可能只能盯着画面里的主角（比如一个人），而 D4RT 可以同时盯着背景里走动的路人、飘落的树叶和远处的车流——即所谓的「全像素级感知」。

它比同类技术强在哪儿？

目前市面上的 4D 重建技术主要分两派：

「拼装派」（如 MegaSaM）：把深度估计、光流、分割等多个现成模型串起来。虽然效果不错，但不仅慢，而且一旦一个环节出错（比如光流飘了），后面全完。

「多头派」（如 VGGT）：虽然是一个大模型，但为了输出不同的任务（深度、位姿、点云），需要挂载不同的解码头，结构臃肿。

D4RT 的牛，在于它做到了架构层面的统一。

它不需要为深度单独做一个解码器，也不需要为位姿单独做一个。

它只用同一个接口解决所有问题。

有没有代价？当然有。

D4RT 的「快」主要体现在推理阶段。

在训练阶段，它依然是一个庞然大物。它的编码器使用了 ViT-g，拥有10 亿参数，并且需要在 64 个 TPU 芯片上训练两天。

这绝不是普通开发者在自家车库里能复现的玩具，它是典型的「大厂重武器」。

技术解码

把 4D 重建变成「搜索引擎」

那么，D4RT 到底是怎么做到的？

论文的核心逻辑可以用一句话概括：先全局「阅读」视频，再按需「搜索」答案。

不再逐帧解码，而是「全局记忆」

传统的视频处理往往是线性的，处理第 10 帧时可能已经「忘」了第 1 帧的细节。

D4RT 的第一步是使用一个巨大的 Transformer 编码器（Encoder），把整段视频压缩成一个全局场景表征（Global Scene Representation, F）。

你可以把这个F想象成 AI 对这段视频形成的「长期记忆」。

一旦这个记忆生成了，原本庞大的视频数据就被浓缩在了这里。

「哪里不会点哪里」的查询机制

这是 D4RT 最天才的设计。它发明了一种通用的查询（Query）语言。

当 AI 想要知道某个像素的信息时，它会向解码器（Decoder）发送一个查询 q：

这个公式翻译成人话就是：

「请告诉我：在这一帧图像上坐标为的那个点，它在这个时间时刻，如果从这个相机的视角看过去，它的 3D 坐标在哪里？」

如果你想生成深度图：就问「现在这个点在现在的相机里多远？」（让）。
如果你想做轨迹追踪：就问「这个点在第 1 帧、第 2 帧……第 N 帧都在哪？」（固定，改变）。
如果你想重建点云：就问「视频里所有点在同一时刻的世界坐标在哪？」（把所有点都映射到同一个）。

并行计算的艺术

因为每一个查询（Query）都是独立的，D4RT 不需要像穿针引线一样按顺序计算。

它可以一次性扔出几万个问题，利用 GPU/TPU 的并行能力同时算出答案。

这就是为什么它能比别人快 300 倍的根本原因：它把一个复杂的串行几何问题，变成了一个大规模并行的搜索问题。

关键的「作弊」技巧：9x9 Patch

论文作者还发现了一个有趣的细节：如果只告诉解码器坐标点，AI 有时候会「脸盲」，分不清纹理相似的区域。

于是，他们在查询时顺便把那个像素点周围9x9的小方块图像（RGB Patch）也喂给了模型。

这就像是你让人在人群中找人，光给个坐标不行，还得给他一张那个人脸部的特写照片。

消融实验证明，这个小小的设计极大地提升了重建的锐度和细节。

产业影响

谷歌的野心与具身智能的眼睛

D4RT 的出现，对谷歌现有的业务版图和未来的 AI 战略有着极强的互补性。

具身智能与自动驾驶的最后一块拼图

现在的机器人之所以笨，很大程度上是因为它们「看不懂」动态环境。

一个扫地机器人能避开沙发，但很难预判一只正在跑过来的猫。

D4RT 提供的实时、密集、动态的 4D 感知，正是机器人急需的技能。

它能让机器人理解：那个东西不仅现在在那里，而且下一秒它会出现在我左边。

对于自动驾驶而言，这种对动态物体（如行人、车辆）的像素级轨迹预测，是提升安全性的关键。

增强现实（AR）的基石

谷歌一直在 AR 领域寻找突破口（从当年的谷歌眼镜，到现在的 Project Astra）。

要在眼镜端实现逼真的 AR，必须要有极低延迟的场景理解。

D4RT 展示的高效推理能力（尤其是在移动端芯片上的潜力），让「实时把虚拟怪兽藏在真实沙发后面」变得在工程上可行。

对普通人的影响

视频编辑的「魔法化」

对于普通用户，这项技术最快落地的场景可能是手机相册和视频编辑软件。

想象一下，你拍了一段孩子踢球的视频。

有了 D4RT，你可以像在《黑客帝国》里一样，在视频播放过程中随意旋转视角（尽管你拍摄时并没有移动），或者轻易地把路人从复杂的背景中「扣」掉，甚至改变视频中光源的方向。

这是 D4RT 这种 4D 重建技术成熟后的应用之一。

结语

D4RT 让我们看到了一种新的可能性：AI 对世界的理解，正在从二维的「图像识别」跨越到四维的「时空洞察」。

它告诉我们，要看清这个流动的世界，关键不在于每一帧都看得多仔细，而在于如何建立一个能够随时回应疑问的全局记忆。

在AI的眼中，过去并没有消逝，未来也不再不可捉摸，它们只是同一个四维坐标系里，等待被查询的两个不同参数而已。

参考资料：

https://d4rt-paper.github.io/

https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/

https://storage.googleapis.com/d4rt_assets/D4RT_paper.pdf

AI 谷歌 4 芯片大模型

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里。

浏览(145) 点赞(0) 收藏(0)

0条评论

珍惜第一个评论，它能得到比较好的回应。

游客

登录后再评论

鸟过留鸣，人过留评。
和谐社区，和谐点评。

关于我们/ 免责声明/ 问与答/ 积分奖励消耗规则/ 联系我们/ Markdown 教程 / 今日访问397人，当前在线2人，最高同时在线163人

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。为了更好的体验，本站推荐使用 Chrome 浏览器。

谷歌4D世界模型来了，比SOTA快300倍！

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

谷歌4D世界模型来了，比SOTA快300倍！

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。