谷歌创始人承认：入场代码编程晚了，但押注 AI 的自我改进飞轮

2026-06-22 发布浏览19次点赞0次收藏0次

谷歌联合创始人谢尔盖·布林回归两年首次公开认错！在硅谷AGI House活动的开放式问答上，他直言：“回头看，我们应该更早聚焦代码，这点我不否认。”这句话背后，藏着AI行业最激烈的赛道之争——而谷歌，居然承认自己慢了一步？

这场问答信息量爆炸，不仅暴露了谷歌的现状，更是整个AI行业的缩影：一场关于AGI（通用人工智能）定义的暗战正在上演，它的结果将直接决定AI的未来走向。

有人问布林对当前竞争格局的看法，他毫不避讳：“大家都专注于代码编程，其他实验室已经取得显著进步。现在GPT-5.5占很大优势，但Gemini 3.5 Flash在速度上还有明显优势。我们应该更早聚焦代码，这是现在正在做的事。”
![](
https://p-content-cloud-sign.bytedance.net/tos-cn-i-6w9my0ksvp/db24dda34015436a8627111e47957e9c~tplv-obj.webp?_iz=30575&lk3s=ff58f5f7&x-orig-authkey=contentorigin&x-orig-expires=2096983189&x-orig-sign=bMJoH1EIPlTL2suveY9g02UfoYY%3D)（来源：https://www.youtube.com/watch?v=gsv5o8ANdDo）

为什么代码这么重要？表面看，代码能力强的模型更容易吸引开发者，积累反馈形成正循环。但布林点出了更深层的逻辑：代码能力是AI自我加速的关键入口。

谷歌现在大量精力投入“用工具构建工具”——让AI监控自己的训练过程，生成训练数据。当模型代码能力足够强，就能写出更好的训练脚本，训练出更强的下一代模型；更强的模型又能写出更牛的脚本……这是个滚雪球式的自我升级飞轮，代码越强，改进越快。布林说“我们进入得偏晚”，指的就是这个飞轮的抢占。

AGI定义之争：到底什么才是真正的通用人工智能？

但入场只是开始，更关键的是：这场竞争的终点在哪里？答案取决于AGI的定义。

布林提到两种截然不同的定义：一种认为AGI是AI能真正自我提升的节点，按这个标准，现在的大模型已经接近甚至达到；另一种则认为AGI要能做任何人类能做的事。布林说，之前他直觉倾向第一种，但现在更认同第二种。

这两个定义代表完全不同的终点和技术路线。如果终点是“能做任何人类的事”，那今天的AI还差得远——不是参数不够，而是缺了理解物理世界、交互物理世界、无文字场景判断的能力模块。

这个判断，直接决定了谷歌的下注方向。

谷歌押注物理世界：从语言模型到能“感知”真实世界的AI

布林对AGI定义的转向，就是谷歌技术路线的底层逻辑：光做好语言不够，必须覆盖物理世界。

当前顶尖AI的核心架构是Transformer，擅长处理文字、代码等序列信息，但和物理世界脱节——它学的知识都来自文字描述，没法感知物理空间。比如，它知道“杯子掉地上会碎”，但不知道为什么碎，更不知道月球上掉杯子会怎样。

怎么突破这个边界？布林说，谷歌的Gemini多模态模型和Omni图像视频模型，用同一套Transformer架构，同时输入文本、图像、视频，结果语言和视觉能力自然收敛对齐了——这就是“涌现”：能力不是设计出来的，是规模扩大后自己冒出来的，就像GPT-3没被训练过算术却会算一样。

视频是物理世界最密集的记录媒介，包含大量物理规律。谷歌的赌注是：如果模型学会预测视频下一帧，物理直觉也许会自然涌现，就像语言涌现算术、图像涌现几何理解一样。

这就是World Model（世界模型）进入谷歌核心战略的原因——它要在AI内部建一个物理世界的仿真器，理解物体运动、力的传导、动作后果。

谷歌DeepMind 2025年发布的Genie 3就是落地：根据文字指令生成可交互的三维世界，训练AI智能体在里面行动；Gemini Robotics系列则把这套能力延伸到真实物理空间，让机器人自主完成复杂任务。这都是谷歌向ASI（超级智能）冲刺的关键——ASI是AGI之后的阶段，能在几乎所有认知任务上超越人类，提出人类没想到的问题、发现看不见的规律。

两大风险悬顶：预测等于理解吗？模型会坍缩吗？

但这条路线的成立，依赖一个没人能证明的假设：预测等于理解吗？

1980年哲学家约翰·塞尔的“中文房间”实验很经典：不懂中文的人靠规则手册输出符号，外面的人以为他懂中文，但他其实啥都不知道。现在的AI就像这个房间里的人，预测只是记住了结果（比如玻璃杯掉地上碎），但不懂背后的重力、脆性等规律，没法迁移到月球场景。谷歌赌的是预测到极致会自动转化为理解，但图灵奖得主杨立昆坚决反对：语言和视频是世界的投影，不是世界本身——读遍游泳文字的人不会游泳，物理交互的因果理解超越统计学习。

除了外部质疑，内部还有模型坍缩的风险。布林说的“用工具构建工具”（AI生成训练数据），可能导致每一轮训练都有信息损失，像复印再复印，图像越来越模糊。模型可能在某些维度变强，但另一些维度悄悄退化，还很难察觉。
![](
https://p-content-cloud-sign.bytedance.net/tos-cn-i-6w9my0ksvp/5d291800409245deb2e1eff45b47c86a~tplv-obj.webp?_iz=30575&lk3s=ff58f5f7&x-orig-authkey=contentorigin&x-orig-expires=2096983189&x-orig-sign=4BSPOKzWRiSjfZ%2Bt5xMRHqy1lno%3D)（来源：AI 生成）

布林的回答里充满“猜测”“感觉”“可能”，这正是AI领域的真实状态：发展太快，没人能准确预测下一步。没人知道预测能否变理解，没人知道涌现的边界，没人知道自我改进飞轮会在哪断裂，也没人知道模型坍缩会在什么规模失控。

这场问答的价值，不在于布林给了什么答案，而在于他展示了哪些问题还没答案——这些问题，才是未来几年最值得押注的方向。

你觉得谷歌押注物理世界的路线能成吗？还是代码自我加速的路线更靠谱？欢迎在评论区说出你的看法，一起讨论AI的未来！

谷歌 AI 创始人 AGI C 大模型 GPT 人工智能评论杨立昆

谷歌创始人承认：入场代码编程晚了，但押注 AI 的自我改进飞轮

AGI定义之争：到底什么才是真正的通用人工智能？

谷歌押注物理世界：从语言模型到能“感知”真实世界的AI

两大风险悬顶：预测等于理解吗？模型会坍缩吗？

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

AGI定义之争：到底什么才是真正的通用人工智能？

谷歌押注物理世界：从语言模型到能“感知”真实世界的AI

两大风险悬顶：预测等于理解吗？模型会坍缩吗？

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。