谷歌创始人承认:入场代码编程晚了,但押注 AI 的自我改进飞轮

浏览19次 点赞0次 收藏0次

谷歌联合创始人谢尔盖·布林回归两年首次公开认错!在硅谷AGI House活动的开放式问答上,他直言:“回头看,我们应该更早聚焦代码,这点我不否认。”这句话背后,藏着AI行业最激烈的赛道之争——而谷歌,居然承认自己慢了一步?

 

这场问答信息量爆炸,不仅暴露了谷歌的现状,更是整个AI行业的缩影:一场关于AGI(通用人工智能)定义的暗战正在上演,它的结果将直接决定AI的未来走向。

有人问布林对当前竞争格局的看法,他毫不避讳:“大家都专注于代码编程,其他实验室已经取得显著进步。现在GPT-5.5占很大优势,但Gemini 3.5 Flash在速度上还有明显优势。我们应该更早聚焦代码,这是现在正在做的事。”
![](
https://p-content-cloud-sign.bytedance.net/tos-cn-i-6w9my0ksvp/db24dda34015436a8627111e47957e9c~tplv-obj.webp?_iz=30575&lk3s=ff58f5f7&x-orig-authkey=contentorigin&x-orig-expires=2096983189&x-orig-sign=bMJoH1EIPlTL2suveY9g02UfoYY%3D)(来源:https://www.youtube.com/watch?v=gsv5o8ANdDo)

为什么代码这么重要?表面看,代码能力强的模型更容易吸引开发者,积累反馈形成正循环。但布林点出了更深层的逻辑:代码能力是AI自我加速的关键入口。

谷歌现在大量精力投入“用工具构建工具”——让AI监控自己的训练过程,生成训练数据。当模型代码能力足够强,就能写出更好的训练脚本,训练出更强的下一代模型;更强的模型又能写出更牛的脚本……这是个滚雪球式的自我升级飞轮,代码越强,改进越快。布林说“我们进入得偏晚”,指的就是这个飞轮的抢占。

AGI定义之争:到底什么才是真正的通用人工智能?

但入场只是开始,更关键的是:这场竞争的终点在哪里?答案取决于AGI的定义。

布林提到两种截然不同的定义:一种认为AGI是AI能真正自我提升的节点,按这个标准,现在的大模型已经接近甚至达到;另一种则认为AGI要能做任何人类能做的事。布林说,之前他直觉倾向第一种,但现在更认同第二种。

这两个定义代表完全不同的终点和技术路线。如果终点是“能做任何人类的事”,那今天的AI还差得远——不是参数不够,而是缺了理解物理世界、交互物理世界、无文字场景判断的能力模块。

这个判断,直接决定了谷歌的下注方向。

谷歌押注物理世界:从语言模型到能“感知”真实世界的AI

布林对AGI定义的转向,就是谷歌技术路线的底层逻辑:光做好语言不够,必须覆盖物理世界。

当前顶尖AI的核心架构是Transformer,擅长处理文字、代码等序列信息,但和物理世界脱节——它学的知识都来自文字描述,没法感知物理空间。比如,它知道“杯子掉地上会碎”,但不知道为什么碎,更不知道月球上掉杯子会怎样。

怎么突破这个边界?布林说,谷歌的Gemini多模态模型和Omni图像视频模型,用同一套Transformer架构,同时输入文本、图像、视频,结果语言和视觉能力自然收敛对齐了——这就是“涌现”:能力不是设计出来的,是规模扩大后自己冒出来的,就像GPT-3没被训练过算术却会算一样。

视频是物理世界最密集的记录媒介,包含大量物理规律。谷歌的赌注是:如果模型学会预测视频下一帧,物理直觉也许会自然涌现,就像语言涌现算术、图像涌现几何理解一样。

这就是World Model(世界模型)进入谷歌核心战略的原因——它要在AI内部建一个物理世界的仿真器,理解物体运动、力的传导、动作后果。

谷歌DeepMind 2025年发布的Genie 3就是落地:根据文字指令生成可交互的三维世界,训练AI智能体在里面行动;Gemini Robotics系列则把这套能力延伸到真实物理空间,让机器人自主完成复杂任务。这都是谷歌向ASI(超级智能)冲刺的关键——ASI是AGI之后的阶段,能在几乎所有认知任务上超越人类,提出人类没想到的问题、发现看不见的规律。

两大风险悬顶:预测等于理解吗?模型会坍缩吗?

但这条路线的成立,依赖一个没人能证明的假设:预测等于理解吗?

1980年哲学家约翰·塞尔的“中文房间”实验很经典:不懂中文的人靠规则手册输出符号,外面的人以为他懂中文,但他其实啥都不知道。现在的AI就像这个房间里的人,预测只是记住了结果(比如玻璃杯掉地上碎),但不懂背后的重力、脆性等规律,没法迁移到月球场景。谷歌赌的是预测到极致会自动转化为理解,但图灵奖得主杨立昆坚决反对:语言和视频是世界的投影,不是世界本身——读遍游泳文字的人不会游泳,物理交互的因果理解超越统计学习。

除了外部质疑,内部还有模型坍缩的风险。布林说的“用工具构建工具”(AI生成训练数据),可能导致每一轮训练都有信息损失,像复印再复印,图像越来越模糊。模型可能在某些维度变强,但另一些维度悄悄退化,还很难察觉。
![](
https://p-content-cloud-sign.bytedance.net/tos-cn-i-6w9my0ksvp/5d291800409245deb2e1eff45b47c86a~tplv-obj.webp?_iz=30575&lk3s=ff58f5f7&x-orig-authkey=contentorigin&x-orig-expires=2096983189&x-orig-sign=4BSPOKzWRiSjfZ%2Bt5xMRHqy1lno%3D)(来源:AI 生成)

布林的回答里充满“猜测”“感觉”“可能”,这正是AI领域的真实状态:发展太快,没人能准确预测下一步。没人知道预测能否变理解,没人知道涌现的边界,没人知道自我改进飞轮会在哪断裂,也没人知道模型坍缩会在什么规模失控。

这场问答的价值,不在于布林给了什么答案,而在于他展示了哪些问题还没答案——这些问题,才是未来几年最值得押注的方向。

你觉得谷歌押注物理世界的路线能成吗?还是代码自我加速的路线更靠谱?欢迎在评论区说出你的看法,一起讨论AI的未来!

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它往往能得到较好的回响。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。
最新资讯