Google I/O 2026:模型不再是主角,智能体撑起 AI 商业化

浏览22次 点赞0次 收藏0次

5 月 20 日,美国加州山景城,Google CEO Sundar Pichai 又一次走上 Google I/O 的舞台,掌声热烈。

今年他却没有像往年那样,一上来就亮出新模型。他先亮里一组数据展示 Google 过去一年的成果。Gemini App 达到 9 亿月活、AI Mode 达到 10 亿月活的、 Workspace 的用户突破 40 亿用户、每月 token 的处理量达到 3.2 千万亿。

但讲到产品,首先出场的居然是地图、YouTube、Docs 三个基础应用的 AI 升级,Ask for Maps、Ask YouTube 和 Docs Live。

 

这个开场顺序很反常。

了解谷歌 I/O 节奏的人都知道,过去三年 Google 总是从模型能力开场。它得向世界证明,它没被 ChatGPT 甩下。2023 年 Bard 急匆匆登场,2024 年 Gemini 反复改名重启,2025 年它终于追平节奏。那三年,Google 越发力越像 OpenAI,越用力越不像自己。很明显,这一次,Google 的叙事姿态变了,Sundar 不再焦虑,开始回到用规模说话,讲述 AI 进入自家产业细微处所带来的变化。

如果你按「发布了什么」看这场 I/O 大会,会看到一堆新东西:Gemini 3.5 Flash、世界模型 Gemini Omni、个人智能体 Gemini Spark、智能购物车 Universal Cart……

但如果换一个视角,你会发现另一件事,Google 正在系统性地把 AI 的每一处可能性都改造成商业入口。

Google 3.5 Flash 在打模型价格战,Gemini Spark 是新的订阅增长动力,智能购物车 Universal Cart 可以收电商佣金,UCP 在协议层抽水,Workspace 智能体服务企业,Chrome agent 则是重做搜索广告这门老生意。

这背后当然有资金的压力,Google 宣布今年要花 1900 亿美元继续投入 AI 基建,是 2022 年的 6 倍。但更值得关注的是,Google 用一条全新的产品线在回答一个问题,当模型本身越来越不值钱了,AI 真正的商业化,要从哪儿开始?

 

01

Gemini 4 缺席

Google 这次没把模型当重点

这次 Google 在 I/O 大会上一共带来了三款新模型:Gemini 3.5 Flash、Gemini Omni 、Gemini 3.5 Pro

其中,Gemini 3.5 Flash 的输出速度比其他模型快 4 倍,在 Antigravity 开发者平台里跑甚至能快 12 倍。谷歌技术人员还在台上演示了一个 demo,让 Gemini 3.5 Flash 实时生成一段 Chrome Dino 游戏代码,屏幕右上角的 token 输出速度跳到了每秒 1500 个 token。

性能上,Gemini 3.5 Flash 在几乎所有 benchmark 上都拿到了 曾经高端模型 Pro 级别的成绩,代表智能体执行能力的 Terminal-Bench 2.1 拿到 76.2%、代表工具调用的 MCP Atlas 拿到 83.6%、代表多模态推理能力的 CharXiv Reasoning 拿到 84.2% 。

 

价格上,Gemini 3.5 Flash 定价每百万 input token 1.5 美元、每百万 output token 9 美元。这这个价格放在中端模型里,性价比相当高。对标的 Claude Sonnet 4.6 是每百万 input 3 美元、output 15 美元,Gemini 3.5 Flash 整体便宜了 40-50%。目前 Gemini 3.5 Flash 可以在 Gemini App 和 AI Mode 中直接体验。

「一家公司每天处理 1 万亿 token,如果把 80% 工作流换成 Flash,一年能省 10 亿美元。」Sundar 说道。很显然,在 Gemini 3.5 Flash 上,Google 已经调整了自己的模型产品逻辑,当大家都在卷模型上限,卷谁的模型 benchmark 更高的时候,Google 觉得够强、够快、够便宜的 Gemini 3.5 Flash 更有市场竞争优势。

这其实很好理解,模型的利润空间已经越来越薄,模型本身正在变成一个「够用就行」的东西,也因此性价比甚至开始比性能更重要。同时,当模型本身越来越便宜,真正能定价的,是模型之上的东西,比如说智能体、订阅、企业服务等等,更具有价值,因此模型开始回归到底层基础建设,为智能体服务。

其次,Google 终于拿出多模态模型的最后一块拼图,世界模型 Gemini Omni。Google 把音频、图片、视频生成能力都放进了 Gemini Omni,据悉下个月能够先体验 Gemini Omni Flash。

 

介绍 Gemini Omni 的时候,Google DeepMind 联合创始人 Demis Hassabis主要就用了一句话:「模型从预测文本,到模拟现实(from predicting text to simulating reality)。」

这也意味着Google 之前拼起来的多模态,比如说做视频的Veo, 做图像的Nano Banana,做音乐的Lyria,Gemini 负责理解和推理方向全在该模型上融合了, Google Gemini Omni 第一次有了模型同时具有理解世界和生成世界的能力。

这也给 Google 打开了一个商业化的新方向。过去 Google 在创作者市场一直是缺席的,Adobe 占着专业创作,CapCut 占着轻量创作,内容创作赛道一直竞争激烈。Google  Gemini Omni 的模型能力深度集成进了 Google Flow、YouTube Shorts 和 Workspace 里的 Pics 工具。这意味着 Google 终于有了能切进内容创作市场的有效抓手。

奇怪的是,Google 这次没发 Gemini 4,甚至 Gemini 3.5 Pro 的介绍也就是寥寥几句带过。按行业节奏,Gemini 3 系列推了一年多,Gemini 4 应该是这次谷歌 I/O 最该发的旗舰模型。

对于产品的缺席,产业内一种猜测是前沿模型的发布节奏已经不是 Google 现在最在意的事了。比如说,这次发的所有产品,都不需要「Gemini 4 那种级别的模型」才能跑,Gemini 3.5 Flash 已经够便宜、够快,Gemini Omni 还补上了多模态的理解短板,因此此时端出 Gemini 4,除了参数的变化,意义并不大。

更可能的原因是,Google 现在最想做的事,不是再发一个让人惊叹的新模型,而是让现有模型跑出更多产品来挣钱。让前沿模型留在内部继续训,今年这个舞台,Google 留给的不是技术,是商业生态。

 

02

智能体成为商业化钥匙?

谷歌首推个人助理Gemini Spark

 

如果按「模型不再是主角」,那Google 这次把主角让给了谁?答案显然是智能体。

但智能体这个词,过去一年被各家用得太滥了,OpenAI 在讲、Anthropic 在讲、Microsoft 也在讲。每家说的都不太一样,有的是浏览器里跑代码的工具,有的是 API 里调用的函数,有的就是个「会自己点几下鼠标的 Chat」,似乎沾一点执行都能叫做智能体。

关于智能体定义,其实Google 也并没有给出比较明确的信息,只是推出了个人智能体助理Gemini Spark,把它放在场景里讲清楚了一些。

 

「Gemini Spark 是你个人的一个 AI 代理体,帮助你游刃有余地度过你的数字化生活,每天代表你采取一些行动,当然一切听你指挥。」这是谷歌给Gemini Spark的定义。

技术上,Gemini Spark 是基于 Gemini 3.5 + Antigravity 框架做底层技术支持。Antigravity 是 Google 在去年 11 月发的智能体开发平台(IDE),内部团队已经用它写过代码。这次 Antigravity 升级到 2.0,变成「agent first」,所有交互都围绕智能体重新设计。

此外,Gemini Spark 还可以通过 MCP 协议接外部工具。本次谷歌宣布首批接的是 Canva、OpenTable、Instacart。这也就意味着,Gemini Spark 不只能在 Google 自己的产品里干活,它能调用第三方应用。

Josh Woodward 在台上演示了几个场景,让 Spark 帮他给团队写一封关于产品发布的总结邮件、帮他规划街区聚会、追踪邻居 RSVP、提醒孩子学校截止日期。这些场景看起来都不「惊艳」,但都有一个共同点,Spark 真的可以帮你做你本来就要做的事。本周 Gemini Spark 开始小范围测试,下周向美国 Google AI Ultra 订阅者开 Beta 测试版。

值得注意的是,把 Google 这次发布的所有公告串起来看,会发现 Spark 不是一个产品,Spark 是一个层。它出现在了 Google 几乎所有重要的入口里。

具体说,Gemini Spark 这次明确落地的场景就有八个,发布会上用了大量演示直观展现了它的能力:

首先是 Gemini App,本周向 Ultra 订阅者开放;然后是 Chrome 浏览器,今年夏天升级成所谓的「agentic browser」,到时候 Gemini Spark 直接在你浏览的网页上替你做事;

比如说,你想换一份新的家庭保险,你可以打开 Chrome 让 Gemini Spark替你跑。它会自己打开几家保险公司的官网,填好你的信息,把每家的报价、保障范围、免赔额都汇总成一张表给你看,你只需要在最后一步确认要不要下单。整个过程你不用切换标签页,不用一家家比,甚至不用打开网页。

接着是 Android Halo中的Gemini Spark,年底前推出,可以在手机状态栏直接显示 Gemini Spark 正在干什么;还有 macOS 桌面 App,今夏集成 Spark,可以操作你本地的文件;在 Google Workspace 这一档,Gmail、Docs、Slides 等产品里都会嵌入 Gemini Spark,服务各种各样的产品,不过会先在企业客户里预览。

此外,在 Google Search 里,Spark 以「信息智能体」的形式 24 小时在后台替你监控信息;Universal Cart 智能购物车里,Gemini Spark结合 AP2 协议替你下单付款;最后是 Android XR 智能眼镜,今年秋季首款音频眼镜上市,通过 Gemini Intelligence 还可以调用 Gemini Spark处理多步任务。

结合这八个首批落地的场景,你会发现 Gemini Spark不是一个「卖给用户的产品」,Gemini Spark 更像一个「嵌进 Google 所有商业通路的能力」。每一个Gemini Spark 出现的地方,都对应着 Google 一条现有的或新的赚钱通路。这就是为什么 Google 这次没有像 OpenAI 那样,把智能体做成一个「超级 App」。

OpenAI 的智能体是入口型的,你打开 ChatGPT 才能用。Google 的智能体是渠道型的,它出现在你已经在用的所有 Google 产品里。抢场景、抢入口、抢用户心智,可以看出这些都是商业化阶段的典型动作。

 

03

打造AI智能体「支付一条龙」体系?

谷歌用三大协议完成闭环

 

如果说,Spark 是 Google 在抢「商业入口」,那此次发布会上重点新推出的 UCP、AP2 和 SynthID 等诸多新协议,则是 Google 在抢「商业规则」。毕竟,入口可以被竞争,规则一旦定型就是十年的事。

先说 UCP。UCP 的全称是 Universal Commerce Protocol,通用商务协议。这是 Google 今年早些时候推出的开源标准,目标是给 AI 智能体提供一个统一的电商语言,让智能体在不同的电商平台之间,可以用同一套协议研究商品、加购物车、下单结账。

在智能体时代,人不再是电商的主要操作者,智能体才是。当 Gemini Spark 替你比价、替你下单,它需要一个能跟所有电商平台对话的协议。这件事如果没有标准,每家电商都会做自己的接口,智能体就会被锁在某个平台里。Google 做 UCP 的逻辑,跟当年做 Android 一样,自己定标准,让所有人跟着用。

UCP 的杀手锏不在技术,在于谁加入。这次 I/O 上,Vidhya Srinivasan 在台上公布了 UCP 委员会的首批成员:Amazon、Meta、Microsoft、Salesforce、Stripe。UCP 的下一步,Google 已经画好了,今年内拓展到加拿大、澳大利亚、英国,然后拓展到酒店预订、本地外卖等新垂直,然后进 YouTube。这是典型的「先卡位、再扩面」打法,谷歌显然已经做好准备。

再说 AP2。AP2 的全称是 Agent Payments Protocol,智能体支付协议。如果 UCP 是 AI 电商时代的 HTTP,那 AP2 就是 AI 电商时代的 Visa。

但 AP2 解决的是一个具体问题,当智能体替你花钱,怎么保证它花的是你想花的钱。具体说,AP2 让你能给智能体设定支付边界,比如「在 Sephora 买东西不超过 200 美元」,同时通过加密的「数字授权书」建立一条可追溯的链条,把你、商家、支付处理方三者之间的关系绑定起来,所有交易都有可验证的电子凭证。

听起来很技术,但商业视角很直接。Google 想做智能体时代的支付层。这跟 Google Pay 是不一样的,Google Pay 是面向人的钱包,AP2 是面向 AI 的钱包。这两层接下来会同时存在,而且 AP2 的体量大概率会比 Google Pay 大,因为在谷歌的设想里,未来每一笔由智能体发起的交易,理论上都要走 AP2 的协议。也因此,谷歌开始提前准备好工具。

目前,AP2 这次 I/O 大会还没正式发布,但 Google 明确说了,接下来几个月里会先在 Gemini Spark 里集成,意思是,到时候,Gemini Spark 替你买东西的时,后台就是 AP2 发挥作用。

再说 MCP。MCP 这件事最有意思,因为 MCP 不是 Google 提出来的,是 Anthropic 在 2024 年 11 月开源的。MCP 全称 Model Context Protocol,是一个让大模型能调用外部工具的标准化接口。Google 这次明确说,Gemini Spark 通过 MCP 接外部工具,首批合作伙伴是 Canva、OpenTable、Instacart。

MCP 解决的是「AI 怎么用工具」,UCP 解决的是「AI 怎么买东西」,AP2 解决的是「AI 怎么付钱」。三层加起来,才是完整的智能体商业基础设施。

最后说 SynthID。SynthID 是 Google DeepMind 三年前推出的内容水印技术,可以在 AI 生成的图像、视频、音频里嵌入肉眼看不见的数字水印。截至这次 I/O,SynthID 已经给超过 1000 亿张图片和视频、6 万年的音频做过水印。

这次 Google I/O 大会上,Sundar 宣布了几个新合作伙伴:OpenAI、Kakao、ElevenLabs 都加入 SynthID。当 AI 生成的内容越来越多,如果没有统一的水印标准,深度伪造、版权纠纷、监管合规都会变成所有 AI 公司共同的麻烦。

SynthID 看起来是技术合作,但它的商业含义不小。一旦 SynthID 成为 AI 内容水印的事实标准,Google 就拿到了 AI 时代「内容可信度基础设施」的话语权。监管要管 AI 生成内容;媒体要验证 AI 内容,企业要做内容合规,Google 都是第一接口。这种话语权,会通过 Google Cloud 的 AI Content Detection API 直接变成企业付费业务。

把这四个协议放在一起看,可以是看到 Google 这次在协议层做的事情非常清楚,UCP 卡电商协议,AP2 卡支付协议,MCP 跟着行业共识走但通过自己的应用层渗透,SynthID 卡内容溯源。如果这四个协议都成事实标准,Google 在 AI 电商时代的地位,大约等于 Visa + Shopify + Google Pay 的合体,再加上一个内容检测中枢。如果生态一旦形成,则是谷歌的 AI 商业化生态里重要的一步拼图。

 

04

比起拼参数,智能体时代拼的是场景理解

把这场 Google I/O 从头到尾看下来,我们发现 Google 这次几乎所有的产品演示,都不是在演示「能力」,而是在演示不同场景下该如何使用智能体。

比如说,我有两只狗叫 Hank 和 Luisa,周四要送狗舍,需要带疫苗记录,AI智能体能够如何帮我;我在组装第一台定制 PC,主板和 CPU 插槽不匹配;我要规划周末家庭活动,要兼顾两个孩子的爱好;我是个高中生,要做一场职业日演讲;我有一笔 1099 收入,要报税;我要给街区办一场聚会,要追踪每家的 RSVP,AI智能体能够如何帮我……这种密度的「具体场景演示」在科技发布会里比较罕见。

这背后是 Google 想清楚的一件事。演示模型能力的时代,卷的是 benchmark;演示智能体场景的时代,卷的是渗透密度。前者比的是模型多强,后者比的是这个产品在你日常生活的多少角落里能派上用场。

Google 这次的选择本身就是个信号,它认为 AI 行业的竞争维度,已经从「谁能做到这件事」切换到了「谁能让用户真的用起来」。所有这些,本质都在回答一个问题:怎么让 AI 真正长进 10 亿用户的日常。

而这个时候,留给创业者犹豫的时间则不多了,模型层的窗口正在快速关闭。Google 都把 Gemini 3.5 Flash 把前沿能力下放到中端价格,这意味着「做一个比别人更强的模型」已经不是模型创业的主方向了,前沿模型这条赛道,留给创业者的空间会越来越小。

在智能体领域,一些通用场景入口也被巨头看上了,通用智能体在常见通用的赛道留给创业者的空间,可能比想象更少。同时,协议层的窗口可能已经接近关闭。如果谷歌的协议推进顺利,UCP、AP2、SynthID 加上 MCP,一旦定型,就是未来十年的事。创业者很难再在通用协议上分到一杯羹。

巨头的优势从来不是「做得更好」,是「做得更全 、 做得更广 、做得更便宜」组合拳。跑不过它的不是因为做得不够好,而是因为创企没赶在它出手前卡好位,找好商业化的价值和壁垒。

毕竟,创新探索新大陆的可能是小公司,但能把大部分人摆渡到新大陆的,大概率还是巨头。

声明:本文转载自极客公园,转载目的在于传递更多信息,并不代表本社区赞同其观点和对其真实性负责,本文只提供参考并不构成任何建议,若有版权等问题,点击这里查看更多信息!本站拥有对此声明的最终解释权。如涉及作品内容、版权和其它问题,请联系我们删除,我方收到通知后第一时间删除内容。

点赞(0) 收藏(0)
0条评论
珍惜第一个评论,它往往能得到较好的回响。
评论
游客
游客
登录后再评论
  • 鸟过留鸣,人过留评。
  • 和谐社区,和谐点评。
最新资讯