Gemini 3.5来了！今夜，谷歌亲手淘汰谷歌

2026-05-20 发布浏览265次点赞0次收藏0次

【导读】劈柴和Hassabis把半年大招一晚清仓了！Gemini Omni任意输入生成视频，3.5 Flash断层碾压一切，Spark 7×24h云端替你干活。这次，谷歌是要把OpenAI和Anthropic一起给埋了。

谷歌I/O 2026大会，火力全开！

刚刚，劈柴和Demis Hassabis同台登场，把攒了半年的大招一口气全部亮了出来。

没有一丝悬念，今晚最大的主角，Gemini Omni正式亮相！

作为一个真正「全能」的大模型，Omni可以接收任意形式的输入，生成任意内容。

并且首发支持视频输出，堪称「视频版Nano Banana」。

今晚的另一个高潮，属于Gemini 3.5 Flash。

在几乎所有的基准测试中，3.5 Flash都实现了对自家前代旗舰Gemini 3.1 Pro的碾压。

输出速度也直接翻倍，对比GPT-5.5和Opus 4.7更是快了4倍有余。

更强的3.5 Pro，则会在下个月发布。

此外，亮相的还有一大波重磅新品：

· Antigravity 2.0，全新独立桌面应用，从IDE进化为Agent开发平台

· Gemini Spark，个人AI特工，7×24h云端运行

· Gemini App改版，代号Neural Expressive，改为算力计费

· AI Ultra订阅计划新增100美元版本，最高档从250降至200美元

· 谷歌搜索25年最大升级，接入3.5 Flash，新增智能搜索框、自动生成mini应用等

毫不夸张地说，这场I/O的干货密度，堪称历年之最。

Gemini Omni首发

一个「全能」AI诞生了

正如预热视频疯狂暗示的那样，万众期待的Gemini Omni终于来了。

Hassabis亲自登台宣布，「我们正迈出下一个重要的一步——Gemini Omni，这是一个可从任何输入创建内容的全新模型」。

这个排面就说明了一切。谷歌这一次要打造的，是一个「全能」的AI创作引擎。

它把Gemini的智能与最强的生成式AI融为一体，在世界理解、多模态和编辑三个维度上，全部拉满。

直白讲，给到图片、音频、视频、文字的任意组合，它就能生成一段高质量视频。而且，可以用聊天的方式编辑视频。

更关键的，Omni不只是「看起来像」，它真的在理解物理世界。

Hassabis的原话是，以前的系统在模拟重力、动能这些概念时经常翻车，但Omni实现了一个「阶跃变化」。

它把Gemini的「世界知识」和「推理能力」注入进了视频生成。

给它一句prompt「用粘土动画解释蛋白质折叠」，生成的视频里氨基酸链折叠成α螺旋和β折叠的每一步都科学准确，视觉上是精致的定格动画。

又比如为英文26个字母匹配对应物体。

C是水豚（Capybara），D是迪斯科球，L是熔岩灯。Omni不是在拼贴素材，它真的在把语言、图像和语义联结在一起。

不得不说，从逼真到有意义，这一步跨得太大了。

左右滑动查看

在台上，Hassabis掏出一段自拍视频开始现场魔改。手掌上随手画的圈变成了黑洞，傍晚散步的街道变成了赛博朋克场景。

一句话重写画面，一句话改变世界。

任何东西都可以成为创造全新现实的画布。

再比如，自拍掌中玩火，一张纸画了一个圈立即变黑洞，各种脑洞大开玩法都可实现。

而且，这不是一次性生成完事。你可以接着聊。

Gemini Omni输出的视频，角色保持一致，物理逻辑成立，场景记忆连贯。

从一段原始的演奏画面开始。第二轮，「把小提琴手传送到这张图片的环境里」，附一张雪山草地的参考图，场景瞬间切换，动作、光影全部适配新环境。

第三轮，「把镜头切到小提琴手的肩膀后方」，视角旋转，但演奏动作和音乐完全连续。

左右滑动查看

不论场景如何变幻，画面的主体都不会崩坏。

更让人细思极恐的是，Omni的输入灵活性。

图片、文字、视频、音频，任何参考物都可以混合输入，生成一个连贯的输出。

你甚至可以创建自己的Avatar，让AI版的你出现在任何场景中，说你的声音、做你没做过的事。

目前，Omni Flash已正式上线，API版则会在未来几周开放。而更强的Omni Pro也在路上了。

凭借着谷歌强大的整合能力，Omini首发就接入了Gemini App、Google Flow和YouTube Shorts，YouTube Shorts用户甚至可以免费用。

Flash干翻Pro

3.5重写了「旗舰」的定义

Gemini Omni之后，I/O大会本场另一重头戏，就是全新旗舰Gemini 3.5 Flash的发布。

谷歌给它的定义是，迄今为最强的编码、智能体模型。

现场，劈柴亲口宣布，「3.5 Flash在几乎所有基准测试中，全面胜出Gemini 3.1 Pro」！

要注意，3.1 Pro可是谷歌三个月前才推出的旗舰模型，现在，一个Flash级别的模型就把它碾了。

没想到，谷歌竟在如此短时间内，交出了亮眼的成绩单：

Terminal-Bench 2.1（编码）：76.2%
GDPval-AA（真实世界Agent任务）：1656 Elo
MCP Atlas（大规模工具使用）：83.6%
CharXiv Reasoning（多模态理解）：84.2%

以上四大基准测试，相较于Gemini 3.1 Pro，3.5 Flash堪称断层跃迁。

在速度方面，3.5 Flash独占一个象限，289 tokens/秒，比其他前沿模型快4倍还要多。

另外，3.5 Flash在一部分基准测试中，性能媲美，甚至是足以碾压GPT-5.5、Claude Opus 4.7。

不得不说，3.5 Flash又快又强，几乎没有对手。

参数太抽象，不如看看下面这个真实的极限演示。

只需一瞬间，3.5 Flash就能消化一篇天书般的学术论文，并写出一个带有完美交互的可视化网站。

在智能体任务中，通过Antigravity，它可以完成多步工作流，自动对铺屏的资产完成分类和命名。

亦或是，利用两个Agent，在短短六小时内复现了AlphaZero论文，并编写出一款可完整运行的游戏。

93个Agent造出OS，仅12小时

可以看到，3.5 Flash这一切能力的实现，全部是借助全新Antigravity 2.0实现的。

今天，谷歌Agent开发平台Antigravity升级到了2.0，从IDE变成了独立桌面应用，彻底拥抱Agent-first设计。

Varun上台给出一个让全场屏息的Demo。

他让Antigravity搭载3.5 Flash，从零开始构建一个操作系统。

93个子Agent并行工作，发出超15000次模型请求，处理26亿个token，12小时后，一个完全空白的项目变成了功能完整的OS内核。

调度程序、内存管理、文件系统，每一行代码都是Agent写的，Agent测的，Agent审计的。

API费用不到1000美元。

接着，他试着在这个AI写的操作系统上运行DOOM。

第一次尝试失败了，缺少视频和键盘驱动。于是他当场在Antigravity 2.0里输入修复指令，Agent开始自动补写驱动代码。

等了一会儿，DOOM的画面出现在屏幕上，全场沸腾。

总结一下，Antigravity 2.0带来核心升级包括——

子Agent可以动态生成，主Agent把任务拆成子任务分配出去，互不干扰地并行跑；

异步任务管理让长耗时操作不再阻塞主线程；

Scheduled Tasks可设「定时任务」让Agent自动执行，比如每天检查一次PR状态、每小时跑一次健康检查脚本。

新的斜杠命令：/goal让Agent一口气跑完，/grill-me反过来让Agent搞清楚需求再动手，/browser显式控制浏览器使用。

不过，这些都是内部已经跑通的能力。

谷歌内部用Antigravity处理token的速度，3月份是每天5000亿。如今，每天狂飙3万亿。

而且，这个12倍加速版的Flash，今天起在Antigravity里就能用了。

3.5 Flash同时成为Gemini App和Google搜索AI Mode的默认模型，面向全球所有用户。

开发者通过Antigravity 2.0、Gemini API、Google AI Studio调用。企业用户通过Gemini Enterprise Agent Platform接入。

更炸裂的事，3.5 Pro正在内部测试中，下个月发布。

7x24h个人管家

谷歌Spark终于来了

今晚第三大发布，当属于Gemini Spark！

劈柴给它的定位非常明确：你的个人AIAgent。即使合上笔记本电脑，它也不停歇。

它跑在云端的专用虚拟机上，可以实现7x24小时在线。

Gemini Spark由Gemini 3.5+Antigravity框架驱动，深度整合谷歌「办公全家桶」。

产品副总裁Josh Woodward上台演示了两个场景，直接让全场陷入疯狂。

第一个是工作场景，输入一条指令，「帮我起草一封给团队的邮件，汇总过去一周关于Gemini Live发布的所有信息」。

Spark自动跨Gmail、Docs、聊天记录抓取信息，还调用了Woodward自己编写的一个「ghostwriter」技能，让邮件自动匹配他的个人语气。

整个过程在后台完成，人类只需审核和发送。

没错，Spark支持自定义技能（skills），让它学会你的口吻、你的偏好、你的工作方式。

第二个是生活场景，规划一场街区派对。

Spark收到任务后一步步执行。它创建了一个Google Sheets的RSVP追踪表，直接连接Gmail，谁回复了自动更新。

给没报名的邻居，Spark自动起草催促邮件，生成草稿等确认后再发。

然后，它还生成了一个Google Slides的宣传deck，连街区里要放充气城堡的信息都写进去了。

全程没有打开任何一个App。

不仅如此，Spark还具备了强大的语音输入能力。

现场，Woodward掏出手机，直接用语音甩出三个任务：

「找到所有跟Sundar的会议标成亮粉色」「给新邻居John写邀请函加入block party名单」「创建一个文档列出学年结束前要为孩子做的事，按截止日期排序」。

语音直接转成了文字指令，Spark自动把一段连续的语音拆成了三个独立任务线程，在后台并行执行。

定价方面，AI Ultra订阅每月100美元可用Spark Beta。最高级Ultra计划从250美元降到了200美元。

Spark则会在下周率先对美国AI Ultra用户开放Beta版试用。

这一夜，谷歌撕开了ASI入口

回过头看这场I/O，真正让人后背发凉的，不是某一个产品。

是所有能力同时到位。

全模态理解，全模态生成，全天候在线Agent——这三块拼图，谷歌在一夜之间全部拼上了。

Omni把一句话变成一个世界，不需要人类提供任何素材。

93个Agent从零造出操作系统，不需要人类写一行代码。

Spark 7×24小时替你工作，不需要人类打开一个App。

当AI不再需要人类「喂料」，而是自己理解、自己决策、自己执行、自己迭代——这条路的终点，叫ASI。

没有人能给出确切的时间表。但今晚的Google I/O，让所有人意识到一件事：

通往超级智能的路上，已经没有「技术上做不到」这个障碍了。剩下的，只是工程部署的速度。

半年前我们还在争论AGI是不是泡沫。半年后，谷歌已经在用Agent写操作系统了。

这个行业的加速度，已经超出了人类直觉能感知的范围。

参考资料：

https://youtu.be/wYSncx9zLIU

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/

https://antigravity.google/blog/introducing-google-antigravity-2-0

https://antigravity.google/blog/google-io-2026-feature-deep-dive

编辑：桃子摩西

mod 谷歌 GPT 性能 AI创作试用 AI OpenAI AGI 算力大模型 IDE Go 框架测试 Claude models Google

声明：本文转载自新智元，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！

Gemini 3.5来了！今夜，谷歌亲手淘汰谷歌

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。

aizws = AI 中文社

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。 按下 Ctrl+D 或 ⌘+D 收藏本站。

欢迎来到 AI 中文社区（简称 AI 中文社），这里是学习交流 AI 人工智能技术的中文社区。按下 Ctrl+D 或 ⌘+D 收藏本站。