10 万亿 tokens！英伟达贡献全球最大规模开源数据集，并推四大开源 AI 模型

2026-01-06 发布浏览437次点赞0次收藏0次

1 月 6 日消息，在今天举办的 CES 2026 主题演讲中，英伟达首席执行官黄仁勋发表主题演讲，宣布大规模扩展其开源模型库，发布涵盖语言、机器人、自动驾驶及医疗四大领域的全新模型与数据集，进一步加速全行业的 AI 创新。

图源：英伟达博客

英伟达贡献了开源训练框架和全球最大的开放多模态数据集，其中包括 10 万亿个语言训练 tokens、50 万条机器人轨迹、45.5 万个蛋白质结构以及 100TB 的车辆传感器数据，标志着英伟达正全力构建一个涵盖语言处理、机器人技术、科学研究及自动驾驶的开放生态系统。附上相关视频如下：

包括博世（Bosch）、Salesforce、Uber 和帕兰泰尔（Palantir）在内的多家科技巨头目前已利用这些开源技术构建其下一代 AI 系统。

此次发布包括用于智能体 AI 的 Nemotron 系列、针对物理 AI 的 Cosmos 平台、专为自动驾驶研发的 Alpamayo 系列以及生物医疗领域的 Clara 模型。

Nemotron 赋能智能体 AI，语音识别性能提升 10 倍

在智能体 AI 领域，NVIDIA 推出了全新的 Nemotron 系列模型，覆盖语音、检索增强生成（RAG）及安全三大板块。

其中，Nemotron Speech 模型在实时字幕与语音应用中表现出色，基准测试显示其性能比同类模型快 10 倍，博世已采用该模型优化车载语音交互体验。

同时，Nemotron Safety 模型通过增强内容安全检测与敏感数据识别，大幅提升了企业级 AI 应用的信任度，已被 CrowdStrike 和 Fortinet 等安全公司采用。

针对物理 AI（Physical AI），NVIDIA 发布了 Cosmos 世界模型平台，旨在赋予机器人类似人类的推理与世界生成能力。

核心模型 Cosmos Reason 2 显著提升了机器人对物理环境的感知与交互精度，而 Cosmos Transfer 2.5 则能生成大规模合成视频以训练 AI。

基于此平台，NVIDIA 还推出了专为人形机器人设计的 Isaac GR00T N1.6 模型，该模型具备全方位的身体控制与环境推理能力。

Franka Robotics 等公司目前正利用这些工具在虚拟环境中验证机器人行为，随后再将其部署至现实世界。

为攻克自动驾驶难题，NVIDIA 首次推出了 Alpamayo 系列开源资源。其中的 Alpamayo 1 是首个面向自动驾驶的开源大规模推理 VLA（视觉语言动作）模型，它不仅能让车辆理解周围环境，还能解释其驾驶决策。配合开源仿真框架 AlpaSim，开发者可进行闭环训练以应对边缘场景。

此外，NVIDIA 还开源了包含 1700 多小时驾驶数据的物理 AI 数据集，覆盖了极其广泛的地理环境与复杂路况，为高阶自动驾驶研发提供了关键数据支持。

在医疗健康领域，NVIDIA 推出了新的 Clara AI 模型以缩短药物研发周期。La-Proteina 模型支持原子级精度的蛋白质设计，帮助科学家攻克难治疾病；ReaSyn v2 则将制造蓝图融入研发过程，确保设计出的药物具备可合成性。

此外，KERMT 模型能在研发早期预测药物与人体的相互作用，从而提升安全性。结合新发布的 45.5 万个合成蛋白质结构数据集，这些工具将有效降低医疗创新的门槛与成本。

英伟达 CES2026 人形机器测试框架性能人形机器人 AI 黄仁勋体验 4

声明：本文转载自IT 之家，转载目的在于传递更多信息，并不代表本社区赞同其观点和对其真实性负责，本文只提供参考并不构成任何建议，若有版权等问题，点击这里查看更多信息！