【AI炸场】老黄CES 2026全栈AI出击！Rubin架构+开源模型，大模型开发迎来新革命！-开发者社区

刚刚，英伟达CEO黄仁勋穿着鳄鱼皮夹克，在全球最大消费电子展CES 2026上发布AI新品。

这是五年来，英伟达首次来到CES却没有发游戏显卡，态度很明确：

全力搞AI。

全力搞出来的结果也让围观群众直呼：竞争对手如何追上英伟达？

下一代Rubin架构GPU推理、训练性能分别是Blackwell GB200的5倍和3.5倍（NVFP4数据格式）。

除此之外，老黄还带来了五大领域的全新发布，包括：

面向Agentic AI的NVIDIA Nemotron模型家族
面向物理AI的NVIDIA Cosmos平台
面向自动驾驶开发的全新NVIDIA Alpamayo模型家族
面向机器人领域的NVIDIA Isaac GR00T
面向生物医学的NVIDIA Clara

同时，英伟达宣布持续向社区开源训练框架以及多模态数据集。其中数据集包括10万亿语言训练token、50万条机器人轨迹数据、45.5万个蛋白质结构、100TB车辆传感器数据。

这次的核心主题，直指物理AI。

用网友的话来说：

这是英伟达将护城河从芯片层进一步拓展到全栈平台层（模型+数据+工具）的体现，通过这种方式可以持续拉动更多GPU与基础设施投入，并显著增强用户与生态的锁定。

值得一提的是，咱国产开源模型又双叒被cue到了。

老黄在演讲开篇便提及了DeepSeek，Kimi K2、Qwen也出现在PPT展示页上。

正式推出Vera Rubin NVL72

老黄正式推出英伟达下一代AI数据中心的机柜架构Vera Rubin，披露架构细节。

六大核心组件共同构成Vera Rubin NVL72机架：

Vera CPU、Rubin GPU、NVLink 6 switch、ConnectX-9 SuperNIC、BlueField-4数据处理单元（DPU）、Spectrum-6 Ethernet switch。

在NVFP4数据类型下，Rubin GPU推理性能可达50 PFLOPS，是Blackwell GB200的5倍；NVFP4训练性能为35 PFLOPS，是Blackwell的3.5 倍。

为支撑这些计算能力，每颗Rubin GPU封装了8组HBM4内存，提供288GB容量和22 TB/s的带宽。

随着主流大模型转向MoE架构，模型得以相对高效地进行规模扩展。然而，这些专家模块之间的通信，对节点间带宽提出了极高要求。

Vera Rubin引入了用于规模内扩展网络的NVLink 6。

它将单GPU的互连带宽提升至3.6 TB/s（双向）。每颗NVLink 6交换芯片提供28 TB/s的带宽，而每个Vera Rubin NVL72机架配备9颗这样的交换芯片，总规模内带宽达到260 TB/s。

NVIDIA Vera CPU集成了88个定制的Olympus Arm核心，采用英伟达称为“spatial multi-threading”设计，最多可同时运行176个线程。

用于将Vera CPU与Rubin GPU进行一致性连接的NVLink C2C互连，其带宽提升了一倍，达到1.8 TB/s。每颗Vera CPU可寻址最多1.5 TB的SOCAMM LPDDR5X内存，内存带宽最高可达1.2 TB/s。

为将Vera Rubin NVL72机架扩展为每组8个机架的DGX SuperPod，英伟达推出了一对采用共封装光学（CPO）的Spectrum-X以太网交换机，均基于Spectrum-6芯片构建。

每颗Spectrum-6芯片提供102.4 Tb/s的带宽，英伟达基于该芯片推出了两款交换机。

SN688提供409.6 Tb/s的总带宽，支持512个800G以太网端口或2048个200G端口。

SN6810则提供102.4 Tb/s的带宽，可配置为128 个800G或512个200G以太网端口。

这两款交换机均采用液冷设计，英伟达表示，与不具备硅光子技术的硬件相比，它们在能效、可靠性和运行时间方面表现更优。

随着上下文窗口扩展到数百万token，英伟达还指出，存储AI模型交互历史的键值缓存（KV cache）相关操作，已成为推理性能的瓶颈。

此前黄仁勋曾表态：没有HBM，就没有AI超算。

为突破这一限制，英伟达推出新硬件BlueField-4 DPU，构建了一个新的内存层级，称为推理上下文内存存储平台（Inference Context Memory Storage Platform）。

英伟达表示，这一存储层旨在实现键值缓存数据在AI基础设施中的高效共享与复用，从而提升系统响应速度和吞吐能力，并实现Agentic AI架构可预测、能效友好的规模扩展。

这是Vera Rubin首次将英伟达的可信执行环境扩展至整个机架级别。

整体来看，每个Vera Rubin NVL72机架可提供：

3.6 exaFLOPS的NVFP4推理性能
2.5 exaFLOPS的NVFP4训练性能
54 TB的LPDDR5X内存（连接至Vera CPU）
20.7 TB的HBM4内存，带宽达1.6 PB/s

为保障机架系统的持续高效运行，英伟达在机架层面引入了多项改进，包括无缆化模块托盘设计，使组件更换速度显著快于此前的NVL72机架；增强的NVLink弹性能力，实现零停机维护；以及第二代RAS引擎，可在不中断服务的情况下完成健康检测。

另外，英伟达表示，与Blackwell相比，Vera Rubin在训练MoE模型时所需的GPU数量仅为四分之一；在MoE推理场景下，其每token成本最高可降低10倍。
反过来看，这也意味着Rubin能在相同机架空间内，大幅提升训练吞吐量，并生成远多于以往的token数量。

据介绍，目前用于构建Vera Rubin NVL72所需的六类芯片已全部从晶圆厂交付，英伟达预计将在2026年下半年启动Vera Rubin NVL72的规模化量产。

自动驾驶全新开源模型系列发布

再来看英伟达重磅推出的全新开源模型系列——Alpamayo，面向安全推理的自动驾驶。

全球首款开源、大规模的自动驾驶视觉-语言-行动（VLA）推理模型Alpamayo 1，参数100亿。

它能够让自动驾驶车辆理解周围环境，并对自身的决策行为做出解释。

模型接收车辆自身的运动历史数据、多摄像头采集的实时视频画面、用户指令三类输入信息，然后进行推理，之后生成具体的驾驶决策、因果推理结果、规划出的行驶轨迹。

配套推出的还有一款开源仿真框架——AlpacaSim。

它支持在各种不同的环境与边缘场景中，对基于推理的自动驾驶模型进行闭环训练与评估。

此外，英伟达还发布了一个包含1700小时驾驶数据的开源数据集。这些数据采集于全球最广泛的地理区域与环境条件下，涵盖了推进推理架构发展所必需的罕见及复杂真实边缘场景。

落地方面，据介绍，Alpamayo将率先搭载于2025年第二季度欧洲上市的梅赛德斯-奔驰CLA车型，后续将通过OTA升级逐步推送高速公路脱手驾驶、城市全场景自动驾驶、端到端自动泊车等功能，并计划登陆美国市场。

英伟达基于自身技术构建的全球L4级自动驾驶与Robotaxi生态系统全景也亮相了，通过连接软件开发商、整车厂/出行平台、硬件供应商，覆盖全产业链。

Nemotron再推专项模型

NVIDIA Nemotron在AI智能体领域的新拓展，核心是在已发布的Nemotron 3开放模型与数据基础上，进一步推出针对语音、RAG以及安全三大场景的专项模型。

其中，Nemotron Speech包含新的自动语音识别（ASR）模型，不仅语音识别性能强，而且能支持实时字幕生成这样的实时低延迟场景，速度比同类模型快10倍。

英伟达表示，目前博世已采用该模型实现司机与车辆之间的交互。

Nemotron RAG则搭载新的视觉语言模型，能精准处理多语言、多模态数据，有效提升文档搜索效率。

Nemotron Safety系列模型专注于增强AI应用的安全性与可信度，具体包括支持更多语言的Llama Nemotron内容安全模型，以及高精度检测敏感数据的Nemotron PII模型。

机器人推理大脑Cosmos升级

活动现场，老黄宣布英伟达为机器人推出的懂推理的“大脑”Cosmos再度升级。

Cosmos主要被用来生成符合现实世界物理规律的合成数据，自发布以来，已被Figure、Agility Robotics、通用汽车等一众知名机器人和自动驾驶公司采用。

这次全新发布了：

Cosmos Reason 2：一款全新的、排名领先的视觉-语言推理模型（VLM）。它能够帮助机器人与AI智能体更精准地感知、理解并与物理世界进行交互。
Cosmos Transfer 2.5与Cosmos Predict 2.5：两款领先的模型，可在各种不同的环境与条件下，生成大规模的合成视频。

英伟达还基于Cosmos模型，为各类物理AI应用推出了专用的开源模型与参考蓝图：

Isaac GR00T N1.6：一款专为类人机器人打造的开源视觉-语言-行动（VLA）推理模型。它支持机器人的全身控制，并集成了英伟达Cosmos Reason模型，以实现更强大的推理能力与上下文理解能力。
NVIDIA AI Blueprint for Video Search and Summarization：作为英伟达Metropolis平台的一部分，该蓝图提供了一套参考工作流，可用于构建视觉AI智能体。这些智能体能够分析大量的录播及直播视频，从而提升运营效率并保障公共安全。

据了解，Salesforce、Milestone、Hitachi、Uber、VAST Data、Encord等企业正采用Cosmos Reason模型，开发面向交通与职场生产力提升的AI智能体。Franka Robotics、Humanoid和NEURA Robotics则利用Isaac GR00T模型，在机器人大规模量产前，对其全新行为进行仿真、训练与验证。

针对医疗健康与生命科学的AI

NVIDIA Clara是专门针对医疗健康与生命科学领域的AI技术工具。

核心目标是降低行业成本、加速治疗方案落地，打通数字科研与实际医疗应用之间的壁垒。

该系列中的多款专项模型各有侧重：

La-Proteina能设计原子级精度的大型蛋白质；
ReaSyn v2在药物发现阶段就开始考虑“如何生产”的问题；
KERMT可以预测潜在药物进入人体后的反应，提前排查安全问题；
RNAPro用来预测RNA分子复杂的3D结构，推进个性化医疗方案。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

震惊！2025年AI编程开发大变局：Claude逆袭ChatGPT，太空数据中心成真，小白程序员如何抓住“模型套利“风口？