news 2026/5/16 18:09:59

英伟达推出开源权重模型填补美国AI市场空白

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
英伟达推出开源权重模型填补美国AI市场空白

对于许多企业来说,AI技术的采用很大程度上依赖于高质量开源权重模型的可用性。将敏感的客户数据或来之不易的知识产权暴露给API以使用ChatGPT等封闭模型是不可接受的。

除了中国AI实验室之外,目前可用的少数开源权重模型与OpenAI或Anthropic等公司的专有模型相比并不占优势。

这不仅是企业采用的问题,也是英伟达智能体AI愿景的障碍,这家GPU巨头急于清除这一障碍。周一,该公司在其武器库中增加了三个自主设计的新开源权重模型。

开源权重模型对英伟达来说并不新鲜——该公司的大部分员工都是软件工程师。然而,其最新一代的Nemotron大语言模型是迄今为止最强大和最开放的。

当这些模型发布时,将提供三种规模:Nano、Super和Ultra,参数量分别约为300亿、1000亿和5000亿。

除了模型权重(将在未来几个月内在Hugging Face等热门AI仓库上推出,本周首先推出Nemotron 3 Nano)之外,英伟达还承诺发布训练数据和用于创建这些模型的强化学习环境,为未来高度定制化的模型版本打开了大门。

这些模型还采用了新颖的"混合潜在专家混合"架构,旨在最小化处理长输入序列时的性能损失,比如摄取大型文档并处理相关查询。

这通过在模型层中结合使用Mamba-2和Transformer架构来实现。Mamba-2在处理长序列时通常比Transformer更高效,从而缩短提示处理时间并提高Token生成速度的一致性。

英伟达表示,它使用Transformer层来保持"精确推理"并防止模型失去相关信息的上下文,这是在摄取长文档或在扩展聊天会话中跟踪细节时的已知挑战。

说到这里,这些模型原生支持一百万Token的上下文窗口——相当于大约3000页双倍行距的文本。

所有这些模型都采用专家混合架构,这意味着对于处理和生成的每个Token,只有总参数数量的一小部分被激活。这减少了对内存子系统的压力,在相同硬件上实现比等效密集模型更快的吞吐量。

例如,Nemotron 3 Nano有300亿个参数,但每生成一个Token只激活30亿个参数。

虽然nano模型采用了与gpt-oss或Qwen3-30B-A3B中看到的相当标准的专家混合架构,但更大的Super和Ultra模型使用英伟达的NVFP4数据类型进行预训练,并使用新的潜在专家混合架构。

正如英伟达解释的那样,使用这种方法,"专家在共享潜在表示上操作,然后输出被投影回Token空间。这种方法允许模型以相同的推理成本调用4倍多的专家,从而在微妙的语义结构、领域抽象或多跳推理模式方面实现更好的专业化。"

最后,这些模型被设计为使用"多Token预测",这是推测解码的一种变体,通过在生成新Token时预测未来Token,可以将推理性能提高多达3倍。推测解码在智能体应用中特别有用,在这些应用中需要重复处理和重新生成大量信息,比如代码助手。

英伟达的300亿参数Nemotron 3 Nano本周发布,设计为在企业硬件(如该供应商的L40S或RTX Pro 6000服务器版)上高效运行。然而,使用模型的4位量化版本,应该可以将其塞入仅有24GB显存的GPU中。

根据Artificial Analysis的数据,该模型提供与gpt-oss-20B或Qwen3 VL 32B和30B-A3B等模型相当的性能,同时为企业提供更大的定制灵活性。

模型定制的常用方法之一是强化学习,它使用户能够通过试错来教授模型新信息或方法,其中理想的结果得到奖励,而不理想的结果受到惩罚。除了新模型之外,英伟达还发布了强化学习数据集和训练环境(称为NeMo Gym),以帮助企业针对其特定应用或智能体工作流程微调模型。

Nemotron 3 Super和Ultra预计将在明年上半年首次亮相。

Q&A

Q1:英伟达Nemotron 3模型有哪些规格?

A:Nemotron 3模型提供三种规格:Nano(300亿参数)、Super(1000亿参数)和Ultra(5000亿参数)。所有模型都支持一百万Token的上下文窗口,相当于约3000页双倍行距文本,并采用专家混合架构来提高处理效率。

Q2:Nemotron 3 Nano的硬件要求是什么?

A:Nemotron 3 Nano设计为在英伟达L40S或RTX Pro 6000服务器版等企业硬件上高效运行。使用4位量化版本的模型,可以在仅有24GB显存的GPU上运行,大大降低了硬件门槛。

Q3:英伟达为什么要发布开源权重模型?

A:英伟达发布开源权重模型主要是为了填补美国AI市场的空白,解决企业不愿将敏感数据暴露给封闭API的问题。这也是推进其智能体AI愿景的重要步骤,为企业提供更大的定制灵活性和数据安全保障。


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/4 21:46:33

53、多线程编程:线程取消、清理与信号处理

多线程编程:线程取消、清理与信号处理 在多线程编程中,线程的取消、清理以及信号处理是非常重要的概念。下面将详细介绍这些内容,包括线程取消框架、线程清理机制以及多线程应用中的信号处理方法,并给出相应的代码示例。 1. 线程取消框架 线程取消是指一个线程请求另一个…

作者头像 李华
网站建设 2026/5/15 14:36:09

Kotaemon快递物流跟踪智能客服升级

Kotaemon快递物流跟踪智能客服升级 在电商与物流深度融合的今天,用户早已不再满足于“输入单号、查看状态”的静态查询模式。他们更希望像和真人客服对话一样,直接问出“为什么三天没更新?”、“能不能改送到楼下驿站?”&#xf…

作者头像 李华
网站建设 2026/5/6 13:13:16

EmotiVoice如何处理长文本输入?性能实测数据

EmotiVoice如何处理长文本输入?性能实测数据 在有声书平台、虚拟主播和智能客服日益普及的今天,用户早已不再满足于“能说话”的语音合成系统。他们期待的是像真人一样富有情感、语调自然、连贯流畅的长篇叙述能力。然而,大多数TTS模型一旦面…

作者头像 李华
网站建设 2026/5/8 6:53:42

EmotiVoice多语言支持情况一览(含中文优化)

EmotiVoice多语言支持情况一览(含中文优化) 在智能语音助手越来越“懂人心”的今天,你是否也曾好奇:为什么有些合成语音听起来像念稿,而另一些却仿佛带着情绪、能打动人?这背后的关键,早已不再是…

作者头像 李华
网站建设 2026/5/11 16:33:22

EmotiVoice开源模型二次开发入门教程

EmotiVoice开源模型二次开发入门指南 在虚拟主播直播带货、AI语音助手深夜陪聊、游戏NPC情绪化对白层出不穷的今天,用户早已不再满足于“能说话”的机械音。他们想要的是有温度、有性格、甚至能共情的声音——一句话说得恰到好处时,可能让人会心一笑&…

作者头像 李华
网站建设 2026/5/16 14:54:06

Kotaemon支持工具调用的完整实现方案

Kotaemon支持工具调用的完整实现方案 在企业级智能系统日益复杂的今天,用户对AI助手的期待早已超越了“能说会道”的范畴。他们希望一个虚拟客服不仅能回答“我的订单到哪了”,还能真正帮他们查订单、发提醒、甚至提交售后请求——换句话说,现…

作者头像 李华