NVIDIA Nemotron-3-Nano：30B混合专家推理模型发布-开发者社区

NVIDIA Nemotron-3-Nano：30B混合专家推理模型发布

【免费下载链接】NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4项目地址: https://ai.gitcode.com/hf_mirrors/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4

导语

NVIDIA正式发布Nemotron-3-Nano-30B-A3B-NVFP4大语言模型，这是一款采用混合专家架构的高效能推理模型，通过创新的量化技术和架构设计，在保持30B总参数规模的同时实现了3.5B活跃参数的高效推理，为企业级AI应用提供了兼顾性能与成本的新选择。

行业现状

当前大语言模型领域正面临"规模与效率"的双重挑战。一方面，模型参数规模持续扩大以提升能力，另一方面，企业对部署成本和实时响应的要求日益严苛。据行业研究显示，2025年企业级AI部署中，推理成本已占总拥有成本(TCO)的65%以上，成为制约大模型普及的关键瓶颈。混合专家(MoE)架构和量化技术成为解决这一矛盾的主要技术路径，其中4-bit量化模型的部署量在过去一年增长了300%。

产品/模型亮点

创新混合架构设计

Nemotron-3-Nano采用Mamba2-Transformer混合专家架构，包含23个Mamba-2层、23个混合专家层和6个注意力层。每个MoE层配备128个专家和1个共享专家，每token激活6个专家，实现了30B总参数与3.5B活跃参数的高效平衡。这种设计使模型在保持大模型能力的同时，显著降低了计算资源需求。

先进量化技术实现效率突破

该模型采用NVIDIA专有的NVFP4量化格式，配合FP8 KV缓存，在Post-Training Quantization(PTQ)基础上应用Quantization-Aware Distillation(QAD)技术，实现了精度恢复。与BF16版本相比，NVFP4版本在MMLU-Pro等关键基准上仅损失0.9个百分点，却带来了推理效率的显著提升，特别适合资源受限环境部署。

多任务统一推理能力

模型支持"推理追踪生成"模式，可先产生中间推理步骤再输出最终答案，这种设计在复杂任务上表现更优。开发者可通过聊天模板标志控制是否启用推理追踪，在精度与速度间灵活权衡。测试显示，启用推理追踪时，AIME25(无工具)任务准确率可达86.7%，展现出强大的复杂问题解决能力。

广泛的语言与场景支持

模型原生支持英语、西班牙语、法语、德语、日语和意大利语六种语言，并针对代码生成进行了优化。其100万token的超长上下文窗口，使其能处理书籍、代码库等大型文档，适用于RAG系统、AI助手、代码生成等多种企业应用场景。

行业影响

降低企业AI部署门槛

Nemotron-3-Nano的推出，使中小企业也能负担得起高性能大模型的部署。通过vLLM、TRT-LLM等优化推理引擎，该模型可在单张NVIDIA H100或A100 GPU上高效运行，相比同等能力的稠密模型，硬件投入降低60%以上。

推动边缘AI应用发展

模型对Jetson Thor等边缘设备的支持，为制造业质检、智能零售、医疗辅助诊断等边缘场景带来了强大的AI能力。其优化的推理效率使边缘设备也能运行30B规模的模型，拓展了AI应用的边界。

开源生态促进创新

作为NVIDIA Nemotron开放模型家族的一员，该模型采用NVIDIA Open Model License许可，开放训练数据和训练配方。开发者可基于此模型进行二次开发，加速行业定制化模型的落地。配套的NeMo框架和评估工具链，进一步降低了模型调优和部署的难度。

结论/前瞻

Nemotron-3-Nano的发布标志着大语言模型在效率优化方面的重要突破。通过混合专家架构与先进量化技术的结合，NVIDIA为行业提供了一个兼顾性能、成本和部署灵活性的解决方案。随着企业对AI效率要求的不断提高，这种"小而精"的模型设计思路将成为未来发展的重要方向。

展望未来，我们可以期待更多结合Mamba等新型架构与MoE技术的创新模型出现，进一步推动大语言模型在边缘设备和企业级应用中的普及。同时，开放的模型生态将促进学术界和工业界的协作，加速AI技术的创新与落地。

【免费下载链接】NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4项目地址: https://ai.gitcode.com/hf_mirrors/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-NVFP4

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

Web应用内存优化实战指南：从问题诊断到性能提升

Web应用内存优化实战指南：从问题诊断到性能提升【免费下载链接】twenty 构建一个由社区驱动的Salesforce的现代替代品。项目地址: https://gitcode.com/GitHub_Trending/tw/twenty Web应用的性能直接影响用户体验和业务转化，而内存优化是提升We…

李华

FASHN VTON v1.5：革命性无蒙版AI虚拟试衣体验

FASHN VTON v1.5：革命性无蒙版AI虚拟试衣体验【免费下载链接】fashn-vton-1.5 项目地址: https://ai.gitcode.com/hf_mirrors/fashn-ai/fashn-vton-1.5 导语：FASHN VTON v1.5正式发布，这款基于MMDiT架构的AI虚拟试衣模型凭借无需分割…

李华

从零开始掌握IP地理信息查询工具：全方位跨平台部署攻略

从零开始掌握IP地理信息查询工具：全方位跨平台部署攻略【免费下载链接】nali An offline tool for querying IP geographic information and CDN provider. 一个查询IP地理信息和CDN服务提供商的离线终端工具. 项目地址: https://gitcode.com/gh_mirrors/na/nali…

李华

Odin Inspector完全指南：提升Unity开发效率的5个关键方法

Odin Inspector完全指南：提升Unity开发效率的5个关键方法【免费下载链接】Odin-Inspector-Chinese-Tutorial 中文教程项目地址: https://gitcode.com/gh_mirrors/od/Odin-Inspector-Chinese-Tutorial Odin Inspector是Unity生态中一款专业的编辑器扩展工具…

李华

NVIDIA Nemotron-3-Nano：30B混合专家推理模型发布