NVIDIA DGX Spark实现本地千亿级参数模型推理-开发者社区

作者：毛烁

前几天，我们在开箱NVIDIA DGX Spark的文章中给出了一个论断，在如今大模型爆发的时代，每个人都应该拥有一台属于自己的AI超算。

从工程实践角度出发，云端算力虽然强大，但其短板同样明显。

具体而言，首先是网络问题。由于云端高度依赖网络传输，在交互过程中，如果有网络时延，最终将影响整体效率；接下来是数据问题，无论处理的是企业数据、个人隐私，还是尚未公开的业务素材，合规性和安全成本。紧接着是经济账，云端算力按时计费的模式或导致用户不断消耗资源，尤其是用户高频次使用模型时，难以保持稳定。

所以，对于NVIDIA DGX Spark这类桌面级超算而言，把算力与数据都留在身边，让开发与验证在本地形成闭环，往往才是效率、合规与成本三者的更优解。

硬件提供了强大的算力基础，而系统则赋予了这台机器真正的灵魂。

NVIDIA为NVIDIA DGX Spark定制了DGX OS，一款基于Ubuntu深度优化的系统。桌面预装的DGX Spark Resources类似工具箱，把NVIDIA面向不同场景的能力集中提供——从大模型推理到多模态训练，从代码生成到数据科学，都能通过对应的NIM微服务快速启用，真正做到了开箱即用。

对用户来说，直接的体验就是少走配置路，软硬一体的交付方式，可以让用户把注意力放在生产力上。

我们直接在DGX Spark Resources中选择了Isaac Sim，并在本地部署运行了这款基于NVIDIA Omniverse的机器人仿真平台，整体部署过程非常顺滑，仿真交互与场景加载展现出了极高的流畅度。Isaac Sim对硬件的要求较高且特殊。不仅需要Tensor Core支撑AI相关推理，也需要RT Core支撑光线追踪渲染；同时，物理仿真/解算也依赖其GPU计算能力（CUDA/PhysX路径）。

NVIDIA DGX Spark的流畅表现，验证了其高性能推理引擎的性能，更体现了系统层对“计算-图形-物理”混合模态负载的深度优化。这一软硬耦合的极致调教，也正是其实现真正“开箱即用”的坚实底座。

01 统一内存+片上协同将“4路32B”本地推理拉入“稳态区间”

开箱即用解决的是部署门槛，能否在日常高频任务中提供稳定、可预测的吞吐与延迟，还需要通过实测给出答案。

为了测试NVIDIA DGX Spark在更贴近日常的常规应用场景表现，我们首先选择了当前开源社区活跃度极高的主流中等参数模型Qwen3-32B（320亿参数）。

在本地单一模型推理测试中，NVIDIA DGX Spark整次推理任务的总耗时为约60.97秒。其中，模型加载时长约3秒，这意味着在常驻模型或长时间运行场景下，启动的开销对整体体验影响极小。

在生成阶段，NVIDIA DGX Spark生成520token，耗时约60.69秒，对应的实际生成速率为8.57 tokens/s。这一数值意味着在本地部署的中等参数规模（32B）模型下，DGX Spark 的推理性能已经进入“稳态区间”，不会因短时波动而出现明显抖动。

从体验层面来看，8.57token/s的推理速度恰好处在“人类阅读与交互的舒适区”。无论是代码补全，还是实时对话式交互，这一速度都完全可用，交互延迟不会构成明显干扰。

在评估一台桌面级AI超算的真实能力时，单路推理的测试并不足完全说明问题，更关键的是其在多任务并行条件下的表现。毕竟，在实际工作中，一台本地超算往往同时承担多项任务。

于是，在NVIDIA DGX Spark上，我们进行了4个Qwen3-32B模型的本地并发推理测试。结果显示：模型平均加载时长约5.7秒；提示词阶段单路平均处理时长0.2775秒，对应约60.1 tokens/s的平均处理速率；在生成阶段，平均生成时长约62.6秒，生成速率平均稳定在7.5 tokens/s。

数据上看，在4个 Qwen3-32B模型持续生成文本的条件下，各项指标没有出现明显波动，整体推理过程节奏平稳，这也证明了NVIDIA DGX Spark在中等模型的本地并行推理场景中，能够提供稳定、持续且高度可预测的性能输出。

这一结果首先得益于其128GB LPDDR5x统一内存架构。在4并发场景中，32B参数规模模型的权重、上下文缓存与中间数据均可完整“常驻”于同一物理内存池，避免了多实例运行时常见的显存切分和数据搬运问题。配合256-bit接口与273 GB/s的内存带宽，系统能够在多路生成同时进行时，持续向GPU提供稳定的数据吞吐，这是保障生成速率的关键基础。

另一方面，GB10 Grace Blackwell Superchip（后文简称“GB10”）的片上协同设计放大了并发优势。20核的Grace CPU负责提示词预处理、请求调度与系统协同，而Blackwell架构GPU则专注于大规模矩阵计算。两者通过NVLink-C2C建立高带宽、低时延互连，使多路请求在进入GPU推理阶段时的数据交付成本显著降低，从而避免“CPU–GPU”数据交付在并发条件下成为瓶颈，继而让提示词响应能够维持稳定而高效的处理节奏。

生成阶段的稳定表现，也体现出第五代Tensor Core在并发推理中的多流、多批次计算中保持的高效算子执行密度。GPU能在同时处理多路推理负载时，算子执行与内存访问保持良好平衡，使性能曲线呈现出平滑的线性分布。

02 原生推理加速让NVIDIA DGX Spark跑起千亿参数模型

32B的模型并不是“终点”。在真实应用中，随着模型逐步向更长上下文、更强推理能力演进，开发者同样关心的，是一台桌面级AI超算在更大参数规模下是否依然具备可用性与工程价值。

所以，我们加测了一个项目，将测试负载提升到了千亿参数级别，利用120B（1200亿）参数的GPT-oss进一步检验DGX Spark在大模型本地化推理场景中的能力边界。

从整体测试结果上看，模型加载时长为12秒，即便面对千亿级以上参数规模，启动开销依旧维持在极低水平，这使得大模型以常驻方式运行成为现实可行的选择。提示词输入74token，处理耗时32.06毫秒，这一阶段几乎不构成可感知的延迟。

真正拉开差距的，是生成阶段。本次测试共生成165token，耗时约4.66 秒，对应的实际生成速率达到35.41tokens/s。对于一款在本地运行的120B级模型而言，这已经不只是“可用”，而是足以支撑连续对话、复杂推理乃至交互式应用的实时响应。

整体来看，测试的结果不仅意味着DGX Spark能“装下”千亿级的模型，更能够在实际推理过程中提供高频、低延迟的输出能力。如果放在传统工作站上，这样的效果几乎难以实现。

传统工作站往往依赖系统内存进行“显存交换”，模型参数部分驻留在GPU显存，另一部分滞留在CPU内存中，推理过程中通过PCIe总线不断搬运数据。这种模式下，加载时间与推理延迟都会被显著放大。

而DGX Spark得益于其128GB的统一内存，可以将整个模型一次性完整加载进同一可寻址的内存空间，不需要任何形式的显存交换。这一点在两个关键指标上被明显放大——加载时间和推理速度。

值得注意的是，在不同参数规模的测试中，出现了颇具“反直觉”意味的现象。120B参数GPT-oss的推理速度为35tokens/s，显著快于32B参数Qwen3的8.57 tokens/s。

一般而言，模型参数规模越大，推理速度理应越慢。但这一结果，恰恰体现出Blackwell架构与GB10芯片的优势所在。

一方面，是对FP4（4-bit Floating Point）的原生支持与加速GPT-oss-120b使用MXFP4 量化（主要针对MoE权重），而Blackwell架构的Tensor Core原生支持FP4数据格式的计算指令与执行路径，使该精度推理在硬件层面可获得更高的执行吞吐，从而带来显著的推理加速效果。

另一方面，是MoE（混合专家）架构带来的潜在加成。在单次推理过程中，真正被激活并参与计算的参数量，事实上低于理论参数。当FP4精度下的高吞吐计算路径与MoE 的“按需激活”机制叠加时，参数规模与实际计算负载之间的解耦则被进一步放大。

这一原因，或许也预示着，硬件的迭代升级，需要与模型和推理范式同步演进，才能真正转化为可感知的性能跃迁。

而事实上，DGX Spark的意义之一，也正在于此。其实质性地打破了两个长期存在的经验桎梏。——一是“千亿参数模型必须上云”；二是“本地运行大规模参数模型须依赖多卡集群”。

03 跨越“基础生图”到“8K负载” NVIDIA DGX Spark“零降频”

当AI创作走向真实的生产应用场景，核心问题就已经不再是模型能否跑起来，而是不同模态的模型，能否被连续、稳定地串联进同一条“生产管线”。

文本、图像、视频、3D，跨越每个模态，算力形态、显存占用与带宽压力都会发生质变。所以，我们在NVIDIA DGX Spark上搭建并运行完整的多模态创作蓝图（BluePrint）——以FLUX.1为起点完成文本到1080p图像生成，经由超分模型将分辨率暴力拉升至8K，随后接入阿里通义Wan 2.1实现图生视频，再利用腾讯混元3D模型完成二维到三维的维度升级，最终落地Blender进行工业级精修。

从FLUX文生图开始，我们选择在ComfyUI中直接加载标准的FLUX工作流，通过模型加载、提示词输入、分辨率设定、采样器选择、解码与输出的步骤，完整复现普通创作者最常见的生图路径。

运行工作流，生成在1080P分辨率图片时，从设备内存占用看，NVIDIADGX Spark的显存占用大约维持在一半左右，负载曲线平稳，没有明显的峰值抖动。单张图片生成时间为1分27秒。在FLUX当前的模型体量和计算复杂度下，这已经是相当“顺滑”的体验，更重要的是，全程没有出现任何需要人为干预的异常状态。

真正的考验来自8K分辨率。

8K（7680×4320）并不是简单的分辨率翻倍，其像素规模会直接跃升至4K分辨率的四倍，对显存能力、带宽，以及硬件能力提出了同步、全面的压力。

在不改变工作流结构的前提下，直接切换至8K超分工作流后，NVIDIA DGX Spark在1分30秒就完成了8K图像的生成。在放大查看细节时可以清晰看到，无论是人物皮肤纹理，还是复杂材质的层次过渡，都没有出现糊边、断层或噪点堆积。

从架构层面回看，NVIDIA DGX Spark在8K生图上取得优质表现的原因，在于其大容量、高带宽的LPDDR5X统一内存，使得Diffusion在超大分辨率下产生的中间特征图得以完整驻留。

同时，其GB10芯片的Blackwell架构针对Diffusion与Transformer路径有深度优化的Transformer Engine，通过混合精度与算子级调度优化，使Attention在超大分辨率场景下的实际性能曲线显著趋于平滑，避免了传统架构中随分辨率提升而出现的非线性性能坍塌。

04 时空“双重奏” NVIDIA DGX Spark让视频不崩、3D不破

完成图片生成后，下一步就是让画面动起来。

在这一阶段，利用阿里通义万相Wan2.2图生视频模型，直接将前一阶段生成的8K静态图作为输入，验证其在高信息密度素材下的时序生成稳定性。整体工作流依然保持常规配置，并将输出分辨率设定为1280×720，以模拟现实创作中较为常见的视频生成需求。

与静态图像不同，这一阶段的计算模式已经从单帧扩散，转变为多帧时序Transformer 与Diffusion叠加的混合负载。在实测过程中可以看到，NVIDIADGX Spark的显存占用始终维持在高度可控的区间内，没有出现视频生成模型中常见的“前期平稳、后期突刺”的负载特征。最终完整生成耗时8分40秒。

从结果来看，生成视频的动作衔接自然，镜头运动连续平滑，没有明显的帧间结构性失真。这种稳定性，取决于NVIDIADGX Spark在长时间连续推理过程中的带宽一致性与算子调度能力。

从架构视角看，由于Wan2.2作为引入了复杂时空注意力机制（Spatio-Temporal Attention）的混合负载，本质上是对显存热稳定性与持续带宽输出能力要求较高。在接近9分钟的持续高负载运行中，始终保持“零降频”的状态，同时显存占用曲线平滑。这也意味着NVIDIADGX Spark在处理长序列KV Cache时具备充足的热设计功耗（TDP）冗余度。

这一结果也进一步印证，NVIDIA DGX Spark能够成功将算力转化为生产环境下可持续输出的有效算力，从而避免因硬件热节流（Thermal Throttling）导致的帧间时序一致性崩塌——这正是多模态任务中容易被忽视但却“致命”的稳定性底线。

如果说图生视频是负载升级，那2D图像3D化则是维度跃迁。

这一阶段，利用NVIDIA DGX Spark运行腾讯混元3D 2.1模型，直接将已有图片3D化。实测结果显示，NVIDIADGX Spark用时53秒完成完整的图片3D化生成流程。

对生成的3D化模型进行预览时，从结构完整性来看，3D模型没有出现大面积破面或明显的比例失衡，整体几何关系保持稳定。

从推理特性上看，这类图像3D化呈现出不同的负载形态。计算密度较高，但持续时间相对较短，这对GPU的瞬时吞吐能力、内存访问效率，以及算子调度响应速度都非常敏感。

从工程角度看，3D建模本质上是围绕瞬时算力释放能力与内存系统协同效率展开的“闪电战”。模型需要在多视角Diffusion推理与稀疏几何重建（Sparse Geometry Reconstruction）等不同计算阶段之间频繁切换。而NVIDIADGX Spark能在53 秒内完成该过程，则在于其本身高带宽内存支持下，对算子调度、缓存命中与计算并行性的整体优化，有效降低了阶段切换带来的隐性开销。

这种“干脆”的体验，意味着NVIDIADGX Spark不仅擅长承载长序列、高吞吐的持续负载，在面对计算密度极高、对调度与内存系统高度敏感的“脉冲式推理任务”时，其执行效率同样能够保持在高度可预测的工业级水准。

05 写在最后

在本地推理测试中，NVIDIADGX Spark的128GB统一内存与Blackwell架构FP4加速的“组合技”之下，让开发者可以在桌面尺度上，以35 tokens/s 的速度流畅运行千亿级别的开源模型。这种体验，曾经只存在于数据中心环境。

这背后，或许也是NVIDIA在Post-Training时代将数据中心级推理能力，系统性地延伸到个人计算平台之上的深刻布局。

从多模态创作蓝图（BluePrint）结果上看，NVIDIA DGX Spark的核心优势，在于多分级的BluePrint能够在一台桌面级设备上稳定运行。其GB10的Blackwell架构针对Diffusion与Transformer的硬件级加速，也使显存容量、算力密度与调度效率达成了良好平衡。这对于AI艺术家、游戏开发者、视频创作者、3D设计师等从业者而言，意味着他们可以在不同模态间频繁切换，无需分心管理算力。

NVIDIA DGX Spark的发售也预示着“云端算力本地化”的最后一块拼图基本落定。通过高能效比与统一内存体系，有效打破了以往传统工作站显存碎片化导致的“算力孤岛”，将分散在集群中的异构计算负载无缝折叠到一台桌面设备中，实现了全链路推理对云端 I/O 延迟的独立性。这一优势，也为创作者带来了真正的“计算主权”。

从生产力视角审视，NVIDIA DGX Spark的推出，也意味着AI生产力从“租赁制”向“内生化”迁移的拐点。

一方面，其彻底消弭了云端不可避免的网络抖动与TTFT（首字延迟），让交互进入了真正的“零感”时代。NVIDIA DGX Spark毫秒级的响应，决定了AI还能是与用户思维同频、甚至预判意图的实时Copilot。

更关键的变革在于“Agent 经济学”的逻辑重构。‌Agentic AI的演进之下，由无数Agent 组成的自主循环（Loop），需要在智能系统内部进行“推理-反思-搜索-修正”的上百次迭代。在云端上，这是价格昂贵的Token；而在 DGX Spark上，这是固定成本下的强大算力。128GB的统一内存为超长Context Window（上下文窗口）和庞大的本地知识库（RAG）提供了物理载体，让开发者可以零边际成本地跑通复杂的思维链（CoT），在本地建立起自动化的生产闭环。

另外，真正的专业壁垒往往隐藏在私密数据中，云端模型永远通用，而个人超算允许用户在本地利用LoRA等技术对千亿级参数模型进行深度微调。用户可以让模型完全适应自有的代码规范、画风、文法，打造真正懂人、且完全忠诚于个人的电子替身。

或许，NVIDIA DGX Spark的推出，也是一种新的生产资料形态的转化，其让个人用户首次在本地掌握接近数据中心级别的AI能力，能把“想法”稳定、高效地转化为“可交付成果”。

而在这个能够本地掌握AI生产力的拐点之上，每个人，都应该拥有一台属于自己的AI超算。

NVIDIA DGX Spark实现本地千亿级参数模型推理

ClickHouse 分片集群备份一致性分析文档

实体商家免费入驻家家有平台，成为联盟商家超详细教程！

ACPI!PciConfigSpaceHandlerWorker函数中的hal!HalGetBusDataByOffset----重要

【亚太杯数学建模一等奖又又拿下】

材料中心物流信息管理系统的设计与实现

网络基础概念