统一内存架构AI桌面小主机GB10【实测】-开发者社区

1.AI小主机硬件情况

测试的AI小主机为国产厂商单台设备，同DGX Spark

统一内存：128GB

CPU:

GPU:

2.vllm版本

vllm容器镜像版本为0.20，旧版本对nvfp4的支持不好，显存使用率0.85，上下文256K

3.模型生成速率情况

拉取modescope模型

模型生成速率（tokens/s--t/s，截图依次如下）：

qwen3.5:27b 4t/s

qwen3.5:27b-int4 8t/s

qwen3.5-122b-a10b-int4 14.5t/s

qwen3.5-35b-a3b-int4 32t/s

qwen3.5-122b-a10b-nvfp4 31t/s

qwen3.6-35b-A3b-fp8 51t/s

qwen3.5:27b

qwen3.5:27b-int4

qwen3.5-122b-a10b-int4

qwen3.5-35b-a3b-int4

qwen3.5-122b-a10b-nvfp4

qwen3.6-35b-A3b-fp8

4.模型并发情况

主要测试了生成速率30tokens/s以上的，用户体验较好，vllm各项性能显著优于ollama，但ollama更易用。

并发测试采用了下述链接方案（参数默认，容器化部署）：

https://github.com/lework/llm-benchmark

qwen3.5-35b-a3b-int4

qwen3.5-122b-a10b-int4

qwen3.6-35b-A3b-fp8

以上对迷你AI桌面工作站的简要测试，如有不妥请批评指正！

qmcdump终极指南：快速解锁QQ音乐加密文件的完整解决方案

qmcdump终极指南：快速解锁QQ音乐加密文件的完整解决方案【免费下载链接】qmcdump 一个简单的QQ音乐解码（qmcflac/qmc0/qmc3 转 flac/mp3），仅为个人学习参考用。项目地址: https://gitcode.com/gh_mirrors/qm/qmcdump 你是…

李华

5分钟掌握京东自动抢购神器：Python脚本助你告别“手慢无“

5分钟掌握京东自动抢购神器：Python脚本助你告别"手慢无" 【免费下载链接】autobuy-jd 使用python语言的京东平台抢购脚本项目地址: https://gitcode.com/gh_mirrors/au/autobuy-jd 还在为京东限时秒杀手速不够快而烦恼吗？面对心仪商品…

李华

2026年不容错过！AI大模型API聚合网站深度推荐，为开发者提供多元优质选择

在AI开发领域摸爬滚打多年，开发者们常常会遇到各种困扰。如今到了2026年，大模型的迭代速度令人目不暇接，像GPT - 5.4、Claude 4.6、Gemini 3.1 Pro等每月都有更新。与此同时，API聚合网站的情况也变得复杂起来。作为开发者&#xf…

李华

嵌入式音频量产首选：AU-48 双麦语音模组，降噪 90dB+100dB AEC，兼容 A-47 直接升级

在门禁对讲、车载通话、IPC、会议设备、智能家居等嵌入式音频项目中，底噪大、回音啸叫、双工卡顿、远场拾音弱、老方案升级难是工程师最头疼的问题。自研音频算法周期长、调试复杂、量产不稳定，而一颗高集成度语音模组，能直接把音频开发周期从…

李华

移动网络技术演进：从TCP/IP到IPv6与自组网

1. 移动网络技术演进概述移动通信技术的发展彻底改变了人类的生活方式。从最初的固定电话到如今的智能手机，网络连接方式经历了翻天覆地的变化。这种变革的核心在于网络协议的持续演进，特别是TCP/IP协议栈的不断完善。在早期互联网设计中，TCP…

李华

从手机到桌面：Coolapk-UWP如何重新定义你的数字社交空间

从手机到桌面：Coolapk-UWP如何重新定义你的数字社交空间【免费下载链接】Coolapk-UWP 一个基于 UWP 平台的第三方酷安客户端项目地址: https://gitcode.com/gh_mirrors/co/Coolapk-UWP 想象一下这样的场景：你在电脑前专注工作，突然想…

李华