1.AI小主机硬件情况
测试的AI小主机为国产厂商单台设备,同DGX Spark
统一内存:128GB
CPU:
GPU:
2.vllm版本
vllm容器镜像版本为0.20,旧版本对nvfp4的支持不好,显存使用率0.85,上下文256K
3.模型生成速率情况
拉取modescope模型
模型生成速率(tokens/s--t/s,截图依次如下):
qwen3.5:27b 4t/s
qwen3.5:27b-int4 8t/s
qwen3.5-122b-a10b-int4 14.5t/s
qwen3.5-35b-a3b-int4 32t/s
qwen3.5-122b-a10b-nvfp4 31t/s
qwen3.6-35b-A3b-fp8 51t/s
qwen3.5:27b
qwen3.5:27b-int4
qwen3.5-122b-a10b-int4
qwen3.5-35b-a3b-int4
qwen3.5-122b-a10b-nvfp4
qwen3.6-35b-A3b-fp8
4.模型并发情况
主要测试了生成速率30tokens/s以上的,用户体验较好,vllm各项性能显著优于ollama,但ollama更易用。
并发测试采用了下述链接方案(参数默认,容器化部署):
https://github.com/lework/llm-benchmark
qwen3.5-35b-a3b-int4
qwen3.5-122b-a10b-int4
qwen3.6-35b-A3b-fp8
以上对迷你AI桌面工作站的简要测试,如有不妥请批评指正!