天下武功，唯快不破！小米推出UltraSpeed，1T参数1000 tokens/s-开发者社区

太震撼了，1T参数大模型，生成速度1000 tokens/s，最高1200 tokens/s。

这就是小米MiMo团队联合TileRT，刚刚发布MiMo-V2.5-Pro-UltraSpeed，万亿参数模型首次突破1000 tokens/s解码速度，峰值可达约1200 tokens/s。

小米用一台标准8卡通用GPU服务器，就撑起了1T旗舰模型的千速输出。

1T模型，千token每秒

在此之前，万亿参数模型的推理速度一直受限于内存带宽和算力瓶颈，行业普遍认为要在这个量级实现千速输出，必须依赖专用硬件。

当前业内实现类似极端速度，通常靠专用硬件。Cerebras用晶圆级集成，把一整块晶圆当作一颗芯片用，Groq用纯片上SRAM定制架构，把所有计算资源堆在片上，都是硬件堆出来的速度。

小米选了另一条路，在通用GPU上，靠模型与系统的深度 Codesign（协同设计），跑出了更亮眼的速度。

一台标准8卡GPU节点，1T模型，1000+ tokens/s输出，没有定制芯片，没有专属硬件，全靠算法和系统的极致配合。任何拥有标准GPU算力的团队，理论上都能复现类似的推理效率。

MiMo-V2.5-Pro-UltraSpeed API同步上线，限时促销价，MiMo-V2.5-Pro的3倍价格，换约10倍生成速度。3倍价钱，10倍体验，仅限API调用，不支持Token套餐。

万亿参数级别，突破1000 tps（每秒token数），它将从根本上改变AI应用的范式。例如10秒即可搭建一个贪吃蛇游戏，1分钟就能复刻一个MacOS界面。

速度本身开始转化为智能。以前面对一个复杂任务，只需要等待很久，生成结果还不一定对。现在，同样的时间窗口内，模型可以并行跑几十条推理路径，在后台自动验证、自我纠正，直接提升推理质量。

Coding Agent（编程代理）的生产力天花板被彻底打开。以前用AI写代码，开发者坐在屏幕前干等，整个开发节奏被模型的速度拖慢。1000 tps下，代码生成速度和生产效率迎来范式级加速，几秒钟就能跑完一个完整模块的生成和验证，开发者的等待时间从分钟级压缩到秒级。

而且，万亿参数模型可以进入实时决策循环了。毫秒级的思考响应周期，让1T旗舰模型无缝嵌入时间敏感场景，高频量化交易信号生成、实时反欺诈拦截、智能竞价、即时交互对话。

当这种能力进入手术室辅助和医学影像分析，AI的速度就不再只是效率指标，变成了与死神赛跑的筹码。手术台上，AI每省下一秒完成病灶分析和风险预测，就给外科医生多一分操作空间。

极致协同，通向千速之路

1000+ tokens/s的生成速度，是MiMo模型团队与TileRT系统团队深度协作、极致Codesign的杰作。

万亿参数规模下，传统的8位（FP8 / INT8）甚至16位推理，内存占用和带宽压力到了难以承受的地步。1T参数用FP8存储就需要约1TB显存，8卡节点每卡分摊约128GB，带宽压力同样巨大。降低参数位宽，直接贡献解码速度。

MiMo采用经过广泛验证、几乎无损的FP4（MXFP4）量化格式，每个参数只用4位存储，模型体积和访存开销直接砍半。

FP4全模型一刀切，复杂推理、逻辑和代码生成能力会下降，这是量化的一贯代价。MiMo-V2.5-Pro采用MoE（Mixture of Experts，混合专家）架构，Experts占了参数的绝大多数，对量化的容忍度也最高，因为每个Expert只在一小部分token上激活，精度需求天然低于全连接层。

MiMo只对MoE Experts做FP4量化，注意力模块、归一化层等关键组件保持原始精度。再通过FP4 QAT（Quantization-Aware Training，量化感知训练），在训练阶段就模拟量化带来的精度损失，让模型主动适应低位宽表示，大幅压缩模型体积、最大化硬件带宽利用率，模型整体能力与原始版本基本持平，如下图所示。

传统的Speculative Decoding（推测解码）靠一个小型草稿模型猜后续token，大模型再验证。自回归生成（每次前向传播1个token）变成并行多token生成，验证阶段的拒绝采样保证输出质量无损。

瓶颈在于，草稿模型质量决定接受率，但更强的草稿模型计算开销更大，草稿模型太弱接受率上不去，太强又拖慢整体速度，这是一个根本矛盾。

MiMo引入了DFlash，一种基于块级掩码并行预测的创新方法。草稿模型不再逐个token串行生成，改为一次前向传播填满一整块被掩码的位置，从根本上消除了自回归式草稿的串行约束。可以理解为，传统方式是逐字书写，DFlash是整行填空，效率差异显而易见。

在MiMo-V2.5-Pro上的部署，针对万亿级MoE和长上下文场景做了定制优化。使用Muon二阶优化器和模型自蒸馏，确保紧凑的掩码块仍能交付理想的接受率，同时把草稿阶段开销压缩到接近理论下限。

草稿模型专门使用SWA（Sliding Window Attention，滑动窗口注意力），与MiMo-V2系列的SWA设计天然对齐，消除了对完整前缀的依赖，把每次预测的计算量从与上下文长度线性相关降为常数级。

训练阶段，掩码信号采样下推到GPU本地分片，单条序列一步就能产出数万个独立训练信号，覆盖多种上下文位置，对齐MiMo-V2系列的长上下文能力，同时避免跨设备通信开销。

结果上，并行预测推测解码在高价值的Agent和编程场景中，接受长度提升显著，大模型每轮验证能一口气确认更多内容。

块大小限制为8，降低验证开销、提高并发度，让高接受长度直接转化为高推理吞吐，如下表所示。可以看到，Coding场景的接受长度最高，这是因为代码的语法结构相对确定，草稿模型的预测准确度更高。

Coding场景下，平均接受长度达到6.30，部分样本最高7.14，即每轮验证的8个草稿token中有6到7个被接受。草稿模型保持轻量，同时把接受率推到了能带来真正端到端收益的水平。在语义更发散、不确定性更高的通用对话场景中，当前接受率还不够高，团队在持续优化算法，探索更高的泛化上限。

MiMo的算法创新解开了百亿、万亿参数模型的带宽束缚，TileRT推理系统则把通用GPU的物理潜力压榨到微秒级的最后一滴。

1000 tokens/s的运行频率下，每个算子的生命周期被压缩到微秒级。传统推理系统的算子边界成为核心瓶颈，每次算子启动、硬件同步、全局内存往返，都在微秒尺度上打断执行流，暴露出可见的 Execution Gaps（执行间隙）。

TileRT引入了全新的执行模型，从根源消除算子边界带来的执行间隙。Persistent Engine Kernel（持久引擎内核），彻底抛弃传统的逐算子启动范式，让整个计算管线持久驻留在GPU内部持续流动，实现全管线连续预取，当前Tile还在Tensor Cores上计算时，后续数据已经在内存层级中流动，数据搬运和计算极致重叠。

Warp Specialization（异构管线协作），在Tile级别，通信、数据搬运和张量计算被更细粒度地物理拆分，打破同构同步执行模型，不同 Warp（线程组）甚至整个GPU上的异构执行域独立运作又精准协调，把GPU变成一个持续流动、精密编排的异构执行系统。

在底层执行模型把硬件性能推到极限后，纯运行时优化开始触及物理边界。TileRT系统团队和小米MiMo团队进行了深度技术共创，打破传统软件层边界。模型层最终采用了MoE Experts混合FP4量化策略，部署了与SWA对齐的DFlash推测解码。TileRT与这些算法特性和量化方案紧密耦合，交付定制编译引擎和计算内核。两个团队基于硬件物理做了深入的联合工程权衡，确保执行压力在硬件边界内平滑闭合。

TileRT是一家专注于下一代AI基础设施和超低延迟推理的前沿系统架构团队，致力于在前沿大模型的生产环境中实现毫秒级实时响应，用全新运行时架构打破传统存算壁垒。团队构想并实现了范式级执行模型，通过持久内核、Tile管线和异构协作的全栈突破，在复杂异构生态中实现极致计算利用率。

MiMo-V2.5-Pro-FP4-DFlash已在HuggingFace开源，包含FP4量化权重和DFlash模型参数。

MiMo-V2.5的UltraSpeed支持也在路上。

参考资料：

https://mimo.xiaomi.com/zh/blog/mimo-tilert-1000tps

https://platform.xiaomimimo.com/docs/zh-CN/model-intro/mimo-v2.5-pro-ultraspeed