太震撼了,1T参数大模型,生成速度1000 tokens/s,最高1200 tokens/s。
这就是小米MiMo团队联合TileRT,刚刚发布MiMo-V2.5-Pro-UltraSpeed,万亿参数模型首次突破1000 tokens/s解码速度,峰值可达约1200 tokens/s。
小米用一台标准8卡通用GPU服务器,就撑起了1T旗舰模型的千速输出。
1T模型,千token每秒
在此之前,万亿参数模型的推理速度一直受限于内存带宽和算力瓶颈,行业普遍认为要在这个量级实现千速输出,必须依赖专用硬件。
当前业内实现类似极端速度,通常靠专用硬件。Cerebras用晶圆级集成,把一整块晶圆当作一颗芯片用,Groq用纯片上SRAM定制架构,把所有计算资源堆在片上,都是硬件堆出来的速度。
小米选了另一条路,在通用GPU上,靠模型与系统的深度 Codesign(协同设计),跑出了更亮眼的速度。
一台标准8卡GPU节点,1T模型,1000+ tokens/s输出,没有定制芯片,没有专属硬件,全靠算法和系统的极致配合。任何拥有标准GPU算力的团队,理论上都能复现类似的推理效率。
MiMo-V2.5-Pro-UltraSpeed API同步上线,限时促销价,MiMo-V2.5-Pro的3倍价格,换约10倍生成速度。3倍价钱,10倍体验,仅限API调用,不支持Token套餐。
万亿参数级别,突破1000 tps(每秒token数),它将从根本上改变AI应用的范式。例如10秒即可搭建一个贪吃蛇游戏,1分钟就能复刻一个MacOS界面。
速度本身开始转化为智能。以前面对一个复杂任务,只需要等待很久,生成结果还不一定对。现在,同样的时间窗口内,模型可以并行跑几十条推理路径,在后台自动验证、自我纠正,直接提升推理质量。
Coding Agent(编程代理)的生产力天花板被彻底打开。以前用AI写代码,开发者坐在屏幕前干等,整个开发节奏被模型的速度拖慢。1000 tps下,代码生成速度和生产效率迎来范式级加速,几秒钟就能跑完一个完整模块的生成和验证,开发者的等待时间从分钟级压缩到秒级。
而且,万亿参数模型可以进入实时决策循环了。毫秒级的思考响应周期,让1T旗舰模型无缝嵌入时间敏感场景,高频量化交易信号生成、实时反欺诈拦截、智能竞价、即时交互对话。
当这种能力进入手术室辅助和医学影像分析,AI的速度就不再只是效率指标,变成了与死神赛跑的筹码。手术台上,AI每省下一秒完成病灶分析和风险预测,就给外科医生多一分操作空间。
极致协同,通向千速之路
1000+ tokens/s的生成速度,是MiMo模型团队与TileRT系统团队深度协作、极致Codesign的杰作。
万亿参数规模下,传统的8位(FP8 / INT8)甚至16位推理,内存占用和带宽压力到了难以承受的地步。1T参数用FP8存储就需要约1TB显存,8卡节点每卡分摊约128GB,带宽压力同样巨大。降低参数位宽,直接贡献解码速度。
MiMo采用经过广泛验证、几乎无损的FP4(MXFP4)量化格式,每个参数只用4位存储,模型体积和访存开销直接砍半。
FP4全模型一刀切,复杂推理、逻辑和代码生成能力会下降,这是量化的一贯代价。MiMo-V2.5-Pro采用MoE(Mixture of Experts,混合专家)架构,Experts占了参数的绝大多数,对量化的容忍度也最高,因为每个Expert只在一小部分token上激活,精度需求天然低于全连接层。
MiMo只对MoE Experts做FP4量化,注意力模块、归一化层等关键组件保持原始精度。再通过FP4 QAT(Quantization-Aware Training,量化感知训练),在训练阶段就模拟量化带来的精度损失,让模型主动适应低位宽表示,大幅压缩模型体积、最大化硬件带宽利用率,模型整体能力与原始版本基本持平,如下图所示。
传统的Speculative Decoding(推测解码)靠一个小型草稿模型猜后续token,大模型再验证。自回归生成(每次前向传播1个token)变成并行多token生成,验证阶段的拒绝采样保证输出质量无损。
瓶颈在于,草稿模型质量决定接受率,但更强的草稿模型计算开销更大,草稿模型太弱接受率上不去,太强又拖慢整体速度,这是一个根本矛盾。
MiMo引入了DFlash,一种基于块级掩码并行预测的创新方法。草稿模型不再逐个token串行生成,改为一次前向传播填满一整块被掩码的位置,从根本上消除了自回归式草稿的串行约束。可以理解为,传统方式是逐字书写,DFlash是整行填空,效率差异显而易见。
在MiMo-V2.5-Pro上的部署,针对万亿级MoE和长上下文场景做了定制优化。使用Muon二阶优化器和模型自蒸馏,确保紧凑的掩码块仍能交付理想的接受率,同时把草稿阶段开销压缩到接近理论下限。
草稿模型专门使用SWA(Sliding Window Attention,滑动窗口注意力),与MiMo-V2系列的SWA设计天然对齐,消除了对完整前缀的依赖,把每次预测的计算量从与上下文长度线性相关降为常数级。
训练阶段,掩码信号采样下推到GPU本地分片,单条序列一步就能产出数万个独立训练信号,覆盖多种上下文位置,对齐MiMo-V2系列的长上下文能力,同时避免跨设备通信开销。
结果上,并行预测推测解码在高价值的Agent和编程场景中,接受长度提升显著,大模型每轮验证能一口气确认更多内容。
块大小限制为8,降低验证开销、提高并发度,让高接受长度直接转化为高推理吞吐,如下表所示。可以看到,Coding场景的接受长度最高,这是因为代码的语法结构相对确定,草稿模型的预测准确度更高。
Coding场景下,平均接受长度达到6.30,部分样本最高7.14,即每轮验证的8个草稿token中有6到7个被接受。草稿模型保持轻量,同时把接受率推到了能带来真正端到端收益的水平。在语义更发散、不确定性更高的通用对话场景中,当前接受率还不够高,团队在持续优化算法,探索更高的泛化上限。
MiMo的算法创新解开了百亿、万亿参数模型的带宽束缚,TileRT推理系统则把通用GPU的物理潜力压榨到微秒级的最后一滴。
1000 tokens/s的运行频率下,每个算子的生命周期被压缩到微秒级。传统推理系统的算子边界成为核心瓶颈,每次算子启动、硬件同步、全局内存往返,都在微秒尺度上打断执行流,暴露出可见的 Execution Gaps(执行间隙)。
TileRT引入了全新的执行模型,从根源消除算子边界带来的执行间隙。Persistent Engine Kernel(持久引擎内核),彻底抛弃传统的逐算子启动范式,让整个计算管线持久驻留在GPU内部持续流动,实现全管线连续预取,当前Tile还在Tensor Cores上计算时,后续数据已经在内存层级中流动,数据搬运和计算极致重叠。
Warp Specialization(异构管线协作),在Tile级别,通信、数据搬运和张量计算被更细粒度地物理拆分,打破同构同步执行模型,不同 Warp(线程组)甚至整个GPU上的异构执行域独立运作又精准协调,把GPU变成一个持续流动、精密编排的异构执行系统。
在底层执行模型把硬件性能推到极限后,纯运行时优化开始触及物理边界。TileRT系统团队和小米MiMo团队进行了深度技术共创,打破传统软件层边界。模型层最终采用了MoE Experts混合FP4量化策略,部署了与SWA对齐的DFlash推测解码。TileRT与这些算法特性和量化方案紧密耦合,交付定制编译引擎和计算内核。两个团队基于硬件物理做了深入的联合工程权衡,确保执行压力在硬件边界内平滑闭合。
TileRT是一家专注于下一代AI基础设施和超低延迟推理的前沿系统架构团队,致力于在前沿大模型的生产环境中实现毫秒级实时响应,用全新运行时架构打破传统存算壁垒。团队构想并实现了范式级执行模型,通过持久内核、Tile管线和异构协作的全栈突破,在复杂异构生态中实现极致计算利用率。
MiMo-V2.5-Pro-FP4-DFlash已在HuggingFace开源,包含FP4量化权重和DFlash模型参数。
MiMo-V2.5的UltraSpeed支持也在路上。
参考资料:
https://mimo.xiaomi.com/zh/blog/mimo-tilert-1000tps
https://platform.xiaomimimo.com/docs/zh-CN/model-intro/mimo-v2.5-pro-ultraspeed