万亿参数只激活420亿：小米MiMo-V2.5-Pro用混合专家架构重新定义长文本推理-开发者社区

当行业还在为百万 token 上下文窗口而欢呼时，小米已经悄然将这个数字推到了一个新的量级。

2026年4月27日，小米开源了MiMo-V2.5-Pro——一个拥有1.02万亿总参数、但每次推理只激活420亿参数的混合专家（MoE）语言模型。这不是简单的参数堆砌，而是一次架构层面的深度创新：它支持高达100万 token 的上下文长度，能够在数千次工具调用的复杂轨迹中保持强大的指令遵循能力和连贯性。

这是小米迄今为止最强大的模型，专为最苛刻的智能体任务、复杂软件工程和长时程推理而设计。

从 MiMo-V2到 V2.5：不只是参数的跃升

如果说 MiMo-V2系列证明了小米在大模型领域的技术实力，那么 V2.5-Pro 则是这个实力的集大成展示。

从数据上看，MiMo-V2.5-Pro 的总参数量从 V2.5的3100亿跃升至1.02万亿，激活参数从150亿增加到420亿。但更重要的变化发生在架构层面：模型采用了70层网络（1层密集层+69层 MoE 层），其中10层使用全局注意力（Global Attention），60层使用滑动窗口注意力（Sliding Window Attention, SWA）。这种混合注意力机制的设计，正是 MiMo-V2.5-Pro 能够高效处理百万 token 长文本的关键。

混合专家架构的核心在于“稀疏激活”：输入数据通过门控网络（Gating Network）被智能路由到最合适的专家子网络，而不是激活所有参数。这就像一个智能调度系统，根据任务类型选择最擅长的专家来处理，既保证了模型的总容量，又大幅降低了单次推理的计算成本。

更值得关注的是，MiMo-V2.5-Pro 延续了 MiMo-V2-Flash 引入的多 token 预测（Multi-Token Prediction, MTP）技术。与传统的推测解码（Speculative Decoding）不同，MTP 模块是原生集成在训练和推理流程中的，通过3层 MTP 网络，模型可以在一次前向传播中预测多个 token，大幅提升推理速度。

这些技术细节背后，是小米对效率和性能平衡的极致追求。1.02万亿参数听起来庞大，但实际推理时只激活420亿参数，这意味着在保持强大能力的同时，大幅降低了计算成本和内存占用。

基准测试：小参数撬动大性能

MiMo-V2.5-Pro 的能力不是靠宣传出来的，而是在严苛的基准测试中证明的。

从上图可以看到，MiMo-V2.5-Pro Base 在多个维度都展现出强大的竞争力：

通用能力：MMLU 得分89.4, MMLU-Redux92.8，在 GPQA-Diamond“博士级别”科学问题测试中得分66.7，大幅领先 Kimi-K2 Base 的48.1分。

数学推理：GSM8K 准确率达到惊人的99.6%，MATH 数据集得分86.2，AIME 2024&2025 得分37.3%，全面领先竞品。

代码能力：HumanEval+ 得分75.6, SWE-Bench（AgentLess）得分35.7%，不仅能写代码，还能理解复杂代码库结构，进行跨文件修改和 bug 修复。

中文能力：C-Eval 得分91.5，CMMLU 得分90.2，考虑到激活参数量只有420亿，这个表现已经相当亮眼。

百万 token 的长文本推理：从理论到现实

长文本处理能力是大模型的“圣杯”之一。许多模型声称支持百万 token 上下文，但实际表现往往在超过一定长度后急剧下降。MiMo-V2.5-Pro 用实测数据证明，它不仅支持百万 token，而且能在这个长度上保持有效推理。

小米使用了 OpenAI 的 GraphWalks 基准测试来评估长文本能力。这个测试会在提示词中填充一个由十六进制哈希节点组成的有向图，然后要求模型执行广度优先搜索（BFS，找出恰好在深度 N 的节点）或列出节点的父节点（Parents）。测试覆盖了从32k 到1M token 的全范围。

结果令人印象深刻。MiMo-V2 Pro 在超过128k token 后性能迅速下降，在1M token 时两个子任务的得分都降至0.00，完全失效。而MiMo-V2.5-Pro 在512k token 时仍能保持0.56（BFS）和0.92（Parents）的得分，在1M token 时得分为0.37和0.62。这意味着，即使在百万 token 的极端长度下，MiMo-V2.5-Pro 仍然能够理解和推理复杂的结构化信息。

这种长文本能力的提升，得益于混合注意力架构的精心设计。通过交替使用局部滑动窗口注意力和全局注意力，MiMo-V2.5-Pro 在保持对全局信息感知的同时，避免了传统全注意力机制的二次方复杂度。这不是简单的工程优化，而是对注意力机制本质的深刻理解和创新应用。

三阶段后训练：从通用到专家的蜕变

一个强大的基础模型只是起点，如何通过后训练（Post-training）将其打磨成真正可用的产品，才是考验技术团队功力的关键。

MiMo-V2.5-Pro 采用了 MiMo-V2-Flash 引入的三阶段后训练范式：

第一阶段：监督微调（SFT）- 使用精心策划的数据对构建强大的基础指令遵循能力，让模型学会“听懂人话”。

第二阶段：领域专业化训练- 训练多个专家教师模型，分别专注于数学、安全、智能体工具使用等不同领域，使用强化学习（RL）奖励优化。

第三阶段：多教师在线策略蒸馏（MOPD） -单一学生模型从自己的输出中迭代学习，同时持续接受多个专家教师的 token 级别精确指导，无缝整合广泛能力。

这种范式避免了传统多任务学习中的“能力稀释”问题，让 MiMo-V2.5-Pro 既保持通用能力的广度，又在数学、代码、长文本推理等关键领域达到专家级水平。

未来展望：混合专家架构的想象空间

MiMo-V2.5-Pro 的发布，让我们看到了混合专家架构在大模型领域的巨大潜力。

传统密集模型在扩展到万亿参数级别时，推理成本和内存占用难以承受。混合专家架构通过稀疏激活，让模型在保持大容量的同时，只激活处理当前任务所需的部分参数——就像人类大脑在思考数学问题和文学问题时激活不同的神经回路。

MiMo-V2.5-Pro 的1.02万亿总参数、420亿激活参数配置，代表了当前混合专家架构的最佳实践点：足够大可以存储海量知识，又足够小（激活层面）可以高效推理。

展望未来，混合专家架构还有很大优化空间：如何让专家路由更智能？如何在训练阶段就考虑推理效率？如何与稀疏注意力、量化、剪枝等技术结合？这些问题的答案，将决定下一代大模型的形态。

结语

MiMo-V2.5-Pro 的发布，标志着小米在大模型领域从追赶者到领跑者的转变。

它不是简单的参数堆砌，而是架构创新、训练范式和工程优化的综合体现。1.02万亿参数只激活420亿，百万 token 长文本推理，三阶段后训练范式，这些技术细节背后，是小米对效率、性能和可用性的极致追求。

更重要的是，通过开源策略，小米正在构建一个开放、协作、共赢的 AI 生态。当越来越多的开发者使用 MiMo 模型，当越来越多的应用基于 MiMo 构建，整个行业都会从中受益。

AI 的未来不属于某一家公司，而属于所有愿意创新、分享和协作的参与者。MiMo-V2.5-Pro 的开源，正是这个理念的最好诠释。

社区地址

OpenCSG社区：https://opencsg.com/models/XiaomiMiMo/MiMo-V2.5-Pro

hf社区：https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro

关于 OpenCSG

OpenCSG 是全球领先的开源大模型社区平台，致力于打造开放、协同、可持续生态，AgenticOps是人工智能领域的一种AI原生方法论，由OpenCSG（开放传神）提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的一站式托管、协作与共享服务，具备业界领先的模型资产管理能力，支持多角色协同和高效复用。