news 2026/3/1 23:12:30

小米罗福莉新模型突袭炸场!性能媲美Deepseek-v3.2,成本压榨到极致!罗福莉:中国开源模型与顶尖闭源差距只有数月

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
小米罗福莉新模型突袭炸场!性能媲美Deepseek-v3.2,成本压榨到极致!罗福莉:中国开源模型与顶尖闭源差距只有数月

在今日上午的小米“人车家全生态”合作伙伴大会上,Xiaomi MiMo大模型负责人罗福莉也首秀并介绍了这款最新发布的大模型。

中国开源模型再次迎来一位重磅选手:就在刚刚,小米正式发布并开源新模型 MiMo-V2-Flash。

在今日上午的小米“人车家全生态”合作伙伴大会上,Xiaomi MiMo大模型负责人罗福莉也首秀并介绍了这款最新发布的大模型。

MiMo-V2-Flash 采用专家混合架构 (MoE),总参数 3090 亿,活跃参数 150 亿,主打高速推理与智能体工作流,性能媲美 DeepSeek-V3.2、Kimi-K2-Thinking 等头部开源模型。

最炸裂的是MiMo-V2-Flash的推理速度,达到了 150 tokens/秒,成本压到了每百万 token 输入 0.1 美元、输出 0.3 美元,主打一个超绝性价比。

MiMo-V2-Flash专为推理、编码和智能体场景构建,各式各样的网页开发也不在话下,比如一个炫酷的豪华圣诞树3D交互网页:

此外,MiMo-V2-Flash 采用 MIT 开源协议,基础版权重及技术报告均已开源。

跻身开源模型前两名,编程能力逼近GPT-5-High

先来看看跑分情况,MiMo-V2-Flash 在多项主流基准测试中表现突出,媲美K2-Thinking和DeepSeek-V3.2。

AIME 2025 数学竞赛GPQA-Diamond 科学知识测试这类高难度任务中,它都稳稳排进开源模型前两名,推理能力已经站到第一梯队。

它的编程成绩也让人眼前一亮。在被公认为“最接近真实世界开发”的SWE-bench Verified测试中,MiMo-V2-Flash 拿下73.4%的通过率,直接刷新开源模型纪录,整体表现已经逼近GPT-5-High。要知道,这个测试不是写小脚本,而是让模型去修真实项目里的 bug。73.4% 的成功率,意味着它已经能解决绝大多数实际编程问题。

放到多语言场景,MiMo-V2-Flash 同样不虚。在SWE-Bench Multilingual中,它的解题成功率达到71.7%,说明不管是 Python、Java 还是其他语言,都具备稳定的工程能力。

再看智能体任务,这也是它的重点优势之一。

τ²-Bench中,MiMo-V2-Flash 在通信、零售、航空三类任务里分别拿到95.3、79.5 和 66.0的高分;在BrowseComp搜索代理测试中,基础得分为45.4,开启上下文管理的情况下,成绩直接跃升到58.3。这说明它不仅能“回答问题”,还能在多轮交互中持续理解目标、做决策、完成任务。

此外,它的写作和表达质量也接近顶级闭源模型水准。这是MiMO-V2-Flash即兴创作的小说,看起来笔触还是相当细腻的:

三项黑科技:SWA、轻量级MTP和后训练MOPD

MiMo-V2-Flash 能做到推理性能的极致性价比,其核心来自一系列专门为高吞吐推理设计的架构创新。

  • 混合滑动窗口注意力机制

MiMo-V2-Flash 采用了一种1:5 的混合注意力设计:少量全局注意力,搭配大量滑动窗口注意力(Sliding Window Attention,SWA)。大量实验结果表明,SWA 结构简单、效率高、易落地,在通用任务、长上下文处理以及复杂推理任务上,整体表现都优于线性注意力。

更重要的是,SWA 使用固定大小的 KV Cache,这意味着它可以非常顺滑地接入现有的训练和推理基础设施,不需要大规模重构工程体系。

罗福莉还指出:窗口大小 128 是关键数值。实验证明,盲目扩大窗口(如增至 512)反而会导致性能下降。同时她强调,在实施该机制时,sink values 是维持性能的关键,绝不可省略。

  • 轻量级多 Token 预测 (MTP)

传统大模型解码,本质上是一个强内存受限的过程:算力并没有完全吃满,瓶颈往往卡在 KV Cache 的读写上。

而MTP让模型一次性预测多个候选 token、,然后由主模型并行验证这些 token 是否可接受。这样一来,FFN 和 Attention 的算术强度都被同时拉高,却不增加 KV Cache 的 I/O 压力,真正实现了 token 级并行。

在 MiMo-V2-Flash 中,MTP 不是外挂模块,而是原生能力,直接作为自推测解码的草稿模型使用,带来了实打实的部署级加速效果。

为了避免 MTP 本身变成新的性能瓶颈,MiMo-V2-Flash 对 MTP 模块做了非常克制的设计:

  • 使用Dense FFN(而非 MoE),控制参数规模
  • 使用SWA 而非 GA,进一步降低 KV Cache 和注意力计算成本
  • 模块整体保持轻量,但不牺牲预测质量

结果也很漂亮。据罗福莉介绍,在三层 MTP 设置下,他们观察到平均接受长度超过 3,编码任务速度提升约 2.5 倍。它有效解决了小批量 On-Policy 强化学习中「长尾样本」带来的 GPU 空闲时间浪费问题。

  • MOPD:一种全新的后训练范式

在后训练阶段,小米还整了个新活:多教师在线策略蒸馏(MOPD)

MOPD 的核心,是一种高效的 on-policy 学习机制。具体来说,研究者先通过SFT / RL训练出多个领域专家级教师模型,随后让学生模型直接从自身策略分布中进行采样(rollout),并利用来自多个教师模型提供的、细粒度到 token 级别的密集奖励信号进行优化。

最惊人的是效率提升,MOPD 只需要传统方法 1/50 的算力,就能让学生模型达到教师性能峰值。这意味着小米能用更少的资源,更快地迭代模型。

罗福莉表示,这个方法借鉴于Thinking Machine,将多个强化学习模型进行融合,结果带来了惊人的效率提升。这为构建一个自我强化循环系统奠定了基础,学生模型可以逐步进化,最终成为更强的教师模型。

属于开源模型的「小米时刻」,来了

在今天上午的小米“人车家全生态”合作伙伴大会上,罗福莉表示:

“2020年我刚进入这行的时候,中国开源模型和世界顶尖闭源模型的代际差距,我认为还有3年;但到了今天,这个差距只有数月。”

这无疑是一句令人热血沸腾的话,意味着中国开源模型与顶尖闭源的差距在不断缩小,且性价比在不断提升。此次MiMo-V2-Flash的150 tokens/秒的推理速度,每百万 token 输入 0.1 美元、输出 0.3 美元的成本,也让我们目睹了中国开源模型能把性价比压榨到多么极致的地步。

在最新的罗永浩播客中,MiniMax 创始人闫俊杰也公开表示:现在中国开源模型的研发成本只有世界顶尖模型的1/10,但性能差距仅不到5%。

小米的野心不止于“人车家”。罗福莉在社交媒体上披露了更多信息:MiMo-V2-Flash的发布只是小米AGI路线图的第二步。这背后暗示了小米在AI赛道上全面发力的决心。

属于开源模型的「小米时刻」,要来了。

MiMo-V2-Flash模型:https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash

技术报告:https://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf

AI Studio 体验地址:http://aistudio.xiaomimimo.com

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/17 22:14:06

14、网络信息系统(NIS):原理、配置与应用详解

网络信息系统(NIS):原理、配置与应用详解 1. 引言 在局域网环境中,为用户提供透明的网络体验是一个重要目标。其中,确保关键数据(如用户账户信息)在所有主机间同步至关重要,这能让用户自由切换设备,无需记忆不同密码或复制数据。虽然域名系统(DNS)在互联网上用于特…

作者头像 李华
网站建设 2026/2/23 7:58:41

git迁移代码到其他仓库的方法 个人记录

克隆只包含指定分支的仓库 git clone --single-branch --branch <branch-name> <原仓库URL>如&#xff1a; git clone --single-branch --branch develop-重构1128 http://xxxllm_platform/test.gitcd <repo-directory>添加新的远程仓库 git remote add ne…

作者头像 李华
网站建设 2026/3/1 11:53:47

PPT排版又丑又慢怎么办?这个“AI生成PPT”功能,3秒拯救你的PPT

你是不是也遇到过这样的情况&#xff1a;明明内容都想好了&#xff0c;可一做PPT就头疼&#xff1f;调字体、对格式、找图片、排版面……折腾好几个小时&#xff0c;做出来的PPT还是不好看。更让人崩溃的是&#xff0c;有时候半夜还在改PPT格式&#xff0c;就为了第二天早上开会…

作者头像 李华
网站建设 2026/2/28 22:16:27

再次紧急修复,Flutter 针对 WebView 无法点击问题增加新的快速修复

前几天我们刚聊了 《Flutter 官方正式解决 WebView 在 iOS 26 上有点击问题》 &#xff0c;这是一个完整的底层重构修复&#xff0c;整个修复周期审核堪比“博士论文”&#xff0c;但是也带来了一个问题&#xff0c;它只修复了 Engine 和 Framework 层面问题&#xff0c;那插件…

作者头像 李华
网站建设 2026/2/28 20:04:15

给AI“考题”换个计分方式,谷歌SigLIP让多模态模型学得又快又好!

CLIP很强&#xff0c;但它也有“贵族病”&#xff1a;训练成本高得让人望而却步&#xff0c;动辄上千GPU天的算力让无数团队只能仰望。 直到SigLIP横空出世。 它用一个简单到近乎“暴力”的思想——Sigmoid Loss&#xff0c;把CLIP那套繁琐的InfoNCE损失彻底抛弃&#xff0c;…

作者头像 李华