news 2026/3/28 10:56:18

蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0,性能对标 Gemini 2.5 Pro

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0,性能对标 Gemini 2.5 Pro
Ming-Flash-Omni 2.0 也是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。用户只需用自然语言下指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。

2 月 11 日,蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0。在多项公开基准测试中,该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出,部分指标超越 Gemini 2.5 Pro,成为开源全模态大模型性能新标杆。

Ming-Flash-Omni 2.0 也是业界首个全场景音频统一生成模型,可在同一条音轨中同时生成语音、环境音效与音乐。用户只需用自然语言下指令,即可对音色、语速、语调、音量、情绪与方言等进行精细控制。模型在推理阶段实现了 3.1Hz 的极低推理帧率,实现了分钟级长音频的实时高保真生成,在推理效率与成本控制上保持业界领先。

(图说:Ming-Flash-Omni-2.0 在视觉语言理解、语音可控生成、图像生成与编辑等核心领域实测表现均已达到开源领先水准)

业内普遍认为,多模态大模型最终会走向更统一的架构,让不同模态与任务实现更深层协同。但现实是,“全模态”模型往往很难同时做到通用与专精:在特定单项能力上,开源模型往往不及专用模型。蚂蚁集团在全模态方向已持续投入多年,Ming-Omni系列正是在这一背景下持续演进:早期版本构建统一多模态能力底座,中期版本验证规模增长带来的能力提升,而最新2.0版本通过更大规模数据与系统性训练优化,将全模态理解与生成能力推至开源领先水平,并在部分领域超越顶级专用模型。

此次将 Ming-Flash-Omni 2.0 开源,意味着其核心能力以“可复用底座”的形式对外释放,为端到端多模态应用开发提供统一能力入口。

Ming-Flash-Omni 2.0 基于 Ling-2.0 架构(MoE,100B-A6B)训练,围绕“看得更准、听得更细、生成更稳”三大目标全面优化。视觉方面,融合亿级细粒度数据与难例训练策略,显著提升对近缘动植物、工艺细节和稀有文物等复杂对象的识别能力;音频方面,实现语音、音效、音乐同轨生成,支持自然语言精细控制音色、语速、情绪等参数,并具备零样本音色克隆与定制能力;图像方面,增强复杂编辑的稳定性,支持光影调整、场景替换、人物姿态优化及一键修图等功能,在动态场景中仍保持画面连贯与细节真实。

百灵模型负责人周俊表示,全模态技术的关键在于通过统一架构实现多模态能力的深度融合与高效调用。开源后,开发者可基于同一套框架复用视觉、语音与生成能力,显著降低多模型串联的复杂度与成本。未来,团队将持续优化视频时序理解、复杂图像编辑与长音频生成实时性,完善工具链与评测体系,推动全模态技术在实际业务中规模化落地。

目前,Ming-Flash-Omni 2.0 的模型权重、推理代码已在 Hugging Face 等开源社区发布。用户也可通过蚂蚁百灵官方平台 Ling Studio 在线体验与调用。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/27 22:36:27

自动称重控制系统的软件设计

自动称重控制系统的软件设计与实现 第一章 设计背景与核心目标 传统称重系统软件多为单一数据显示功能,存在数据采集精度低、操作依赖人工、缺乏自动化触发逻辑、数据无法实时上传与追溯等问题,难以满足工业生产、物流分拣等场景“精准计量、自动控制、数…

作者头像 李华
网站建设 2026/3/24 3:35:29

基于STM32的智能停车场设计

基于STM32的智能停车场设计与实现 第一章 设计背景与核心目标 传统停车场多依赖人工登记、人工找位、现金缴费,存在车位利用率低(≤60%)、管理效率差、车主找位耗时(平均5-10分钟)、缴费排队等问题,难以满足…

作者头像 李华
网站建设 2026/3/20 20:46:17

计算机毕业设计springboot在线农产品购物网站 基于Spring Boot的生鲜农产品电商平台设计与实现 乡村特产在线销售系统开发——采用Spring Boot框架

计算机毕业设计springboot在线农产品购物网站lzggid8e (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。随着信息技术的飞速发展和互联网经济的蓬勃兴起,传统农产品销售…

作者头像 李华
网站建设 2026/3/16 2:12:07

两个bm|分块

C 分块算法模板&#xff0c;适合区间修改、区间查询类问题&#xff08;如区间加、区间和&#xff09;&#xff0c;直接就能用#include <iostream>#include <vector>#include <cmath>using namespace std;const int MAXN 1e5 5;int a[MAXN]; // 原数组long …

作者头像 李华
网站建设 2026/3/27 14:39:45

在web页面中,JAVA如何解决大文件上传的难题?

大文件传输解决方案建议书 一、需求分析与技术挑战 作为福建IT行业软件公司项目负责人&#xff0c;针对贵司提出的大文件传输需求&#xff0c;我进行了全面分析&#xff0c;发现以下几个核心挑战&#xff1a; 超大文件传输稳定性&#xff1a;单文件100G的传输及断点续传文件…

作者头像 李华
网站建设 2026/3/21 4:15:05

JAVA上传目录结构到网页有哪些技巧?

大文件传输系统建设方案 一、需求分析与技术选型 作为项目负责人&#xff0c;针对公司核心需求&#xff0c;需解决以下关键技术挑战&#xff1a; 跨平台兼容性&#xff1a;需兼容IE8等老旧浏览器及Windows 7环境高并发稳定性&#xff1a;避免传统打包下载导致的内存溢出问题…

作者头像 李华