news 2026/1/17 8:14:38

超越 Grok,阶跃星辰拿下全球权威语音模型榜第一

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
超越 Grok,阶跃星辰拿下全球权威语音模型榜第一

1 月 15 日消息,全球知名权威大模型评测榜单 Artificial Analysis Speech Reasoning 更新,大模型创业公司阶跃星辰原生音频推理模型 Step-Audio-R1.1 登顶榜首,以 96.4% 准确率,超越 Grok、Gemini、GPT-Realtime 等主流一线模型,刷新历史最好成绩。目前,阶跃星辰已将这款模型开源,开发者可以下载体验。

据了解,该榜单是目前业界评估“原生语音模型”(Native Audio Models)最权威的第三方基准之一。核心考量模型直接处理音频并进行复杂逻辑推理的能力,主要考察维度包括准确率、首包延迟等。

根据榜单评测,在性能与速度的综合权衡上,Step-Audio-R1.1 全面碾压同类语音模型。

2025 年 11 月,阶跃星辰发布了全球首个开源原生音频推理模型 Step-Audio-R1,可以在不增加额外时延的情况下,端到端理解语音内容,并能够“像人类一样听到对话即可思考”。这次发布的 Step-Audio-R1.1 模型,是 Step-Audio-R1 的升级版,兼顾更强实时对话和复杂语音推理能力。完整的实时语音 API 将在 2 月上线,目前开放的chat模式已搭载 Step-Audio-R1.1 核心,支持边想边说的流式推理。

和大语言模型同理,语音模型同样需要具备强大推理能力,才能提供更高阶智能、更自然交互。基于推理能力,Step-Audio-R1.1 不仅能准确识别声音,还可以捕捉到声音背后的情绪和心理状态、言外之意,并能基于环境音推导对物理世界的理解。比如当听到最近爆火网络的“海豹舞”音频时,模型不仅能识别出韩语歌词,更判断出这是典型语言学习或发音练习的音频,而非自然对话。

一种行业共识是,语音是终端场景下最主流的交互方式。自 2025 年发力“AI+终端”战略,阶跃星辰相继发布了业内首个产品级的开源语音交互模型 Step-Audio、端到端语音模型 Step-Audio 2 系列、音频编辑模型 Step-Audio-EditX、全球首个开源原生音频推理模型 Step Audio R1。

在刚闭幕的 2026 年国际消费电子展上,吉利展示了搭载阶跃语音大模型的吉利银河 M9 海外版,凭借极具真人感的交互效果引发海外观众的热议。吉利银河 M9 也是业内首个搭载端到端语音模型的量产车型。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/17 2:30:09

军工仿真软件如何实现三维公式与Word数据联动至XHEDITOR?

Word一键转存CMS升级方案 项目背景与需求分析 作为山西软件工程专业的大三学生,我正在给自己的CMS新闻管理系统添加Word一键转存功能。核心需求包括: 富文本粘贴:支持Word内容粘贴并保留完整样式自动上传:图片自动上传到阿里云…

作者头像 李华
网站建设 2026/1/15 12:37:56

Cesium 处理屏幕空间事件(鼠标点击、移动、滚轮)的示例

鼠标点击事件通过LEFT_CLICK类型监听,使用drillPick方法获取点击的对象并打印其名称。鼠标移动事件通过MOUSE_MOVE类型监听,使用pickEllipsoid方法获取鼠标位置对应的经纬度并打印。鼠标滚轮事件通过WHEEL类型监听,通过调整相机的高度来实现缩…

作者头像 李华
网站建设 2026/1/15 12:32:54

计算机视觉“奥运会”:CVPR, ICCV, ECCV 全解析

点击 “AladdinEdu,你的AI学习实践工作坊”,注册即送-H卡级别算力,沉浸式云原生集成开发环境,80G大显存多卡并行,按量弹性计费,教育用户更享超低价。 计算机视觉“奥运会”:CVPR, IC…

作者头像 李华
网站建设 2026/1/15 12:18:38

普通人成为一名网络安全工程师难吗?

如果对该专业感兴趣且愿意为之努力,那么学起来是十分轻松的;如果不感兴趣且不愿下功夫,学习起来肯定比较难的 需要学什么? 成为网络安全工程师,需要经历3各阶段:初级安全工程师→中级安全工程师→高级安全…

作者头像 李华