通义实验室正式推出 Fun-ASR1.5 语音识别大模型,实现「方言工业级可用」,单模型覆盖 30 种语言及多种方言,典型方言场景字错误率大幅下降。
Fun-ASR1.5 基于统一大模型架构,能无缝覆盖 30 种语言、汉语七大方言体系及 20 + 地方口音。目前已有 5 种方言准确率突破 90%,15 种超过 80%。
该模型基于超数十万小时真实方言语音数据训练,涵盖日常对话、地方新闻等多场景,支持汉语传统七大方言体系,适配 20 + 地区口音官话。
测试显示,典型方言音频上,Fun-ASR1.5 相比上一版本平均字错误率相对下降 56.2%,赋能县域教育直播等长尾高价值应用场景。
它支持 30 种主流语言精准识别,在混合语种对话等场景表现突出,还对中文古诗词识别专项优化,内部评测集字符级准确率达 97%。
Fun-ASR1.5 在后处理环节,标点预测更智能,文本归一化表现进一步提升。
编辑观点:Fun-ASR1.5 的推出,为语音识别领域带来新突破,有望在多领域广泛应用,推动方言文化传承和多语言交流发展。