钉钉联合通义推出Fun-ASR：开源语音识别新标杆-开发者社区

钉钉联合通义推出Fun-ASR：开源语音识别新标杆

在远程办公、在线教育和智能客服日益普及的今天，会议录音转文字、课堂语音归档、客户对话分析等需求正以前所未有的速度增长。然而，许多团队仍面临一个共同难题：市面上的语音识别工具要么依赖云端服务、存在隐私风险；要么部署复杂、需要专业AI背景才能上手。

正是在这样的背景下，钉钉联合通义实验室推出了Fun-ASR——一款真正“开箱即用”的开源中文语音识别系统。它不仅集成了高精度ASR模型，还自带WebUI界面，普通用户无需写一行代码，就能完成从音频上传到文本导出的全流程操作。更重要的是，所有数据处理均可在本地完成，彻底打消企业对敏感信息外泄的顾虑。

这不仅仅是一个技术产品，更是一次对语音识别平民化的有力推动。

为什么 Fun-ASR 值得关注？

Fun-ASR 的核心价值并不在于“又多了一个ASR模型”，而在于它将多个关键技术模块有机整合，构建出一套面向实际应用的完整解决方案。我们不妨先看几个典型场景：

一位产品经理录制了3小时的项目复盘会，希望快速生成会议纪要；
教研组需要将上百节录播课转为带时间戳的文字稿，用于内容检索；
客服主管想批量分析近期通话录音中的关键词出现频率，优化话术流程。

这些任务如果交给传统方式，可能需要人工逐字听写或使用收费API按分钟计费。而Fun-ASR通过本地化部署+批量处理机制，让这一切变得高效且低成本。

它的设计哲学很清晰：降低门槛、提升可用性、保障安全性。

核心能力拆解：不只是语音转文字

轻量级高性能模型：`Fun-ASR-Nano-2512`

当前版本搭载的Fun-ASR-Nano-2512是一个专为中文场景优化的轻量级端到端语音识别模型。虽然官方未完全公开其架构细节，但从功能表现来看，极有可能基于 Conformer 或类似的自注意力结构进行改进。

该模型采用“梅尔频谱特征提取 + 深层编码器 + CTC/Attention联合解码”的标准流程：

graph LR A[原始音频] --> B[分帧加窗] B --> C[提取梅尔频谱] C --> D[Conformer编码器] D --> E[CTC分支] D --> F[Attention解码器] E & F --> G[融合输出文本] G --> H[ITN后处理]

这种混合解码策略兼顾了实时性和准确率——CTC负责稳定输出音素序列，Attention则捕捉上下文语义，尤其擅长处理同音词歧义问题（如“权利” vs “权力”）。

尽管是“Nano”版本，其在电话信道、远场录音等复杂环境下的WER（词错误率）仍优于多数开源方案，尤其是在数字、年份、专业术语的识别上表现出色。

更关键的是，这个模型能在消费级GPU（如RTX 3060）甚至M1/M2芯片的MacBook上流畅运行，推理速度接近1x实时，意味着一段5分钟的音频大约只需5秒即可完成转写。

VAD：让长音频也能“流式”处理

严格来说，Fun-ASR原生并不支持真正的流式识别（streaming ASR），但它巧妙地借助VAD（Voice Activity Detection）实现了近似效果。

VAD的作用是自动检测音频中哪些片段包含有效语音，并将其切分为独立段落。这一机制解决了两个关键问题：

避免无效计算：跳过静音或背景噪音部分，显著减少冗余推理；
模拟流式体验：对于实时麦克风输入，系统可每秒检测一次语音活动，一旦捕捉到语音就开始局部识别，实现“边说边出字”的交互感。

Fun-ASR默认使用基于WebRTC的VAD实现，支持三种灵敏度模式（0~3），推荐使用模式2以平衡误报与漏检。同时允许用户自定义最大单段时长（1000–60000ms），防止因说话停顿导致语义断裂。

举个例子，在一场多人交替发言的会议中，若设置最大片段为30秒，系统会在每人说完一段话后自动切分并识别，最终拼接成连贯文本。相比一次性加载整段音频，这种方式对内存更友好，也更适合长时间录音。

import webrtcvad from collections import deque def frame_generator(frame_duration_ms, audio, sample_rate): n = int(sample_rate * (frame_duration_ms / 1000.0) * 2) offset = 0 timestamp = 0.0 while offset + n < len(audio): yield type('Frame', (), { 'bytes': audio[offset:offset+n], 'timestamp': timestamp })() timestamp += frame_duration_ms / 1000.0 offset += n def detect_speech_segments(audio_data, sample_rate=16000): vad = webrtcvad.Vad(2) frames = frame_generator(30, audio_data, sample_rate) ring_buffer = deque(maxlen=int(300 / 30)) # 缓存10个frame判断状态 triggered = False segments = [] start_time = None for frame in frames: is_speech = vad.is_speech(frame.bytes, sample_rate) if not triggered: ring_buffer.append(is_speech) if sum(ring_buffer) >= 0.9 * ring_buffer.maxlen: triggered = True start_time = frame.timestamp segments.append({'start': start_time}) elif is_speech: ring_buffer.append(is_speech) else: ring_buffer.append(is_speech) if sum(ring_buffer) <= 0.1 * ring_buffer.maxlen: triggered = False segments[-1]['end'] = frame.timestamp return segments

上述代码展示了带有缓冲机制的VAD实现逻辑，能有效过滤短暂噪声触发，提升分割稳定性。在Fun-ASR中，这套逻辑被封装为后台服务，供前端调用。

ITN：把“口语”变成“书面语”

语音识别的结果往往是高度口语化的。比如：“我今年二十五岁”、“下个月十号开会”、“联系方式是幺八六零零一二三四五”。如果不加处理，这类表达难以直接用于文档生成或后续NLP分析。

这就是ITN（Inverse Text Normalization，逆文本规整）的价值所在。它像一位“语言编辑”，自动完成以下转换：

口语表达	规范化结果
二零二五年	2025年
三点五公里	3.5公里
第一百二十页	第120页
零六	06
一八六零零一二三四五	1860012345

Fun-ASR内置了一套基于规则匹配与有限状态机的ITN引擎，默认开启。它可以精准识别数字、日期、时间、货币、单位等常见实体，并根据上下文决定是否替换。例如，“第一千二百页”不会被误转为“第1200页”，因为“第一”作为序数前缀会被保留。

这项功能极大提升了输出文本的可用性。尤其在生成会议纪要、法律笔录、医疗记录等正式文档时，几乎无需人工校对即可直接交付。

当然，ITN也不是万能的。某些特殊语境下（如访谈逐字稿、方言研究），反而需要保留原始发音形态。因此Fun-ASR提供了开关选项，让用户按需启用。

批量处理：企业级自动化的核心

如果说单文件识别解决的是“有没有”的问题，那么批量处理解决的就是“快不快”的问题。

Fun-ASR WebUI支持一次性上传多个音频文件（建议不超过50个），系统会将其加入队列，依次执行识别任务。整个过程支持：

实时进度条显示；
中途取消操作；
完成后统一导出为CSV或JSON格式；
结果自动存入本地SQLite数据库（webui/data/history.db），支持搜索与删除。

其背后依赖的是典型的异步任务调度机制。以下是简化版的服务端逻辑：

from flask import Flask, request, jsonify import threading import queue as q import json app = Flask(__name__) task_queue = q.Queue() def worker(): while True: job = task_queue.get() if job is None: break process_single_file(job['file'], job['config']) task_queue.task_done() # 启动工作线程 threading.Thread(target=worker, daemon=True).start() @app.route('/api/batch', methods=['POST']) def handle_batch(): files = request.files.getlist('audio_files') config = parse_config(request.form) total = len(files) for file in files: task_queue.put({ 'file': file, 'config': config }) return jsonify({ 'status': 'accepted', 'total_files': total, 'queue_position': task_queue.qsize() })

这里的关键设计考量包括：

串行优先于并行：避免多个大模型推理同时抢占GPU显存导致OOM；
容错机制：单个文件失败不影响整体流程，错误信息会被记录并继续处理下一个；
配置继承：所有文件共享相同的语言、热词、ITN设置，确保输出一致性。

对于需要定期处理大量语音的企业来说，这套机制完全可以接入自动化流水线，配合定时脚本实现“无人值守”转写。

系统架构与工程实践

Fun-ASR采用前后端分离的经典架构：

graph TB A[浏览器] -- HTTP/WebSocket --> B[Flask/FastAPI后端] B --> C[Fun-ASR推理引擎] C --> D{CUDA/GPU?} D -->|是| E[NVIDIA GPU] D -->|否| F[CPU/MPS]

各层职责明确：

前端：基于HTML/CSS/JS构建可视化界面，提供拖拽上传、参数配置、结果显示等功能；
后端：使用Python框架（如Flask）接收请求、管理任务队列、调用模型API；
模型层：加载ASR主干模型，协同VAD与ITN模块完成完整识别流程；
硬件层：根据设备条件选择最优计算后端，支持CUDA、ROCm、CPU及Apple Silicon的MPS加速。

部署方面，项目提供一键启动脚本bash start_app.sh，自动检测环境并拉起服务，默认监听http://localhost:7860。整个过程无需手动安装依赖或配置环境变量，极大降低了入门门槛。

使用建议与最佳实践

如何最大化识别准确率？

善用热词功能：将高频术语（如产品名、人名、行业黑话）添加至热词列表，模型会在解码时给予更高权重。例如，在科技公司内部会议中加入“通义千问”、“钉钉宜搭”等词汇，可显著提升召回率。
预处理音频质量：对于嘈杂录音，建议先使用降噪工具（如RNNoise、Audacity）清理背景音。VAD虽能过滤静音，但无法修复低信噪比带来的识别偏差。
合理设置VAD参数：在安静环境下可调高灵敏度（模式3）；若录音中有频繁短暂停顿（如演讲节奏），建议延长最小语音段长度，避免过度切分。

关于安全与协作

所有数据均存储于本地，无网络上传行为，适合处理敏感内容；
若需多人共享访问，可通过公网IP部署服务，但务必配置身份认证（如HTTP Basic Auth或反向代理鉴权）；
历史记录库支持导出与备份，便于归档管理。

浏览器兼容性提示

推荐使用Chrome或Edge浏览器，Safari在部分Mac设备上可能存在麦克风权限获取异常问题。如遇无法录音，请检查系统隐私设置中是否已授权网页访问麦克风。

写在最后

Fun-ASR的意义，远不止于“又一个开源ASR工具”。它代表了一种新的技术落地思路：将前沿模型能力封装成普通人也能轻松使用的工具。

在过去，部署一个语音识别系统往往需要组建专门的AI工程团队；而现在，一名行政助理就可以在自己的笔记本电脑上，用不到十分钟的时间完成整套环境搭建，并开始处理日常会议录音。

这种“去专业化”的趋势，正是AI普惠化的真正体现。

随着社区贡献的不断涌入，未来Fun-ASR有望进一步支持更多语言、扩展流式识别能力、集成语音合成与翻译模块，成为一个真正的多模态语音处理平台。而对于开发者而言，其清晰的模块划分和开放的代码结构，也为二次开发提供了良好基础。

可以预见，在教育、政务、医疗、金融等多个领域，类似Fun-ASR这样的工具将成为数字化转型的重要基础设施之一。而它的出现，也让“让机器听懂人类语言”这件事，离现实更近了一步。

钉钉联合通义推出Fun-ASR：开源语音识别新标杆