自动化语音处理流水线：结合Shell脚本调用Fun-ASR接口-开发者社区

自动化语音处理流水线：结合Shell脚本调用Fun-ASR接口

在企业每天需要处理数百条会议录音、客服通话或课程音频的今天，手动上传、逐个识别的方式早已不堪重负。即便使用了像 Fun-ASR 这样功能强大的语音识别工具，如果仍依赖人工操作 Web 界面，效率瓶颈依然存在。真正的突破点不在于模型本身有多先进，而在于能否将这个“大脑”嵌入到自动运转的工作流中。

这正是我们构建自动化语音处理流水线的核心目标——让系统自己“听”、自己“转写”、自己“存档”，全程无需人为干预。而实现这一切的关键，可能比你想象得更简单：一个轻量级的 Shell 脚本，加上标准 HTTP 接口，就能串联起从文件系统到 AI 模型的完整链路。

Fun-ASR 是由钉钉与通义实验室联合推出的端到端语音识别系统，基于大模型（如 Fun-ASR-Nano-2512）构建，支持中文、英文等 31 种语言，在干净语音下的识别准确率可达 95% 以上。它不仅提供了直观的 WebUI 界面，更重要的是开放了完整的后端 API，使得程序化访问成为可能。

它的底层架构采用 Conformer 类神经网络，输入为原始音频波形，经过前端特征提取（如梅尔频谱）、声学建模、语言模型融合和文本规整（ITN）等多个阶段，最终输出规范化的文字结果。整个流程可在本地服务器运行，支持 CUDA、MPS 和 CPU 多种计算后端自动切换，部署时只需一条命令bash start_app.sh即可启动服务，默认监听http://localhost:7860。

这种设计极大降低了集成门槛。相比传统 ASR 工具往往缺乏 API 或需复杂 SDK 调用，Fun-ASR 的接口设计贴近 Web 表单逻辑，任何能发起 HTTP 请求的工具都可以与其交互。这也为 Shell 脚本的介入创造了条件。

Shell 脚本虽然看似“古老”，但在系统自动化领域依然不可替代。它无需额外运行时环境，直接调用操作系统原生命令，特别适合做文件遍历、进程控制、定时任务调度这类“粘合层”工作。在这个方案中，它的角色就是整个流水线的调度中枢。

核心机制非常清晰：利用curl发起 POST 请求，模拟用户在网页上传文件的动作，向/transcribe接口提交音频数据及相关参数。请求体采用multipart/form-data格式，与浏览器行为一致，确保兼容性。

以下是一组关键参数的实际含义：

参数名	说明
`file`	音频文件字段，值以`@$path`形式传入
`lang`	目标语言代码，如`zh`表示中文
`itn`	是否启用文本规整（如“二零二五年”→“2025年”）
`hotwords`	热词列表，用换行符`\n`分隔，提升专业术语识别率
`response_format`	返回格式，支持`json`或`text`

其中最值得注意的是hotwords的传递方式。由于curl -F不支持多行字符串直接注入，我们需要在变量中显式使用\n转义来拼接关键词，例如：

HOTWORDS="开放时间\n营业时间\n客服电话"

这样服务端才能正确解析并加载热词表，显著改善特定场景下的识别效果。

下面是完整的自动化脚本实现：

#!/bin/bash # === 配置区 === FUN_ASR_URL="http://localhost:7860/transcribe" INPUT_DIR="./audios" OUTPUT_DIR="./results" LOG_FILE="./batch_transcribe.log" HOTWORDS="开放时间\n营业时间\n客服电话" TARGET_LANG="zh" ENABLE_ITN="true" mkdir -p "$OUTPUT_DIR" echo "[$(date '+%Y-%m-%d %H:%M:%S')] 开始批量识别任务" >> "$LOG_FILE" for audio_file in "$INPUT_DIR"/*.{wav,mp3,m4a,flac}; do [[ -f "$audio_file" ]] || continue filename=$(basename "$audio_file") result_path="$OUTPUT_DIR/${filename%.*}.txt" temp_response="/tmp/asr_response.json" echo "正在处理: $filename" curl -s -X POST "$FUN_ASR_URL" \ -H "Content-Type: multipart/form-data" \ -F "file=@$audio_file" \ -F "lang=$TARGET_LANG" \ -F "itn=$ENABLE_ITN" \ -F "hotwords=$HOTWORDS" \ -F "response_format=json" \ -o "$temp_response" if [ $? -ne 0 ] || ! grep -q '"text"' "$temp_response"; then echo "[$(date '+%H:%M:%S')] ❌ 失败: $filename" >> "$LOG_FILE" echo "错误响应: $(cat $temp_response)" >> "$LOG_FILE" continue fi transcribed_text=$(jq -r '.normalized_text // .text' "$temp_response") echo "$transcribed_text" > "$result_path" echo "[$(date '+%H:%M:%S')] ✅ 成功: $filename -> ${filename%.*}.txt" >> "$LOG_FILE" done rm -f "$temp_response" echo "[$(date '+%Y-%m-%d %H:%M:%S')] 批量任务完成" >> "$LOG_FILE"

这个脚本虽短，但包含了工业级自动化所需的多个要素：

容错处理：通过$?检查curl执行状态，并用grep判断响应是否包含有效文本；
日志追踪：每一步操作都记录时间戳和状态，便于后续排查问题；
临时文件管理：使用/tmp存储中间 JSON 响应，任务结束后自动清理；
格式兼容性：支持常见音频格式（WAV/MP3/M4A/FLAC），适应不同来源的数据；
结果优先级：优先提取.normalized_text字段，保证输出为规范化文本。

值得一提的是，jq是一个轻量级的 JSON 处理工具，几乎所有 Linux 发行版都能通过apt install jq快速安装。如果没有它，也可以改用sed或awk提取文本，但会增加正则匹配的复杂度和出错风险。

整个系统的运行架构可以简化为四个层级：

+------------------+ +-----------------------+ | 音频文件存储区 | --> | Shell脚本调度控制器 | +------------------+ +-----------+-----------+ | v +----------------------------+ | Fun-ASR Web服务 (Python) | | - ASR模型推理 | | - VAD检测 | | - 历史记录管理 | +-------------+--------------+ | v +----------------------------+ | 结果持久化存储 (TXT/CSV) | +----------------------------+

输入层负责集中存放待处理的音频文件，比如每日同步的客服录音目录；控制层由 Shell 脚本担任，可设置为crontab定时任务，例如凌晨两点自动执行；处理层即 Fun-ASR 服务，承担实际的模型推理工作；输出层将生成的.txt文件归档保存，供后续搜索、分析或导入数据库。

典型的工作流程如下：