如何导出识别结果？Fun-ASR CSV/JSON格式支持-开发者社区

如何导出识别结果？Fun-ASR CSV/JSON格式支持

在语音识别任务中，完成音频转写只是第一步。真正决定系统实用性的，是识别结果能否高效地被导出、整合与再利用。对于企业级应用而言，结构化输出能力直接关系到后续的数据分析、文档归档和团队协作效率。

Fun-ASR WebUI 作为钉钉联合通义推出的语音识别大模型系统，不仅具备高精度多语言识别能力，更提供了完善的CSV 和 JSON 格式导出功能，让每一次识别都能无缝接入企业的数据工作流。本文将深入解析 Fun-ASR 的结果导出机制，帮助用户掌握批量处理后的标准化输出方法。

1. 批量处理与结果导出概述

1.1 功能定位

Fun-ASR 的“批量处理”模块专为多文件场景设计，适用于会议录音整理、客服质检、培训课程转录等高频需求。当多个音频文件完成识别后，系统支持将所有结果统一导出为标准结构化格式：

CSV（Comma-Separated Values）：适合导入 Excel、数据库或进行数据分析
JSON（JavaScript Object Notation）：便于程序解析、API 对接和前后端交互

这两种格式均包含完整的识别信息与元数据，确保数据可追溯、可复用。

1.2 典型应用场景

场景	输出格式选择	原因
客服录音质检报表	CSV	易于用 Excel 统计关键词出现频次
会议纪要自动归档	JSON	可被 OA 系统直接读取并生成摘要
模型效果对比测试	CSV	支持快速计算 WER（词错误率）
多人协同编辑流程	JSON	包含时间戳与参数快照，利于版本控制

2. 导出操作流程详解

2.1 完成批量识别

在使用导出功能前，需先完成批量处理流程：

进入 WebUI 的「批量处理」页面
拖拽上传多个音频文件（支持 WAV、MP3、M4A、FLAC）
配置公共参数：
- 目标语言（中文/英文/日文）
- 是否启用 ITN 文本规整
- 添加热词列表（如“营业时间”、“客服电话”）
点击“开始批量处理”，等待进度条完成

提示：建议每批处理不超过 50 个文件，避免内存压力过大导致中断。

2.2 触发导出动作

处理完成后，界面会显示“导出结果”按钮，点击后弹出选项框：

✅导出为 CSV
✅导出为 JSON

选择任一格式后，系统自动生成压缩包recognition_results.zip并触发浏览器下载。

2.3 文件结构说明

下载的压缩包内包含以下内容：

recognition_results/ ├── results.csv # 或 results.json ├── metadata.json # 本次任务的全局配置 └── audio_files/ # 原始音频副本（可选）

其中results.csv和results.json是核心输出文件，下面分别解析其字段结构。

3. CSV 与 JSON 输出格式深度解析

3.1 CSV 格式结构

CSV 文件采用 UTF-8 编码，首行为表头，每行对应一个音频文件的识别结果。

字段定义

列名	类型	说明
id	int	本地历史记录 ID
filename	string	原始文件名
filepath	string	服务器存储路径
timestamp	datetime	识别完成时间（ISO8601）
language	string	使用的目标语言
use_itn	boolean	是否启用文本规整
hotwords	string	热词列表（以分号分隔）
raw_text	text	原始识别文本
normalized_text	text	ITN 规整后文本（若启用）

示例片段

id,filename,timestamp,language,use_itn,hotwords,raw_text,normalized_text 1001,meeting_01.mp3,2025-04-05T14:30:22Z,中文,True,"开放时间;营业时间","今天开放时间从早上九点到晚上八点","今天开放时间从早上9点到晚上8点" 1002,interview_en.wav,2025-04-05T15:12:10Z,英文,True,"project deadline","The project deadline is next Friday","The project deadline is next Friday"

注意：若字段中包含换行符或逗号，系统会自动用双引号包裹该字段，符合 RFC 4180 标准。

3.2 JSON 格式结构

JSON 文件为数组形式，每个元素代表一条识别记录，保留了更丰富的嵌套信息。

数据结构示例

[ { "id": 1001, "filename": "meeting_01.mp3", "filepath": "/data/audio/meeting_01.mp3", "timestamp": "2025-04-05T14:30:22Z", "config": { "language": "中文", "use_itn": true, "hotwords": ["开放时间", "营业时间", "客服电话"] }, "duration": 183.4, "segments": [ { "start": 0.0, "end": 5.2, "text": "各位同事大家好" }, { "start": 5.3, "end": 12.1, "text": "今天的会议主题是Q2运营计划" } ], "raw_text": "各位同事大家好 今天的会议主题是Q2运营计划...", "normalized_text": "各位同事大家好 今天的会议主题是第二季度运营计划..." } ]

关键特性

segments字段：提供带时间戳的分段文本，可用于生成 SRT 字幕
config对象：完整保存识别时的参数快照，支持结果复现
duration字段：音频总时长（秒），便于统计处理效率

3.3 格式对比与选型建议

维度	CSV	JSON
可读性	高（Excel 可直接打开）	中（需格式化查看）
程序解析难度	低（pandas.read_csv）	中（json.load + 遍历）
支持嵌套结构	否	是（如 segments）
文件体积	小（纯文本）	略大（冗余引号与括号）
适用场景	报表统计、数据导入	系统集成、API 返回

推荐实践：
若用于人工审阅或 Excel 分析 → 优先选CSV
若对接 OA、CRM 或自动化脚本 → 优先选JSON

4. 高级用法与工程化建议

4.1 自动化导出脚本示例

可通过 Selenium 或 Playwright 实现全流程自动化：

from selenium import webdriver import time import os def automate_batch_export(): driver = webdriver.Chrome() driver.get("http://localhost:7860") # 上传文件 upload_input = driver.find_element("xpath", "//input[@type='file']") upload_input.send_keys("/path/to/audio/*.mp3") # 开始处理 driver.find_element("id", "batch-process-btn").click() # 等待完成 while "Processing" in driver.page_source: time.sleep(5) # 导出为 JSON driver.find_element("id", "export-json-btn").click() time.sleep(3) # 等待下载 driver.quit() if __name__ == "__main__": automate_batch_export()

配合定时任务（cron），可实现每日凌晨自动处理新录音并上传至网盘。

4.2 与钉盘版本系统的联动

Fun-ASR 支持通过插件机制将导出动作与钉钉 Drive 深度集成：

import requests import json def sync_to_dingtalk_drive(json_path, folder_id, access_token): url = "https://oapi.dingtalk.com/topapi/vdrive/file/upload" with open(json_path, 'r', encoding='utf-8') as f: content = f.read() files = { 'content': ('results.json', content, 'application/json') } data = { 'access_token': access_token, 'parent_id': folder_id, 'name': f'results_{int(time.time())}.json' } response = requests.post(url, data=data, files=files) return response.json()

此函数可在导出后自动调用，实现“识别→导出→上传”全链路自动化。

4.3 性能优化建议

大文件分片预处理：超过 100MB 的音频建议先用 VAD 切分为小段再识别
禁用非必要字段：如无需分段时间戳，可在设置中关闭output_segments
异步导出机制：WebUI 内部采用后台线程生成文件，不影响前端响应

5. 总结

Fun-ASR WebUI 的 CSV/JSON 导出功能，不仅仅是简单的“保存按钮”，而是构建在完整工程架构之上的结构化数据出口机制。它解决了语音识别落地过程中的三大关键问题：

数据可用性：通过标准格式输出，打破 ASR 工具与业务系统的壁垒；
过程可审计：每条记录附带参数快照与时间戳，支持结果回溯；
协作可持续：结合网盘版本管理，实现多人协同下的安全修改与变更追踪。

无论是单次导出还是集成进自动化流水线，Fun-ASR 都提供了灵活且可靠的解决方案。未来随着企业对语音数据治理要求的提升，这类“识别+导出+归档”一体化的能力将成为智能语音平台的核心竞争力。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

如何导出识别结果？Fun-ASR CSV/JSON格式支持