视频字幕精确生成方法 用到字幕api开发文档
本文档将详细介绍如何调用 /api/stt/audiototexturls 接口完成音频转文字,并基于接口返回的时间轴数据生成 SRT 等格式的精准字幕,帮助开发者快速实现相关功能。
一、接口核心信息梳理
你需要调用的是一个支持批量音频 URL 转文字的接口,核心功能分为提交转写任务和查询转写结果两步,以下是接口的关键信息汇总:
1.1 基础请求信息
项⽬ 内容
接口地址 /api/stt/audiototexturls
请求方式 POST
Content-Type application/json
核心功能 提交音频 URL 转写任务(type=start)、查询转写结果(type=query)
1.2 请求参数说明
参数名 必填 类型 示例值 / 格式 说明
key 是 string 35kj5jnlj53453kl5j43nj5 接口密钥(控制台 -> 密钥管理获取)
type 是 string start/query start:提交任务(返回 task_id);query:查询任务结果
audio_urls 否 object {"audio_urls": ["https://xxx/xxx.mp3", "https://xxx/yyy.mp3"]} 批量音频 URL 数组,仅 type=start 时有效(免费测试仅支持 10 秒内音频)
task_id 否 string b68b6285901bb8621f680fbabe796d6e 任务 ID,仅 type=query 时有效(用于查询指定任务的转写结果)
1.3 返回参数核心字段说明
接口返回 JSON 格式数据,核心字段如下:
字段名 类型 说明
code int 状态码(200 表示成功,其他为失败)
msg string 状态信息(如 “识别成功”“任务处理中”)
data object 核心结果数据集,包含 task_id、display、audio_urls 等
data.display array 每个音频的识别信息组,对应单个音频的转写结果
phrases array 音频的句子级转写结果,包含文本、置信度、时间轴、单字信息
words array 单字的时间轴信息(start_ticks/offsetMilliseconds、duration 等)
exec_time float 接口执行耗时
二、开发步骤(Python 示例)
以下以 Python 为例,展示完整的开发流程:提交任务 → 轮询查询结果 → 生成 SRT 字幕文件。
来源:酷虎云api