Emotion2Vec+ Large如何二次开发？API接口调用代码实例-开发者社区

Emotion2Vec+ Large如何二次开发？API接口调用代码实例

1. 为什么需要二次开发？

Emotion2Vec+ Large语音情感识别系统开箱即用，但真实业务场景往往需要更灵活的集成方式。比如：

把情感分析能力嵌入到客服系统中，实时分析通话情绪
批量处理上千条培训录音，生成员工情绪分布报告
和企业微信/钉钉打通，自动推送高愤怒值通话预警
将embedding特征向量接入自己的聚类模型，做用户情绪画像

这些需求，光靠WebUI点点点是没法满足的。你需要的是——稳定、可编程、能嵌入业务逻辑的API接口。

好消息是：这个系统底层完全基于Gradio构建，而Gradio原生支持API服务模式。不需要改一行模型代码，只要启动方式稍作调整，就能获得完整的RESTful接口能力。

2. 从WebUI到API：两种启动模式的区别

2.1 WebUI模式（默认）

你熟悉的/bin/bash /root/run.sh启动后，系统监听http://localhost:7860，提供图形界面。所有交互都通过浏览器完成。

2.2 API模式（二次开发关键）

只需添加一个参数，就能让系统同时暴露API端点：

# 启动API服务（不打开浏览器，只提供接口） gradio app.py --api --server-port 7860 --server-name 0.0.0.0

或者修改run.sh脚本，把最后一行换成：

python -m gradio app.py --api --server-port 7860 --server-name 0.0.0.0

启动成功后，你会看到类似这样的日志：

Running on local URL: http://0.0.0.0:7860 Running on public URL: https://xxx.gradio.live API DOCS: http://0.0.0.0:7860/docs

重点来了：/docs路径就是自动生成的OpenAPI文档，Swagger UI界面，点开就能看到所有可用接口、参数说明和示例请求。

3. 核心API接口详解

系统暴露了两个最关键的端点，对应WebUI上的两大功能：情感识别和embedding提取。

3.1 情感识别接口`/predict`

HTTP方法：POST
路径：http://localhost:7860/predict
请求体：multipart/form-data格式，包含：
- audio: 音频文件（WAV/MP3等）
- granularity: 字符串，utterance或frame
响应体：JSON，结构与result.json完全一致

Python调用示例（requests）

import requests import json # 本地API地址 API_URL = "http://localhost:7860/predict" # 准备音频文件 with open("sample.wav", "rb") as f: files = { "audio": ("sample.wav", f, "audio/wav") } data = { "granularity": "utterance" } # 发送请求 response = requests.post(API_URL, files=files, data=data) # 解析结果 if response.status_code == 200: result = response.json() print(f"主要情感：{result['emotion']} ({result['confidence']:.1%})") print("各情感得分：") for emo, score in result["scores"].items(): print(f" {emo}: {score:.3f}") else: print(f"请求失败，状态码：{response.status_code}")

cURL调用示例（调试用）

curl -X POST "http://localhost:7860/predict" \ -H "accept: application/json" \ -F "audio=@sample.wav" \ -F "granularity=utterance"

3.2 Embedding提取接口`/predict_embedding`

HTTP方法：POST
路径：http://localhost:7860/predict_embedding
请求体：同上，但无需granularity参数（embedding与粒度无关）
响应体：JSON，包含base64编码的numpy数组

Python调用示例（处理embedding）

import requests import numpy as np import base64 API_URL = "http://localhost:7860/predict_embedding" with open("sample.wav", "rb") as f: files = {"audio": ("sample.wav", f, "audio/wav")} response = requests.post(API_URL, files=files) if response.status_code == 200: result = response.json() # 解码base64为numpy数组 embedding_bytes = base64.b64decode(result["embedding"]) embedding = np.frombuffer(embedding_bytes, dtype=np.float32) print(f"Embedding维度：{embedding.shape}") print(f"前5个值：{embedding[:5]}") # 现在你可以用它做任何事：相似度计算、聚类、分类... # 例如，计算两段语音的余弦相似度 def cosine_similarity(a, b): return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

4. 生产环境部署建议

WebUI模式适合调试，但上线必须考虑稳定性、并发和安全性。

4.1 使用Nginx反向代理（推荐）

避免直接暴露Gradio端口，用Nginx做统一入口：

# /etc/nginx/conf.d/emotion2vec.conf upstream emotion2vec_api { server 127.0.0.1:7860; } server { listen 80; server_name emotion.yourcompany.com; location / { proxy_pass http://emotion2vec_api; proxy_set_header Host $host; proxy_set_header X-Real-IP $remote_addr; proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for; } # 限制上传大小（默认Gradio限制200MB，按需调整） client_max_body_size 50M; }

4.2 启动脚本增强版（run_api.sh）

#!/bin/bash # 保存为 /root/run_api.sh # 创建日志目录 mkdir -p /var/log/emotion2vec # 启动API服务，后台运行并记录日志 nohup python -m gradio app.py \ --api \ --server-port 7860 \ --server-name 0.0.0.0 \ --share false > /var/log/emotion2vec/api.log 2>&1 & echo "Emotion2Vec API started on port 7860" echo "Logs: /var/log/emotion2vec/api.log"

赋予执行权限并启动：

chmod +x /root/run_api.sh /root/run_api.sh

4.3 健康检查接口（自己加一行）

在app.py的Gradio界面定义后，加一个简单的Flask健康检查（如果项目已引入Flask）：

from flask import Flask app = Flask(__name__) @app.route("/health") def health(): return {"status": "ok", "model": "Emotion2Vec+ Large"}

这样运维团队可以用curl http://localhost:7860/health做服务探活。

5. 实战：构建客服情绪预警系统

假设你要为呼叫中心增加“高愤怒值通话实时预警”功能，以下是完整流程：

5.1 架构设计

电话系统 → 录音文件（S3/本地） → 定时扫描脚本 → 调用Emotion2Vec API → 判断愤怒值 > 70% → 推送企业微信

5.2 核心预警脚本（Python）

import os import time import json import requests from pathlib import Path # 配置 API_URL = "http://localhost:7860/predict" ALERT_THRESHOLD = 0.7 # 愤怒置信度阈值 RECORDINGS_DIR = "/path/to/call_recordings" PROCESSED_DIR = "/path/to/processed" def send_wechat_alert(call_id, anger_score): """发送企业微信预警（简化版）""" # 这里填入你的企业微信机器人webhook webhook = "https://qyapi.weixin.qq.com/..." payload = { "msgtype": "text", "text": { "content": f" 客服通话预警\n通话ID：{call_id}\n愤怒值：{anger_score:.1%}\n请及时介入！" } } requests.post(webhook, json=payload) def process_new_recordings(): recordings = list(Path(RECORDINGS_DIR).glob("*.wav")) for audio_path in recordings: try: # 调用API with open(audio_path, "rb") as f: files = {"audio": (audio_path.name, f, "audio/wav")} data = {"granularity": "utterance"} resp = requests.post(API_URL, files=files, data=data, timeout=30) if resp.status_code == 200: result = resp.json() anger_score = result["scores"].get("angry", 0) if anger_score > ALERT_THRESHOLD: call_id = audio_path.stem send_wechat_alert(call_id, anger_score) print(f" 预警已发送：{call_id} (愤怒值 {anger_score:.1%})") # 移动到已处理目录 audio_path.rename(Path(PROCESSED_DIR) / audio_path.name) except Exception as e: print(f"❌ 处理失败 {audio_path}: {e}") # 主循环 if __name__ == "__main__": while True: process_new_recordings() time.sleep(60) # 每分钟检查一次

5.3 关键注意事项

并发控制：Gradio默认单线程，高并发时会排队。如需提升吞吐，启动多个实例+负载均衡，或改用--max_threads 4参数。
内存管理：每次推理会加载模型到显存。长时间运行后，建议定期重启服务（如每天凌晨）。
错误重试：网络波动时API可能超时，脚本中应加入指数退避重试逻辑。
音频预处理：生产环境建议先用pydub统一转成16kHz单声道WAV，避免API内部转换耗时。

6. 常见问题与解决方案

6.1 “API返回422 Unprocessable Entity”

这是Gradio的验证错误，通常因为：

上传的不是有效音频文件（损坏或格式不支持）
granularity参数拼写错误（必须是utterance或frame，大小写敏感）
文件名含中文或特殊字符（建议用英文命名）

解决：先用file sample.wav命令确认文件类型，再用ffprobe sample.wav检查音频流信息。

6.2 “Connection refused”错误

说明API服务没起来。排查步骤：

ps aux | grep gradio看进程是否存在
netstat -tuln | grep :7860看端口是否监听
tail -f /var/log/emotion2vec/api.log查看启动日志是否有报错

6.3 如何获取帧级别详细结果？

WebUI里选frame粒度，API同样支持。但注意：返回的result.json结构会变化——scores变成二维数组，每行是一个时间帧的9维情感得分。

# 解析帧级别结果 frames = result["scores"] # shape: [num_frames, 9] print(f"共{len(frames)}帧，每帧情感分布：") for i, frame_scores in enumerate(frames[:3]): # 打印前3帧 dominant_emo = max(frame_scores.items(), key=lambda x: x[1]) print(f" 帧{i}: {dominant_emo[0]} ({dominant_emo[1]:.2f})")

6.4 能否批量上传多个音频？

Gradio原生不支持多文件批量预测。但你可以：

写个循环脚本，逐个调用/predict
或者修改app.py，在predict函数里加个audio_list参数，内部循环处理
更优雅的方式：用concurrent.futures.ThreadPoolExecutor并发调用，提速3-5倍

7. 总结：二次开发的核心价值

Emotion2Vec+ Large不只是一个玩具Demo，它是一套可落地的企业级能力。通过API化改造，你获得了：

灵活性：不再受限于WebUI的交互逻辑，可以嵌入任何系统
自动化：与现有ETL流程、告警系统、BI平台无缝对接
可扩展性：embedding向量是通用特征，能支撑情感聚类、趋势分析、个性化推荐等高级应用
可控性：所有输入输出都在你掌控中，符合企业安全合规要求

记住，所有这些都不需要你懂PyTorch或ASR原理。你只需要理解三个核心概念：

predict接口 → 拿情感标签和置信度
predict_embedding接口 → 拿数值化特征向量
granularity参数 → 控制输出粒度（整句 or 逐帧）

现在，就去修改你的run.sh，启动API服务，然后用几行Python代码，把情绪识别能力真正用起来吧。

获取更多AI镜像
想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

Emotion2Vec+ Large如何二次开发？API接口调用代码实例