上周调一个车载语音助手,产品经理拿着测试报告过来:“离线场景下,长文本合成要等 3 秒以上,而且人声偶尔会‘吞字’,能不能优化?” 这其实是个典型的端到端 TTS 优化问题——既要速度,又要质量。今天我们就拆解一下 OpenClaw TTS 在这方面的实战调优策略。
一、推理速度优化:别让用户等
端到端模型虽然结构简洁,但推理时的自回归生成往往就是性能瓶颈。我们最早用的原始实现,生成 5 秒音频要 2.8 秒,显然达不到实时要求。
核心策略:流式生成与缓存机制
# 原始版本:逐帧自回归,慢在哪儿?defgenerate_slow(phonemes,model):mel_frames=[]