深入解析chattts/core.py中的_infer断言错误：从源码到解决方案-开发者社区

深入解析chattts/core.py中的_infer断言错误：从源码到解决方案

周末本想跑个语音合成 demo，结果刚把模型路径写好，终端就蹦出一句：

chattts/core.py", line 402, in _infer assert self.has_loaded(use_decoder=use_decoder) AssertionError

熟悉的 assert，陌生的报错。翻完 issue 区发现踩坑的人不少，干脆把这次“踩坑-爬坑”过程写成笔记，省得下次再掉进去。

1. 问题背景：_infer 到底在急什么？

ChatTTS 把“模型是否已经就绪”的检查放在推理最前线，_infer()的任务很简单：

把文本送进声学模型
视情况启用解码器
返回音频张量

但第 402 行那句 assert 像守门员：只要has_loaded(...)返回 False，直接抛错，后面连 GPU 都不会碰。常见触发场景：

多线程 Web 服务里，第一次请求还没加载完，第二个请求就溜进来
把use_decoder手动关掉/打开，却忘记重新加载权重
磁盘 IO 慢，权重文件读到一半就调用infer()

一句话：模型“没吃饱”就被拉去跑，守门员当然不让进。

2. 源码分析：402 行前后到底看了啥？

下面这段是 0.9.2 版 core.py 的精简快照（行号大致对齐）：

# core.py L395-405 def _infer(self, text, use_decoder=True): # 1. 守门员登场 assert self.has_loaded(use_decoder=use_decoder), \ "Model not ready. Call load_models() first." # 2. 真正推理 with torch.no_grad(): mel = self.acoustic_model(text) if use_decoder: wav = self.decoder(mel) else: wav = self.vocoder(mel) return wav

再看has_loaded的实现（L180 附近）：

def has_loaded(self, use_decoder=True): ready = self.acoustic_model is not None if use_decoder: ready &= self.decoder is not None else: ready &= self.vocoder is not None return ready

逻辑直白：指针非空就算过关。问题根源往往不在“判断”，而在“写入”——某个线程刚把self.acoustic_model置好，另一个线程就切进来，但self.decoder还是 None，于是 assert 失败。

3. 解决方案：三档车速任你挑

方案	改动量	优点	缺点	适用场景
立即修复：调用前手动`load_models()`	1 行	零侵入，10 秒搞定	容易忘，多线程仍踩坑	本地一次性脚本
中阶：惰性初始化装饰器	10 行	自动重试，对业务透明	需改源码，首次请求慢	Web 单实例
长期：异步预加载 + 读写锁	30+ 行	并发安全，内存可控	实现复杂	生产微服务

下面展开代码细节。

4. 代码示例：让模型“吃饱”再上岗

4.1 立即修复版（本地脚本）

from chattts import ChatTTS chat = ChatTTS() # 保证一次性喂饱 chat.load_models(compile=False, # 关掉 torch.compile 可提速 decoder_config='decoder.ckpt', vocoder_config='vocoder.ckpt') wav = chat.infer("你好，世界", use_decoder=True)

4.2 惰性初始化装饰器（线程安全版）

import threading from functools import wraps def lazy_load(use_decoder_lock=True): def decorator(fn): @wraps(fn) def wrapper(self, *args, **kw): with self._load_lock: # 读写锁保证只加载一次 if not self.has_loaded(use_decoder=kw.get("use_decoder", True)): self.load_models(compile=False) return fn(self, *args, **kw) return wrapper return decorator # 在 ChatTTS 类里加一把锁 class ChatTTS: def __init__(self): self._load_lock = threading.RLock() ... @lazy_load() def _infer(self, text, use_decoder=True): ...

4.3 异步预加载（FastAPI 示例）

启动时把模型拉满，推理接口直接复用：

from fastapi import FastAPI import chattts app = FastAPI() tts = chatts.ChatTTS() @app.on_event("startup") def preload(): tts.load_models(compile=False) # 阻塞启动，但保证就绪 @app.post("/tts") def synthesize(req: TTSRequest): wav = tts.infer(req.text, use_decoder=req.use_decoder) return {"audio": wav.tolist()}

5. 生产环境建议：并发、内存与热加载

线程安全
推荐threading.RLock而不是普通Lock，防止同线程递归调用死锁。
内存占用
声学模型 + 解码器 ≈ 1.1 GB（FP16）。若实例数 * 并发容器 > 可用显存，用torch.cuda.empty_cache()在每次推理后手动归还，或把decoder与vocoder做成懒加载，按需切换。
热加载
版本升级不想重启服务？把load_models()包装成管理端点/reload，收到 POST 后重新torch.load，并替换self.__dict__中的对应模块。注意老模型要先del再gc.collect()，否则显存会“叠罗汉”。

6. 调试技巧：让断言开口说话

pdb一行切入
在 402 行前加import pdb; pdb.set_trace()，运行到断点输入：

_code (Pdb) self.has_loaded(use_decoder=True) (Pdb) pp self.dict

立刻能看到哪个子模块是 None。 - 日志比 print 香 用标准库 logging，给 `ChatTTS` 加句柄： ```python import logging logging.basicConfig( level=logging.INFO, format="%(asctime)s [%(levelname)s] %(message)s" ) logger = logging.getLogger("ChatTTS") # 在 has_loaded 里记一笔 logger.info("has_loaded check: acoustic=%s, decoder=%s", self.acoustic_model, self.decoder)

日志会告诉你断言失败那一刻的精确状态，比盯着黑屏 assert 强太多。

7. 小结：一句话记住

“先吃饱再跑”是深度学习服务的铁律——把加载和推理解耦，给守门员 assert 配好锁，就能把 AssertionError 消灭在摇篮里。

开放式思考

如果未来 ChatTTS 支持多卡并行，你会把has_loaded的判定从“单卡模块指针非空”升级为“多卡模块全部就绪”吗？怎样设计才能避免 O(n) 次卡间同步？
惰性初始化虽然爽，但首次请求总会慢半拍。有没有办法在“服务启动”与“用户第一次请求”之间做渐进式预加载，既不让用户卡死，也不浪费空闲显存？

期待看到你的实践与脑洞。