全栈AI媒体处理：从音频转录到智能摘要的自动化工作流实践-开发者社区

1. 项目概述：一个全栈AI媒体处理工作流

最近在折腾一个挺有意思的项目，我把它叫做“自动节目单生成器”。简单来说，这是一个全栈应用，它能帮你把一段视频或音频，从头到尾、全自动地加工成一期完整的“节目”。想象一下，你丢给它一个YouTube视频链接，它就能自动完成音频提取、AI转录、智能摘要、语音合成，甚至还能生成封面图和背景音乐。整个过程一气呵成，最终产出一个包含文字稿、摘要、章节、音频版摘要和配套视觉元素的完整内容包。

这个工具的核心价值在于，它把内容创作者从繁琐的后期处理中解放出来。无论是播客主需要为每期节目写shownotes，还是视频博主想快速生成字幕和精华片段，甚至是教育工作者想将讲座音频转化为带摘要的图文材料，都可以用它来大幅提升效率。我自己在搭建和测试的过程中，深刻体会到将多个独立的AI服务串联成一个稳定、可配置的自动化流水线，既有挑战也充满了乐趣。接下来，我就把这个项目的设计思路、实现细节以及踩过的坑，毫无保留地分享给你。

2. 核心架构与设计思路拆解

2.1 模块化流水线设计：为何选择“步骤化”？

整个应用最核心的设计思想是“模块化流水线”。我没有把所有功能写成一个巨无霸的单体函数，而是将其拆解成一个个独立的“步骤”（Step）。比如，transcribe（转录）、summarize（摘要）、tts（语音合成）等都是独立的步骤。这样做有几个显著的好处：

首先，可维护性和可测试性大大增强。每个步骤只负责一件明确的事情，输入输出接口定义清晰。当Whisper模型更新API，或者我想把GPT换成Claude时，我只需要修改transcribe或summarize这一个步骤模块，而不会影响到其他环节。测试也变得简单，我可以单独对转录的准确性进行单元测试。

其次，提升了系统的弹性和可观测性。每个步骤执行时，其状态（等待中、处理中、成功、失败）、输入参数和输出结果都会被持久化记录。这意味着任何一步失败了，我都能精准定位到问题所在，并且可以基于上一步的成功输出进行重试，而无需从头开始。这对于处理可能耗时数十分钟的长视频来说，是至关重要的可靠性保障。

最后，它提供了极大的灵活性。用户可以根据自己的需求，像搭积木一样组合这些步骤。比如，如果用户只需要字幕而不需要摘要，那么流水线就可以配置为只执行transcribe；如果用户想尝试不同AI模型的效果，我可以在配置文件中轻松切换，而无需改动核心流程代码。

2.2 技术栈选型：Bun、SolidStart与Docker的三角组合

在技术栈上，我做了几个关键选择，它们共同支撑起了这个高性能、易开发的全栈应用。

运行时：Bun我选择了Bun而非传统的Node.js。Bun是一个全新的JavaScript运行时，它的优势在于速度。其内置的快速HTTP服务器、高效的包管理（bun install速度极快）以及对TypeScript的原生支持，对于需要频繁调用外部AI API、处理媒体文件的应用来说，性能提升是实实在在的。启动开发服务器（bun dev）几乎是瞬间完成，这极大地优化了开发体验。

前端框架：SolidStart前端我采用了SolidStart，它是基于Solid.js的元框架。Solid.js以“细粒度响应式”著称，性能表现非常出色，其编译时优化的特性与Bun运行时相得益彰。SolidStart提供了类似Next.js的文件式路由、服务端渲染（SSR）等现代Web开发所必需的能力，但打包后的体积更小。这对于我们后续要做的“构建分析”和优化非常有利。使用bunx @solidjs/start可以快速搭建项目骨架。

部署与封装：Docker为了确保应用在任何环境下的行为一致，并且便于部署，Docker是必不可少的。我将整个应用（包括前端、后端和所有依赖）封装进一个Docker容器。通过Dockerfile和多阶段的构建过程，我能构建出生产环境优化的镜像。使用docker-compose.yml则可以一键启动包含应用、数据库（如果需要）等所有服务的完整环境。这对于用户来说，部署成本降到了最低，只需一条docker-compose up -d命令。

这个“Bun + SolidStart + Docker”的组合，形成了一个从开发、测试到部署都非常高效的闭环。

2.3 外部AI服务集成策略：多供应商与降级方案

项目重度依赖各类AI云服务，我的策略是：绝不把鸡蛋放在一个篮子里。以语音转录（ASR）为例，我集成了超过10个服务提供商，包括开源的Whisper（通过Groq、DeepInfra、Fal、Gladia）、商业化的AssemblyAI、Deepgram、Soniox，甚至传统服务商Rev和HappyScribe。

这种多供应商集成背后有深刻的考量：

成本与性能平衡：不同服务商的定价模型（按时长、按字符）和精度不同。对于短内容，可能用高精度的Deepgram；对于长内容，成本更低的Gladia Whisper可能是更好选择。我通过一个统一的配置层，让用户可以根据自己的预算和需求选择。
规避单点故障：任何一个API服务都可能出现临时故障、限流或停机。当首选服务（如OpenAI Whisper）不可用时，系统可以自动或手动降级到备用服务（如AssemblyAI），保证整个流水线不会因此中断。
功能差异化：有些服务提供额外的价值。例如，AssemblyAI和Deepgram不仅能转文字，还能自动识别说话人、检测话题转折，这些功能可以直接作为“章节标记”的输入，丰富最终的产出物。

为了实现这一点，我在代码中为每个功能（转录、摘要、TTS等）定义了一个抽象的“Provider”接口。每个具体的服务商（如OpenAISummarizeProvider、ClaudeSummarizeProvider）都实现这个接口。在运行时，根据环境变量或用户配置，动态实例化对应的Provider。这类似于设计模式中的“策略模式”，使得增减服务商变得非常容易。

注意：管理这么多API密钥是一个挑战。我强烈建议将所有密钥存储在环境变量中（如.env.local文件），并通过一个统一的配置模块来读取。绝对不要将密钥硬编码在源码或提交到Git仓库。在Docker部署时，使用env_file指令或Docker Secrets来管理。

3. 核心功能模块深度解析

3.1 媒体获取与音频提取：从链接到原始音频

一切处理的起点是获取原始的媒体文件。用户输入可能是一个YouTube链接、一个直接的文件上传，或者一个音频流URL。我的处理流程如下：

1. 链接解析与下载对于网络链接，我使用了一个极其强大的工具：yt-dlp。它是youtube-dl的一个更活跃的分支，支持超过1000个网站。它的优势不仅仅是下载，还包括：

格式选择：可以自动选择最佳音质（如bestaudio）进行下载，避免下载不必要的视频流，节省带宽和时间。
元数据提取：能同时获取视频标题、描述、上传者等信息，这些信息可以作为后续AI处理的补充上下文。
断点续传：处理长视频时网络不稳定，yt-dlp支持续传。

在代码中，我通过Node.js/Bun的child_process模块来调用yt-dlp命令行工具，捕获其输出路径。一个典型的命令如下：

yt-dlp -x --audio-format mp3 --output "%(title)s.%(ext)s" <视频URL>

参数解释：

-x：提取音频。
--audio-format mp3：指定输出为mp3格式，兼容性最好。
--output：自定义输出文件名，这里使用视频标题，便于后续识别。

2. 音频预处理下载下来的音频文件可能并不“干净”。直接丢给AI转录可能会影响效果。因此，我引入了一个可选的预处理步骤：

标准化响度：使用ffmpeg的loudnorm过滤器，将音频音量调整到标准水平（如-16 LUFS），避免部分段落声音过小导致转录错误。
降噪（可选）：对于背景噪声较大的音频（如现场录制），可以使用ffmpeg的afftdn或arnndn滤波器进行轻度降噪。但需谨慎，过度降噪可能损伤人声清晰度。
格式统一：确保最终输出为单声道、16kHz采样率的WAV或MP3文件，这是大多数ASR API的最佳输入格式。

这个步骤虽然增加了少量处理时间，但能显著提升后续转录环节的准确率和稳定性，是生产级应用中值得投入的环节。

3.2 AI转录核心：多引擎详解与精度对比

转录是将音频转化为文字的核心步骤。我集成了众多引擎，它们大致可分为三类：

1. 开源Whisper系（通过代理API）

Groq：利用其LPU硬件，推理速度极快，性价比高，适合对延迟敏感的场景。
DeepInfra / Fal：提供按需付费的Whisper API，通常比直接调用OpenAI便宜，且支持最新的Whisper模型（如large-v3）。
Gladia：专门优化的音频API，在嘈杂环境或带口音的音频上表现有时更好。

2. 商业ASR服务

AssemblyAI & Deepgram：这是行业的佼佼者。它们不仅提供高精度的转录，还附带“附加价值”功能，如：
- 说话人分离：自动区分不同的说话人（Speaker Diarization），标记出“说话人A”、“说话人B”。
- 实体识别：自动识别人名、地名、组织名。
- 情感分析（部分支持）：判断说话人的情绪。
- 自动章节：根据语义转折点自动划分章节。这些功能可以直接丰富我们的最终产出。它们的API设计也非常开发者友好，通常返回结构化的JSON，包含时间戳、置信度等丰富信息。

3. 传统人工与混合服务

Rev：提供高精度的人工转录服务，虽然价格高、速度慢（小时级），但在法律、医疗等对准确性要求极高的场景下是唯一选择。我将其集成作为“黄金标准”的备选方案。
HappyScribe：介于AI和人工之间，提供快速AI转录和人工校对选项。

如何选择？一个简单的决策矩阵：

需求场景	推荐引擎	理由
速度优先，成本敏感	Groq Whisper	极快的推理速度，按Token付费，短内容成本极低。
精度优先，功能丰富	AssemblyAI 或 Deepgram	准确率公认最高，且自带说话人分离、章节检测，省去后续处理。
处理长视频/音频	Gladia 或 DeepInfra	通常对长音频有更好的单价或套餐，稳定性好。
最终发布，不容有错	Rev（人工）	99%以上的准确率保障，适合最终成品字幕生成。

在我的实现中，所有转录引擎的调用都被封装在一个统一的TranscribeService里。它接收音频文件路径和配置参数，根据配置选择对应的引擎Provider，处理API响应，并将结构化的转录结果（包含时间戳的文本段落数组）标准化后输出给下一个步骤。一个关键细节是错误重试和回退机制：当首选引擎因网络或配额问题失败时，服务会自动尝试列表中的下一个引擎。

3.3 智能摘要与结构化：让LLM理解上下文

拿到完整的转录稿后，下一步是让大型语言模型（LLM）来理解它，并提炼出有价值的结构化信息。我主要集成了三大系列的模型：

OpenAI GPT系列：如gpt-4o、gpt-4-turbo。综合能力最强，在遵循复杂指令和生成高质量文本方面表现稳定，是我的默认选择。
Anthropic Claude系列：如claude-3-opus、claude-3-sonnet。以超长的上下文窗口（20万token）和强大的推理能力著称，非常适合处理长达数小时的播客转录稿，能在整个上下文中捕捉细微关联。
Google Gemini系列：如gemini-1.5-pro。在多模态理解和上下文长度上也有优势，且定价策略有时更具竞争力。

摘要步骤的Prompt工程是关键。我不是简单地对LLM说“请总结一下”，而是设计了一套详细的系统指令（System Prompt）来引导模型输出结构化的JSON。例如：

你是一个专业的播客制作助理。请根据以下转录文本，生成： 1. 一个吸引人的标题（不超过20字）。 2. 一段详细的节目描述（200-300字），概括核心内容。 3. 一个简短的摘要（100字以内），用于音频预览。 4. 根据内容逻辑，划分出3-5个章节，每个章节包含： - 章节标题 - 开始时间戳（基于原文） - 该章节的简要概括 请将结果以JSON格式输出，结构为：{“title”: “”, “description”: “”, “summary”: “”, “chapters”: [...]}。

这样，LLM的回复本身就是可解析的数据，直接可以用于填充前端页面和生成TTS脚本。一个重要的技巧是“温度”（temperature）参数的设置：对于摘要这种需要稳定、可靠输出的任务，我通常将温度设为0.1或0.2，以减少输出的随机性，保证每次处理相同内容得到的结果基本一致。

3.4 从文本到多媒体：TTS、图像与音乐生成

至此，我们有了结构化的文字内容。接下来，就是将它们“多媒体化”。

1. 文本转语音（TTS）TTS用于将生成的摘要或描述转换为音频，制作成“音频精华版”。我主要集成两家：

OpenAI TTS：提供了几种高质量的语音（alloy,echo,shimmer等），速度很快，音质自然，价格适中。
ElevenLabs：这是专业级的选择。提供极其逼真、富有表现力的语音，甚至能克隆特定音色。虽然价格更高，但对于追求最终成品质量的播客来说，是值得的。

在实现时，需要将LLM生成的摘要文本，通过TTS API转换为音频文件（如MP3）。需要处理API的流式响应或异步任务，并将生成的音频文件存储到指定位置，关联到当前处理任务。

2. AI图像生成一个吸引人的封面图能极大提升内容的点击率。我的做法是：让LLM为图像生成模型写提示词（Prompt）。

首先，我会用另一个简短的Prompt，要求LLM根据节目标题和摘要，生成一个适合DALL-E 3或Midjourney的、详细的图像描述提示词。例如：“生成一个具有科技感、代表人工智能与创意碰撞的抽象插画风格提示词。”
然后，调用OpenAI的DALL-E 3或集成的Stable Diffusion API，根据这个生成的提示词来创作封面图。
最后，将图片与节目元数据关联保存。

3. AI音乐生成背景音乐能为音频摘要增色不少。我集成了ElevenLabs的音乐生成功能。用户可以选择音乐类型（如“ upbeat corporate”, “ ambient cinematic”, “ uplifting pop”），系统会调用API生成一段无版权的、长度匹配的背景音乐，并在后期与TTS人声混合。

实操心得：多媒体生成步骤是计算密集或API调用密集的，且可能失败。必须实现完善的进度跟踪和状态管理。在用户界面上，应该明确显示“转录中 -> 摘要生成中 -> TTS生成中 -> 图片生成中”的进度条。每一步的成功或失败状态都要持久化，这样即使某个步骤（如图片生成）失败，用户也能看到之前的成功结果（如摘要和TTS音频），并可以选择只重试失败的步骤，而不是全部推倒重来。

4. 实战操作：从零开始处理一个视频

4.1 环境准备与初始配置

假设我们想在本地开发环境运行一次完整的流程。首先，你需要准备好基础环境。

1. 安装Bun如果你的系统还没有安装Bun，可以通过官方一键安装脚本完成。Bun的安装非常简洁，它自带包管理、测试运行器和打包工具。

# 在终端中执行安装命令 curl -fsSL https://bun.sh/install | bash

安装完成后，重启你的终端，运行bun --version验证是否安装成功。

2. 获取项目代码将项目代码克隆到本地。通常，这类项目会托管在GitHub或类似的代码仓库中。

git clone <项目仓库地址> cd autoshow-bun

3. 安装项目依赖进入项目目录后，使用Bun的包管理器安装所有必要的依赖。Bun的安装速度通常比npm/yarn快一个数量级。

bun install

这个过程会读取package.json文件，并下载所有列出的依赖包到node_modules目录。

4. 配置API密钥（核心步骤）这是最关键的一步。项目需要调用多个外部AI服务，每个服务都需要认证。我强烈建议使用.env.local文件来管理这些密钥，该文件通常被.gitignore排除，避免敏感信息泄露。

在项目根目录下创建.env.local文件，并填入你的密钥。以下是一个示例，你需要替换为你自己申请的有效密钥：

# OpenAI (用于GPT摘要和DALL-E图片生成) OPENAI_API_KEY=sk-your-openai-key-here # Anthropic Claude ANTHROPIC_API_KEY=sk-ant-your-claude-key-here # Google Gemini GOOGLE_GENERATIVE_AI_API_KEY=your-gemini-key-here # AssemblyAI (高精度转录) ASSEMBLYAI_API_KEY=your-assemblyai-key-here # Deepgram (高精度转录) DEEPGRAM_API_KEY=your-deepgram-key-here # ElevenLabs (高质量TTS和音乐生成) ELEVENLABS_API_KEY=your-elevenlabs-key-here # Groq (快速Whisper转录) GROQ_API_KEY=gsk-your-groq-key-here # 其他服务密钥...

重要警告：永远不要将包含真实API密钥的.env.local文件提交到Git仓库。项目模板中的.gitignore文件通常已经包含了.env*模式来忽略这类文件。在团队协作中，可以提交一个.env.example文件，列出所需的变量名但不包含具体值，供其他开发者参考。

4.2 启动服务与执行处理

环境配置好后，就可以启动应用了。

1. 启动本地开发服务器在项目根目录下运行开发命令。Bun会启动开发服务器，并通常支持热重载（修改代码后自动重启）。

bun dev

如果一切正常，终端会输出类似Local: http://localhost:4321的信息。在浏览器中打开这个地址，你就能看到应用的Web界面。

2. 通过Web界面提交任务应用的前端界面通常设计得非常直观。你会看到一个输入框，用于提交待处理的资源。根据项目设计，它可能支持多种输入方式：

URL输入：直接粘贴YouTube、播客平台或音频文件的直链。
文件上传：点击上传按钮，选择本地的视频或音频文件。
示例测试：项目文档中提供了测试URL，例如一个简短的YouTube视频链接https://www.youtube.com/watch?v=nXtaETBZ29g，你可以用它来快速体验整个流程。

在界面上，你可能还可以进行一些预处理配置，例如：

选择转录引擎：在下拉菜单中选择“Groq (快速)”或“AssemblyAI (高精度+说话人分离)”。
选择摘要模型：选择使用“GPT-4o”还是“Claude 3 Sonnet”。
输出选项：勾选是否需要生成TTS音频、封面图、背景音乐等。

配置完成后，点击“开始处理”或类似的按钮。前端会将任务提交到后端API。

3. 观察后台处理流程提交任务后，后台的流水线就开始工作了。一个设计良好的系统会在前端实时展示处理进度。你可能会看到：

状态从“排队中”变为“下载音频中”。
然后变为“转录中”，并显示当前使用的引擎。
接着是“生成摘要中”、“TTS合成中”、“生成图片中”等。
每个步骤后面可能会有一个百分比进度条或旋转的加载图标。

你可以在浏览器的开发者工具（F12）的“网络”(Network)标签页中，看到前端与后端/api/jobs或/api/process等端点的通信，了解任务状态是如何被轮询更新的。

4. 查看与下载结果当所有步骤都显示为“完成”时，一个完整的内容包就生成了。前端页面会刷新，展示最终成果，通常包括：

完整的转录文本：带时间戳，可能还有说话人标签。
生成的标题和详细描述。
章节大纲：点击章节可以跳转到对应时间点（如果结合原始视频播放）。
音频摘要播放器：可以直接在线播放生成的TTS摘要音频。
生成的封面图。
一键下载：通常会提供一个按钮，将所有内容（文本、音频、图片）打包成一个ZIP文件供你下载。

4.3 使用Docker进行容器化部署（生产环境准备）

对于想要在服务器上长期运行，或者希望环境完全一致的场景，Docker是最佳选择。

1. 构建Docker镜像确保你已安装Docker和Docker Compose。在项目根目录（包含Dockerfile和docker-compose.yml的目录）下，运行构建命令。docker-compose.yml文件可能已经配置好了构建和运行指令。

# 使用docker-compose构建并启动所有服务 docker-compose up --build -d

参数解释：

--build：强制重新构建镜像。
-d：在后台运行（守护进程模式）。

2. 配置生产环境变量在Docker环境中，API密钥需要通过环境变量传入。有几种安全的方式：

在docker-compose.yml中直接定义（不推荐用于生产）：

services: app: image: autoshow-app environment: - OPENAI_API_KEY=sk-... - ASSEMBLYAI_API_KEY=...

使用环境变量文件（推荐）：在docker-compose.yml同目录下创建.env.production文件，然后在Compose文件中引用。
```
services: app: image: autoshow-app env_file: - .env.production
```
使用Docker Secrets或云服务商提供的密钥管理服务（最佳实践）：这是最安全的方式，适合生产部署。

3. 访问与运维构建并启动后，应用会在Docker容器内运行。根据docker-compose.yml的端口映射配置（例如"4321:4321"），你可以在宿主机的浏览器中通过http://localhost:4321或http://<服务器IP>:4321来访问应用。

你可以使用以下命令管理服务：

# 查看运行日志 docker-compose logs -f app # 停止服务 docker-compose down # 重启服务 docker-compose restart app

5. 进阶技巧与故障排查指南

5.1 性能优化与成本控制

当处理量增大时，性能和成本就成为必须考虑的问题。

1. 异步处理与任务队列音频处理和AI调用都是耗时操作，绝不能阻塞HTTP请求。我的做法是，当用户提交一个URL后，API立即创建一个“任务”（Job）记录在数据库（如SQLite或PostgreSQL）中，并返回一个任务ID。然后，将实际的处理逻辑推入一个后台任务队列（例如，使用bull库基于Redis的队列）。

一个独立的工作进程（Worker）会从队列中取出任务并执行。这样，Web服务器可以快速响应，用户可以通过任务ID轮询状态。即使服务器重启，未完成的任务也会保留在队列中，Worker恢复后可以继续处理。

2. 缓存策略

转录结果缓存：相同的音频文件（可通过文件哈希判断）第二次处理时，直接使用之前成功的转录结果，跳过昂贵的API调用。这尤其适合需要反复调试摘要或TTS的场景。
LLM提示词与结果缓存：对于结构化的摘要请求，如果输入文本和Prompt指令完全相同，可以考虑缓存LLM的响应。但需注意，LLM的非确定性（即使温度低）可能导致细微差别，是否缓存需根据业务容忍度决定。

3. 成本控制技巧

按需选择模型：在配置文件中设置默认的“经济型”组合。例如，转录用Groq Whisper，摘要用GPT-3.5 Turbo（如果质量可接受），TTS用OpenAI的基本语音。将更昂贵但质量更高的模型（如Claude Opus、ElevenLabs专业语音）作为可选项。
设置用量警报：在OpenAI、Anthropic等平台后台，为API密钥设置每月用量预算和警报，防止意外超支。
预处理降本：在调用转录API前，使用ffmpeg过滤掉完全无声的片段（silenceremove滤镜），可以有效减少计费时长。

5.2 常见问题与解决方案实录

在实际开发和运行中，你几乎一定会遇到下面这些问题。这里是我踩过坑后总结的解决方案。

问题1：音频下载失败（特别是YouTube）

现象：任务卡在“下载中”很久，最终失败。错误信息可能包含“Unable to download webpage”或“Video unavailable”。
原因：yt-dlp需要定期更新以应对网站改版。网络环境问题（如GFW干扰）也可能导致无法连接。
解决方案：
1. 更新yt-dlp：在Dockerfile中确保安装最新版，或定期在本地运行pip install --upgrade yt-dlp。
2. 使用代理：如果服务器在特定网络环境下，需要为yt-dlp配置代理。可以通过环境变量HTTP_PROXY/HTTPS_PROXY或在命令中附加--proxy参数。（注意：此处仅讨论技术原理，具体代理配置需用户根据自身合法合规的网络环境自行设置）
3. 备用方案：实现一个“直接上传”的备选路径。当URL下载失败时，提示用户直接上传本地文件。

问题2：转录API调用超时或返回空结果

现象：转录步骤长时间无响应，或返回的文本为空。
原因：
- 音频文件过大或过长，超过API默认时间限制。
- 音频格式或编码不被API支持。
- API服务商临时故障或达到速率限制。
解决方案：
1. 分片处理：对于超长音频（如>1小时），在调用API前，使用ffmpeg将其分割成多个30分钟左右的片段，分别发送，然后再合并结果。许多API（如OpenAI Whisper）本身也支持大文件分片上传。
2. 格式检查与转换：在预处理阶段，强制将音频转换为API明确支持的格式（如16kHz, 单声道, WAV）。
3. 实现重试与回退逻辑：在代码中，对API调用封装一个重试机制（如最多3次，指数退避）。如果首选服务持续失败，自动切换到配置列表中的下一个备用服务。

问题3：LLM生成的摘要格式错误或跑题

现象：LLM返回的不是预期的JSON，而是一段自然语言描述，或者摘要内容与音频主题完全无关。
原因：Prompt指令不够清晰，或者LLM的“温度”参数设置过高导致输出随机性大。
解决方案：
1. 强化系统指令：在Prompt开头明确强调“你必须以JSON格式输出，且只包含JSON，不要有任何其他解释文字”。可以给出更精确的JSON Schema示例。
2. 使用结构化输出功能：如果使用的LLM API支持（如OpenAI的JSON Mode，或Anthropic的structured output），务必开启此功能，它能强制模型输出合规的JSON。
3. 后处理校验与重试：在代码中解析LLM响应前，先检查它是否是合法的JSON。如果不是，可以尝试用更严格的Prompt（例如“修正你的输出，使其成为如下JSON格式：...”）让LLM重试一次，或者记录错误并让任务进入人工审核队列。

问题4：前端构建体积过大

现象：使用bun run build后，生成的客户端JS Bundle文件很大，影响页面加载速度。
原因：SolidStart（或任何前端框架）默认可能包含了未使用的代码，或者某些依赖包过大。
解决方案：
1. 使用项目内置的分析工具：项目文档提到了“Build Analysis”。运行bun run build:analyze或类似命令，会生成一个可视化报告（如stats.html），清晰展示每个模块占用的体积。
2. 代码分割与懒加载：确保路由级别的组件使用了SolidStart的懒加载（lazy）。非首屏必需的组件（如任务历史详情页）不会在初始加载时引入。
3. 检查依赖：通过分析报告，找出体积巨大的第三方库。评估是否有更轻量级的替代品，或者是否只引入了库的部分功能（例如，用import { format } from 'date-fns'代替import * as dateFns）。

问题5：Docker容器内无法下载音频或调用API

现象：在本地运行正常，但在Docker容器中运行失败，网络相关错误。
原因：Docker容器的网络配置问题，或者容器内缺少必要的系统工具（如ffmpeg）。
解决方案：
1. 检查Dockerfile：确保Dockerfile中安装了所有运行时依赖，例如ffmpeg,python3（yt-dlp需要），以及curl或wget等工具。
2. 网络模式：检查docker-compose.yml，确保应用服务的网络配置正确。如果容器需要访问宿主机的代理服务，可能需要配置network_mode: host或自定义网络。
3. 查看容器日志：使用docker-compose logs -f app仔细查看错误输出，这是定位Docker内部问题最直接的方式。