news 2026/3/22 0:45:41

基于Qoder实现AI漫剧生成Agent搭建

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
基于Qoder实现AI漫剧生成Agent搭建

项目背景

行业痛点

  • 漫剧/短视频内容生产成本高、周期长(脚本→分镜→美术→动画→配音)
  • 初创漫剧企业/教育机构缺乏专业动漫制作能力,但有高频轻量级视频需求(如营销广告、儿童英语启蒙)
  • 现有AIGC工具链割裂,依赖人工,缺乏“一致性控制”与“用户干预闭环”

项目定位

打造一个 端到端、可交互、风格一致 的漫剧生成智能体 Demo,支持:

  • 输入一句话创意 → 输出 30s–60s 动漫短剧(含画面+配音+字幕)
  • 用户在关键节点(角色、场景、分镜)可人工确认或抽卡重新生成
  • 支持两种典型场景:营销广告 + 少儿旁白科普课程(磨耳朵学英语场景)

业务价值

  • 验证 Agentic Workflow 在多模态内容生成中的可行性,体现Qoder智能体模式的强大,帮忙推广Qoder。
  • 构建基于Qwen + Wan + 百炼的通义全家桶 AIGC 工具链,证明在漫剧赛道,通义能对标即梦、可灵、Vidu、Sora等友商。在细节能力上正视差距,推进产品迭代改进。
  • 协助没有智能体搭建经验的漫剧赛道初创公司进行工程化搭建,弥补在漫剧工具链上跟友商的差距,为后续 SaaS 化或嵌入营销/教育平台提供技术原型。

需求分析与功能定义

系统架构

功能模块

模块名称

输入

输出

是否可交互

技术实现

创意解析器

用户创意(文本)

结构化剧本(JSON)

Qwen-Max

角色生成器

剧本人物描述

多组角色立绘(PNG)

是(抽卡×3)

Wan 2.5-t2i-preview

场景生成器

剧本场景描述

多组背景图(PNG)

是(抽卡×3)

Wan 2.5-t2i-preview

分镜绘制器

(角色+场景+分镜文本)

分镜首帧图

是(逐镜确认)

Wan 2.2-i2i-flash

视频生成器

首帧 + 剧本动作描述

3–10s 视频片段(MP4)

否(自动)

Wan 2.5-i2v-preview

合成引擎

视频片段 + 音频 + 字幕

最终成片(MP4)

FFmpeg + 自定义合成逻辑

需求约束

  • 一致性保障:同一角色/场景在不同分镜中保持视觉一致(通过ID绑定+特征缓存)。
  • 生成速度:全流程 ≤ 10 分钟(Demo 可接受,非实时)。
  • 可控性:每个“抽卡”环节提供 ≥3 选项,支持重试。
  • 合规性:不生成真人肖像,角色为动漫风格。

交互流程

  • 创意输入:一句话描述想生成的内容。

  • 剧本生成:根据输入的创意自动拆解角色/场景/分镜基于创意进行剧本的扩写,分镜的要素按JSON格式输出,包括角色,场景,构图,光线,角色动作,情绪,时长(每个片段3-10s),音效,配音描述(用于控制音色一致性)。

  • 角色生成:百炼调用Wan2.5-t2i-preview生成角色图,一次三张,可以抽卡重新生成,时间大概20s。

  • 场景生成:同上生成场景图,都是为了控制分镜主体一致性。

  • 分镜生成:使用Wan2.2-i2i-flash参考角色图和场景图,结合详细分镜描述按顺序生成每个分镜的首帧,每张大概30s。

  • 视频生成:确认好分镜图后,使用Wan2.5-i2v-preview结合剧本描述和台词同步生成视频和相应的配音,音画同步,并且自动完成剪辑拼接,整个过程3~5min。视频时长根据分镜多少决定,一般20s~1min。

效果演示

单角色讲解场景

  • 动漫小狗早晨刷牙

小狗早晨刷牙

双角色对话场景

  • 3D小鱼海底购物

小鱼购物

  • Q版日常打招呼

Q版日常打招呼

搭建工具

全程使用 Qoder自然语言生成+百炼API调用

1.使用Qoder Quest模式生成初版,把需求和大致思路像老板一样指派任务给agent,他会自主先生成产品需求设计,规划待办,再进行执行。

2.需要向他提供自己百炼API-Key。

3.在生成完初版项目之后,使用智能体模式进行精调。最好使用极致模式,性能最好但消耗多。

4.明确使用的模型具体名称,不然会出现调用失败。提供明确的名称后会智能体会自行查阅网页找到合适的接口格式。

目前问题

  1. 配音直接使用Wan2.5视频同步生成,好处是可以同步生成环境音效。为了保证音色一致性目前的解决方案是使用提示词约束,但效果不太好,后续考虑用TTS模型单独配音再合成。

  2. 多角色,多场景的分镜图合成还是控制的不够精细,目前最好的情况还是单场景单一角色的介绍,如果在复杂性高的多角色交互,场景切换的任务下还需要优化。

  3. Qoder目前仅能个人开通PRO版,Credit有限,跑这样一个 Demo大概就花了一半的用量,希望可以尽快开通企业版内部使用。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/21 2:20:12

NetSonar网络诊断专家:3步搞定专业级网络性能监控

NetSonar网络诊断专家:3步搞定专业级网络性能监控 【免费下载链接】NetSonar Network pings and other utilities 项目地址: https://gitcode.com/gh_mirrors/ne/NetSonar 还在为网络连接不稳定而烦恼吗?🤔 NetSonar作为一款强大的跨平…

作者头像 李华
网站建设 2026/3/16 0:59:34

终极指南:Wan2GP视频生成模型快速入门教程

终极指南:Wan2GP视频生成模型快速入门教程 【免费下载链接】Wan2GP Wan 2.1 for the GPU Poor 项目地址: https://gitcode.com/gh_mirrors/wa/Wan2GP 想要体验专业级视频生成却担心硬件配置不足?Wan2GP正是为你量身打造的解决方案!这个…

作者头像 李华
网站建设 2026/3/16 0:59:34

掌握OctoSQL数据流分析:可视化查询执行全流程

掌握OctoSQL数据流分析:可视化查询执行全流程 【免费下载链接】octosql octosql:这是一个SQL查询引擎,它允许您对存储在多个SQL数据库、NoSQL数据库和各种格式的文件中的数据编写标准SQL查询,尝试将尽可能多的工作压缩到源数据库&…

作者头像 李华
网站建设 2026/3/17 20:39:29

提升Maya创作效率的实用插件盘点

在影视动画、游戏制作等视觉创作领域,Maya始终以其扎实的基础功能占据标杆地位,成为行业从业者的必备工具。面对日益复杂的项目需求和紧张的交付周期,仅依靠软件原生功能往往难以实现高效创作。适配性强的Maya插件就成了提升效率的关键助力—…

作者头像 李华
网站建设 2026/3/16 0:59:32

终极指南:5分钟快速上手ArcGIS API for Python地理空间分析

想要轻松处理地图数据、进行地理编码和空间分析吗?🚀 ArcGIS API for Python 是一个强大的地理空间数据处理库,专门为Python开发者设计。这个由Esri开发的库不仅支持深度学习、复杂的向量与栅格分析,还能与Jupyter Notebook完美配…

作者头像 李华
网站建设 2026/3/16 3:40:19

算法革新驱动AI训练效率革命:从技术原理到工程实践

算法革新驱动AI训练效率革命:从技术原理到工程实践 【免费下载链接】modded-nanogpt GPT-2 (124M) quality in 5B tokens 项目地址: https://gitcode.com/GitHub_Trending/mo/modded-nanogpt 在人工智能飞速发展的今天,训练效率已成为制约AI技术规…

作者头像 李华