LeVo引擎驱动：腾讯SongGeneration模型开源多语言音乐创作迈入4分钟全曲时代-开发者社区

LeVo引擎驱动：腾讯SongGeneration模型开源多语言音乐创作迈入4分钟全曲时代

【免费下载链接】SongGeneration腾讯开源SongGeneration项目，基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术，既能融合人声与伴奏达到和谐统一，也可分别处理实现更高音质。模型在百万歌曲数据集上训练，支持中英文生成，效果媲美业界顶尖系统，为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

近日，腾讯AILab正式发布SongGeneration开源项目，作为LeVo（High-Quality Song Generation with Multi-Preference Alignment）研究成果的官方权重仓库，该项目首次向公众开放了具备多偏好对齐能力的AI歌曲生成模型。通过提供完整的模型文件、推理脚本及基于百万歌曲数据集训练的 checkpoint，腾讯正推动音乐生成领域从片段创作向全曲工业化生产迈进。

模型矩阵全景：从基础版到多语言旗舰版的能力跃迁

SongGeneration目前已形成覆盖不同创作需求的完整模型矩阵，最新发布的6款模型在创作时长、语言支持和性能表现上实现阶梯式突破。基础版（SongGeneration-base）支持2分30秒的中文歌曲生成，在A100显卡上仅需10G显存即可运行，RFT（音乐质量评估指标）达1.26分；其升级版（base-new）首次实现中英双语创作，而base-full版本将创作时长扩展至4分30秒，满足流行歌曲完整结构需求。

旗舰级large模型凭借22G显存占用和1.51的RFT评分，成为当前开源领域性能最强的音乐生成模型。值得关注的是，即将发布的v1.5系列突破性支持英、中、西、日等多语言创作，其中small版本主打轻量化部署，base和large版本则保持4分30秒的全曲创作能力，标志着AI音乐创作正式进入多语言全球化应用阶段。

技术架构解密：双轨token系统实现人声乐器协同创作

SongGeneration的核心突破在于创新性的LeLM（音乐语言模型）与音乐编解码器架构。不同于传统单轨生成方案，LeLM首次实现混合token与双轨token的并行建模：混合token负责编码人声与伴奏的融合音频特征，确保演唱与乐器的和谐统一；双轨token则独立编码人声旋律线与伴奏声部，为人声清晰度和乐器层次感提供精细化控制。

如上图所示，该Logo融合音乐波形与神经网络节点元素，直观呈现AI与音乐创作的跨界融合。这一视觉符号既代表腾讯在音乐AI领域的技术主张，也暗示SongGeneration模型连接离散数据与连续音频的核心能力。

这种双层token设计使模型能够同时处理"整体和谐"与"细节分离"的创作需求。当进行旋律创作时，混合token确保人声与钢琴、吉他等伴奏乐器的调性统一；而在后期制作阶段，双轨token支持单独调整人声混响或乐器音量，极大提升创作灵活性。配合自研音乐编解码器，系统可将这些结构化token重建为44.1kHz高保真音频，实现从符号化创作到听觉体验的完整闭环。

该架构图清晰展示了LeLM与编解码器的协同工作流程。左侧的双轨token生成模块与右侧的音频重建系统形成完整 pipeline，这种模块化设计既保证了创作自由度，又确保了输出音频的专业级品质。

性能突破：开源模型首次媲美工业级创作系统

通过在百万歌曲数据集（Million Song Dataset）上的深度训练，SongGeneration在多项核心指标上实现对现有开源方案的全面超越。主观评测显示，其生成的歌曲在旋律流畅度、情感表达和风格一致性上达到专业制作人水准，尤其在人声与伴奏的相位对齐、转调处理等细节上表现突出。

与行业领先的闭源系统相比，SongGeneration在4分钟全曲创作任务中展现出相当竞争力。测试数据显示，其生成的中英文歌曲在专业听众盲测中的接受度达到85%，接近传统音乐制作流程的成品质量。研究团队在arXiv发表的论文（编号2506.07520）中详细阐述了模型的训练策略，包括多偏好对齐机制如何平衡创作新颖性与听众接受度。

生态构建：从技术验证到产业应用的桥梁

作为开源项目，SongGeneration不仅提供预训练模型，更配套完整的技术工具链。开发者可通过Hugging Face社区获取各版本模型文件，利用提供的推理脚本快速搭建创作平台。针对不同硬件条件，项目特别优化了显存占用方案：基础版可在消费级显卡运行，而专业级large模型则充分利用数据中心GPU的并行计算能力。

腾讯AILab表示，未来将持续更新模型权重，计划在v1.5系列中加入更多民族乐器采样和音乐风格模板。随着多语言支持的完善，该模型有望成为跨文化音乐创作的基础设施，为独立音乐人、游戏开发者和内容平台提供低成本的创作工具。目前，项目代码与模型权重已同步至GitCode仓库（https://gitcode.com/tencent_hunyuan/SongGeneration），欢迎学术界和产业界共同参与模型迭代与应用探索。

行业启示：AI创作从工具化向工业化演进

SongGeneration的开源标志着音乐AI领域进入新阶段。不同于早期的旋律片段生成工具，其4分钟全曲创作能力、多语言支持和专业级音质输出，已具备工业化生产特征。这种技术突破不仅降低音乐创作门槛，更可能重塑音乐产业的生产关系——从传统的作曲、编曲、录音分工模式，转向AI辅助的一体化创作流程。

随着模型能力的持续提升，未来创作者或许只需输入情感关键词和风格要求，即可获得完整的多轨工程文件，大幅缩短从创意到成品的制作周期。对于音乐教育、广告配乐、游戏音频等领域，这种高效创作工具将释放巨大生产力。而多语言支持特性，则为文化内容的全球化传播提供新的技术路径，尤其有利于小语种音乐和民族音乐的创新表达。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考