news 2026/5/16 9:52:01

LeVo引擎驱动:腾讯SongGeneration模型开源 多语言音乐创作迈入4分钟全曲时代

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LeVo引擎驱动:腾讯SongGeneration模型开源 多语言音乐创作迈入4分钟全曲时代

LeVo引擎驱动:腾讯SongGeneration模型开源 多语言音乐创作迈入4分钟全曲时代

【免费下载链接】SongGeneration腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

近日,腾讯AILab正式发布SongGeneration开源项目,作为LeVo(High-Quality Song Generation with Multi-Preference Alignment)研究成果的官方权重仓库,该项目首次向公众开放了具备多偏好对齐能力的AI歌曲生成模型。通过提供完整的模型文件、推理脚本及基于百万歌曲数据集训练的 checkpoint,腾讯正推动音乐生成领域从片段创作向全曲工业化生产迈进。

模型矩阵全景:从基础版到多语言旗舰版的能力跃迁

SongGeneration目前已形成覆盖不同创作需求的完整模型矩阵,最新发布的6款模型在创作时长、语言支持和性能表现上实现阶梯式突破。基础版(SongGeneration-base)支持2分30秒的中文歌曲生成,在A100显卡上仅需10G显存即可运行,RFT(音乐质量评估指标)达1.26分;其升级版(base-new)首次实现中英双语创作,而base-full版本将创作时长扩展至4分30秒,满足流行歌曲完整结构需求。

旗舰级large模型凭借22G显存占用和1.51的RFT评分,成为当前开源领域性能最强的音乐生成模型。值得关注的是,即将发布的v1.5系列突破性支持英、中、西、日等多语言创作,其中small版本主打轻量化部署,base和large版本则保持4分30秒的全曲创作能力,标志着AI音乐创作正式进入多语言全球化应用阶段。

技术架构解密:双轨token系统实现人声乐器协同创作

SongGeneration的核心突破在于创新性的LeLM(音乐语言模型)与音乐编解码器架构。不同于传统单轨生成方案,LeLM首次实现混合token与双轨token的并行建模:混合token负责编码人声与伴奏的融合音频特征,确保演唱与乐器的和谐统一;双轨token则独立编码人声旋律线与伴奏声部,为人声清晰度和乐器层次感提供精细化控制。

如上图所示,该Logo融合音乐波形与神经网络节点元素,直观呈现AI与音乐创作的跨界融合。这一视觉符号既代表腾讯在音乐AI领域的技术主张,也暗示SongGeneration模型连接离散数据与连续音频的核心能力。

这种双层token设计使模型能够同时处理"整体和谐"与"细节分离"的创作需求。当进行旋律创作时,混合token确保人声与钢琴、吉他等伴奏乐器的调性统一;而在后期制作阶段,双轨token支持单独调整人声混响或乐器音量,极大提升创作灵活性。配合自研音乐编解码器,系统可将这些结构化token重建为44.1kHz高保真音频,实现从符号化创作到听觉体验的完整闭环。

该架构图清晰展示了LeLM与编解码器的协同工作流程。左侧的双轨token生成模块与右侧的音频重建系统形成完整 pipeline,这种模块化设计既保证了创作自由度,又确保了输出音频的专业级品质。

性能突破:开源模型首次媲美工业级创作系统

通过在百万歌曲数据集(Million Song Dataset)上的深度训练,SongGeneration在多项核心指标上实现对现有开源方案的全面超越。主观评测显示,其生成的歌曲在旋律流畅度、情感表达和风格一致性上达到专业制作人水准,尤其在人声与伴奏的相位对齐、转调处理等细节上表现突出。

与行业领先的闭源系统相比,SongGeneration在4分钟全曲创作任务中展现出相当竞争力。测试数据显示,其生成的中英文歌曲在专业听众盲测中的接受度达到85%,接近传统音乐制作流程的成品质量。研究团队在arXiv发表的论文(编号2506.07520)中详细阐述了模型的训练策略,包括多偏好对齐机制如何平衡创作新颖性与听众接受度。

生态构建:从技术验证到产业应用的桥梁

作为开源项目,SongGeneration不仅提供预训练模型,更配套完整的技术工具链。开发者可通过Hugging Face社区获取各版本模型文件,利用提供的推理脚本快速搭建创作平台。针对不同硬件条件,项目特别优化了显存占用方案:基础版可在消费级显卡运行,而专业级large模型则充分利用数据中心GPU的并行计算能力。

腾讯AILab表示,未来将持续更新模型权重,计划在v1.5系列中加入更多民族乐器采样和音乐风格模板。随着多语言支持的完善,该模型有望成为跨文化音乐创作的基础设施,为独立音乐人、游戏开发者和内容平台提供低成本的创作工具。目前,项目代码与模型权重已同步至GitCode仓库(https://gitcode.com/tencent_hunyuan/SongGeneration),欢迎学术界和产业界共同参与模型迭代与应用探索。

行业启示:AI创作从工具化向工业化演进

SongGeneration的开源标志着音乐AI领域进入新阶段。不同于早期的旋律片段生成工具,其4分钟全曲创作能力、多语言支持和专业级音质输出,已具备工业化生产特征。这种技术突破不仅降低音乐创作门槛,更可能重塑音乐产业的生产关系——从传统的作曲、编曲、录音分工模式,转向AI辅助的一体化创作流程。

随着模型能力的持续提升,未来创作者或许只需输入情感关键词和风格要求,即可获得完整的多轨工程文件,大幅缩短从创意到成品的制作周期。对于音乐教育、广告配乐、游戏音频等领域,这种高效创作工具将释放巨大生产力。而多语言支持特性,则为文化内容的全球化传播提供新的技术路径,尤其有利于小语种音乐和民族音乐的创新表达。

【免费下载链接】SongGeneration腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/15 6:56:18

7大实战技巧:解锁LevelDB高性能存储的完整指南

7大实战技巧:解锁LevelDB高性能存储的完整指南 【免费下载链接】leveldb LevelDB is a fast key-value storage library written at Google that provides an ordered mapping from string keys to string values. 项目地址: https://gitcode.com/GitHub_Trending…

作者头像 李华
网站建设 2026/5/9 10:39:04

Qwen3-VL-30B-A3B-Thinking:多模态AI从感知到行动的技术跃迁

Qwen3-VL-30B-A3B-Thinking:多模态AI从感知到行动的技术跃迁 【免费下载链接】Qwen3-VL-30B-A3B-Thinking 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen3-VL-30B-A3B-Thinking 导语 阿里通义千问团队推出的Qwen3-VL-30B-A3B-Thinking多模态大模…

作者头像 李华
网站建设 2026/5/14 7:06:14

Apertus-8B:合规与多语言双突破,开源大模型的全球化新范式

导语 【免费下载链接】Apertus-8B-Instruct-2509-unsloth-bnb-4bit 项目地址: https://ai.gitcode.com/hf_mirrors/unsloth/Apertus-8B-Instruct-2509-unsloth-bnb-4bit 瑞士AI实验室推出的Apertus-8B大模型,以1811种原生支持语言和全流程合规设计&#xff…

作者头像 李华
网站建设 2026/5/4 3:02:24

ZXing条码扫描技术实战指南:从基础集成到性能优化

ZXing条码扫描技术实战指南:从基础集成到性能优化 【免费下载链接】zxing ZXing ("Zebra Crossing") barcode scanning library for Java, Android 项目地址: https://gitcode.com/gh_mirrors/zx/zxing 你是否在为移动应用中的条码识别功能而烦恼&…

作者头像 李华
网站建设 2026/5/10 6:11:55

YOLOv10终极指南:如何在3分钟内实现高精度实时目标检测

YOLOv10终极指南:如何在3分钟内实现高精度实时目标检测 【免费下载链接】yolov10n 项目地址: https://ai.gitcode.com/hf_mirrors/jameslahm/yolov10n YOLOv10作为目标检测领域的最新突破性技术,通过端到端的架构设计彻底改变了传统检测流程。这…

作者头像 李华
网站建设 2026/5/11 8:54:47

路径规划地图建模实战指南:从像素迷宫到智能导航

你是否曾经疑惑,为什么自动驾驶汽车能在复杂的城市道路中自如穿行,而扫地机器人却总在你的椅子腿间"迷路"?答案就藏在地图表示方法的选择中。今天,让我们一起揭开路径规划中地图建模的神秘面纱,看看如何为不…

作者头像 李华