news 2026/6/20 2:23:26

腾讯开源SongGeneration:LeVo架构实现高品质AI歌曲生成

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
腾讯开源SongGeneration:LeVo架构实现高品质AI歌曲生成

腾讯正式开源旗下AI音乐生成项目SongGeneration,该模型基于创新的LeVo架构,通过混合音轨与双轨并行建模技术,实现了人声与伴奏的和谐融合及高质量分离处理,为音乐创作领域带来了突破性的AI解决方案。

【免费下载链接】SongGeneration腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

近年来,AI音乐生成技术经历了从简单旋律生成长句到完整歌曲创作的快速演进。随着AIGC技术的成熟,市场对AI生成音乐的品质要求不断提升,尤其在人声与伴奏的融合度、多语言支持及创作自由度等方面存在显著需求。据相关数据显示,2024年全球AI音乐市场规模已突破12亿美元,预计2025年将保持65%的增长率,技术突破正推动音乐创作、游戏配乐、宣传制作等领域的效率革新。

SongGeneration项目的核心优势在于其独创的LeVo架构,该架构包含LeLM语言模型与音乐编解码器两大组件。LeLM创新性地采用双轨并行建模机制,能够同时处理混合音轨 tokens(整合人声与伴奏)和分离音轨 tokens(独立编码人声与伴奏),既保证了音乐整体的和谐统一,又实现了各声部的高质量生成。模型在百万级歌曲数据集上完成训练,支持中英文双语创作,生成效果已达到业界顶尖水平。

从技术实现来看,该模型提供了多种版本选择以适应不同场景需求。基础版(SongGeneration-base)支持2分30秒时长的中文歌曲生成,仅需10G显存即可运行;进阶版(SongGeneration-base-full)将生成时长提升至4分30秒,并增加英文支持;而大型模型(SongGeneration-large)则在音质与表现力上进一步优化,RFT指标达到1.51,显存需求为22G/28G。值得关注的是,即将推出的v1.5系列还将支持西班牙文、日文等多语言创作,进一步扩展应用边界。

该图片为SongGeneration项目的官方标志,通过卡通化的企鹅(腾讯品牌象征)弹奏吉他的形象,直观传递了AI音乐创作的核心功能。音乐符号与彩色波浪线条的设计元素,巧妙呼应了模型处理多轨音频的技术特性,同时增强了视觉亲和力。

SongGeneration的开源将对音乐产业产生多维度影响。对于独立音乐人而言,该工具可大幅降低创作门槛,通过文本提示快速生成歌曲初稿;在商业应用领域,游戏公司、宣传合作方能够利用AI高效制作定制化配乐;教育场景中,师生可通过模型理解音乐结构,辅助乐理教学。此外,模型的双轨分离技术为音乐后期制作提供了新思路,制作人可单独调整人声或伴奏的细节,提升作品质量。

随着腾讯将SongGeneration模型开源并提供完整的推理脚本与预训练权重,开发者可通过Hugging Face等平台直接获取资源。这一举措不仅推动了AI音乐生成技术的普及进程,也为学术界提供了高质量的研究基底。未来,随着多语言支持的完善和模型效率的优化,我们有理由期待AI在音乐创作领域发挥更大价值,或许在不久的将来,一首完全由AI创作的流行歌曲登上音乐排行榜不再是科幻想象。

【免费下载链接】SongGeneration腾讯开源SongGeneration项目,基于LeVo架构实现高品质AI歌曲生成。它采用混合音轨与双轨并行建模技术,既能融合人声与伴奏达到和谐统一,也可分别处理实现更高音质。模型在百万歌曲数据集上训练,支持中英文生成,效果媲美业界顶尖系统,为音乐创作带来突破性AI解决方案项目地址: https://ai.gitcode.com/tencent_hunyuan/SongGeneration

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/13 19:00:59

Shairport4w:Windows电脑变身智能音频接收器的终极指南

Shairport4w:Windows电脑变身智能音频接收器的终极指南 【免费下载链接】Shairport4w An AirPlay Audio-Receiver for your Windows-PC 项目地址: https://gitcode.com/gh_mirrors/sh/Shairport4w 还在为苹果设备与Windows电脑之间的音频传输而烦恼吗&#x…

作者头像 李华
网站建设 2026/6/15 14:57:22

为什么选择CVAT作为企业级AI数据标注的终极方案

为什么选择CVAT作为企业级AI数据标注的终极方案 【免费下载链接】cvat Annotate better with CVAT, the industry-leading data engine for machine learning. Used and trusted by teams at any scale, for data of any scale. 项目地址: https://gitcode.com/gh_mirrors/cv…

作者头像 李华
网站建设 2026/6/18 8:44:23

苹果M4芯片上PaddleX深度适配:从安装障碍到高效运行的完整指南

苹果M4芯片上PaddleX深度适配:从安装障碍到高效运行的完整指南 【免费下载链接】PaddleX All-in-One Development Tool based on PaddlePaddle 项目地址: https://gitcode.com/paddlepaddle/PaddleX 你是否曾在苹果M4设备上尝试部署PaddleX时,被&…

作者头像 李华
网站建设 2026/6/12 19:51:36

解锁足球数据宝藏:开源项目助力赛事分析新时代

在数据驱动的体育竞技时代,足球数据分析已成为制胜关键。一个名为FootballData的开源项目正悄然改变着人们获取和处理足球数据的方式,为从业者和爱好者打开了一扇通往丰富数据资源的大门。 【免费下载链接】FootballData A hodgepodge of JSON and CSV F…

作者头像 李华
网站建设 2026/6/14 0:00:59

Pandoc终极完整指南:掌握万能文档格式转换神器

想要摆脱文档格式转换的烦恼吗?Pandoc这款开源工具将彻底改变您的文档处理体验!作为一款支持超过50种输入格式和60种输出格式的万能转换器,Pandoc让复杂的文档转换变得简单高效。无论是学术写作、技术文档还是日常办公,这款工具都…

作者头像 李华
网站建设 2026/6/13 18:21:37

模型回滚机制建设:应对TensorFlow线上故障

模型回滚机制建设:应对TensorFlow线上故障 在AI系统大规模落地的今天,模型上线不再是一次“发布即完成”的动作,而更像是一场持续的风险博弈。一个看似微小的代码变更、一次未被察觉的数据漂移,都可能让原本准确率高达98%的推荐模…

作者头像 李华