开源的音乐生成
感谢小勇
开源的音乐生成项目与低成本API服务 edit
完全开源的音乐生成项目 edit
Bark(Suno) edit
- 主要功能:Bark 是由 Suno 开发的 Transformer 架构文本生成音频模型,可根据文本提示生成高质量语音,并能合成其他音频——包括音乐、背景噪音和简单音效 (GitHub - suno-ai/bark: Text-Prompted Generative Audio Model)。它不仅局限于常规 TTS(文本转语音),还可以产生笑声、叹气、哭泣等非言语声音,在一定程度上还能模拟音乐旋律。
- 技术栈:使用深度学习 Transformer 模型,基于 PyTorch 实现(需要 PyTorch 2.0+) (GitHub - suno-ai/bark: Text-Prompted Generative Audio Model)。提供预训练模型权重(MIT开源许可)可直接推理使用 (GitHub - suno-ai/bark: Text-Prompted Generative Audio Model)。
- API:提供Python库接口,可本地调用生成音频。没有官方在线API服务(但社区有整合如 Hugging Face Space 等)。由于完全开源,使用其库本身即是API,免费使用。
- 部署方式:支持本地运行(CPU或GPU均可,GPU可加速) (GitHub - suno-ai/bark: Text-Prompted Generative Audio Model);也可在云端自行部署。官方提供了示例 Colab 笔记和 Hugging Face 在线演示方便试用。
- 相关链接:GitHub 项目地址:https://github.com/suno-ai/bark (GitHub - suno-ai/bark: Text-Prompted Generative Audio Model);Hugging Face Demo:https://huggingface.co/spaces/suno/bark。
MusicGen(Meta AudioCraft) edit
- 主要功能:MusicGen 是 Meta AI(Facebook)发布的文本生成音乐模型。给定文本描述(可选提供哼唱音频作为旋律参考),它能够生成对应风格的音乐片段 (facebook/musicgen-large · Hugging Face)。MusicGen 专注于纯音乐合成(主要是器乐曲),可以控制音乐的风格、氛围和长度等。
- 技术栈:基于自回归Transformer模型,结合了 Meta 提出的 EnCodec 神经音频编解码器来生成32kHz的音频 (facebook/musicgen-large · Hugging Face)。MusicGen 在超过20k小时的授权音乐数据上训练,包括内部高品质曲库及 Shutterstock/Pond5等素材。代码开源(AudioCraft 工具包)使用 PyTorch 实现,提供了小/中/大/旋律版共四种模型 (facebook/musicgen-large · Hugging Face)。模型权重以非商业许可开放(CC BY-NC 4.0) (facebook/musicgen-large · Hugging Face)。
- API:没有官方商用API接口,但因其开源,可通过 Hugging Face 提供的推理API或自行部署服务器提供服务。也可使用 Hugging Face Transformers 库的Pipeline接口加载模型本地调用 (facebook/musicgen-large · Hugging Face)。使用模型本身不收取费用。
- 部署方式:支持本地部署,需要高性能GPU(推理大模型需≥16GB显存) (audiocraft/docs/MUSICGEN.md at main · facebookresearch/audiocraft · GitHub)。Meta 提供了 Colab 笔记和 Hugging Face Space 演示方便体验 (audiocraft/docs/MUSICGEN.md at main · facebookresearch/audiocraft · GitHub)。AudioCraft 框架也可用于自建服务。
- 相关链接:GitHub 项目(AudioCraft):https://github.com/facebookresearch/audiocraft;Hugging Face 模型卡:https://huggingface.co/facebook/musicgen-large (facebook/musicgen-large · Hugging Face)。
Jukebox(OpenAI) edit
- 主要功能:Jukebox 是 OpenAI 于2020年发布的神经网络模型,可生成原始音频形式的音乐,包括带有简单歌唱的歌曲 (Jukebox | OpenAI)。给定流派、歌手风格以及歌词文本作为输入,它能从零开始创作一段音乐样本 (Jukebox | OpenAI)。Jukebox 能模拟多种流派和特定歌手风格的歌曲,并合成对应风格的声音和伴奏。
- 技术栈:采用分层多尺度的 VQ-VAE (向量量化自编码)对音乐音频进行压缩表示,然后通过多层级Transformer模型生成压缩后的音频编码 (OpenAI's Jukebox for music generation · Issue #16870 - GitHub)。模型相当庞大(参数数以十亿计),训练在海量音乐+歌词数据上。实现方面使用 PyTorch,OpenAI 开源了源码和预训练权重 (Jukebox | OpenAI)。
- API:没有在线商用API服务。由于代码和模型已开放,用户可在本地运行或定制接口调用。OpenAI 提供了助手工具与示例来帮助生成和探索模型输出。使用开源模型本身免费,但运行代价较高(生成20秒音乐在V100 GPU上约需3小时) (Code for the paper "Jukebox: A Generative Model for Music" - GitHub)。
- 部署方式:主要支持本地部署,需要强大的GPU运算能力(推荐高端 NVIDIA GPU,多卡并行加速)。模型很大且生成缓慢,一般在研究环境或离线批量运行。亦有爱好者将其部署在云GPU服务器上供他人体验(非官方)。
- 相关链接:OpenAI 官方博客:https://openai.com/blog/jukebox (Jukebox | OpenAI);GitHub源码:https://github.com/openai/jukebox。
Riffusion edit
- 主要功能:Riffusion 是一个开源的实时音乐生成模型,独辟蹊径地通过图像来生成音乐 (Riffusion - Wikipedia)。它将Stable Diffusion文本生成图像模型微调在频谱图上:输入文本提示(如风格、乐器),输出相应音频的频谱图图像,然后再将该图转回音频 (Riffusion - Wikipedia)。生成结果通常是几秒钟的音乐片段,但模型可以利用潜空间的平滑过渡将多个片段无缝插接,形成连续音乐 (Riffusion - Wikipedia)。Riffusion 擅长生成循环音乐片段、氛围音等。
- 技术栈:基于 Stable Diffusion 文生图模型进行迁移学习,生成音频频谱图再经逆傅里叶变换得到声音 (Riffusion - Wikipedia)。由开发者 Seth Forsgren 和 Hayk Martiros 于2022年底推出,使用 Python 实现,代码和模型以MIT协议开源 (Riffusion - Wikipedia) (Riffusion - Wikipedia)。推理主要依赖GPU进行扩散模型采样。
- API:官方没有公开收费API,但提供了交互式的_web应用_(riffusion.com)展示模型效果。由于项目开源,开发者可基于其库自行封装API。本地运行完全免费。
- 部署方式:支持本地运行,需要安装Stable Diffusion相应依赖并有合适GPU。已有社区提供的Colab笔记和演示站点,可实时输入提示生成音乐。其开源库也可集成到其他应用中实时推理 (Stable Diffusion fine-tuned to generate Music — Riffusion - Reddit)。
- 相关链接:官方网站:https://www.riffusion.com;GitHub 项目:https://github.com/riffusion/riffusion-hobby (riffusion/riffusion-hobby: Stable diffusion for real-time music generation)。
Magenta(Google) edit
- 主要功能:Magenta 是 Google Brain 团队发起的开放源代码研究项目,探索机器学习在音乐和艺术创作中的应用 (GitHub - magenta/magenta: Magenta: Music and Art Generation with Machine Intelligence)。Magenta 提供了一系列模型和工具,例如用于音乐旋律/和声生成的 RNN 和 Transformer 模型,以及用于音色合成的 WaveNet 自编码器(NSynth)等。其功能涵盖:旋律续写与和弦生成、多段旋律风格迁移、鼓点生成、Bach 风格复现等;还包括音频合成和效果应用(如DDSP数字音频合成等)。Google 还基于这些模型推出了 Magenta Studio 等应用,为用户提供AI伴奏、旋律创作和曲风转换等功能。
- 技术栈:Magenta 大部分模型使用 TensorFlow 实现(Python),部分新项目转向独立仓库或使用TensorFlow.js用于浏览器交互 (GitHub - magenta/magenta: Magenta: Music and Art Generation with Machine Intelligence) (GitHub - magenta/magenta: Magenta: Music and Art Generation with Machine Intelligence)。典型模型例如 Music Transformer(基于注意力机制的长程音乐结构生成模型) (Music Transformer: Generating Music with Long-Term Structure)、Performance RNN(钢琴演奏序列生成)等采用深度学习序列模型;NSynth 则基于 WaveNet 自编码器进行音频合成 (magenta/magenta/models/nsynth/README.md at main - GitHub)。所有代码和预训练模型均开放源代码(Apache 2.0许可) (GitHub - magenta/magenta: Magenta: Music and Art Generation with Machine Intelligence)。
- API:Magenta 官方没有集中式的在线API服务。开发者通过安装 Magenta 库或使用其提供的模型接口(例如 Python库函数、Colab)即可调用模型功能。因为完全开源,使用其模型本身不需费用。部分模型也被移植到 Magenta.js,可在浏览器中实时调用。
- 部署方式:以本地或自备服务器部署为主。用户可以在本地安装 Magenta 库运行模型,或利用官方提供的 Colab 笔记在线运行模型 (GitHub - magenta/magenta: Magenta: Music and Art Generation with Machine Intelligence)。Magenta 还提供 Ableton Live 插件形式的离线工具(Magenta Studio),方便音乐人将模型集成到工作流程中。
- 相关链接:Magenta 项目官网:https://magenta.tensorflow.org (Understanding Google Magenta: An Overview of Google's Open ...);GitHub仓库:https://github.com/magenta/magenta (GitHub - magenta/magenta: Magenta: Music and Art Generation with Machine Intelligence)。
Microsoft Muzic edit
- 主要功能:Muzic 是微软亚洲研究院推出的开放研究项目,涵盖音乐理解与生成的众多模型 (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence) (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence)。其子项目包括:歌曲创作(歌词生成、歌词转旋律、旋律转歌词,如 DeepRapper (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence)用于说唱歌词,SongMASS用于歌词到旋律等),音乐结构(如MuseFORM用于曲式结构生成 (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence)),多轨音乐(如PopMAG用于伴奏生成 (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence),GETMusic用于任意轨合成 (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence)),文本生成音乐(如MuseCoCo模型 (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence)),以及歌声合成(如高保真歌声合成模型 HiFiSinger (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence))等。Muzic 项目提供了这些模型对应的论文、部分训练代码和示例生成结果,展示从歌词到完整歌曲的生成能力。
- 技术栈:大多使用深度学习模型(Transformer、VAE、语言模型等)实现,不同子项目使用不同框架但多为 PyTorch。项目遵循开放科研准则,提供了源代码(MIT许可)和模型权重/数据(部分公开)供研究用途。由于涵盖领域广,每个模型技术细节各异,例如MuseCoCo采用了VAE+Transformer用于文本到音乐,HiFiSinger基于多阶段神经声码器用于歌声合成等。
- API:Muzic 本身是科研项目集合,没有统一的对外API服务。开发者可以分别下载各子项目的源码自行运行。部分模型可以通过 Hugging Face 等平台找到第三方提供的推理接口。总体来说这些工具免费开放,但主要面向研究人员,需要自行搭建运行环境。
- 部署方式:以本地运行或研究环境部署为主。微软提供了每个子项目的代码仓库和说明,用户可在配备相应依赖(通常为Python深度学习环境)的本地机器或云端服务器上运行训练或推理。某些模型(如歌词生成)可在CPU上运行,但如旋律生成、歌声合成则通常需要GPU加速。
- 相关链接:Muzic 项目总览页面:https://github.com/microsoft/muzic (GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence);各子项目链接可见该页面说明。例如 DeepRapper 仓库:https://github.com/microsoft/DeepRapper,MuseCoCo 论文:https://arxiv.org/abs/2306.05284 等。
(以上开源项目均可根据需要选择合适的模型,本地运行实现音乐或音频生成。这些方案提供了高度可定制的研究框架,但需要一定的机器学习背景和算力支持。)
低成本 API 音乐生成服务 edit
Mubert edit
- 主要功能:Mubert 是商用的AI音乐生成平台,提供海量风格的背景音乐生成。开发者可通过其API根据指定的情绪、风格标签等实时生成任意时长的音乐流,音乐100%原創且免版税,可直接用于应用或内容中 (Mubert API — Make Your App Sound Great | Mubert Blog) (Mubert API — Make Your App Sound Great | Mubert Blog)。Mubert 支持超过100种情绪/流派标签,从嘻哈、放松冥想到电子舞曲等,能生成持续的音乐流或固定长度曲目,非常适合健身、冥想、游戏等应用的背景音乐需求 (Mubert API — Make Your App Sound Great | Mubert Blog)。
- 技术栈:Mubert 未公开具体模型细节,据报道其生成引擎结合了AI模型和音乐人制作的素材库,通过深度学习(可能包含扩散模型技术 (Riffusion - Wikipedia))实时生成和混合音乐。作为云服务,后端或许使用Python等实现和音频处理框架,前端提供REST API。
- API:提供完整的云端生成API接口。采用按使用时长计费的模式:最低价仅 ~$0.01 每分钟音乐 (Mubert API — Make Your App Sound Great | Mubert Blog)。也就是说,应用每播放1分钟由Mubert生成的音乐,仅需支付1美分(未播放部分不计费) (Mubert API — Make Your App Sound Great | Mubert Blog)。这种计费非常低廉,对开发者而言几乎可以看作按需即时付费。Mubert API 注册后有免费试用额度,超过后根据播放总时长计费。
- 部署方式:无需自建模型,只需集成云API。开发者在自己的应用服务器上调用 Mubert 提供的 HTTP API 接口获取音乐流(例如以URL或音频流形式)。由于是云服务,一切生成计算在 Mubert 云端完成,客户端只需播放或存储返回的音频。部署非常简便,但需要网络连接 Mubert 服务。
- 相关链接:Mubert 开发者官网:https://mubert.com;API介绍博客 (Mubert API — Make Your App Sound Great | Mubert Blog);Mubert API文档:https://api.mubert.com。 (参考:Mubert 宣称其流媒体API价率为每分钟$0.01 (Mubert API — Make Your App Sound Great | Mubert Blog)。)
Soundraw edit
- 主要功能:Soundraw 是一款AI音乐生成工具,面向创作者提供可定制的音乐创作。用户或开发者可以通过选择曲风、情绪、时长等参数生成音乐,并进一步编辑细节(如调整曲长、曲调、乐器组合等),以获得符合需求的曲子 (AI Music Generator API: Seamless Integration for Instant ... - TopMediai) (3 Best APIs for Music Generation in 2025)。Soundraw 主打版税免费,内部使用自有音乐素材训练,确保生成音乐不会引发版权问题 (3 Best APIs for Music Generation in 2025)。它适用于视频配乐、游戏背景音乐等场景,可生成循环无缝的音乐片段并允许商用。
- 技术栈:Soundraw 未公布其模型实现细节。推测采用深度学习模型(可能是生成式模型+基于规则的后期处理)生成曲目框架,再通过内置音源库合成高质量音频。由于提供Web应用和API,其后端可能由Python或Node.js编写,调用训练好的AI模型和音频库实时生成音乐。
- API:提供针对开发者的付费API。定价采用包月订阅制,最低API Starter套餐约$300/月,可生成最多1000首歌曲 (API - AI Music Generator SOUNDRAW)(折合每首约$0.30)。高级套餐支持更多曲目。相比Mubert的按分钟计费,Soundraw按首计费且起订价较高,不到1美分的级别仅针对单音频秒数(如一首3分钟曲折合每秒$0.0017)。Soundraw API 需要联系官方申请,企业版提供定制支持和不限版权用途。普通用户也可通过其网页界面订阅使用(个人计划$16.99/月可无限生成)。
- 部署方式:Soundraw 为云端服务。使用API时,开发者向 Soundraw 云发送曲风/时长等参数请求,Soundraw生成音乐并返回音频文件下载链接或数据流。所有繁重计算在云端完成,客户端只负责请求和接收。Soundraw 也提供网页和插件(如视频编辑器集成)供无需编码的用户使用,其核心均运行在云端。
- 相关链接:Soundraw 官方网站:https://soundraw.io;API计划介绍 (API - AI Music Generator SOUNDRAW);Soundraw 功能介绍 (3 Best APIs for Music Generation in 2025)。
Beatoven.ai edit
- 主要功能:Beatoven.ai 是一款专为内容创作者(视频博主等)设计的AI背景音乐生成服务。用户可以上传视频或选择情绪标签,由AI自动生成契合情境的原创音乐。其API使开发者能够将音乐生成功能直接嵌入应用,支持多种输入模式:根据文字描述生成音乐、根据音频片段(如哼唱或节奏)生成背景乐,甚至分析视频内容自动配乐 (3 Best APIs for Music Generation in 2025)。Beatoven 生成的音乐段落可以按场景分段,适合剪辑后多段无缝衔接,用于影片配乐等。所有生成音乐均免版权,可商用。
- 技术栈:Beatoven.ai 的幕后模型可能综合运用了深度学习的音乐生成网络和信号处理算法。例如通过分析视频的视觉情绪线索或节奏(利用计算机视觉+情感分析),结合文本提示的Transformer模型生成曲调,再用音频合成模型渲染。具体技术未全面公开,但可以肯定其云端运行AI模型并对外提供简易接口。
- API:提供面向企业/开发者的API访问。集成后,第三方应用可通过REST调用提交素材(文本、音频、视频)并获得生成的音乐。Beatoven 的API目前采用商议定价模式(官网未公开具体价格 (3 Best APIs for Music Generation in 2025)),有可能按每首曲目或使用量收费,但宣传中强调相比传统授权更经济。对于大批量内容生产者,Beatoven 提供灵活的定制套餐。需要联系官方获取API密钥和额度。
- 部署方式:为云服务模式。开发者调用其API即完成部署对接,无需自托管模型。Beatoven 在自己的云后端运行AI模型和音乐合成,将结果以文件形式返回给调用方。用户也可以通过Beatoven的网页版应用手动操作生成音乐,但API集成明显提高了自动化程度。
- 相关链接:官方网站:https://www.beatoven.ai;功能与API介绍 (3 Best APIs for Music Generation in 2025);Beatoven 博客(对比Suno等) (Suno vs. Soundful: The Better AI Music Generator for Content Creators? -) (Suno vs. Soundful: The Better AI Music Generator for Content Creators? -)。
AIVA edit
- 主要功能:AIVA(Artificial Intelligence Virtual Artist)是老牌的AI作曲平台,能够在数百种风格中创作音乐 (AIVA, the AI Music Generation Assistant)。用户可以选择预设风格(如现代交响、电子、爵士等)和情绪,AIVA会生成对应风格的乐曲,并支持下载为音频或MIDI以供后期编辑 (AIVA, the AI Music Generation Assistant)。AIVA 还允许用户上传MIDI或音频片段作为参考,生成相似风格的新曲,并提供一定的手动编辑功能(调整配器、修改音符等),达到“人机协作”作曲的效果 (AIVA, the AI Music Generation Assistant)。
- 技术栈:AIVA的核心是深度学习模型与传统作曲算法的结合。早期版本采用了基于深度神经网络的强化学习模型来学习配器和曲式,后端或使用Torch等框架。具体实现未开源,但从功能看,AIVA对音乐结构和风格的掌控较好,可能使用RNN/Transformer生成乐谱,再用虚拟乐器音源合成音频。整个系统作为云应用提供服务。
- API:AIVA 针对个人用户提供网页版应用和桌面软件,而其API主要面向企业合作和高级用户。在企业方案中提供API访问和定制服务(需联系销售),允许集成AIVA的作曲能力到产品中。价格方面,个人使用有免费套餐(每月最多3段曲,非商用) (AIVA, the AI Music Generation Assistant)和付费订阅(标准€11/月、Pro €33/月 等 (AIVA, the AI Music Generation Assistant) (AIVA, the AI Music Generation Assistant))。企业API的费用未公开,预期根据使用规模和授权范围协商。由于AIVA生成每曲通常几分钟,其成本可以视为按首计算,每首成本随订阅下降,但折算后每分钟音乐成本在欧元分钱级。
- 部署方式:AIVA 以云服务形式提供。个人用户通过网页或App操作即调用云端生成。企业API集成时,也是通过HTTPS请求AIVA云端生成曲目然后获取结果文件。AIVA 不需要用户拥有高性能硬件,本地只负责发送请求和后续编辑下载的MIDI/音频。对于要求离线部署的客户,AIVA暂无公开支持(主要作为在线SaaS)。
- 相关链接:AIVA 官方网站:https://www.aiva.ai (AIVA, the AI Music Generation Assistant);AIVA 功能与定价页面 (AIVA, the AI Music Generation Assistant) (AIVA, the AI Music Generation Assistant)。 (备注:AIVA 是生成器中少数支持MIDI编辑和自定义风格训练的商业工具之一。)
其他相关工具 edit
- Soundful – 一款类似 Soundraw 的AI音乐平台,主打快速生成高品质配乐。提供多种曲风模板,用户可调整曲长、结构,并支持直接发布到SoundCloud等。Soundful有订阅制(个人/月)计划,企业可洽谈获取API或批量生成方案 (Suno vs. Soundful: The Better AI Music Generator for Content Creators? -)。不过有用户反馈其生成音乐可能触发版权识别(据报道,RIAA起诉其生成内容侵权 (Suno vs. Soundful: The Better AI Music Generator for Content Creators? -)),需谨慎商用。
- Boomy – 面向大众的AI音乐创作网站,用户无需技术背景,通过简单选择风格和点击几次即可生成一首原创曲并发布。Boomy有免费额度,但主要作为社交/发布平台,没有公开API供开发集成。
- Stable Audio – Stability AI 提供的文本生成音乐商用服务。可根据文本提示生成最长90秒的音乐片段(付费方案可达数分钟)。提供API供调用,但定价按套餐(月费)计算,每首折合费用数美分以上(如$12/月500首,约2.4美分/首),未达1美分级别。
(上述服务各有侧重:Mubert 强调流式背景音乐且按时计费低廉 (Mubert API — Make Your App Sound Great | Mubert Blog);Soundraw/Beatoven/AIVA/Soundful 则偏向生成完整曲目供剪辑使用,通常按首或订阅计费。开发者可根据预算和用途选择合适方案。如果追求零成本,又有技术能力,也可以考虑使用前述开源模型自行部署来满足需求。)