Jump to content
Main menu
Main menu
move to sidebar
hide
Navigation
Main page
Recent changes
Random page
freem
Search
Search
Appearance
Create account
Log in
Personal tools
Create account
Log in
Pages for logged out editors
learn more
Contributions
Talk
Editing
训练音乐大模型
(section)
Add languages
Page
Discussion
English
Read
Edit
Edit source
View history
Tools
Tools
move to sidebar
hide
Actions
Read
Edit
Edit source
View history
General
What links here
Related changes
Special pages
Page information
Appearance
move to sidebar
hide
Warning:
You are not logged in. Your IP address will be publicly visible if you make any edits. If you
log in
or
create an account
, your edits will be attributed to your username, along with other benefits.
Anti-spam check. Do
not
fill this in!
=== Riffusion(Diffusion-based音乐生成) === '''Riffusion'''(2022年底发布)是一个别出心裁的开源项目,它利用'''扩散模型'''生成音乐,将音乐问题转化为'''图像生成'''问题 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。具体来说,Riffusion基于Stable Diffusion(一种文本到图像生成模型)对'''声谱图'''进行生成,再把光谱图转换回音频,实现了音乐合成。 * '''核心思想''':将音频的时频表示(梅尔频谱或短时傅里叶变换的幅度谱)视为一张图像,然后用图像扩散模型来生成这个“声音的图像” (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。Stable Diffusion模型本来训练于海量图像-文本对,Riffusion在此基础上'''微调'''或引导,使其生成的图像实际上是有意义的声音频谱。通过一些后处理(如Griffin-Lim算法从频谱估计相位),就可以把谱图还原成音频。这样Riffusion巧妙地把音乐生成借用了强大的图像生成模型能力。 * '''模型训练''':作者使用了一个'''自建的音乐光谱数据集'''。据介绍,他们收集了各种风格的音乐片段,转为光谱图并配以简短描述标签(例如“爵士萨克斯风即兴”)。然后用这些<图像, 文本>对来'''微调Stable Diffusion'''模型 (Text-to-Music generation using Riffusion and OpenVINO)。因为Stable Diffusion预训练已经有强大的图像纹理生成能力,只需让它学会将文本关联到特定音乐光谱花纹即可。值得一提的是,他们还利用OpenAI的CLIP模型作为引导,使生成的光谱图与文本描述在CLIP空间相关度高 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。这提高了生成音乐与提示文本的契合度。 * '''功能与效果''':Riffusion模型可以通过输入文本提示,生成对应风格的短音乐片段(通常几秒到十几秒)。例如输入“电子舞曲节拍,带贝斯”会生成相应风格的音乐。由于扩散模型逐步生成图像,Riffusion还能在生成过程中实现'''风格渐变''':例如左侧提示A、右侧提示B,中间通过扩散渐变,可以得到一段从风格A平滑过渡到风格B的音乐。这对音乐过渡、混音应用很有趣。音质方面,Riffusion生成的是中等质量(22kHz左右单声道)的片段,旋律和节奏通常较简单,但风格特征明显。作为首个扩散音乐项目,其音频保真度和创意都令人印象深刻。 * '''实时性''':Riffusion项目还演示了接近实时生成:通过将扩散过程截断或小幅动态更新,可以在用户打字的同时不断产生音频流。这种交互演示展示了AI即兴音乐生成的新可能性 (riffusion/riffusion-hobby: Stable diffusion for real-time music generation)。当然,严格来说扩散模型本身不是真实时的,只是他们采用了一些优化和不太长的采样步数。 * '''开源''':Riffusion完全开源,包括训练代码、模型权重和一个演示Web应用 (Stable Diffusion fine-tuned to generate Music — Riffusion - Reddit)。这对开发者非常有价值。我们可以直接使用其预训练模型,输入文本就得到音乐,甚至可整合到自己的应用中。或者我们也能在其代码基础上进一步训练,比如用我们特定风格的数据再微调,加强某类音乐生成能力。 * '''局限''':Riffusion目前主要生成无歌词的乐器音乐,且段落较短,没有长时间结构。同样地,由于是通过图像生成音频,有时谱图上可能出现不合理的伪影,导致声音中有杂音或不和谐部分。另外,它依赖的Stable Diffusion对音乐理解是间接的,不一定捕捉复杂音乐理论。所以Riffusion更适合'''纹理化、氛围类'''音乐(如Ambient、电子乐riff),要让它作曲一首结构复杂的曲子则超出其能力。 * '''启发''':Riffusion证明了'''跨领域迁移'''的威力——利用视觉模型来做听觉任务。在我们项目中,如果资源有限训练庞大音乐模型,不妨考虑类似transfer-learning思路。例如用预训练的大型音频生成模型(即将音乐视作特殊音频任务)或者借助已有的text-audio对齐模型(如CLAP)来指导音乐生成。Riffusion还展示了'''扩散模型'''在音乐上的潜力,高质量输出只需找到合适的表示方式即可。未来我们可以尝试直接在声音时域上应用扩散(虽然难度更高),或者结合Riffusion的谱图方法与其它架构融合。
Summary:
Please note that all contributions to freem are considered to be released under the Creative Commons Attribution-ShareAlike 4.0 (see
Freem:Copyrights
for details). If you do not want your writing to be edited mercilessly and redistributed at will, then do not submit it here.
You are also promising us that you wrote this yourself, or copied it from a public domain or similar free resource.
Do not submit copyrighted work without permission!
Cancel
Editing help
(opens in new window)