Jump to content
Main menu
Main menu
move to sidebar
hide
Navigation
Main page
Recent changes
Random page
freem
Search
Search
Appearance
Create account
Log in
Personal tools
Create account
Log in
Pages for logged out editors
learn more
Contributions
Talk
Editing
训练音乐大模型
(section)
Add languages
Page
Discussion
English
Read
Edit
Edit source
View history
Tools
Tools
move to sidebar
hide
Actions
Read
Edit
Edit source
View history
General
What links here
Related changes
Special pages
Page information
Appearance
move to sidebar
hide
Warning:
You are not logged in. Your IP address will be publicly visible if you make any edits. If you
log in
or
create an account
, your edits will be attributed to your username, along with other benefits.
Anti-spam check. Do
not
fill this in!
== 数据集准备 == '''数据收集与格式''':训练音乐大模型首先需要大规模、高质量的音乐数据集。数据可以是'''符号音乐'''(如MIDI文件、乐谱)或'''音频'''(WAV、MP3等)。符号音乐以音符事件序列形式表示,信息量相对小且易于模型学习音乐结构;音频则包含丰富的音色和表现细节,但数据量庞大。选择哪种表示取决于任务需求:若关注作曲结构可用MIDI,若需最终音频效果则要用音频数据或两者结合 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。 '''常用开源数据集''': * 符号音乐方面,有如 '''Lakh MIDI Dataset (LMD)''',包含17万首 MIDI 文件,涵盖古典到流行的广泛风格 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。LMD多样性高,常用于训练作曲模型以提高模型对各种风格的适应性 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。另有 '''Nottingham''' 民谣数据库(1000首曲调)等用于旋律生成研究 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。 * 音频方面,大型数据集包括 '''Million Song Dataset'''(百万歌曲,主要用于信息检索)和 '''Free Music Archive (FMA)'''(10万首CC授权歌曲)等 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。专注于钢琴演奏的有 '''MAESTRO''' 数据集(约200小时钢琴MIDI与对应音频) (Applications and Advances of Artificial Intelligence in Music Generation:A Review), 常用于钢琴演奏生成和转录研究。针对乐器音色的有 '''NSynth'''(Google Magenta 提供,包含30万段单音符音频) (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。多轨音乐的有 '''Groove MIDI Dataset'''(13.6小时鼓组和伴奏,多用于节奏生成) (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。丰富多样的开源数据集为训练不同侧重的音乐模型提供了基础。 * 此外,新近的定制大型数据集也出现。例如OpenAI为训练Jukebox自建了含120万首歌曲的数据集(包含歌词和元数据) (Jukebox | OpenAI)。虽然未公开,这显示了顶尖模型所需数据规模已达数百万级别歌曲。 '''数据预处理''':无论何种数据,预处理至关重要: * 对于符号数据(MIDI),常需'''标准化表示''':将MIDI事件序列离散化为模型可处理的token序列。例如采用类似语言模型的词表,将音高、时值、力度等编码成离散符号。Magenta提出的'''REMI'''表示(节奏-事件-度量信息)就是一例,能更好表示音乐节拍和和弦信息 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。此外可对MIDI移调、伸缩节奏以扩充数据规模和多样性(数据增强)。 * 对于音频数据,通常需'''特征表示或压缩''':直接用原始波形建模难度极高,常将音频转换为梅尔频谱图或对数频谱等时频表示以降低数据维度 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。新型方法包括'''VQ-VAE'''(向量量化自编码器)对音频进行离散压缩,例如Jukebox首先训练VQ-VAE将原始44.1kHz音频压缩为离散编码,再用生成模型预测编码序列 (Jukebox | OpenAI)。这大幅减少序列长度,使后续建模成为可能。同时,可对音频进行切片(如按小节片段)或降采样等预处理。 * 预处理还包括'''数据清洗和标注''':去除低质量音频(杂音、剪辑)、统一文件格式和采样率,确保每条数据具备可能的标签(如流派、艺术家)供有监督训练使用。对于带歌词的歌曲,还需进行'''歌词与音频对齐'''(如Jukebox使用工具自动对齐歌词与时间) (Jukebox | OpenAI)。 '''数据多样性与规模考虑''':确保数据涵盖丰富的风格与曲式有助于模型的泛化创作能力 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。研究表明,多样化数据可避免模型过度拟合某种风格,提升其创造力和适应性 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。同时,大规模数据能提升深度模型捕捉复杂模式的能力 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。例如,Magenta项目的成功部分归功于使用了大量跨风格数据训练模型,从而取得显著效果 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。因此,在构建数据集时,应追求风格和形式上的多样性以及足够的规模,以确保模型学到全面的音乐特征。
Summary:
Please note that all contributions to freem are considered to be released under the Creative Commons Attribution-ShareAlike 4.0 (see
Freem:Copyrights
for details). If you do not want your writing to be edited mercilessly and redistributed at will, then do not submit it here.
You are also promising us that you wrote this yourself, or copied it from a public domain or similar free resource.
Do not submit copyrighted work without permission!
Cancel
Editing help
(opens in new window)