Editing 训练音乐大模型 (section)

== 数据集准备 ==
'''数据收集与格式'''：训练音乐大模型首先需要大规模、高质量的音乐数据集。数据可以是'''符号音乐'''（如MIDI文件、乐谱）或'''音频'''（WAV、MP3等）。符号音乐以音符事件序列形式表示，信息量相对小且易于模型学习音乐结构；音频则包含丰富的音色和表现细节，但数据量庞大。选择哪种表示取决于任务需求：若关注作曲结构可用MIDI，若需最终音频效果则要用音频数据或两者结合 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。

'''常用开源数据集'''：

* 符号音乐方面，有如 '''Lakh MIDI Dataset (LMD)'''，包含17万首 MIDI 文件，涵盖古典到流行的广泛风格 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。LMD多样性高，常用于训练作曲模型以提高模型对各种风格的适应性 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。另有 '''Nottingham''' 民谣数据库（1000首曲调）等用于旋律生成研究 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。
* 音频方面，大型数据集包括 '''Million Song Dataset'''（百万歌曲，主要用于信息检索）和 '''Free Music Archive (FMA)'''（10万首CC授权歌曲）等 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。专注于钢琴演奏的有 '''MAESTRO''' 数据集（约200小时钢琴MIDI与对应音频） (Applications and Advances of Artificial Intelligence in Music Generation:A Review), 常用于钢琴演奏生成和转录研究。针对乐器音色的有 '''NSynth'''（Google Magenta 提供，包含30万段单音符音频） (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。多轨音乐的有 '''Groove MIDI Dataset'''（13.6小时鼓组和伴奏，多用于节奏生成） (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。丰富多样的开源数据集为训练不同侧重的音乐模型提供了基础。
* 此外，新近的定制大型数据集也出现。例如OpenAI为训练Jukebox自建了含120万首歌曲的数据集（包含歌词和元数据） (Jukebox | OpenAI)。虽然未公开，这显示了顶尖模型所需数据规模已达数百万级别歌曲。

'''数据预处理'''：无论何种数据，预处理至关重要：

* 对于符号数据（MIDI），常需'''标准化表示'''：将MIDI事件序列离散化为模型可处理的token序列。例如采用类似语言模型的词表，将音高、时值、力度等编码成离散符号。Magenta提出的'''REMI'''表示（节奏-事件-度量信息）就是一例，能更好表示音乐节拍和和弦信息 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。此外可对MIDI移调、伸缩节奏以扩充数据规模和多样性（数据增强）。
* 对于音频数据，通常需'''特征表示或压缩'''：直接用原始波形建模难度极高，常将音频转换为梅尔频谱图或对数频谱等时频表示以降低数据维度 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。新型方法包括'''VQ-VAE'''（向量量化自编码器）对音频进行离散压缩，例如Jukebox首先训练VQ-VAE将原始44.1kHz音频压缩为离散编码，再用生成模型预测编码序列 (Jukebox | OpenAI)。这大幅减少序列长度，使后续建模成为可能。同时，可对音频进行切片（如按小节片段）或降采样等预处理。
* 预处理还包括'''数据清洗和标注'''：去除低质量音频（杂音、剪辑）、统一文件格式和采样率，确保每条数据具备可能的标签（如流派、艺术家）供有监督训练使用。对于带歌词的歌曲，还需进行'''歌词与音频对齐'''（如Jukebox使用工具自动对齐歌词与时间） (Jukebox | OpenAI)。

'''数据多样性与规模考虑'''：确保数据涵盖丰富的风格与曲式有助于模型的泛化创作能力 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。研究表明，多样化数据可避免模型过度拟合某种风格，提升其创造力和适应性 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。同时，大规模数据能提升深度模型捕捉复杂模式的能力 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。例如，Magenta项目的成功部分归功于使用了大量跨风格数据训练模型，从而取得显著效果 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。因此，在构建数据集时，应追求风格和形式上的多样性以及足够的规模，以确保模型学到全面的音乐特征。