Editing 训练音乐大模型 (section)

== 评估指标 ==
评估生成音乐的质量和效果是一个具有挑战性的课题，需要结合主观和客观指标 (Applications and Advances of Artificial Intelligence in Music Generation:A Review) (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。常用评估方法包括：

* '''主观评价（听感测试）'''：音乐质量终究要以人耳感受为准。主观评价通常邀请专家或普通听众对生成音乐进行盲听测试，让他们从'''音乐质量、风格一致性、创意性'''等方面打分，或在A/B对比中选择更优者 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。例如，让受试者判断一段音乐是否由AI生成（类似图灵测试），或者在风格匹配测试中看AI生成曲目是否符合给定风格。'''平均意见得分 (MOS)''' 是常用指标，满分5分，统计听众对音质和悦耳程度的平均评分。另外还有'''偏好率'''：例如在对比测试中AI音乐被选为更好的比例。主观测试能直接反映人类体验，但成本高、效率低且有评分主观性差异 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。为了提高信度，通常需要足够多的样本和评委，以及明确的评分准则 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。
* '''客观评价（统计与理论指标）'''：为了量化评估，研究者设计了许多从音乐理论和信号分析角度出发的指标 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)：
** ''基于音乐内容统计''：比较生成音乐与真实音乐在某些统计特征上的接近程度。例如音高分布熵（衡量曲调多样性） (muspy.metrics — MusPy  documentation)、和弦进行频率、平均多音符数（polyphony） (muspy.metrics — MusPy  documentation)、节拍稳定性（如鼓点在小节网格上的对齐度） (muspy.metrics — MusPy  documentation)等。'''MusDrum Pattern Consistency'''等指标用于评估节奏规律性 (muspy.metrics — MusPy  documentation)。这些指标可以从生成曲集中计算并与训练集真实音乐的统计值对比，差距越小表示模型对音乐结构的模仿越到位 (muspy.metrics — MusPy  documentation)。例如，一个好的古典音乐生成模型应在音高多样性、和声转调频率等方面与真实古典乐接近，而不会一直重复同样几个和弦。
** ''基于信号处理和听觉模型''：对于音频输出，可采用类似语音合成评估的方法。如计算'''频谱失真'''（看频谱图差异）、信号噪声比等。然而这些低级指标往往不能充分反映音乐感知质量。
** ''嵌入空间距离''：近年来引入**Fréchet Audio Distance (FAD)**等指标，类似图像领域的FID，用预训练音频特征提取网络（如VGGish）将真实和生成音频映射到嵌入空间，计算两者分布之间的弗雷歇距离 (Adapting Frechet Audio Distance for Generative Music Evaluation)。FAD值越小表示生成音乐整体分布越接近真实音乐。FAD无需逐一配对比较参考音乐，适合评价大批生成样本质量 (Adapting Frechet Audio Distance for Generative Music Evaluation)。不过研究也指出FAD与人类感知的相关性尚需验证，选择不同的预训练嵌入也会影响结果 (Adapting Frechet Audio Distance for Generative Music Evaluation)。
** ''音乐理论一致性''：利用已有的音乐分析算法检验生成曲目是否符合基本理论规则，例如和声学规则（不出现连续五度八度等禁忌）、节奏是否合拍、音高是否在给定调内等。虽不能全面衡量音乐好坏，但能发现明显的技术错误。还有学者提出'''原创性'''和'''复杂度'''指标，如计算旋律重复度、动机发展程度，以量化生成音乐的新颖性 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。
** ''条件符合度''：如果模型有条件输入（如给定风格或歌词），则评估模型输出与条件的一致性也是重要指标。例如训练一个特定风格分类器，测试生成音乐被分类为目标风格的准确率，或者计算歌词与生成旋律的同步匹配程度等 (MusicRL)。又如MusicCaps数据集的'''文本-音乐相关性'''评价，即AI生成音乐对提示文本的符合程度，可以通过专家打分或embedding相似度计算来衡量 (Music Consistency Models - arXiv)。
* '''人机对比评测'''：综合主客观方法的一种评测是在人类创作音乐库和AI生成音乐库之间进行差异检验。例如进行'''伪听众测试'''：混合播放若干人作音乐和AI音乐，让听众判断哪些是AI作品，以此衡量AI作品的隐真程度。如果听众难以分辨，则说明模型达到了较高的逼真度 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。这种测试可以定量地以“骗过听众的比例”来表示模型水平。
* '''用户体验反馈'''：在产品环境下，还可以依赖实际用户的反馈数据评估，如跳播率（如果AI生成音乐用于电台/播放列表，用户是否快速跳过）、停留时长、点赞率等。这些真实用户行为可作为模型效果的间接衡量指标，从而持续改进模型。

实际评估中，通常需要'''结合多种指标''' (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。例如，一般流程可能是：先用客观指标筛查模型配置（快速比较不同模型在FAD、音乐统计特征上的表现），再挑选若干优胜模型进行人耳主观测评以最终确定最佳。同时，定性分析也重要，如请音乐专业人士点评生成曲在乐思发展、情感表达上的优缺点 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。目前音乐生成领域仍缺乏统一标准的评价协议，如何客观衡量音乐创意和美感是持续的研究难题 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。未来或需建立公共评测基准，将'''主观听感'''与'''客观特征'''结合，形成更全面的评价方法 (Applications and Advances of Artificial Intelligence in Music Generation:A Review)。对技术决策者来说，在汇报结果时应当同时提供客观数据和一些示例供听取，以便直观展示模型效果。