基于情感特征的背景音乐分类方法

2022.09.21

李颜汐
摘要：为了准确描述背景音乐的类别，提出基于情感特征的背景音乐分类方法。针对当前方法没有考虑情感特征的缺陷，提取情感特征，并与其他特征进行融合组成背景音乐分类特征向量，然后对特征进行筛选，作为神经网络的输入向量，最后采用神经网络进行自动学习，建立背景音乐分类器，并对具体背景音乐数据进行分类和识别。实验结果表明，该方法能够准确区别各种背景音乐，分类正确率高达98%以上，同时也可以应用于其他音乐的分类，具有良好的推广性。
关键词：背景音乐；分类器设计；情感特征；特征向量
中图分类号： TN912?34； TP391 文献标识码： A 文章编号： 1004?373X（2017）15?0115?04
Abstract： In order to describe the categories of background music accurately， a background music classification method based on emotional feature is put forward. Since the defects of the emotional feature aren′t considered in current methods， the emotional feature is extracted， and fused with other features to compose the feature vector of background music classification. The feature is selected as the input vector of neural network. The neural network is used to perform the automatic learning to establish the background music classifier. The specific background music data is classified and identified. The experimental results show that the method can distinguish various background music accurately， its classification accuracy can reach up to 98%， which can be applied to the classification of other music， and has perfect generalization.
Keywords： background music； classifier design； emotional feature； feature vector
0 引言
背景音樂是音乐的一种类型，在许多场合都会用到，如电影等[1?2]。如何选择最合适的背景音乐与相应的场景搭配具有重要的实际应用价值。而背景音乐分类是背景音乐选择的前提和基础，因此背景音乐自动分类引起了人们的广泛关注[3]。
针对背景音乐的自动分类问题，人们的研究一直没有停止过，随着研究不断深入，当前背景音乐自动分类方法主要有基于时域特征的背景音乐自动分类方法和基于频域特征的背景音乐自动分类方法两种[4?5]。在实际应用中，单一的时域特征或者频域特征都无法准确描述背景音乐的类别，自动分类和识别的准确性不高，而且错误分类率很高[6]。为此有学者结合了时域特征或者频域特征优点，提出基于组合特征的背景音乐自动分类方法[7]，与单一时域特征或者频域特征，组合特征可以提供更多背景音乐信息，出现了线性判断、灰色模型等背景音乐自动分类方法，但是当背景音乐中含有噪声时，背景音乐自动分类效果变差[8?10]。特征太多，使得背景音乐自动分类器结构更加复杂，背景音乐自动分类效率低下。相对于其他音乐，背景音乐有自身的特殊性，因为要渲染气氛，加入了情感特征，而当前背景音乐分类方法却忽略了情感特征，分类正确率有待进一步提高[11?12]。
为了准确描述背景音乐的类别，提出基于情感特征的背景音乐分类方法。首先提取背景音乐的情感特征，然后采用蚁群优化算法进行特征选择，作为神经网络的输入向量，最后采用神经网络进行自动学习，建立背景音乐分类器，并对具体背景音乐数据进行分类和识别。结果表明，该方法能够准确区别各种背景音乐分类，分类正确率高达98%以上。
1 背景音乐信号的采集和处理
1.1 背景音乐信号的采集
采用专用设备对背景音乐信号进行采集，然后采用Cool Edit Pro2.1将其保存，结果如图1所示。
1.2 背景音乐信号的预处理
背景音乐信号采集过程受到多种外界因素的干扰，包含有噪声，噪声对后继的背景音乐信号分类产生不利影响，为了抑制噪声对后续背景音乐信号自动分类的干扰，选择小波变换对背景音乐信号进行去噪处理。选择db6基函数，阈值为：
2 提取背景音乐的特征
在背景音乐分类过程中，情感特征比较多，本文选择短时能量、时域方差和频域方差作为特征，将它们组合作为背景音乐分类的特征向量。
2.1 提取背景音乐的短时能量特征
对背景音乐信号进行采集和去噪后，得到理想的背景音乐信号为提取其短时能量为：
2.2 时域方差特征提取
对于背景音乐信号的第帧，可以描述为：
2.3 提取背景音乐信号的频域方差特征
对于某帧背景音乐信号进行傅里叶变换，相应的频域信号为，具体可表示为：
3 筛选背景音乐的重要特征
通过上述步骤提取背景音乐分类特征，情感特征比较多，本文选择短时能量、时域方差和频域方差特征，原始特征数量比较大，若直接采用这些特征进行背景音乐分类，那么分类器的结构会十分复杂，对背景音乐分类效率产生负面影响，因此采用蚁群优化算法对原始背景音乐分类特征进行筛选，简化背景音乐分类器的结构，提高背景音乐分类效率，同时获得更加理想的背景音乐分类结果。
蚁群优化算法根据蚂蚁爬行、觅食群体行为对问题进行求解，问题搜索的速度快，而且具有正反馈功能，因此性能要优于其他人工智能算法。采用蚁群优化算法进行背景音乐特征筛选就是要得到一条最优路径，该路径每一个点组成了最后筛选出的最优背景音乐特征，如图2所示。
蚁群优化算法筛选背景音乐特征的步骤如下：
（1）蚂蚁在进行背景音乐特征选择过程中，通过节点的转移来确定方向，而方向根据转移概率实现，蚂蚁从背景音乐特征移到特征的概率计算公式为：
式中：为启发因子，根据背景音乐分类正确率估计；表示在时刻背景音乐特征与的路径上的信息素浓度；为蚂蚁移动过程中的节点禁忌表。
（2）蚂蚁完成一轮背景音乐特征搜索后，路径上的信息浓度需要进行更新，具体为：
式中：表示迭代数；表示信息素残留因子；为适应度函数值；为一常数。
（3）时刻时，蚂蚁找到第个背景音乐重要特征后，当进行第个特征搜索时，对前面个特征集合进行精细搜索，的任意子集为且有那么应该满足如下条件：
（4）若连续3次增加背景音乐特征时，的值没有太大变化，那么说明此时背景音乐特征可以表示原始背景音乐特征信息，它们为最重要的背景音乐特征。
蚁群优化算法筛选背景音乐特征的流程图如图3所示。
4 背景音乐分类器的设计
采用BP神经网络设计背景音乐分类器，其学习过程具体为：
BP神经网络通过对权值和阈值进行自动调整，使得误差最小，从而结束学习，并输出相应的结果。
5 实验结果与分析
为了分析基于情感特征的背景音乐分类效果，选择一些背景音乐数据作为实验对象，背景音乐有4种类型，分别为高兴、悲伤、痛苦、舒缓，采集的每一种类型背景音乐样本数量如表1所示。
选择文献[11?12]的音乐分类方法进行对比实验，均执行5次仿真实验，选择最高正确率为最终背景音乐分类的正确率，同时统计3种分类方法的平均分类时间（单位：s），结果如表2所示。
对表2的实验结果进行分析，可以得到如下结论：
（1）对比方法的背景音乐分类正确率低于本文分类方法，分类错误数比较多，说明对比方法不能很好地描述背景音乐分类的信息，难以准确区别背景音乐的类型。
（2）本文方法的背景音乐分类正确率高于对比方法，大幅度降低了背景音乐的错识分类数，主要是由于本文方法引入了情感特征，丰富了背景音乐的信息量，获得了更优的背景音乐分类结果。
（3）相对于对比方法，本文方法的背景音乐平均分类时间最少，加快了背景音乐的分类速度，可以用于大规模背景音乐的检索，实际应用价值更高。
6 结语
为了正确区分背景音乐的类别，提出基于情感特征的背景音乐分类方法。针对当前方法忽略情感特征的作用，提取多种情感特征作为背景音乐分类特征向量，引入蚁群算法对特征进行筛选，降低了特征维数，简化了背景音乐分类器的结构，神经网络建立了背景音乐分类器，实验结果表明，该方法可以快速、准确地区别各种类型的背景音乐，分类正确率要高于其他音乐分类方法，具有明显的优越性。
参考文献
[1] DUNKER P， NOWAK S， BEGAU A， et a1. Content based mood classification for photos and music： a generic multi?modal classification framework and evaluation approach [C]// Procee?ding of the 1st ACM International Conference on Multimedia Information Retrieval. Vancouver： ACM， 2008： 97?104.
[2] YANG Y H， LIU C C， CHEN H H. Music emotion classification： a fuzzy approach [C]// Proceedings of the 14th Annual ACM international Conference on Multimedia. Santa Barbara： ACM， 2006： 81?84.
[3] YANG Y H， SU Y F， LIN Y C， et a1. Music emotion recognition： the role of individuality [C]// Proceedings of 2007 International Workshop. Augsburg： ACM， 2007： 13?21.
[4] 范劲松，方廷健.特征选择和提取要素的分析及其评价[J].计算机工程与应用，2001（13）：95?99.
[5] 白亮，老松杨，陈剑，等.音频自动分类中的特征分析和抽取[J].小型微型計算机系统，2005，26（11）：2029?2034.
[6] 秦丹，马光志.基于挖掘技术的音乐风格识别系统[J].计算机工程与设计，2005，26（11）：3094?3096.
[7] 马希荣，梁景莲.基于情感音乐模版的音乐检索系统研究[J].计算机科学，2009，36（1）：239?241.
[8] 陈功，张雄伟.一种基于灰关联分析的语音/音乐分类方法[J].声学技术，2007，26（2）：262?267.
[9] 石祥滨，赵健谕，刘芳，等.一种分段式音乐情感识别方法[J].小型微型计算机系统，2012，33（8）：1847?1850.
[10] 孟永辉，蒋冬梅，付中华，等.一种新颖的语言/音乐分割与分类方法[J].计算机工程与科学，2009，31（4）：106?109.
[11] 高林杰，张明.基于熵和支持向量机的音乐分类方法[J].计算机系统应用，2014，23（5）：83?88.
[12] 张燕，唐振民，李燕萍，等.基于MFCC和HMM的音乐分类方法研究[J].南京师范大学学报（工程技术版），2008（4）：112?114.
[13] 王小凤，耿国华，李鹏，等.一个基于相关反馈的神经网络音乐情感分类器构建算法[J].西北大学学报（自然科学版），2012，42（1）：30?35.