语音特征信号识别是语音识别研究领域中的一个重要方面,一般采用模式匹配的原理解决。语音识别的运算过程为:首先,待识别语音转化为电信号后输入识别系统,经过预处理,用数学方法提取语音特征信号,提取出的语音特征信号可以看成该段语音的模式;然后将该段语音模型同已知参考模式相比较,获得最佳匹配的参考模式为该段语音的识别结果。语音识别流程图如下图1所示。
图1 语音识别流程
对于民歌、古筝、摇滚和流行四类不同音乐,本文将用BP神经网络实现对这四类音乐的有效分类。每段音乐都用倒谱系数法提取500组24维语音特征信号,提取出的语音特征如下图2所示。
图2 语音特征信号
模型建立
基于BP神经网络的语音特征信号分类算法建模包括BP神经网络构建、训练和分类三步,算法流程如下图3所示。
图3 算法流程图
BP神经网络构建根据系统输入输出数据特点确定BP神经网络的结构,由于语音特征输入信号有24维,待分类信号共有四类,所以BP神经网络的结构为24-25-4,即输入层有24个节点。隐含层有25个节点,输出层有4个节点。
BP神经网络用训练数据训练。共2000组语音特征信号,从中随机选择1500组数据作为训练数据训练网络,500组数据作为测试数据测试网络分类能力。
用训练好的神经网络对测试数据所属语音类别进行分类。
MATLAB实现
1、数据选择和归一化
2、BP神经网络结构初始化
根据语音特征信号特点确定BP神经网络结构为24-25-4,随机初始化BP神经网络的权值和阈值。
3、BP神经网络训练
用随机选取的1500组数据训练BP神经网络,在训练过程中根据网络预测误差调整网络的权值和阈值。
4、BP神经网络分类
用训练好的BP神经网络分类语音特征信号,根据分类结果分析BP神经网络的分类能力。
结果分析
用训练好的BP神经网络分类语音特征信号测试数据,BP神经网络的分类误差如下图4所示。
图4 BP神经网络分类误差
BP网络的分类正确率如下表1所示
BP网络的分类正确率
从BP神经网络分类结果可以看出,基于BP网络的语音信号分类算法具有较高的准确性,能够准确识别出语音信号所属类别。
总结
本文采用的是最基本的BP神经网络,可以发现准确性还有提高空间,而且多次运行分类算法后会发现第一类和第三类的识别准确率非常不稳定,从而算法还可以改进,常用的改进方法有:调整隐含层节点数、附加动量法(权值和阈值更新算法)、变学习率学习算法等等。
关注微信公众号——知行阿明,获取更多优秀文章!