1 前言
语音是人的自然属性之一,由于各个说话人发音器官的生理差异以及后天形成的发音习惯等行为差异,每个人的语音中都蕴含着与众不同的个人特征[1]。说话人识别着眼于提取包含在语音信号中的个人特征,以达到识别说话人的目的。
自动说话人识别按其被输入的测试语音来分,可以分为与文本(Text)无关的说话人识别和与文本有关的说话人识别。前者是不规定说话内容的说话人识别,后者是规定内容的说话人识别。对于与文本无关的说话人识别,一般采用混合高斯模型(Gaussian mixture model:GMM) [2,3,4,5,6,7]来建立识别模型。识别时通过GMM计算出各模型的帧似然概率,然后相加后将总得分进行比较后做出识别判断。
在训练GMM模型时,常常采用EM算法来估计模型参数。然而,在针对说话人识别的GMM模型训练中,由于训练数据有限,因此,EM算法存在着会出现奇异阵的重大缺陷。本文研究了用GMM进行说话人识别的方法。针对EM算法的奇异阵问题,提出了说话人识别的GMM模型训练的新方法,实验结果表明,与GMM常用的EM算法相比,提出的新算法能使系统提高识别率。
2 基于GMM的说话人识别方法
GMM是M个成员的高斯概率密度的加权和,可以用下式表示[1]:
(1)
这里 是 维随机向量; 是每个成员的高斯概率密度函数; 是混合权值。完整的GMM可表示为: 。每个成员密度函数是一个 维变量的高斯分布函数,形式如下:
(2)
对于一个长度为 的测试语音时间序列 ,它的GMM似然概率可以写作:
(3)
或用对数域表示为:
(4)
识别时运用贝叶斯定理,在N个未知话者的模型中,得到的似然概率最大的模型对应的话者即为识别结果:
(5)
3 GMM的模型参数估计的改进方法
GMM模型的训练就是给定一组训练数据,依据某种准则确定模型的参数 。最常用的参数估计方法是 估计。对于一个长度为 的训练序列 ,GMM的似然概率可以通过公式(3)取得。由于公式(3)是参数 的非线性函数,很难直接求上式的最大值。因此,常常用EM算法估计参数 。EM是最大期望算法,它的基本思想是从模型参数 的一个初值开始,估计出一个新的参数 ,使得新的模型参数下的似然概率 。新的模型参数再作为当前参数进行训练,这样迭代运算直到模型收敛。每一次迭代运算,下面的重估公式保证了模型似然概率的单调递增。
上一篇:没有了
下一篇:基于梯度矢量流的快速收敛骨架算法
