《模式识别原理与应用》课件第12章.ppt_163文库

资源描述

1、第12章语音识别第第12章语章语音音识识别别12.1语音识别的基本原理语音识别的基本原理12.2说话人识别说话人识别12.3语种识别语种识别12.4关键词识别关键词识别12.5连续语音识别连续语音识别习题习题第12章语音识别12.1 语音识别的基本原理语音识别的基本原理本节主要讨论语音识别的基本原理,包括系统结构、特征提取和分类模型。12.1.1语音识别系统的结构语音识别系统的结构典型语音识别系统结构框图如图12-1所示,一个完整的语音识别系统包括预处理、特征提取、模型建立、模式匹配和判决规则等5个部分。第12章语音识别图 12-1语音识别系统结构框图第12章语音识别语音识别是属于人工

2、智能领域中的一项技术,本质上讲,语音识别技术是一个语音信号模式识别问题,它由训练(或注册,Training)和识别(或测试,Testing)两个阶段完成。从训练语音中提取语音特征、建立参考模型并储存的过程称为训练阶段;从待识别语音中提取语音特征,依据参考模型进行比较和判决的过程称为识别阶段。第12章语音识别12.1.2语音信号的预处理语音信号的预处理由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800 Hz以上按6 dB/倍频程跌落,为此要在预处理中进行预加重。预加重的目的是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。一般用具有6 dB/倍频程的提升

3、高频特性的预加重数字滤波器实现,它一般是一阶的FIR滤波器,即第12章语音识别1()1H zz(12-1)式中,值接近于1,典型值为0.94。语音信号是非平稳过程、时变的,但由于人的发音器官的运动速度较慢,因此可以认为语音信号是局部平稳的,或短时平稳的。第12章语音识别语音信号分析常通过分段或分帧来进行,一般每秒的帧数约为33100,分帧既可用连续的方法,也可用交叠的方法,在语音信号中常用“短时分析”表述。短时分析实质上是用一个窗截取信号,如果采用矩形窗,则其高频部分的吉布斯(Gibbs)效应必将影响语音信号的高频部分,一般用高频分量幅度较小的窗形,以避免这些影响。例如,汉明(Hamming

4、)窗的带宽是矩形窗的两倍,但带外衰减却比矩形窗大得多。第12章语音识别12.1.3语音识别的特征提取语音识别的特征提取语音识别系统中的特征提取即提取出适合分类的某些信息特征(如说话人,或语言特征,或关键词特征),此特征应能有效地区分不同的模式,而且对同种方式的变化保持相对稳定。第12章语音识别了由于说话内容的语义特征、说话人的个性特征和语言特征总是交织在一起的,目前还没有找到将三者很好地分离的方法。尽管如此,语音信号的特征参数仍从不同侧面反映出说话人的个性、语言特性和语义特性,仍是语音识别特征的重要来源。考虑到特征的可量化性、训练样本的数量和系统性能的评价问题,目前的语音识别系统主要依靠较低层

5、次的声学特征进行识别。语音识别特征大体可归为3类:第12章语音识别(1)线性预测系数及其派生参数,如线性预测系数(LPC)、线谱对系数、线性预测倒谱系数(LPCC)及其组合等参数。(2)由语音频谱直接导出的参数,如基音(Pitch)及其轮廓、美尔频率倒谱系数(MFCC)、感知线性预测(PLP)参数、口音敏感倒谱系数(ASCC)。(3)混合参数。混合参数是由上述不同的参数组成的矢量。下面简要介绍几种常用的参数。第12章语音识别1.基音周期基音周期基音周期是指发浊音时声带振动所引起的准周期运动的时间间隔,是声带振动频率F0的倒数。基音周期的检测方法大致可分为三类:(1)时域估计法,即直接由语音波形

6、来估计基音周期,如自相关法、平均幅度差法(AMDF)等。(2)变换域法,将语音信号变换到频域或倒谱域来估计基音周期,如倒谱法等。(3)混合法,即先将信号提取声道模型参数,然后利用它对信号进行逆滤波,得到音源序列,最后再利用自相关法或AMDF求得基音周期。第12章语音识别1()()()1PkkkS zGH zU zz(12-2)式(12-2)把语音信号s(n)建模成为一个P阶的AR过程。对于浊音段,此系统受准周期冲激串激励;对于清音段,该系统则受随机噪声序列激励。此模型的参数有浊音/清音判决、浊音语音的基音周期、增益常数G及数字滤波器参数k。利用该传输函数可得到语音信号s(n)合成的差分方程:第

7、12章语音识别)()()(1nGuknsnsPkk(12-3)从式(12-3)可以看出,s(n)是前P个语音信号采样值s(n1),s(n2),s(nP)的线性组合,因此该语音产生模型通常被称为线性预测(LP)模型或自回归(AR)模型。k(k=1,P)为线性预测系数,是从语音信号中提取出来的。声道形状在时间上是变化的,所以预测系数也是时变的。根据语音信号的短时平稳性,可以认为语音在每一个分析帧(1030 ms)上是非时变的,从而计算得到一组预测系数。第12章语音识别计算预测器系数的常用方法为自相关法,它的思想是使预测误差e(n)的均方值最小。e(n)定义如下:10()()()()()()PPkk

8、kke ns ns ns ns nks nk(12-4)其中：0=1;1()()Pkks ns nk称做 s(n)的预测值或估计值。第12章语音识别算k的准则是使Ee2(n)极小,故令 2()/0,(1,)kE enkP得到一个线性方程组:1()()(1,)PkkR ikR iiP(12-5)其中 10()()()NinR is n s ni(12-6)第12章语音识别称为语音短时自相关系数,N为语音帧的样点数,P为预测器阶数。用德宾(Durbin)算法解方程式(12-5),可得k(k=1,P)。3.线性预测倒谱系数线性预测倒谱系数(LPCC)同态信号处理就是将非线性问题转化为线性问题来进行处

9、理的一种方法。对语音信号产生过程建模成一个激励信号通过时变系统的过程,即一个卷积的过程,卷积作为一个非线性问题可使用同态处理来解决。第12章语音识别LPC系数可以用来估计语音信号的倒谱,这也是语音信号短时倒谱分析中一种特殊的处理方法。式(12-2)的声道模型的传输函数H(z),其冲激响应为h(n),首先求序列h(n)的倒谱。因为H(z)是最小相位的,所以可以求出和k之间的递推关系为()h n()h n第12章语音识别1111(1)()(1)(),1()(1)(),nnkkPkkhkh nh nknPnkh nh nknPn(12-7)由式(12-7)可以直接从预测系数k推得倒谱,由于这个倒谱是

10、从线性预测系数得到的,因此又称之为LPC倒谱(LPCC)。由于LPCC利用了线性预测中声道传输函数H(z)的最小相位特性,因此避免了一般同态处理中求复对数而带来的相位卷绕的问题。()h n第12章语音识别4.美尔频率倒谱系数美尔频率倒谱系数(MFCC)MFCC不同于LPCC,它是在频谱上采用滤波器组的方法计算出来的,这组滤波器在频率的美尔(Mel)坐标上是等带宽的。这是因为人类在对1000 Hz以下的声音频率范围的感知遵循近似线性关系,对1000 Hz以上的声音频率范围的感知不遵循线性关系,而是遵循在对数频率坐标上的近似线性关系。美尔刻度与频率的关系如图12-2所示。美尔刻度与频率的关系式为

11、3322.23log(1 0.001)MelHzTf(12-8)第12章语音识别图 12-2 美尔刻度与频率的关系第12章语音识别MFCC正是基于这个现象提出的,它的计算过程如图12-3所示。语音信号在经过加窗处理后变为短时信号,用FFT计算它的能量谱之后,通过一个具有40个滤波器的滤波器组,前13个滤波器在1000 Hz以下是线性划分的,后27个滤波器在1000 Hz以上是在美尔坐标上线性划分的。如果表示第k个滤波器的输出能量,则美尔频率倒谱CMel(n)在美尔刻度谱上可以采用修改的离散余弦变换(DCT)求得,其中,P为MFCC参数的阶数。ks 第12章语音识别1()()()Knn kn k

12、kdCep ik CepiCepi(12-9)图12-3 MFCC计算过程第12章语音识别5.差分参数差分参数通常语音信号的动态参数能较好地反映语音信号的时变特征,因此在获得每帧信号的特征参数后,还要计算相应的差分参数。假设当前所获得的特征倒谱参数是P维,那么一阶差分特征的计算如式(12-10)所示:1()()()Knn kn kkdCep ik CepiCepi(i=1,2,P)(12-10)第12章语音识别其中:dCep表示动态特征;Cep表示倒谱;K是求差分的帧的范围;为因子,用来换算这些特征。式(12-10)也可写成()()Knn kkKdCep ikCepi(12-11)类似地,二阶

13、差分特征可由下式获得 21()()()()Ktt kt kkKt kkKd Cep idCepidCepikdCepi(12-12)第12章语音识别12.1.4语音识别的模型建立语音识别的模型建立模型建立是指在训练阶段用合适的模型来表征这些特征参数,使得模型能够代表该语言的语音特性。对模型的选择主要应从语音的类型、所期望的性能、训练和更新的难易程度以及计算量和存储量等方面综合考虑。当前有多种模型可供选择,一般可分为以下四类。第12章语音识别(1)模板匹配模型。从每种模式的训练语句中提取相应的特征矢量,这些特征矢量称为模板。识别时,从语音信号中按同样的处理法提取测试模板,并且与其相应的参考模板相

14、比较。模板匹配模型的不足之处在于不能全面地反映样本分布及统计特性,适应性较差。典型模板匹配模型有最近邻(Nearest Neighbor,NN)模型、动态时间规整(Dynamic Time Warping,DTW)模型和矢量量化(Vector Quantization,VQ)模型。第12章语音识别(2)概率统计生成模型(又称参数模型)。语音信号具有短时平稳性,通过对稳态特征如基音、声门增益、低阶反射系数的统计分析,可以利用均值、方差等统计量和概率密度函数进行分类判决。概率统计生成模型采用某种概率密度函数来描述语音特征在特征空间的分布情况,并以该概率密度函数的一组参数作为语音模型。概率统计生成模

15、型由于考虑了语音的统计特性,能较全面地反映语音的统计信息,其优点是不用对特征参量在时域上进行规整。典型的概率统计生成模型有隐马尔可夫模型(Hidden Markov Model,HMM)和高斯混合模型(Gaussian Mixture Model,GMM)。第12章语音识别(3)神经网络(ANN)模型。人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的稳健性,其性能近似理想的分类器。其缺点是训练时间长,动态时间规整能力弱。目前常用的神经网络有多层感知器(MLP)、径向基函数(RBF)网络、自组

16、织映射(SOM)网络和支持向量机(SVM)网络等。第12章语音识别(4)融合模型。把以上分类方法与不同特征进行有机组合可显著提高语音识别的性能。下面简要介绍动态时间规整模型、矢量量化模型、隐马尔可夫模型和高斯混合模型。1.动态时间规整动态时间规整(DTW)模型模型由于语速、语调、重音和韵律的变化,语音信息存在时变因素,从而使得测试模板和参考模板在时间尺度上可能不完全一致。因此,需要将识别模板与参考模板进行时间对齐,按照某种距离测度计算两模板间的相似程度。第12章语音识别模板序列 12(,)Nx xx与输入序列 12(,)Mx xxNM不均匀匹配得分z定义为()1(,)Mij iizdx x(1

17、2-13)其中,模板标记j(i)是由基于最近邻原则的动态时间规整法(DTW)给出的。DTW算法使z最小化,将两个信号进行时间上的对齐。在时间对齐后,最终的距离和是匹配得分的基础。第12章语音识别2.矢量量化矢量量化(VQ)模型模型矢量量化最早用于数据压缩编码,后来很多研究人员将其用于语音识别。一般采用LBG算法把训练数据进行聚类生成码本,即参考模板的集合。识别时,对输入矢量进行矢量量化,以量化产生的失真度作为判决标准。L帧测试语音矢量(x1,x2,xL)的匹配得分为第12章语音识别1min(,)LjCjzdxxx(12-14)其中,C是参考模板的集合。VQ模型不需要对时间进行对齐,具有复杂度

18、低、精度较高以及判断速度快的优点。第12章语音识别3.隐马尔可夫模型隐马尔可夫模型(HMM)隐马尔可夫模型把语音建模成由可观察到的符号序列组成的随机过程,符号序列是发声系统状态序列的输出。HMM为有限状态的随机过程,从状态si到状态sj的转移概率为aij=p(sj|si);对应于状态si,语音特征x(随机向量)的概率密度函数为p(x|si)。由给定模型M产生具有L帧语音特征向量(连续)x1,x2,xL的似然值为第12章语音识别12121,.,1(|)(|)(|)LLLiiiis ssS ipMps p ss x,x,.,xx(12-15)其中,S=1,2,Q表示所有可能状态的集合。对于离散的

19、语音特征向量,上式中的 p(x1,x2,xL|M)和p(xi|si)为相应的概率。第12章语音识别在使用HMM识别时,为每个说话人(或音节、音素)建立发声模型,通过训练得到状态转移概率矩阵和语音特征向量的概率密度矩阵(或概率矩阵)。识别时计算未知语音在状态转移过程中的最大似然值或概率,根据最大似然值或概率的模型进行判决。HMM模型广泛用于说话人识别、语言辨识、关键词检出和连续语音识别中,具有良好的性能。此外,HMM模型不需要时间规整,可节约判决时的计算时间和存储量。不过,HMM模型训练的计算量较大。第12章语音识别4.高斯混合模型高斯混合模型(GMM)高斯混合模型本质上是一种多维概率密度函数,

20、可以用来表示语音特征矢量的分布。一个具有M个混合数的D维GMM,其概率密度函数用M个高斯分量的加权和来表示,即 1(|)()Miiipwbxx(12-16)第12章语音识别其中:x是一个D维的观测矢量;wi(i=1,2,M)为混合权值,满足 Miiw11)(xib为D维高斯密度函数,即)()(21exp)2(1)(12/12/iiTiiDibxxx(12-17)第12章语音识别其中:i为均值矢量;i为协方差矩阵;D是参数的维数,例如,取LPCC参数17维,或取参数组合后的维数。高斯混合模型可由各均值矢量、协方差矩阵及混合权值来描述,可表示为三元式=wi,i,i,i=1,2,M。在GMM模型中,

21、首先对特征矢量进行聚类,把每一类看做是一个多维高斯分布函数;然后,求出每一类的均值、协方差矩阵和出现的概率,得到每种模式的训练模板;最后,将观测序列代入每个模板,对应于最大的后验概率的模板为所识别的对象。第12章语音识别12.1.5语音识别的判决准则语音识别的判决准则在识别阶段,用训练阶段建立的语音模型对测试语音的特征参数进行某种形式的模式匹配,从而得出相似性得分,并依据特定的规则给出最终的识别结果。对于模板匹配模型,比较J个模板和测试语音x的距离,距离最近的模板种类则判决为该测试语音的语言种类,即第12章语音识别1,2,.,argmin(,)jjJIDdx x(12-18)其中，为第j种语

22、言的模板。对于概率生成模型,判决规则为J个模型中的哪个模型对x产生的后验概率最大,就判决测试语音x属于哪种模型,即jx第12章语音识别1,2,.,1,2,.,(|)()argmax(|)argmax()jjjjJjJPPIDPPxxx(12-19)其中,j为第j种概率生成模型。对于神经网络模型,判决时就是看属于哪一类的可能性最大。对于多类的分类问题,常常转化为多个两类分类问题的组合问题,而且两类问题往往更适于用判别模型来解决。第12章语音识别12.2说说话话人人识识别别12.2.1说话人识别的基本原理说话人识别的基本原理说话人识别的基本原理是利用说话人的语音为每一个说话人建立一个能够描

23、述此说话人特点的模型,作为此说话人语音特征参数的标准模板,然后针对采样而来的语音信号进行比对,从而实现判别说话人身份的目的。第12章语音识别根据说话人识别的目的和判决模式的不同,可将说话人识别分为说话人辨认和说话人确认。说话人辨认是指通过一段语音从已有的有限个说话人集合中分辨出说话人身份,是“多选一”的模式识别问题。说话人确认是指通过说话人的一段语音证实该说话人是否与他所声称的身份一致,系统只需给出接受或拒绝两种选择,是“一对一”的模式识别问题。进一步,若考虑待识别的说话人是否在注册的说话人集合内,则说话人辨认分为开集(Openset)辨认和闭集(Closeset)辨认。在多数情况中,用语音对

24、说话人进行身份验证的都被归类为说话人确认。第12章语音识别依据语音内容的不同,可将说话人识别分为文本相关(TextDependent)、文本无关(TextIndependent)和文本提示(TextPrompt)三种。文本相关的说话人识别是指规定语音内容,即注册和识别时说同样的话。文本无关的说话人识别是指不规定语音内容,即注册和识别时可以说任意的话,系统对发音内容没有先验知识。文本提示的说话人识别是指从有限的语音中提示用户说一段话,它可以归为与文本相关的说话人识别。第12章语音识别说话人识别系统的典型结构框图如图12-4所示,其中,图12-4(a)为说话人辨认系统,图12-4(b)为说话人确认

25、系统。说话人识别包括训练和识别两个阶段:(1)在训练阶段,每个说话人重复一定次数的发音,然后分析每次发声的语音段,以提取特征,并利用某种模型算法,形成每个说话人的参考模板。其中,关键在于选取能够唯一表征人的有效而可靠的参量。第12章语音识别(2)在识别阶段,对语音信号进行特征分析,然后计算与参考模板的距离,选取产生最小值的结果输出。说话人确认系统则是计算待识特征与声明说话人模板的距离,并与设定的阈值比较,若高于阈值则拒绝判决,低于阈值则接受判决。其中,关键在于如何规定相似性的测度,使相似性计算简单、可靠;并能考虑到人在不断变化的情况,使系统可靠工作。第12章语音识别图 12-4说话人识别系统的

26、结构框图(a)说话人辨认;(b)说话人确认第12章语音识别图 12-4说话人识别系统的结构框图(a)说话人辨认;(b)说话人确认第12章语音识别12.2.2说话人识别系统举例说话人识别系统举例1.说话人辨认说话人辨认说话人辨认实验集合中共有30个说话人,每个人分别录制5分钟左右的电话录音,由于是与文本无关的实验,因此录制的语音内容任意。录制时采用8 kHz采样,16 bit量化,然后存成语音文件。每个人取大约30 s的语音用作训练,其余的用于测试。语音经过预加重后,通过加窗得到语音帧,加窗选用256点的汉明窗,帧移为10 ms,去除静音帧。每帧语音提取12阶LPCC特征参数。第12章语音识

27、别说话人辨认系统的性能可以直接用错误率EID或正确率CID来表示:/IDerrtotEnn/IDcortotCnn(12-20)(12-21)这里,ntot、nerr和ncor分别表示总测试数、错误数和正确数。训练时,将每两个人的训练语音用SVM进行训练,并将训练结果即支持向量SV作为这两个人的模型存储下来。第12章语音识别在说话人辨认的测试阶段,需要对测试语音进行与训练语音同样的处理,提取语音特征参数,再用训练后的模型按照判决规则的两种方法之一进行判决,最终输出辨认结果。说话人测试语音为集合中30个人的非训练语音的任意3 s左右长度的有效语音,进行说话人辨认实验,正确率为91.4%。第12章

28、语音识别2.说话人确认说话人确认说话人确认实际上是检测问题,其性能通常用漏警错误率Emiss和虚警错误率Efa来表征。漏警错误率是指当目标说话人存在时未能检测出的概率,虚警错误率是指当目标说话人不存在时错误检测出的概率。Emiss和Efa的计算式为 arg/missmisstetEnn/fafaimposterEnn第12章语音识别实验语料库采用NIST说话人识别测试语料库,语音文件为电话信道下8 kHz采样率压缩格式,选取20个目标说话人(10男10女),每个说话人有大约2 min的训练语料。语音经过预加重后进行加窗处理,窗函数使用汉明窗,窗长为256个样本点。然后对每一帧提取12阶MFCC

29、语音特征参数,帧移为10 ms。用每个说话人的训练语音训练每个说话人的GMM模型,每个模型具有64个高斯混合成员。第12章语音识别背景说话人模型的训练是通过对随机挑选的60个任意非目标说话人的语音训练的GMM模型,模型有2048个高斯混合成员。用SVM对每个目标说话人的训练语音和背景说话人模型进行训练,得到每个目标说话人的SVM模型。目标说话人的训练语音和背景说话人模型进行训练，得到每个目标说话人的SVM模型。这里采用等错误率（EER）来进行判决和评价，将漏警和虚警率结合起来成为一个单一数字，利用二者相等的点的判决阈值的进行说话人确认，得到等错误率为6.1。第12章语音识别12.3语语种种

30、识识别别12.3.1语种识别的基本原理语种识别的基本原理语种识别技术本质上是一个语音信号的模式识别问题,它由训练(或注册,Training)和识别(或测试,Testing)两个阶段完成。从各种语言的训练语音中提取特征,建立参考模型的过程称为训练阶段;从待识别语音中提取语言特征,依据参考模型对语音段的语言种类进行判断的过程称为识别阶段。语种识别系统结构如图12-5所示,一个完整的语言辨识系统包括预处理、特征提取、模型建立、模式匹配和判决规则等5个部分。第12章语音识别图 12-5语种识别系统结构第12章语音识别类似于说话人识别,语种识别可分为闭集辨认和开集辨认。闭集辨认就是指待辨认语言的已注册

31、,系统辨认该已注册说话人的语言种类。开集辨认是指待辨认语言不一定属于已注册的语言集合。语种识别系统把句子作为一个整体来处理,进而获得一种语言区别于其他语言的信息。语种识别所用的信息包括音韵信息、音素配位信息、韵律信息和语言信息。第12章语音识别(1)音韵信息。音素是音的最小单位,也就是语音的最小音段。对于不同的语言,音素的数量和种类存在差异。(2)音素配位信息。每种语言都有一种制约不同音素排列组合的规律,对于不同的语言,音素之间的排列组合方式的差别很大。(3)韵律信息。对于不同的语言,时长特征、说话速率、基音轮廓(语调)和重音等有很大差异。(4)语言信息。每种语言都有自己的词汇、自身的语法规则

32、、句型模式。第12章语音识别12.3.2语种识别系统举例语种识别系统举例本节介绍一种将音韵信息、韵律信息和音素配位信息三者结合起来进行语种识别的算法。该算法采用段级特征参数,对音素没有进行精确的识别,而是在自动分段的基础上利用高斯混合模型标识得到一组“伪音素”符号,从而将语音信号转化为符号序列,进而建立语言模型。算法流程如图12-6所示。第12章语音识别图 12-6算法流程示意图第12章语音识别1.GMM标识器标识器对于任一个特征矢量xt,其在第i个模型第j个高斯混元中的概率值pij(xt)描述了xt属于这个混元的概率。因此,xt在高斯混合模型i下的伪音素标识sti可由下式得到:argmax(

33、)argmax|,tiijijijjjspxx N(12-24)第12章语音识别在很多语言中元音和辅音具有十分不同的音素配位信息,为了得到更加合理的标识序列和更为精细的语言模型,可以考虑对元音段和辅音段分别建立GMM标识器,在元音段GMM标识器的输出标识前面加上符号“V”,在辅音段GMM标识器的输出标识前面加上符号“C”。具体实现框图如图12-7所示,其中自动分段算法采用前后向散度算法。第12章语音识别图 12-7基于自动分段的双GMM标识器第12章语音识别2.n元语言模型元语言模型设有一个符号序列S=(s1,s2,sN),其中siW,W为符号集合。根据Bayes法则,S出现的概率P(S)可

34、分解成如下形式:12121312121()(,)()(|)(|,)(|,)nNNP SP s ssP s P s s P s s sP ss ss12121312121()(,)()(|)(|,)(|,)nNNP SP s ssP s P ss P ss sP ss ss(12-25)第12章语音识别其中,P(si|s1,s2,si1)是si紧跟在符号序列s1,s2,si1后出现的概率。在实际应用中,通常假设S是一个n阶马尔可夫链,即si紧跟在序列s1,s2,si1后出现的概率等同于它紧跟在其中n1个符号之后出现的概率,如下式所示:121121(|,)(|,)iiii ni niP ss ss

35、P ssss (12-26)其中,n为固定值。第12章语音识别根据上式统计得出的语言模型即称为n元(ngram)语言模型。对于伪音素符号序列来说,由于符号集合M一般比较小,可以考虑使用四元甚至五元语言模型。121(|,)ii ni niP ssss 的值可由序列 12,i ni nisss 在训练语料中出现的总次数与序列 121,i ni nisss 出现的总次数相比得到,即第12章语音识别12121121(,)(|,)(,)i ni niii ni nii ni niC sssP ssssC sss (12-27)其中,C(S)是序列S在训练语料中出现的总次数。第12章语音识别3.实验结果

36、实验结果实验中用到的所有数据都来源于OGITS多语言电话语料库,语音信号经过8 kHz采样,16 bit量化。对英语、德语、日语、汉语、西班牙语五种语言进行识别,每种语言选取50个说话人的全部语音作为训练语音,每个说话人的训练文件长度约为60 s。语料库中五种语言剩下的语音作为测试集,测试时所有语音均被划分为6 s的语音段。第12章语音识别实验中采用段级参数,语言模型的阶数取为四元,元音和辅音GMM标识器的混元个数取为相同,分别对64、128、256个混元的三种情况进行识别。实验结果如表12-1所示。第12章语音识别第12章语音识别12.4关关键键词词识识别别12.4.1关键词识别的基

37、本原理关键词识别的基本原理关键词识别是连续语音识别的一个分支,因为关键词识别的任务是在连续的无限制的自然语音流中识别出给定的词,但它又不要求把整个的语音流全部识别出来;另外,关键词识别无法对发出自然语音流的发音人提出任何要求。因此,可以说关键词识别与连续语音识别有相同之处,但又有其独特之处。关键词识别系统由于其任务的特殊性,系统组成有其独特的结构。汉语关键词识别系统结构可用图12-8表示。第12章语音识别图 12-8关键词识别系统的一般结构第12章语音识别如图12-8所示,音节边界估计和确认部分并不是必需的。音节边界估计首先对输入语音进行粗略分段,利用能量信息和音调信息大致分出音节边界。这种系

38、统大多以音节为识别基元,而且系统的识别性能很大程度上取决于前端音节边界估计的结果。确认是指发音确认,其概念类似于说话人识别中的说话人确认,也是通过置信度计算决定是否拒识。第12章语音识别因为关键词识别系统不需要识别出所有发音,除关键词以外的都称为填料或废料,所以大多数关键词识别系统的参考模板都采用关键词模板加填料模板的形式,其语法网络结构如图12-9所示。其中系统的操作点可以通过设置词间的转移权重wkn(1nN)和wfn(1nM)来调节。第12章语音识别图 12-9关键词加填料的语法网络结构图第12章语音识别12.4.2关键词识别系统举例关键词识别系统举例1.关键词语音库关键词语音库系统的语音

39、库是面向电话信道,对语音信号进行8 kHz采样,8 bit量化,采用词作为识别基元,检测任务为20个城市名(北京、上海、天津等)。由于在此系统中需要对非关键词、背景噪声和各关键词分别建立HMM,因而要求对训练语音中各部分进行进一步标识。对非关键词、背景噪声和各关键词分别建立标识文件。在训练时,根据这个标识文件即可很方便地取出相应的语音段进行相应的训练。第12章语音识别2.训练系统的具体实现训练系统的具体实现(1)特征提取。将得到的数字信号用10.95z1进行预加重、分帧(帧长36 ms,帧移12 ms)和窗化(采用汉明窗),提取LPC倒谱系数作为特征矢量。为了使特征矢量更好地表征语音信号所携带

40、的语义信息,选用LPCC及其一阶差分构成特征矢量。第12章语音识别(2)训练得到每个关键词的HMM参数:参数A(转移概率)和B(观察概率)。状态数N取12,采用无跳转从左至右的HMM模型,每状态的混合数M不固定,主要由该状态的持续时间决定,状态持续时间越长,混和数M就越多,反之M就越少(10M20)。至于状态持续时间概率和词持续时间概率,假定两者的概率分布是正态分布,可以根据K-均值分割算法第(2)步求得的最佳状态序列直接计算得到状态持续时间的均值和方差。第12章语音识别3.识别系统的具体实现识别系统的具体实现首先利用声卡对待检测语音进行8 kHz采样,每样点8 bit量化。然后,对其进行预处

41、理,粗判语音信号起始点,若检测到有话部分,则对其进行特征提取,得到观察序列O。这几步与训练部分类似,在此不再重复。结合待检测语音的语法网络图,采用帧同步Viterbi解码算法使观察序列与参考模板序列按最佳方式进行匹配,并得到最终的检测结果。实验结果表明可以获得89.2%的平均检出率和8.5%的平均虚报率。第12章语音识别12.5连续语音识别连续语音识别12.5.1连续语音识别的基本原理连续语音识别的基本原理目前主流的连续语音识别方法是基于统计模式识别的基本理论。连续语音识别系统是一个典型的模式识别系统。它的系统组成如图12-10所示,包括语音录入、特征提取、解码和搜索算法、音字转换等步骤,其中

42、声学模型和语言模型在训练阶段完成。第12章语音识别图 12-10连续语音识别模型第12章语音识别1.声学模型声学模型声学模型是识别系统的底层模型。声学模型的设计和语言发音特点密切相关。首先要选择识别单元,通常单元有音素、音节和单词三种,具体选择哪一种,由具体任务决定。选择出识别单元后,识别单元通常用模型来表征,一般选择HMM模型来描述。第12章语音识别2.语言模型语言模型语言模型包括由识别语音命令构成的语法网络和由统计方法构成的语言模型。当前语言模型的研究更多地集中在统计语言模型上。它是用概率统计的方法来揭示语言单元内在的统计规律。常见的统计模型有N-gram模型。N-gram模型基于如下假设

44、文语音识别中,音字转换就是将识别出的无调音节串转换成汉字。中文常用的字有6763个,而无调音节只有408个,要将这408个音节转换成6763个常用的汉字,这就意味着平均一个音节需要对应17个字。问题的关键是要知道一个音节对应的是17个同音字中的哪一个。最近基于大规模语料统计的N-gram语言模型方法在音字转换中取得了很大成功。这种方法通过对大量语料的统计信息进行音字转换,克服了传统的基于规则的音字转换方法的缺点,不但可以处理大规模真实文本,而且处理简单,速度快。第12章语音识别音字转换的语言模型是根据语料库的汉语文本统计得出的。考虑Bigram的情况,可以分别求出P(上)、P(海|上)及P(的

45、|海)的概率。设有拼音串shang/hai/de/gong/ren/,累加语言模型中同音字的相关数据后,可以得出：“shang”对应的汉字有:上、商、尚、伤；“hai”对应的汉字有:海、还、害、孩；“de”对应的汉字有:的、德、地、得；“gong”对应的汉字有:工、公、功、供、攻、共、贡；“ren”对应的汉字有:人、认、任。第12章语音识别拼音串shang/hai/de/gong/ren/中各拼音候选值的结构示意图如图12-11所示。图12-11中的箭头表示各节点间的转移概率。此时音字转换就是寻找一条最佳路径,使汉字串Sk=Sk1,Skn的联合概率P(Sk)最大。第12章语音识别图 12-11

46、基于语言模型的音字转换第12章语音识别12.5.2连续语音识别系统举例连续语音识别系统举例实验语料选用863中文语料库中的A组男声数据。共包括25个男性,每人521句话。选取15个人的全部语句(共7815句)作为训练样本,共包含362个无调音节。A组中剩余10人的每人521句话(共5210句)生成测试样本。语音信号经过8 kHz采样,16 bit量化。第12章语音识别选择无调音节作为基本识别单元,为每个音节建立一个HMM,每个HMM有5个状态,每个状态有5个高斯混合。静音的状态数为3,高斯混合数为1,采用BaumWelch算法训练。语音信号经过预加重后,通过汉明窗,帧长为32 ms,帧移为16

47、 ms。使用13维的MFCC(C0C12),及其一阶和二阶差分参数,构成39维的特征矢量。识别时采用帧同步的ViterbiBeam算法。第12章语音识别语音识别系统的性能通过识别正确率来评价,识别错误包括替换错误、插入错误和删除错误。识别正确率可表示为 1trueISOAccuracyN(12-29)其中:Ntrue为真实语句中的词条个数;S为替换错误个数;I为插入错误个数;O为删除错误个数。利用训练语料的所有语音训练生成声学模型和二元文法模型,并且对测试语音进行识别,音节识别正确率为82.72%。第12章语音识别习习题题12-1简述语音识别的基本流程。12-2语音识别常用的特征主要有哪些？常用模型主要有哪些？12-3什么是说话人识别，说话人识别中特征参数统计评价的方法有哪些？12-4什么语种识别，计算机是利用哪些语音信息进行语言辨识的？12-5简述关键词识别和连续语音识别的差别。12-6简述连续语音识别和关键词识别的基本流程。

展开阅读全文