1、1第13章语音识别 2内容提要内容提要n13.1概述n13.2语音识别原理n13.3动态时间规整n13.4有限状态矢量量化技术13.4.1 FSVQ原理及FSVQ声码器13.4.2 FSVQ语音识别器13.5孤立词识别系统n13.6连续语音识别13.6.1连续语音识别中存在的困难13.6.2连续语音识别的训练及识别方法13.6.3基于HMM统一框架的大词汇量非特定人连续语音识别3n语音识别(Speech Recognition)让机器听懂人说话n语音识别应用人机交互:语音打字机(听写机,键盘输入的34倍);电话查询自动应答系统(语音界面);语音命令的控制系统(释放手脚);n交叉学科:计算机、通
2、信、语音语言学、数理统计、信号处理、神经生理心理、人工智能等13.1概述4语音识别历史发展50年代AT&T Bell Lab,可识别10个英文数字60年代LP较好地解决了语音信号产生模型, DP则有效解决了不等长语音的匹配问题。70年代DTW(Dynamic Time Warp)技术基本成熟,VQ和HMM理论;实现了基于LPC和DTW技术相结合的特定人孤立语音识别系统。80年代HMM模型和人工神经元网络(ANN)在语音识别中成功应用。1988年美国CMU大学基于VQ/HMM开发SI-CSR系统 SPHINX。90年代大规模应用,工业标准,理论进展缓慢13.1概述5n语音识别的发展现状从理论到产
3、品走过了50多个春秋;现有很多实际应用系统;有可能成为下一代操作系统和应用程序的用户界面;远没有达到计算机与人类自然交流的终极目标;实用的语音识别技术研究极具市场价值和挑战;重点:大词汇、非特定人、连续语音识别13.1概述6n语音识别方法:模版匹配法:特定人、小词汇、孤立人识别系统。n就是将测试语音与模板的参数一一进行比较与匹配,判决的依据是失真测度最小准则。 随机模型法:主流,HMMn使用HMM的概率参数来对似然函数进行估计与判决,从而得到识别结果的方法。由于HMM具有状态函数,所以这个方法可以利用语音频谱的内在变化(如讲话速度、不同讲话者特性等)和它们的相关性(记忆性)。 语音:从一个相对
4、稳定的状态过渡到另一个状态概率语法分析法:区别性特征(语法、语义、语用)规则知识基于ANN(人工神经网络)的方法、基于模糊数学的方法、句法语音识别等13.1概述7n汉语语音识别与其他语言没有本质区别;汉语的特点使其识别难度更大;n语音理解:在识别语音底层的基础上,利用语言学、词法学、句法学、语义学、语用学、对话模型等知识,确定其语音信号的自然语音级在一定的语言环境下的意图信息。 以识别为基础,区别于识别;识别在于“听清”其语音学级的内容;理解在于“明白”其语言学级的内容;13.1概述8n语音识别系统的分类:孤立词、选词语音识别 、连续语音识别、语音理解(在识别的基础上用语言学知识推断语音含义)
5、、会话语音识别 (书写语音识别)大词汇、中词汇、小词汇语音识别系统单个说话人(speaker)识别系统、多个说话人、与说话人无关的系统(特定人与非特定人)13.1概述9语音识别技术面临的问题n数据资源 (年龄、性别、语言、方言、主题、情绪、地域切分、标注体系)n抗噪性能(背景噪声、信道噪声、干扰)n协同发音(Co-articulation)n口语现象(重复、顿措、语序颠倒)n说话人变异(口音、情绪、年龄)n听觉机理(音量、频率、抗噪、区分)13.1概述10语音识别系统典型系统IBM ViaVoice 听写机AT&T VRCP系统(自助话务员协助呼叫)NTT ANSER 语音识别银行服务系统SO
6、NY AIBO 机器狗13.1概述11语音识别应用价值n信息查询(股票、天气、航班)n人机界面(新一代操作系统、智能家居)n听写机(文字输入、记录)n数据库管理(语音检索)语音识别(提取或匹配语义)、语音压缩(高效存储、传输语音信号)、语音合成(输出自然可懂的语音信号)、语音增强(提高信噪比、加重语音成分)息息相关。说话人识别(安全应用)关键词检出(多媒体数据检索)13.1概述12语音识别的性能评价原句:我我 们们 明明 天天 去去 天天 安安 门门识别:我我 明明后后天天 去去 天天 坛坛 删除错误删除错误 Deletion 插入错误插入错误 Insertion 替换错误替换错误 Subst
7、itution正确率正确率: : 准确率准确率: : 100%NS-D-NCorrect100%NI-S-D-NAccuracy13.1概述13语音产生语音理解生理过程应用的语义、行为音素、词语、韵律特征提取发音系统参数信息表达信息理解语言系统语言系统神经系统转换神经肌肉映射耳蜗运动声道系统产生语音分析语音语音理解过程语音产生过程14语音识别层次模型 应 用 层 语 言 层 语 音 层 声 学 层语句识别层语义应用层次音节感知层音节感知层词语感知层特征提取层事件提取层物理接口层预处理层MFCC、LPCC、PLP、过零率、能量、pitch .语音帧序列天安门 怎么 走停顿、清/浊音、爆破、鼻音、
8、擦音、声调天安门怎么走?t ian an m en z en m e z outian an men zen me zou声波15统一层次模型系统设计16语音识别原理n模式匹配原理:未知语音模式与已知语音模式逐一比较,最佳匹配的参考模式作为识别结果。n识别步骤:1.学习训练分析语音特征参数,建立模板库;2.识别测试按照一定的测度和准则与系统模型进行比较,通过判决得出结果;n语音识别本质就是模式识别13.2语音识别原理 17语音识别系统基本构成特征提取训练模式匹配识别语法模板结果语音说话人自适应13.2语音识别原理 18语音识别系统举例语音样本特征提取(14LPCC)训练(矢量聚类)N模板(M码
9、字/码本)VQ识别器选量化误差最小的模板预处理13.2语音识别原理 19 欧氏距离测度中几个常见测度。 欧氏距离的均方误差(常用)。 式中,xi为输入信号的第i个k维矢量,yi为码本中第i个k维矢量,d2(x,y)的下标2表示平方误差。kiiiyxkyxd122)(1),(13.2语音识别原理 20 r 方平均误差。 kiriiryxkyxd1|1),(13.2语音识别原理 21 r 平均误差。 kirriiryxkyxd11|1),(13.2语音识别原理 22 绝对值平均误差(常用)。 kiiiyxkyxd11|1),(13.2语音识别原理 23 最大平均误差(常用)。|),(),(maxl
10、im11iikirrimyxyxyxdd13.2语音识别原理 24n预处理反混叠滤波;模/数转换;自动增益控制;去除声门激励和口腔辐射;正确选择识别单元;13.2语音识别原理 语音识别原理框图25n特征提取从波形信号获取一组描述语音信号特征的参数;参数的好坏对识别精度影响很大;识别参数:平均能量、过零率、频谱、共振峰、倒谱、线性预测系数、HMM的概率函数、矢量量化的矢量可以一种或多种参数并用;需要考虑参数的稳定性、识别率、计算量等;对于汉语还存在声调的提取(超音段信息);13.2语音识别原理 语音识别原理框图26n距离测度:与特征提取相关的内容则是特征间的距离测度。 欧氏距离及其变形;对数似然
11、比失真测度;加权超音段信息识别测度;HMM之间的距离测度;主观感知距离测度;KiiiyxKYXd122|)(|1),(13.2语音识别原理 语音识别原理框图27n参考模式库声学参数模板(训练聚类得到的)n训练与识别方法动态时间规整(DTW):用输入的待识别语音模式和预存的参考模式进行模式匹配 矢量量化(VQ):基于信息论中信源编码技术的识别。 有限状态矢量量化(FSVQ)HMM::以统计方法为依据进行识别 时延神经网络(TDNN)模糊逻辑算法等13.2语音识别原理 语音识别原理框图28nDTW适合于识别特定人的基元较小的场合,多用于孤立词的识别。DTW算法在匹配过程中比较细,因此计算量大。其缺
12、点是太依赖于发音人的原来发音;发音人身体不好或发音时情绪紧张,都会影响识别率。它不能对样本作动态训练,不适用于非特定人的语音识别。nHMM法既解决了短时模型描述平稳段的信号问题,又解决了每个短时平稳段是如何转变到下一个短时平稳段的问题。它使用Markov链来模拟信号的统计特性变化。HMM以大量训练为基础,通过测算待识别语音的概率大小来识别语音。其算法适合于语音本身易变的特点适用于非特定人的语音识别,也适用于特定人的语音识别。13.2语音识别原理 29nHMM原理较复杂,训练计算量较大,但识别计算量远小于DTW,识别率达到与DTW相同的水平。n采用HMM进行语音识别,实质上是一种概率运算。由于H
13、MM中各状态间的转移概率和每个状态下的输出都是随机的,所以这种模型能适应语音发音的各种微妙变化,使用起来比模式匹配法灵活得多。除训练时运算量较大外,识别时的运算量只有模式匹配法的几分之一。n与模式匹配法相比,HMM是一种完全不同的概念。在模式匹配法中,参考样本由事先存储起来的模式充任,而HMM是将这一参考样本用一个数学模型来表示,这就从概念上深化了一步。13.2语音识别原理 30n基于VQ的语音识别技术是20世纪80年代发展起来的,它可代替DTW完成动态匹配,而其存储量和计算量都比较小。 nVQ主要适用于小词汇量、孤立词的语音识别中。n其过程是:将对欲处理的大量语音K维帧矢量通过统计实验进行统
14、计划分,即将K维无限空间聚类划分为M个区域边界,每个区域边界对应一个码字,所有M个码字构成码本。识别时,将输入语音的K维帧矢量与已有的码本中M个区域边界比较,按失真测度最小准则找到与该输入矢量距离最小的码字标号来代替此输入的K维矢量,这个对应的码字即为识别结果,再对它进行K维重建就得到被识别的信号。13.2语音识别原理 31nFSVQ是一种有记忆的多码本的VQ技术。它不仅计算量小,而且适用于与上下文有关的语音识别。适合于特定人或非特定人、孤立词或连续语音识别。nLVQ(LearningVQ)即学习矢量量化,是由神经网络的并行分布来实现普通VQ的串行搜索,其运行速度远高于VQ。LVQ是通过有监督
15、的学习来改进网络对输入矢量分类的正确率。nLVQ2是对LVQ的改进,因为LVQ在某些情况下对模式识别的分类效果不够稳定。LVQ2是带学习功能的矢量量化法,它在训练时采用适应性法,在满足一定条件的情况下,将错误的参考矢量移至离输入矢量更远些,而将正确的参考矢量移至离输入矢量更近些,以此来提高识别率。13.2语音识别原理 32n专家知识库存储各种语言学知识;n判决根据各种距离测度选择适当的门限值;n检验结果识别率13.2语音识别原理 语音识别原理框图33n更一般的语音识别系统13.2语音识别原理 34动态时间规整DTW动态时间规整DTW(dynamic time warping)曾经是语音识别的一
16、种主流方法。其思路是:由于语音信号是一种具有相当大随机性的信号,即使相同说话者对相同的词,每一次发音的结果都是不同的,也不可能具有完全相同的时间长度。因此在与已存储模型相匹配时,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模板特征对正。用时间规整手段对正是一种非常有力的措施,对提高系统的识别精度非常有效。 动态时间规整DTW是一个典型的优化问题,它用满足一定条件的的 时间规整函数W(n)描述输入模板和参考模板的时间对应关系,求解两模板匹配时累计距离最小所对应的规整函数。13.3动态时间规整 35nDTW的基本思想:将时间规整与距离测度结合起来,采用动态规划技术,比较两个大小不同的模式,解
17、决语音识别中语速多变的难题;一种非线性时间规整模式匹配算法;13.3动态时间规整 36动态时间规整n语音识别模式匹配的问题:时间对准同一个人在不同时刻说同一句话、发同一个音,也不可能具有完全相同的时间长度;语音的持续时间随机改变,相对时长也随机改变;端点检测不准确;n方法1:线性时间规整,均匀伸长或缩短依赖于端点检测(经常采用时域分析方法,进行检测的主要依据是能量、振幅和过零率。 );仅扩展时间轴无法精确对准;n方法2:动态时间规整DTWDynamic Time Warping;60年代Itakura提出来的;13.3动态时间规整 37动态时间规整法动态时间规整法 j B i A j i O
18、w (i) 模板 输入38n动态规划算法基本思想是将待求解问题分解成若干个子问题nT(n/2)T(n/2)T(n/2)T(n/2)T(n)=13.3动态时间规整 39n但是经分解得到的子问题往往不是互相独立的。不同子问题的数目常常只有多项式量级。求解时,有些子问题被重复计算了许多次。nT(n)=n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4)13.3动态时间规整 40n如果能够保存已解决的子问题的答案,而在需要时再找出已求得的答
19、案,就可以避免大量重复计算,从而得到多项式时间算法。n=n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2n/2T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4) T(n/4)T(n)13.3动态时间规整 41n找出最优解的性质,并刻划其结构特征。n递归地定义最优值。n以自底向上的方式计算出最优值。n根据计算最优值时得到的信息,构造最优解。13.3动态时间规整 42动态时间规正法(DTW)的计算实例ck=(ik, jk)(ik, jk-1)(ik-1, jk)min217515164724524334822151FEDCBA1 2 3 4RTg(i-1,
20、j)+ d(i, j)g(i-1, j-1)+2d(i, j)g(i, j -1)+ d(i, j)nDTW算法(部分优化法) g(ck)=g(ik,jk)=g(i,j)= D(T,R)= g(I, J)/(I+J) 43DTW方法的缺点nDTW是用于与说话人有关(Speaker Dependent)的语音识别,使用者自行录音然后再以自己的声音來比对之前录好的语音资料。n此方法比較适合同一位说话人的声音來进行比較,因此应用范围比较狭隘,譬如目前手机 Name Dialing 等等。13.3动态时间规整 44nDTW的问题:运算量大;识别性能过分依赖于端点检测;太依赖于说话人的原来发音;不能对样
21、本作动态训练;没有充分利用语音信号的时序动态特性;nDTW适合于特定人基元较小的场合,多用于孤立词识别;13.3动态时间规整 45矢量量化矢量量化VQ Vector Quantization是将K个(K=2)样值形成一个K维空间中的一个矢量, 然后对此矢量进行一次量化, 只传输或存储矢量的地址. 因此能大大地提高压缩比. 矢量量化总是优于标量量化, 这是因为矢量量化有效地利用了矢量中各分量间地四种相关性(线性依赖性, 非线性依赖性, 概率密度函数的形状和矢量维数)来去除多余度. 矢量量化是标量量化的多维扩展.13.4有限状态矢量量化技术 46n矢量量化编解码框图13.4有限状态矢量量化技术 采
22、用LBG 算法(此名取Linde, Buzo,. Gray 三人名字的开头英文字母) 47n有限状态矢量量化(FSVQ)每个状态有一个编码器、解码器和码本(仍然采用LBG算法)FSVQ的最大特点是有一个状态转移函数;利用这个状态转移函数,根据上一次状态sn和上一次的编码结果jn,来确定下一个编码状态sn+1。这个系统在不增加比特率的情况下,可以利用过去的信息来选择合适的码本进行编码,因而其性能比一般的同维数的无记忆的矢量量化系统好得多,但是其存储量增加了。 13.4有限状态矢量量化技术 状态转移函数f(*,*) 48有限状态矢量量化(FSVQ)nFSVQ的设计方法仍然建立在LBG算法的基础上,
23、具体可分为三步:各初始码本的设计。用训练序列来获得状态转移函数。用迭代法逐步改进各码本的功能。 49 FSVQ与APVQ及一般VQ的性能比较 矢量维数kFSVQAPVQSNR一般VQSNRSNR状态数K12.024.122.027.8327.475.239.0648.106.1410.95128.877.1512.25129.257.9预测矢量量化( APVQ)5051隐Markov模型HMM语音是一随机过程,每次发音时,我们可以得到一个帧矢量序列(称为发现序列)X:X=x1,x2,xT对同一词的不同发音,X的帧数T和xi都在变化。可以看作是该随机过程模型的多次实现。从语音产生过程来看,可以想
24、象为声道沿不同位置转移时,每一位置产生一随机声学输出。可把各声道位置想象为各个状态Si,而发现序列可想象为在该状态的一个随机输出Xi。这样,语音的随机过程可看作由两个随机过程构成:状态转移的随机过程;输出的随机过程。 13.4有限状态矢量量化技术 52n基于HMM的识别系统13.4有限状态矢量量化技术 53孤立词识别系统n研究最早最成熟,实验室识别率达95以上;n发音认真、单词之间有停顿、端点检测较易;n前后单词之间是孤立的,识别基础建立在数学方法之上,不含“语言”知识;n识别技术有:DTW(运算量较大,但技术上较简单,识别正确率也较高);VQ(应用于特征处理可减少特征的类型从而减少计算量 )
25、;HMM(路径模型 );混合技术(VQ/HMM);实验表明,在与讲话者无关的孤立词语音识别中,连续HMM的正识率已达到DTW的水平,而其所要求的存贮量和计算时间却要小一个数量级。 13.5孤立词识别系统 54n识别系统的结构n孤立词识别的三个目标:扩大词汇量、提高识别精度、降低计算复杂度扩大词汇量、提高识别精度、降低计算复杂度n词表中每个词对应一个参考模式。它是由这个词重复发音多遍,再经特征提取和某词表中每个词对应一个参考模式。它是由这个词重复发音多遍,再经特征提取和某种训练算法得到的。种训练算法得到的。n孤立词的发音,词与词之间要有足够的时间间隙,以便能够检测到首末点。孤立词的发音,词与词之
26、间要有足够的时间间隙,以便能够检测到首末点。n语声学分析部分主要是抽取语音特征信息。语声学分析部分主要是抽取语音特征信息。n语音经过预处理后,要进行特征提取。语音经过预处理后,要进行特征提取。n特征提取一般要解决两个问题:一是从语音信号中提取特征提取一般要解决两个问题:一是从语音信号中提取(或测量或测量)具有代表性的合具有代表性的合适的特征参数;另一个是进行适当的数据压缩。常用的特征参数以短时谱、倒适的特征参数;另一个是进行适当的数据压缩。常用的特征参数以短时谱、倒谱和线性预测系数用得最多。谱和线性预测系数用得最多。 13.5孤立词识别系统 55连续语音识别n比孤立词识别难:选择词或词以上单元
27、作为识别单位,模版数目太大;选择音节或音素为识别单位,无法回避协同发音的问题(同一音素发音随上下文而变化);语音的多变性;n突破:20世纪90年代以后,全盘采用HMM统一框架,构筑声学/语音层、词层和句法层3层识别系统模型。13.5连续语音识别 56连续语音识别用于孤立词识别的各种技术,可以在很大的程度上推广到连续语音识别的情况。但是,连续语音有许多特殊问题,使它与孤立词的情况有很大差别。要建立一个大词表、连续语音识别系统,至少应考虑如下几个问题:识别基元的选择与切分 对整个句子一下子进行识别显然是不可能的,因此,必须选择恰当的识别基元。这种选择应考虑用尽量少且又易于从连续语流中切分出来的基元
28、,如选择音节、半音节、音素、词等作为基元。协同发音现象与上下文 连续语音情况下协同发音现象比较普遍,使得具体的词受上下文环境的影响较大。另外,在连续语音情况下,词法、句法、语义等,对识别也是极其重要的。训练方法 识别训练的主要问题是如何减少训练时间或用户配合的程度。一般的可以用自适应或学习的方法部分地解决这个问题。 13.5连续语音识别 57n主要问题:在句子、词条、音子构成的状态图中搜索最佳路径;为每一个音子建立HMM;建立符合应用要求又有高效算法的统计语言模型;n期待:好的数据;好的模型;新的训练和识别算法;13.5连续语音识别 58图13-8采用HMM统一框架的语音识别模型采用HMM统一
29、框架的语音识别系统要解决的主要问题是:第一,在状态图中搜索最佳路径;第二,为每一个音子建立HMM;第三,建立既符合应用要求又有高效算法的统计语言模型。 13.5连续语音识别 59汉语语音识别的特点n汉字是汉语的最小语言单位,所有的汉字的发音都是单音节(monosyllable) n有调语言(tonal language)n多音字与同音字:语言模型更为重要n自成一体的发音体系: “C-V”和“C-V-C” n儿化、变调等特有的语言现象60汉语语音建模基元比较建模基元建模基元 模型数目模型数目 可训练性可训练性 稳定性稳定性应用情况应用情况音节约400个一般好较普遍声韵母约60个较好较好很普遍音素约40个好一般较少61语音识别芯片 语音识别芯片有多种。日本东芝公司研制的T6658A芯片是性价比较好的一种芯片。已成功地应用于电话的语音拨号器。它所采用的便是滤波器组法的语音识别原理。识别方式为特定人、单词识别。我国的研究人员现已将该芯片用于汉语语音识别。