1、第第6章章 说话人识别说话人识别应用应用VQVQ的说话人识别系统的说话人识别系统应用应用GMMGMM的说话人识别系统的说话人识别系统概述概述说话人识别原理及系统结构说话人识别原理及系统结构研究展望研究展望6.1概述概述自动说话人识别自动说话人识别(ASR )是一种自动识别说话人的过程。说是一种自动识别说话人的过程。说话人识别是从语音中提取不同特征,然后通过判断逻辑来话人识别是从语音中提取不同特征,然后通过判断逻辑来判定该语句的归属类别。说话人识别不注重包含在语音信判定该语句的归属类别。说话人识别不注重包含在语音信号中的文字符号及其语义内容信息,而是着眼于包含在语号中的文字符号及其语义内容信息,
2、而是着眼于包含在语音信号中的个人特征,以达到识别说话人的目的。因此,音信号中的个人特征,以达到识别说话人的目的。因此,相比于语音识别,说话人识别相对简单。相比于语音识别,说话人识别相对简单。自动说话人识别按其最终完成的任务可分为两类:自动说自动说话人识别按其最终完成的任务可分为两类:自动说话人确认和自动说话人辨认。自动说话人确认是确认一个话人确认和自动说话人辨认。自动说话人确认是确认一个人的身份,只涉及一个特定的参考模型和待识别模式之间人的身份,只涉及一个特定的参考模型和待识别模式之间的比较,系统只需做出的比较,系统只需做出“是是”或或“不是不是”的二元判决;而的二元判决;而对于自动说话人辨认
3、,系统则必须辨认出待识别的语音是对于自动说话人辨认,系统则必须辨认出待识别的语音是来自待考察的来自待考察的 个人中的哪一个,有时还要对这个人中的哪一个,有时还要对这 个人以外的个人以外的语音做出拒绝的判断。语音做出拒绝的判断。6.1概述概述自动说话人识别按输入的测试语音来分,可分为三类,即自动说话人识别按输入的测试语音来分,可分为三类,即与文本无关、与文本有关和文本指定型:与文本无关、与文本有关和文本指定型:1)与文本无关的说话人识别指的是不规定说话内容的说话)与文本无关的说话人识别指的是不规定说话内容的说话人识别,即识别时不限定所用的语音内容;人识别,即识别时不限定所用的语音内容;2)与文本
4、有关的说话人识别指的是规定内容的说话人识别,)与文本有关的说话人识别指的是规定内容的说话人识别,即只能用规定内容的语句进行识别。但是,这两种识别存即只能用规定内容的语句进行识别。但是,这两种识别存在一个问题,即如果事先用录音装置把说话人本人的讲话在一个问题,即如果事先用录音装置把说话人本人的讲话内容记录下来,然后用于识别,则存在被识别装置误接受内容记录下来,然后用于识别,则存在被识别装置误接受的危险;的危险;3)指定文本型说话人识别中,每一次识别时必须先由识别)指定文本型说话人识别中,每一次识别时必须先由识别装置向说话人指定需发音的文本内容,只有在系统确认说装置向说话人指定需发音的文本内容,只
5、有在系统确认说话人对指定文本内容正确发音时才可以被接受,这样可减话人对指定文本内容正确发音时才可以被接受,这样可减轻本人语声被盗用的危险。轻本人语声被盗用的危险。声纹监听声纹监听多人识别多人识别声纹比对声纹比对银行(电话,网银行(电话,网上)上)证券证券银行卡,身份卡银行卡,身份卡声纹密匙声纹密匙高档酒店,会员高档酒店,会员俱乐部,贵族商俱乐部,贵族商城等城等玩具玩具汽车汽车个人电脑(家庭个人电脑(家庭分级密码)分级密码)公安领域?公安领域?金融领域?金融领域?生活领域生活领域 潜在的应用潜在的应用技术难题:跨信道、噪声技术难题:跨信道、噪声6.2说话人识别原理及系统结构说话人识别原理及系统结
6、构说话人识别系统由预处理、特征提取、模式匹配和识别决说话人识别系统由预处理、特征提取、模式匹配和识别决策等几大部分组成。除此之外,完整的说话人识别系统还策等几大部分组成。除此之外,完整的说话人识别系统还应包括模板库的建立、专家知识库的建立和判决阈值选择应包括模板库的建立、专家知识库的建立和判决阈值选择等部分。等部分。6.2说话人识别原理及系统结构说话人识别原理及系统结构说话人识别系统可分为两个阶段:训练(注册)阶段和识说话人识别系统可分为两个阶段:训练(注册)阶段和识别阶段。别阶段。1)在训练阶段,系统的每一个使用者说出若干训练语料,)在训练阶段,系统的每一个使用者说出若干训练语料,系统根据这
7、些训练语料,通过训练学习建立每个使用者的系统根据这些训练语料,通过训练学习建立每个使用者的模板或模型参数参考集。模板或模型参数参考集。2)在识别阶段,把从待识别说话人说出的语音信号中提)在识别阶段,把从待识别说话人说出的语音信号中提取的特征参数,与在训练过程中得到的参考参量集或模型取的特征参数,与在训练过程中得到的参考参量集或模型模板加以比较,并且根据一定的相似性准则进行判定。模板加以比较,并且根据一定的相似性准则进行判定。6.2.1 6.2.1 预处理预处理1)话筒自适应和输入电平的设定)话筒自适应和输入电平的设定输入语音信号的品质对语音识别性能的影响很大,因此,输入语音信号的品质对语音识别
8、性能的影响很大,因此,对话筒的耐噪声性能要求很高。此外,为了保持识别性能对话筒的耐噪声性能要求很高。此外,为了保持识别性能稳定,必须具备对话筒以及前端设备性能的测定以及根据稳定,必须具备对话筒以及前端设备性能的测定以及根据测试结果对输入语音的变形进行校正的功能。测试结果对输入语音的变形进行校正的功能。2)降噪)降噪当话筒与嘴有一定距离的时候,以及在汽车里或户外等周当话筒与嘴有一定距离的时候,以及在汽车里或户外等周围环境噪声大的时候必须对输入信号进行降噪处理。围环境噪声大的时候必须对输入信号进行降噪处理。3)语音区间的端点检测)语音区间的端点检测端点检测的目的是从语音信号流中自动地分割出识别基元
9、,端点检测的目的是从语音信号流中自动地分割出识别基元,即用数字处理技术来找出语音信号中的各种段落的始点和即用数字处理技术来找出语音信号中的各种段落的始点和终点的位置。终点的位置。6.2.1 6.2.1 预处理预处理端点检测难度:端点检测难度:1)由于电平的变化,难于设置对各次试验都适用的阈值;)由于电平的变化,难于设置对各次试验都适用的阈值;2)咂嘴声、呼吸气流或其它某些杂音会使语音波形产生一)咂嘴声、呼吸气流或其它某些杂音会使语音波形产生一个很小的尖峰,可能超过所设计门限值;个很小的尖峰,可能超过所设计门限值;3)突发性干扰会使短时参数变得很大,持续很短时间后又)突发性干扰会使短时参数变得很
10、大,持续很短时间后又恢复为寂静特性,这种干扰应该计入寂静段中;恢复为寂静特性,这种干扰应该计入寂静段中;4)弱摩擦音和鼻音的特性与噪声极为接近,其中鼻韵往往)弱摩擦音和鼻音的特性与噪声极为接近,其中鼻韵往往还拖得很长;还拖得很长;5)如果输入信号中有)如果输入信号中有50Hz工频干扰或者工频干扰或者A/D变换点的工作变换点的工作点偏移时,用短时过零率区分无声和清音的方法就变的不点偏移时,用短时过零率区分无声和清音的方法就变的不可靠。可靠。6.2.1 6.2.1 预处理预处理优秀的端点检测算法应具有:优秀的端点检测算法应具有:1)门限值对对背景噪声的变化有一定的适应性;)门限值对对背景噪声的变化
11、有一定的适应性;2)将短时冲击噪声和人的咂嘴等瞬间超过门限值的信号纳)将短时冲击噪声和人的咂嘴等瞬间超过门限值的信号纳入无声段而不是有声段;入无声段而不是有声段;3)对于爆破音的寂静段,应将其纳入语音的范围而不是无)对于爆破音的寂静段,应将其纳入语音的范围而不是无声段;声段;4)应该尽可能避免在检测中丢失鼻韵和弱摩擦音等与噪声)应该尽可能避免在检测中丢失鼻韵和弱摩擦音等与噪声特性相似、短时参数较少的语音;特性相似、短时参数较少的语音;5)应该避免使用过零率作为判决标准而带来的负面影响。)应该避免使用过零率作为判决标准而带来的负面影响。6.2.2 6.2.2 说话人识别特征的选取说话人识别特征的
12、选取特征提取就是从说话人的语音信号中提取出表示说话人个特征提取就是从说话人的语音信号中提取出表示说话人个性的基本特征,是最重要的环节之一。性的基本特征,是最重要的环节之一。选取的特征应当满足下述准则:选取的特征应当满足下述准则:1)能够有效地区分不同的说话人,但又能在同一说话人的)能够有效地区分不同的说话人,但又能在同一说话人的语音发生变化时相对保持稳定;语音发生变化时相对保持稳定;2)易于从语音信号中提取;)易于从语音信号中提取;3)不易被模仿;)不易被模仿;4)尽量不随时间和空间变化。)尽量不随时间和空间变化。一般来说,同时满足上述全部要求的特征通常是不可能找一般来说,同时满足上述全部要求
13、的特征通常是不可能找到的,只能使用折衷方案。到的,只能使用折衷方案。6.2.2 6.2.2 特征的选取特征的选取说话人识别中常用的参数类别:说话人识别中常用的参数类别:1)线性预测参数及其派生参数:包括部分相关系数、声道)线性预测参数及其派生参数:包括部分相关系数、声道面积比函数、线谱对系数以及面积比函数、线谱对系数以及LPC倒谱系数等。倒谱系数等。2)语音频谱直接导出的参数:包括功率谱、基音轮廓、共)语音频谱直接导出的参数:包括功率谱、基音轮廓、共振峰及其带宽、语音强度及其变化等。振峰及其带宽、语音强度及其变化等。3)混合参数)混合参数4)其他鲁棒性参数:包括)其他鲁棒性参数:包括Mel频率
14、倒谱系数,以及经过噪频率倒谱系数,以及经过噪声谱减或者信道谱减的去噪倒谱系数等。声谱减或者信道谱减的去噪倒谱系数等。所用特征所用特征误识率误识率倒谱倒谱9.43%9.43%差值倒谱差值倒谱11.81%11.81%基音基音74.42%74.42%差值基音差值基音85.88%85.88%倒谱与差值倒谱倒谱与差值倒谱7.93%7.93%倒谱、差值倒谱、基音、差值基音倒谱、差值倒谱、基音、差值基音2.89%2.89%6.2.3 6.2.3 特征参量评价方法特征参量评价方法同一说话人的不同语音会在参数空间映射出不同的点,若同一说话人的不同语音会在参数空间映射出不同的点,若对同一人来说,这些点分布比较集中
15、,而对不同说话人的对同一人来说,这些点分布比较集中,而对不同说话人的分布相距较远,则选取的参数就是有效的。分布相距较远,则选取的参数就是有效的。1)两种分布的方差之比()两种分布的方差之比(F 比):比):2)评价多维特征矢量的有效性的可分性测度()评价多维特征矢量的有效性的可分性测度(D比):比):式中说话人内特征矢量的协方差矩阵式中说话人内特征矢量的协方差矩阵W为为2( )2,iiiaia iFx不同说话人特征参数均值的方差均值同一说话人特征的方差均值1()()TiiiDW( )( ),() ()iTiaiaia iWxx6.2.4 6.2.4 模式匹配方法模式匹配方法1)动态时间规整方法
16、()动态时间规整方法(DTW)将识别模板与参考模板进行时间对比时,需要按照某种距将识别模板与参考模板进行时间对比时,需要按照某种距离测度得出两模板间的相似程度。离测度得出两模板间的相似程度。2)矢量量化方法)矢量量化方法(VQ)3)隐马尔可夫模型方法)隐马尔可夫模型方法(HMM)隐马尔可夫模型是一种基于转移概率和输出概率的随机模隐马尔可夫模型是一种基于转移概率和输出概率的随机模型,识别时计算未知语音在状态转移过程中的最大概率,型,识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。根据最大概率对应的模型进行判决。4)高斯混合模型()高斯混合模型(GMM)5)人工神经网
17、络方法()人工神经网络方法(ANN)人工神经网络是一种分布式并行处理结构的网络模型,其人工神经网络是一种分布式并行处理结构的网络模型,其性能近似理想的分类器。其缺点是训练时间长,动态时间性能近似理想的分类器。其缺点是训练时间长,动态时间规整能力弱。规整能力弱。6.2.5 6.2.5 判别方法和阈值的选择判别方法和阈值的选择对于要求快速处理的说话人确认系统,可以采用多门限判对于要求快速处理的说话人确认系统,可以采用多门限判决和预分类技术来达到加快系统响应时间而又不降低确认决和预分类技术来达到加快系统响应时间而又不降低确认率的效果。率的效果。1)多门限判决相当于一种序贯判决方法,它使用多个门限)多
18、门限判决相当于一种序贯判决方法,它使用多个门限来作出接受还是拒绝的判决。来作出接受还是拒绝的判决。2)在说话人辨认时,每个人的模板都要被检查一遍,所以)在说话人辨认时,每个人的模板都要被检查一遍,所以系统的响应时间一般随待识别的人数线性增加,但是如果系统的响应时间一般随待识别的人数线性增加,但是如果按照某些特征参数预先地将待识别的人聚成几类,那么在按照某些特征参数预先地将待识别的人聚成几类,那么在识别时,根据测试语音的类别,只要用该类的一组候选人识别时,根据测试语音的类别,只要用该类的一组候选人的模板参数匹配,就可以大大减少模板匹配所需的次数和的模板参数匹配,就可以大大减少模板匹配所需的次数和
19、时间。时间。6.2.5 6.2.5 判别方法和阈值的选择判别方法和阈值的选择虽然在一般情况下,判决门限都应该选取在虽然在一般情况下,判决门限都应该选取在FR和和FA相等相等的点上,但这个点的确定需要较多数据的实验结果,还不的点上,但这个点的确定需要较多数据的实验结果,还不一定能得到正好相等的点。一定能得到正好相等的点。确认错误用错误拒绝率确认错误用错误拒绝率(FR)和错误接受率)和错误接受率(FA)来表示。前者是)来表示。前者是拒绝真实的声言者而造拒绝真实的声言者而造成的错误,后者则是把成的错误,后者则是把冒名顶替者错认为其声冒名顶替者错认为其声言者引起的错误。言者引起的错误。判决门限判决门限
20、错错误误概概率率误拒率误拒率FR误受率误受率FAa b c06.2.6 6.2.6 性能评价性能评价一个说话人识别系统的好坏是由许多因素决定的,主要有一个说话人识别系统的好坏是由许多因素决定的,主要有正确识别率(或出错率)、训练时间的长短、识别时间、正确识别率(或出错率)、训练时间的长短、识别时间、对参考参量存储量的要求、使用者使用的方便程度等,实对参考参量存储量的要求、使用者使用的方便程度等,实用中还有价格因素。用中还有价格因素。目前对说话人识别系统的性能评价还没有统一的标准。一目前对说话人识别系统的性能评价还没有统一的标准。一个系统所具有的识别性能尽管看起来很好,但是它们所依个系统所具有的
21、识别性能尽管看起来很好,但是它们所依据的条件却是差别很大的。为了给出统一的评价,需要建据的条件却是差别很大的。为了给出统一的评价,需要建立一个测试数据库。该数据库应该包含大量的说话人且具立一个测试数据库。该数据库应该包含大量的说话人且具有不同发音风格和不同时间间隔的语音数据。此外,系统有不同发音风格和不同时间间隔的语音数据。此外,系统还应该考虑语音经不同信道传输后的影响。还应该考虑语音经不同信道传输后的影响。6.3应用应用VQVQ的说话人识别系统的说话人识别系统矢量量化(矢量量化(VQ)技术是七十年代后期发展起来的一种)技术是七十年代后期发展起来的一种数据压缩和编码技术,广泛应用于语音编码、语
22、音合数据压缩和编码技术,广泛应用于语音编码、语音合成、语音识别和说话人识别等领域。矢量量化在语音成、语音识别和说话人识别等领域。矢量量化在语音信号处理中占有十分重要的地位,在许多重要的研究信号处理中占有十分重要的地位,在许多重要的研究课题中,矢量量化都起着非常重要的作用。课题中,矢量量化都起着非常重要的作用。当可用于训练的数据量较小时,基于当可用于训练的数据量较小时,基于VQ的方法比连续的方法比连续的的HMM方法有更大的鲁棒性。同时,基于方法有更大的鲁棒性。同时,基于VQ的方法的方法比较简单,实时性也较好。因此,基于比较简单,实时性也较好。因此,基于VQ的说话人识的说话人识别方法,仍然是最常用
23、的识别方法之一。别方法,仍然是最常用的识别方法之一。6.3.1 6.3.1 系统模型系统模型应用应用VQ的说话人识别系统包含两个步骤:的说话人识别系统包含两个步骤:一是利用每个说话人的训练语音,建立参考模型码本;一是利用每个说话人的训练语音,建立参考模型码本;二是对待识别话者的语音的每一帧和码本码字进行匹配。二是对待识别话者的语音的每一帧和码本码字进行匹配。语种语种1码本码本1语种语种N码本码本N语种语种2码本码本2参考模型参考模型VQ失真失真计算计算特征特征提取提取辨识辨识判决判决语音输入语音输入识别结果识别结果6.3.1 6.3.1 系统模型系统模型说话人识别系统可以将每个待识别的说话人看
24、作是一个信说话人识别系统可以将每个待识别的说话人看作是一个信源,用一个码本来表征,码本是从该说话人的训练序列中源,用一个码本来表征,码本是从该说话人的训练序列中提取的特征矢量聚类而生成,只要训练的数据量足够,就提取的特征矢量聚类而生成,只要训练的数据量足够,就可以认为这个码本有效的包含了说话人的个人特征,而与可以认为这个码本有效的包含了说话人的个人特征,而与说话的内容无关。识别时,首先对待识别的语音段提取特说话的内容无关。识别时,首先对待识别的语音段提取特征矢量序列,然后用系统已有的每个码本依次进行矢量量征矢量序列,然后用系统已有的每个码本依次进行矢量量化,计算各自的平均量化失真。选择平均量化
25、失真最小的化,计算各自的平均量化失真。选择平均量化失真最小的那个码本所对应的说话人作为系统识别的结果。那个码本所对应的说话人作为系统识别的结果。在在VQ法中模型匹配不依赖于参数的时间顺序,因而匹配法中模型匹配不依赖于参数的时间顺序,因而匹配过程中无需采用动态时间规整技术;而且这种方法比应用过程中无需采用动态时间规整技术;而且这种方法比应用动态时间规整方法的参考模型存储量小,即码本码字小。动态时间规整方法的参考模型存储量小,即码本码字小。6.3.2 6.3.2 VQVQ基本原理基本原理将将K维欧几里德空间维欧几里德空间RK无遗漏地划分成无遗漏地划分成 J个互不相交的子个互不相交的子空间空间 ,即
26、满足,即满足 这些子空间这些子空间Rj称为胞腔。在每一个子空间称为胞腔。在每一个子空间Rj找一个代表矢找一个代表矢量量Yj,则,则J个代表矢量可以组成矢量集为:个代表矢量可以组成矢量集为: 这样,这样, Y就组成了一个矢量量化器,被称为码书或码本;就组成了一个矢量量化器,被称为码书或码本; Yj称为码矢或码字;称为码矢或码字;Y内矢量的个数内矢量的个数J,则叫作码本长度或,则叫作码本长度或码本尺寸。不同的划分或不同的代表矢量选取方法就可以码本尺寸。不同的划分或不同的代表矢量选取方法就可以构成不同的矢量量化器。构成不同的矢量量化器。1,JKjjijRRRRij 12 ,JYY YY6.3.2 6
27、.3.2 VQVQ基本原理基本原理当矢量量化器输入一个任意矢量当矢量量化器输入一个任意矢量XiRK进行矢量量化时,进行矢量量化时,矢量量化器首先判断它属于哪个子空间矢量量化器首先判断它属于哪个子空间Rj ,然后输出该子,然后输出该子空间空间 Rj 的代表矢量的代表矢量Yj 。也就是说,矢量量化过程就是用。也就是说,矢量量化过程就是用Yj 代表代表Xi的过程,或者说把的过程,或者说把Xi量化成量化成Yj ,即,即 式中,式中, Q(Xi)为量化器函数。由此可知,矢量量化的全过为量化器函数。由此可知,矢量量化的全过程就是完成一个从程就是完成一个从K维欧几里德空间维欧几里德空间RK中的矢量中的矢量
28、到到K维空维空间间RK有限子集有限子集Y的映射:的映射: (),1,1jiYQ XjJiN 12: ,KJQ RXYY YY6.3.2 6.3.2 VQVQ基本原理基本原理x2x1Y Y1 1Y Y2 2Y Y3 3Y Y4 4Y Y5 5Y Y6 6Y Y7 7二维矢量量化器实例二维矢量量化器实例6.3.2 6.3.2 VQVQ基本原理基本原理矢量量化技术进行语音处理时的两个要解决的问题:矢量量化技术进行语音处理时的两个要解决的问题:(1)设计一个好的码本。关键是如何划分)设计一个好的码本。关键是如何划分 个区域边界。个区域边界。这需要用大量的输入信号矢量,经过统计实验才能确定。这需要用大量
29、的输入信号矢量,经过统计实验才能确定。为了建立一个好的码本,首先要求建立码本的训练数据不为了建立一个好的码本,首先要求建立码本的训练数据不仅数据量要充分大,而且要有代表性;其次,要选择一个仅数据量要充分大,而且要有代表性;其次,要选择一个好的失真度准则以及码本优化方法。好的失真度准则以及码本优化方法。(2)未知矢量的量化。对未知模式矢量,按照选定的失)未知矢量的量化。对未知模式矢量,按照选定的失真测度准则,把未知矢量量化为失真测度最小的区域边界真测度准则,把未知矢量量化为失真测度最小的区域边界的中心矢量值(码字矢量),并获得该码字的序列号(码的中心矢量值(码字矢量),并获得该码字的序列号(码子
30、在码本中的地址或标号)。对于两矢量进行比较的测度子在码本中的地址或标号)。对于两矢量进行比较的测度问题,通常选用的测度就是两矢量之间的距离,或以其中问题,通常选用的测度就是两矢量之间的距离,或以其中某一矢量为基准时的失真度。其次是未知矢量量化时的搜某一矢量为基准时的失真度。其次是未知矢量量化时的搜索策略,好的搜索策略可以减少量化时间。索策略,好的搜索策略可以减少量化时间。6.3.3 6.3.3 失真测度失真测度在应用在应用VQ法进行说话人识别时,失真测度的选择将直接法进行说话人识别时,失真测度的选择将直接影响到聚类结果,进而影响说话人识别系统的性能。失真影响到聚类结果,进而影响说话人识别系统的
31、性能。失真测度(距离测度)是将输入矢量测度(距离测度)是将输入矢量 用码本重构矢量用码本重构矢量 来表征来表征时所产生的误差或失真的度量方法,它可以描述两个或多时所产生的误差或失真的度量方法,它可以描述两个或多个模型矢量间的相似程度。失真测度的选择要根据所使用个模型矢量间的相似程度。失真测度的选择要根据所使用的参数类型来定,在语音信号处理采用的矢量量化中,最的参数类型来定,在语音信号处理采用的矢量量化中,最常用的失真测度是欧氏距离测度、加权欧氏距离测度、常用的失真测度是欧氏距离测度、加权欧氏距离测度、Itakura-Saito距离、似然比失真测度和识别失真测度等。距离、似然比失真测度和识别失真
32、测度等。6.3.3 6.3.3 失真测度失真测度1)欧氏距离测度)欧氏距离测度(1)均方误差,其定义为:)均方误差,其定义为:(2)r平均误差,其定义式为:平均误差,其定义式为:(3)最大平均误差,其定义式为:)最大平均误差,其定义式为:(4)加权欧氏距离测度,其定义为:)加权欧氏距离测度,其定义为:2211(, )()KiiidX YxyK111(, )| KrrriiidX YxyK11(, )lim(, )maxrMriiri KdX YdX Yxy 211(, )( )()Kiiid X Yw ixyK6.3.3 6.3.3 失真测度失真测度2)线性预测失真测度)线性预测失真测度当语音
33、信号特征矢量是用线性预测方法求出的当语音信号特征矢量是用线性预测方法求出的LPC系数时,系数时,此时仅由预测器系数的差值不能完全表征这两个语音信息此时仅由预测器系数的差值不能完全表征这两个语音信息的差别,即不宜直接使用欧氏距离,可选用的差别,即不宜直接使用欧氏距离,可选用I-S距离测度、距离测度、对数似然比失真测度和模型失真测度。对数似然比失真测度和模型失真测度。(1)I-S距离测度距离测度(2)对数似然比失真测度)对数似然比失真测度(3)模型失真测度)模型失真测度2( ,)ln1TI Sa Radf f 22( ,)lnlnTpLLRTa Radf fa Ra 22( ,)11TpmTa R
34、adf fa Ra 6.3.3 6.3.3 失真测度失真测度3)识别失真测度)识别失真测度频谱与能量都携带有语音信号的信息,如果仅仅靠功率谱频谱与能量都携带有语音信号的信息,如果仅仅靠功率谱作为失真比较的参数,识别的性能将不够理想。作为失真比较的参数,识别的性能将不够理想。式中,式中,E及及E 分别为输入信号矢量和码书重构矢量的归一分别为输入信号矢量和码书重构矢量的归一化能量,化能量, 为加权因子,为加权因子, g(x)可取为:可取为:g(x)的作用是:当两矢量的能量接近时,忽略能量差异引的作用是:当两矢量的能量接近时,忽略能量差异引起的影响;当两矢量的能量相差较大时,即进行线性加权;起的影响
35、;当两矢量的能量相差较大时,即进行线性加权;而当能量差超过门限而当能量差超过门限xF时,则为某固定值。时,则为某固定值。( ,)( ,)(|)d f Ed f fg EE0()( ) ()()dFdFFxxg xxxxxxxx6.3.4 6.3.4 系统的设计与实现系统的设计与实现在在VQ算法中,码本是非常关键的。最佳码本设计的任务算法中,码本是非常关键的。最佳码本设计的任务就是在一定的条件下,使得畸变就是在一定的条件下,使得畸变Ed(X,Y)的统计平均值的统计平均值 达到最小。为了实现这一目的,应该遵循以下两条原则:达到最小。为了实现这一目的,应该遵循以下两条原则:(1)根据)根据X选择相应
36、的码字选择相应的码字Yl时应遵从最近邻准则,即:时应遵从最近邻准则,即:(2)设所有选择码字)设所有选择码字Yl(即归属于(即归属于Yl所表示的区域的)的所表示的区域的)的输入矢量输入矢量X的集合为的集合为Sl ,那么,那么 应使此集合中的所有矢量与应使此集合中的所有矢量与 之间的畸变值最小。如果之间的畸变值最小。如果X与与Y之间的畸变值等于它们的之间的畸变值等于它们的欧氏距离,则欧氏距离,则Yl应由下式表示:应由下式表示: (,)min (,)ljjd X Yd X Y1,llX SYXlN6.3.4 6.3.4 系统的设计与实现系统的设计与实现基于欧式距离的码本设计的递推算法基于欧式距离的
37、码本设计的递推算法LBG算法算法a)设定码本和迭代训练参数:设全部输入训练矢量)设定码本和迭代训练参数:设全部输入训练矢量X的集的集合为合为 S;设置码本的尺寸为;设置码本的尺寸为J;设置迭代算法的最大迭代次;设置迭代算法的最大迭代次数为数为L;设置畸变改进阈值为;设置畸变改进阈值为。b)设定初始化值:设置)设定初始化值:设置J个码字的初值个码字的初值Y1(0),YJ(0);设置畸变初值设置畸变初值D(0) =;设置迭代次数初值;设置迭代次数初值 m=1。c)假定根据最近邻准则将)假定根据最近邻准则将S分成了分成了J个子集个子集S1(m),SJ(m),即当即当XSJ(m)时,下式成立:时,下式
38、成立:d)计算总畸变)计算总畸变 D(m): (1)(1)(,)(,)mmlid X Yd X Y()()(1)1(,)mlJmmllx SDd X Y 6.3.4 6.3.4 系统的设计与实现系统的设计与实现e)计算畸变改进量)计算畸变改进量D(m)的相对值的相对值(m) : f)计算新码本的码字)计算新码本的码字Y1(m),YJ(m) : g)判断)判断(m) 是否小于是否小于。若是,转入。若是,转入i)执行;否则,转入执行;否则,转入h)执行。执行。h)判断)判断m是否小于是否小于L 。若否,转入。若否,转入i)执行;否则,)执行;否则,m=m+1 ,转入,转入c)执行。)执行。i)迭代
39、终止;输出)迭代终止;输出 作为训练成的码本的码字作为训练成的码本的码字Y1(m),YJ(m) ,并且输出总畸变,并且输出总畸变D(m) 。(1)()()()()()mmmmmmDDDDD()()1mlimlX SlYXN6.3.4 6.3.4 系统的设计与实现系统的设计与实现从上面的从上面的LBG算法步骤可以看出,在开始迭代前,必须先算法步骤可以看出,在开始迭代前,必须先确定一个初始码本。这个初始码本的设计对最佳码本的设确定一个初始码本。这个初始码本的设计对最佳码本的设计有很大影响。初始码本的构造有许多方法:计有很大影响。初始码本的构造有许多方法:1)随机码本法:从训练序列中随机地选取)随机
40、码本法:从训练序列中随机地选取J个矢量作为初个矢量作为初始码字,从而构成初始码本。优点是简单,缺点是这样的始码字,从而构成初始码本。优点是简单,缺点是这样的码字没有代表性,会导致码本训练的收敛变慢或不能收敛;码字没有代表性,会导致码本训练的收敛变慢或不能收敛;2)分裂码本法:第一步求出)分裂码本法:第一步求出S中全体训练矢量中全体训练矢量X的质心作的质心作为初始码本的码字为初始码本的码字Y1(0);然后在;然后在S中找一个与此质心的畸变中找一个与此质心的畸变最大的矢量最大的矢量Xj,再在,再在S中找一个与中找一个与Xj的误差为最大的矢量的误差为最大的矢量Xk;以;以Xj和和Xk为基准进行划分,
41、得到为基准进行划分,得到Sj和和Sk两个子集;对两个子集;对这两个子集分别按同样方法进行处理就可以得到四个子集。这两个子集分别按同样方法进行处理就可以得到四个子集。依此类推,若依此类推,若 J=2r则只要进行则只要进行r次分裂就可以得到次分裂就可以得到J个子集。个子集。6.3.4 6.3.4 系统的设计与实现系统的设计与实现基于矢量量化的说话人识别系统的识别过程可概况为:基于矢量量化的说话人识别系统的识别过程可概况为:1)从测试语音提取特征矢量序列)从测试语音提取特征矢量序列 ;2)每个模板依次对特征矢量序列进行矢量量化,计算各)每个模板依次对特征矢量序列进行矢量量化,计算各自的平均量化误差:
42、自的平均量化误差: 式中,式中, 是第是第i个码本中第个码本中第 个码本矢量,而个码本矢量,而 是是待测矢量和码矢量之间的失真测度;待测矢量和码矢量之间的失真测度;3)选择平均量化误差最小的码本所对应的说话人作为系)选择平均量化误差最小的码本所对应的说话人作为系统的识别结果。统的识别结果。12,MXXX111min (,)Miinll LnDd X YM ilY(,)inld X Y6.4应用应用GMMGMM的说话人识别系统的说话人识别系统在辨认任务中,目的是找到一个说话者在辨认任务中,目的是找到一个说话者i* ,其对应的,其对应的模型参数模型参数*使得待识别语音特征矢量组具有最大后验使得待识
43、别语音特征矢量组具有最大后验概率概率P(i/X) 。6.4.1 6.4.1 系统模型系统模型6.4.1 6.4.1 系统模型系统模型根据贝叶斯理论,最大后验概率可表示为:根据贝叶斯理论,最大后验概率可表示为: 假定该语音信号出自封闭集里的每个人的可能性相等,则假定该语音信号出自封闭集里的每个人的可能性相等,则P(i) =1/N。对于一个确定的观察值矢量对于一个确定的观察值矢量 X,P(X) 是一个确定的常数值,是一个确定的常数值,对所有说话人都相等。因此,求取后验概率的最大值可以对所有说话人都相等。因此,求取后验概率的最大值可以通过求取通过求取P(X/i) 获得,这样,辨认该语音属于语音库中的
44、获得,这样,辨认该语音属于语音库中的哪一个说话人可以表示为:哪一个说话人可以表示为:(/) ()(/)()iiiP XPPXP Xargmax(/)iiiP X6.4.2 6.4.2 GMMGMM概述概述高斯混合模型是单一高斯机率密度函数的延伸,能够平滑高斯混合模型是单一高斯机率密度函数的延伸,能够平滑地近似任意形状的密度分布,常被用在语音、图像识别等。地近似任意形状的密度分布,常被用在语音、图像识别等。高斯密度函数估计是一种参数化模型。在聚类问题中,根高斯密度函数估计是一种参数化模型。在聚类问题中,根据高斯概率密度函数参数的不同,每一个高斯模型可以看据高斯概率密度函数参数的不同,每一个高斯模
45、型可以看作一种类别,输入一个样本作一种类别,输入一个样本 ,即可通过概率密度函数计算,即可通过概率密度函数计算其值,然后通过一个阈值来判断该样本是否属于高斯模型。其值,然后通过一个阈值来判断该样本是否属于高斯模型。多维高斯(正态)分布概率密度函数定义如下:多维高斯(正态)分布概率密度函数定义如下:将任意测试样本将任意测试样本 输入,均可得到一个标量输入,均可得到一个标量 N,然后根据阈,然后根据阈值值t来确定该样本是否属于该类别。阈值来确定该样本是否属于该类别。阈值t可以为经验值,可以为经验值,也可以通过实验确定。也可以通过实验确定。111( ; , )exp()()2(2 )|TN xXX
46、6.4.2 6.4.2 GMMGMM概述概述高斯混合模型的解释:高斯混合模型的解释:有一批观察数据有一批观察数据X,数据个数为,数据个数为 S。假设每个点均由一个。假设每个点均由一个单高斯分布生成单高斯分布生成(具体参数具体参数j和和j未知未知),而这一批数据共,而这一批数据共由由 M个单高斯模型生成,具体某个数据个单高斯模型生成,具体某个数据xi属于哪个单高斯属于哪个单高斯模型未知,且每个单高斯模型在混合模型中占的比例模型未知,且每个单高斯模型在混合模型中占的比例j未未知,将所有来自不同分布的数据点混在一起,该分布称为知,将所有来自不同分布的数据点混在一起,该分布称为高斯混合分布。高斯混合分
47、布。高斯混合模型可以通过加权函数表示:高斯混合模型可以通过加权函数表示:( )( )1()(;,)Miijjjjjp xNx6.4.2 6.4.2 GMMGMM概述概述该该GMM共有共有j 个个SGM模型,第模型,第 j个个SGM的概率密度函数的概率密度函数可表示为:可表示为:GMM需要确定的参数需要确定的参数包括影响因子包括影响因子j、各类均值、各类均值j和各和各类协方差类协方差j。最佳的一组参数应该是其所确定的概率分布。最佳的一组参数应该是其所确定的概率分布生成的数据点的概率最大,这个概率实际上等于生成的数据点的概率最大,这个概率实际上等于 ,称作似然函数。为防止小数连乘下溢,因此通常会对
48、其取称作似然函数。为防止小数连乘下溢,因此通常会对其取对数得到对数似然函数。通过对其求导并令导数等于零,对数得到对数似然函数。通过对其求导并令导数等于零,然后解方程,完成参数估计。然后解方程,完成参数估计。GMM的对数似然函数,即的对数似然函数,即样本样本X的概率公式为:的概率公式为:111( ;,)exp()()2(2 ) |TjjjjjjdjNxXX( )1()Siip x11(|)log( ;,)SMjjjjijXNx 6.4.36.4.3 GMMGMM的参数估计的参数估计说话人识别可以认为是一种聚类问题。因此可以假定现有说话人识别可以认为是一种聚类问题。因此可以假定现有数据是由数据是由
49、GMM生成的,然后根据数据推出生成的,然后根据数据推出GMM的概率分的概率分布,布,GMM的的 个高斯成分实际上就对应个高斯成分实际上就对应 个聚类。根据数据个聚类。根据数据来推算概率密度通常被称作密度估计。特别地,当已知来推算概率密度通常被称作密度估计。特别地,当已知(或假定)概率密度函数的形式时,要估计其中的参数的(或假定)概率密度函数的形式时,要估计其中的参数的过程被称作过程被称作“参数估计参数估计”。由于在对数函数里面又有求和,因此无法直接用求导办法由于在对数函数里面又有求和,因此无法直接用求导办法求得最大值。常用的方法是期望最大化算法(求得最大值。常用的方法是期望最大化算法(Expe
50、ctation Maximization Algorithm,EM)。)。6.4.36.4.3 GMMGMM的参数估计的参数估计EM算法的主要步骤:算法的主要步骤:(1)估计步骤()估计步骤(E-step)j的后验概率为:的后验概率为: 为每个样本点为每个样本点xi在该模型下的概率密度。在该模型下的概率密度。(2)最大化步骤()最大化步骤(M-step)更新权值更新权值 更新均值更新均值 更新方差矩阵更新方差矩阵( )( )( )( )( )1(;,)(|; )(;,)iiiiiiiijMjjjjjjN xP yj xNx( )(;,)iiiiN x( )11SijjiS( )( )1( )1