第章说话人识别-课件.pptx-资源下载-163文库_上传原创PPT模板、课件、文档赚钱

第章说话人识别-课件.pptx

1、第章说话人识别第章说话人识别_图文图文.ppt 近年来，在生物识别技术领域中，声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目，并日益成为人们日常生活和工作中重要且普及的安全验证方式。声纹识别属于生物识别技术的一种，是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。与语音识别不同的是，声纹识别利用的是语音信号中的说话人信息，而不考虑语音中的字词意思，它强调说话人的个性;而语音识别的目的是识别出语音信号中的言语内容，并不考虑说话人是谁，它强调共性。声纹识别系统主要包括两部分，即特征检测和模式匹配。特征检测的任务是选取唯一表现说话人身份的有效且稳定可靠

2、的特征，模式匹配的任务是对训练和识别时的特征模式做相似性匹配。2.SR的历史60年代，计算机的应用推动了语音识别的发展。70年代，语音识别领域取得了突破80年代，语音识别研究进一步走向深入进入90年代，随着多媒体时代的来临，迫切要求语音识别系统从实验室走向实用。我国语音识别研究工作一直紧跟国际水平，国家也很重视，并把大词汇量语音识别的研究列入“863”计划，由中科院声学所、自动化所及北京大学等单位研究开发。3.语音识别技术语音识别系统的分类方式及依据根据对说话人说话方式的要求，可以分为孤立字（词）语音识别系统，连接字语音识别系统以及连续语音识别系统根据对说话人的依赖程度可以分为特定人和非

3、特定人语音识别系统。根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。不同的语音识别系统，虽然具体实现细节有所不同，但所采用的基本技术相似，一个典型语音识别系统的实现过程如图1所示。特征提取模式匹配模型库识别结果语音输入图1 语音识别的实现语音分析身份声明模型产生模型存储特征提取距离测量识别判决表征说话人特点的基本特征表征说话人特点的基本特征这些特征应该具有如下特点：（1）能够有效地区分不同的说话人，但又能在同一说话人的语音发生变化时相对保持稳定。（2）易于从语音信号中提取。（3）不易被模仿。特征提取声纹识别系统中的特征检测即提取语音信号中表征人的基本特

4、征，此特征应能有效地区分不同的说话人，且对同一说话人的变化保持相对稳定。考虑到特征的可量化性、训练样本的数量和系统性能的评价问题，目前的声纹识别系统主要依靠较低层次的声学特征进行识别。说话人特征大体可归为下述几类：谱包络参数语音信息通过滤波器组输出，以合适的速率对滤波器输出抽样，并将它们作为声纹识别特征。基音轮廓、共振峰频率带宽及其轨迹这类特征是基于发声器官如声门、声道和鼻腔的生理结构而提取的参数。特征提取线性预测系数使用线性预测系数是语音信号处理中的一次飞跃，以线性预测导出的各种参数，如线性预测系数、自相关系数、反射系数、对数面积比、线性预测残差及其组合等参数，作为识别特征，可以得到较好

5、的效果。主要原因是线性预测与声道参数模型是相符合的。反映听觉特性的参数模拟人耳对声音频率感知的特性而提出了多种参数，如美倒谱系数、感知线性预测等。此外，人们还通过对不同特征参量的组合来提高实际系统的性能，当各组合参量间相关性不大时，会有较好的效果，因为它们分别反映了语音信号的不同特征。说话人识别的几种方法说话人识别的几种方法 1.模板匹配法模板匹配法的要点是：在训练过程中从每个说话人发出的训练语句中提取相应的特征矢量，这些特征矢量能充分描写各个说话人的行为。这些特征矢量称为各说话人的模板。它们可以从单词，数字串或句子中提取。在测试阶段，从说话人发出的语音信号中按同样的处理方法提取测试模板，并

6、且与其相应的参考模板相比较。2.概率统计方法语音中说话人信息在短时内较为平稳，通过对稳态特征如基音、声门增益、低阶反射系数的统计分析，可以利用均值、方差等统计量和概率密度函数进行分类判决。其优点是不用对特征参量在时域上进行规整，比较适合文本无关的说话人识别利用子词单元构成的隐含马尔柯夫模型，构成了一个说话人确认系统，每个子词单元用一个从左至右的HMM描写，每个模型包含2到3个状态。3 动态时间规整方法说话人信息不仅有稳定因素（发声器官的结构和发声习惯），而且有时变因素（语速、语调、重音和韵律）。将识别模板与参考模板进行时间对比，按照某种距离测定得出两模板间的相似程度。常用的方法是基于最近

7、邻原则的动态时间规整DTW。4 矢量量化方法矢量量化最早是基于聚类分析的数据压缩编码技术。Helms首次将其用于声纹识别，把每个人的特定文本编成码本，识别时将测试文本按此码本进行编码，以量化产生的失真度作为判决标准。Bell实验室的Rosenberg和Soong用VQ进行了孤立数字文本的声纹识别研究。这种方法的识别精度较高，且判断速度快。5 隐马尔可夫模型方法隐马尔可夫模型是一种基于转移概率和传输概率的随机模型，最早在CMU和IBM被用于语音识别。它把语音看成由可观察到的符号序列组成的随机过程，符号序列则是发声系统状态序列的输出。在使用HMM识别时，为每个说话人建立发声模型，通过训练得到状

8、态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率，根据最大概率对应的模型进行判决。HMM不需要时间规整，可节约判决时的计算时间和存储量，在目前被广泛应用。缺点是训练时计算量较大。提取特征矢量初试分段构造种子模型读入一次发音的特征矢量计数器初使化 Viterbi算法重分段 “语法”约束模型参数根据新的语音分段边界，重估计各HMM状态的输出分布均值和方差，求方差的特征值，特征矢及每次转移的概率收敛结束最后一次发音人工神经网络方法人工神经网络在某种程度上模拟了生物的感知特性，它是一种分布式并行处理结构的网络模型，具有自组织和自学习能力、很强的复杂分类边界

9、区分能力以及对不完全信息的鲁棒性，其性能近似理想的分类器。其缺点是训练时间长，动态时间规整能力弱，网络规模随说话人数目增加时可能大到难以训练的程度。把以上分类方法与不同特征进行有机组合可显著提高声纹识别的性能，如NTT实验室的T.Matsui和S.Furui使用倒谱、差分倒谱、基音和差分基音，采用VQ与HMM混和的方法得到99.3%的说话人确认率。对于说话人确认系统，表征其性能的最重要的两个参量是错误拒绝率和错误接受率。前者是拒绝真实的说话人而造成的错误，后者是接受假冒者而造成的错误，二者与阈值的设定相关。说话人确认系统的错误率与用户数目无关，而说话人辨认系统的性能与用户数目有关，并随着用户数目的增加，系统的性能会不断下降。总的说来，一个成功的说话人识别系统应该做到以下几点：能够有效地区分不同的说话人，但又能在同一说话人语音发生变化时保持相对的稳定，如感冒等情况。不易被他人模仿或能够较好地解决被他人模仿问题。在声学环境变化时能够保持一定的稳定性，即抗噪声性能要好

邮箱/手机：
温馨提示：	系统将以此处填写的邮箱或者手机号生成账号和密码，方便再次下载。如填写123，账号和密码都是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？