1、语音识别与语义识别CONTENTS1语音识别2语义识别语音识别语音识别PART 1定义语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。基本原理 系统中包括预处理、特征提取、参考模型、模式匹配和后处理五大部分。1.预处理模块对输入的原始语音信号进行处理(1)模/数转换(2)滤除掉其中的不重要的信息以及背景噪声(3)进行语音信号的端点检测(找出语音信号的始末,双门限比较法 就是根据语音信号的特征参数(能量和过零率)进行清音、噪音判别,从而完成端点检测的)(4
2、)语音分帧(近似认为在10-30ms内是语音信号是短时平稳的,将语音信号分割为一段一段进行分析,加窗函数)(5)预加重(提升高频部分使语音信号的频谱变得比较平坦,便于进行频谱分析或者声道参数分析)2.特征提取 特征提取就是从语音信号中提取出语音的特征序列,提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量。基于声道模型和听觉机理的线性预测倒谱系数LPCC(Linear Predietive Cepstral CoefieientS)和美尔频率倒谱系数MFCC(Mel Frequeney Cepstral cocfio
3、ionts)参数2.特征提取 基于LPC的倒谱参数(LPCC)分析法的典型代表是,以基于Durbin或Levinson迭代算法求解“维纳霍夫方程”获得的LPC预测系数为基础,进而得到的LPC的倒谱参数(LPCC)。MFCC的计算首先用FFT将时域信号转化成频域,之后对其对数能量谱用依照Mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换DCT,取前N个系数。2.特征提取基于现代处理技术的小波变换系数分析法是将语音信号与一个在时域和频域均具有良好局部化性质的小波函数族进行积分(小波变换),从而把信号分解成一组位于不同频率和时段内的分量,即选择小波函数为某类平滑函
4、数的一阶导数,则经小波变换后的局部最大值反映信号的尖锐变化(即声门闭着点),而局部最小值则反映信号的缓慢变化,从而获得反映基音周期的小波语音特征参数。3.模式识别语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。在进行语音识别的时候,将输入的待识别语音信号与模式进行匹配,便可得到识别结果。模式识别语音识别过程依据模式匹配原则,传统的语音识别系统是一个按一定测度算法实现被识别特征参数与模式库中的模板进行最优模式匹配的过程。目前语音识别比较常用的识别方法主要有:模板匹配法,以动态时间规整(DynamiC Time Warping,DTw)为代
5、表;随机模型法,以隐马尔可夫模型(Hidden Markov Model,HMM)为代表;基于人工神经网络(ArtifiCial Neural NetworkS,ANN)的识别方法模式识别-动态时间规整(DTW)技术DTW是采用一种最优化的算法动态规整法,算法的思想就是把未知量均匀的拉长或缩短,直到与参考模式的长度一致。这一过程中,未知量(待识别语音信号)的时间轴进行不均匀地扭曲和弯曲,使其特征与模板特征对齐(即时间规整),并在两者之间不断的进行两个矢量距离最小的匹配路径计算,从而获得两个矢量匹配时累积距离最小的规整函数。这是一个将时间规整和距离测度有机结合在一起的非线性规整技术,保证了待识别
6、特征与模板特征之间最大的声学相似特性和最小的时差失真,是成功解决模式匹配问题最早和最常用的方法。DTW法的不足之处是运算量大、对语音信号的端点检测数过大和未能充分利用语音信号的时序动态信息等等。因此,主要用于孤立词、小词汇等相对简单的汉语语音识别系统。模式识别-隐马尔可夫模型(Hidden Markov Model,HMM)技术HMM法与DTW法不同,首先,其模式库不是预先存储好的模式样本,而是通过反复的训练过程,用迭代算法(如BaumWelch算法等)形成一套与训练输出信号吻合概率最大的最佳HMM模型参数:A=(z,A,B),其中,石为初始状态概率分布;A为状态转移概率分布;B为某状态下系统
7、输出的概率分布。这些参数均为反映训I练中语音的随机过程的统计特性下的数字参数,而不是模式特征参数本身。其次,在识别过程中,采用基于一种在最佳状态序列基础上的整体约束最佳准则算法terbi算法,计算待识别语音序列与HMM模型参数之间的似然概率达到最大值,所对应的最佳状态序列作为识别输出。这个过程也是一个反映待识别序列与HMM模型参数状态序列最大关联的随机过程的统计过程,因此,HMM方法可以看成一个数字上的双重随机过程,这种机制合理地模仿了人类语言活动的随机性,是一种更为理想的语音识别模型。研究结果表明,HMM方法虽然在训练过程中的处理比DTW方法要复杂,但识别过程则远比DTW方法简单,在孤立词和
8、小词汇的汉语识别中,识别率要高于DTW方法,而且解决了DTW无法实现的连续语音识别的应用问题。因此,在汉语语音识别中,HMM方法不仅可用于孤立词识别系统中,而且在连续语音识别、说话人识别等方面也得到广泛的应用,是目前汉语语音识别技术的主流。模式识别-矢量量化(VQ)技术矢量量化技术,是一种用一个K维矢量来表示一个原来用K个标量表征的语音信号的波型帧或参数帧,然后对矢量进行整体量化的方法。在语音识别前,先在多次反复的训练中采用LBG算法(由Linde,Buzo和Gray三人在1980年首次提出)对大量的K维矢量进行以最佳邻近准则和最小失真准则的统计划分,使其从无限的矢量空间聚类划分为M个有限的区
9、域边界,而每个区域有一个中心矢量值,即码字,故共有M个码字,各码字的下标或序号的集合则构成了一本反映训练时K维矢量的码书,也称训练矢量集码书。在语音识别时,实质上是一个将K维待处理矢量与已有的码书中的M个区域边界进行比较,找出与该待测输入矢量距离最小的码字序号来代替其识别结果的过程。由于码字的序号是矢量量化技术中存贮和传输的主要参数,因此,具有高效的数据压缩性能和信息保密性能,不足之处是训练过程中的计算方法复杂且计算量过大。因此,真正应用于语音识别的是改进后的有限状态矢量量化(FSVQ)技术和带学习功能的矢量量化(LVQ2)技术,其中,FSVQ的计算量小,而且利用了状态转移函数,根据上一次的状
10、态和量化结果来确定一下个量化状态,适用于与上下文有关的语音识别;LVQ2利用其自适应性的学习功能进行码书优化,即在一定条件下,将错误的参考矢量移到远离输入矢量的地方,而将正确的参考矢量移到离输入矢量更近的地方,从而提高识别率。FSVQ和LVQ2技术在孤立词和连续语音的汉语语音识别中也得到应用,但没有DTW技术和HMM技术普遍。模式识别-人工神经网络(ANN)技术 基于人工神经网络(ANN)的新型语言识别系统,其模式识别过程则有所不同:首先其模式库是分布式的,即采用一些模拟人类思维过程的算法,在训练过程中通过自学习建立类似于传统语言识别系统中模式库的参数系统,但这些参数以分布方式存在于不同网络层
11、的节点之中;其次是通过模拟人类联想过程逐层将有关参数与被识别特征进行匹配距离计算和比较,最终形成最佳匹配的识别结果。模式识别-人工神经网络(ANN)技术ANN是用于模拟人脑组织结构和思维过程的一个前沿研究领域,基于ANN的语音识别系统通常由神经元、训练算法及网络结构等三大要素构成。ANN采用了并行处理机制、非线性信息处理机制和信息分布存贮机制等多方面的现代信息技术成果,因此,具有高速的信息处理能力,并且有着较强的适应和自动调节能力,在训练过程中能不断调整自身的参数权值和拓扑结构,以适应环境的和系统性能优化的需求,在模式识别中有着速度快、识别率高等显著特点,近几年来一直是国内外语音识别系统研究的
12、方向和热点。目前用于汉语语音识别研究的ANN主要有:基于反向传播(BP)算法的多层感知机(MLP)神经网和基于Kohonen提出的仿生人类大脑皮层信息特征区形成的生理过程特征照射(SOM)神经网等,其识别率已高于传统的ANN方法。而具有良好的动态时变性能和结构的时延神经网络(TDNN)和良好的动态时间关联特性的循环神经网络(IU矾),则是目前大词汇量连续汉语语音识别研究的热点。语义识别语义识别PART 2定义计算机可以对一句话进行自动分词,它还能进一步整理句子的结构,甚至理解句子的意思最大匹配法:从句子左端开始,不断匹配最长的词(组不了词的单字则单独划开),直到把句子划分完。按人的习惯从左到右
13、地扫描文字。在大多数情况下,这种算法也的确能侥幸成功。不过,这种算法并不可靠,所以加入了一个特殊的规则表,我们要维护一个一般不单独成词的字表,比如“民”、“尘”、“伟”、“习”等等;这些字通常不会单独划出来,都要跟旁边的字一块儿组成一个词。在分词过程中时,一旦发现这些字被孤立出来,都重新考虑它与前面的字组词的可能。基于字符串匹配的分词方法例如:在用最大匹配法切分“为人民服务”时,算法会先划出“为人”一词,而后发现“民”字只能单独成词了。查表却发现,“民”并不能单独划出,于是考虑进行修正把“为人”的“人”字分配给“民”字。巧在这下“为”和“人民”正好都能成词,据此便可得出正确的划分“为人民服务”
14、。最大匹配法最少词数法,把句子作为一个整体来考虑,从全局的角度评价一个句子划分方案的好坏。最初所用的办法就是,寻找词数最少的划分。不成词字表”装备到最少词数法上 对于一种分词方案,里面有多少词,就罚多少分;每出现一个不成词的单字,就加罚一分。最好的分词方案,也就是罚分最少的方案。全切分路径选择法:把所有可能的切分组合全部列出来,从中选择最佳的一条切分路径。路径的选择可以转化为图论中的最短路径问题,利用动态规划效率则会更高。基于字符串匹配的分词方法“他说的确实在理”是一个很困难的测试用例,“的确”和“实在”碰巧也成词,这给自动分词带来了很大的障碍。但是“确”、“实”、“理”通常都不单独成词的,因
15、此很多切分方案都会被扣掉不少分:他说的确实在理(罚分:1+1+1+1+1=5)他说的确实在理(罚分:1+1+1+2+1=6)他说的确实在理(罚分:1+1+1+1+2=6)最少词数法用每个词出现的概率,来衡量分词的优劣。先统计大量真实语料中各个词出现的频率,然后把每种分词方案中各词的出现概率乘起来作为这种方案的得分。利用动态规划,不难求出得分最高的方案。在大量真实语料中,“有”、“有意”、“意见”、“见”、“分歧”的出现概率分别是 0.0181、0.0005、0.0010、0.0002、0.0001,因此“有意见分歧”的得分为 1.810-9,但“有意见分歧”的得分只有 1.010-11,正确方
16、案完胜。LOREM IPSUM DOLOR交集型歧义:中外科学名著”里,“中外”、“外科”、“科学”、“学名”、“名著”全是词,光从词库的角度来看,随便切几刀下去,得出的切分都是合理的。组合型歧义:组合型歧义,就是指同一个字串既可合又可分。“这扇门的把手”中的“把手”就是一个词,“把手抬起来”的“把手”就必须拆开分词歧义于是,我们不得不跳出一元假设。此时,提出了统计语言模型算法。对于任意两个词语 w1、w2,统计在语料库中词语 w1 后面恰好是 w2 的概率 P(w1,w2)。这样便会生成一个很大的二维表。再定义一个句子的划分方案的得分为 P(,w1)P(w1,w2)P(wn-1,wn),其中
17、 w1,w2,wn 依次表示分出的词。我们同样可以利用动态规划求出得分最高的分词方案。这个模型一并解决了词类标注、语音识别等各类自然语言处理问题。统计语言模型算法理解为字的分类问题,也就是自然语言处理中的sequence labeling问题,通常做法里利用HMM,MAXENT,MEMM,CRF等预测文本串每个字的tag62,譬如B,E,I,S,这四个tag分别表示:beginning,inside,ending,single,也就是一个词的开始,中间,结束,以及单个字的词。例如“南京市长江大桥”的标注结果可能为:“南(B)京(I)市(E)长(B)江(E)大(B)桥(E)”。基于序列标注的分词
18、方法基于深度学习的分词 基于深度学习的分词示例图。我们从上往下看,首先对每一个字进行Lookup Table,映射到一个固定长度的特征向量(这里可以利用词向量,boundary entropy,accessor variety等);接着经过一个标准的神经网络,分别是linear,sigmoid,linear层,对于每个字,预测该字属于B,E,I,S的概率;最后输出是一个矩阵,矩阵的行是B,E,I,S 4个tag,利用viterbi算法就可以完成标注推断,从而得到分词结果。词性标注 词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指
19、为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。HMM:隐状态是词性,显状态是单词。利用转移矩阵和核心词典词频可以计算出HMM中的初始概率、转移概率、发射概率,进而完成求解。句法分析 构造句子的任务,也就是从“句子”这个初始结点出发,不断调用规则,产生越来越复杂的句型框架,然后从词库中选择相应词性的单词,填进这个框架里。句法分析 构造句子的任务,也就是从“句子”这个初始结点出发,不断调用规则,产生越来越复杂的句型框架,然后从词库中选择相应词性的单词,填进这个框架里。句法分析 分析句法结构的任务,则是已知一个句子从左到右各词的词性,要反过来求出
20、一棵满足要求的“句法结构树”。老师 被 迟到 的 学生 逗乐 了 电话 被 窃听 的 房间 找到 了 它们都是“名词介词动词的名词动词了”,但它们的结构并不一样,前者是老师被逗乐了,“迟到”是修饰“学生”的,后者是房间找到了,“电话被窃听”是一起来修饰房间的。但是,纯粹运用前面的模型,我们无法区分出哪句话应该是哪个句法结构树。在生成规则中添加限制条件,列出所有词的各种特征:亮:词性=形容词,能作补语=True,能作定语=False 新:词性=形容词,能作补语=False,能作定语=True 汉语中词与词之间还有各种怪异的区别特征,并且哪个词拥有哪些性质纯粹是知识库的问题,完全没有规律可循。一个
21、实用的句法结构分析系统,往往拥有上百种属性标签。语义结构“鸡不吃了”,它有两种意思:鸡不吃东西了,或者我们不吃鸡了。汉语语言学家把事物与动词的语义关系分为了 17 种,叫做 17 种“语义角色”,它们是施事、感事、当事、动力、受事、结果、系事、工具、材料、方式、内容、与事、对象、场所、目标、起点、时间。怎样给动词配价,每个动词究竟在和哪些词发生关系。语义分析的实质,就是确定出它们具体是什么关系。零价动词:下雨 一价动词:休息 二价动词:吃 三价动词:送 语义角色标注 为了完成计算机自动标注语义角色的任务,我们需要人肉建立两个庞大的数据库:语义类词典和论元结构词典。北京语言大学 1990 年 5 月启动的“九五语义工程”就是人工构建的一棵规模相当大的语义树。论元结构方面则有清华大学和人民大学共同完成的现代汉语述语动词机器词典,词典中包括了各种动词的拼音、释义、分类、论元数、论元的语义角色、论元的语义限制等语法和语义信息。THANKSEND
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。