1、1语音处理与语音识别简介2014年9月2主要内容主要内容数字音频基础知识音频处理基础知识语音识别技术简介3主要内容主要内容数字音频基础知识数字音频基础知识音频处理基础知识语音识别技术简介4 是指自然声是指自然声 是机械振动在弹性介质中传播的机械波是机械振动在弹性介质中传播的机械波 是随时间连续变化的物理量是随时间连续变化的物理量 声音概念声音概念 振幅振幅 波的高低幅度,表示声音的强弱波的高低幅度,表示声音的强弱 周期周期 两个相邻波之间的时间长度两个相邻波之间的时间长度 频率频率 每秒钟波振动的次数,单位是每秒钟波振动的次数,单位是 Hz 声音特性声音特性5声音的强度声音的强度(响度或音量响
2、度或音量),与声波振幅成,与声波振幅成正比;唱盘、正比;唱盘、CD 盘等声音载体中的音强盘等声音载体中的音强不变,通过播放设备的音量控制可改变聆不变,通过播放设备的音量控制可改变聆听时强度;音频处理软件可提高声源音强听时强度;音频处理软件可提高声源音强声音的特色,主要影响因素是复音;复声音的特色,主要影响因素是复音;复音指具有不同频率和不同振幅的混合声音指具有不同频率和不同振幅的混合声音,其中最低频率是音,其中最低频率是“基音基音”,是声音的,是声音的基调,其他频率的声音为基调,其他频率的声音为“谐音谐音(泛音泛音)”代表声音的高低,与频率有关;使代表声音的高低,与频率有关;使用音频处理软件对
3、声音的频率进行用音频处理软件对声音的频率进行调整时,其音调也会随之发生变化调整时,其音调也会随之发生变化 声音的三要素声音的三要素 音调音调 (高低高低)音强音强 (强弱强弱)音色音色 (特质特质)6 声音的频率范围声音的频率范围7数字音频数字音频声音是振动的机械波,话筒把机械振动转换成电信号,用随时间连声音是振动的机械波,话筒把机械振动转换成电信号,用随时间连续变化的物理量表示,称之为模拟音频。续变化的物理量表示,称之为模拟音频。在计算机内部,所有的信息均以数字表示,代表声音信号的物理量在计算机内部,所有的信息均以数字表示,代表声音信号的物理量也用一系列数字表示,称之为数字音频。也用一系列数
4、字表示,称之为数字音频。模拟音频在时间上是连续的,而数字音频则是一个数据序列,在时模拟音频在时间上是连续的,而数字音频则是一个数据序列,在时间上不具备连续性,因此只能是断续的。间上不具备连续性,因此只能是断续的。当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音当把模拟声音变成数字声音时,需要每隔一个时间间隔在模拟声音波形上取一个电压幅度值,称之为波形上取一个电压幅度值,称之为。采样得到的表示声音强弱的模拟电压幅值是连续的,把无穷多个电采样得到的表示声音强弱的模拟电压幅值是连续的,把无穷多个电压幅值用有限个数字表示,称之为压幅值用有限个数字表示,称之为。8 采样采样采样过程采样过程按固
5、定间隔按固定间隔采样声音波形采样声音波形采样声音波采样声音波形之后的结果形之后的结果声波是连续信号,声波是连续信号,或称连续时间函数或称连续时间函数 x(t)。用计算机处理这些信号时应先用计算机处理这些信号时应先离散化,即按一定的时间间隔离散化,即按一定的时间间隔(T)取值,得到取值,得到 x(nT)(n为整数为整数),T 称采样称采样周期,周期,1/T 称采样频率称采样频率(每秒钟采样次数每秒钟采样次数),x(nT)称采样值称采样值(或离散信号或离散信号)采样概念采样概念9设连续信号设连续信号 x(t)的频谱为的频谱为 x(f),以采样间隔,以采样间隔 T 采样得到离散信号采样得到离散信号
6、x(nT)如果满足:当如果满足:当|f|fc(fc 是信号高端截止频率是信号高端截止频率)时,有时,有T 1/(2fc)或或 fc 1/(2T)则可由则可由 x(nT)完全确定完全确定 x(t)。当当 fN=1/(2T)时,称时,称 fN 为奈奎斯特频率为奈奎斯特频率采样定理采样定理奈奎斯特奈奎斯特(Nyqust)采样定理:只要采样频率大于或者等于信号中所包采样定理:只要采样频率大于或者等于信号中所包含的最高频率的两倍;即当信号是最高频率时,每个周期至少采样两个含的最高频率的两倍;即当信号是最高频率时,每个周期至少采样两个点,则理论上就可以完全恢复原来的信号。点,则理论上就可以完全恢复原来的信
7、号。采样采样采样方法采样方法语音信号频谱在高频处迅速下降,但非限带。应用时只对一定频率范围语音信号频谱在高频处迅速下降,但非限带。应用时只对一定频率范围内的信号感兴趣,就可以对经滤波限带的音频信号采样。这样,在采样内的信号感兴趣,就可以对经滤波限带的音频信号采样。这样,在采样前,用一个锐截止模拟低通滤波器对音频信号进行滤波。前,用一个锐截止模拟低通滤波器对音频信号进行滤波。10 量化量化通过采样得到的表示声音强弱的函数通过采样得到的表示声音强弱的函数 x(nT)是连续的,为把是连续的,为把 x(nT)存入计存入计算机,就必须将采样值离散化,即量化成一个有限个幅度值的集合算机,就必须将采样值离散
8、化,即量化成一个有限个幅度值的集合 x(nT)量化概念量化概念量化原理量化原理先将整个幅度划分成为有限个小幅度先将整个幅度划分成为有限个小幅度(量化阶距量化阶距)的集合,把落入某个阶距的集合,把落入某个阶距内的样值归为一类,并赋予相同的量内的样值归为一类,并赋予相同的量化值。如果量化值是均匀分布的,称化值。如果量化值是均匀分布的,称为均匀量化。设为均匀量化。设 为量化阶距,量化为量化阶距,量化器最大范围是器最大范围是 Xmax,则:,则:=2Xmax/2B量化电压幅量化电压幅值之后的结果值之后的结果11 编码编码音频模拟信号经过采样与量化之后,为把数字化音频存入计算机,需对音频模拟信号经过采样
9、与量化之后,为把数字化音频存入计算机,需对其编码,即用二进制数表示每个采样的量化值,完成整个模数转换过程其编码,即用二进制数表示每个采样的量化值,完成整个模数转换过程编码概念编码概念PCM 编码编码一种最方便简单的编码方法是脉冲编一种最方便简单的编码方法是脉冲编码调制,常称为码调制,常称为 PCM(Pulse CodeModulation)编码。是一种未经压缩编码。是一种未经压缩的数字音频信号,常作为一种参考信的数字音频信号,常作为一种参考信号,以便其他编码方法与之比较,或号,以便其他编码方法与之比较,或者在此基础上作进一步压缩编码处理者在此基础上作进一步压缩编码处理12 衡量一种编码方法的性
10、能有两个主要指标:码流速率和量化噪声衡量一种编码方法的性能有两个主要指标:码流速率和量化噪声 码流速率指的是音频信号编码流速率指的是音频信号编码后每秒钟产生的数据流量,以码后每秒钟产生的数据流量,以kbit/s 为单位表示,也可以表示为单位表示,也可以表示为为 kbps。例如对普通模拟话音。例如对普通模拟话音用用 8kHz 的频率采样并以的频率采样并以 8 位量位量化和编码,所形成的音频数字信化和编码,所形成的音频数字信号的码率便是号的码率便是 64kbps。量化噪声是由量化失真引起量化噪声是由量化失真引起的噪声,通常表示为量化后的音的噪声,通常表示为量化后的音频信号噪声比,简称信噪比。每频信
11、号噪声比,简称信噪比。每增加增加 1 位量化精度,信噪比即提位量化精度,信噪比即提高高 6db。例如在高保真音响系统。例如在高保真音响系统中,要求信噪比大于中,要求信噪比大于 90db,则,则量化精度必须在量化精度必须在 16 位以上。位以上。编码编码13 声道声道(Sound Channel)是指声音在录制或播放时在不同空间位置采集或回是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。回放时相应的扬声器数量。单声道(单声道(mono):只有一个声):只
12、有一个声道。普通的单声道录放系统使用道。普通的单声道录放系统使用一只话筒录音,信号录在一条轨一只话筒录音,信号录在一条轨迹上,放音时使用一路放大器和迹上,放音时使用一路放大器和一只扬声器,所以重放出来的声一只扬声器,所以重放出来的声音是一个点声源。音是一个点声源。声道声道 立体声(立体声(stereo):有两个声道。):有两个声道。在录制声音时,在不同的位置用在录制声音时,在不同的位置用两只话筒进行录音,而在重放时两只话筒进行录音,而在重放时则使用两路独立的放大器和两个则使用两路独立的放大器和两个扬声器,从而使听者可以较准确扬声器,从而使听者可以较准确地判断出录音中不同音源的准确地判断出录音中
13、不同音源的准确位置。位置。1415l WAV为微软公司(为微软公司(Microsoft)开发的一种声音文件格式开发的一种声音文件格式非压缩,直接存储(采样、量化、非压缩,直接存储(采样、量化、PCM编码后的)原始数据;编码后的)原始数据;如如 果采样率高,其音质极佳;果采样率高,其音质极佳;数据量大,与采样频率、量化位数、声道数成正比。数据量大,与采样频率、量化位数、声道数成正比。波形音频文件(波形音频文件(WAV)数字音频文件格式数字音频文件格式1617 Windows PCM WAV文件头格式文件头格式偏移地址大小字节数据块类型内容00H03H44字符资源交换文件标志(RIFF)04H07
14、H4长整数从下个地址开始到文件尾的总字节数08H0BH44字符WAV文件标志(WAVE)0CH0FH44字符波形格式标志(fmt),最后一位空格。10H13H4整数过滤字节(一般为00000010H)14H15H2整数格式种类(值为1时,表示数据为线性PCM编码)16H17H2整数通道数,单声道为1,双声道为218H1BH4长整数采样频率1CH1FH4长整数波形数据传输速率(每秒平均字节数)20H21H2整数DATA数据块长度,字节。22H23H2整数PCM位宽24H27H44字符数据标志符(data)28H2BH4长整型DATA总数据长度字节18 Windows PCM WAV文件头格式文件
15、头格式19主要内容主要内容数字音频基础知识音频处理基础知识音频处理基础知识语音识别技术简介20l 在音频信息处理领域,在音频信息处理领域,特征提取特征提取是一个非常重要的问题。是一个非常重要的问题。l 特征提取的任务:特征提取的任务:从原始输入的原始音频信号中提取既能表征不同音频内容的声学差异,从原始输入的原始音频信号中提取既能表征不同音频内容的声学差异,又能表征相同音频内容不同样本之间的声学相似性的信息,同时减少原又能表征相同音频内容不同样本之间的声学相似性的信息,同时减少原始信号的信息冗余。始信号的信息冗余。音频特征提取音频特征提取21l 时域音频信号是非平稳信号,难以处理。但它在一个很小
16、的时段内具有时域音频信号是非平稳信号,难以处理。但它在一个很小的时段内具有 相对的稳定性。相对的稳定性。l 因此在对其进行分析时,可以假定语音信号在一个因此在对其进行分析时,可以假定语音信号在一个时间帧(时间帧(frame)内是平稳的。通常一帧在内是平稳的。通常一帧在1030ms之间,视实际情况而定,而且分帧可连续,之间,视实际情况而定,而且分帧可连续,也可采用交叠分段的方法。也可采用交叠分段的方法。分帧分帧10ms25ms10ms25ms22l 短时能量(短时能量(STE:Short Time Energy)是一帧的总能量)是一帧的总能量l 短时能量说明了音频信号的强度,可用于静音的检测。短
17、时能量说明了音频信号的强度,可用于静音的检测。例如,对于一个音频信号,如果这个音频信号中的某一个短时帧的平均能量值例如,对于一个音频信号,如果这个音频信号中的某一个短时帧的平均能量值低于一个事先设定的阈值,则可判定该短时帧为静音。低于一个事先设定的阈值,则可判定该短时帧为静音。l对于一段音频,以时间或帧为横坐标,短时能量值为纵坐标,可以画出一对于一段音频,以时间或帧为横坐标,短时能量值为纵坐标,可以画出一条曲线,我们将该曲线称为能量包络(条曲线,我们将该曲线称为能量包络(Energy Envelop)曲线。)曲线。短时能量短时能量020log()wSTEF wdw21niiSTEd1|niiS
18、TEd23l MFCC全称为美尔频标倒谱系统(全称为美尔频标倒谱系统(Mel-Frequency Cepstral Coefficients),是语音处理中常用的特征。),是语音处理中常用的特征。l MFCC正是利用三角滤波器组对傅立叶变换能量系数滤波而得,并且对正是利用三角滤波器组对傅立叶变换能量系数滤波而得,并且对其频域进行其频域进行Mel尺度变换,以更符合人类的听觉特征。尺度变换,以更符合人类的听觉特征。MFCC24主要内容主要内容数字音频基础知识音频处理基础知识语音识别技术简介语音识别技术简介1/19/202325根据处理的语音数据和识别结果分类连续语音识别(Continuous Sp
19、eech Recognition)孤立词识别(Isolate Word Recognition)关键词检测(Key Word Recognition,Key Word Spotting)根据针对的发音人分类特定人语音识别(SD:Speaker Dependent)非特定人语音识别(SI:Speaker Independent)1/19/202326特征提取特征提取语言模型语言模型自适应自适应第一遍第一遍识别识别声学模型声学模型前端处理前端处理第第n遍遍识别识别语音识别结果识别结果系统框架1/19/202327前端处理消除个体的影响 声道长度归一(VTN:Vocal Tract Length N
20、ormalization)端点检测 短时能量 高阶谱算法 子带能量语音增强(去噪)维纳滤波1/19/202328FFT频谱频谱LogDCT39维声学特征向量维声学特征向量美标度三角滤波器组美标度三角滤波器组倒谱均值减倒谱均值减1/19/202329声学模型确定发音串P(O|A)主流方法CHMMHMM的单元:三音子(Tri-Phone)注:Phone(Phoneme):音子,b,t,a Syllable:音节,ba,ti,tao Bi-Phone:二音子,b-a-t-a,b-a-t-a Tri-Phone:三音子 w-o-sh-i-sh-u-i,w-o-sh-i-sh-u-i1/19/20233
21、0语言模型已知发音串写出词串P(S|LP)P(P|L)P(L|W)P(W|A)P(A)其中,W是字串,A是读音串,L是词串,P是词性串,S是词义串主流方法三元语法:n-gram1/19/202331搜索(解码)识别的主要过程通过搜索找到某一概率(P(W))最大化的字串W主流方法Viterbi搜索:HMM内部词网格搜索:HMM之间1/19/202332说话人自适应根据新的语音重新调整模型参数特定人和非特定人之间的一种折衷主流方法MLLR(最大似然线性回归)对模型参数寻找一个最优线性变换 y=Ax+bMAP(最大后验概率)求使得后验概率最大的参数 max P(|x)1/19/202333声学模型调整HMM参数带噪声训练方言库训练语言模型计算N-gram概率数据稀疏问题34谢谢!