1、Speech Signal Processing 中国矿业大学中国矿业大学 信息工程系信息工程系全书三篇,全书三篇,16章(讲章(讲15章)章)第一篇第一篇 语音信号处理基础语音信号处理基础第二章第二章 语音信号处理的基础知识语音信号处理的基础知识第一章第一章 绪论绪论第二篇第二篇 语音信号分析语音信号分析第三章第三章 语音信号的时域分析语音信号的时域分析第四章第四章 语音信号的短时傅里叶分析语音信号的短时傅里叶分析第五章第五章 语音信号的同态滤波及倒谱分析语音信号的同态滤波及倒谱分析第六章第六章 语音信号的线性预测分析语音信号的线性预测分析第七章第七章 语音信号的矢量量化语音信号的矢量量化第
2、八章第八章 隐马尔可夫模型(隐马尔可夫模型(HMMHMM)第九章第九章 语音检测分析语音检测分析第三篇第三篇 语音信号处理技术与应用语音信号处理技术与应用第第 十十 章章 语音编码(一)语音编码(一) 波形编码波形编码 第十一章第十一章 语音编码(二)语音编码(二) 声码器技术与混合编码声码器技术与混合编码第十二章第十二章 语音合成语音合成第十三章第十三章 语音识别语音识别第十四章第十四章 说话人识别说话人识别第十五章第十五章 语音增强语音增强第二章第二章 语音信号处理的基础知识语音信号处理的基础知识语音的产生语音的产生语音的分类语音的分类语音的基本特性语音的基本特性语音的时间波形和频谱特性语
3、音的时间波形和频谱特性语音信号的统计特性语音信号的统计特性声道模型声道模型语音信号语音信号的产生模型的产生模型激励模型激励模型辐射模型辐射模型声管模型声管模型共振峰模型共振峰模型级联型级联型并联型并联型混合型混合型语音感知语音感知定义定义人耳的听力范围人耳的听力范围声音的三要素声音的三要素掩蔽效应掩蔽效应第二章第二章思考题:思考题:1. 什么叫语言?什么叫语音?什么叫语言?什么叫语音?2. 人类的发音器官包括哪些?在发音时各起了人类的发音器官包括哪些?在发音时各起了什么作用?什么作用?3. 解释以下概念:基音频率、共振峰、浊音、解释以下概念:基音频率、共振峰、浊音、清音。清音。4. 语音信号模
4、型包括哪些子模型?激励模型和语音信号模型包括哪些子模型?激励模型和辐射模型各属于什么性质的滤波器?辐射模型各属于什么性质的滤波器?第三章语音信号的时域分析第三章语音信号的时域分析语音处理的目的语音处理的目的语音信号分析方法语音信号分析方法短时分析技术短时分析技术语音信号的语音信号的数字化和预处理数字化和预处理取样率的选择取样率的选择量化字长的选择量化字长的选择预处理预处理短时能量分析短时能量分析短时平均能量的定义短时平均能量的定义窗口形状的选择窗口形状的选择窗口的长度窗口的长度主要用途主要用途直角窗和海明窗直角窗和海明窗的频率特性比较的频率特性比较短时平均幅度短时平均幅度短时过零分析短时过零分
5、析过零分析的概念过零分析的概念短时平均过零数的实现短时平均过零数的实现短时平均过零数的应用短时平均过零数的应用短时相关分析短时相关分析自相关函数的定义自相关函数的定义自相关函数的性质自相关函数的性质短时自相关函数的定义短时自相关函数的定义修正的短时自相关函数修正的短时自相关函数短时平均幅度差函数短时平均幅度差函数(AMDF)相关分析相关分析第三章第三章思考题:思考题:1. 在语音信号参数分析前为什么要进行预处在语音信号参数分析前为什么要进行预处理,有哪些预处理过程?理,有哪些预处理过程?2. 短时平均能量(平均幅度)和短时平均过短时平均能量(平均幅度)和短时平均过零率的定义。这两种时域参数的用
6、途。窗口零率的定义。这两种时域参数的用途。窗口函数的长度和形状对它们有什么影响?函数的长度和形状对它们有什么影响?3. 短时自相关函数和短时平均幅度差函数定短时自相关函数和短时平均幅度差函数定义和用途,它们间有什么差异?义和用途,它们间有什么差异?第四章第四章 语音信号的短时傅里叶分析语音信号的短时傅里叶分析 短时傅里叶变换的定义短时傅里叶变换的定义短时傅里叶变换的取样率短时傅里叶变换的取样率标准傅里叶变换的解释标准傅里叶变换的解释滤波器的解释滤波器的解释语音信号的短时综合语音信号的短时综合滤波器组求和法滤波器组求和法语谱图可同时在时间和频率上显示语音频谱随可同时在时间和频率上显示语音频谱随时
7、间的变化时间的变化。第四章第四章思考题思考题:1.1. 语音信号的短时谱的定义。如何提高短语音信号的短时谱的定义。如何提高短时谱的频率分辨率?时谱的频率分辨率?2.2. 在求语音信号的短时谱时,对窗函数有在求语音信号的短时谱时,对窗函数有什么要求?什么要求? 对语音信号频谱分析采用海对语音信号频谱分析采用海明窗和矩形窗各有什么特点?明窗和矩形窗各有什么特点?3. 3. 什么是语谱图?它有什么特性?什么是语谱图?它有什么特性?第五章第五章 语音信号的同态滤波及倒谱分析语音信号的同态滤波及倒谱分析 同态信号处理也叫同态滤波,它实现了将同态信号处理也叫同态滤波,它实现了将卷积关系卷积关系变换为求和关
8、系变换为求和关系的分离处理。的分离处理。复倒谱和倒谱复倒谱和倒谱同态信号处理的基本原理同态信号处理的基本原理 卷积同态系统模型卷积同态系统模型特征系统特征系统D D* * 和和D D* *-1-1 的三步数学运算的三步数学运算语音信号两个卷积分量的复倒谱语音信号两个卷积分量的复倒谱避免相位卷绕的算法避免相位卷绕的算法最小相位信号序列:最小相位信号序列:信号的零极点全部在信号的零极点全部在z z平面单位圆内。平面单位圆内。1.卷积同态系统的组成及意义?特征系统卷积同态系统的组成及意义?特征系统D* 和逆特征和逆特征系统系统D*-1 运算的三个步骤是什么?运算的三个步骤是什么?2. 什么是复倒谱?
9、什么是倒谱?清、浊音的复倒谱或倒什么是复倒谱?什么是倒谱?清、浊音的复倒谱或倒谱各有什么特点?谱各有什么特点?第五章第五章思考题:思考题:主要内容主要内容6.16.1概述概述6.26.2线性预测分析的基本原理线性预测分析的基本原理6.36.3线性预测分析的解法线性预测分析的解法自相关法自相关法6.46.4格型法格型法6.56.5线性预测分析应用线性预测分析应用 -LPC-LPC谱估计和谱估计和LPCLPC复倒谱复倒谱线性预测分析就是根据已知信号线性预测分析就是根据已知信号s(n)s(n)对各对各参数参数 和增益和增益G G进行估计。在这里进行估计。在这里 为线性预测系数为线性预测系数 ia i
10、a F(z)s(n)图图6-3 6-3 线性预测器线性预测器)( ns piiizazF1)( piiizazFzA11)(1)(A(z)s(n)e(n) H(z)u(n)s(n)图图6-1 6-1 信号信号s(n)s(n)的模型化的模型化为实数为实数,ipiiiazazH 11G)(1.1.如何将信号模型化为模型参数?最常用的是如何将信号模型化为模型参数?最常用的是什么模型?什么叫线性预测?什么叫逆滤波器?什么模型?什么叫线性预测?什么叫逆滤波器?2. 2. 什么叫什么叫LPCLPC参数?参数?PARCORPARCOR参数?参数?LSPLSP参数?参数?3.3.什么是什么是LPCLPC谱?谱
11、?LPCLPC谱估计的特点。谱估计的特点。第六章第六章思考题:思考题:7.17.1概述概述7.27.2矢量量化的基本原理矢量量化的基本原理7.37.3失真测度失真测度7.47.4最佳矢量量化器和码本设计最佳矢量量化器和码本设计7.57.5降低复杂度的矢量量化系统降低复杂度的矢量量化系统7.67.6语音参数的矢量量化语音参数的矢量量化1.1.矢量量化的定义矢量量化的定义2.2.什么是失真测度?常用的失真测度有哪什么是失真测度?常用的失真测度有哪些?些?3. 3. 矢量量化器最佳设计的两个条件?矢量量化器最佳设计的两个条件?4. LBG算法算法 第七章第七章思考题:思考题:8.1 8.1 概述概述
12、8.2 8.2 隐马尔可夫模型的引入隐马尔可夫模型的引入8.3 8.3 隐马尔可夫模型的定义隐马尔可夫模型的定义8.4 8.4 隐马尔可夫模型三项问题的求解隐马尔可夫模型三项问题的求解 1.1.什么叫做隐马尔可夫过程?为什什么叫做隐马尔可夫过程?为什么说语音信号可以看成隐马尔可夫过么说语音信号可以看成隐马尔可夫过程?隐马尔可夫模型有哪些模型参数?程?隐马尔可夫模型有哪些模型参数?请叙述这些参数的含义和定义式请叙述这些参数的含义和定义式。 2. HMM2. HMM模型的结构主要有哪两种?模型的结构主要有哪两种?主要用在什么场合?主要用在什么场合? 3.3.转移概率矩阵的计算。转移概率矩阵的计算。
13、第八章第八章思考题思考题语音检测分析语音检测分析语音特征参数的提取和分析。语音特征参数的提取和分析。主要包括:基音检测和共振峰参数的估值。主要包括:基音检测和共振峰参数的估值。简化逆滤波法(简化逆滤波法(SIFTSIFT)基音检测基音检测倒谱法倒谱法自相关法自相关法共振峰估值共振峰估值1. 带通滤波器法带通滤波器法2. DFT法法3. 倒谱法倒谱法4. LPC法法1.1.基音检测的自相关法中的中心削波处理的思基音检测的自相关法中的中心削波处理的思路及实现过程?路及实现过程?2.2.用倒谱法实现基音检测和共振峰检测的原理?用倒谱法实现基音检测和共振峰检测的原理?第九章第九章思考题思考题语音编码的
14、概念、应用和分类等语音编码的概念、应用和分类等语音信号的压缩编码原理语音信号的压缩编码原理 对语音进行压缩编码的两个基本依据等对语音进行压缩编码的两个基本依据等 语音通信中的语音质量语音通信中的语音质量 脉冲编码调制脉冲编码调制(PCM)及其自适应及其自适应 自适应量化分为前馈或反馈两种自适应量化分为前馈或反馈两种预测编码及其自适应预测编码及其自适应APC 自适应预测编码自适应预测编码APC系统框图、总量化误差系统框图、总量化误差 预测编码可以改善信噪比的原因预测编码可以改善信噪比的原因 短时预测和长时预测短时预测和长时预测自适应差分编码调制(自适应差分编码调制(ADPCM)1.1.在语音通信
15、中,常将语音质量分为哪四等?在语音通信中,常将语音质量分为哪四等?2.2.语音信号能进行压缩编码的依据是什么?语语音信号能进行压缩编码的依据是什么?语音编码的分类?音编码的分类?3.3.自适应的控制量有几个?控制方式有几种,自适应的控制量有几个?控制方式有几种,其特点是什么?其特点是什么?4.4.预测编码可以改善信噪比的原因是什么?预测编码可以改善信噪比的原因是什么?5.5.什么是短时预测和长时预测什么是短时预测和长时预测 ?第十章思考题第十章思考题 参数编码概念、与波形编码的不同参数编码概念、与波形编码的不同声码器的基本结构声码器的基本结构相位声码器和通道声码器相位声码器和通道声码器同态声码
16、器同态声码器线性预测声码器线性预测声码器混合编码:混合编码: MPLPC 、CELP原理、原理、传输码率计算等传输码率计算等第十一章第十一章 语音编码声码器技术及混合编码语音编码声码器技术及混合编码 语音合成的方法:语音合成的方法:波形合成法波形合成法 、参数合成法参数合成法规则合成法规则合成法 语音合成系统的特性语音合成系统的特性:形式有两种形式有两种 用预测器系数用预测器系数ai直接构成的递归型合成滤波器直接构成的递归型合成滤波器 采用反射系数构成的格型合成滤波器采用反射系数构成的格型合成滤波器第十三章第十三章 语音识别语音识别 语音识别的概念、目的和分类语音识别的概念、目的和分类 语音识
17、别原理:语音识别原理:模式匹配原理、语音识别的步骤模式匹配原理、语音识别的步骤 框图理解框图理解动态时间规整(动态时间规整(DTW):):目的、原理目的、原理孤立词识别系统:孤立词识别系统:原理和框图理解原理和框图理解 端点检测的作用端点检测的作用1.什么是语音识别什么是语音识别?语音识别系统如何分类语音识别系统如何分类?当前当前,语音语音识别的主流方法是什么识别的主流方法是什么?2.语音识别系统由哪几个部分组成语音识别系统由哪几个部分组成?语音识别中常用的语音识别中常用的语音特征参数有哪些语音特征参数有哪些?3.什么是动态时间规整什么是动态时间规整?实际中实际中,它解决了什么问题它解决了什么
18、问题?4.孤立词识别系统框图孤立词识别系统框图?框图中框图中,参考模式库和模式识别参考模式库和模式识别的作用是什么的作用是什么?第十三章思考题第十三章思考题第十四章 说话人识别 说话人识别定义、目的和关键问题说话人识别定义、目的和关键问题说话人识别分类、应用说话人识别分类、应用特征提取特征提取 说话人识别所用的特征说话人识别所用的特征 特征类型的优选准则:特征类型的优选准则: F比作为有效性准则比作为有效性准则 说话人识别系统的结构:说话人识别系统的结构: 组成、基本结构、说话人识别系统的性能评组成、基本结构、说话人识别系统的性能评价价 如:说话人确认系统最重要的两个性能指标:如:说话人确认系
19、统最重要的两个性能指标: 错误拒绝率(错误拒绝率(FR)、错误接受率()、错误接受率(FA) 说话人识别中的识别方法说话人识别中的识别方法 DTW型说话人识别系统:说话人确认系统型说话人识别系统:说话人确认系统 应用应用VQ的说话人识别系统:说话人辨认系统的说话人识别系统:说话人辨认系统1.说话人识别和语音识别的区别在什么地方说话人识别和语音识别的区别在什么地方? 2.说话人确认和说话人辨认有什么不同?说话人确认和说话人辨认有什么不同?3.在说话人识别中,应选择哪些可以表征个人特征在说话人识别中,应选择哪些可以表征个人特征的识别参数?的识别参数?4.怎样评价说话人识别特征参数选取的好坏?即怎样
20、评价说话人识别特征参数选取的好坏?即F比的物理意义?比的物理意义?5.说话人确认系统最重要的两个性能指标是什么?说话人确认系统最重要的两个性能指标是什么?含义为什么?含义为什么?6.基于基于DTW和和VQ算法的系统框图理解。算法的系统框图理解。第十四章思考题第十四章思考题人类的语音是由人体发音器官在大脑控制下的人类的语音是由人体发音器官在大脑控制下的生理运动产生的生理运动产生的;人的发音器官包括:肺、气管、喉、咽、鼻、人的发音器官包括:肺、气管、喉、咽、鼻、口等。口等。声带开启和闭合使气流形成一系列脉冲。声带开启和闭合使气流形成一系列脉冲。 每开启和闭合一次的时间即振动周期称为每开启和闭合一次
21、的时间即振动周期称为基音周期基音周期,其倒数为,其倒数为基音频率基音频率,简称,简称基频。基频。基基频决定了声音频率的高低,频率快则音调高,频决定了声音频率的高低,频率快则音调高,频率慢则音调低。频率慢则音调低。 基音的范围约为基音的范围约为70 - 350Hz70 - 350Hz, ,与说话人与说话人的性别、年龄等情况有关。的性别、年龄等情况有关。 语音由声带振动或不经声带振动来产生,其中:语音由声带振动或不经声带振动来产生,其中: 由声带振动产生的音称为由声带振动产生的音称为浊音(浊音(Voice SpeechVoice Speech); 不由声带振动产生的音称为不由声带振动产生的音称为清
22、音清音(Unvoice Speech) 。 使声道完全闭合,在闭合后建立起气压,然后突然释使声道完全闭合,在闭合后建立起气压,然后突然释放,得到爆破音称为放,得到爆破音称为爆破音(爆破音(plosive Speech):):声道可以等效为一个谐振腔,有许多谐振频率。谐振频率由声道可以等效为一个谐振腔,有许多谐振频率。谐振频率由每一瞬间的声道外形来决定。每一瞬间的声道外形来决定。 若声道截面是均匀的,则谐振频率发生在:若声道截面是均匀的,则谐振频率发生在:.3 , 2 , 14)12( nLcnFn c c为声速,空气中为为声速,空气中为350m/s350m/s,L L为声道长度,为声道长度,n
23、 n为序号。为序号。音质:区别与其它声音的基本特征音质:区别与其它声音的基本特征音调:声音的高低;取决于频率音调:声音的高低;取决于频率音量:声音的强弱;声波振动的幅度音量:声音的强弱;声波振动的幅度音长:声音的长短。发音持续时间的长短音长:声音的长短。发音持续时间的长短图2-7 Ten above In the suburbs 时域波形图2-8 元音【】的频谱图2-9 辅音【S】的语谱基音周期的计算 清音浊音的判断学习得到图图26 输出的语音频谱输出的语音频谱虚线为谱包络,恢复谱包络是许多语音虚线为谱包络,恢复谱包络是许多语音处理应用中的主要问题,因为谱包络携处理应用中的主要问题,因为谱包络
24、携带了主要的发音信息带了主要的发音信息 根据长时间范围内一段语音信号的大量取样根据长时间范围内一段语音信号的大量取样数据的绝对值计算其直方图数据的绝对值计算其直方图方法xekxfxk .2)( 概率密度修正伽玛概率密度xexf 5 . 0)(拉普拉斯分布图图2 210 10 修正伽玛密度、拉普拉斯密度和高修正伽玛密度、拉普拉斯密度和高斯密度以及天气预报语音的长期幅度分布斯密度以及天气预报语音的长期幅度分布图图211 语音幅度的累计频度分布语音幅度的累计频度分布观察观察得到得到语音主要集中在幅度较小的区域语音主要集中在幅度较小的区域语音的动态范围都超过语音的动态范围都超过50dB激励模型激励模型
25、 发不同性质的音时,激励的情况是不同的。发不同性质的音时,激励的情况是不同的。(1 1)发浊音时)发浊音时 声带不断张开和关闭,产生间歇的脉冲波。声带不断张开和关闭,产生间歇的脉冲波。见图见图2-132-13。 则激励信号是一个以基音周期为周期的则激励信号是一个以基音周期为周期的斜三角脉冲串。斜三角脉冲串。 从频谱上看,是一个低通型滤波器。可以表示从频谱上看,是一个低通型滤波器。可以表示为为Z Z变换的全极点模型形式变换的全极点模型形式:)1)(1(1)(1211 zgzgzG(2 2)发清音时)发清音时 声道被阻碍形成湍流,可模拟为随机白噪声声道被阻碍形成湍流,可模拟为随机白噪声。见图见图2
26、-122-12。 实际中使用均值为实际中使用均值为0 0、方差为、方差为1 1,并在时间或幅,并在时间或幅度上为白色分布的序列度上为白色分布的序列声道模型声道模型(1 1)声管模型)声管模型声道的数学模型目前有两种观点:声道的数学模型目前有两种观点: 将声道看为由多个不同截面积的管子串联而成的将声道看为由多个不同截面积的管子串联而成的系统。系统。 在在“短时短时”期间,声道可表示为形状稳定的管道。期间,声道可表示为形状稳定的管道。(2 2)共振峰模型)共振峰模型将声道看为一个谐振腔。共振峰就是腔体的谐振频率。将声道看为一个谐振腔。共振峰就是腔体的谐振频率。 一般,用前三个共振峰来代表一个元音就
27、足够了。一般,用前三个共振峰来代表一个元音就足够了。而辅音需要五个以上而辅音需要五个以上图图215 级联型共振峰模型级联型共振峰模型 级联型比较简单,用于描述一般的元级联型比较简单,用于描述一般的元音。级联的级数取决于声道的长度。音。级联的级数取决于声道的长度。图图216 并联型共振峰模型并联型共振峰模型 当鼻化元音或鼻腔参与共振以及发阻塞音或摩擦音时,此时腔体具有反谐振特性,必须考虑加入零点,成为极零点模型,每个谐振器的幅度都要独立控制。幅度独立控制何调幅度独立控制何调节,用来模拟辅音节,用来模拟辅音频谱特性中能量集频谱特性中能量集中区中区专为一些频谱特性比较平坦专为一些频谱特性比较平坦的因
28、素而考虑的的因素而考虑的图图217辐射模型辐射模型)1()(10 zRzR一阶类高通滤波器形式一阶类高通滤波器形式 从声道输出的是速度波,而语音信号是声从声道输出的是速度波,而语音信号是声压波,二者之比为辐射阻抗压波,二者之比为辐射阻抗ZL。它表征口唇。它表征口唇的辐射效应,也包括圆形头部的绕射效应。的辐射效应,也包括圆形头部的绕射效应。 研究表明,口唇端在高频端比较显著,而在研究表明,口唇端在高频端比较显著,而在低频端时影响比较小。所以辐射模型为低频端时影响比较小。所以辐射模型为 嘴唇的辐射影响引起的输出信号高频提升作用嘴唇的辐射影响引起的输出信号高频提升作用大约有大约有每倍频程每倍频程6d
29、B4. 4. 完整的语音信号数字模型完整的语音信号数字模型)()()()(zRzHzUzV 语音取样值语音取样值准周期脉冲准周期脉冲序列发生器序列发生器基音周期基音周期增益控制增益控制随机噪声随机噪声发发 生生 器器时变线性时变线性系系 统统时变参数时变参数浊音浊音清音清音激励模型激励模型声道模型声道模型辐射模型辐射模型注意注意一、这种模型是一、这种模型是“短时模型短时模型”,其中,其中U(Z)、R(Z)保持不变,而基音频率、清音浊音的幅度、清保持不变,而基音频率、清音浊音的幅度、清/浊浊音判决,声道参数音判决,声道参数ak、P是时变的是时变的二、声道参数二、声道参数030ms内近似不变,激励
30、参数在内近似不变,激励参数在5ms左右近似不变,左右近似不变,H(Z)是一个参数随时间缓慢变化是一个参数随时间缓慢变化的模型,可以假定的模型,可以假定1020ms内固定不变。内固定不变。三、对于某些音,需要用一些修正的或更精确的模三、对于某些音,需要用一些修正的或更精确的模型来模型型来模型四、模型对语音产生的模拟得是否成功,主要四、模型对语音产生的模拟得是否成功,主要考察它所产生得语音信号听上去是否合乎预期考察它所产生得语音信号听上去是否合乎预期得结果,对于它是否能准确得描述发音器官产得结果,对于它是否能准确得描述发音器官产生语音得物理过程并不重要。生语音得物理过程并不重要。五、语音分析和语音
31、合成都是基于这个模型来五、语音分析和语音合成都是基于这个模型来实现的。实现的。六、模型的思想起源于六、模型的思想起源于30年代发明的声码器。其年代发明的声码器。其基本思想是将激励和系统相分离,使语音信号解基本思想是将激励和系统相分离,使语音信号解体来分别描述,而不是直接研究信号波形本身的体来分别描述,而不是直接研究信号波形本身的特性特性 人的耳朵接收声音并转换成神经人的耳朵接收声音并转换成神经刺激。人耳听到声音后,还要经过刺激。人耳听到声音后,还要经过大脑处理变成确定的含义,这就是大脑处理变成确定的含义,这就是对语音的感知对语音的感知。人耳能听到的频率范围大约为人耳能听到的频率范围大约为16H
32、z16kHz,年轻人上限频率可达,年轻人上限频率可达20kHz,老年人则衰退为老年人则衰退为10kHz对于人耳的感觉,用对于人耳的感觉,用声音三要素来声音三要素来描述:描述: 响度响度:人耳对声音强弱程度的反映。取决于:人耳对声音强弱程度的反映。取决于声音的幅度,并和频率有关。如:对声音的幅度,并和频率有关。如:对30004000Hz最敏感。最敏感。 音调音调:也叫音高。人耳对声音频率高低的感:也叫音高。人耳对声音频率高低的感受。如:对频率高的声音感觉音调受。如:对频率高的声音感觉音调“高高”,对,对频率低的声音感觉音调频率低的声音感觉音调“低低”。 音色音色:也叫音质。反映了声音属性。每个声
33、:也叫音质。反映了声音属性。每个声音具有特殊的音色。音具有特殊的音色。掩蔽效应掩蔽效应 当两个响度不同的声音作用于人耳时,则响度当两个响度不同的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易觉察,这就是率成分的感受,使其变得不易觉察,这就是掩蔽掩蔽效应效应。 对于中等掩蔽强度,纯音最有效的掩蔽出现在对于中等掩蔽强度,纯音最有效的掩蔽出现在它的频率附近,低频的纯音可以有效地掩蔽高频它的频率附近,低频的纯音可以有效地掩蔽高频地纯音,而高频的纯音对低频的纯音掩蔽作用很地纯音,而高频的纯音对低频的纯音掩蔽作用很小。
34、掩蔽效应会造成因一个声音的存在而使另一小。掩蔽效应会造成因一个声音的存在而使另一个声音的个声音的听阈听阈上升。上升。当声音的强度小到人耳刚刚能够听见时当声音的强度小到人耳刚刚能够听见时一、对语音信号进行分析,提取特征参数。一、对语音信号进行分析,提取特征参数。二、加工语音信号。二、加工语音信号。总之,在于方便有效地提取并表示语音信号总之,在于方便有效地提取并表示语音信号所携带的信息。所携带的信息。语音处理的目的语音处理的目的: 语音信号分析方法:语音信号分析方法: 时域分析:时域分析: 频域分析:频域分析:倒谱域分析:倒谱域分析: 语音信号具有语音信号具有时变特性时变特性,是一个非平稳的随机过
35、,是一个非平稳的随机过程程; 但是,语音信号又具有但是,语音信号又具有“短时平稳性短时平稳性”,即在一,即在一个短时间范围内其特性基本保持不变。个短时间范围内其特性基本保持不变。这是语音信这是语音信号处理的一个重要出发点。即号处理的一个重要出发点。即“短时分析短时分析”。 “ “短时分析短时分析” 对语音信号采用分段或叫分帧对语音信号采用分段或叫分帧来处理。来处理。短时分析技术:短时分析技术:注:语音通常在注:语音通常在1030ms1030ms内保持相对平稳,所以内保持相对平稳,所以帧长取为:帧长取为: 1030ms1030ms 模拟语音模拟语音 数字语音,须经过数字语音,须经过取样、量化取样
36、、量化 语音信号:频率范围可高达语音信号:频率范围可高达10KHz。 电话带宽语音:电话带宽语音: 3003400Hz 通信系统中,数字化取样率一般为通信系统中,数字化取样率一般为8KHz, 语音信号处理中,取样率语音信号处理中,取样率 为为 10KHz取样率的选择取样率的选择2. 量化字长的选择量化字长的选择 量化过程量化过程:将整个幅度值分割为有限个区间,:将整个幅度值分割为有限个区间,落入同一个区间的样本都赋予相同的幅度值落入同一个区间的样本都赋予相同的幅度值 。 量化过程不可避免会产生量化误差。量化过程不可避免会产生量化误差。 可以证明量化信噪比为:可以证明量化信噪比为:)lg(207
37、7. 402. 6)lg(10)(max22xexXBdBSNR 量化字长量化字长输入语音信号的方差输入语音信号的方差噪声序列的方差噪声序列的方差信号的峰值信号的峰值若语音信号服从拉普拉斯(若语音信号服从拉普拉斯(LaplacianLaplacian) )分布,分布,则:则:可见,每比特对可见,每比特对SNRSNR贡献贡献6dB6dB。2 . 702. 6)( BdBSNRB=7Bit时,时,SNR=35dB,可满足一般通信系统要求;可满足一般通信系统要求;实际中,因语音波形变化的动态范围可达实际中,因语音波形变化的动态范围可达55dB,所,所以,应取以,应取B 10Bit二、预处理二、预处理
38、 预处理:预处理:模拟语音的数字化、放大及增益模拟语音的数字化、放大及增益控制、反混叠滤波、预加重等。控制、反混叠滤波、预加重等。 反混叠滤波反混叠滤波:在取样前,为预防混叠失真和噪声干:在取样前,为预防混叠失真和噪声干扰,采用的一个截止性能良好的模拟低通滤波器。扰,采用的一个截止性能良好的模拟低通滤波器。反混叠滤波器一般与反混叠滤波器一般与A/D做在一块集成片内。做在一块集成片内。 预加重:预加重:因语音信号高频端因语音信号高频端800Hz以上按以上按6dB/倍频倍频程下降,所以程下降,所以在在A/D前,可以采用预加重方法。即提前,可以采用预加重方法。即提升高频部分,使信号的频谱变得平坦,便
39、于频谱分析升高频部分,使信号的频谱变得平坦,便于频谱分析和声道参数分析。和声道参数分析。注:注: 预加重也可预加重也可在在A/DA/D后进行,此时可采用数字后进行,此时可采用数字滤波器实现:滤波器实现:11)( zzH 预加重后的信号在分析后,还需要进行去预加重后的信号在分析后,还需要进行去加重处理还原为原来的语音信号。加重处理还原为原来的语音信号。一、短时平均能量的定义一、短时平均能量的定义 nNnmmnmnwmxmnwmxE122)()()()(注意:注意:E En n以以n n为标志。因为窗序列是沿着平方值的序列为标志。因为窗序列是沿着平方值的序列逐段移动。见图逐段移动。见图3-63-6
40、图图3-73-7短时能量序列的计算方法短时能量序列的计算方法)()(2nhnxEn 表明表明:短时平均能量相当于语音信号平方短时平均能量相当于语音信号平方通过一个单位脉冲响应为通过一个单位脉冲响应为h(n)h(n)的线性滤波的线性滤波器的输出。器的输出。注意注意 :不同的窗口选择决定不同的短时能量,不同的窗口选择决定不同的短时能量,为此我们要选择合适的窗口,使其平均能量更好为此我们要选择合适的窗口,使其平均能量更好地反映语音信号的幅度变化。地反映语音信号的幅度变化。窗口的形状窗口的形状窗函数:窗函数:直角窗、汉宁窗、海明窗、布莱克曼窗等直角窗、汉宁窗、海明窗、布莱克曼窗等 窗口的长度窗口的长度
41、 窗长对能否反映语音信号的幅度变化起决定窗长对能否反映语音信号的幅度变化起决定性作用。性作用。若若N N很大很大,等效为带宽很窄的低通滤波器,等效为带宽很窄的低通滤波器, E En n的变化很的变化很小,不能反映语音信号的幅度变化;小,不能反映语音信号的幅度变化;若若N N很小很小,等效为带宽很宽的低通滤波器,等效为带宽很宽的低通滤波器, E En n的变化很的变化很剧烈,不能得到语音信号的平滑能量函数。剧烈,不能得到语音信号的平滑能量函数。 窗口的长短是相对语音信号的基音周期而窗口的长短是相对语音信号的基音周期而言。言。通常认为:通常认为:一个语音帧内应含有一个语音帧内应含有1 17 7个基
42、音周期。但个基音周期。但不同人的基音周期变化很大;折中选取:不同人的基音周期变化很大;折中选取:在取样频率为在取样频率为10KHz10KHz时,时,N=100-200N=100-200 即即101020ms20ms持续时间持续时间见图见图3-93-9二、短时平均能量的主要用途二、短时平均能量的主要用途 可以区分清音段和浊音段。可以区分清音段和浊音段。 浊音的浊音的E En n比清音比清音En大的多大的多 可以区分声母和韵母的分界,无声和有声的可以区分声母和韵母的分界,无声和有声的分界,连字的分界。分界,连字的分界。 可以用于语音识别可以用于语音识别“短时平均幅度短时平均幅度M Mn n” ”
43、,其定义为:其定义为:)()()()(nwmxmnwmxMmn 短时平均幅度的动态范围(最大值与最小短时平均幅度的动态范围(最大值与最小值之比)比短时平均能量小。值之比)比短时平均能量小。过零分析的概念过零分析的概念 过零过零就是信号通过零值。就是信号通过零值。 对于对于离散信号离散信号,相邻的取样值改变符号则称为过零。,相邻的取样值改变符号则称为过零。 过零数过零数就是样本改变符号的次数。就是样本改变符号的次数。 单位时间内的过零数为单位时间内的过零数为平均过零数平均过零数。对于窄带信号,可以精确地计算出对于窄带信号,可以精确地计算出平均过零数。平均过零数。例如:例如:一个频率为一个频率为f
44、 f0 0的正弦信号,取样频率为的正弦信号,取样频率为f fs s,则,则平均过零数为:平均过零数为:sffZ02 过零过零/ /样本样本但语音信号是宽带信号,不能简单用上述公式。但语音信号是宽带信号,不能简单用上述公式。语音信号语音信号x(n)的短时平均过零数定义的短时平均过零数定义为为)()1(sgn)(sgn)()1(sgn)(sgnnwmxmxmnwmxmxZmn 符号函数符号函数窗口序列窗口序列 其他其他010,21)(NnNnw短时平均过零数的应用短时平均过零数的应用1. 用于语音信号分析用于语音信号分析2. 用于从背景噪声中找出语音信号用于从背景噪声中找出语音信号清音和浊音的过零分布是不同的:清音和浊音的过零分布是不同的:清音具有较高的过零数,而浊音则具有较低的过零数。清音具有较高的过零数,而浊音则具有较低的过零数。见图见图3-13 3-13 、3-143-14