1、语音信号处理院定选修课 学时:32学分:2信号信息处理的重要研究方向精选1第一章第一章 绪绪 论论 研究对象研究对象 语音:语言的声学表现。由人的发音器官发出的、具有语言的声学表现。由人的发音器官发出的、具有一定语法和意义的声音一定语法和意义的声音。重要性:最重要、最有效、最常用、最方便的信息交换最重要、最有效、最常用、最方便的信息交换手段。手段。“四会四会”语音信号处理:用数字信号处理技术对语音信号进行处用数字信号处理技术对语音信号进行处理。理。新兴、综合性、交叉学科;新兴、综合性、交叉学科;涉及到语言学、声学、认知学、涉及到语言学、声学、认知学、心理学。心理学。信号与信息处理的重要组成部分
2、信号与信息处理的重要组成部分 热门学科,存在大量机遇热门学科,存在大量机遇精选2研究内容包括:研究内容包括:语音编码语音编码压缩压缩 语音合成语音合成计算机讲话读文章计算机讲话读文章 语音识别语音识别口授打字机等,翻译口授打字机等,翻译 关键词识别关键词识别 语音增强语音增强 说话人识别说话人识别“声纹声纹”身份识别。身份识别。精选3教学内容与目标教学内容与目标:课程内容课程内容:基本概念的建立;各种理论和算法介绍。教学目标教学目标:对语音信号处理有基本了解,为以后的研究工作做储备。精选4发展概况发展概况:39年的声码器用于通讯年的声码器用于通讯40年代后期的语谱仪年代后期的语谱仪60年代的数
3、字模型年代的数字模型70年代的年代的LPC80年代的年代的VQ以及以及HMM90年代的神经元等新技术年代的神经元等新技术精选5第二章语音信号处理的基础知识2.1 概述概述本章讨论内容1、语音产生模型语音产生模型 线性模型线性模型2、语音学基本内容语音学基本内容信息交流信息交流“发音传递感知发音传递感知”三个阶段三个阶段 发音语音学发音语音学 确定发音机理确定发音机理 声学语音学声学语音学 信号分析理论解释语音现象信号分析理论解释语音现象 听觉语音学听觉语音学 认识感知的过程认识感知的过程精选62.2 语音产生的过程语音产生的过程语音是具有一语音是具有一定意义的声音。定意义的声音。经分析:经分析
4、:欲表达欲表达选择词、语句选择词、语句控制肌肉运动控制肌肉运动振动空气形成语音振动空气形成语音波波 与箫、唢呐比较与箫、唢呐比较精选7等效为激励源声道喇叭口精选8等效为激励源声道喇叭口 激励源:声带声带振动频率基频(基音频率)清音 声带不振动浊音 声带振动 声道:可变谐振腔 不同形状、不同音 共振(谐振)频率c为声速,L为声道长度,n为谐振频率的序号分析认为,声道的谐振频率(设截面均匀):精选9 共振峰Fn的局部最大值,称为共振峰。与声道对应,反映语音的频率特性,是语音的主要特征之一。不同人不同,同一人发不同音时也不同。第一共振峰F1第二共振峰F2第三共振峰F3精选10一般地:语音识别,取前3
5、个共振峰,而对语音合成,需取5个频率范围(Hz)成年男子成年女子带宽F120080025010004070F2600280070033005090F3130034001500400060180精选112.3语音信号的特性2.3.1 语言和语音的基本特性语言和语音的基本特性语言,特殊的声音,按一定规则排列声音的物理属性声音的物理属性 音质:基本特征 音调:频率 音强:量、响度、幅度 音长:声音的长短语音特有的属性语音特有的属性 音节:语音流的最小单位 音素:语音的最小单位,音素构成音节 感情:重音 语调 声调等精选122.3.2 语音的时间波形和频谱特性语音的时间波形和频谱特性 看一段实际语音放
6、大结论1:时间的连续函数、频率幅度随时间变化是随机的精选13 元音元音 其中一段再放大结论2:短时间短时间内近似认为不变结论3:元音是准周期函数(基频)基音周期精选14 清音清音结论4:清音为随机起伏精选152.4语音信号产生的数字模型 理想模型标准 准确但不可能,必近似、简化 简单最好用成熟的理论 线性模型线性系统语音信号脉冲序列脉冲序列 激励源,线性系统 声道喇叭口激励源 周期序列(浊音)/随机序列(清音)线性系统 短时内不变精选16 一个实用模型P16图212激励模型 声道模型 辐射模型 精选17 小结 语音的时间波形连续、随机、短时性、基频、清/浊音、共振峰 线性模型激励声道辐射精选1
7、82.4.1 激励模型激励模型根据前节分析,激励源在清、浊音时不同,分别讨论 浊音浊音有人测量知,声带振动产生斜三角型脉冲波Tp为冲激脉冲的周期,声门波模型产生单个声门脉冲将其表示为Z变换,有:冲激序列:E(z)浊音激励模型:U(z)=AVG(z)E(z)清音清音 随机白噪声精选192.4.2声道模型 声音在声道的传播涉及到许多物理定律(能量守恒、流体力学),需简化。有不同的模型。1、声管模型“短时”间声道是一个形状稳定的级联管道声音在不同截面积间传输会有反射,反射系数:km(Am+1-Am)/(Am+1+Am)Am,Am+1是第m、m+1段的截面积Km是声道的特性,确定Km,就确定了声道!A
8、1A2A3.精选202、共振峰模型根据声道近似为谐振腔的特性,有另外模型模拟其共振峰。35个(1)级联型用串联网络模拟声道。一般元音用全极点模型,转移函数:G 幅值因子Ak 模型系数P 极点个数(阶数)P、ak决定了声道地特性(人的特征),p越大越吻合。一般p=812利用Z变换的知识,把H(z)分解为多个二阶极点网络的级联:H1H2H3Hp/2精选21(2)级联型用并联网络模拟声道。大部分音用零极点模型,转移函数:级联简单,可用于一般元音,一般35级并联复杂,可用于许多音,但Ai难控制精选221)辐射+声门脉冲的作用合并在线性系统中2)时变参数:基频、开关、增益、参数3)“终端模拟”(听输出结
9、果)验证有效4)模型可能要修正2.4.3辐射模型声道输出的速度波,经口唇变成声压辐射效应研究得模型R(z)=R0(1Z-1)2.4.4完整的语音信号数字模型综上,激励声道辐射有V(z)=U(z)H(z)R(z)准周期脉冲序列发生器随机序列发生器线性时变系统基音周期系统参数清/浊音控制增益控制语音信号精选232.5语音感知研究人对声音的感知,对语音编码识别很重要MP3。对人的感知认识还有过程。研究发现:听觉(主观感觉)与声波不完全一样声音三要属(响度、音调、音色)在人听起来相互影响,且人的敏感度不同,分配不同bit。听觉掩蔽效应利用感知加权滤波器改善语音质量精选24第三章语音信号的时域分析3.1
10、概述为甚分析与怎样分析1、通过分析,进一步了解、区别语音,提取少量参数描述语音,获得基音、开关、增益等模型参数2、分析方法:模型分析LPC、共振峰等 非模型分析时域、频域、倒谱域等3、“短时分析技术”基本方法,帧,加窗4、必要时考虑时变性,用HMM本章用短时分析技术,在时域提取基频、清浊、增益精选253.2语音信号的数字化和预处理3.2.1取样率与量化字长的选择1、抽样定理抽样频率8K、16K等2、量化误差e(n)平稳、均匀分布,大小与量化间隔、编码字长(最小8bit)有关3、量化信噪比SNR与信号的峰值、量化字长有关一般分析,字长为16bit反混叠滤波器抽样量化模拟信号x(t)离散信号x(n
11、)抽样信号精选263.2.2预处理1、语音信号处理框图2、滤波器特性要求使混叠失真足够小,阻带66dB,用9阶椭圆滤波器 3、加重减小动态范围H(z)=1uz-1与滤波器同时实现,也有在AD后精选273.3短时能量分析1、“短时分析”本章一直在用。取一段的方法:加窗“分帧”帧长与帧移:取的点数为帧长,乘以采样周期得帧长时间两帧间隔为帧移两帧一定有重叠,否则有参数突变!信号x(n),窗函数w(n),加窗后为x(m)w(n-m)精选282、短时平均能量及含义根据前法,对加窗后的信号求解XX得短时XX短时平均能量:每取一个n,得到一个En。n的间隔为帧移。上式变形:H(z)X2(n)En精选293、
12、窗口选择以上分析见,加窗为一滤波器取出一部分。同前,滤波器的特性影响结果。希望直角窗1,0nN-1h(n)=0,其他海明窗(Hamming)h(n)=0.54-0.46cos2npi/(N-1),0n m=m1+n 则:()()()()()nmRkx m w nmx mk w nmk1111111()()()()mx mn w mx mnk w km11111111 0()()()()Nkmx mn w mx mnk w km 计算自相关,先乘后加,运算量大!用来求基音周期!精选363.5.2修正的短时自相关函数1、存在的问题随k的变化,参加运算的项减少。极限k=N-1时无运算项!111111
13、11 0()()()()Nkmxm nw m xm n k w k m 2、修正的短时自相关函数两个不同长度的窗w1(n)【0N-1】与w2(n)【0N-1+K-k】Kk12()()()()()nmRkxn mw m xn m k w m k 当w1,w2为直角窗时(0kK)10()()()nNmRkx nm x nmkk=250k=0精选373.5.3短时平均幅度差函数问题的提出:自相关计算量大,大在乘法!短时平均幅度差函数(AMDF)定义:121()|()()()()|nmFRkx n mw mx n m k w m k 式中R为x(n)的平均值w1、w2同修正的自相关函数中的定义对于浊音
14、信号,在周期倍数点上,幅值相等,Fn0精选38第三章小结 采样与反混叠 短时分析方法、窗口与长度选择 短时能量定义 短时过零分析 短时相关分析与修正 短时平均幅度分析(AMDF)精选39第四章语音信号的短时傅立叶分析4.1概述傅立叶重要性,时域频域,信号的某些特性短时谱:分帧处理4.2短时傅立叶变换4.2.1短时傅立叶变换的定义1、短时傅立叶变换对于第n帧语音信号,xn(m)=x(m)w(n-m)()()jnjmnmXexm e()()j mmx m w nm e 可见既是时间n的离散函数,又是角频率的连续函数()jnXe精选40讨论:()jnXe(1)n不变,记y(m)=xn(m),标准的傅
15、立叶变换(2)不变,记l=()()()jjjmnmXy m eeY e()()()jljmlnmXx m ew nme()()my mw nm 两者卷积w(n)系统y(n)信号信号经过线性系统据此:短时傅立叶变换有两层含义2、离散的短时傅立叶变换令=2k/N,在0 k N-122()()()kkjjmNNnnnmXxm eXke 精选41用傅立叶变换解释窗口与长度4.2.2标准傅立叶变换的解释n不同,得不同值。n不变,一个一般傅立叶变换()()j mmx m w nm e()()jnjmnmXexm e 短时功率谱:2()()|()|jjnnnSRkeXe 海明海明直角直角分辨率衰减共振峰精选
16、42改写短时傅立叶表达式:()()jjmmXex m e()()jjmmW ew m e()()j mjnjmw nm eeW e ()()*()jjjnjnX eX eeW e 由时域特性:因此可见,短时谱为信号谱与窗口谱的卷积,受窗影响(1)窗口形状的选择若.内为冲激函数,则Xn(.)=X(.)同谱!比较矩形与海明窗主瓣主瓣(2)窗口宽度的选择f01=1/NT,T为采样周期。N大,f01接近0,W(.)类冲激函数!但N大,短时性差,要综合考虑!精选43P44图4-2与图4-3海明比较,N=500(上)与N=50(下)比较精选444.2.3滤波器的解释()()()()*()jjmjnnmXe
17、x m ew nmx n ew n()()()jj n mnmXex nm ew m()()()jnjmjnjnmex nm w m eeXe与通信原理中的幅度调制比较()jjnnXee()()()()*()jjmjnnmXex nmw m ex nw n e精选454.3短时傅立叶变换的取样率短时谱既是时间n的函数,又是频率的函数二维即:每个n都有一个X()。为用计算机保存短时谱既要对取样,又要对n取样。1、时域取样率(对n)固定Xn(.)是w(n)的输出,设w(n)带宽为BHz,则带宽为B,时域取样率2B(点/秒)()jnXeB的确定:由的第一零点01确定,01=2/N N点对应的时间为N
18、Ts=N/fs 故模拟角频率01fs B=01fs/2=fs/N 对于直角窗()jWe()jnXe的时域取样率2B=2fs/N(直角窗)精选462、频域取样率当n固定时,Xn(.)是的周期函数。根据“傅立叶变换的离散性与周期性”(如图),3、总取样率n固定时:L=N时域取样率:2B总取样率:SR=2BL两者关系如下图,对Xn()抽样后,为了时域不重叠,取:T1NTs即LN取等共共N N点,点,T1=NTsT1=NTs共共L L点,点,fsfs=Lf1=Lf1精选474.4语音信号的短时综合由Xn()恢复x(n)的方法:滤波器组求和法/FFT求和法()()()()jjmjjnnknmXex nm
19、 wm eXee()()jjnkny nXee1、单一频率k 已知 则:()jnXe()()()()jmkkmmx nmwm ex nm hm hk(m)()jnXej ne jne()jnXe取样率:x(n)10KHzXn()也要10KHz?否!w(m)为低通,故Xn()带宽远小于X()可降低采样率综合:网络综合()kyn精选482、L个频率取样后,有L个频率点,每个频率点有一个yk(n)。根据线性系统的理论,总输出:10()()Lkkyny n可以证明y(n)=x(n)精选494.5语谱图一种分析短时谱的仪器,Xn()是时间n,频率的函数,要用三维显示。二维易显,三维?nXn早期用亮度现有
20、用图形为实时,也有仍用亮度声纹精选50第四章小结与作业第四章小结1、短时傅立叶变换定义及两层含义2、窗口形状、长度对短时谱的影响3、短时谱的取样率(n,w)4、短时综合5、语谱图精选51第五章语音信号的同态滤波及倒谱分析5.1概述从模型看,激励系统,如何从语音信号中取出激励序列、声道冲击响应?语音信号激励与声道的卷积解卷积算法:“参数解卷”线性预测分析“非参数解卷”同态滤波(同态信号处理)把求卷积 求和倒谱分析:同态分析的结果称为倒谱精选525.2同态信号处理的基本原理1、不同信号的处理方法加性信号线性关系、叠加原理,处理方法成熟乘性信号卷积信号非线性关系,不能用叠加原理,处理困难2、卷积同态
21、系统H H x x(n n)y y(n n)x x1 1(n n)*x x2 2(n n)y y1 1(n n)*y y2 2(n n)*y(n)=Hx(n)=Hx1(n)*Hx2(n)*表示离散时间卷积运算卷积同态系统模型任何同态系统可表示为三个子系统的级联D*L*D*-1*+12()()*()x nx nx n12()()()x nx nx n12()()*()y ny ny n12()()()y ny ny n特特征征系系统统线性系统逆逆特特征征系系统统精选53 特征系统D*把卷积转换为和,把非线性变为线性 逆特征系统D*1把和转换为卷积,把线性变为非线性 线性系统L*真正需要的处理算法
22、,可利用信号与系统中所学过的各种处理手段,满足叠加原理ZlnZ-1*+()x n()X z()X z()x n()x n()y nZexpZ-1+*+()y n()Y z()Y z()y n精选543、同态滤波的基本原理设有x(n)=x1(n)*x2(n)(1)D*Z-ln-Z-112()()()()Z x nX zX zX z1212ln()ln()()ln()ln()X zX zX zX zX z12()()()X zX zX z112()()()()x nZX zx nx n112()()()*()y nZY zy ny n(2)D*-1Z-exp-Z-112()()()()Z y nY
23、 zY zY z12()()()y ny ny n1212()exp()exp()()exp()exp()Y zY zY zY zY zY zY1(z)Y2(z)名称?名称?精选555.3复倒谱和倒谱1、概念()x n是x(n)经特征系统后的值,是时域序列时域序列时域序列,是信号的频谱取对数的反变换。由于与x(n)的谱间的关系,给他起名:复倒频谱Complex Cepstrum Spectrum2、DFT下的特征系统DFT运算快,一般用DFT、IDFT代替z变换(1)D*(2)D*-1()()jX eF x n()ln()jjX eX e1()()jx nFX ex(n)的频谱x(n)的对数频
24、谱x(n)的复倒谱()()jY eF y n()exp()jjY eY e1()()jy nFY e精选563、复倒谱的幅度与相位同傅立叶变换,复倒谱有幅频特性、相频特性12arg1()arg2()12()*()1()2()|()|()|jjjjjjjXeXeF x nxnXeXeXeXee12(|)|ln|()|ln|()|ln|()|jjjjXeX eX eX e12arg()arg()()jjXeXe 复数计算量大复数计算量大考虑人的听觉对相位不敏感,为减少运算量,丢掉相位4、倒谱1()ln|()|jc nFX e若c1(n)c1(n)、c2(n)c2(n)是x1(n)x1(n)、x2(
25、n)x2(n)的倒谱,且x(n)=x1(n)x(n)=x1(n)*x2(n)x2(n)有有c(n)=c1(n)+c2(n)c(n)=c1(n)+c2(n)C(n)与x(n)一对多的关系,由c(n)不可还原x(n),因丢相位精选575.4语音信号两个卷积分量复倒谱的性质从模型知,在时域语音为声门序列*声道序列。用前述方法,分析这两个序列。复倒谱求解方法5.4.1 声门激励信号0()(),Mrprprx nanrNaN浊音:式中为幅度为基音周期求x(n)的复倒谱2120000X()()1.pppMrNNNnrnraazx n za zazzaa1011()pMNrraaz101Z(1)Mmrrrr
26、rb zGp z变换中,多项式因式分解:M101()ln()lnln1()pNrrX zX zaaz(1)求z变换(2)取对数用泰勒级数展开ln()M011,(59,520()l()npkNkrkraX zazkP式精选585.4.2(3)求逆变换10()()kpkx nZX znkN 11Mkkrrak ln 式中0()()Mrprx nanrN比较:结论:声门激励信号的复倒谱是无限冲激序列,幅度变、周期不变5.4.2声道冲激响应序列01110111(1)(1)X()|(1)(1)MiMkkkkpipkkkka zb zzAc zd z模型实系数值小于值小于1 1零点、极点;园内、园外 精选
27、59求对数,展开为泰勒级数再求逆Z变换得:110011ln|()nnP im ikkkknnmPkkkkAcaxnnnbdnn(n=0)(n0)(n0)结论:(1)双边序列(2)衰减序列(3)集中在原点附近 据此,可以用低倒谱窗从x(n)的倒谱中取出声道特性的复倒谱。(分离声道、声门)推导过程见机械工业出版社赵力编的推导过程见机械工业出版社赵力编的语音信号处理语音信号处理精选605.5避免相位卷绕的算法1、什么是相位卷绕?12()()()jjjX eX eX e12()()()jjjlnX elnXelnXe12|()|()|()|jjjln X eln X eln X e12)()()对于傅
28、立叶的乘积取对数后的振幅与相位和的值可能大于2,而计算只在02间,即:)()2k 主值称为相位卷绕2、对复倒谱的影响计算时,相位与实际相位差2k,不是实际相位。误!()jXe()xn3、对策改进算法,避开相位求和相位求和!精选615.5.1微分法利用傅立叶变换的微分特性与对数微分特性,来避开相位卷绕由傅立叶变换的微分特性,若()()jx nX e则由于同理:()()jx nX e 把ln(.)代入上式可求的nx(n)避开了相位求和!缺点:nx(n)比x(n)含更多的高频成分,用x(n)的采样率会带来频谱混叠!精选626.5.2最小相位信号法设有因果序列x(n),则可分解为奇和偶:零极在Z平面单
29、位园内可见:通过xe(n)求x(n)结论:求x(n)变为求xe(n)精选631()()2()exF x nF xnFn()Re()RejF x nX e|()|()jln X eF c n()()exnc n()()ImoxF x nFn由傅立叶变换的奇偶虚实性知:精选64加窗信号傅氏幅值傅氏相位主值复倒谱倒谱声道的倒谱高通:声门低通:声道精选65声道、声门序列估计取出倒谱,经逆特征系统得到的y(n)分析得到的声道幅频分析得到的声道相频声道冲激响应估值声门序列估值清音信号的例子得共振峰基音周期X(n)复倒谱低倒谱窗复倒谱低倒谱窗 声道的复倒谱声道的复倒谱 逆特征逆特征 声道冲激声道冲激 高倒谱
30、窗高倒谱窗 声门的复倒谱声门的复倒谱 逆特征逆特征 声门序列声门序列精选66第五章小结 同态滤波作用,特征、逆特征系统 复倒谱与倒谱 声门序列、声道序列的复倒谱分析 相位卷绕与避免方法精选67第六章语音信号的线性预测分析6.1概述67年用于语音信号处理。核心技术/用于各方面/真正实用能精确地估计语音参数,效率高预测参数:LPC、PARCOR参数、LSP参数基本概念:用过去的一组值估计(预测)新值6.2线性预测分析的基本原理6.2.1基本原理全极点模型,原因P7011()piiiGazH z设输出的语音信号为s(n)激励信号为u(n),则1()()()piis nGu na s n i过去P个值
31、的加权求和预测预测语音特征:Np、G、ai这些系数如何求?精选686.2.2线性预测怎样求ai?方法多样。其中一种:1()()()piia s nic ns n若则称c(n)为误差。在最小均方误差准则下,可确定一组系数ai,称为线性预测系数(LPC)(LinearPredictiveCoefficients)6.3线性预测方程组的建立1()()piis na s ni1()piiiF za zF(z)s(n)s(n)1()()()()()piie ns ns ns na s niA(z)s(n)e(n)()1()A zF z 1、线性预测系数求解预测值预测误差()()GH zA z显然A(z)
32、称为“逆滤波器”或“预测误差滤波器”e(n)是随机序列,均方误差表示为集平均?时间平均?20eia22()enen令求出一组系数ai均方误差精选692线性预测方程按前述方法,对误差求偏倒数,并令其为0,可得方程组2221()()()()()pninnniens ns ns na s niE1()()2()()02pnininjEs n s njas nj s nia 1()()()()pinins n s njas nj s ni 线性预测的标准方程组s(1,1)(,)()()njpipj is ni s nj1(,0)(,)(1)piijaj ijp若定义则方程式为精选703线性预测增益最小
33、预测误差e(n)=s(n)s(n)。1()()()piis nGu na s n i1()()piis na s ni可见e(n)=Gu(n)式中,u(n)为声门激励序列222()()nnnEenGun方差/短时为常数可见,声道的线性预测增益nGE6.4线性预测分析的解法(一)自相关法、协方差法有了线性方程组,如何求解?方法很多,介绍几种自相关法是利用短时自相关函数,改写、求解方程1、改写方程式序列信号s(n)加窗后记为sn(k),其短时自相关函数为10(0)()()()NjnnnmjpRjs m s mj 精选71改写方程式(,)()()()(|)(|)nnnnnnmmj is m j s
34、m is ms mj iRj i 1(1)()(|)PninijpR jaRj i11(0,0)(0,)(0)()PPnininiiEaiRaR i写成矩阵形式12(0)(1)(2).(1)(1)(1)(0)(1).(2)(2).(1)(2)(3).(0)()nnnnnnnnnnpnnnnnaRRRR pRaRRRR pRaR pR pR pRR p Yule-Walker方程Toeplitz矩阵线性预测方程精选722求解该矩阵的一种常用递推算法Levinson-Durbin递推步骤:1、i0,E0=Rn(0),a1(0)=1递推次数初值2、i从1到p计算:(2)ai(i)=ki递推0次时的a
35、值(3)j从1到i-1计算aj(i)=aj(i-1)kiai-j(i-1)(4)Ei=(1-ki2)Ei-13、aj=aj(p)(1)1(1)011()iiijnjikaRjiE以一个二阶预测器为例,求aj第一步、求Rn(0),Rn(1),Rn(2)得方程(0)(1)(1)1(1)(0)(2)2nnnnnnRRRaRRRa第二步、按左示步骤递推1、i=0,a1(0)=1,E0=Rn(0)2、i=1(1)k1=Rn(1)/E0(2)a1(1)=k1(3)不执行(4)E1=(1-k12)E0a1(0)i=2(1)k2=a1(1)Rn(-1)+Rn(2)(2)a2(2)=k2(3)a1(2)=a1(
36、1)-k2a1(1)(4)E2=(1-k22)E13、a1=a1(2),a2=a2(2)精选733反射系数ki与算法稳定性出现一个重要参数ki,称为反射系数或偏相关(PARCOR)系数由(4)Ei=(1-ki2)Ei-1和E0=Rn(0)知,第P次运算后的均方误差21(0)(1)ppniiRkE算法稳定条件若|ki|A(z)=H(z)把z=ej代入得1()1jpj iiiGH ea e 同ai一样,具有短时性2、语音信号谱S(ej)由模型,冲激作用于系统,故S具有H包络22lim|()|()|jjpH eS e3、|S(ej)|2与|H(ej)|2的比较可以用LPC分析得到得H,近似表示S估计
37、精选784、p与N的选择p大,|H(ej)|精确匹配于|S(ej)|,但计算量大!选择原则:保证有足够的极点来模拟声道响应的谐振结构经验公式:p=fs/1000+2或3一般10kHz取样时,p取1214N:参加运算的样点数,一般N取23个基音周期6.6.2LPC复倒谱用LPC系数表示的语音模型中线性系统冲激响应的复倒谱设系统的冲激响应h(n),则:1()()nnH zh n z求h(n)的复倒谱:1()()()nnH zlnH zh n z两边对z-1求偏导数11111(1)()ppknkkkknkazn h nzk az比较等式两边对应项,得:111(1)()(0)0(1)()(1/)()(
38、)(1/)()pnkkpkknpnphhah nakn ah nkh nkn ah nk称为LPC复倒谱精选796.5.3LPC谱估计和其他谱分析方法的比较1、三种短时谱估计方法(1)LPC系数=H(z)=H(ej)=当p无穷大,近似为S(ej)(2)LPC复倒谱ai=h(n)=s(n)=S(ej)(3)FFT复倒谱用倒谱法,求出声道特性,估计出S(ej)2、结果比较精选806.7线谱对(LSP)分析(LineSpectrumPair)LPC分析:用s(n)的时域表示,求解H(z)。应用这种参数,可构造2.4kbps的声码器。为构造更低码率,有人从另一个角度求解H(z)LSP分析(也是线性预测
39、的一种)(68)()()()()1212()1.ppppppAza zazaz 已知(627)()(1)()111()(1)()222()(1)()0111ppppppppppppppaaaaakaaaa由L-D算法01两边同乘12,1,.,pzzz得()(1)(1)1()()()pppppAzAzk z Az精选81定义kp+1=-1时的A(p+1)(z)为P(z),kp+1=1时的A(p+1)(z)为Q(z)()(1)(1)1()()()pppppAzAzk zAz则有:()(1)()1()(1)()1()()()()()()ppppppP zAzzAzQzAzzAz1()()()2AzP
40、zQz去掉右上角的(p):有人证明:当p为偶数A(z)的零点在z平面单位圆内时,P(z)、Q(z)的零点都在单位圆上,且交替出现交替出现。1P()Qz 1iijj设的零点e,(z)的零点e,则0进一步把P(z)Q(z)进行因式分解/21121/21121()(1)(1 2cos)()(1)(1 2cos)piipiiP zzzzQ zzzz精选82 ii是频域参数,称为是频域参数,称为“Spectrum”Spectrum”;成对出现,;成对出现,称为称为“Pair”Pair”;P(z)Q(z)P(z)Q(z)由由LPCLPC分析导出,称为分析导出,称为“Line”Line”求解方法:代数方程求
41、根(牛顿迭代)、DFT法说明:1、LSP参数是LPC系数的频域表示,是LPC分析一种2、LSP用p个离散频率ii表示|H(ej)|2 3、一对LSP参数表示一个谐振点,因此一对参数的误 差只影响该对点附近的语音特性;可根据听觉特性 分配量化比特数 4、应用在低编码速率极零模型全极模型不能表示时解法:同态预测法极零-全极-LPC精选83第六章小结 LPC分析目标、原理、误差、方程 自相关求解Levison-Durbin递推算法 格型法正(反)向误差、准则 LPC复倒谱 谱估计 了解LSP分析精选84第九章语音检测分析检测语音特征基音、共振峰9.1基音检测重要性:十分重要,基音携带具有辨意作用的信
42、息困难性:1、声门激励不是完全周期的2、清音与低电平的浊音难区分3、声道共振峰的谐波在基音范围4、每个周期的开始与结束的判断5、背景噪声的影响6、基音频率范围大提取方法:精选859.1.1自相关法问题:噪声、声道的共振特性,使得语音信号在求自相关函数时出现假峰值误解决方法:中心削波法y(n)=cx(n)y(n)求其自相关精选86问题与改进由于大于门限CL保留原数值,计算时要乘以削波系数,计算复杂修正:自相关函数:选直角窗:y()只有+1、-1、0三种取值,不必作乘法!精选879.1.2并行处理法时域法,比较成功少数服从多数m1(n)取峰值m2(n)峰值减前一谷值m3(n)峰值减前一峰值m4(n
43、)取谷值m5(n)谷值减前一峰值m6(n)谷值减前一谷值精选889.1.3倒谱法(CEP)语音信号倒谱分析从倒谱中用高倒谱滤波,取出声门序列的倒谱得周期窗的选择(两周)倒谱分析峰值位置清浊判断清:不输出浊:基音受噪声干扰,易误判。一种改进用预测误差Gu(n)代替语音!声门脉冲精选899.1.4简化逆滤波法(SIFT)是自相关法,只是用Gu(n)代替语音信号s(n)。由于去除了声道干扰,效果更佳!由于5:1抽取,自相关的计算量降低。结果比较(以男声a为例)精选909.1.5基音检测的后处理基音检测每帧都要作。若有异常数据,称为“野点”,得滤除方法是,对得到的基音值进行处理,去除干扰1、中值平滑处
44、理前后各取L点(共2L+1),从大到小排序,取中点保留了跳变,但可能未滤除噪声2、线性平滑处理加权平均。例前后各一点记为x-1、x0、x1,权值0.25,0.5,0.25则当前值x=0.25*(x-1+x1)+0.5*x0 滤除了噪声,但模糊了跳变3、组合平滑处理1、2的组合,先中值后线性多种组合,满足要求精选919.2共振峰估值重要性:声道特性困难性:1、虚假共振峰(声门)2、共振峰合并(太近)3、高基音语音(影响谱估计)9.2.1带通滤波器法如何选精选929.2.2DFT对语音信号进行DFT分析,从中提出共振峰浊音时:误差大(声门),清音时:较准确9.2.3倒谱法原理:可分离声门声道序列(
45、“语音信号两个序列的复倒谱”)框图:效果:清浊不同,浊音较好缺点:运算量大对假峰无法区分峰合并无法分9.2.4LPC法LPC分析,误差=声门/ai=声道特性。共振峰即H(z)的极点;解法1、求A(z)的根(解多项式)2、LPC谱估计(在峰值处匹配得好)精选93第九章小结基音检测自相关法/改进自相关并行处理倒谱法简化逆滤波法共振峰估值带通滤波DFT倒谱法LPC法检测的后处理精选94第十章语音编码(一)波形编码10.1概述需求:通信通信目的:可接收的失真条件下,采用尽可能少的比特数表示语音可接收的失真条件下,采用尽可能少的比特数表示语音编码就是压缩!综合考虑:可懂度、数码率、计算量综合考虑:可懂度
46、、数码率、计算量应用:传输传输 移动电话、保密通信等。移动电话、保密通信等。低比特率的优势:窄带、小功率低比特率的优势:窄带、小功率(信道容量信道容量)、大容量、大容量存储存储 数字录音、电子字典等。要求实时、语音质量数字录音、电子字典等。要求实时、语音质量进展:起步早,有很多标准,热点是更低比特率起步早,有很多标准,热点是更低比特率分类:波形编码:尽可能保持波形不变波形编码:尽可能保持波形不变(不仅语音不仅语音),一般,一般1664Kps 参数编码:提取语音特征,对特载编码、传输、重构合成参数编码:提取语音特征,对特载编码、传输、重构合成 又称又称“声码器技术声码器技术”。不要求波形。不要求
47、波形评价:客观标准:客观标准:SNR (对声码器无效对声码器无效)主观标准:听后打分。主观标准:听后打分。MOS(平均意见得分平均意见得分),DRT(可懂度评价可懂度评价),DAM(判断满意度判断满意度)。精选9510.2语音信号的压缩编码原理10.2.1语音压缩的基本原理1、压缩依据客观冗余信号本身特征信号本身特征(4)(1)(1)语音信号样本间的相关性很强语音信号样本间的相关性很强(8kHz8kHz时两点相关时两点相关0.850.85)(2)(2)浊音段的准周期性浊音段的准周期性(一个周期的参数,多处用一个周期的参数,多处用)(3)(3)声道的形状及其变化比较慢声道的形状及其变化比较慢 (
48、4)(4)取值的概率分布是非均匀的取值的概率分布是非均匀的 (5)(5)静止系数静止系数(语音间隔语音间隔)主观冗余人的听觉特性人的听觉特性 听觉掩蔽特性 听不到或不灵敏的语音分量视为冗余听不到或不灵敏的语音分量视为冗余 2、极限码速 按信息论,可计算语音的平均信息量按信息论,可计算语音的平均信息量 人们认为,语音中基本元素为音素,大约不到人们认为,语音中基本元素为音素,大约不到256256个,个,等概时,按等概时,按1010音素音素/秒,秒,I=logI=log2 2(256)(256)1010=8080(bit/(bit/秒秒)精选9610.2.2语音通信中的语音质量一般分为:CD质量FM
49、广播质量AM广播质量长途电话质量通信质量合成质量质量高,采样率高,比特率高10.2.3两种压缩编码方式的优缺点波形编码:任何任何声音声音,音质好,但比特率高。,音质好,但比特率高。评价:SNR参数编码:只对只对语音语音,音质较差,算法复杂,比特率低。,音质较差,算法复杂,比特率低。评价:主观评价。主观评价。10.3 PCM及其自适应 (通信原理中讨论过,均匀通信原理中讨论过,均匀/非均匀量化,非均匀量化,APCM等等)精选9710.4预测编码及其自适应10.4.1预测编码及自适应预测编码(APC)原理1、原理据据LPCLPC,预测误差,预测误差 e(n)=s(n)-s(n)e(n)=s(n)-
50、s(n)动态范围和平均能量远远动态范围和平均能量远远小于小于s(n)s(n),同时发送,同时发送e(n)e(n)与预测系数,可得低码率语音编码,与预测系数,可得低码率语音编码,称为称为“预测编码”若预测系数若预测系数固定不变,为DPCM。若预测系数若预测系数随语音而变,称为称为自适应预测编码自适应预测编码(APC)。2、自适应能改善信噪比量化噪声:22()()E s nSNRE q n22222222()()()()()()()()E s nEe nE s nEe nE q nEe nEe nE q n能量预测增益量化器量化器定的信定的信噪比噪比x(n)y(n)e(n)Es,Eq,Ee是信号、
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。