语音技术概述公开课课件.ppt

上传人(卖家):晟晟文业 文档编号:4853051 上传时间:2023-01-18 格式:PPT 页数:97 大小:3.36MB
下载 相关 举报
语音技术概述公开课课件.ppt_第1页
第1页 / 共97页
语音技术概述公开课课件.ppt_第2页
第2页 / 共97页
语音技术概述公开课课件.ppt_第3页
第3页 / 共97页
语音技术概述公开课课件.ppt_第4页
第4页 / 共97页
语音技术概述公开课课件.ppt_第5页
第5页 / 共97页
点击查看更多>>
资源描述

1、1.1.1 语音和语言语音和语言 第章第章 语音信号短时分析技术语音信号短时分析技术 构成人类语音的是声音,由人讲话所发出的声音,对构成人类语音的是声音,由人讲话所发出的声音,对语音中音的分类和研究称为语音学。语音中音的分类和研究称为语音学。1、言语的过程和作用、言语的过程和作用想说阶段大脑中枢活动说出阶段发音器官的活动传送阶段传送信息的物理过程起作用接收阶段听觉系统活动理解阶段大脑中枢活动22、一些基本概念、一些基本概念 音素(phoneme):语音的最小单位,由音素构成音节。音节(Syllable):说话时一次发出的,具有一个响亮的中心,并被明显感觉的语音片断。音素和音节3辅音和元音音素分

2、为两类:辅音(Consonant)和元音(Vowel)元音:声带振动产生一个准周期的空气脉冲,如 i、u、a、o、e等。辅音:呼出的气流,由于通路中某一部分封闭起来或受阻,气流不通畅所产生的声音,如b、p、m、f、d、t、n、l等。4辅音和元音的区别有四点:辅音和元音的区别有四点:1、辅音发音时,气流在通过咽头、口腔的过程中,要受到某部位的阻碍;元音发音时,气流在咽头、口腔不受阻碍。这是元音和辅音最主要的区别。2、辅音发音时,发音器官成阻的部位特别紧张;元音发音时发音器官各部位保持均衡的紧张状态。3、辅音发音时,气流较强;元音发音时,气流较弱。4、辅音发音时,声带不一定振动,声音一般不响亮;元

3、音发音时,声带振动,声音比辅音响亮。5半元音:声道基本通畅,但某处比较狭窄,引起轻微摩擦。W、Y元音构成音节的主干,辅音只出现在音节前端或前后两端。元音的共振峰特性:声道被看成具有均匀截面积的声管,发音时起共鸣器的作用。元音激励进入声道时引起共振特性,产生一组共振频率,即共振峰。6清音和浊音清音:声带不振动浊音:声带振动而发音元音都是浊音、辅音有清音也有浊音。73、汉语的声调:、汉语的声调:浊音的声带振动基频称为基音频率。无论在说一个单音节或说一段连续语音时,各个音节中韵母段的都是随时间变化的,基音频率的不同轨迹称为声调。几乎平均于横轴、平均值高从较低一直上升到较高频率先降后升从较高频率降到较

4、低频率84、语音信号的时域波形、语音信号的时域波形开始/ai/k/时变特性时变特性有些段落周有些段落周期性,有些期性,有些段落具有噪段落具有噪声特性,短声特性,短时平稳性时平稳性9Do you like it?Vs Did you like it?Waveform 10.2 语音产生的过程及声学特征语音产生的过程及声学特征 语音产生的过程语音产生的过程 食道 环状软骨 声带 喉管 会咽 舌根 小舌 口腔 软腭 鼻咽 硬腭 鼻腔 气管 甲状软骨 舌骨 下颚骨 下唇 牙齿 上唇 齿龈 鼻 喉以上的部分称为声道,随着发出声音的不同其形状是变化的;而喉的部分称为声门。11q声带(Vocal Cords

5、)1014mm在喉部的从喉结到杓状软骨之间的韧带褶。q声门(Glottis)两个声带之间形成一个开闭自如的声门,声带合拢因而受声门下气流的冲击而张开;但由于声带韧性迅速地闭合,随后又张开而闭合,声带开启和闭合使气流形成一系列脉冲。声门每开启和闭合一次的时间即振动周期称为音调周期或基音周期,其倒数称为基音频率,也简称为基频。基音的范围约为70350 Hz左右。12q声道(vocal tract)17cm 由咽腔、口腔和鼻腔三个空气腔体组成。声道是一个分布参数系统,它有许多自然谐振频率(在这些频率上其传递函数具有极大值),所以声道是一谐振腔,它放大某一频率而衰减其他频率分量。谐振频率由每一瞬间的声

6、道外形决定。如果声道的截面是均匀的,谐振频率将发生在.)3,2,1(4)12(nLcnFn13听觉系统:听觉系统:q 声波经过外耳的放大后,经过鼓膜和听小骨将声波转化为机械振动,传入内耳。2.3 2.3 语语 音音 感感 知知 由外耳、中耳、内耳组成人耳的作用:1、声音放大;2、声音传导;3、声源定位 14正常人的听域与听阈:听觉感知特性:听觉感知特性:正常人的听觉系统是极为灵敏的,人耳所能感觉的最低声压接近空气中分子热运动所产生的声压。正常人可听声音的频率范围为0.016-16kHz,年轻人可听到20kHz的声音,而老年人可听到的高频声音要减少到10kHz左右。正常人可听声音的强度范围为0-

7、120dBSPL(声压级),这里的基准声压(0dB SPL)是 或 。-16210W cm20Pa15纯音听阈是与频率有关的量,在1000Hz时约为4dB左右,而在40Hz时上升为50dB左右,在15kHz时上升为24dB左右。感觉阈代表可容忍的最高声压。在声压级高到一定程度时,耳朵会出现不适感觉,或者具有痒、压迫及痛感。对正常人而言一般取120dB为不适阂,140dB为痛阐,且认为它与频率无关。16q 响度(Londness)-方(phon)是一种主观心理量,主观感觉到的声音强弱的一种衡量标准,它与频率有关。一样的音强,不一样的频率,则响度也会有所不同。0dB声强级的1000Hz纯音的响度级

8、为0phon;ndB声强级的1000Hz纯音的响度级为nphon;172、计算方法简单。依据:小波系数可以反映语音信号在各个子带内沿时间轴的能量分布,通过处理又可以捕捉到语音段的边界,因此可以利用小波变换来对语音信号进行端点检测,以达到区分语音段和非语音段的目的。ndB声强级的1000Hz纯音的响度级为nphon;元音激励进入声道时引起共振特性,产生一组共振频率,即共振峰。传统端点检测算法认为,如果环境噪声和系统环境噪声比较小,能够保证系统的信噪比较高,那么只要计算输入信号的短时能量或短时平均幅度就能把语音段和噪声背景区分开。准则:要寻求一种可以表达一定物理状态下的数学关系,要使这种关系不仅具

9、有最大的精确度,而且还要最简单。如果很大,它等效于很窄的低通滤波器,此时随时间的变化很小,不能反映语音信号的幅度变化,信号的变化细节就看不出来;声门每开启和闭合一次的时间即振动周期称为音调周期或基音周期,其倒数称为基音频率,也简称为基频。原因:语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz以上按6dB倍频程跌落。语谱仪:将语音信号(经话筒变成了电信号)送进一排频率依次相接的窄带滤波器,各窄带滤波器的输出记录在一卷按一定速度旋转的记录纸上(各滤波器的由低到高按频率排列),信号强则记录得浓黑一些,反之则浅谈一些。缺点:浊音和清音的区分不如En明显。这里窗长的选择对于反映语音

10、信号的幅度变化起着决定的作用。也可在AD变换之后进行,用具有6dB倍频程的提升高频特性的预加重数字滤波器实现,它一般是一阶的。复倒谱和倒谱的特点和关系:谐振频率由每一瞬间的声道外形决定。把声道视作截面积变化的管子,研究声音沿管道是怎样传播的。语音信号具有时变特性,而在一个短时间范围内其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程。依据:小波系数可以反映语音信号在各个子带内沿时间轴的能量分布,通过处理又可以捕捉到语音段的边界,因此可以利用小波变换来对语音信号进行端点检测,以达到区分语音段和非语音段的目的。同时掩蔽:同时存在的一个弱信号和一个强信号频率接近时,强信号会提高弱信号的听

11、阈,当弱信号的听阈升高到一定程度会导致弱信号不可闻。同态处理(同态滤波):解卷,将卷积关系变为求和处理。听觉掩蔽效应听觉掩蔽效应q掩蔽效应:一种声音的听觉感受受到同时听到的另一种声音的影响。分:同时掩蔽和短时掩蔽 18同时掩蔽:同时存在的一个弱信号和一个强信号频率接近时,同时掩蔽:同时存在的一个弱信号和一个强信号频率接近时,强信号会提高弱信号的听阈,当弱信号的听阈升高到一定程度强信号会提高弱信号的听阈,当弱信号的听阈升高到一定程度会导致弱信号不可闻。会导致弱信号不可闻。短时掩蔽:当短时掩蔽:当A A声和声和B B声不同时出现时。声不同时出现时。后向掩蔽:掩蔽声后向掩蔽:掩蔽声B B消失后,其作

12、用仍持续一段时间:消失后,其作用仍持续一段时间:0.50.52s2s前向掩蔽:被掩蔽音前向掩蔽:被掩蔽音A A出现后,相隔出现后,相隔0.0050.0050.2s0.2s之内出现掩蔽之内出现掩蔽音音B B,也会对,也会对A A起作用。起作用。192.4 2.4 语音信号的数学模型语音信号的数学模型 准则:要寻求一种可以表达一定物理状态下的数学关系,准则:要寻求一种可以表达一定物理状态下的数学关系,要使这种关系不仅具有最大的精确度,而且还要最简单。要使这种关系不仅具有最大的精确度,而且还要最简单。期望:模型既是线性的又是时不变的,这是最理想的模期望:模型既是线性的又是时不变的,这是最理想的模型。

13、型。语音信号特征:一连串的时变过程;声门和声道相互耦语音信号特征:一连串的时变过程;声门和声道相互耦合,还形成语音信号的非线性特性。合,还形成语音信号的非线性特性。合理假设:在较短的时间间隔内表示语音信号时,采用合理假设:在较短的时间间隔内表示语音信号时,采用线性时不变模型。线性时不变模型。20 肌力 肺 咽腔 声带 声门 软上腭和小舌 口腔 鼻腔 鼻音 口音 发音器官的机理模型:发音器官的机理模型:21冲激序列发生器随机噪声发生器 声门波模型声道模型 信号辐射模型TvANA浊/清开关音调周期振幅振幅声道参数语音信号语音信号的产生模型 22(1)发浊音时。此时气流通过绷紧的声带,冲激声带产生振

14、动,使声门处形成准周期性的脉冲串,并用它去激励声道。声带绷紧的程度不同,振动频率也不同。该频率就是音调频率,其倒数为音调周期。(2)发清音时。此时声带松弛而不振动,气流通过声门直接进入声道。表示为均值为0、方差为1,并在时间或在幅度上为白色分布的序列。1、激励模型、激励模型23罗森贝格(Rosenberg)在研究中发现,如果在发浊音时声门脉冲取如图所示的形状,可以获得比较好的合成语音效果。发浊音时的声门脉冲发浊音时的声门脉冲 其它0,2/cos0,/cos1212112111NNnNNNnNnNnng24 把声道视作截面积变化的管子,研究声音沿管道是怎样传播的。2 2、声道模型、声道模型(一)

15、声管模型(一)声管模型25管道内声波的运动方程:其中,为在 点 时刻的声压 为在 点 时刻的体积速度 为空气密度 为声速 为管道截面积pttxpCAxtxuttxuAxtxp,2pxtuxtcA26每个管子可看作为一个四端网络,这个网络具有反射系数,声每个管子可看作为一个四端网络,这个网络具有反射系数,声道可由一组截面积或一组反射系数来表示。道可由一组截面积或一组反射系数来表示。通常用通常用A A表示声管的截面积。由于语音的短时平稳性,假表示声管的截面积。由于语音的短时平稳性,假设在短时间内,各段管子的截面积且是常数。设第设在短时间内,各段管子的截面积且是常数。设第m m段和第段和第m+1m+

16、1段的声管的截面积分别为段的声管的截面积分别为Am、Am+1,设,设称为称为“面积和差比面积和差比”,其取值范围为,其取值范围为-1km1。它实际上是线。它实际上是线性预测的反射系数。性预测的反射系数。)()(11mmmmmAAAAk27决定短时能量特性有两个条件:不同的窗口的形状和长度。如果很大,它等效于很窄的低通滤波器,此时随时间的变化很小,不能反映语音信号的幅度变化,信号的变化细节就看不出来;是一个时域序列,我们 称是x(n)的“复倒频谱”,简称为“复倒谱”,有时也称作对数复倒谱。采用示波器等通用设备,使用较为简单。窗长越长,频率分辨率越高,而时间分辨率越低第章 语音信号短时分析技术2、

17、抑制50Hz工频干扰。所处的离散时域,称之为“复倒谱域”。实现起来比较简单、运算量少。几乎平均于横轴、平均值高短时掩蔽:当A声和B声不同时出现时。辅音:呼出的气流,由于通路中某一部分封闭起来或受阻,气流不通畅所产生的声音,如b、p、m、f、d、t、n、l等。对于爆破音的寂静段,应将其纳入语音的范围而不是无声段;由咽腔、口腔和鼻腔三个空气腔体组成。上图给出了相同条件下一段加窗语音的时域波形及其倒谱。一样的音强,不一样的频率,则响度也会有所不同。同态信号处理的基本原理反特征系统 D*-1:它是特征系统的反运算实验室背景下基于能量和过零率的端点检测结果已知一个实序列的复倒谱,可以求其倒谱。q共振峰与

18、舌位关系舌位高低决定了F1共振频率。舌位越高,F1 的频率越低,反则反之。舌位前后决定了F2共振频率舌位越后,F2 的频率越低,反则反之。(二)共振峰模型(二)共振峰模型声道被视为谐振腔,共振峰是腔体的谐振频率281)级联共振峰模型(适合于一般元音)1()1PkkkGH za z分解:2121()1PkkkkaH zb zc z10P 292)并联型(非一般元音和大多数辅音)01()1RrrrPkkkb zH za z2121()1PkkkkPRAH zB zC z303、混合型(结合级联型和并联型):幅度控制因子AB专为一些频谱特性比较平坦的音素,如f,p,b所考虑的。31 声道的终端为口和

19、唇。从声道输出的是速度波,而语音声道的终端为口和唇。从声道输出的是速度波,而语音信号是声压波,二者之倒比称为辐射阻抗信号是声压波,二者之倒比称为辐射阻抗ZL。它表征口和唇。它表征口和唇的辐射效应,也包括圆形的头部的绕射效应等。的辐射效应,也包括圆形的头部的绕射效应等。口唇的辐射效应可表示为:口唇的辐射效应可表示为:,它是一阶后,它是一阶后向差分。辐射模型向差分。辐射模型R(z)是一阶类高通滤波器的形式。是一阶类高通滤波器的形式。)1()(10zRzR3 3、辐、辐 射射 模模 型型32 完整的语音信号数字模型可以用三个子模型:激励模型、完整的语音信号数字模型可以用三个子模型:激励模型、声道模型

20、和辐射模型的串联来表示。其转移函数为:声道模型和辐射模型的串联来表示。其转移函数为:H(z)=U(z)V(z)R(z)这里,这里,U(z)是激励信号是激励信号声门脉冲即斜三角波的形式声门脉冲即斜三角波的形式;V(z)是声道传递函数,既可以用声管模型,也可以用共振是声道传递函数,既可以用声管模型,也可以用共振峰模型来描述。在共振峰模型中,又可采用级联型、并联型峰模型来描述。在共振峰模型中,又可采用级联型、并联型或混合型等几种形式;或混合型等几种形式;R(z)为辐射模型。为辐射模型。4 4、完整的模型完整的模型 33 声门脉冲 声道 语音信号 激励信号 声道滤波器 语音信号 频谱 传递函数 频谱

21、韵母的产生过程342.5 2.5 语音的质量评估语音的质量评估 一类是音节以下一类是音节以下(如音素、声母、韵母如音素、声母、韵母)的语音单元的的语音单元的测试,这常称为测试,这常称为“清晰度清晰度”测试;清晰度测试可以测试;清晰度测试可以元音、辅音为基础或以声母、韵母为基础,再根据元音、辅音为基础或以声母、韵母为基础,再根据音节成分算出音节清晰度。音节成分算出音节清晰度。一类是音节以上一类是音节以上(如词、句如词、句)的语音单元的测试,常称的语音单元的测试,常称为为“可懂度可懂度”测试。测试。语音质量测试可分为两类:语音质量测试可分为两类:352.6 2.6 语音信号的时频特性分析语音信号的

22、时频特性分析汉语拼音“Sou Ke”的时域波形采样率8kHz3637同时其振幅随着k值的增大而衰减。定义:过零就是信号通过零值。1)先将语音信号分成由1024个采样点组成的帧;反特征系统 D*-1:其中,为在 点 时刻的声压若时域中有 ,则复倒谱域中 。短时掩蔽:当A声和B声不同时出现时。随|n|增大而衰减的速度至少比1|n|快,声门(Glottis)3 语 音 感 知已知一个实序列的复倒谱,可以求其倒谱。4 语音信号的数学模型元音:声带振动产生一个准周期的空气脉冲,如 i、u、a、o、e等。语音信号特征:一连串的时变过程;反之,窗长太小时,滤波器的通带变宽,随时间有急剧的变化,不能得到平滑的

23、能量函数。10 语音信号的倒谱分析应该尽量避免在检测中丢失鼻韵和弱摩擦音等与噪声特性相似、短时参数较少的语音;在背景噪声较小时用平均能量识别较为有效,而在背景噪声较大时用平均过零数识别较为有效。这段语音用海明窗加权,基音周期为Np=45。实验室背景下基于能量和过零率的端点检测结果382.7 2.7 语音信号的语谱图语音信号的语谱图语谱仪:将语音信号(经话筒变成了电信号)送进一排频率依次相接的窄带滤波器,各窄带滤波器的输出记录在一卷按一定速度旋转的记录纸上(各滤波器的由低到高按频率排列),信号强则记录得浓黑一些,反之则浅谈一些。由此得到的即是语音信号的语谱图,此图的水平方向是时间轴,垂直方向是频

24、率轴,固上或深或浅的黑色条纹表征各个时刻的短时谱。39 自然语音a波形图 自然语音a语谱图 自然语音o波形图 自然语音o语谱图40 语音处理的根本方法语音处理的根本方法短时分析技术短时分析技术 语音信号具有时变特性,而在一个短时间范围内其特性语音信号具有时变特性,而在一个短时间范围内其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程。语音的重要特性是它具有过程。语音的重要特性是它具有“短时性短时性”,所以对语音的,所以对语音的分析和处理必须建立在分析和处理必须建立在“短时短时”的基础上,即进行的基础上,即进行“短时分短时分析析”,

25、2.8 2.8 语音信号的数字化与预处理语音信号的数字化与预处理语音信号处理系统框图41数字化:放大、增益控制、反混叠滤波、采样、A/D变换及编码预处理:预加重、加窗、分帧、端点检测表示语音信号比较直观、物理意义明确。表示语音信号比较直观、物理意义明确。实现起来比较简单、运算量少。实现起来比较简单、运算量少。可以得到语音的一些重要参数。可以得到语音的一些重要参数。采用示波器等通用设备,使用较为简单。采用示波器等通用设备,使用较为简单。l时域分析的特点时域分析的特点:421、预滤波、采样、A/D变换目的:1、抑制输入信号各频域分量中频率超出fs/2的所有分量,以防止混叠干扰;2、抑制50Hz工频

26、干扰。实现:带通滤波器,上下边带截止频率分别为 、LfHf60 1003400LHfHzfHz43采样采样根据取样定理,当取样频率大于信号的两倍带宽时,取样过程中根据取样定理,当取样频率大于信号的两倍带宽时,取样过程中不会丢失信息,且从取样信号中可以精确地重构原始信号波形。不会丢失信息,且从取样信号中可以精确地重构原始信号波形。在信号的带宽不明确时,在取样前应接入反混叠滤波器,使其带在信号的带宽不明确时,在取样前应接入反混叠滤波器,使其带宽限制在某个范围内。宽限制在某个范围内。语音信号频率范围:语音信号频率范围:3003400Hz采样率:采样率:8kHz10kHz44量化量化:将输入的整个幅值

27、分成有限区间,把落入同一区间的波形样本都量化成同一幅度值。45量化后的信号值与原信号之间的差值称为量化误差,又称为量化噪声。若信号波形的变化足够大或量化间隔足够小时,可以证明量化噪声符合具有下列特性的统计模型:它是一个平稳的白噪声过程;量化噪声和输入信号不相关;量化噪声在量化间隔内均匀分布,即具有等概率密度分布。462、预处理预加重:原因:语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz以上按6dB倍频程跌落。目的:提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。位置:可在反混叠滤波之前进行,这样不仅能够进行预加重,而且可以压缩信号的动态范围,有效地

28、提高信噪比。也可在AD变换之后进行,用具有6dB倍频程的提升高频特性的预加重数字滤波器实现,它一般是一阶的。式 中 值接近于1。11)(zzH47浊语音的倒谱和复倒谱实例能够将短时冲激噪声和超过门限值的信号纳入无声段而不是有声段;第章 语音信号短时分析技术5)通过帧间平滑连接所有互相关系数成为一个和原信号长度相同的序列;在共振峰模型中,又可采用级联型、并联型或混合型等几种形式;一个较好的端点检测算法应该能够满足:3 语 音 感 知1)先将语音信号分成由1024个采样点组成的帧;窗长越长,频率分辨率越高,而时间分辨率越低一样的音强,不一样的频率,则响度也会有所不同。管道内声波的运动方程:位置:可

29、在反混叠滤波之前进行,这样不仅能够进行预加重,而且可以压缩信号的动态范围,有效地提高信噪比。同态信号处理的基本原理谐振频率由每一瞬间的声道外形决定。有些段落周期性,有些段落具有噪声特性,短时平稳性准则:要寻求一种可以表达一定物理状态下的数学关系,要使这种关系不仅具有最大的精确度,而且还要最简单。针对白噪声和汽车噪声环境对数字09的语音数据进行实验,用来做测试的语音文件每组50个,包括男生和女生发音,含有汽车噪声的语音信号平均信噪比10dB和5dB,分别模拟汽车中速和高速行驶环境下的录音。反特征系统 D*-1:它是特征系统的反运算准则:要寻求一种可以表达一定物理状态下的数学关系,要使这种关系不仅

30、具有最大的精确度,而且还要最简单。舌位越高,F1 的频率越低,反则反之。加窗分帧:语音信号是一种典型的非平稳信号,其特性是随时间而变化的,但是语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来说要缓慢得多,因此语音信号常常可假定为短时平稳的,即在1030ms的时间段内,其频谱特性和物理特征参量可近似地看作是不变的,这样,就可以采用平稳过程的分析处理方法来处理了。由这个假定导出了各种“短时”处理方法,以后讨论的各种语音信号都是分隔为一些短段(帧)再加以处理。这些短段就好像是来自一个具有固定特性的持续语音片段一样。48将语音分成短段的基本手段是对语音加窗,即用一个有限长度的

31、窗序列截取一段语音信号来进行分析。该窗函数可以按时间方向滑动,以便分析任一时刻附近的信号。加窗运算定义为:()()()wmsns m s nm49帧长和帧移的示例50 矩形窗:汉明窗:汉宁窗:01nNw n1()=0其它0.540.46cos(2(1)01()0n NnNw n其它0.51 cos(2(1)01()0n NnNw n其它51端点检测:端点检测是指从包含语音的一段信号中确定出语音的开始和终止点。有效的端点检测不仅能使处理时间减到最小,而且能去除无声段的噪声干扰,从而使识别系统具有良好的识别性能。一个较好的端点检测算法应该能够满足:门限值可以对背景噪声的变化有一定的适应;能够将短时

32、冲激噪声和超过门限值的信号纳入无声段而不是有声段;对于爆破音的寂静段,应将其纳入语音的范围而不是无声段;应该尽量避免在检测中丢失鼻韵和弱摩擦音等与噪声特性相似、短时参数较少的语音;应该避免使用过零率作为判决标准,以免带来负面影响。52传统的端点检测算法1.基于能量的端点检测语音和噪音的主要区别在它们的能量上,语音段的能量比噪音段的大,语音段的能量是噪音段能量叠加语音声波能量的和。传统端点检测算法认为,如果环境噪声和系统环境噪声比较小,能够保证系统的信噪比较高,那么只要计算输入信号的短时能量或短时平均幅度就能把语音段和噪声背景区分开。实际中信噪比较低。532.双门限前端检测法利用短时过零率来检测

33、清音,用短时能量来检测浊音。双门限法是考虑到语音开始以后总会出现能量较大的浊音,设一个较高的门限用以确定语音已开始,再取一比稍低的门限,用以确定真正的起止点及结束点。判断清音与无话的差别,是采用另一个较低的门限,求越过该门限的“过零率”。只要取得合适,通常背景噪声的低门限过零率将明显低于语音的低门限过零率值。这种方法普遍地用于有话、无话鉴别或词语前端检测。543.基于噪声动态检测的语音端点检测算法预处理提取语音计算语音信号短时能量和带门限短时过零率计算门限值输入语音背景噪声有效语音55仿真实验及结果分析图图1“1“制约制约”在零噪声时的在零噪声时的检测结果检测结果图图2“2“”在加入少量噪声时

34、在加入少量噪声时的检测结果的检测结果图图3“3“”在噪声加大时在噪声加大时的检测结果的检测结果 图图4“4“”在噪声进一步加大时在噪声进一步加大时的检测结果的检测结果564.基于小波变换的语音端点检测算法依据:小波系数可以反映语音信号在各个子带内沿时间轴的能量分布,通过处理又可以捕捉到语音段的边界,因此可以利用小波变换来对语音信号进行端点检测,以达到区分语音段和非语音段的目的。57窗长为15ms,fs=10kHz,因此共包括150个语音样点。一样的音强,不一样的频率,则响度也会有所不同。利用它可以从背景噪声中找出语音信号,可用于判断寂静无语音和有语音的起点和终点位置。原因:语音信号的平均功率谱

35、受声门激励和口鼻辐射的影响,高频端大约在800Hz以上按6dB倍频程跌落。谐振频率由每一瞬间的声道外形决定。一类是音节以上(如词、句)的语音单元的测试,常称为“可懂度”测试。在声压级高到一定程度时,耳朵会出现不适感觉,或者具有痒、压迫及痛感。声门和声道相互耦合,还形成语音信号的非线性特性。元音都是浊音、辅音有清音也有浊音。图(a)是一个海明窗乘过的清音语音段,图(b)为相应的倒谱。采用示波器等通用设备,使用较为简单。窗长越长,频率分辨率越高,而时间分辨率越低N=51的直角窗和海明窗的对数幅频特性。噪声情况下各种语音端点检测方法比较原因:语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约

36、在800Hz以上按6dB倍频程跌落。实验室背景下基于能量和过零率的端点检测结果窗长越长,频率分辨率越高,而时间分辨率越低这种方法普遍地用于有话、无话鉴别或词语前端检测。2、抑制50Hz工频干扰。3、声源定位步骤:1)先将语音信号分成由1024个采样点组成的帧;2)对每帧进行10层小波分解;3)计算所选两个子带(子带4和子带5)的小波系数;4)计算两个子带的互相关系数;5)通过帧间平滑连接所有互相关系数成为一个和原信号长度相同的序列;6)计算序列前220个点(20ms)的最大值,把此最大值作为阈值;7)比较序列中各个点的值。若小于阈值,则记为静音;若大于阈值,则记为语音;8)按照上述过程对语音信

37、号进行标记,再滤掉个别误判点,完成语音信号的端点检测。585.基于循环神经网络的语音端点检测算法 原理:选用一个三层的RNN,且隐层的输出全部反馈到输入层。输入的采样语音信号被分成三种模式:浊音(U)、清音(V)、和背景噪声(N)。选用的RNN神经网络输出层有三个节点,对应输出的三种模式。59循环神经网络的结构 603)仿真实验与结果分析 针对白噪声和汽车噪声环境对数字09的语音数据进行实验,用来做测试的语音文件每组50个,包括男生和女生发音,含有汽车噪声的语音信号平均信噪比10dB和5dB,分别模拟汽车中速和高速行驶环境下的录音。61实验室背景下基于能量和过零率的端点检测结果 62信噪比15

38、dB时基于能量和过零率的检测结果 63信噪比15dB时基于小波变换的端点检测结果 64信噪比5dB时基于小波变换的端点检测结果65信噪比5dB时基于循环神经网络小波变换的端点检测结果 66()p A S()p B N()p A()p A S()p B N()p A()p A S()p B N()p A方法 测度白噪声/dB汽车噪声/dB0515510Energy0.620.750.800.720.780.530.610.780.590.690.590.720.780.680.75Wavelet0.850.900.990.870.900.700.820.980.770.800.810.880.9

39、90.840.87RNN0.900.951.000.910.920.750.880.980.820.850.860.920.990.880.92噪声情况下各种语音端点检测方法比较67 基于能量和过零率的端点检测方法在实验室环境下可以获得较好的端点检测结果,随着信噪比的降低该方法检测的准确率将随之下降,基于小波变换和基于循环神经网络的端点检测方法对于噪声具有一定的鲁棒性,但是随着噪声的明显增大,小波变换的方法得到的检测结果仍然有所下降,与之相比基于循环神经网络的方法的鲁棒性要优于基于小波变换的方法,具有很大的优越性和实用性。结果分析:结果分析:682.8 短时能量和平均幅度分析短时能量和平均幅度

40、分析 原理:语音信号能量随时间有相当大的变化,特别是清音段原理:语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多。的能量一般比浊音段的小得多。定义定义:1、短时能量分析、短时能量分析mmnnhnxmnhmxmnwmxE)()()()()()(222)()(2nwnh69决定短时能量特性有两个条件:不同的窗口的决定短时能量特性有两个条件:不同的窗口的形状形状和和长度长度。矩形窗:01nNw n1()=0其它1(1)20sin(2)()sin(2)Nj Tj nTj T NnN TW eeeT第一个零点:011ssffNNT窗口形状:q窗长对分辨率的影响窗长越长,频率分辨率

41、越高,而时间分辨率越低70海明窗:0.540.46cos(2(1)01()0n NnNw n其它第一个零点:0122ssffNNT矩形窗谱平滑性能好,但损失高频成分,波形细节丢失,海明窗与之相反。71N=51的直角窗的直角窗和海明窗的对和海明窗的对数幅频特性。数幅频特性。海明窗的第一海明窗的第一个零值频率位个零值频率位置比直角窗要置比直角窗要大大1倍左右,同倍左右,同时其带外衰减时其带外衰减也比直角窗大也比直角窗大得多。得多。72这里窗长的选择对于反映语音信号的幅度变化起着决定的作用。如果很大,它等效于很窄的低通滤波器,此时随时间的变化很小,不能反映语音信号的幅度变化,信号的变化细节就看不出来

42、;反之,窗长太小时,滤波器的通带变宽,随时间有急剧的变化,不能得到平滑的能量函数。窗口的长度:标准:一帧内含有标准:一帧内含有17个基音周期,个基音周期,10kHz取样下,取样下,N取取100200点。点。732、短时平均幅度分析、短时平均幅度分析 定义:定义:框图:框图:优点:优点:1、对高电平信号不如、对高电平信号不如En敏感;敏感;2、计算方法简单。、计算方法简单。缺点:浊音和清音的区分不如缺点:浊音和清音的区分不如En明显。明显。mnmnwmxM)()(74短时平均能量和短时平均幅度的主要用途:短时平均能量和短时平均幅度的主要用途:可以区分清音段与浊音段:可以区分清音段与浊音段:En值

43、大的对应于浊值大的对应于浊音段,而音段,而En值小的对应于清音段。值小的对应于清音段。En值的变化,值的变化,可大致判定浊音变为清音或清音变为浊音的时可大致判定浊音变为清音或清音变为浊音的时刻。刻。可以用来区分声母与韵母的分界,无声与有声可以用来区分声母与韵母的分界,无声与有声的分界,连字的分界,连字(指字之间无间隙指字之间无间隙)的分界等。的分界等。作为一种超音段信息,用于语音识别中。作为一种超音段信息,用于语音识别中。752.9 短时过零分析短时过零分析 定义:过零就是信号通过零值。定义:过零就是信号通过零值。连续语音信号,考察其时域波形通过时间轴的情连续语音信号,考察其时域波形通过时间轴

44、的情况;况;离散时间信号,相邻的取样值改变符号则称为过离散时间信号,相邻的取样值改变符号则称为过零。零。语音信号序列是宽带信号,语音信号序列是宽带信号,则不能简单用上面的则不能简单用上面的公式。公式。76语音信号短时过零分析语音信号短时过零分析 定义:定义:)()1(sgn)(sgn )()1(sgn)(sgnnwmxmxmnwmxmxZwwmn0)(10)(1)(sgnnxnxnx其它10 02/1)(NnNnw其中:框图:77此时气流通过绷紧的声带,冲激声带产生振动,使声门处形成准周期性的脉冲串,并用它去激励声道。门限值可以对背景噪声的变化有一定的适应;能够将短时冲激噪声和超过门限值的信号

45、纳入无声段而不是有声段;若大于阈值,则记为语音;缺点:浊音和清音的区分不如En明显。从较高频率降到较低频率窗长为15ms,fs=10kHz,因此共包括150个语音样点。这段语音用海明窗加权,基音周期为Np=45。基于能量和过零率的端点检测方法在实验室环境下可以获得较好的端点检测结果,随着信噪比的降低该方法检测的准确率将随之下降,基于小波变换和基于循环神经网络的端点检测方法对于噪声具有一定的鲁棒性,但是随着噪声的明显增大,小波变换的方法得到的检测结果仍然有所下降,与之相比基于循环神经网络的方法的鲁棒性要优于基于小波变换的方法,具有很大的优越性和实用性。量化噪声在量化间隔内均匀分布,即具有等概率密

46、度分布。图(a)是一个海明窗乘过的清音语音段,图(b)为相应的倒谱。此时声带松弛而不振动,气流通过声门直接进入声道。依据:小波系数可以反映语音信号在各个子带内沿时间轴的能量分布,通过处理又可以捕捉到语音段的边界,因此可以利用小波变换来对语音信号进行端点检测,以达到区分语音段和非语音段的目的。元音:声带振动产生一个准周期的空气脉冲,如 i、u、a、o、e等。10 语音信号的倒谱分析实现起来比较简单、运算量少。由于语音的短时平稳性,假设在短时间内,各段管子的截面积且是常数。语音处理的根本方法短时分析技术若信号波形的变化足够大或量化间隔足够小时,可以证明量化噪声符合具有下列特性的统计模型:10 语音

47、信号的倒谱分析短时过零分析的意义:短时过零分析的意义:可以区分清音与浊音:浊音时具有较低的平均过零数,可以区分清音与浊音:浊音时具有较低的平均过零数,而清音时具有较高的平均过零数。而清音时具有较高的平均过零数。利用它可以从背景噪声中找出语音信号,可用于判断寂利用它可以从背景噪声中找出语音信号,可用于判断寂静无语音和有语音的起点和终点位置。静无语音和有语音的起点和终点位置。在背景噪声较小时用平均能量识别较为有效,而在背景在背景噪声较小时用平均能量识别较为有效,而在背景噪声较大时用平均过零数识别较为有效。噪声较大时用平均过零数识别较为有效。782.10 语音信号的倒谱分析语音信号的倒谱分析求语音倒

48、谱特征参数,通过同态处理来实现。求语音倒谱特征参数,通过同态处理来实现。倒谱分析:运用对数运算和二次倒谱分析:运用对数运算和二次FFT/IFFT变换,将基音变换,将基音谐波和声道的频谱包络分离出来,用低时窗从语音信号倒谐波和声道的频谱包络分离出来,用低时窗从语音信号倒谱中截取出低倒谱域部分,可以更精确的反映声道的响应,谱中截取出低倒谱域部分,可以更精确的反映声道的响应,得到共振峰。得到共振峰。2、对原语音信号分析出一组预测系数,得、对原语音信号分析出一组预测系数,得到语音产生模型的频率响应。到语音产生模型的频率响应。同态处理(同态滤波):解卷,将卷积关系变为求和处理。同态处理(同态滤波):解卷

49、,将卷积关系变为求和处理。将语音信号的声门激励和声道响应分离开。将语音信号的声门激励和声道响应分离开。79同态信号处理的基本原理同态信号处理的基本原理 信号分类:加性信号、乘积性信号、卷积性信号等。信号分类:加性信号、乘积性信号、卷积性信号等。同态信号处理目的:将非线性问题转化为线性问题同态信号处理目的:将非线性问题转化为线性问题来处理。来处理。同态信号处理分类:乘积同态处理和卷积同态处理同态信号处理分类:乘积同态处理和卷积同态处理两种。两种。80 D*L(.)D*-1 x(n)y(n)x(n)y(n)q特征系统 D*q反特征系统 D*-1:它是特征系统的反运算 X(z)Z(.)log(.)Z

50、-1(.)x(n)X(z)x(n)Z(.)exp(.)Z-1(.)y(n)Y(z)y(n)Y(z)卷积同态系统:81 X(z)Z(.)log(.)Z-1(.)x(n)X(z)x(n)q特征系统 D*12121212111212()()*()()()()()ln()ln()ln()()()()()()()()()()x nx nx nZ x nX zXz XzX zXzXzXzXzX zZX zZXzXzx nx nx n82 Z(.)exp(.)Z-1(.)y(n)Y(z)y(n)Y(z)反特征系统 D*-1:1212121211212()()()()()()()()()exp()()()()

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(语音技术概述公开课课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|