语音信号处理第12章课件.ppt_163文库

资源描述

1、12.1 12.1 概述概述v随着信息技术的高速发展和人类对计算机的依赖性的不断增随着信息技术的高速发展和人类对计算机的依赖性的不断增强，人机的交互能力越来越受到研究者的重视。在人机交互强，人机的交互能力越来越受到研究者的重视。在人机交互中需要解决的问题实际上与人和人交流中的重要因素是一致中需要解决的问题实际上与人和人交流中的重要因素是一致的，最关键的都是的，最关键的都是“情感智能情感智能”的能力。因此计算机要能够的能力。因此计算机要能够更加主动的适应操作者的需要，首先必须能够识别操作者的更加主动的适应操作者的需要，首先必须能够识别操作者的情感，而后再根据情感的判断来调整交互对话的方式。情感，

2、而后再根据情感的判断来调整交互对话的方式。v包含在语音信号中的情感信息是一种很重要的信息资源，它包含在语音信号中的情感信息是一种很重要的信息资源，它是人们感知事物的必不可少的部分信息。所以包含在语音信是人们感知事物的必不可少的部分信息。所以包含在语音信号中的情感信息的计算机处理研究，分析和处理语音信号中号中的情感信息的计算机处理研究，分析和处理语音信号中的情感特征、判断和模拟说话人的喜怒哀乐等是一个意义重的情感特征、判断和模拟说话人的喜怒哀乐等是一个意义重大的研究课题。大的研究课题。12.2 12.2 语音信号中的情感分类和情感语音信号中的情感分类和情感特征分析特征分析v12.2.112.2

3、.1情感的分类情感的分类v要研究语音信号的情感，首先需要根据某些特性标准对语音要研究语音信号的情感，首先需要根据某些特性标准对语音情感做一个有效合理的分类，然后在不同类别的基础上研究情感做一个有效合理的分类，然后在不同类别的基础上研究特征参数的性质。特征参数的性质。v经过经过PlutchikPlutchik等人的多年研究，通过在激活评价空间上对情等人的多年研究，通过在激活评价空间上对情感进行分析，认为情感分布在一个圆形的结构上，结构的中感进行分析，认为情感分布在一个圆形的结构上，结构的中心是自然原点。由于各种情感在自然原点的周围排成了一个心是自然原点。由于各种情感在自然原点的周围排成了一个圆形

4、，所以这种对情感进行分类的方法叫做圆形，所以这种对情感进行分类的方法叫做“情感轮情感轮(Emotion Wheel)”(Emotion Wheel)”。对于任何一个情感语句，可以根据其。对于任何一个情感语句，可以根据其情感强度和情感方向，在情感轮所组成的二维平面中用唯一情感强度和情感方向，在情感轮所组成的二维平面中用唯一的一个情感矢量的一个情感矢量来表示。其中情感强度表现为这个情感矢来表示。其中情感强度表现为这个情感矢量的幅度值，而情感方向则表现为该情感矢量的角度。量的幅度值，而情感方向则表现为该情感矢量的角度。Ev不同于不同于PlutchikPlutchik的分类手段，的分类手段，FoxF

5、ox提出的三级情感模型，则提出的三级情感模型，则是按照情感中表现的主动和被动的程度不同将情感分成不同是按照情感中表现的主动和被动的程度不同将情感分成不同的等级，如表的等级，如表12-112-1所示。等级越低，分类越粗糙，等级越高，所示。等级越低，分类越粗糙，等级越高，分类越精细。分类越精细。12.2.2 12.2.2 情感特征分析情感特征分析v语音之所以能够表达情感，是因为其中包含能体现情感特征语音之所以能够表达情感，是因为其中包含能体现情感特征的参数。情感的变化通过特征参数的差异而体现。因此研究的参数。情感的变化通过特征参数的差异而体现。因此研究从语音信号中提取这些反映情感的参数，对于情感语

6、音识别从语音信号中提取这些反映情感的参数，对于情感语音识别等具有极其重要的意义。通常在语音情感识别时使用的主要等具有极其重要的意义。通常在语音情感识别时使用的主要特征参数包括以下内容。特征参数包括以下内容。vMurrayMurray和和ArnottArnott总结了情感和语音参数的关系如表总结了情感和语音参数的关系如表12-312-3所示。所示。v当当人处于愤怒的情感时，其生理特征较平时突出，如心跳加人处于愤怒的情感时，其生理特征较平时突出，如心跳加快、皮肤电压升高、血压升高等，这同时也影响到了语音特快、皮肤电压升高、血压升高等，这同时也影响到了语音特征参数的变化。首先由于生理变化的缘故，胸腔

7、的回声和呼征参数的变化。首先由于生理变化的缘故，胸腔的回声和呼吸声在语音信号中所占的比重将有所增加，振幅强度也大大吸声在语音信号中所占的比重将有所增加，振幅强度也大大高于普通的情感，语速也较普通语句快，是加速句和加强句高于普通的情感，语速也较普通语句快，是加速句和加强句的结合。为了增加生气的效果，基音在重音处语调的突变，的结合。为了增加生气的效果，基音在重音处语调的突变，成为了生气状态的一个重要特征。成为了生气状态的一个重要特征。v对于高兴时的情感，与愤怒情感时的生理特征有相似之处，对于高兴时的情感，与愤怒情感时的生理特征有相似之处，它的声音中也往往带有呼吸的声音，但是和其它情感的主要它的声音

8、中也往往带有呼吸的声音，但是和其它情感的主要不同之处在于，人处于高兴的状态时，它的基音变化通常是不同之处在于，人处于高兴的状态时，它的基音变化通常是一条向上弯曲的曲线。句子的振幅强度也集中在句子的末尾一条向上弯曲的曲线。句子的振幅强度也集中在句子的末尾的一两个字，整个句子的声调的调域要比平静语句高。句中的一两个字，整个句子的声调的调域要比平静语句高。句中非关键性的字和词的调形拱度就变得平坦一些，甚至失去本非关键性的字和词的调形拱度就变得平坦一些，甚至失去本调，而成为前后相邻两调的中间过渡。调，而成为前后相邻两调的中间过渡。v由于悲伤情感属于压抑情感类，所以它的时长较平静语句慢，由于悲伤情感属于

9、压抑情感类，所以它的时长较平静语句慢，强度也大大低于其它各种情感，基音的变化也是一条向下弯强度也大大低于其它各种情感，基音的变化也是一条向下弯曲的曲线。由于语速较慢的缘故，每一个字的读音彼此都拉曲的曲线。由于语速较慢的缘故，每一个字的读音彼此都拉得很开，所以字调的调形保留了其单字的调形，多字调的效得很开，所以字调的调形保留了其单字的调形，多字调的效果弱化。但由于在悲的语句中几乎每个字都夹杂了一定程度果弱化。但由于在悲的语句中几乎每个字都夹杂了一定程度的鼻音，所以要进行鼻音化的处理，使悲的语句的调阈降低，的鼻音，所以要进行鼻音化的处理，使悲的语句的调阈降低，整个语句趋于平坦化。整个语句趋于平坦化

10、。v恐惧情感在语速、基音、基音范围上同高兴情感、生气情感恐惧情感在语速、基音、基音范围上同高兴情感、生气情感的语句相类似，不同的地方仅在于语句的清晰度较其它情感的语句相类似，不同的地方仅在于语句的清晰度较其它情感精确。在实际的识别过程中目前还没有找到识别该种情感的精确。在实际的识别过程中目前还没有找到识别该种情感的有效特征参数。有效特征参数。v厌恶情感由于和生气情感具有较高的相似性，在很多研究文厌恶情感由于和生气情感具有较高的相似性，在很多研究文献中被归入生气情感中进行研究，大部分的特征参数和生气献中被归入生气情感中进行研究，大部分的特征参数和生气情感类似。同生气时的主要区别在于基音的变化率比

11、较宽，情感类似。同生气时的主要区别在于基音的变化率比较宽，并在语句末端有向下倾斜的趋势。并在语句末端有向下倾斜的趋势。v在汉语语音情感信息处理的研究方面，作为基础研究，其超在汉语语音情感信息处理的研究方面，作为基础研究，其超音段特征的研究将占较大比例。对于喜、怒、惊、悲四种情音段特征的研究将占较大比例。对于喜、怒、惊、悲四种情感，汉语语音信号的时间构造、振幅构造、基频构造和共振感，汉语语音信号的时间构造、振幅构造、基频构造和共振峰构造等特征的构造特点和分布规律，可以分析如下。峰构造等特征的构造特点和分布规律，可以分析如下。v时间构造的分析时间构造的分析：分析情感语音：分析情感语音的时间构造主

12、要着眼于不同情感的时间构造主要着眼于不同情感语音的发话时间构造的差别。我语音的发话时间构造的差别。我们可以计算出每一情感语句从开们可以计算出每一情感语句从开始到结束的持续时间，这一时间始到结束的持续时间，这一时间包括句中的无声部分，因为无声包括句中的无声部分，因为无声部分本身对情感是有贡献的。然后就情感语句的发话持续时部分本身对情感是有贡献的。然后就情感语句的发话持续时间长度（以下简称为间长度（以下简称为T T）以及平均发话速率）以及平均发话速率(音节音节/秒秒)和情感和情感的关系进行了分析和比较。的关系进行了分析和比较。v从图从图12-212-2可以看出，在发话的持续时间上，愤怒、

13、惊奇的发可以看出，在发话的持续时间上，愤怒、惊奇的发音长度和平静发音相比压缩了，而欢快、悲伤的发音长度却音长度和平静发音相比压缩了，而欢快、悲伤的发音长度却伸长了。在被压缩的愤怒、惊奇中，愤怒的发音最短，其次伸长了。在被压缩的愤怒、惊奇中，愤怒的发音最短，其次是惊奇。欢快和悲伤相比，悲伤伸长很多，而欢快只是稍稍是惊奇。欢快和悲伤相比，悲伤伸长很多，而欢快只是稍稍伸长。通过进一步的观察可知，这些现象的产生是由于和平伸长。通过进一步的观察可知，这些现象的产生是由于和平静语音相比，在情感语音中一些音素被模糊地发音、拖长或静语音相比，在情感语音中一些音素被模糊地发音、拖长或省略掉了的缘故。根据上述分析

14、结果，我们可以利用情感语省略掉了的缘故。根据上述分析结果，我们可以利用情感语音的时间构造很容易地区分欢快、悲伤和其它情感信号。也音的时间构造很容易地区分欢快、悲伤和其它情感信号。也可以通过设定某些时间特征阈值，来区分欢快和悲伤的情感可以通过设定某些时间特征阈值，来区分欢快和悲伤的情感信号。信号。v振幅构造的分析振幅构造的分析：信号的振幅特征与各种情感信息具有较强信号的振幅特征与各种情感信息具有较强的相关性。的相关性。因此，在一些有关情感分析的研究中，振幅构造因此，在一些有关情感分析的研究中，振幅构造特性都是作为重要特征加以分析研究的。情感语句的振幅构特性都是作为重要特征加以分析研究的。情感语句

15、的振幅构造分析，主要针对振幅平均能量以及动态范围（以下分别简造分析，主要针对振幅平均能量以及动态范围（以下分别简称为称为A A和和A rangeA range）等特征量进行分析比较。）等特征量进行分析比较。v 从分析结果可知，欢快、愤怒、惊奇从分析结果可知，欢快、愤怒、惊奇3 3种情感发音信号和平种情感发音信号和平静发音信号相比振幅将变大，相反地，悲伤和平静相比，振静发音信号相比振幅将变大，相反地，悲伤和平静相比，振幅将减小。而且从听取实验可知，情感信号具有这样的倾向，幅将减小。而且从听取实验可知，情感信号具有这样的倾向，即，欢快、愤怒、惊奇的平均振幅越大，悲伤的平均振幅越即，欢快、愤怒、惊奇

16、的平均振幅越大，悲伤的平均振幅越小，其情感效应表现的越明显。利用振幅特征，我们可以很小，其情感效应表现的越明显。利用振幅特征，我们可以很清楚地把欢快、愤怒、惊奇和悲伤区分开来，另外，振幅特清楚地把欢快、愤怒、惊奇和悲伤区分开来，另外，振幅特性也具有一定的区分欢快、愤怒和惊奇情感信号的能力。性也具有一定的区分欢快、愤怒和惊奇情感信号的能力。v基频构造的分析基频构造的分析：基音频率也是反映情感信息的重要特征之基音频率也是反映情感信息的重要特征之一。为了分析情感语音信号基频构造的特征，首先要求出情一。为了分析情感语音信号基频构造的特征，首先要求出情感语音信号的平滑的基频轨迹曲线，然后分析不同情感信号

17、感语音信号的平滑的基频轨迹曲线，然后分析不同情感信号基频轨迹曲线的变化情况，找出不同的情感信号各自具有的基频轨迹曲线的变化情况，找出不同的情感信号各自具有的基频构造特征。分析可知，不同情感信号轨迹曲线的的动态基频构造特征。分析可知，不同情感信号轨迹曲线的的动态范围、整个曲线的基频平均值以及变化率范围、整个曲线的基频平均值以及变化率(以下分别简称为以下分别简称为F0,F0 rangeF0,F0 range和和F0 rate)F0 rate)等特征可以反映不同情感的变化。等特征可以反映不同情感的变化。v 和平静语音信号相比、欢快、愤怒和惊奇的平均基频、动和平静语音信号相比、欢快、愤怒和惊奇的平均基

18、频、动态范围、平均变化率比较大，而相反，悲伤语音信号的则较态范围、平均变化率比较大，而相反，悲伤语音信号的则较小。对比较大的欢快、愤怒、惊奇来讲，惊奇语音信号的特小。对比较大的欢快、愤怒、惊奇来讲，惊奇语音信号的特征量最大，其次是欢快和愤怒。另外，通过观察语音信号的征量最大，其次是欢快和愤怒。另外，通过观察语音信号的基频轨迹曲线，可以发现了一个区分惊奇和其它情感信号的基频轨迹曲线，可以发现了一个区分惊奇和其它情感信号的重要特征，那就是惊奇情感信号的基频轨迹曲线在句尾的地重要特征，那就是惊奇情感信号的基频轨迹曲线在句尾的地方往往有上翘的特征。方往往有上翘的特征。v共振峰构造的分析共振峰构造的分析

19、：共振峰是反映声道特性的一个重要参数。共振峰是反映声道特性的一个重要参数。不同情感发音的共振峰的位置不同。分析时首先用不同情感发音的共振峰的位置不同。分析时首先用LPCLPC法求法求出声道的功率谱包络，再用峰值检出法（出声道的功率谱包络，再用峰值检出法（Peak PickingPeak Picking）算）算出各共振峰的频率。对于不同情感第一共振峰频率的平均值，出各共振峰的频率。对于不同情感第一共振峰频率的平均值，动态范围和变化率（以下分别简称为动态范围和变化率（以下分别简称为F1 F1、F1 rangeF1 range和和F1 F1 raterate）的分析结果如图）的分析结果如图12-71

20、2-7所示。图所示。图12-812-8是一句情感语句的是一句情感语句的四种不同的情感的第一共振峰频率的逐帧演示。四种不同的情感的第一共振峰频率的逐帧演示。v分析结论分析结论：综合以上从四个方面对含有四种情感的语音信号综合以上从四个方面对含有四种情感的语音信号进行的分析比较，我们可以归纳出如表进行的分析比较，我们可以归纳出如表12-412-4所示的情感信号所示的情感信号的特征规律。的特征规律。12.3 12.3 语音情感识别方法语音情感识别方法 12.3.1 12.3.1 主元分析法主元分析法(PCA)(PCA)v对于要识别的数据，假设有对于要识别的数据，假设有N N个样本信号，使用的特征参数个

21、样本信号，使用的特征参数个数为个数为K K个。对这个样本信号求个。对这个样本信号求K K个特征参数所对应的协方差个特征参数所对应的协方差阵，然后对协方差阵进行特征值分解得到阵，然后对协方差阵进行特征值分解得到K K个特征值和相应个特征值和相应的特征矢量。对于不同的情感，利用样本库中的样本分别计的特征矢量。对于不同的情感，利用样本库中的样本分别计算不同的主元算不同的主元k k相对于不同的情感类型相对于不同的情感类型j j所具有的均值所具有的均值和和方差方差。并用下列各式进行最大可分性处理。并用下列各式进行最大可分性处理。jkjk JiJijjkikJkCL1122JijkkJM11kkkML

22、Hv这里这里J J是采用的情感的类型个数，是采用的情感的类型个数，表示第表示第k k个主元在情感个主元在情感类别中的分离性，类别中的分离性，表示第表示第k k个主元在情感类别中的集中性。个主元在情感类别中的集中性。用用来反映主元在情感类别中的辨别能力，来反映主元在情感类别中的辨别能力，越大时，辨越大时，辨别能力越强。按顺序对别能力越强。按顺序对K K个主元进行排列，选取个主元进行排列，选取p p个个较大较大的主元作为识别用的主元。的主元作为识别用的主元。v识别时，首先获取识别用信号的特征参数矢量识别时，首先获取识别用信号的特征参数矢量，并利用已，并利用已知的各参数在不同情感中的均值和方差

23、对该特征参数进行标知的各参数在不同情感中的均值和方差对该特征参数进行标准化得到准化得到（由于矢量中的各维元素的单位不统一，所以（由于矢量中的各维元素的单位不统一，所以在多变量分析前，应把各维元素都化成均值为在多变量分析前，应把各维元素都化成均值为0 0、方差为、方差为1 1的的正态分布参数）。然后将正态分布参数）。然后将对选取的各个主元的基向量对选取的各个主元的基向量分别进行投影求和，获得待识别语音在各个有效主元的得分分别进行投影求和，获得待识别语音在各个有效主元的得分值值。kLkMkHkHkHXstdXstdXkAkZstdkkXAZv按上式计算不同情感中各有效主元的综合概率。按上式

24、计算不同情感中各有效主元的综合概率。v最后选取概率最大的情感作为识别情感。利用主元分析方法最后选取概率最大的情感作为识别情感。利用主元分析方法进行语音信号情感识别的训练和识别流程如图进行语音信号情感识别的训练和识别流程如图12-912-9所示。所示。pkjkjkkjkjZP122)2exp21(12.3.2 12.3.2 神经网络方法神经网络方法(ANN)(ANN)v对于情感识别的问题，首先对每个情感构造一个网络。这种对于情感识别的问题，首先对每个情感构造一个网络。这种类型的网络叫做类型的网络叫做OCON(OneOCON(One-class-in-one-network)-class-in-o

25、ne-network)。可以采。可以采用如图用如图12-1012-10所示的子网络并行结构，将提取出的特征矢量所示的子网络并行结构，将提取出的特征矢量输入到每个子神经网络中，每个子网络采用三层神经元的输入到每个子神经网络中，每个子网络采用三层神经元的MLPMLP结构，输出为一个界于结构，输出为一个界于0 0到到1 1之间的数值，表示输入的参之间的数值，表示输入的参数矢量可能属于某种情感的似然程度。数矢量可能属于某种情感的似然程度。v对于每个子网络，首先构造一个神经网络结构，选定各层传对于每个子网络，首先构造一个神经网络结构，选定各层传递函数，根据给定一个衡量理想输出和实际输出的能量函数。递函数

26、，根据给定一个衡量理想输出和实际输出的能量函数。不同情感子网络具有相同的结构，仅仅在权值上有所不同。不同情感子网络具有相同的结构，仅仅在权值上有所不同。利用这个函数对网络中各个节点的权值求偏导数来确定实际利用这个函数对网络中各个节点的权值求偏导数来确定实际的权值，使每个子网络逼近于实际的情感概率模型。的权值，使每个子网络逼近于实际的情感概率模型。在识别时，把获取的特征参数输入到不同的情感子网络在识别时，把获取的特征参数输入到不同的情感子网络中，对各个情感网络的结果进行判决来选择似然程度最大的中，对各个情感网络的结果进行判决来选择似然程度最大的情感作为识别结果。情感作为识别结果。12.3.3 1

27、2.3.3 混合高斯模型法混合高斯模型法(GMM)(GMM)v混合高斯模型（混合高斯模型（GMMGMM）是只有一个状态的模型，在这个状态）是只有一个状态的模型，在这个状态里具有多个高斯分布函数。里具有多个高斯分布函数。v其中其中是一个高斯分布函数，不同高斯分布之间的加权系数是一个高斯分布函数，不同高斯分布之间的加权系数满足条件：满足条件：v在训练时首先利用矢量量化（在训练时首先利用矢量量化（VQVQ）抽取各类情感中有效主元）抽取各类情感中有效主元矢量集的码本，并对每个码字求出相应的方差，这样每个码矢量集的码本，并对每个码字求出相应的方差，这样每个码字和相应的方差就可以组成一个高斯分布函数。

28、在识别时，字和相应的方差就可以组成一个高斯分布函数。在识别时，对于某个语音情感主元特征矢量来求取它相对于每个情感类对于某个语音情感主元特征矢量来求取它相对于每个情感类别的概率值，概率最大的即为识别结果。别的概率值，概率最大的即为识别结果。NiiikYfwP1)(ifiw11Niiw12.4 12.4 情感语音的合成情感语音的合成v情感语音的合成属于语音的规则合成（情感语音的合成属于语音的规则合成（Synthesis-by-Synthesis-by-RuleRule），这里包含两个方面的内容。其一是合成技术的选择，），这里包含两个方面的内容。其一是合成技术的选择，其二是合成规则的制定。其二是合成

29、规则的制定。v基音同步叠加技术（基音同步叠加技术（PSOLAPSOLA），由于它既能保持原始语音的），由于它既能保持原始语音的主要音段特征，又能在音节拼接时灵活调整其基音、能量和主要音段特征，又能在音节拼接时灵活调整其基音、能量和音长等韵律特征，因而很适合于情感语音的合成。音长等韵律特征，因而很适合于情感语音的合成。v根据对前面介绍的情感语句特征参数的考察以及听音者的主根据对前面介绍的情感语句特征参数的考察以及听音者的主观感觉，可以初步总结出不同情感语音的韵律特征变化的规观感觉，可以初步总结出不同情感语音的韵律特征变化的规律。律。v喜喜：含喜的语句的时长和平静的平叙句相当，但这主要是由含喜的语

30、句的时长和平静的平叙句相当，但这主要是由句子的尾部带来的影响，句子的前部和中部都比相应内容的句子的尾部带来的影响，句子的前部和中部都比相应内容的平静平叙句的语速要快一些。句子的振幅强度也集中在句子平静平叙句的语速要快一些。句子的振幅强度也集中在句子的末尾的一两个字，整个句子的声调的调域要比平静平叙句的末尾的一两个字，整个句子的声调的调域要比平静平叙句高。高。由于句子的前中部语速加快，受到生理原因和语法条件由于句子的前中部语速加快，受到生理原因和语法条件的制约，句中非关键性的字和词的调形拱度就变得平坦一些，的制约，句中非关键性的字和词的调形拱度就变得平坦一些，甚至失去本调，而成为前后相邻两调的中

31、间过渡。句尾的感甚至失去本调，而成为前后相邻两调的中间过渡。句尾的感叹词在平静平叙句中读轻声，在这里语气有很强的加重，并叹词在平静平叙句中读轻声，在这里语气有很强的加重，并且调形变成为先升后降的山包形。且调形变成为先升后降的山包形。v怒怒：含怒的语句的时长约为平叙句的一半左右，其振幅强度：含怒的语句的时长约为平叙句的一半左右，其振幅强度也很高，是加速句和加强句的结合。句中的动词和修饰动词也很高，是加速句和加强句的结合。句中的动词和修饰动词的副词的振幅强度比平均值要高一些。句子的调阈抬高，但的副词的振幅强度比平均值要高一些。句子的调阈抬高，但调形不一定变平，有时它们的拱度甚至更加扩展了。句尾的调

32、形不一定变平，有时它们的拱度甚至更加扩展了。句尾的感叹词的调形也不同于轻声，而变成类似于上声的声调。感叹词的调形也不同于轻声，而变成类似于上声的声调。v惊惊：含惊的语句的情况和含喜的语句相类似，不同的地方在：含惊的语句的情况和含喜的语句相类似，不同的地方在于句尾的调形有上翘的趋势。整个句子的平均振幅强度比平于句尾的调形有上翘的趋势。整个句子的平均振幅强度比平静平叙句略高，原因在于句尾的平均振幅强度增高了。静平叙句略高，原因在于句尾的平均振幅强度增高了。v悲悲：含悲的语句的时长约为平叙句的一倍左右，其振幅强度：含悲的语句的时长约为平叙句的一倍左右，其振幅强度也比平叙句低许多。由于每一个字的读音彼

33、此都拉得很开，也比平叙句低许多。由于每一个字的读音彼此都拉得很开，所以字调的调形保留了其单字的调形，多字调的效果弱化了。所以字调的调形保留了其单字的调形，多字调的效果弱化了。但由于悲的语句中几乎每个字都夹杂了一定程度的鼻音，所但由于悲的语句中几乎每个字都夹杂了一定程度的鼻音，所以要进行鼻化的处理。含悲的语句调阈降低，整个语句趋于以要进行鼻化的处理。含悲的语句调阈降低，整个语句趋于平坦化。平坦化。v与语音合成系统一样，情感语音合成系统可以分为三个大模与语音合成系统一样，情感语音合成系统可以分为三个大模块：块：文本扫描模块文本扫描模块、语音合成模块语音合成模块以及以及放音模块放音模块。v在在文本扫

34、描模块文本扫描模块中，对输入的汉语拼音、调型、空格、标点中，对输入的汉语拼音、调型、空格、标点符号等组成的文本进行分词、分字处理，分析出一句文本中符号等组成的文本进行分词、分字处理，分析出一句文本中的音素表、词表、句表以及控制符和停顿等信息。的音素表、词表、句表以及控制符和停顿等信息。v语音合成模块语音合成模块是整个系统中最重要的组成部分，它的核心包是整个系统中最重要的组成部分，它的核心包括括PSOLAPSOLA算法和韵律调节两个部分。算法和韵律调节两个部分。v最后由最后由放音模块放音模块将放在缓冲器中的情感合成语音数据通过声将放在缓冲器中的情感合成语音数据通过声卡上的卡上的D/AD/A转换和扬声器播出。转换和扬声器播出。

展开阅读全文