1、第第8章章 语音信号情感处理语音信号情感处理情感的声学特征分析情感的声学特征分析实用语音情感的识别算法实用语音情感的识别算法概述概述情感理论与情感诱发实验情感理论与情感诱发实验应用与展望应用与展望何为情感?何为情感?吃惊吃惊眉毛向上挑眉毛向上挑眼睛圆睁眼睛圆睁嘴唇无意识地张开嘴唇无意识地张开恐惧恐惧双眉上扬,聚拢双眉上扬,聚拢上眼皮上扬上眼皮上扬眼袋紧绷眼袋紧绷双唇向两耳水平方双唇向两耳水平方向略微拉伸向略微拉伸悲伤悲伤上层眼皮下垂上层眼皮下垂两眼无光两眼无光两侧嘴角微微下拉两侧嘴角微微下拉l情感行为识别:情感行为识别:面部表情识别面部表情识别语音情感识别语音情感识别姿态识别姿态识别l生理模式
2、识别:生理模式识别:皮肤电反应皮肤电反应呼吸呼吸心率心率体温体温脑电波等脑电波等多模态情感识别多模态情感识别8.1概述概述计算机要能够更加主动的适应操作者的需要,首先必须能计算机要能够更加主动的适应操作者的需要,首先必须能够识别操作者的情感,而后再根据情感类型来调整交互对够识别操作者的情感,而后再根据情感类型来调整交互对话的方式。对于情感信息处理技术的研究包括多个方面,话的方式。对于情感信息处理技术的研究包括多个方面,主要有情感特征分析、情感识别(如肢体情感识别、面部主要有情感特征分析、情感识别(如肢体情感识别、面部情感识别和语音情感识别等)、情感模拟(如情感语音合情感识别和语音情感识别等)、
3、情感模拟(如情感语音合成等)。成等)。近年来,语音情感的研究进展可以大致分为四个方面:一、近年来,语音情感的研究进展可以大致分为四个方面:一、情感特征的选择和优化;二、建模算法的研究;三、自然情感特征的选择和优化;二、建模算法的研究;三、自然情感数据库的建立;四、关注情感模型适应能力的环境自情感数据库的建立;四、关注情感模型适应能力的环境自适应方法,如上下文信息、跨语言、跨文化,和性别差异适应方法,如上下文信息、跨语言、跨文化,和性别差异等。等。lMITlCMUl东京大学东京大学l早稻田大学早稻田大学l日内瓦大学日内瓦大学 情绪研究实验室情绪研究实验室l伯明翰大学伯明翰大学国内外研究现状国内外
4、研究现状l中科院计算所:研究带有表情和动作的虚拟人。中科院计算所:研究带有表情和动作的虚拟人。l中科院自动化所:基于生物特征的身份验证。中科院自动化所:基于生物特征的身份验证。l中科院心理学所、生物所:情绪心理学、生理学研究中科院心理学所、生物所:情绪心理学、生理学研究l中科院软件所:智能用户界面中科院软件所:智能用户界面l浙江大学:虚拟人物、情绪系统构造浙江大学:虚拟人物、情绪系统构造l北京工业大学:多功能感知机同情感计算的融合研究。北京工业大学:多功能感知机同情感计算的融合研究。l东南大学:语音情感识别东南大学:语音情感识别l南京航空航天大学:语音情感计算。南京航空航天大学:语音情感计算。
5、l中国科技大学:基于内容的交互式感性图像检索的研究中国科技大学:基于内容的交互式感性图像检索的研究l重庆大学:智能服务、增强现实、环境感知、重庆大学:智能服务、增强现实、环境感知、智能手表等,注重软件方面的研究。智能手表等,注重软件方面的研究。l海南大学:军用无线局域网结构中的可穿戴计海南大学:军用无线局域网结构中的可穿戴计算机。算机。l哈工大:哈工大:“具有六种面部表情及视觉的类人头具有六种面部表情及视觉的类人头像型机器人及行为研究像型机器人及行为研究” ,于,于20042004年研制出年研制出具有八种面部表情的仿人头像机器人系统,并具有八种面部表情的仿人头像机器人系统,并进行了表情实验,实
6、现了喜、怒、哀、乐、悲进行了表情实验,实现了喜、怒、哀、乐、悲伤、严肃、吃惊、自然伤、严肃、吃惊、自然( (中性中性) )等等8 8种表情。种表情。l索尼公司的索尼公司的AIBO狗狗 :第一个实现规模商品化:第一个实现规模商品化的宠物机器人(的宠物机器人(2006年生产年生产6万只,收益万只,收益10亿亿美元),美元), QRIO、SDR-4X等宠物机器人。为等宠物机器人。为有情感交互能力的机器人及相关的研究打开了有情感交互能力的机器人及相关的研究打开了想象的空间。想象的空间。典型应用典型应用lPepperPepper是一款人形机器人,由日本软银集团和是一款人形机器人,由日本软银集团和法国法国
7、AldebaranAldebaran Robotics Robotics研发,可综合考虑周研发,可综合考虑周围环境,并积极主动地作出反应。机器人配备围环境,并积极主动地作出反应。机器人配备了语音识别技术、呈现优美姿态的关节技术,了语音识别技术、呈现优美姿态的关节技术,以及分析表情和声调的情绪识别技术,可与人以及分析表情和声调的情绪识别技术,可与人类进行交流。类进行交流。8.2情感理论与情感诱发实验情感理论与情感诱发实验1)基本情感论)基本情感论8.2.1 8.2.1 情感的心理学理论情感的心理学理论基本情感论认为,人类的复杂的情感是由若干种有限的基基本情感论认为,人类的复杂的情感是由若干种有限
8、的基本情感构成的,基本情感按照一定的比例混合构成各种复本情感构成的,基本情感按照一定的比例混合构成各种复合情感。基本情感论认为情感可以用离散的类别模型来描合情感。基本情感论认为情感可以用离散的类别模型来描述,目前大部分的情感识别系统,都是建立在这一理论体述,目前大部分的情感识别系统,都是建立在这一理论体系之上的。系之上的。在心理学领域对基本情感类别的定义还没有一个统一的结在心理学领域对基本情感类别的定义还没有一个统一的结论,然而在语音情感识别的文献中,较多的研究者采用的论,然而在语音情感识别的文献中,较多的研究者采用的是六种基本情感状态:是六种基本情感状态:“喜悦喜悦”、“生气生气”、“惊讶惊
9、讶”、“悲悲伤伤”、“恐惧恐惧”和和“中性中性”。人类情绪的基本类型人类情绪的基本类型 快乐快乐 愤怒愤怒 恐惧恐惧 悲哀悲哀1.快乐:追求并达到所盼望的目的。快乐快乐: :盼望的目的盼望的目的达到后继之而来的达到后继之而来的紧张解除时的情绪紧张解除时的情绪体验。体验。 愤怒愤怒: :愿望不能达到或愿望不能达到或事与愿违,并一再受到妨事与愿违,并一再受到妨碍的情况下产生的情绪体碍的情况下产生的情绪体验。验。恐惧恐惧:由于缺乏:由于缺乏处理或摆脱可怕处理或摆脱可怕的情景或事物的的情景或事物的能力引起的情绪能力引起的情绪体验。体验。悲伤:悲伤:与失去所与失去所热爱的事物或所热爱的事物或所盼望的东西
10、有关盼望的东西有关的体验。的体验。 8.2.1 8.2.1 情感的心理学理论情感的心理学理论2)维度空间论)维度空间论维度模型,是由效价度和维度模型,是由效价度和唤醒度组成的二维空间:唤醒度组成的二维空间:1)效价度或者快乐度,其理效价度或者快乐度,其理论基础是正负情感的分离论基础是正负情感的分离激活,主要体现为情感主激活,主要体现为情感主体的情绪感受,是对情感体的情绪感受,是对情感和主体关系的一种度量;和主体关系的一种度量;2)唤醒度或者激活度,指与唤醒度或者激活度,指与情感状态相联系的机体能情感状态相联系的机体能量激活的程度,是对情感量激活的程度,是对情感的内在能量的一种度量。的内在能量的
11、一种度量。8.2.2 8.2.2 实用语音情感数据库的建立实用语音情感数据库的建立1)概述)概述语音情感数据库的建立,是研究语音情感的必需的研究基语音情感数据库的建立,是研究语音情感的必需的研究基础,具有极为重要的意义。目前国际上流行的语音情感数础,具有极为重要的意义。目前国际上流行的语音情感数据库有据库有AIBO(Artificial Intelligence Robot)语料库、)语料库、VAM(The Vera am Mittag)数据库、丹麦语数据库)数据库、丹麦语数据库(Danish Emotional Speech,DES)、柏林数据库、)、柏林数据库、SUSAS(Speech u
12、nder Simulated and Actual Stress)数据)数据库等。库等。8.2.2 8.2.2 实用语音情感数据库的建立实用语音情感数据库的建立2)实用语音情感数据库的需求)实用语音情感数据库的需求情感语料可以分为自然语音、诱发语音和表演语音三类。情感语料可以分为自然语音、诱发语音和表演语音三类。表演语料的优点是容易采集,缺点是情感表现夸张,与实表演语料的优点是容易采集,缺点是情感表现夸张,与实际的自然语音有一定的差别。早期基于表演语料的识别系际的自然语音有一定的差别。早期基于表演语料的识别系统,它的情感模型在实验室条件下是符合样本数据的,在统,它的情感模型在实验室条件下是符合
13、样本数据的,在实验测试中也能获得较高的识别率,但是在实际条件下,实验测试中也能获得较高的识别率,但是在实际条件下,系统的情感模型与真实的情感数据不能符合的很好,导致系统的情感模型与真实的情感数据不能符合的很好,导致应用中的技术瓶颈。应用中的技术瓶颈。面向实际应用的需求,实用语音情感数据库必须要保证语面向实际应用的需求,实用语音情感数据库必须要保证语料的真实可靠,不能采用传统的表演方式采集数据。通过料的真实可靠,不能采用传统的表演方式采集数据。通过实验心理学中的方法来诱发实用语音情感数据,可尽可能实验心理学中的方法来诱发实用语音情感数据,可尽可能的使训练数据接近真实的情感数据。的使训练数据接近真
14、实的情感数据。8.2.2 8.2.2 实用语音情感数据库的建立实用语音情感数据库的建立3)建立过程和一般规范)建立过程和一般规范参考国内外著名语料库及其相关的规范,实用语音情感数参考国内外著名语料库及其相关的规范,实用语音情感数据库建立的流程主要包含五个步骤:制定情感诱发方式、据库建立的流程主要包含五个步骤:制定情感诱发方式、情感语音采集、数据检验与补录、语句切分与标注和听辨情感语音采集、数据检验与补录、语句切分与标注和听辨测试。测试。规范规范详细说明详细说明发音人规范描述发音人的年龄、性别、教育背景和性格特征等。语料设计规范描述语料的组织和设计内容,包括文本内容设计、情感选择、语料来源等。录
15、音规范描述录音环境的软硬件设备、录音声学环境等技术指标。数据存储技术规范描述采样率、编码格式、语音文件的存储格式及其技术规范。语料库标注规范情感标注内容和标注系统说明。法律声明发音人录音之后签署的有关法律条文或者声明。8.2.2 8.2.2 实用语音情感数据库的建立实用语音情感数据库的建立4)数据检验)数据检验录音过程通常在安静的实验室内进行。每次录音后,应进录音过程通常在安静的实验室内进行。每次录音后,应进行数据的检验与补录,及时对语音文件进行人工检验,以行数据的检验与补录,及时对语音文件进行人工检验,以排除录音过程中可能出现的错误。例如,查看并剔除语音排除录音过程中可能出现的错误。例如,查
16、看并剔除语音中的信号过载音段、不规则噪声(如咳嗽等)和非正常停中的信号过载音段、不规则噪声(如咳嗽等)和非正常停顿造成的长时静音等。对于错误严重的录音文件,必要时顿造成的长时静音等。对于错误严重的录音文件,必要时进行补录。进行补录。8.2.3 8.2.3 情感语料的诱发方法情感语料的诱发方法1)通过计算机游戏诱发情感语料)通过计算机游戏诱发情感语料因为人类声音中蕴含的情感信息受到无意识的心理状态变因为人类声音中蕴含的情感信息受到无意识的心理状态变化的影响,以及社会文化导致的有意识的说话习惯的控制,化的影响,以及社会文化导致的有意识的说话习惯的控制,所以实用语音情感数据库的建立需要考虑语音中情感
17、的自所以实用语音情感数据库的建立需要考虑语音中情感的自然流露和有意识控制。然流露和有意识控制。通过计算机游戏诱发情感的方法的优势在于通过游戏中画通过计算机游戏诱发情感的方法的优势在于通过游戏中画面和音乐的视觉、听觉刺激,能提供一个互动的、具有较面和音乐的视觉、听觉刺激,能提供一个互动的、具有较强感染力的人机交互环境,能够有效的诱发出被试的正面强感染力的人机交互环境,能够有效的诱发出被试的正面情感与负面情感。情感与负面情感。8.2.3 8.2.3 情感语料的诱发方法情感语料的诱发方法2)通过认知作业诱发情感语料)通过认知作业诱发情感语料除了游戏诱发以外,通过认知作业可诱发包括烦躁、疲劳除了游戏诱
18、发以外,通过认知作业可诱发包括烦躁、疲劳和自信等心理状态下的情感。在一个重复的、长时间的认和自信等心理状态下的情感。在一个重复的、长时间的认知作业中,采用噪声诱发、睡眠剥夺等手段可辅助诱发负知作业中,采用噪声诱发、睡眠剥夺等手段可辅助诱发负面情绪。认知作业现场的情感识别具有重要的实际意义,面情绪。认知作业现场的情感识别具有重要的实际意义,特别是在航天、航空、航海等长时间的、高强度的工作环特别是在航天、航空、航海等长时间的、高强度的工作环境中,对工作人员的负面情感的及时检测和调控具有非常境中,对工作人员的负面情感的及时检测和调控具有非常重要的意义。烦躁、疲劳和自信等心理状态对认知过程有重要的意义
19、。烦躁、疲劳和自信等心理状态对认知过程有重要的影响,是评估特殊工作人员的心理状态和认知作业重要的影响,是评估特殊工作人员的心理状态和认知作业水平的一个重要因素。水平的一个重要因素。8.2.4 8.2.4 情感语料的主观评价方法情感语料的主观评价方法为了保证所采集的情感语料的可靠性,需要进行主观听辨为了保证所采集的情感语料的可靠性,需要进行主观听辨评价,每条样本由评价,每条样本由10名未参与录音的人员进行评测。一般名未参与录音的人员进行评测。一般认为人类区分信息等级的极限能力为认为人类区分信息等级的极限能力为7 2,故可以引入九,故可以引入九分位的比例标度来衡量信息等级。例如,采用标度分位的比例
20、标度来衡量信息等级。例如,采用标度1、3、5、7、9表示情感的五种强度,对应极弱,较弱,一般,表示情感的五种强度,对应极弱,较弱,一般,较强,极强五个等级。较强,极强五个等级。由于采取多人评测,为了得到第由于采取多人评测,为了得到第 条情感样本的评价结果,条情感样本的评价结果,需要将所有听辨人的测评结果进行融合,采用加权融合的需要将所有听辨人的测评结果进行融合,采用加权融合的准则得到该条情感样本的评判结果为:准则得到该条情感样本的评判结果为:1MjiijiaEE8.3情感的声学特征分析情感的声学特征分析8.3.1 8.3.1 情感特征提取情感特征提取用于语音情感识别的声学特征大致可归纳为韵律学
21、特征、用于语音情感识别的声学特征大致可归纳为韵律学特征、基于谱的相关特征和音质特征三种类型:基于谱的相关特征和音质特征三种类型:1)韵律是指语音中凌驾于语义符号之上的音高、音长、)韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化,是对语音流表达方式的一种结快慢和轻重等方面的变化,是对语音流表达方式的一种结构性安排。最常用的韵律特征有时长、基频、能量等。构性安排。最常用的韵律特征有时长、基频、能量等。2)基于谱的相关特征被认为是声道形状变化和发声运动)基于谱的相关特征被认为是声道形状变化和发声运动之间相关性的体现,使用的谱特征一般有线性预测系数、之间相关性的体现,使用的谱特征
22、一般有线性预测系数、线性预测倒谱系数、美尔倒谱系数等。线性预测倒谱系数、美尔倒谱系数等。3)声音质量是人们赋予语音的一种主观评价指标,用于)声音质量是人们赋予语音的一种主观评价指标,用于衡量声音质量的声学特征一般有:共振峰频率及其带宽、衡量声音质量的声学特征一般有:共振峰频率及其带宽、频率微扰和振幅微扰、声门参数等。频率微扰和振幅微扰、声门参数等。8.3.1 8.3.1 情感特征提取情感特征提取特征序号特征名称1-4短时能量的最大值、最小值、均值、方差5短时能量抖动6-7短时能量的线性回归系数及其均方误差8250Hz以下短时能量占全部短时能量的比例9-12基音频率的最大值、最小值、均值、方差1
23、3-14一阶基音频率抖动、二阶基音频率抖动15基音频率分段方差16-19基音频率一阶差分的最大值、最小值、均值、方差20-34第一、第二、第三共振峰频率的最大值、最小值、均值、方差、一阶抖动35-37第二共振峰频率比率最大值、最小值、均值38-890-12阶MFCC的最大值、最小值、均值、方差90-1410-12阶MFCC一阶差分的最大值、最小值、均值、方差142-144关联维数、最大Lyapunov指数和Kolmogorov熵8.3.2 8.3.2 特征降维算法特征降维算法由于受到训练样本规模的限制,特征空间维度不能过高,由于受到训练样本规模的限制,特征空间维度不能过高,需要进行特征降维。在
24、具体的算法训练当中,几乎所有的需要进行特征降维。在具体的算法训练当中,几乎所有的算法都会受到计算能力的限制,特征数量的增加,最终会算法都会受到计算能力的限制,特征数量的增加,最终会导致导致“维度灾难维度灾难”的问题。的问题。常用的特征降维方法:常用的特征降维方法:LDA(Linear Discriminant Analysis)、)、PCA(Principal Components Analysis)、)、FDR(Fisher Discriminant Ratio)、)、SFS(Sequential Forward Selection)等。)等。8.3.2 8.3.2 特征降维算法特征降维算法
25、1)LDA降维原理降维原理LDA用来特征降维的具体步骤如下:用来特征降维的具体步骤如下:(1)中心化训练样本,并计算其类内离散度矩阵)中心化训练样本,并计算其类内离散度矩阵 和类间和类间离散度矩阵离散度矩阵 。(2)计算样本的协方差矩阵,并对其特征值分解,将特征)计算样本的协方差矩阵,并对其特征值分解,将特征向量按照其特征值的大小进行降序排列,取前若干个特征向向量按照其特征值的大小进行降序排列,取前若干个特征向量组成投影矩阵。量组成投影矩阵。(3)计算投影到投影矩阵上的样本的类内离散度矩阵)计算投影到投影矩阵上的样本的类内离散度矩阵 和和类间离散度矩阵类间离散度矩阵 。1()()icTwiii
26、x wSxmxm1()()icTbiiix wSn mm mm1()()icTwiiix wSymym1()()icTbiiix wSn mm mmwSbSwSbS8.3.2 8.3.2 特征降维算法特征降维算法1)LDA降维原理降维原理(4)对)对 进行特征值分解,并将其特征向量按其特征进行特征值分解,并将其特征向量按其特征值大小进行降序排列,取前值大小进行降序排列,取前c-1个特征值对应的特征向量组个特征值对应的特征向量组成新的投影矩阵。成新的投影矩阵。(5)将训练样本按照新的投影矩阵进行投影。)将训练样本按照新的投影矩阵进行投影。(6)对测试样本进行中心化处理,并按照新的投影矩阵进)对测
27、试样本进行中心化处理,并按照新的投影矩阵进行投影。行投影。(7)选择合适的分类算法进行分类。)选择合适的分类算法进行分类。1wbSS8.3.2 8.3.2 特征降维算法特征降维算法2)PCA降维原理降维原理PCA是经常使用的特征获取方法之一,被称作是模式分类是经常使用的特征获取方法之一,被称作是模式分类中的著名算法之一,是一种使用相当广泛的降低数据维度方中的著名算法之一,是一种使用相当广泛的降低数据维度方法。法。PCA的目的就是利用一组向量基去再次表征获得的信的目的就是利用一组向量基去再次表征获得的信息量,使新的信息量能够尽可能表达初始信息之间的关联,息量,使新的信息量能够尽可能表达初始信息之
28、间的关联,最后从中获取最后从中获取“主分量主分量”,很大程度上减小多余信息的干扰。,很大程度上减小多余信息的干扰。为了使得重构信号误差最小,需要选取特征矩阵特征值较大为了使得重构信号误差最小,需要选取特征矩阵特征值较大的特征矢量,而用该特征矢量重构系数作为信号的低维特征。的特征矢量,而用该特征矢量重构系数作为信号的低维特征。8.4 实用语音情感的识别算法实用语音情感的识别算法算法算法情感拟合性能情感拟合性能优点优点缺点缺点GMM高对数据的拟合能力较高对训练数据依赖性强SVM较高适合于小样本训练集多类分类问题中存在不足KNN较高易于实现,较符合语音情感数据的分布特性计算量较大HMM一般适合于时序
29、序列的识别受到音位信息的影响较大决策树一般易于实现,适合于离散情感类别的识别识别率有待提高ANN较高逼近复杂的非线性关系容易陷入局部极小特性和算法收敛速度较低的混合蛙跳算法较高优化能力强,有利于发现情感数据中潜在的模式在迭代后期容易陷入局部最优,收敛速度较慢8.4.1 K8.4.1 K近邻分类器近邻分类器K近邻(近邻(KNN)分类算法,是一种较为简单直观的分类方法,)分类算法,是一种较为简单直观的分类方法,但在语音情感识别中表现出的性能却很好。但在语音情感识别中表现出的性能却很好。KNN算法分为如下四步:算法分为如下四步:1)提取训练样本的特征向量,构成训练样本特征向量集合)提取训练样本的特征
30、向量,构成训练样本特征向量集合X1,X2,Xn ;2)设定算法中)设定算法中K的值。的值。K值的确定没有一个统一的方法(根值的确定没有一个统一的方法(根据具体问题选取的据具体问题选取的K值可能有较大的区别)。一般方法是先值可能有较大的区别)。一般方法是先确定一个初始值,然后根据实验结果不断调试,最终达到最确定一个初始值,然后根据实验结果不断调试,最终达到最优。优。3)提取待测样本的特征向量)提取待测样本的特征向量X,并计算,并计算X与与 中每一样本的欧中每一样本的欧式距离式距离D(X,Xl) 。4)统计)统计D(X,Xl) 中中K个最近邻的类别信息,给出个最近邻的类别信息,给出X的分类结果。的
31、分类结果。8.4.2 8.4.2 支持向量机支持向量机支持向量机是由支持向量机是由Cortes和和Vapnik等人提出的一种机器学习的等人提出的一种机器学习的算法,它是建立在统计学习理论和结构风险最小化的基础之算法,它是建立在统计学习理论和结构风险最小化的基础之上的。支持向量机在诸多模式分类应用领域中具有优势,如上的。支持向量机在诸多模式分类应用领域中具有优势,如解决小样本问题、非线性模式识别问题以及函数拟合等。解决小样本问题、非线性模式识别问题以及函数拟合等。SVM算法是统计学习理论的一种实现方式。最基本思路就是算法是统计学习理论的一种实现方式。最基本思路就是要找到使测试样本的分类错误率达到
32、最低的最佳超平面,也要找到使测试样本的分类错误率达到最低的最佳超平面,也就是要找到一个分割平面,使得训练集中的训练样本距离该就是要找到一个分割平面,使得训练集中的训练样本距离该平面的距离尽量的远以及平面两侧的空白区域最大。平面的距离尽量的远以及平面两侧的空白区域最大。8.4.2 8.4.2 支持向量机支持向量机在在n维空间维空间Rn中,对于两类问题进行分类时,设输入空间中中,对于两类问题进行分类时,设输入空间中的一组样本为的一组样本为 (xi,yi),yi+1,-1是类别标号。是类别标号。+1,-1在线在线性可分的情况下,存在多个超平面将两类样本分开,其中可性可分的情况下,存在多个超平面将两类
33、样本分开,其中可以使得两个类别离超平面最近的样本与它的距离最大的那个以使得两个类别离超平面最近的样本与它的距离最大的那个超平面,称为最优超平面。超平面,称为最优超平面。8.4.2 8.4.2 支持向量机支持向量机设超平面方程为设超平面方程为 使得使得推得推得则分类函数就是则分类函数就是g(x)=wx+b ,且分类函数归一化以后,两类,且分类函数归一化以后,两类中的所有样本都满足中的所有样本都满足|g(x)|1,距离分类超平面最近的样本,距离分类超平面最近的样本满足满足|g(x)|= =1,分类间隔即为,分类间隔即为 2/|w|。当。当|w|最小时,分类间隔最小时,分类间隔最大。最大。0wxb1
34、211wxbwxb 122w xxww8.4.2 8.4.2 支持向量机支持向量机寻找最优分类面的问题就简化成一个简单的优化问题,即当寻找最优分类面的问题就简化成一个简单的优化问题,即当约束条件为约束条件为 ,使得,使得 最小。最小。引入拉格朗日算子引入拉格朗日算子 ,原问题变成了一个约束条件下的二次,原问题变成了一个约束条件下的二次优化问题:优化问题:通过对系数通过对系数w和和b求导,并代入上式,则当约束条件为求导,并代入上式,则当约束条件为使得使得 10iiy wxb 2/2w211, ,12niiiiL w bywxbw 0(1,2, )0iiiiny且且 ,111maxmax,2nni
35、jijijii jiQy yx x8.4.2 8.4.2 支持向量机支持向量机引入非线性映射后,假设引入非线性映射后,假设是低维输入空间是低维输入空间Rn到高维特征空到高维特征空间间F的一个映射,核函数的一个映射,核函数k对应高维特征对应高维特征F中向量内积运算,中向量内积运算,即即最优分类问题转化为一个约束条件最优分类问题转化为一个约束条件 下的二次优化下的二次优化问题:问题:得到最佳分类函数为得到最佳分类函数为(,)(),()ijijk x xxx 0iiy ,111maxmax,2nnijijijii jiQy y k x x*( )sgn( , )iiii svg xy k x xb8
36、.4.2 8.4.2 支持向量机支持向量机1)多项式形式的核函数:)多项式形式的核函数:2)径向基形式的核函数:)径向基形式的核函数:3) S形核函数:形核函数:,1qpolyiikx xx x22,exp2irbfixxkx x,tanhsigniikx xv x xc8.4.2 8.4.2 支持向量机支持向量机上面介绍的是两类样本的分类问题,如果需要对上面介绍的是两类样本的分类问题,如果需要对 类问题进行类问题进行分类,则需要对分类,则需要对SVM进行组合。组合的策略有进行组合。组合的策略有“一对一一对一”和和“一对多一对多”。“一对多一对多”的思想是在该类样本和不属于该类的样的思想是在该
37、类样本和不属于该类的样本之间构建一个超平面,假设总共有本之间构建一个超平面,假设总共有k个类别,则需要构建个类别,则需要构建k个分类器,每个分类器分别用第个分类器,每个分类器分别用第 类的样本作为正样本,其余类的样本作为正样本,其余的样本作为负样本。该方法的缺点是样本数目不对称,负样的样本作为负样本。该方法的缺点是样本数目不对称,负样本比正样本要多很多,故分类器训练的惩罚因子很难选择。本比正样本要多很多,故分类器训练的惩罚因子很难选择。“一对一一对一”的方式是每两类样本间构造一个超平面,一共需要的方式是每两类样本间构造一个超平面,一共需要训练训练k(k-1)/2个分类器,最后识别样本时采用后验
38、概率最大法个分类器,最后识别样本时采用后验概率最大法选定待识别样本的类型,选定待识别样本的类型,“一对一一对一”的方法的缺点是训练的分的方法的缺点是训练的分类器比较多。类器比较多。8.4.3 8.4.3 人工神经网络人工神经网络人工神经网络(人工神经网络(ANN)是一种由大量简单处理单元构成的并)是一种由大量简单处理单元构成的并行分布式数学模型。人工神经网络主要从两方面模仿大脑工行分布式数学模型。人工神经网络主要从两方面模仿大脑工作:从外界环境中学习和用突触权值存储知识。神经元是神作:从外界环境中学习和用突触权值存储知识。神经元是神经网络处理信息的基本单位,是由突触权值、加法器、激活经网络处理
39、信息的基本单位,是由突触权值、加法器、激活函数三部分构成的非线性模型。函数三部分构成的非线性模型。8.4.3 8.4.3 人工神经网络人工神经网络对于多层感知器,通常采用著名的对于多层感知器,通常采用著名的BP算法来修正连接权算法来修正连接权值。下面简单介绍用于值。下面简单介绍用于MLP训练的训练的BP算法。训练分两步:算法。训练分两步:第一步是计算第一步是计算MLP的输出值;第二步是用的输出值;第二步是用BP算法更新网算法更新网络的连接权值。络的连接权值。8.4.3 8.4.3 人工神经网络人工神经网络具体步骤如下:具体步骤如下:1)设置初始权值及阈值,即设所有的权值及节点的阈值为)设置初始
40、权值及阈值,即设所有的权值及节点的阈值为一个小的随机数。一个小的随机数。2)给定新的输入值)给定新的输入值x1,xN及相应的理想输出信号及相应的理想输出信号d1,dM。 3)计算当输入)计算当输入x1,xN通过网络时的实际输出值通过网络时的实际输出值y1,yM。对于网络中任一节点对于网络中任一节点j,它的输出的计算步骤为:,它的输出的计算步骤为: 10iidi(属于 类)(不属于 类)1Njijijiuw x()1/(1 exp()jjjyf uu8.4.3 8.4.3 人工神经网络人工神经网络4)修正每个权值和阀值。从输出节点开始逐步向前递推,)修正每个权值和阀值。从输出节点开始逐步向前递推
41、,直到第一层。直到第一层。 当节点当节点j是输出节点时,理想输出明确,是输出节点时,理想输出明确,j可表示为可表示为 当节点当节点j是隐含节点时,理想输出不明确,是隐含节点时,理想输出不明确,j定义为定义为 5)转移到第)转移到第2步重复进行,直到各步重复进行,直到各 , 稳定为止。稳定为止。(1)( )ijijjiw tw tx(1)( )jjjtt(1)()jjjjjyydy(1)jjjkjkkxxwijwj8.4.3 8.4.3 人工神经网络人工神经网络MLP的训练属于用的训练属于用LMS准则使某目标函数极小的搜索程序。准则使某目标函数极小的搜索程序。当输入信号未到来时,所有输出节点的值
42、都为低值当输入信号未到来时,所有输出节点的值都为低值(0或或0.9)。该训练是有教师的训练且训练属迭代型,随着各训练样本的该训练是有教师的训练且训练属迭代型,随着各训练样本的重复进入,权值逐步调整,直到目标函数降到容许值或权值重复进入,权值逐步调整,直到目标函数降到容许值或权值不再变动为止。一般,为了使权值变化更加平滑,还要在不再变动为止。一般,为了使权值变化更加平滑,还要在BP算法更新权值时加入一个动量,即算法更新权值时加入一个动量,即反向误差传播算法(反向误差传播算法(BP算法)虽然可以很精确地实现函数的算法)虽然可以很精确地实现函数的逼近和模式的分类。但是从本质上讲,逼近和模式的分类。但
43、是从本质上讲,BP算法仍然是一种梯算法仍然是一种梯度算法,因此不可避免地存在局部最小值问题。度算法,因此不可避免地存在局部最小值问题。(1)( )( )(1)ijijjiijijw tw txw tw t8.4.3 8.4.3 人工神经网络人工神经网络网络结构的输出节点的选择,决定了两种人工神经网络模型网络结构的输出节点的选择,决定了两种人工神经网络模型在模式识别中的应用方式在模式识别中的应用方式:(1)多输出型)多输出型所谓多输出型,即对于多个类别,只有一个人工神经网络模所谓多输出型,即对于多个类别,只有一个人工神经网络模型,而这个网络有多个输出节点,每一个输出节点对应一个型,而这个网络有多
44、个输出节点,每一个输出节点对应一个类别。网络的结构是输入节点数对应于样点数或者样本的特类别。网络的结构是输入节点数对应于样点数或者样本的特征维数,而输出层的节点数等于类别数。征维数,而输出层的节点数等于类别数。(2)单输出型)单输出型所谓单输出型,即一个人工神经网络模型只有一个输出。这所谓单输出型,即一个人工神经网络模型只有一个输出。这样要识别多个类别,势必要准备多个人工神经网络模型。样要识别多个类别,势必要准备多个人工神经网络模型。8.5 应用与展望应用与展望u载人航天中的应用载人航天中的应用u儿童情绪能力评估儿童情绪能力评估u情感多媒体搜索情感多媒体搜索u智能机器人智能机器人u服务质量评估
45、服务质量评估儿童情绪能力评估儿童情绪能力评估情感计算是近年来新兴的情感计算是近年来新兴的一个多学科交叉的研究领一个多学科交叉的研究领域,是重大科学挑战课题域,是重大科学挑战课题之一之一儿童的情绪能力和性格儿童的情绪能力和性格儿童情感特质的培养和校正儿童情感特质的培养和校正儿童的性格培养和早期教育儿童的性格培养和早期教育具有较大的指导作用具有较大的指导作用本项目是以情感语音、人本项目是以情感语音、人脸表情和情感电生理参数脸表情和情感电生理参数为主的多模态儿童情绪分为主的多模态儿童情绪分析与分类的研究析与分类的研究通过每个儿童的行为表现方通过每个儿童的行为表现方式体现出来式体现出来儿童情绪能力的评测技术儿童情绪能力的评测技术对儿童往后的表现产生相当对儿童往后的表现产生相当积极正面的影响积极正面的影响情感多媒体搜索情感多媒体搜索非特定说话人非特定说话人声学特征声学特征情感识别模型情感识别模型服务质量考评服务质量考评特征规整化特征规整化