1、Lecture 424.4 多通道用户界面 n为适应目前和未来的计算机系统要求,人机界面应能支持时变媒体(time-varing media),实现三维、非精确及隐含的人机交互,而多通道人机界面是达到这一目的的重要途径。n80年代后期以来,多通道用户界面(Multimodal User Interface)成为人机交互技术研究的崭新领域,在国内外受到高度重视。Lecture 434.4多通道用户界面n多通道用户界面的研究是为了消除当前WIMP/GUI用户界面通信带宽不平衡的瓶颈,综合采用视线、语音、手势等新的交互通道、设备和交互技术,使用户利用多个通道以自然、并行、协作的方式进行人机对话,通过
2、整合来自多个通道的、精确的和不精确的输入来捕捉用户的交互意图,提高人机交互的自然性和高效性。多通道人机界面概念模型 Lecture 44n多通道人机界面主要解决科学计算可视化、虚拟现实对计算机系统提出的高效、三维和非精确的人机交互要求。n在多通道人机界面中,用户可以使用自然的交互方式,如语音、手势、眼神、表情等与计算机系统进行协同工作。n交互通道之间有串行/并行、互补/独立等多种关系,因此人机交互方式向人与人的交互方式靠拢,交互的自然性和高效性得到极大的提高。4.4多通道用户界面Lecture 454.4多通道用户界面n多通道用户界面主要关注人机界面中用户向计算机输入信息以及计算机对用户意图的
3、理解,所要达到的目标可归纳为如下方面:q(1)交互的自然性n使用户尽可能多地利用已有的日常技能与计算机交互,降低认识负荷;q(2)交互的高效性n使人机通讯信息交换吞吐量更大、形式更丰富,发挥人机彼此不同的认知潜力;q(3)与传统的用户界面特别是广泛流行的WIMP/GUI兼容。Lecture 464.4.1多通道用户界面的基本特点 n使用多个感觉和效应通道 n允许非精确的交互 n三维和直接操纵 n交互的双向性 n交互的隐含性 Lecture 474.4.1多通道用户界面的基本特点n1.使用多个感觉和效应通道q感觉通道侧重于多媒体信息的接受,效应通道侧重于交互过程中控制与信息的输入,两者密不可分、
4、相互配合。q一种通道(如语音)不能充分表达用户的意图时,需辅以其它通道(如手势指点)的信息;有时使用辅助通道以增强表达力。q交替而独立地使用不同的通道不是真正意义上的多通道技术,必须允许充分地并行、协作的通道配合关系。Lecture 484.4.1多通道用户界面的基本特点n2.允许非精确的交互q人类语言本身就具有高度模糊性,人类在日常生活中习惯于并大量使用非精确的信息交流;q允许使用模糊的表达手段可以避免不必要的认识负荷,有利于提高交互活动的自然性和高效性;q多通道人机交互技术主张以充分性代替精确性。Lecture 494.4.1多通道用户界面的基本特点n3.三维和直接操纵q人类的大多数活动领
5、域具有三维和直接操纵特点(数学的和逻辑的活动例外);q人生活在三维空间,习惯于看、听和操纵三维的客观对象,并希望及时看到这种控制的结果;q多通道人机交互的自然性反应了这种本质特点。Lecture 4104.4.1多通道用户界面的基本特点n4.交互的双向性q人的感觉和效应通道通常具有双向性的特点,如视觉可看、可注视,手可控制、可感触等;q多通道用户界面使用户避免生硬的、不自然的、频繁的、耗时的通道切换,从而提高自然性和效率;q视线跟踪系统可促成视觉交互双向性,听觉通道利用三维听觉定位器实现交互双向性。nEg:三维虚拟声音可使声响效果随用户头和身体的运动而改变n视觉通道交互双向性表现在眼睛既可以接
6、收视觉信息,又可以通过注视输入信息,形成视觉交互。Lecture 4114.4.1多通道用户界面的基本特点n5.交互的隐含性q追求交互自然性的多通道用户界面并不需要用户显式地说明每个交互成分,反之是在自然的交互过程中隐含地说明。q例如,用户的视线自然地落在所感兴趣的对象之上;又如,用户的手自然地握住被操纵的目标。Lecture 4124.4.2多媒体技术 n定义q多媒体(multimedia)的含义是使用计算机交互式综合技术和数字通信网技术处理多种表示媒体,如文本、图形、图像和声音,使多种信息建立逻辑连接,集成为一个交互系统。Lecture 4134.4.2多媒体技术n多媒体技术的组成部分包括
7、:q存储与访问技术;q表现与表达技术;q实时处理技术;q接口技术;q人机交互界面技术等。Lecture 4144.4.2多媒体技术n多媒体技术与人机交互技术q多媒体技术使人机交互技术最终要向着更接近于人的自然方式发展,使计算机具有听觉和视觉,以更自然的方式与人交互。q多媒体技术引入了动画、音频、视频等动态媒体,大大丰富了计算机表现信息的形式,拓宽了计算机输出的带宽,提高了用户接受信息的效率,使人们可以得到更直观的信息,从而简化了用户的操作,扩展了应用范围。Lecture 4154.4.2多媒体技术q它能提高人对信息表现形式的选择和控制能力。q能提高信息表现形式与人的逻辑和创造能力的结合程度,在
8、顺序、符号信息以及并行、联想信息方面扩展人的信息处理能力。q多媒体信息比单一媒体信息对人具有更大的吸引力,有利于人对信息的主动探索而不是被动接受。q另外,由于多媒体所带来的信息冗余性,重复使用别的媒体或并行使用多种媒体可消除人机通信过程中的多义性及噪声。Lecture 4164.4.3虚拟现实技术 n虚拟现实(Virtual Reality)q又称虚拟环境(Virtual Environment)。q虚拟现实系统向用户提供沉浸(immerse)和多感觉通道(multi-sensory)体验。q在虚拟现实中,人是主动参与者,复杂系统中可能有许多参与者共同在以计算机网络系统为基础的虚拟环境中协同工
9、作。n虚拟现实系统具有三个重要特点:q沉浸感(Immersion)q交互性(Interaction)q构想性(Imagination)Lecture 4174.4.3虚拟现实技术n虚拟现实中的基本要素:q计算机生成的虚拟世界(环境)必须是一个能给人提供视觉、听觉、触觉、嗅觉以及味觉等多种感官刺激的世界。目前虚拟现实通常由视觉、听觉和触觉三种刺激构成。q虚拟现实系统实质上是一种高级的人机交互系统。这里的交互操作是对多通道信息进行的,并且对沉浸式系统要求采用自然方式的交互操作,对于非沉浸式系统也可使用常规交互设备进行交互操作。Lecture 418虚拟世界的概念模型n虚拟世界的概念模型q虚拟现实是
10、人们可以通过视、听、触等信息通道感受到设计者思想的用户界面,由两部分组成:一部分是创建的虚拟世界(环境),另一部分是为介入者(人);q虚拟世界的核心是强调两者之间的交互操作,即反映出人在虚拟世界(环境)中的体验;q人机交互是虚拟现实的核心。介入者感知系统反应系统虚拟世界(环境)感官刺激信号反应动作Lecture 419虚拟现实的概念模型n理解虚拟现实的概念模型q从虚拟环境对人的作用来看,虚拟现实的概念模型可以看作为“显示/检测”模型。q从人对虚拟环境的作用来看,也就是从用户的角度看,上述概念模型可以看作“输入/输出”模型。n输入是指用户感知系统接受虚拟环境提供的各种感官刺激信号;n输出是指用户
11、对虚拟环境系统做出的反映动作。Lecture 420虚拟现实与多媒体及多通道q虚拟现实技术正是一种以集成为主的技术,其人机界面可以分解为多媒体、多通道界面。q从本质上说,多媒体用户界面技术侧重解决计算机信息表现及输出的自然性和多样性问题,而多通道技术侧重解决计算机信息输入及理解的自然性和多样性问题。4.4.4眼动跟踪(Eye-Gaze Tracking)n与视觉有关的人机交互自始至终都离不开视线的控制。n如果能通过用户的视线盯着感兴趣的目标,计算机便“自动”将光标置于其上,人机交互将更为直接,也省去了上述交互过程中的大部分步骤。n有关视觉输入的人机界面研究主要涉及两个方面q一是视线跟踪原理和技
12、术的研究;q二是在使用这种交互方式后,人机界面的设计技术和原理的研究。4.4.4眼动跟踪n早期的视线跟踪技术首先应用于心理学研究、助残等领域,后来被应用于图像压缩及人机交互技术。n视线追踪主要用于军事领域(如飞行员观察记录),阅读及帮助残疾人通信等。n视线跟踪技术有强迫式与非强迫式、穿戴式与非穿戴式、接触式与非接触式之分。nthe typical pattern of eye movement during readingYarbus(1967)Stanford University和The Poynter Institute合作研究人们对于Internet上新闻的注意程度 内 容注视率文章文
13、字(Articles text)92%简讯(Briefs)82%照片(Photos)64%标题广告(Banner Ads)45%图形(graphics)22%眼动跟踪用于图像抽象其他应用n广告效用测试n汽车驾驶模拟n婴幼儿行为分析1.眼动的主要形式 n眼动有三种主要形式(在人机交互中,眼动跟踪主要利用跳动和注视:q跳动(Saccades)n在正常的视觉观察过程中,眼动表现为在一系列被观察目标上的停留及在这些停留点之间的飞速跳跃。n在注视点之间的飞速跳跃称为眼跳动。q注视(Fixations)n停留时间至少持续100ms以上的称为注视。在注视中,眼也不是绝对静止不动,会有微小运动,但大小一般不会
14、超过1视角。n绝大多数信息只有在注视时才能获得并进行加工。q平滑尾随跟踪(Smooth Pursuit)n缓慢、联合追踪的眼动通常称为平滑尾随跟踪。2.眼动跟踪的基本要求 n在人机交互中眼动跟踪技术必须满足以下几点要求,才能满足实际需求:q不能妨碍视野;q不要与用户接触,对用户基本无干扰;q精度要高;q动态范围要从1弧分(六十分之一弧度)到45;q反映速度要快,实时响应;q能与获取的身体和头部运动相配合;q定位校正简单;q可作为计算机的标准外设。3.眼动跟踪的基本原理 n用红外摄像机摄取受试者眼睛图像,经过MPEG编码后送入计算机进行图像数据采集分析,实时计算出眼珠的水平和垂直运动的时间、位移
15、距离、速度及瞳孔直径、注视位置。n数据处理的目的是滤除噪声、识别定位及局部校准与补偿等,最重要的是提取出用于人机交互所必需的眼睛定位坐标。n但是由于眼动存在固有的抖动,以及眼睛眨动、头部剧烈的移动所造成的数据中断,存在许多干扰信号,提取有意眼动数据非常困难。解决此问题的办法之一是利用眼动的某种先验模型加以弥补。3.眼动跟踪的基本原理 n人眼的注视点由头的方位和眼睛的方位两个因素决定n1)以硬件为基础的视线跟踪技术q利用图像处理技术,使用能锁定眼睛的眼摄像机,通过摄入从人眼角膜和瞳孔反射的红外线连续地记录视线变化,从而达到记录分析视线跟踪过程的目的。需要用户戴上特制的头盔或者使用头部固定支架,对
16、用户的干扰很大。n(2)以软件为基础的视线跟踪技术q先利用摄像机获取人眼或脸部图像,然后用软件实现图像中人脸和人眼的定位与跟踪,从而估算用户在屏幕上的注视位置。4.主要的眼动测量方法 n(1)瞳孔-角膜反射向量法(基于注视点)q通过固定眼摄像机获取眼球图像,利用亮瞳孔和暗瞳孔的原理,提取出眼球图像内的瞳孔,利用角膜反射法校正眼摄像机与眼球的相对位置,把角膜反射点数据作为眼摄像机和眼球的相对位置的基点,瞳孔中心位置坐标就表示视线的位置。设置头镜校正眼摄像机一看距离,二看高度,三看偏斜,四看中心,五看焦距。n(2)眼电图法(EOG)基于眼动力学q眼球在正常情况下由于视网膜代谢水平较高,因此眼球后部
17、的视网膜与前部的角膜之间存在着一个数十毫伏的静止电压,角膜区为正,视网膜区为负。当眼球转动时,眼球的周围的电势也随之发生变化;将两对氯化银皮肤表面电极分别置于眼睛左右、上下两侧,就能引起眼球变化方向上的微弱电信号,经放大后得到眼球运动的位置信息。眼动测量方法 比较5.米达斯接触问题与解决方法n“米达斯接触(Midas Touch)”问题:q如果鼠标器光标总是随着用户的视线移动,可能会引起用户的厌烦,因为用户可能希望能随便看着什么而不必非“意味着”什么,更不希望每次转移视线都可能启动一条计算机命令。n避免“米达斯接触”问题的方法:在理想情况下,应当在用户希望发出控制时,界面及时地处理其视输入,而
18、在相反的情况下则忽略其视线的移动。n可采用其他通道(如键盘或语音)进行配合。ASL H-BN 6 型高速双目眼动系统n用来测量被试眼睛相对于头部的注视线。记录的数据包括时间、眼睛位置的x、y轴坐标以及瞳孔直径。能够识别注视,画出扫描模式,让用户在场景上定义感兴趣区域。n性能:q采样和输出速率:60Hz、120Hz和240Hz,无分辨率损失q测量原理:瞳孔-角膜反射q系统精确度:0.5度视角范围q分辨率:0.25度视角q头部移动:不受限制q视觉范围:水平50,垂直40q 重量(包括头箍、2个光学模块、2个单片镜片和场景摄像头组件):567克 ASL R6 型单目眼动系统n用于所提供的刺激物限于单
19、一平面(如计算机或视频监视器),且被试不希望用头戴式光学系 统的场合。该系统允许被试头部在约 1 平方英尺范围内运动,从而减少了对头部的限制。n性能:q采样和输出速率:50或可选60Hz、120Hz和240Hz;q测量原理:瞳孔-角膜反射;q系统精确度:0.5度视角范围;q分辨率:0.25o视角;q头部移动:1平方英尺;q光学系统距眼睛最大距离:40英寸;q视觉范围:水平50度,垂直40度;q尺寸(高/宽/厚):4英寸/5.5英寸/6英寸 重量:2.75磅 4.4.5手势识别(Gesture Recognition)n一个简单的手势蕴涵着丰富的信息,人与人可以通过手势传达大量的信息,实现高速的
20、通信。n将手势运用于计算机能够很好地改善人机交互的效率。n在多数情况下我们笼统地认为手势是人的上肢(包括手臂、手和手指)的运动状态。手势的分类 n交互性手势与操作性手势 q在交互性手势中手的运动表示特定的信息(如乐队指挥),靠视觉来感知;操作性手势不表达任何信息(如弹琴);n自主性手势和非自主性手势 q自主性手势与语音配合用来加强或补充某些信息(如演讲者用手势描述动作、空间结构等信息);n离心手势和向心手势 q离心手势直接针对说话人,有明确的交流意图,向心手势只是反应说话人的情绪和内心的愿望。中国手指字母集n手势样本集为中国手指字母集,共30个字母,如下所示:2002-1-25 43 计算机识
21、别和解释手势n利用计算机识别和解释手势输入是将手势应用于人机交互的关键前提,识别手势的手段有:q鼠标器和笔:n优点是仅利用软件算法来实现,从而适合于一般桌面系统;n缺点是只能识别手的整体运动而不能识别手指的动作。q数据手套:n主要优点是可以测定手指的姿势和手势;n相对而言较为昂贵,并且有时会给用户带来不便。q计算机视觉:n利用摄像机输入手势,优点是不干扰用户,这是一种很有前途的技术;n在技术上存在很多困难,还难以胜任手势识别和理解的任务。主要手势识别技术q模板匹配技术:n一种最简单的识别技术,将传感器输入的原始数据与预先存储的模板进行匹配,通过度量两者之间的相似度完成识别任务。q神经网络技术:
22、n一种较新的模式识别技术,具有自组织和自学习能力,具有分布性特点,抗噪声能力比较强,能处理不完整的模式,并具有模式推广能力。q统计分析技术:n通过统计样本特征向量来确定分类器的一种基于概率的分类方法。在模式识别中一般采用贝叶斯极大似然理论确定分类函数。WsphericalMPPIPDIPVIVIIIIIdirectivedirectivedirectiveflexiveflexiveflexive手模型的关节及运动类型 每一个手指()具有4个自由度,其中手指的基部(MP)有两个自由度,弯曲和旋转;手指的中间关节处(PIP)和末端关节处(DIP)分别各有一个自由度,主要是弯曲运动;大拇指除了与其
23、它4个手指一样具有4个自由度外,即其绕食指为轴的旋转运动和弯曲运动,它还有一个外展运动,所以大拇指具有5个自由度;手掌的前后左右运动具有2个自由度。因此,手运动总共具有23个自由度,即状态空间为23维。属性约简(北京航空航天大学)n利用粗集(rough set)理论进行约简实用的手势识别n手势特点:q手是弹性物体,因此同一手势之间差别很大;q手有大量冗余信息,由于人识别手势关键是识别手指特征,因此手掌特征是冗余的信息;q手的位置是在三维空间,很难定位;q手的表面是非平滑的,容易产生阴影。n 目前较为实用的手势识别是基于数据手套。因为数据手套不仅可以输入包括三维空间运动在内的较为全面的手势信息,
24、而且比基于计算机视觉的手势在技术上要容易实现。手势交互系统+从手势交互信息采集的途径是接触式还是非接触式的,或者障碍和非障碍式的,可将手势交互系统划分为基于传感器的和基于视觉的两类交互方式。1.基于传感器的手势交互+按照传感器的类型大致可以分为:加速度传感器、重力传感器、表面肌电信号数字传感器、数据手套等。1.1 加速度传感器+任天堂出品的Wii游戏设备在手柄里安装加速器传感器、陀螺仪和红外线(加速器传感器提供速度和位移数据,陀螺仪提供方位角信息,红外线用于定位,通过自然、直观的动作控制游戏中的方向、速度等操作。图1 Wii游戏1.2 表面肌电信号数字传感器+表面肌电信号数字传感器采集到的表面
25、肌电信号是神经肌肉系统在进行运动时产生的生物电变化经表面电极引导、放大、显示和记录得到的一系列的随时间变化的一维电压信号,可以反映出肌肉的活动状态、强度等信息,如:手臂和关节部位的弯曲度、肌肉阻抗等。1.3 数据手套+基于数据手套的手势输入通常是根据戴在人手上的装配有位置跟踪设备的数据手套利用光纤直接测量手指弯曲和手的位置来实现手势输入。数据手套可以采集手势在空间中的运动、手型和手指关节弯曲度等相关信息,易于携带,受环境影响小,有着较好的可移动性,且采集的信息稳定、丰富。图2 数据手套交互手势2.基于视觉的手势交互n利用视觉信息的手势交互原型系统的构建可以分为两类:n一类是采用颜色标记的手进行
26、交互,如麻省理工学院的6Sense系统(如图3)以不同颜色的指套和拼色手套虚拟操作投影或实景中的目标,通过头戴式的摄像头捕捉并识别手势。n另一类是采用不加标记的手(裸手)进行交互,如如今非常成功的xbox360游戏外设kinect(如图4),它不需要使用任何控制器,玩家就可以通过该设备使用肢体控制游戏中的虚拟人物及工具。图3 麻省理工学院的6Sense系统图4 kinect游戏2.基于视觉的手势交互n基于视觉的手势交互系统是利用摄像机采集手势信息,并进行识别。目前已经出现很多基于视觉的手势交互系统,它们有的不但可以完全替代传统鼠标等输入设备,而且也可以替代其他触摸输入设备,通过手势表示可以获得
27、更多丰富的信息。nHyosun Kim1等人研究的背投影设备交互系统,利用手指上戴上的特殊材料,在黑暗的条件下利用摄像头拍摄图像,通过视觉分析得到手势信息,从而进行交互。1 H Kim,DW Fellner,Interaction with Hand Gesture for a Back-Projection Wall J,Computer Graphic International,2004:4-6.2.基于视觉的手势交互nHardenberg2表述了一个基于单摄像头的捕捉手势系统,使用了比较慢的图像更新索引来作图像的差分,从而对变化的光照进行相应的反应。在他们的系统中,手势可以替代鼠标,使
28、用一个手指点击和一秒钟的停顿表示点击。2 Von Hardenberg.C,Berard.F,Bare-hand human-computer interaction J.In Proceeding of the 2001 Workshop on Perceptive User interfaces,2001:1-8.2.基于视觉的手势交互nVisual Touchpad3是一个双手的手势交互系统,利用摄像头跟踪手在设备表面移动。这个表面是黑色白边的,通过图像分析可以进行坐标标定。黑色的背景使得图像分析更简单,高度的估计可以用来对手势是否触及表面进行判断,系统在敏感度上做了比较高的要求,即手势
29、高低相差1cm,那么就会表示有相关动作。3 Malik.S,Laszlo.J,Visual touchpad:a twohanded gestural input deviceJ.In Proceedings of the 6th international Conference on Multimodal interfaces,2004:289-296.2.基于视觉的手势交互-挑战n基于视觉的手势交互方式表达的意思丰富,具有很高的信息量,比如通过手的不同手势、位置、方向等可以组合出非常多信息,并且更加符合人们的思维方式。n而且手势交互可以与其他的交互方式共同组成一组信息,比如脸部动作、眼势等
30、。n当单独的通过手势无法判断用户的信息时,就要结合考虑人的语音、表情后一起判断得到一个确切的含义。n然而,随着更多交互方式的融入,必然增加了在识别过程中的难度,况且人的动作信息有时候不是非常的准确,或者说不是表达的很到位,不像键盘或者鼠标事件那样非常的确定。因此,这也给在图像的处理识别提出了更高的要求。3.不同类型手势交互对比优点缺点基于视觉的手势交互成本低;采集到的信息量大;在摄像能捕捉到的范围内自由度比较高不易携带;可移动性弱;环境影响较大基于数据手套的手势交互易于携带;数据稳定;不受环境影响;采集信息丰富;识别率高设备成本昂贵;易损坏;灵活度较低,舒适度低基于表面肌电信号数字传感器的手势
31、交互成本低;易于携带;不受环境影响;较好的可移动性;对于手势、手腕旋转信息和精确手指动作有很高识别率需要专人协助佩戴;虚紧贴皮肤,舒适度低;人为因素较多;采集信息差异小,分类难度大基于加速度传感器的手势交互成本低;易于携带;不受环境影响;较好的可移动性;可检测手的空间运动信息无法感知手型;对于细微的动作识别率不高4.4.7 语音识别(speech recognition)n语音识别是计算机通过识别和理解过程把语音信号转变为相应的文本文件或命令的技术。n语音识别又是一门交叉学科,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。语音识别涉及的技术 n数字化语音信号
32、的转换和量化涉及到信号表示问题,需要研究如何使系统在传感器与环境的变化中保持性能的稳定,以适应这些变化。n各种语音必须被恰当地建模,目前采用的最广泛的建模技术是隐马尔科夫模型(HMM)。n语言的约束问题。n语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。n目前主流的语音识别技术是基于统计的模式识别的基本理论,如下图所示。语音识别系统的处理流程语音识别系统的处理流程 预处理模型库测度估计特征提取语音输入参考模型测试特征后处理识别结果模型库语音识别系统的组成 n语音特征提取 q从语音信号中提取语音的特征,既可以获得语音的本质特征,也起到数据压缩的
33、作用。q输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、端点检测、预加重等。n声学模型 q声学模型对应于语音到音节概率的计算。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。q目前采用的最广泛的建模技术是隐马尔科夫模型HMM建模和上下文相关建模。卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。统计语音识别数学表示n首先,统计语音识别的最基本问题是,给定输入信号或特征序列O=O1,O2,On,符号集(词典)W=W1,W2,Wn,求解符号串W=W1,W2,Wk使得:W=argmaxP(W|O)n对语音识别系
34、统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。nHMM的打分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。n1870年,俄国有机化学家Vladimir V.Markovnikov第一次提出马尔科夫模型q马尔可夫模型q马尔可夫链 q隐马尔可夫模型nHMM最初的应用之一是开始于20世纪70年代中期的语音识别。隐马尔科夫模型HMM的由来马尔可夫性n如果一个过程的“将来”仅依赖“现在”而不依赖“过去”,则此过程具有马尔可夫性,
35、或称此过程为马尔可夫过程nX(t+1)=f(X(t)nMarkov 链q随机序列Xn,在任意时刻n,它可以处在状态s1,s2,sn,且它在m+k时刻所处的状态为sm+k的概率只与它在m时刻的状态sm有关,而与m时刻以前它所处状态无关。HMM概念n隐马尔可夫模型是统计模型q它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。q观察到的事件并不是与状态一一对应,而是通过一组概率分布相联系。HMMq在正常的马尔可夫模型中,状态对于观察者来说是直接可见的。这样状态的转换概率便是全部的参数。q而在隐马尔可夫模型中,状
36、态并不是直接可见的,但受状态影响的某些变量则是可见的。每一个状态在可能输出的符号上都有一概率分布。因此输出符号的序列能够透露出状态序列的一些信息。HMM三个经典问题n已知模型参数,计算某一特定输出序列的概率q通常使用forward算法解决n已知模型参数,寻找最可能的能产生某一特定输出序列的隐含状态的序列q通常使用Viterbi算法解决 n已知输出序列,寻找最可能的状态转移以及输出概率q通常使用Baum-Welch算法以及Reversed Viterbi算法解决语音识别中的HMMn语音识别中使用HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对识别基元建模,一个音素就是一个三至五状态的HM
37、M,一个词就是构成词的多个音素的HMM串行起来构成的HMM,而连续语音识别的整个模型就是词和静音组合起来的HMM。n语音识别技术在实际使用中达到了较好的效果,但如何克服影响语音的各种因素还需要更深入地分析。q不同人语音问题q噪音问题q针对英语提出的技术在汉语中如何使用也是一个重要的研究课题q四声等汉语本身特有的问题也有待解决。语音识别技术存在问题 Microsoft Speech SDK实现文本语音转换n#include n#pragma comment(lib,ole32.lib)/CoInitialize CoCreateInstance需要调用ole32.dlln#pragma comm
38、ent(lib,sapi.lib)/sapi.lib在SDK的lib目录中nint main(int argc,char*argv)nnIspVoice*pVoice=NULL;n/COM初始化:nif(FAILED(:CoInitialize(NULL)nreturn FALSE;n/获取IspVoice接口nHRESULT hr=CoCreateInstance(CLSID_SpVoice,NULL,CLSCTX_ALL,nIID_IspVoice,(void*)&pVoice);nif(SUCCEEDED(hr)nnhr=pVoice-Speak(LHello world,0,NULL)
39、;npVoice-Release();npVoice=NULL;n:CoUninitialize();/释放资源nreturn TRUE;nn 伴随着语音识别技术的不断发展,诞生了全球首套多语种交谈式语音识别系统e-talk。它是全球唯一拥有中英混合语言的识别系统,能听、能讲普通话、广东话和英语,还可以高度适应不同的口音,因而可以广泛适用于不同文化背景的使用者,尤其是中国地区语言差别较大的广大用户。现在,语音识别已经在金融、证券、电信和寻呼、旅游、娱乐、军事等方面取得了突破性的应用。应用 MIT设计的在剑桥区的中国餐馆分布图 GALAXY的服务器允许用户存取航班时刻表,电话黄页查号簿,城市地图
40、和天气预报的真实数据库。现在的版本由三个领域服务器构成:城市导游,航班订票和天气服务。GALAXY是语音技术走出实验室迈出的重要的一步。口语翻译的一个重要目的就是帮助聋哑人与正常人交流。首先,聋哑人要戴上一副特制的手套,计算机根据他打出的手语进行识别,然后,通过语音合成系统就可以把图像信息翻译成语言信息。4.4.8表情识别 n面部表情是人体语言的一部分。n人的面部表情不是孤立的,它与情绪之间存在着千丝万缕的联系。n人的各种情绪变化以及对冷热的感觉都是非常复杂的高级神经活动,如何感知、记录、识别这些变化过程是表情识别的关键。面部表情的特点与分类 对面部表情的分类有两个不同的体系,一类是对情绪的维
41、度分析,另一类是对情绪的分类。多数的维度分析通常把情绪用三维坐标来描述。许多研究者曾对情绪进行过分类。汤姆金列出八种基本情绪:兴趣、快乐、惊奇、痛苦、恐惧、愤怒、羞怯、轻蔑;伊扎德在此基础上又增加了厌恶和内疚两种情绪;Ekman定义了六种最基本的表情:惊奇、恐惧、厌恶、愤怒、高兴、悲伤,以及三十三种不同的表情倾向。表情额头、眉毛眼 睛脸的下半部惊奇眉毛抬起,变高变弯眉毛下的皮肤被拉伸皱纹可能横跨额头眼睛睁大,上眼皮抬高,下眼皮下落。眼皮可能在瞳孔的上边和/或下边露出来。下颌下落,嘴张开,唇和齿分开,但嘴部部紧张,也不拉伸。恐惧眉毛抬起并皱在一起额头的皱纹只集中在中部,而不横跨整个额头上眼睑抬起
42、,下眼皮拉紧。嘴张,嘴唇或轻微紧张,向后拉;或拉长,同时向后拉。厌恶眉毛压低,并压低上眼睑在下眼皮下部出现横纹,脸颊推动其向上,但并不紧张。上唇抬起;下唇与上唇紧闭,推动上唇向上,嘴角下拉,唇轻微凸起;鼻子皱起;脸颊抬起。愤怒眉毛皱在一起,压低;在眉宇间出现竖直皱纹下眼皮拉紧,抬起或不抬起;上眼皮拉紧,眉毛压低;眼睛瞪大,可能鼓起。唇有两种基本位置:紧闭,唇角拉直或向下;张开,仿佛要喊;鼻孔可能张大。高兴眉毛稍微下弯下眼脸下边可能有皱纹,可能鼓起,但并不紧张;鱼尾纹从外眼角向外扩张。唇角向后拉并抬高;嘴可能被张大,牙齿可能露出;一道皱纹从鼻子一直延伸到嘴角外部;脸颊被抬起。悲伤眉毛内角皱在一起
43、,抬高,带动眉毛下的皮肤眼内角的上眼皮抬高嘴角下拉嘴角可能颤抖计算机面部表情的识别的三个步骤 n表情的跟踪 q以某种方式将表情信息从外界摄取出来。n表情的编码 q即对面部表情进行编码。基于面部运动确定表情的思想,Ekman和Friesen于1978年提出了一个面部动作编码系统(Facial Action Coding System,FACS),它是基于对所有引起面部动作的脸的“动作单元”的枚举编制而成的。n表情的识别 q面部表情的识别可以通过对FACS中的那种预定义的面部运动的分类来进行,而不是独立地确定每一个点。主动外观模型跟踪基本特征点n主动外观模型(Active Appearance M
44、odels,AAMs),基于统计分析信息建立先验模型的方法,用来对物体特征的定位。q同时包含了物体的形状(shape)和纹理(texture)信息,对全局纹理也进行了匹配,减少了局部收敛,是一种建立二维模型的良好方法,灵活并且有效。q人脸识别和面部特征定位中使用这一方法得到了较好的效果。人脸特征点初始化AAM模型nAAM进行人脸特征点定位过程主要包括两部分:外观模型的建立和模型的匹配。q定义每个人脸都包含由若干顶点通过三角化得到的基本形状,并对人脸形状s用这m个顶点的横纵坐标描述为,其中xij、yij分别为训练集中第i幅人脸图中第j个特征点的坐标值。q对得到的人脸各特征点分布进行统计分析,利用
45、主成分分析(PCA)方法得到平均形状向量S0和相互正交的特征形状Si,这样任意形状S可以看成基本形状S0和n个特征形状的线性组合,因此对形状建模为q将所有的训练集样本人脸纹理经过分段仿射变换到S0中,使各纹理的像素数统一,这样经过纹理对齐后依然使用PCA降维,得到平均纹理A0和相互正交的特征纹理Ai,同形状相似,任意纹理A都可以看成由基本纹理和特征纹理的线性组合,则相应线性纹理建模为(1)(2)q将形状模型和纹理模型联合起来,再次使用PCA进一步降维,去除掉形状参数和纹理参数之间的一定相关性,从而得到最终的组合外观模型q这样,只要操作外观模型参数c变化就能够同时变化形状及纹理进而控制整个人脸模
46、型变化,表示任意一幅人脸图像。(3)nAAM过程q首先为人脸的形状和纹理分别进行建模得到各自的模型,q然后以一定方式结合形状和纹理模型,从而建立起可以描述整个人脸变化的统计外观模型。qAAM识别人脸图像是使用了基于优化算法进行搜索的基本思想,将合成的模型人脸去匹配给出的目标人脸,用之间的差异不断修正合成人脸,以使模型与目标人脸相适应,最终形成反映目标人脸形状和纹理的合成模型图,从而得到人脸特征点的位置。表情识别技术的应用表情识别技术的应用 Sim-Graphics于1994年开发的虚拟演员系统(VActor)就是一个例子。此系统要求用户戴上安有传感器的头盔,传感器触及脸的不同部位,使它们能够控
47、制计算机生成的形象。目前,VActor系统还能够与一个由Adaptive Optics Associates生产的红外运动分析系统结合使用,在这种情况下需要将红外反射头粘贴到用户的脸上,以跟踪记录用户的面部表情变化。此外,有的系统还通过摄象机拍摄用户的面部表情,然后利用图像分析和识别技术进行表情识别,这样可以减少各种复杂仪器对用户的影响,使人机交互更加真实自然。4.4.9手写识别n发展手写识别技术并嵌入到各种设备中,将是手写识别技术未来发展的重要方向之一。n世界上绝大多数语言的字符都可以用Unicode的形式来表示。n联机手写识别技术的优点是不需专门学习与训练、不必记忆编码规则、安装后即可手写
48、输入汉字,是最简单方便的输入方式。同时符合人的书写习惯,可以一面思考、一面书写,不会打断思维的连续性,是最自然的输入方式。手写识别的形式和约束n脱机(off-line,又称离线)识别:q脱机识别就是机器对于已经写好或印刷好的静态的语言文本图像的识别;n联机(on-line,又称在线)识别:q联机识别是指用笔在输入板上写:用户一边写,机器一边进行识别,可实时人机交互。n手写体识别的方法和识别率取决于对手写约束的层次,这些约束主要是手写的类型、写字者的数量、词汇量的大小以及空间的布局。显然,约束越宽识别越困难。1.联机手写识别 n联机手写文字的识别过程:q预处理;归一化;特征抽取;特征匹配;汉字手
49、写输入板预处理模式表达(特征提取)判别(分类或句法分析)字典(特征模板集合或句法规则集合)汉字代码联机手写识别原理框图联机手写识别原理框图 汉王笔、金山在WPS 2000手写系统、慧笔、紫光笔、文友笔、手写之星、蒙恬笔等 2.脱机手写识别 n脱机手写识别比印刷体汉字识别、联机手写体识别都要困难。n脱机手写识别得到的描述则是点阵图像,要得到笔段的点阵通常需要细化运算。n细化会损失一些信息,并且不可能得到时间顺序信息。n脱机识别中,笔画与笔画之间经常粘连,很难拆分,而且笔段经过与另一笔段交叉分成两段后,也难以分清是否应该连起来。汉字识别的方法n结构识别q结构识别方法的出发点是汉字的组成结构。汉字是
50、由笔划(点、横、竖、撇、捺等)、偏旁、部首构成,通过把复杂的汉字模式分解为简单的子模式直至基本模式元素,对子模式的判定以及基于符号运算的匹配算法,实现对复杂模式的识别。q结构识别法的优点是区分相似字的能力强,缺点是抗干扰能力差。汉字识别的方法n统计识别q统计识别方法是将汉字看为一个整体,其所有的特征是从整体上经过大量的统计而得到的,然后按照一定准则所确定的决策函数进行分类判决。统计识别的特点是抗干扰性强,缺点是细分能力较弱。n神经网络q神经网络具有学习能力和快速并行实现的特点,因此可以通过神经网络分类器的推广能力准则和特征提取器的有效特征提取准则,对手写字符进行识别。影响汉字识别率的因素 n笔