1、智能识别人工智能导论5.1计算机视觉人类理解世界,最重要的感官之一是视觉,通过眼睛观察事物和捕捉信息,人类从外界获得的信息约有75来自视觉系统。同样,计算机视觉也是一双“眼睛”,通过它,计算机可以识别物体、运动分析、姿态估计等。图像视频识别第一部分第二部分第三部分计算机视觉技术简介计算机视觉技术的工作原理计算机视觉的相关学科计算机视觉计算机视觉技术简介计算机视觉系统计算机视觉(ComputerVision, CV)是一门研究计算机如何用“眼”的科学,即对人类视觉的模拟。具体来说,让计算机具有对周围世界的空间物体进行传感、抽象、判断的能力,从而达到识别、理解的目的。一般的计算机视觉系统具体实现分
2、为个阶段。计算机视觉系统计算机视觉系统实现过程计算机视觉应用领域计算机视觉是一门综合性的学科,已经应用在制造业、工业检验、文档分析、医疗诊断、军事目标跟踪、自主导航等系统当中。计算机视觉技术的应用领域 计算机视觉技术的工作原理计算机视觉主要目标计算机视觉的主要目标就是用计算机模拟实现人类的视觉功能,使计算机能像人类一样观察并理解世界,具备自主适应环境的能力。但是要达到这个目标,还需要很长的时间去努力。比如,计算机视觉的一个重要应用领域就是自主车辆的视觉导航,还没有条件实现像人那样能识别和理解任何环境,完成自主导航的系统,所以实现在高速公路上具有道路跟踪能力,可避免与前方车辆碰撞的视觉辅助驾驶系
3、统成为中期研究目标。计算机视觉工作原理计算机视觉的工作原理就是对事物进行图片或者视频采集、预处理和高级处理的过程,即借助摄影机和计算机的识别、追踪、测量、感知等方法来捕捉目标对象,在此基础上进行图像信息处理,使计算机处理后的图像更加适合人眼观察或者传输给仪器进行检测等高级处理。计算机视觉工作原理计算机视觉技术的工作原理计算机视觉的相关学科图像处理图像处理通常是把一幅图像变换成另外一幅图像,也就是说,图像处理系统的输入是图像,输出仍然是图像,信息恢复任务则留给人来完成,与计算机视觉有相同的目标。计算机图形学通过几何基元,如线、圆和自由曲面,来生成图像,它在可视化(Visualization)和虚
4、拟现实(Virtual Reality)中起着很重要的作用。计算机视觉正好是解决相反的问题,即从图像中估计几何基元和其它特征。因此,计算机图形学属于图像综合,计算机视觉属于图像分析。模式识别模式一般指一类事物区别于其它事物所具有的共同特征,图像就是模式的一种。人工智能(AI)涉及到智能系统的设计和智能计算的研究,在经过图像处理和图像特征提取过程后,接下来要用人工智能方法对场景特征进行表示,并分析和理解场景。视觉功能就是人类智能的体现。神经生理学与认知科学将人类视觉作为主要的研究对象,计算机视觉中已有的许多方法与人类视觉极为相似,许多计算机视觉研究者对研究人类视觉计算模型比研究计算机视觉系统更感
5、兴趣,希望计算机视觉更加自然化,更加接近生物视觉。5.2图像视频识别在日常生活中,图像视频对人类来说并不陌生,它是对客观存在的物体对象进行生动的描述。图像视频识别技术是在20世纪50年代后期开始现代的研究,经过半个世纪的发展,已成为人工智能的一个重要领域。计算机视觉第一部分第二部分第三部分图像的分类图像的表示与描述图像处理的方法第四部分图像视频识别的应用领域图像视频识别图像的分类按图像亮度等级分类(1)二值图像:图像上的像素只有黑、白两种灰度等级。(2)灰度图像:从黑到白一般有256种灰度等级的图像。二值图像灰度图像按图像色彩特征分类(1)黑白图像:只有黑色与白色两种颜色的图像。(2)彩色图像
6、:每个像素通常是由红(R)、绿(G)、蓝(B)三个分量来构成现实中的彩色信息,分量介于(0,255)。黑白图像彩色图像按图像时间变换分类(1)活动图像:随着时间变化的动态图像。(2)静止图像:不随时间变化的静止图片。活动图像静止图像按图像空间关系分类(1)二维图像:平面图像。(2)三维图像:立体图像。二维图像三维图像图像的表示与描述图像的表示与描述图像的表示与描述方法种类繁多,人眼所看到的图像是由于光线照射在图像上并经过漫反射作用映入眼睛中成像,可以数字化公式描述为I=f(x,y,z,t),其中,x、y、z是描述空间的位置,为波长,t为时间。若图像是静止的灰度图,就可以描述为I=f(x,y)。
7、图像描述方法图像处理的方法图像的增强图像增强是通过调整对比度改善图像的质量和突出显示的视觉效果。处理前的效果处理后的效果图像的光滑图像光滑是通过对图像去噪声处理,即去除实际成像过程中因成像设备和环境所造成的图像失真,提取有用信息。处理前的效果处理后的效果图像的数据编码和传输图像数据编码使通过改变图像的表示域和表示数据进行编码,简化处理问题、利于特征提取、加强图像信息理解、便于传输。处理前的效果处理后的效果边缘锐化图像边缘锐化主要是加强图像中的轮廓边缘和细节,形成完整的物体边界。处理前的效果处理后的效果图像的分割图像分割是通过将图像中有意义的特征部分提取出来,包括图像的边缘、区域等。处理前的效果
8、处理后的效果图像的理解与分析图像分析是利用数学模型对图像中感兴趣的目标特征进行检测和测量,以获得客观智能性信息,从而建立对图像的描述。而图像理解是对图像的语义理解,属于高层操作,是在图像分析的基础上,进一步研究图像中各目标的性质及其之间的相互联系,并得出对图像内容含义的理解以及对原来客观场景的解释,进而指导和规划行动。图像视频识别的应用领域图像视频识别的应用领域随着人类活动范围的不断扩大,图像视频识别的应用领域涉及人类生活和工作的方方面面,也随之不断扩大。图像视频识别应用领域5.3模式识别在日常生活中,人们对植物、动物及各种食物的区分过程就是在进行“模式识别”,随着计算机的出现及人工智能的兴起
9、,人们希望能用计算机来扩展或代替人类的部分脑力劳动,用机器实现模式识别的过程于20世纪20年代诞生,于60年代初迅速发展成人工智能领域的一个重要分支。计算机视觉第一部分第二部分第三部分模式识别基本概念模式识别的发展历程模式识别的主要方法第四部分模式识别的典型应用图像视频识别模式识别基本概念模式人类能观察到的事物都具有一些属性特征,而事物间的差异也就表现在这些特征的差异上。广义地说,若可以区别存在于时间和空间中的对象是否相同或相似,就可以称之为模式;狭义地说,模式是通过对具体事物进行观察所得到的时间和空间分布的特征信息,并且这些信息能够表征或者刻画被识别事物的类属特征。模式类模式类,顾名思义,具
10、有相似特征的模式的集合就称之为模式类。不同的模式类之间应该有明确的界线,但在实际的样本中,往往不能对它们进行确切的划分。比如,在癌症初期,癌细胞与正常细胞的界线是含糊的。模式识别识别就是对事物或现象进行分析、描述和判断。模式识别是指根据对象的表征特性,通过一定的量度或者观测,把待识别的对象划分到自己的模式类中。人们所具有的认识事物的功能就是模式识别,比如,人们见到木屋和别墅,会分辨出类名房子。模式识别系统模式识别的主要目的是如何利用计算机对样本进行分类,一个典型的模式识别系统包括数据获取、预处理、特征提取和选择、分类器设计及分类决策。模式识别系统组成模式识别的发展历程模式识别的发展历程Taus
11、chek在1929年发明的阅读机能够阅读0-9数字,标志着模式识别技术的诞生。这些年来,模式识别研究主要集中在两个方面:一是认识科学的范畴研究生物体如何感知对象;二是在给定的任务下,如何用计算机实现模式识别的理论和方法。模式识别的发展历程模式识别发展经历模式识别的主要方法统计决策法统计统计决策理论是模式分类问题的基本理论之一,是决策者按统计规律掌握决策结果概率的一种方法,而贝叶斯决策理论是统计决策理论中的一个基本方法。模式识别的目标是把样本分到哪一类最合理,采用不同的标准会得到不同意义下的“最优”的决策,贝叶斯决策就是在不完全情报下,对部分未知的状态采用主观概率估计,用贝叶斯公式对发生概率进行
12、修正,最后再利用期望值和修正概率做出最优决策。结构模式识别结构模式识别又称句法模式识别,它采用一些比较简单的子模式组成多级结构来描述一个复杂模式,先将模式分为子模式,子模式又分为更简单的子模式, 依次分解,直至在某个研究水平上不再需要细分。最后一级最简单的子模式称为模式基元,识别模式基元比识别原模式要简单得多。结构模式识别主要突出模式的结构信息,常用于以结构特征为主的目标识别中,比如指纹、染色体和汉字识别等。模糊模式识别在实际生活中,由于客观事物本身的模糊性,加上人们对客观事物的反映过程也会产生模糊性,使经典的识别方法已不适应客观实际的要求,所以,模式识别与模糊数学关系很紧密。比如,学生的百分
13、制成绩鉴定为优、良、中、差,利用模糊模式识别中的直接方法最大隶属原则就可以完成分类。人工神经网络模式识别人工神经网络模式识别可以看作是对原始特征空间进行非线性变换,产生一个新的样本空间,使得变换后的特征线性可分,与传统统计方法相比,其分类器是与概率分布无关的。人工神经网络模式识别的基本方法是:首先用已知样本训练神经网络,使之对不同类别的已知样本给出所希望的不同输出,然后用该网络识别未知的样本,根据各样本所对应的网络输出情况来划分未知样本的类别。模式识别的典型应用模式识别的发展历程模式识别技术从20世纪20年代发展至今,已经广泛应用于人工智能、计算机工程、机器学、神经生物学、医学、侦探学等重要领
14、域。模式识别的典型应用5.4语音识别语音是人类之间最有效、最方便的通信方式,而与机器交流,让机器明白人们在说什么,是人类长期以来梦寐以求的事情。语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR)技术,是从20世纪50年代才兴起的一门计算机智能技术,主要研究目的是让计算机“听懂”人类语言,实现人机自然语言交流的和谐环境。计算机视觉第一部分第二部分第三部分语音识别技术简介语音识别的基本原理语音识别的技术分类第四部分语音识别的典型应用语音识别语音识别技术简介语音识别涉及学科领域语音识别涉及学科语音识别系统计算机语音识别过程与人对语音识别处理过程基本
15、一致,目前主流的语音识别技术是基于统计模式识别的基本理论,一个完整的语音识别系统大致分为3个部分。语音识别系统语音识别的基本原理语音识别的基本原理语音识别技术就是将人讲话发出的语音通信声波转换成一种能够表达通信消息的符号序列,这些符号可以是识别系统的词汇本身,也可以是识别系统词汇的组成单元。语音识别原理框图语音识别的技术分类语音识别的技术分类语音识别按照不同的角度有不同的分类方法。语音识别技术分类语音识别的典型应用语音识别的典型应用语音识别技术的优点是系统的成本低廉,且说话是很自然的一件事,所以,语音识别是使用者很容易接受的自然手段,语音识别技术应用领域也很广泛。语音识别应用领域5.5生物特征
16、识别随着计算机和网络技术的发展,在现代社会活动中,信息安全、金融交易、城市安防等领域对个人身份识别和验证要求越来越重视。传统的身份认证已经越来越难以满足现代安防需求,生物特征识别技术采用人体生理特征以及行为特征进行身份确认,是目前最为方便与安全的识别技术。计算机视觉第一部分第二部分第三部分生物特征识别技术简介基于生理特征的识别基于行为特征的识别第四部分多模态生物特征识别生物特征识别生物特征识别技术简介生物特征识别技术生物特征识别技术,就是通过人类固有的生理特征以及行为特征来进行身份认证与鉴别的一种技术。一般用于生物特征识别的生理特征或行为特征具有普遍性、唯一性、稳定性、可采集性等特点,目前比较
17、成熟的方式主要有指纹识别、掌纹识别、虹膜识别、人脸识别、声纹识别等。生物特征识别基本原理生物特征识别技术主要是获取生物特征后将其转换为数字信息存储于计算机中,再用匹配算法来完成身份认证与鉴别的过程。生物特征识别技术的原理基于生理特征的识别指纹识别在古代,指纹就被用来签字画押,因为同一人的十指指纹及不同人之间的指纹都具有明显的区别,并且指纹具有终身不变的特性,所以指纹可用于鉴别个体,证明身份。指纹识别在出入境控制、考勤、门禁、家居等方面已广泛应用。掌纹识别人的手掌在一定年龄之后就不再发生显著变化,并且每个人手掌的形状、表面的纹理或纹线都不同,当用户的手放在手形读取器上时,掌纹就会被捕捉,利用高效
18、的掌纹表示和匹配方法进行识别。目前掌纹识别在各种生物特征识别应用份额中占很小的部分。虹膜识别虹膜是位于人眼表面白色巩膜和黑色瞳孔之间的圆环状区域,约占总面积的65%,在红外光下呈现丰富的纹理信息。每个人都有虹膜,并且虹膜是遗传基因决定形成的,每个人的虹膜都是独一无二的,所以在身份标识方面应用广泛。目前主要应用于金融交易、银行保险、家庭门禁、单位考勤等领域。视网膜识别视网膜是位于眼球后部的血液细胞层,周围分布的血管形态因人而异,由于视网膜在眼睛的内部,具有很好的保密性和防伪造性能,并且不易磨损、老化,非常稳定,所以可以用于个体鉴别。目前视网膜识别由于采集设备价格高昂,并且获取图像时需要受检测人员
19、的高度配合,所以在普遍推广上具有一定的难度。人脸识别人脸识别是通过采集到的面部特征来进行身份鉴别的过程,最直观的人脸识别问题可以描述为比较两张人脸图像,通过一些核心点来判定它们是否属于同一个人。人脸识别技术的吸引力在于它能够人机交互,可以使用非接触式传感器在远距离情况下采集。目前人脸识别在刑侦、监控、娱乐、金融、安防等领域有广泛的应用。DNA识别DNA是人体内的遗传物质,在整个人类范围内具有惟一性和永久性。DNA识别是根据人体细胞中的DNA分子结构来进行个体鉴别的过程,但DNA的获取需要受检测人员的主动配合,并且不能实时进行鉴别,所以目前尚不能普遍应用。基于行为特征的识别步态识别步态识别是一种
20、较新的生物特征识别技术,它是通过人的走路方式来识别人的身份的方法。步态是一种复杂的行为特征,指人们行走时的方式。罪犯或许会给自己化装,不让自己身上的哪怕一根毛发掉在作案现场,但他们很难控制自己走路的姿势。由于步态识别的输入是一段行走的视频图像序列,序列图像的数据量较大,并且计算复杂性比较高,处理起来比较困难,所以到目前为止,还没有商业化的基于步态的身份鉴别系统。声纹识别声纹识别俗称说话人识别,是通过把声音信号转换为电信号,再通过计算机进行识别的过程。根据不同的任务和应用场合将声纹识别主要分为两类,一是说话人辨认,如缩小刑侦范围;二是说话人确认,如银行交易。目前声纹识别主要还是被用于一些对于身份
21、安全性要求并不太高的场景当中,比如现在比较热门的智能音响。签名识别每个人都有自己独特的书写风格,签名识别就是基于人书写字符的识别技术。利用签名进行身份识别已经有数百年的历史,是一种大众所接受的、公认的个体鉴别形式。但签名的主要问题是容易被伪造,并且随着时间、环境、生活方式等的变化而发生改变。目前签名识别主要应用在军队、银行、政府等领域。多模态生物特征识别多模态生物特征识别现实生活中,往往一种生理特征或者行为特征无法进行准确地识别个体,人们很自然就会想到是否可以多种生物特征融合进行识别。多模态生物特征识别就是使用多种生理特征或行为特征进行个体的身份认证和鉴别。一般来说,生物特征识别系统主要由传感器、特征提取、匹配和决策四个模块组成,多生物特征的融合可以发生在任何一个阶段,比如利用电容式传感器和光学传感器来采集样本,获取同一人的人脸和指纹特征等。THANKS人工智能导论