1、第三章第三章信息获取信息获取1.简述2.信息的直接获取3.信息的间接获取3.1 3.1 简述简述v 信息获取的第一步就是信息的“感知”,也就是“感受”到事物运动状态及其变化方式的形式,感觉到这种形式的存在。v 研究结果表明,信息感知的基本机制在于要有某种组织或器官(在人工系统则是某种器件或系统)能够灵敏地感受到事物运动的状态及其变化的方式,也就是能够在事物运动的状态及其变化方式的刺激下产生相应的反应。当然,这种刺激与反应关系应当满足一定的条件,例如:v 具有一定的敏感域(感受域);v 具有一定的敏感度(灵敏度);v 具有一定的保真度(可信度)。v 信息感知系统不仅需要“敏感单元”对外部世界进行
2、“感知”并产生实际响应;而且还需要“表示单元”将敏感单元的响应通过适当的方式表示出来以便于观测、处理和利用。v 研究表明,人类视觉、听觉、嗅觉、味觉、触觉等感知的响应是以神经生理电信号表示的。那么机器感知系统的敏感单元响应能否也用电信号来进行表示呢?答案是肯定的,当然这不是唯一的,比如也可以用光信号或其他信号形式来进行表示。但用电信号却有其无与伦比的优势,其原因如下:首先,电信号表示和测量的范围极宽,从基本粒子的电量单位至千万伏安级均可进行测量且测量精度很高;其次电信号的处理技术较为成熟,如微弱信号的放大、滤波,信号的提取、抽样、变换、调制、解调、数字化等;另外电信号适于长距离传输,从有线到无
3、线或通过电光变换后通过光纤传输都非常方便;还有电信号经数字化后特别适合于用计算机进行自动处理,可以大大减轻人的负担。3.2 3.2 信息的直接获取信息的直接获取v 3.2.1 3.2.1 非电量电测非电量电测v 人们对各行各业中的很多“量”感兴趣,但这些量绝大多数都是非电量,如机械量(位移、尺寸、力、振动、速度等),热工量(温度、压力、流量、物位等),成分量(化学成分、浓度等)和状态量(颜色、透明度、磨损量、裂纹等)。需要将它们变换成电参量以便于测量,这就是非电量电测技术。v 将被测的非电量变换成电量的装置称为传感器(也称换能器、发送器、传送器、变送器、检测器、探头)。国家标准(GB7665-
4、87)中关于传感器(Transducer/Sensor)的定义为:能够感受规定的被测量并按照一定规律转换成可用输出信号的器件或装置。该定义表达了四层含意:v 传感器是测量装置,能完成检测任务;v 输入量是某一被测量,可能是物理量,也可能是化学量、生物量等;v 输出量是某种物理量,可以是气、光、电物理量,主要是电物理量,应当便于传输、转换、处理、显示等,;v 输出输入有对应关系,且应有一定的精确程度。v 因此,传感器的基本功用包括:感受被测信息,并把它表示出来。3.2 3.2 信息的直接获取信息的直接获取v 3.2.1.1 3.2.1.1 传感器的分类传感器的分类v 按工作机理:分为物理型、化学
5、型、生物型等;v 按构成原理:分为结构型与物性型两大类;v 根据能量转换情况:分为能量控制型和能量转换型;v 按照物理原理;可分为电参量式,磁电式,压电式,光电式,力电式,热电式,波式,射线式,半导体式,以及其他原理的传感器等。有些传感器具有两种以上原理的复合形式,如不少半导体式传感器,也可看成电参量式传感器。v 按照传感器的用途分类:位移、压力、振动、温度传感器。v 根据转换过程可逆与否分类:单向和双向。v 根据传感器输出信号的形式分类:模拟信号和数字信号。v 根据传感器使用电源与否分类:有源传感器和无源传感器。3.2 3.2 信息的直接获取信息的直接获取v 对一个传感器而言,仅有敏感单元只
6、能实现感知,但不能实现测量,有一些传感器不能直接将非电量转换成电量,还需要一甚至几个中间环节的变换才能转为电量输出,因此可以将传感器细分为敏感元件、传感元件和变换元件,如图3.1 v 敏感元件敏感元件:对待测的非电量敏感;敏感元器件品种繁多,就其感知外界信息的原理来讲,可分为物理类,基于力、热、光、电、磁和声等物理效应。化学类,基于化学反应的原理。生物类,基于酶、抗体和激素等分子识别功能。通常根据传感器的基本感知功能可分为热敏、光敏、气敏、力敏、磁敏、湿敏、声敏、色敏和味敏元件、放射线敏感元件等。v 传感元件传感元件:将一种非电量变换为另一种非电量;v 变换元件变换元件:将非电量变换为电量。v
7、 有些传感器可能不需要传感元件;有些传感器的转换元件不只一个,要经过若干次转换;还有一些传感器,上述三单元是一体的,即一个元件就可直接将被测非电量转换为电量。大多数传感器是开环系统,也有些是带反馈的闭环系统。3.2 3.2 信息的直接获取信息的直接获取v 3.2.1.2 3.2.1.2 几种常见的物理效应和传感原理几种常见的物理效应和传感原理v 1.1.磁电传感磁电传感:一般要利用磁场作为媒介或利用磁体的某些现象进行传感,可以用来测量磁场、位移、流量、速度、厚度等物理量。其主要原理为:电磁感应定理、磁阻效应、霍耳效应等。v 电磁感应定理电磁感应定理:当穿过导电回路所包围的面积的磁通量发生变化时
8、,回路中就有感应电动势产生,感应电动势与磁通量对时间的变化率的负值成正比。v 磁阻效应磁阻效应:若给通以电流的金属或半导体材料的薄片施加与电流垂直或平行的外磁场,其电阻值就增加。这种现象称为磁致电阻变化效应,简称为磁阻效应。霍耳效应:通电的导体或半导体,在垂直于电流和磁场的方向上将产生电动势的现象。v 电涡流效应电涡流效应:当导体置于交变磁场或在磁场中运动时,根据电磁感应定理导体上会产生感生电流,此电流在导体内闭合,称为涡流。涡流大小与导体电阻率、磁导率以及产生交变磁场的线圈与被测体之间距离,线圈激励电流的频率有关。可以利用该效应制成临近传感器、材质传感器等。3.2 3.2 信息的直接获取信息
9、的直接获取v 2.2.光电传感光电传感:物质在光的作用下,光敏物质中的电子直接吸收光子的能量足以克服原子核的束缚时,电子就会从基态被激发到高能态,脱离原子核的束缚,在外电场作用下参与导电,因而产生了光电效应。根据这些原理,可以制成多种光电传感器,如电荷耦合器件摄像机,数码相机,自动冲水机、路灯控制器、光电计数器、烟雾报警器等都是利用了光电传感器的原理。v 光与物质的作用实质是光子与电子的作用,电子吸收光子的能量后,改变了电子的运动规律。由于物质的结构和物理性能不同,以及光和物质的作用条件不同,在光子作用下产生的载流子就有不同的规律,因而导致了不同的光电效应。v 外光电效应外光电效应:是指物质受
10、光照时,具有能量h的光子,被物质吸收后激发出自由电子,当自由电子的能量足以克服物质表面势垒并逸出物质的表面时,就会产生光电子发射,逸出电子在外电场作用下形成光电子流。这种效应多发生于金属和金属氧化物。这就是物质的光电发射现象,又叫做外光电效应。v 内光电效应内光电效应,是指受光照而激发的电子在物质内部参与导电,电子并不逸出光敏物质表面。这种效应多发生于半导体内。3.2 3.2 信息的直接获取信息的直接获取v 光电导效应光电导效应:半导体材料受光照时,由于对光子的吸收引起载流子浓度的增大,因而导致材料电导率增大(电阻减小),这种现象称为光电导效应。v 光生伏特效应光生伏特效应:光照使不均匀半导体
11、或均匀半导体中光生电子和空穴,并在空间分开而产生电位差的现象,也就是说,将光能转化成电能。v 将多个光敏元件组成阵列,当光照射到阵列上,各元件会因受光照强度不同产生对应的电荷,然后再将这些电荷按一定的顺序不断的向外转移输出,就构成了光固态图象传感器电荷耦合器件CCD(Charge Coupled Device)。CCD自1970年问世以后,由于它的低噪声等特点,被广泛的应用于电视摄像、信息存储和信息处理等方面。3.2 3.2 信息的直接获取信息的直接获取v 3.力电传感力电传感:主要是利用敏感元件和变阻器把力学信号(位移、速度、加速度等)转化为电学信号(电压、电流等)的仪器。广泛地应用于社会生
12、产、现代科技中,如安装在导弹、飞机、潜艇和宇宙飞船上的惯性导航系统及ABS防抱死制动系统等。v 应变效应应变效应:当金属丝在外力作用下发生机械变形时,其电阻值将发生变化,这种现象称为金属的电阻应变效应。其原理是,金属丝变形时,其长度和横截面积会发生变化,阻值会发生变化。v 压阻效应压阻效应:单晶硅材料在受到应力作用后,其电阻率发生明显变化,这种现象被称为压阻效应。其原理是,应变引起的变形使半导体能带谷中载流子数发生相对变化,导致电阻率变化。v 压电效应压电效应:一些离子型晶体的电介质(如石英、酒石酸钾钠、钛酸钡等),当沿着一定方向对其施力而使它变形时,内部就会产生极化现象,同时在它的两个表面上
13、产生符号相反的电荷;当外力去掉后,又重新恢复到不带电状态;当作用力方向改变时,电荷极性也随着改变;这种现象称为(正)压电效应。v 电致伸缩效应电致伸缩效应:当在电介质的极化方向施加电场,这些电介质就在一定方向上产生机械变形或机械压力,当外加电场撤去时,这些变形或应力也随之消失的现象,这也称为逆压电效应。3.2 3.2 信息的直接获取信息的直接获取v 4.热电传感热电传感:热电传感器是利用热敏电阻的阻值会随温度的变化而变化的原理制成的,如各种家用电器(空调、冰箱、热水器、饮水机、电饭煲等)的温度控制、火警报警器、工业过程控制等。v 热电效应:热电效应:两种不同的导体或半导体A和B组合成闭合回路,
14、若导体A和B的连接处温度不同(设TT0),则在此闭合回路中就有电流产生,也就是说回路中有电动势存在,这种现象叫做热电效应。这种现象早在1821年首先由西拜克(Seeback)发现,所以又称西拜克效应。v 回路中所产生的电动势,叫热电势。热电势由两部分组成,即温差电势和接触电势。v 接触电动势:接触电动势:又称波尔电动势,当自由电子密度不同的导体接触成闭合回路时,由于电子的扩散会使失去电子的导体带正电荷,得到电子的导体带负电荷,形成电场,当电场作用与扩散作用动态平衡时,就形成了接触电动势(当两个接触端温度相同时,回路总接触电动势为零)。3.2 3.2 信息的直接获取信息的直接获取v 温差电动势:
15、温差电动势:同一电极,若两端温度不同,则热端的电子因为受热具有更大动能向冷端扩散,从而产生电场,当电场作用与扩散作用动态平衡时,就形成了温差电动势,此时热端失去电子带正电,冷端带负电。根据上述原理可以制成热电偶传感器,测量温度范围为2001600,短期测量可达1800。v 热电阻:热电阻:有铂、铜、镍电阻等,主要原理是:温度升高时会使导体中的分子运动加剧,载流子流动过程中会遇到更多和更剧烈的碰撞,从而使载流子运动阻力增大,导体的阻值增加。铂金属因其易于提纯,在氧化介质和高温下的物理性能及其稳定,工艺性好,可拉成极细的丝等优点,在国际实用温标中,作为259.34630.74温度范围内的温度基准。
16、v 热敏电阻热敏电阻:利用某种半导体材料的电阻率随温度变化而变化的性质制成。v 有正、负温度系数和在某一特定温度区域内阻值突变的三种热敏电阻元件。电阻温度系数的绝对值比金属大10100倍左右。3.2 3.2 信息的直接获取信息的直接获取v 5.电容传感电容传感:用两块金属平板作电极可构成电容器,当忽略边缘效应时,其电容C为v S极板相对覆盖面积;d极板间距离;r相对介电常数;v 0 真空介电常数,0 8.85pF/m;v d、S和r中的某一项或几项有变化时,就改变了电容C0;d或S的变化可以反映线位移或角位移的变化,也可以间接反映压力、加速度等的变化;r的变化则可反映液面高度、材料厚度等的变化
17、。dSCr0 3.2 3.2 信息的直接获取信息的直接获取v 6.电感式传感电感式传感:是一种利用线圈自感和互感的变化实现非电量电测的装置,如式3.2。v 式中:N为线圈的匝数;Rn为磁路总磁阻,磁阻与磁路的长度,衔铁、铁心、气隙磁通的截面积、导磁率有关。通过改变这些参数就可测量位移、振动、压力、应变、流量、比重等。v 以上主要介绍的为物理传感器,还有化学传感器,它是检测由于物质的化学反应而产生的量的变化,如解决“有什么样的离子”之类的问题。有些气敏传感器就是利用这些原理制成的。v 另外还有生物传感器,是利用某些作为生物基础成分的蛋白质分子仅与某种特定物质才能起作用,譬如酶就是作为一种催化剂选
18、择某种特定物质(即蛋白质)起反应的。nRNL2 3.2 3.2 信息的直接获取信息的直接获取v 3.2.2 信号规整信号规整v 很多敏感单元经常是将非电量的变化转变成常见的电子元件如电阻、电容、电感等的变化,而且这些变化一般都很小,也就是说,传感器虽然已将非电量转换为电量,但常常信号是微弱的,不便于信息的传输和利用,还需要相应的电路进行放大、去噪等处理;还有一些传感器需要施以一定的激励才能正常工作,一般也需要通过电子线路来形成激励源。因此,需要了解和掌握有关电子线路方面的知识和相关技术。v 一种传感器通常可以应用于多种场合,各种应用场合对接入信号的要求可能不一样,这很容易造成混乱。为了使用的方
19、便,人们制定了标准,对传感器的输出作了统一的规定:如电流型的起始输出为4mA,满量程输出为20mA;电压型输出的起始输出电压为0V,满量程输出为5V。采用这种标准输出,就可以很方便的与各种应用系统进行接口。v 为了测量的准确性,人们希望待测量与最后的输出应成线性关系,即在整个测量量程范围内,输出与输入之间成一种恒定的比例关系。但很多敏感器件的线性测量范围很小,因此,需要通过电子线路来对信号进行规整,比如,进行线性校正,温度校正、湿度校正、器件老化误差校正等。3.2 3.2 信息的直接获取信息的直接获取v 信息技术的迅猛发展使我们进入了数字时代。我们不能将模拟信号直接送入计算机进行存储和处理,因
20、为“无限稠密的点”会要求无限大的存储量和无限大的处理能力,这显然是无法实现的。因此,我们需要在模拟系统和数字系统之间架设一座桥梁,使二者能够有机的联系在一起,这就是模拟数字转换(ADC)和数字模拟转换(DAC)。v 图3.2是一个信号链系统框图,传感器探测来自模拟世界的电压、电流、温度、压力等信号。然后将这些传感器探测到的信号量送到放大器中进行放大,再通过A/D转换把模拟信号转化为数字信号,经过处理器,再经由D/A转换还原为模拟信号。A/D和D/A在信号链的框架中起着桥梁的作用,即模拟系统与数字系统的工作接口。3.2 3.2 信息的直接获取信息的直接获取v 3.2.3 测量测量v 测量是为确定
21、被测对象的量值而进行的处理过程。在这个过程中常需借助专门的设备,把被测对象直接或间接地与同类已知单位量进行比较,取得用数值和单位共同表示的测量结果。这样,所获取的信息就被量化了。v 测量是用数字语言描述周围世界的重要手段。一般而言,任何科学的结论都离不开测量,测量技术的进步会大大促进科学技术的发展。反过来,科学技术的进步又会给测量理论的提高和测量技术的完善创造良好的条件。著名科学家门捷列夫用一句话概括了测量对科学的作用:“没有测量,就没有科学”。实际上,科学研究工作经常需要通过对一些事物进行实验,探测,对实验数据进行统计、推断和证明,这本身就是一系列的测量实验工作。很难想象,没有适当的测量方法
22、和测量仪器,怎么能够进行复杂的科研和生产实践。v 说到测量,不能不提到计量概念,它和测量既有联系又有区别。可以说计量是为了保证量值的统一和准确一致的一种手段。随着生产的发展,商品的交换和国际、国内的广泛交往,客观上要求对同一量在不同的地方、用不同的测量手段测量时所得的结果互相一致。因而需要设定大家公认的统一的单位并统一这些单位的基准、标准和用这些基准、标准来校准测量器具,还得用法律的形式固定下来,这就是计量。它具有统一性、准确性和法制性三个特征。3.2 3.2 信息的直接获取信息的直接获取v 3.2.3 测量测量v 凡能用以直接或间接测出被测对象量值的量具、计量仪器和计量装置统称为计量量具。计
23、量器具按用途可分为计量基准、计量标准和工作用计量器具三类。v 计量基准又分为国际(国家)基准、副基准和工作基准。国际(国家)基准又称主基准,是用来复现和保存计量单位,具有现代科学技术所能达到的最高准确度;副基准主要是代替国际(国家)基准的日常使用,也可用于验证国际(国家)基准的变化;工作基准主要用于一般量值传递,以防止国家基准或副基准由于使用频繁而丧失其应有的准确度或遭到破坏。v 当今信息时代,电测技术已渐臻成熟,微电子与计算机技术的进步,为电测技术提供了十分先进的手段,为自动检测和控制开辟了新的途径。我们可以通过传感器将各种非电量转换为电量进行测量。狭义来说,电测量是在电子学中测量有关电的量
24、,通常包含下面几个方面:v 1.电能量的测量,即测量电流、电压、电功率等;v 2.信号的特性及所受干扰的测量,例如信号的波形和失真度、频率、相位、脉冲参数、调制度、信号频谱、信噪比等;v 3.元件和电路参数的测量,例如电阻、电感、电容、电子器件(电子管、晶体管、场效应管等)、集成电路的测量;电路频率响应、通频带宽度、品质因数、相位移、延时、衰减和增益的测量等等。3.2 3.2 信息的直接获取信息的直接获取v 3.2.3 测量测量v 如前所述,测量是为了确定被测对象的量值而进行的实验过程。一个量本身所具有的真实大小称为真值。在不同的时间和空间,被测量的真值往往是不同的。但在确定的时空条件下,它是
25、一个客观存在的确定数值。而人们通过实验的方法来测量时,由于对客观规律认识的局限性,测量器具不准确、测量手段不完善、测量条件发生变化及测量工作中的疏忽甚至错误等原因,都会造成测量结果与真值不同,这个差别就是测量误差。毫无疑问,我们希望测量误差越小越好。可以说,测量工作的价值完全取决于测量的准确程度,当误差超过一定的程度,测量就会变得毫无意义甚至会带来危害。因此,对测量误差的控制就成为衡量测量技术水平,以至于科学技术水平的重要标志之一。因此我们需要掌握一定的误差理论和数据处理知识,这是科技工作者必备的基本素质之一。v 根据测量误差的性质和特点,可将它们分为系统误差、随机误差和粗大误差三大类。我们需
26、要研究这些误差的形成原因,分布规律,减少误差的处理方法,系统中误差的合成和分配技术以及测量数据的处理技术等,所有这些,都离不开数学知识。实际上,理工科的各门课程都与数学紧密相关。高等数学及工程数学是理工科专业必不可少的重要基础课程。3.3 3.3 信息的间接获取信息的间接获取v 3.3.1.1 信息表示方法信息表示方法v 信号表示:根据前面介绍,对各种需要测量的“量”可以通过传感器转换为电量,并以信号的形式进行表示。信号是信息在物理层面的表达,有离散和连续两种形式。信号的特点是“具体”、“有形”,可以通过示波器等仪器设备观察和记录信号波形的变化情况。v 符号表示:信息的信号表示很直观,但它是针
27、对具体事物的,一般不同的事物要用不同的信号进行表达,这样描述起来就不很方便,因此,科学家就对事物进行形式化抽象,抽取出一类事物共同的特征(这是一个从特殊到一般的过程),并以符号的方式进行表达,这就是信息的符号表示。符号是信息在数学层面的表达。符号表示的特点是“抽象”、“一般”,可以根据具体事物赋予符号不同的内容。符号表示可以很方便的以文字或语言进行描述。v 机器表示:为了可以使用计算机来存储和处理信息,可以将符号表示的信息通过编码的方式变成一种计算机“可懂”的“数据”,这就是信息的机器表示。实际上信息在计算机中是以电子器件的稳定物理状态来表示的。可以用两种不同的状态(如低电平和高电平,或有电流
28、和无电流)来予以表示,这在电路上较容易实现。也就是说,可用两个数字符号0和1来表示信息,这就是二进制计数。在计算机中是用数据来表示信息的。各类信息如数据、文本、图像、语音、以及多媒体信息等都要经过数字化处理后才可以送到计算机中进行处理。下面仅以语音信号和图形信号的表示为例作为简要的说明,更详细的情形可以在计算机相关课程中找到。3.3 3.3 信息的间接获取信息的间接获取v 语音信息表示语音信息表示v 语音信号由声波转换而来,转换为电信号后可以用交流电压或交流电流信号表示,要输入到计算机中进行处理,也必须将其数字化进行编码。语音信号的数字化处理主要包括三个基本环节:抽样、量化、编码。v 抽样就是
29、按照一定时间周期对音频信号抽取样本值,计算机中语音信息数字化的标准抽样频率通常是11.025、22.05、44.1KHz、64KHz,频率越高保真度越好,但得到的数据量越大,需要的存储空间也越大。v 量化是将抽样后的信号按幅度分成有限个电平级别,幅度落在同一个级别范围的用同一个电平级别表示。量化过的信号就成为数字信号,记为PCM(Pulse-Coded Modulation)。因为PCM的幅度为有限个,所以可以用二进制编码表示,通常采用16比特分段编码的方式进行编码,即PCM编码。在计算机内部和存储器设备(如光盘等)常常采用PCM格式记录音频信息。3.3 3.3 信息的间接获取信息的间接获取v
30、 图形图像数据表示图形图像数据表示v 图形图像在计算机中有两种表示方式,即位图表示和矢量表示。v(1)位图()位图(Bitmap)v 位图使用像素阵列来表示图像,用于表示计算机中的静态图片,位图文件有很多种的格式,如扩展名为.BMP .JPG .GIF .PIC 文件都属于位图。在位图中图像将由每一个像素点的位置和色彩值来决定。计算机中图像根据颜色可分为黑白图像、灰度图像和真彩色图像,黑白只有两种颜色只需1比特描述一个像素。灰度图像常用210比特描述一个像素的灰度层次。真彩色需要用16/24/32比特描述一个像素色彩信息,像素点的颜色由RGB(Red,Green,Blue)组合表示,这种图像颜
31、色层次丰富,如24位真彩图像RGB每个分量占用8比特,共有256*256*256中颜色组合。v(2)矢量图)矢量图(Vector)v 计算机中矢量图使用直线和曲线来描述图形,矢量图由一系列的点、线段、圆、多边形和曲线等图形元素组成,而这些图形又可以用数学表达式的方式来描述,因此矢量图可以用数学计算的方法来存储和显示。比如一个圆,如果用矢量方式来描述,只需要存储它的圆心坐标和半径大小即可,显示时知道圆心位置和半径大小,计算机就可以通过计算确定要显示的每一个像素点。v 由于矢量图形可通过公式计算获得,所以矢量图形文件体积一般较小,存储量较少。矢量图形最大的优点是无论放大、缩小或旋转等不会失真。即矢
32、量图质量与分辨率无关。3.3 3.3 信息的间接获取信息的间接获取v 3.3.2 信息特征获取信息特征获取v 自然界和人类社会无时无刻不在运动和变化,作为“事物运动的状态及其变化形式”的信息时时处处不断产生,量大,多样。前述信息获取主要解决“是否有信息存在”的问题,但这还不够,还需要对所感知的信息作出判断,解决“存在的信息属于哪一类”的问题,这就是信息识别(也叫模式识别)的问题。v 信息的接收者可以是人,也可能是机器。显然,机器理解问题的能力远没有人那么“灵”。就目前的科学技术水平而言,要让机器完全取代人来进行自动识别还有一段相当长的路要走。因为现在的信息感知还只能将事物的本体论信息转换为第一
33、类认识论信息,即语法信息,而不是全信息。全信息应该同时包含事物运动状态及其变化的形式(语法信息)、含义(语义信息)和价值(语用信息),是上述三者的统一体。因此,目前所讨论的信息识别只能是基于语法信息的识别,也就是采用类比方式进行的识别:将所感知的事物运动状态及其变化形式与特定形式的“模板”进行比较、匹配,确定二者是否相同。v 即使是这种基于比较的信息识别,也不是将事物的语法信息和“模板”全面进行比较。因为对一种事物描述的细致程度是无止境的,会造成表征“信息”的数据量、存储量和计算量大得无法接受,无法进行这种比较。因此,常规的做法是提取那些能代表事物主体的特征:一组形式化的参量,即用很少的数据量
34、来表征某一事物的状态和状态变化方式。3.3 3.3 信息的间接获取信息的间接获取v 3.3.2 信息特征获取信息特征获取v 需要指出的是,对于复杂对象的信息,它的特征往往包含很多方面。为了准确识别这些对象,就需要获取它的多个方面的特征。比如,识别人脸,既需要它的光学信息的特征,也需要它的几何信息特征。那么,怎样把这些不同方面的特征有效集成起来获得更全面地认识,是一个需要重点研究的问题。这便是“(特征)信息融合信息融合”问题。v 一般而言,融合(Fusion)是指采集并集成各种信息源、多媒体和多格式信息,从而生成完整、准确、及时和有效的综合信息过程。比如,用雷达和红外图像传感器同时观测一架飞机,
35、普通雷达能精确判断飞机的距离,但是不能确定它的方向角。而红外成像传感器能精确判断飞机的方位角和俯仰角信息,却不能测量距离,有效地结合这两种传感器数据就能得到比从单个传感器更精确地定位。这就是信息融合技术所研究的问题。v 按照融合过程中信息抽象的层次,可以将信息融合过程分为三个层次,即数据层数据层(Data Level)融合、特征层融合、特征层(Feature Level)融合和决策层融合和决策层(Decision Level)融合融合。3.3 3.3 信息的间接获取信息的间接获取v 3.3.2 信息特征获取信息特征获取v 1.1.数据层数据层(Data Level)(Data Level)融合
36、融合v 数据层融合也称为原始层融合。它是直接在采集到的原始数据上进行的融合,在各种传感器的原始测报未经预处理之前就进行数据的综合分析。原始层融合一般采用集中式融合体系进行融合处理。如成像传感器中通过对包含若干像素的模糊图像进行图像处理和模式识别来确认目标属性的过程就属于原始层融合。原始层融合通常用于多源图像复合,图像分析与理解;同类雷达波形的直接合成等。多源图像复合是将由不同传感器获得的同一景物的图像经配准,重采样和合成等处理后,获得一幅合成图像的技术,以克服各单一传感器图像在几何光谱和空间分辨率等方面存在的局限性和差异性,提高图像的质量,应用实例有美国陆地资源卫星、F-16战斗机上的“LAN
37、TIAN”吊舱等。v 原始层融合的主要优点是能保持尽可能多的现场数据,提供其它融和层次所不能提供的细微信息。3.3 3.3 信息的间接获取信息的间接获取v 3.3.2 信息特征获取信息特征获取v 2.2.特征层融合特征层融合v 特征层融合属于中间层次的融合,它先对来自传感器的原始信息进行特征提取,然后对特征信息进行综合分析和处理。图3.3是特征融合的基本结构,从图中可以看出,特征层的融合是把从各个信息源提取得到的特征向量进行融合。3.3 3.3 信息的间接获取信息的间接获取v 3.3.3 机器学习机器学习v 机器学习(Machine Learning)是人工智能的核心问题,是信息获取的一种高级
38、形式。其应用遍及工业过程控制、信息安全、机器人、生物学、金融学等各个领域,对科学研究的整个过程起到越来越大的支持作用。虽然机器学习是最精彩的信息获取方法,但鉴于本书的“导论”性质,这里只拟进行概念性的介绍,更深入的理论可以在后续的专业课程获得。v 3.3.3.1 3.3.3.1 机器学习的概念机器学习的概念v 1机器学习的定义机器学习的定义v 学习是人类获取知识和技能的过程,也是发现事物发展规律、上升形成理论的过程。学习是人类具有的一种重要智能行为,没有学习,人类就不会进步。v 机器能否象人类一样具有学习能力呢?1959年美国的塞缪尔(Samuel)设计了一个具有学习能力的跳棋程序,它可以在不
39、断的对奕中改善自己的棋艺。4年后,这个程序战胜了设计者本人。又过了3年,这个程序战胜了美国一个保持8年之久的常胜不败的冠军。这个程序向人们展示了机器学习的魅力。v 2机器学习的意义机器学习的意义v 一个没有学习能力的系统很难被认为是一个真正的智能系统。机器通过学习获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是实现智能系统的根本途径。3.3 3.3 信息的间接获取信息的间接获取v 3.3.3 机器学习机器学习v 3.3.3.2 3.3.3.2 机器学习系统结构机器学习系统结构v 机器学习系统结构如图3.4所示。知识库里存放的是指导执行模块的相关知识,环境向系统的学习模块提供
40、某些信息,学习模块利用这些信息修改知识库的知识,以增进系统执行模块执行任务的效能,执行模块根据知识库的知识执行任务,同时把执行的效果信息反馈给学习模块。3.3 3.3 信息的间接获取信息的间接获取1机械学习机械学习2示教学习示教学习3演绎学习演绎学习机械学习直接记忆环境提供的新知识,并在以后通过对知识库的检索来直接使用这些知识,而不再需要进行任何的计算和推导。学生从环境(教师或教科书等)获取信息,把知识转换成内部可使用的表示形式,并将新的知识和原有知识有机地结合为一体。演译推理从公理出发,经过逻辑变换推导出结论 3.3.3.3机器学习策略机器学习策略3.3 3.3 信息的间接获取信息的间接获取
41、v 3.3.3.3机器学习策略机器学习策略v 4.类比学习类比学习v 利用二个不同领域(源域、目标域)中的知识相似性,可以通过类比,从源域的知识(包括相似的特征和其它性质)推导出目标域的相应知识,从而实现学习。v 5.解释学习解释学习v 学生根据教师提供的目标概念、该概念的一个例子、领域理论及可操作准则,首先构造一个解释来说明为什该例子满足目标概念,然后将解释推广为目标概念的一个满足可操作准则的充分条件。解释学习一般包括下列3个步骤:v(1)利用基于解释的方法对训练例子进行分析与解释。v(2)对例子的结构进行概括性解释。v(3)从解释结构中识别出训练例子的特性,获取一般控制知识。3.3 3.3
42、 信息的间接获取信息的间接获取v 3.3.3.3机器学习策略机器学习策略v 6.归纳学习归纳学习v 归纳是从个别到一般,从部分到整体的一类推论方法。归纳学习是由教师或环境提供某概念的一些实例或反例,让学生通过归纳推理得出该概念的一般描述。由于在进行归纳时,多数情况下不可能考察全部有关的事例,因而不能绝对保证结论的正确性,只能以某种程度相信它为真,这是归纳推理的一个重要特征。人们通过大量的实践总结出了枚举归纳、联想归纳、类比归纳、逆推理归纳、消除归纳等多种归纳方法。v(1)示例学习)示例学习v 示例学习(learning from examples)又称为实例学习,它是通过环境中若干与某概念有关
43、的例子,经归纳得出一般性概念的一种学习方法。v(2)观察发现学习)观察发现学习v 观察发现学习又称为描述性概括,其目标是确定一个定律或理论的一般性描述,刻画观察集,指定某类对象的性质。观察发现学习可分为观察学习与机器发现两种。前者用于对事例进行聚类,形成概念描述;后者用于发现规律,产生定律或规则。v 7.强化学习强化学习(reinforcement learning)v 强化学习把学习看作试探评价过程,系统选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个效果信息(奖励或惩罚)反馈给系统,系统于是应当选择能够使受到奖励的动作概率增大的新动作 强化了受奖动作。3.3 3.3 信息的
44、间接获取信息的间接获取v 3.3.4 信息检索信息检索v 信息作为“事物运动的状态及其变化形式”,其数量如同海洋中的水分子一样不可计数,人们所面对或所感兴趣的仅是其中的极小一部分。另一方面,很多信息已从本体论信息转变为认识论意义的信息,后人可以直接利用这些“精华”而不必重新去直接获取。这就提出了以下问题:如何有序组织这些已获得的信息并能快速的检索到感兴趣的信息?v“我们都被淹没在信息的海洋中,我们渴求迅速获得实际需要的信息!”v 信息检索(信息检索(information retrieval)v 广义:信息检索是指将信息按一定方式组织和存储起来,然后在用户需要(发出信息提问)时找出相关信息的过
45、程。v 狭义:信息检索是指从汇集的文献信息中选出特定用户在特定时间所需信息的操作过程,信息检索包括信息的存储和信息检索两个部分,如图3.5所示。信息检索流程信息检索流程3.3 3.3 信息的间接获取信息的间接获取v 3.3.4.1 信息的组织信息的组织v 信息组织是指对大量的信息(主要指文献信息)进行收集、整理、分类、排序和编制索引,使之有序化的过程。信息组织是信息检索与传播的前期准备,大体包括:信息的筛选、信息的描述、信息的存储三个步骤。v 1.信息的筛选信息的筛选v 信息的筛选是指按照一定的准则对大量收集的信息进行挑选和鉴别的过程。v 2.信息的描述信息的描述v 信息的描述是指根据一定的规
46、则和技术标准,对信息的外表特征和内容特征进行一定的描述,并给予记录的过程,信息的描述又称为信息的著录与标引。v(1)外表特征的描述与标识)外表特征的描述与标识v 信息的外表特征是指信息的名称、来源、加工者、类型及表现形式等。例如:v 期刊论文:文献的题目、作者、作者的单位、文献的出处(刊名、年卷期、起止页码)、语种、参考文献及图表的数量等。v 图书:书名、著者、出版项(出版社、地点、时间)、稽核项(价格、页数、参考文献)、书号等。3.3 3.3 信息的间接获取信息的间接获取v 3.3.4.1 信息的组织信息的组织v(2)内容特征的描述与标识)内容特征的描述与标识v 信息内容特征的描述是指在对信
47、息内容进行分析的基础上,根据一定的规则对信息的内容赋予标识的过程。具体项目:分类号、主题词、文摘。v 分类描述及分类法v 分类是依据事物的属性或特征加以区分和类聚,并将区分的结果按照一定的次序进行组织的过程。分类通常按知识门类的学科体系的逻辑次序进行。目前主要有以下几种分类法:中国图书馆分类法、美国国会图书馆分类法、杜威十进位分类法、各种搜索引擎和网站、囯际专利分类法(IPC)。v 主题描述v 主题描述是指通过对信息内容的分析,以能够表达主题的词语作为标识来组织及检索信息的一种方法。主题语言包括标题词语言、元词语言、叙词语言和关键词语言。3.3 3.3 信息的间接获取信息的间接获取v 3.3.
48、4.1 信息的组织信息的组织v 3.信息的存储信息的存储v 信息的存储是指将经过加工、处理的信息资源(包括文件、图像、数据等),按照一定的方式记录在相应的信息载体上,组织成系统化的检索系统。v(1)数据库)数据库:数据库(Database)是由文档组成的,能满足特定需要的一种数据集合。v(2)记录及其组成)记录及其组成:记录(record)是数据库的基本组成单位。一条文献记录是由若干项目组成,每个项目称为一个字段(field)。v 记录的组成:v 检索系统存取号;v 基本索引字段,如篇名、文摘、主题词(叙词、关键词等)字段等;v 辅助字段,如著者、著者工作单位、文献信息类型、出版者、出版时间等
49、字段。信息的存储示意图信息的存储示意图 3.3 3.3 信息的间接获取信息的间接获取v 3.3.4.2 信息的检索信息的检索v 1.信息检索的类型信息检索的类型v(1)按检索对象内容划分)按检索对象内容划分v 文献检索文献检索v 以文献为检索对象,查找含有用户所需信息的文献,如目录型、文摘型数据库。v 数据检索数据检索v 以数值信息为检索对象,通过检索,用户可获得所需要的数值型数据。v 事实检索事实检索v 以事实作为检索对象,用户通过检索可获得有关事物、事件的发生与发展情况及相关资料。v 文本检索文本检索v 查找含有特定信息的文本文献的检索,其结果是以文本形式反映特定信息的文献。这是一种传统的
50、信息检索类型。v 多媒体检索多媒体检索v 查找含有特定信息的多媒体文献的检索,其结果是以多媒体形式反映特定信息的文献。3.3 3.3 信息的间接获取信息的间接获取v 3.3.4.2 信息的检索信息的检索v 1.信息检索的类型信息检索的类型v(2)按检索手段划分)按检索手段划分v 手工信息检索手工信息检索v 机器信息检索机器信息检索v 利用检索系统进行信息检索,主要就是指计算机信息检索。其优点是检索速度快、能够多元检索、检索的全面性较高。v 2.信息检索的方法信息检索的方法v(1)引文追溯法)引文追溯法v 利用文献所附的参考文献进行追溯查找。v(2)工具法)工具法v 顺查法顺查法:以研究课题的起