1、第7章第7章 信息处理技术7.1 信息处理概述7.2 信号与系统7.3 数字信号处理7.4 大数据时代7.5 数据融合技术7.6 现代信号处理7.7 智能信息处理技术第7章 教学提示本章介绍信息处理及信息处理技术,首先讲述经典的连续信号和数字信号的处理技术;在此基础上,介绍目前我们所处的信息环境,即所谓的大数据时代;然后讲述利用多传感器实现的数据融合技术;最后讲述现代信号处理技术。第7章7.1.1 信息处理的基本概念人类的生产和生活很大程度上依赖于信息的收集、处理和传送。获取信息并对它进行加工处理,使之成为有用信息并发布出去的过程,称为信息处理。7.1 信息处理概述第7章1.信息信息(Info
2、rmation)既是一种抽象的概念,又是一个无处不在的实际事件。控制论创始人维纳(Norbert Wiener)认为,信息既不是物质也不是能量,是人类为适应外部环境及感知外部环境,与外部环境交换内容的总称。因此,可以认为,信息是人与外界的一种交互通信的信号量。信息论奠基者香农(Clause Shannon)认为,信息就是能够用来消除不确定性的东西,是一个事件发生概率的对数的负值。该论述第一次阐明了信息的功能和用途,表明了信息是一个可以度量的概念,且指出了信息的度量方法可以依据相应事件发生的概率进行确定其大小。这样,不同概率事件就包含了不同的影响度(或称信息量)。第7章信息具有以下特性:(1)可
3、识别性。信息是可以识别的。识别又可分为直接识别和间接识别。直接识别是指通过感官的识别,间接识别是指通过各种测试手段的识别。不同的信息源有不同的识别方法。(2)可存储性。信息是可以通过各种方法存储的。(3)可扩充性。信息随着时间的变化,将不断扩充。(4)可压缩性。人们对信息进行加工、整理、概括、归纳就可使之精练,从而浓缩。(5)可传递性。信息的可传递性是信息的本质特征。(6)可转换性。信息是可以由一种形态转换成另一种形态的。(7)特定范围有效性。信息在特定的范围内是有效的,否则是无效的。第7章2.信息处理信息处理就是对信息的接收、存储、转化、传送和发布等。信息的接收包括信息的感知、信息的测量、信
4、息的识别、信息的获取以及信息的输入等;信息的存储就是把接收到的信息及转换、传送、发布中间的信息通过存储设备进行缓冲、保存、备份等处理;信息的转化就是把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理;信息的传送就是把信息从一地传送到另外一地;信息的发布就是把信息通过各种形式展示出来。第7章 信息处理就是对信息的接收、存储、转化、传送和发布等。信息的接收包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等;信息的存储就是把接收到的信息及转换、传送、发布中间的信息通过存储设备进行缓冲、保存、备份等处理;信息的转化就是把信息根据人们的特定需要进行分类、计算、分析、检索
5、、管理和综合等处理;信息的传送就是把信息从一地传送到另外一地;信息的发布就是把信息通过各种形式展示出来。第7章 信息处理的目的主要有:提高有效性;提高抗干扰性;改善主观感觉的效果;对信息进行识别和分类;分离和选择信息。信息处理的一个基本规律是信息不增原理。依据信息处理的目的,信息处理的方法主要有以下几种:提高有效性信息压缩。通过过滤、预测、信源编码和阈变换等方法,就可以在一定程度上压缩频带、压缩动态范围、压缩数据率。在允许一定失真的条件下,信息率失真理论是这类信息处理技术的理论基础。第7章 提高抗干扰性。针对干扰的性质和特点,对载荷信息的信号进行适当的变换和设计。改善主观感觉效果。图像、声音等
6、。识别和分类模式识别。根据用户要求,合理地抽取模式的特征,然后根据一定的准则对模式进行识别和分类。基于模式统计特征和统计推断理论的统计识别方法;基于模式结构特征和文法推理的文法识别方法。选择与分离。从内容随时增减变动的数据库中有选择地提取信息,或情报检索和文字加工等。第7章信息处理与信号处理 信号是信息的载体,信息通过信号传递。只有通过对接收信号的处理,才能获得信息。信号处理(Signal Processing)是指对信号进行变换和运算。信号处理的目的是削弱信号中多余的内容,滤除混杂的噪声和干扰,或者,将信号变换成容易分析和识别的形式,便于估计和选择它的特征参量。信号的发生、信号的传送、信号的
7、接收、信号的分析、信号的处理、信号的存储、信号的检测与控制等。都可以把称之为信号处理第7章7.2信号与系统 信号(signal)是运载信息的工具,是信息的载体。信号的分类方法很多,信号按数学关系、取值特征、能量功率、处理分析、所具有的时间函数特性、取值是否为实数等,可以分为确定性信号和非确定性信号(又称随机信号)、连续信号和离散信号、能量信号和功率信号、时域信号和频域信号、时限信号和频限信号、实信号和复信号等。信号按其幅度和时间变量的取值特征分为模拟信号和数字信号两大类。系统(system)是由相互作用相互依赖的若干组成部分结合而成的,具有特定功能的有机整体。第7章y(t)=Tx(t)式中T表
8、示系统。根据待处理信号是模拟信号还是数字信号,系统分为模拟系统和数字系统。第7章信号与系统研究内容 信号分析法信号分析法时域分析;频域分析;变换域时域分析;频域分析;变换域分析(包括分析(包括S S域和域和Z Z域);域);系统分析法系统分析法时域分析;频域分析;变换时域分析;频域分析;变换域分析(包括域分析(包括S域和域和Z域)域);以信号分析为基础,建立分析以信号分析为基础,建立分析LTI系统的相应方系统的相应方法:法:以信号分解为核心思想,研究确知信号的分析以信号分解为核心思想,研究确知信号的分析方法:方法:第7章 时域波形与频域波形的关系第7章频域分析法傅里叶变换复频域分析拉普拉斯变换
9、jj()()ed1()()ed 2ttFf ttf tFj j 0 de)(j21)(de)()(ccststssFtfttfsF第7章7.3 数字信号处理 在模拟通信中,为了提高信噪比,需要在信号的传输过程中对衰减的传输信号进行放大,而信号在传输过程中不可避免地叠加上的噪声也被同时放大。随着传输距离的增加,噪声累积越来越多,致使传输质量严重恶化。如果采用数字信号传输,由于数字信号的幅值是有限位二进制数,在传输过程中虽然也受到噪声的干扰,但当信噪比恶化到一定程度时,则可在适当的距离采用判决再生的方法,再生成没有噪声干扰的和原发送端一样的数字信号,所以可实现长距离高质量的传输。广义来说,数字信号
10、处理是研究用数字方法对信号进行分析、变换、滤波、检测、调制、解调以及快速算法的一门技术学科。第7章7.3.1 数字信号及系统的定义和分析方法 时间和幅度取值都是离散的信号称为数字信号。数字信号处理(Digital Signal Processing)用运算的方法实现处理数字信号的目的,主要的运算包括滤波、转换、检测、估计、压缩、识别等。模拟信号的数字化需要三个步骤:采样、量化和编码。采样是指用每隔一定时间的信号样值序列来代替原来在时间上连续的信号,也就是在时间上将模拟信号离散化。量化是用有限个幅度值近似原来连续变化的幅度值,把模拟信号的连续幅度变为有限数量的有一定间隔的离散值。编码是按照一定的
11、规律,把量化后的值用二进制数字表示,然后转换成二值或多值的数字信号。第7章 处理数字信号的系统,称为数字系统。连续信号的数字化处理过程 与模拟系统相比,数字系统的优点是:体积小、功耗低、精度高、可靠性高、灵活性大、易于大规模集成、可进行二维与多维处理。与模拟信号类似,数字信号的分析方法有时域分析法和频域分析法,数字系统的分析方法有时域分析法、频域分析法和复频域分析法。第7章7.3.2 数字信号处理的主要内容1.谱分析信号分析主要包括时域分析和频域分析。谱分析就是频域分析,是在频域中描述信号特性的一种分析方法,用的数学工具就是傅里叶变换。2.快速傅里叶变换(FFT)1965年,库利(T.W.Co
12、oley)和图基(J.W.Tuky)在计算机数学(Math.Computation,Vol.19,1965)杂志上发表了著名的机器计算傅里叶级数的一种算法论文,首次提出离散傅里叶变换的快速算法。离散傅立叶变换(Discrete Fourier Transform,DFT)的快速算法快速傅里叶变换(Fast Fourier Transformation,FFT)为频谱分析提供了一种优异的分析手段。第7章3.数字滤波器数字滤波器是通过一定的运算方法改变输入数字信号所含频率分量的相对比例或滤除某些频率分量,从而获得所需的有用信息的数字系统。数字滤波器根据其选频作用分为低通滤波器(Low-Pass F
13、ilter,LPF)、高通滤波器(High-Pass Filter,HPF)、带通滤波器(Band-Pass Filter,BPF)和带阻滤波器(Band-Stop Filter,BSF)等;从实现方法上分为无限脉冲响应(Infinite Impulse Response,IIR)数字滤波器和有限脉冲响应(Finite Impulse Response,FIR)数字滤波器;从处理的信号类型上分为经典滤波器和现代滤波器。第7章 理想低通、高通、带通和带阻滤波器的幅频特性第7章 低通滤波器的幅频特性曲线第7章数字信号处理器哈佛结构乘法及卷积单元并行处理流水线操作数字信号处理的应用语音信号处理图像信
14、号处理地球物理信号处理生物医学信号处理.第7章7.4 大数据时代 l 最早提出“大数据(Big Data)”时代已到来的是全球知名咨询公司麦肯锡,麦肯锡称:数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。l 早在1980年,著名未来学家阿尔文托夫勒便在第三次浪潮一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。l 大多数学者认为,“大数据”这一概念最早公开出现于1998年,美国高性能计算公司SGI的首席科学家约翰马西(JohnMashey)在一个国际会议报告中指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等四个难题,并用“BigData(大数据)”
15、来描述这一挑战,在计算领域引发思考。第7章l 2007年,数据库领域的先驱人物吉姆格雷(JimGray)指出大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径,并认为在实验观测、理论推导和计算仿真等三种科学研究范式后,将迎来第四范式“数据探索”,后来同行学者将其总结为“数据密集型科学发现”,开启了从科研视角审视大数据的热潮。l 2012年,牛津大学教授维克托迈尔-舍恩伯格(ViktorMayer-Schnberger)在其畅销著作大数据时代(BigData:ARevolutionThatWillTransform HowWeLive,Work,andThink)中指出,数据分析将从“随机采
16、样”、“精确求解”和“强调因果”的传统模式演变为大数据时代的“全体数据”、“近似求解”和“只看关联不问因果”的新模式,从而引发商业应用领域对大数据方法的广泛思考与探讨。l 大数据于2012、2013年达到其宣传高潮,2014年后概念体系逐渐成形,对其认知亦趋于理性。第7章7.4.1 大数据的概念大数据(Big Data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策及更积极目的的资讯。大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。因而大数据处理数据的三大转变:要全体不要抽样,要效率不要绝
17、对精确,要相关不要因果。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Volume、Variety、Value和Velocity),即体量大、多样性、价值密度低、速度快。第7章7.4.2 大数据技术大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。大数据技术就是指,从各种各样类型的巨量数据中,快速获得有价值信息的技术。大数据处理的流程可以概括为四步:采集、导入与预处理、统计与分析及数据挖掘。大数据应用可分为三个层次:第一层,描述性分析应用。第二层,预测性分析应用。第三层,指导性分析应用。第7章7.4.3 大数据的相关问题1.技术问题(1)利
18、用信息技术等手段处理非结构化和半结构化数据。信息可以划分为两大类,一类信息能够用数据或统一的结构加以表示,称之为结构化数据,如数字、符号;而另一类信息无法用数字或统一的结构表示,称之为非结构化数据,如文本、图像、声音、网页等;而半结构化数据是结构化的数据,但是结构变化很大,如员工的简历。大数据中,结构化数据只占15%左右,其余的85%都是非结构化的数据。(2)大数据复杂性、不确定性特征描述的刻画方法及大数据的系统建模。(3)数据异构性与决策异构性的关系对大数据知识发现与管理决策的影响。第7章2.大数据的存储问题(1)容量问题。(2)延迟问题。(3)安全问题。(4)成本问题。(5)数据的积累。(
19、6)灵活性。第7章75数据融合技术 数据融合起源于1973年美国国防部资助开发的声纳信号处理系统。数据融合是指采集并集成各种信息源、多媒体和多格式信息,从而生成完整、准确、及时和有效的综合信息的过程。数据融合是一个框架,它是一个把多源信息,通过合适的方法结合起来得到一个更满意结果的过程。多传感器系统是数据融合的硬件基础,多源信息是数据融合的对象,协调优化和综合处理是数据融合的核心。数据融合技术通过组合获得比单传感器数据更准确的信息,即通过各个传感器之间的协调和性能互补来提高整个多传感器系统的性能。第7章数据融合技术主要有以下几个优点:可以提高信息的可信度。改进了系统探测性能。提供稳定的工作性能
20、。提高了系统的容错能力。实现信息的智能化处理。多传感器融合技术已成功地应用于众多的研究领域。第7章按照融合对象的层次不同可分为:数据层融合。数据融合是直接在采集到的原始数据层上进行的融合,在各种传感器的原始测报未经预处理之前就进行数据的综合与分析。特征层融合。特征层融合属于中间层次的融合,它先对来自传感器的原始信息进行特征提取(特征可以是目标的边缘、方向、速度等),然后对特征信息进行综合分析和处理。决策层融合。决策层融合通过不同类型的传感器观测同一个目标,每个传感器在本地完成基本的处理,其中包括预处理、特征抽取、识别或判决,以建立对所观察目标的初步结论,然后通过关联处理进行决策层融合判决,最终
21、获得联合推断结果。多传感器数据融合作为一种可消除系统的不确定因素、提供准确的观测结果和综合信息的智能化数据处理技术,已在军事、工业监控、智能检测、机器人、图像分析、目标检测与跟踪、自动目标识别等领域获得普遍关注和广泛应用。第7章 数据融合作为一种数据综合和处理技术,实际上是许多传统学科和新技术的集成和应用,其中涉及的知识包括通信、模式识别、决策论、不确定性理论、信号处理、估计理论、最优化技术、计算机科学、人工智能、神经网络等,特别是神经网络和人工智能等新概念、新技术在多传感器数据融合中将起到越来越重要的作用。多传感器数据融合技术的核心问题是选择合适的融合算法,由于信息的多样性和复杂性,对数据融
22、合方法的基本要求是具有鲁棒性(Robustness)和并行处理能力。数据融合算法大体上可分成以下三大类 基于统计理论的融合算法包括经典推理法、贝叶斯估计法和证据理论法(Dempster-Shafer法)。基于信息论的融合算法包括模板法、聚类分析法和人工神经网络等。基于认识模型的融合算法是试图模仿人类进行实体辨别的过程,其中包括模糊集合理论、逻辑模板法和专家系统等。第7章多传感器数据融合应用领域 防御系统。是专门对进入所管辖领域的各类目标进行探测、跟踪和目标识别的系统。机器人控制。智能机器人通常配置有立体视觉、听觉、距离和接近觉传感器、力/力矩传感器、多功能触觉传感器等。医疗诊断。遥感。遥感应用
23、主要是对地面目标或实体进行监视、识别与定位。传感技术。信号处理、模式识别、图形图像处理、人工智能和神经网络等相关学科的飞速发展。第7章7.6现代信号处理 经典信号处理技术假设待处理信号及其背景噪声是高斯的和平稳的;待分析系统限于时不变(或缓慢)、线性、因果、最小相位的系统;信号分析方法只限于一、二阶矩特性和傅里叶变换。信号处理的一些重要领域,如优化、自适应、高分辨、多维和多通道等,其理论和方法均日趋系统化,对系统的分析不再限于理想模型,而要考虑实际因素,同时对系统也不再限于定性描述,而要作出统计性能评价,使理论和实际在更高的水平上密切结合,非线性理论和非线性技术也得到了发展和应用。这就是现代信
24、号处理的理论和技术。现代信号处理的基本内容包括统计信号处理、多维多信道信号处理、非高斯信号分析处理和非平稳信号处理。第7章7.7 智能信息处理技术 智能信息处理技术是信号与信息技术领域一个前沿的富有挑战性的研究方向,它以人工智能理论为基础,侧重于信息处理的智能化,包括计算机智能化(文字、图像、语音等信息智能处理)、通信智能化以及控制信息智能化。智能信息处理的研究方向很多,主要包括以下几个方面:网络科学(Web Science)、智能计算(Intelligent Computing)、搜索引擎(Search Engine)、数据挖掘(Data Mining)、优化算法(Optimizationa
25、l Gorithm)、机器学习(Machine Learning)等。第7章7.7.1 网络科学1.网络科学的定义 网络科学(Network Science)是专门研究复杂网络系统的定性和定量规律的一门崭新的交叉科学,研究涉及复杂网络的各种拓扑结构及其性质,与动力学特性(或功能)之间的相互关系,包括时空斑图的涌现、动力学同步及其产生机制,网络上各种动力学行为和信息的传播、预测(搜索)与控制,以及工程实际所需的网络设计原理及其应用研究,其交叉研究内容十分广泛、丰富。2.发展简史网络科学首先得益于图论和拓扑学等应用数学的发展。关于图论的文字记载最早出现在欧拉1736年的论著中。在数学上,关于哥尼斯
26、堡七桥问题、多面体的欧拉定理、四色问题等都是拓扑学发展史的重要问题。20世纪50年代末和60年代匈牙利著名的数学家Paul Edos(保罗爱尔德)和Alfred Renyi(阿尔弗雷德莱利)建立了著名的随机图理论,奠定了随机网络理论的基础。第7章1998年,科学家迎来了复杂网络的又一次突破性进展。首先冲破ER理论框框的人是美国康奈尔大学理论和应用力学系的博士生Watts及其导师Strogatz,他们在Nature杂志上发表了题为“小世界”网络的群体动力行为的论文,提出了小世界网络模型。包含了“六度分离概念”的基本思想。2003年哥伦比亚大学社会学系的邓肯瓦茨(Duncan Watts)领导的研
27、究小组在科学杂志上发表了实验报告,他们利用互联网在全世界范围内初步检验了上述惊人的假说,有六万多志愿者参与利用电子邮件通信试验,例如通过在分布世界各地的某同学的同学中进行通信试验表明,确实不到6步就实现了,这就利用互联网初步验证了“小世界现象”。1999年美国圣母(Notre Dame)大学物理系的Barabasi教授及其博士生Albert在Science杂志上发表了题为随机网络中标度的涌现一文,提出了一个无标度网络模型,发现了复杂网络的无标度性质,并和M.Newmann及D.J.Watts共同编辑了网络的结构与动力学专著,该书在国际上产生了广泛的影响,引起了全世界的高度重视。这正是他在网络科
28、学方面的杰出贡献,因此于2006年获得了美国Von Neumann计算金奖,这标志着复杂网络研究进入了网络科学的新时代,由此诞生了一门崭新的科学:网络科学。第7章3应用领域网络科学的应用领域主要包括以下几个方面:(1)安全和军事应用。网络拓扑结构的稳健性与脆弱性问题,网络结构对军事网络的容错性影响,军事网络的抗干扰、多环境、多任务、异构性、保密性研究等均涉及网络科学。(可以参考2009年Stuxnet病毒攻击伊朗核设施的事件、2011年“CSDN泄密门”事件)。(2)生物和疾病控制。如何控制计算机病毒和各种传染病传播(包括艾滋病、非典和禽流感等)以应对它们给人类造成巨大的威胁呢?网络科学对于研
29、究传染病的传播方式有着重要的作用。不同的网络模型对于我们的应对方式有着不同的指导原则。(3)物联网研究等其他方面。物联网在未来将会成为一个全球性的动态网络。其覆盖面将无限大,功能繁多,网络异构性强、覆盖面广、信息处理能力强,跨越虚拟和现实空间,因此会成为一个复杂网络的研究样本。对于其发展,一方面需要借助网络科学的研究成果加以引导和控制,另一方面又可以作为网络科学的研究样本促进这一学科的发展。第7章7.7.2 智能计算 智能计算(Intelligent Computing)只是一种经验化的计算机思考性程序,是人工智能化体系的一个分支,是辅助人类处理各式问题的具有独立思考能力的系统。智能计算也称为
30、计算智能,包括遗传算法、模拟退火算法、禁忌搜索算法、进化算法、启发式算法、蚁群算法、人工鱼群算法,粒子群算法、混合智能算法、免疫算法、人工智能、神经网络、机器学习、生物计算、DNA计算、量子计算、智能计算与优化、模糊逻辑、模式识别、知识发现、数据挖掘等。智能计算不是一个全新的事物,而是由通用计算发展而来的,它既是对通用计算的延续与升华,也是应对AI趋势的新计算形态。第7章智能计算需要具有以下几个关键特征:(1)持续进化:自我智能管理与升级的能力。(2)环境友好:与地理环境位置无关的随地部署、无缝连接与高效协同。(3)开放生态:产业上下游多方均可广泛参与,共创共享AI红利。智能计算就是利用先进的
31、IT、CT技术(芯片、架构、AI等),首先实现IT基础设施的智能化升级(智能管理、在线升级与进化),针对不同业务负载智能分配最优计算资源,提升IT基础设施的利用效率,优化当前业务的计算TCO;其次面向未来AI新业务形态,提供充沛且经济的计算能力,并可随时随地开发、部署、使用与协同,降低AI使用门槛,让AI成为一种通用与普惠的计算资源;最后是开放架构与生态,让更多的参与者有机会参与AI计算。人工智能和智能计算完全是两个概念。图灵奖获得者约翰霍普克罗夫特说,计算和通信两个领域的融合开创了智能计算的新天地,计算机已经可以更聪明地帮助人们获得和处理信息,这已经和人工智能的概念大相径庭了。第7章7.7.
32、3 搜索引擎 搜索引擎(Search Engine)是指根据一定的策略,运用特定的计算机程序从互联网上采集信息,在对信息进行组织和处理后,为用户提供检索服务,将检索的相关信息展示给用户的系统。搜索引擎是工作于互联网上的一门检索技术,它旨在提高人们获取、搜集信息的速度,为人们提供更好的网络使用环境。从功能和原理上搜索引擎大致被分为全文搜索引擎、元搜索引擎、垂直搜索引擎和目录搜索引擎等四大类。搜索引擎发展到今天,基础架构和算法在技术上都已经基本成型和成熟。搜索引擎的整个工作过程分为三个部分:(1)网络“爬虫”在互联网上爬行和抓取网页信息,并存入原始网页数据库。(2)对原始网页数据库中的信息进行提取
33、和组织,并建立索引库。(3)根据用户输入的关键词,快速找到相关文档,并对找到的结果进行排序,然后将查询结果返回给用户。第7章 在搜索引擎技术的帮助下,利用关键词、高级语法等检索方式就可以快速捕捉到相关度极高的匹配信息。同时,还能对检索的信息加以一定维度的分析,以引导对信息的使用与认识。当代搜索引擎技术几乎可以支持各种数据类型的检索,例如自然语言、智能语言、机器语言等各种语言。目前,不仅视频、音频、图像可以被检索,而且人类面部特征、指纹、特定动作等也可以被检索。可以想象,在未来几乎一切数据类型都可能成为搜索引擎的检索对象。搜索引擎基本结构一般包括:搜索器、索引器、检索器、用户接口等四个功能模块。
34、搜索引擎工作流程主要有数据采集、数据预处理、数据处理、结果展示等阶段。在各工作阶段分别使用了网络“爬虫”、中文分词、大数据处理、数据挖掘等技术。互联网上的用户众多,数据信息来源极广,互联网上的网页是实时动态变化的,网页的更新、删除等变动极为频繁,有时候会出现才更新的网页在“爬虫”程序还来不及抓取的时候却已经被删除的情况,这将大大影响搜索结果的准确性。“爬虫”抓取的数据在经过预处理后数据量依然相当庞大,这给大数据存储技术带来相当大的挑战。第7章 目前由于数据挖掘技术以及计算机硬件的限制使得数据处理的准确度未能达到理想程度,而且由于一些个人或公司利用搜索引擎现有的漏洞,通过作弊手段来干扰检索结果,
35、导致检索结果的可靠性可能会受到影响。搜索引擎的发展趋势包括:社会化搜索、实时搜索、移动搜索、个性化搜索、地理位置感知搜索、跨语言搜索、多媒体搜索、情境搜索等。第7章7.7.4 数据挖掘 数据挖掘(Data Mining)是指从大量的数据中通过算法搜索隐藏于其中信息的过程,它通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现。数据挖掘是人工智能和数据库领域研究的热点问题,所谓数据挖掘,是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、
36、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整策略,减少风险,作出正确的决策。知识发现过程由三个阶段组成:数据准备、数据挖掘、结果表达和解释。第7章 数据挖掘可以与用户或知识库交互。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,它主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据和解释集所含的规律找出来;结果表达是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来并进行解释。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组
37、分析和演变分析等。数据挖掘利用了来自以下一些领域的思想:(1)来自统计学的抽样、估计和假设检验。(2)人工智能、模式识别和机器学习的搜索算法。(3)建模技术和学习理论。数据挖掘迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。第7章数据的类型可以是结构化的、半结构化的,甚至是异构型的。发现知识的方法可以是数学的、非数学的,也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。数据挖掘的对象可以是任何类型的数据源。它既可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序
38、数据、Web数据等,此类包含半结构化数据甚至异构性数据的数据源。数据挖掘的系统由数据库管理模块、挖掘前处理模块、挖掘操作模块、模式评估模块、知识输出模块等部分组成,这些模块的有机组成构成了数据挖掘系统的体系结构。第7章数据挖掘分为有指导的数据挖掘和无指导的数据挖掘。有指导的数据挖掘是利用可用的数据建立一个模型,是对一个特定属性的描述。无指导的数据挖掘是在所有的属性中寻找某种关系。具体而言,分类、估值和预测属于有指导的数据挖掘;关联规则和聚类属于无指导的数据挖掘。数据挖掘的算法主要包括神经网络法、决策树法、遗传算法、粗糙集法、模糊集法、关联规则法等。第7章7.7.5 优化算法1基本概念 算法(A
39、lgorithm)是指对解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。优化算法(Optimization Algorithm)是指对算法的有关性能进行优化,如时间复杂度、空间复杂度、正确性、健壮性。随着大数据时代的到来,算法要处理数据的数量级越来越大并且处理问题的场景也千变万化。为了增强算法处理问题的能力,对算法进行优化是必不可少的。算法优化一般是对算法结构和收敛性进行优化。2常见算法优化方法(1)随机搜索(Random Search)法。(2)梯度下降法。(3)遗传算法。(4)模拟退火法。第7章7.7.6 机器学习1机器学习的概念 机器
40、学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。机器学习的核心是使用算法解析数据,从中学习,然后对世界上的某件事情作出决定或预测。这意味着,与其显式地编写程序来执行某些任务,不如教计算机如何开发一个算法来完成任务。第7章2机器学习的类型1)监督学习 监督学习涉及一组标记数据,计算
41、机可以使用特定的模式来识别每种标记类型的新样本。监督学习的两种主要类型是分类和回归。2)非监督学习 在非监督学习中,数据是无标签的。非监督学习分为聚类和降维。3)强化学习 强化学习通过使用机器的个人历史和经验来作出决定。强化学习的经典应用是玩游戏。与监督和非监督学习不同,强化学习不涉及提供“正确的”答案或输出。相反,它只关注性能。第7章3机器学习与人工智能的关系 机器学习是人工智能的一个分支。人工智能致力于创造出比人类更能胜任复杂任务的机器。这些任务通常涉及判断、策略和认知推理,这些技能最初被认为是机器的“禁区”。虽然这听起来很简单,但这些技能的范围非常大,如语言处理、图像识别、规划等。机器学
42、习使用特定的算法和编程方法来实现人工智能。4机器学习的应用 机器学习最主要的应用领域有:专家系统、认知模拟、规划和问题求解、数据挖掘、网络信息服务、图像识别、故障诊断、自然语言理解、机器人和博弈等,具体而言,即数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用等方面。第7章机器学习涉及大量数学知识,主要是线性代数、微积分、概率和统计。Bayes定理是机器学习的基本思想。机器学习最大的突破是2006年的深度学习。深度学习是一类机器学习,目的是模仿人脑的思维过程,经常用于图像和语音识别。机器学习的
43、主要算法有:回归算法,k-最近邻算法(KNN)、决策树算法、贝叶斯算法、聚类算法、深度学习和神经网络算法等。随着机器学习的进步,物联网设备比以往任何时候都更聪明、更复杂。机器学习有两个主要的与物联网相关的应用:使设备变得更好和收集数据更加有效。让设备变得更好是非常简单的:使用机器学习来个性化环境。我们看到了聊天机器人的激增,成熟的语言处理算法每天都在改进它们。机器学习使自动驾驶汽车成为可能,比如交通标志传感器,它使用监督学习算法来识别和解析交通标志,并将它们与一组有标记的标准标志进行比较。这样,汽车就能看到停车标志,并认识到它实际上意味着让停车,而不是让转弯,或告之是单向行驶或人行横道。第7章
44、本 章 小 结 本章讲述了信息处理的基本概念,包括信息、信号和系统的定义,特别是当前广泛使用的数字信号和数字系统的定义;讲述了信号处理的基本内容和技术;介绍了大数据的概念,大数据处理技术及相关问题;还介绍了数据融合技术的概念以及算法和用途;在分析经典信号处理局限性的基础上,简要介绍了现代信号处理算法和技术;最后,介绍了智能信息处理的研究方向、相关算法和发展趋势。第7章习 题 71.信息处理的方法有哪几种?2.什么是信号的频域分析?3.模拟信号的数字化处理需要哪些步骤?4.数字信号处理的主要内容有哪些?5.什么是大数据?其基本特征有哪些?6.简述大数据处理的流程。7.怎样理解数据融合?简述数据融合的过程。8.现代信号处理技术有哪些突破?9.查阅相关文献,分析智能信息处理的研究方向和进展。Questions?第7章