1、目录目录数据融合技术云计算数据挖掘 软件和算法12345机器学习 信息和隐私安全技术67 应用层标准7.1 数据融合技术数据融合(DataFusion)出现于20世纪70年代,最早应用于军事领域,包括航空目标的探测、识别和跟踪,以及战场监视、战术态势估计和威胁估计等。数据融合是WSN(Wireless Sensor Networks,无线传感器网络)中非常重要的一项技术,它是将多份数据或信息进行处理,组合出更高效更符合用户需求的数据的过程。WSN的发展主要受到能量供应、数据传输速率、数据安全性、系统可靠性等诸多条件的限制和挑战,其中有效的不可再生的能量供给是WSN的最大挑战。数据融合技术可以通
2、过一定的算法将传感器节点采集到的大量原始数据进行各种网内处理,只将少量有意义的处理结果传输到汇聚节点。数据融合技术是指利用计算机对按时序获得的若干观测信息,在一定准则下加以自动分析、综合,以完成所需的决策和评估任务而进行的信息处理技术。7.1.1无线传感网络数据融合技术1、无线传感网络数据融合技术定义充分利用传感器资源,通过对各种传感器及人工观测信息的合理支配与使用,将各种传感器在空间和时间上的互补与冗余信息依据某种优化准则或算法组合来,产生对观测对象的一致性解释和描述。2、数据融合的工作原理数据融合中心对来自多个传感器的信息进行融合,也可以将来自多个传感器的信息和人机界面的观测事实进行信息融
3、合(这种融合通常是决策级融合),提取征兆信息,在推理机作用下将征兆与知识库中的知识匹配,做出故障诊断决策提供给用户。在基于信息融合的故障诊断系统中可以加入自学习模块,故障决策经自学习模块反馈给知识库,并对相应的置信度因子进行修改,更新知识库;同时自学习模块能根据知识库中的知识和用户对系统提问的动态应答进行推理,以获得新知识,总结新经验,不断扩充知识库,实现专家系统的自学习功能。7.1.1无线传感网络数据融合技术3、数据融合的作用(1)节省能量由于部署无线传感器网络时,考虑了整个网络的可靠性和监测信息的准确性(即保证一定的精度),需要进行节点的冗余配置。在这种冗余配置的情况下,监测区域周围的节点
4、采集和报告的数据会非常接近或相似,即数据的冗余程度较高。如果把这些数据都发给汇聚节点,在已经满足数据精度的前提下,除了使网络消耗更多的能量外,汇聚节点并不能获得更多的信息。而采用数据融合技术,就能够保证在向汇聚节点发送数据之前,处理掉大量冗余的数据信息,从而节省了网内节点的能量资源。(2)获取更准确的信息由于环境的影响,来自传感器节点的数据存在着较高的不可靠性。通过对监测同一区域的传感器节点采集的数据进行综合,有效地提高获取信息的精度和可信度。(3)提高数据收集效率网内进行数据融合,减少网络数据传输量,降低传输拥塞,降低数据传输延迟,减少传输数据冲突碰撞现象,可在一定程度上提高网络收集数据的效
5、率。数据融合技术可以从不同角度进行分类,主要的依据是三种:融合前后数据信息含量、数据融合与应用层数据语义的关系以及融合操作的级别。7.1.2数据融合的分类1、无线传感网络数据融合技术定义根据融合数据层分类一般来说,应用分析和数据融合的设计是按照不同层次来完成的。因此,数据融合根据融合的层次来划分可以分为以下3个层次,即原始数据级融合、特征级融合和决策级融合,不同层次的融合类型如图所示。7.1.2数据融合的分类2、根据数据的融合类型划分根据数据的融合类型划分,数据融合可以分为3种类型:时间融合、空间融合和时空融合。(1)时间融合同一多媒体传感器节点在不同的时间对监测对象的测试值进行的融合处理称为
6、时间融合。如一个视频传感器节点在一段时间内对同一监测目标采集的多幅图像帧中,对应像素点的值相近或相同,具有较大的时间相关性,因此对这种类型的数据所进行的融合处理即称为时间融合。(2)空间融合在相同时间,对不同位置的多媒体传感器节点收集的数据进行的融合处理称为空间融合。如地理位置邻近的视频传感器节点由于感知视角范围相近,因而各自采集的图像信息可能具有部分重叠的现象,对这种类型的数据冗余进行的融合处理就称为空间融合。(3)时空融合在一段时间内,对不同多媒体传感器节点收集的信息连续地进行融合的过程称为时空融合。时空融合是综合了时间融合和空间融合的情况。不仅在不同时间,对同一个多媒体传感器节点采集的数
7、据进行融合操作,而且在相同时间,又将多个多媒体传感器节点采集的数据进行融合处理。7.1.2数据融合的分类3、根据数据的融合处理方式划分根据数据的融合处理方法划分,融合系统可分为集中式融合、分布式融合和混合式融合三类。(1)集中式融合集中式融合采用的是类似星型的网络结构,每个多媒体传感器节点将采集到的多媒体信息传送到同一个信息聚集节点进行集中式的统一融合处理。这种方式的融合可以同时实现时间融合和空间融合,处理结果精度较高。但是,这对信息聚集节点的能量、计算和存储能力的要求较高,该信息聚集节点容易成为融合处理的性能瓶颈。(2)分布式融合各个多媒体传感器节点利用本地存储和计算能力对采集到的多媒体信息
8、进行融合处理,然后将处理结果发送给汇聚中心。与集中式融合方式相比,分布式融合的方式将任务分配到多个不同的多媒体传感器节点上,消除了集中式融合处理存在的单个节点性能瓶颈的问题,使得网络中的节点负载及能量消耗均衡,但是,该方式没有集中式融合处理的数据精度高。(3)混合式融合混合式融合方式根据实际的应用需求,利用集中式融合和分布式融合各自的优势,灵活地将这两种融合处理方式混合起来使用。7.2 云计算7.2.1云计算概述1、云计算的发展传统企业的软硬件维护成本高昂。在企业信息系统的投入中,只有20%的投入是用于软硬件更新,而80%的投入应用于系统维护。为了降低数据中心昂贵的建设、维护与运行费用,快速部
9、署新的网络应用,2006年Google、Amazon等公司提出了云计算的构想。根据美国国家标准与技术研究院(NIST)的定义:云计算是一种利用互联网实现随时随地、按需、便捷地访问共享计算设施、存储设备、应用程序等资源的计算模式。云计算采用计算机集群构成数据中心,并以服务的形式交付给用户,使得用户可以像使用水、电一样按需购买云计算。云计算模式一经提出便得到产业界、学术界与政府的广泛关注。同时,各国政府纷纷将云计算列为国家战略,投入了相当大的财力和物力用于云计算的部署。其中,美国政府利用云计算技术建立联邦政府网站,以降低政府信息化运行成本。英国政府建立了国家级云计算平台,超过2/3的英国企业开始使
10、用云计算服务。我国北京、上海、天津、重庆、深圳、杭州、无锡等城市也开展了云计算服务试点示范工作与发展规划,电信、石油、电力、交通运输等行业也启动了相应的云计算应用计划。7.2.1云计算概述2、云计算的特点计算资源的服务化是云计算重要的表现形式。被普遍接受的云计算特点如下:(1)超大规模“云”具有相当的规模,Google云计算已经拥有100多万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。(2)虚拟化云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无需了解、也不用担心应用运
11、行的具体位置。只需要一台笔记本或者一个手机,就可以通过网络服务来实现我们需要的一切,甚至包括超级计算这样的任务。(3)高可靠性“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性,使用云计算比使用本地计算机可靠。7.2.1云计算概述(4)通用性云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。(5)高可扩展性“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。(6)按需服务“云”是一个庞大的资源池,你按需购买;云可以像自来水,电,煤气那样计费。(7)极其廉价由于“云”的特殊容错措施可以采用极其廉价的节点来构成云,“
12、云”的自动化集中式管理使大量企业无需负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。7.2.2云计算系统组成及其技术云计算由云平台、云终端、云存储与云安全四个部分组成。1、云平台(1)云平台的特点云平台是云计算系统的核心组成部分。它作为提供云计算服务的基础,管理着数量巨大的底层物理资源(CPU、存储器与交换机),以虚拟化的技术来整合一个或多个数据中心的资源,屏蔽不同底层设备的差异性,统一分配和调度计算资源、存储资源与网络资源,以一种透明的方式
13、向用户提供包括计算环境、开发平台、软件应用在内的多种服务。用户可以从不同的终端设备上享受计算和存储资源,以及大量的存储器。在使用者看来,云平台的资源是可以无限扩展的。用户可以利用各种终端设备通过网络接入到云平台,随时获取、实时使用、按需扩展计算和存储资源,按实际使用的资源付费。云平台是云计算数据中心的主要组成部分,它是云计算系统的核心,其资源规模与可靠性对上层的云计算服务有着重要影响。7.2.2云计算系统组成及其技术(2)公有云与私有云的概念从用户角度看,云平台分为公有云与私有云两类。公有云公有云通常指第三方提供商为用户提供服务的云平台,用户可以通过互联网访问公有云。公有云作为一个支撑平台,可
14、以通过提供免费或低费用的服务,吸引大量的用户,整合上游的增值业务和广告服务,打造新的产业链。公有云主要分为四类:由传统电信基础设施运营商组建的公有云、政府主导下组建的各省市公有云、大型互联网公司组建的公有云以及由IDC运营商组建的公有云。私有云私有云是为一个用户单独使用而组建的,例如移动通信公司、银行、政府、公安、交通、电力、有线电视等部门与机构。这些部门与机构的数据存储量、处理量和安全性要求高,私有云能够满足他们在数据仓储与处理,以及安全性和服务质量方面的要求。私有云可部署在企业或部门数据中心的防火墙内,也可以将它们部署在一个安全的主机托管场所。7.2.2云计算系统组成及其技术(3)IaaS
15、、PaaS、SaaS的概念从云平台提供服务层次的角度,云平台可以分为:IaaS、PaaS与SaaS三类。IaaSIaaS(Infrastructure-as-a-Service):基础设施即服务。消费者通过Internet可以从完善的计算机基础设施获得服务。例如:硬件服务器租用。PaaSPaaS(Platform-as-a-Service):平台即服务。PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。例如:软件的个性化定制开发。SaaSSaaS(S
16、oftware-as-a-Service):软件即服务。它是一种通过Internet提供软件的模式,用户无需购买软件,而是向提供商租用基于Web的软件,来管理企业经营活动。例如:阳光云服务器。7.2.2云计算系统组成及其技术2、云终端云终端使用虚拟化技术,使得任何联入互联网或物联网的终端设备都可以访问云计算平台。基于虚拟化的云终端技术极大地减轻了终端设备对本地操作系统、硬件平台版本的依赖性,将引发终端设备使用方式的变革。目前有关云终端的研究有三种思路:(1)基于程序资源远程执行的云终端基于程序资源远程执行的云终端是最早出现的一种云终端,它类似于瘦客户机,只能实现应用程序的远程虚拟现实功能。这类
17、云终端通过远程访问的方式,获取服务器程序运行的资源,为用户呈现一个用户熟悉的运行环境。(2)基于WebOS的云终端在基于Web操作系统的云终端模式中,用户通过浏览器登录到一个虚拟桌面上,就可以在网络上提供的WebOS上运行应用程序。这种情况下,用户可以摆脱本地存储空间的限制,直接在服务器上运行应用程序。(3)基于虚拟机的云终端典型的基于虚拟机的云终端是VMWare公司的虚拟化桌面基础设施VDI,它在服务器端为每一个用户分配一个虚拟机环境,终端的数据处理与存储均在这个虚拟机环境中完成。7.2.2云计算系统组成及其技术3、云存储云存储是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各
18、种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。简单来说,云存储就是将储存资源放到云上供人存取的一种新兴方案。使用者可以在任何时间、任何地方,透过任何可连网的装置连接到云上方便地存取数据。7.2.2云计算系统组成及其技术4、云安全云安全(CloudSecurity)是一个从“云计算”演变而来的新名词。云安全的策略构想是:使用者越多,每个使用者就越安全,因为如此庞大的
19、用户群,足以覆盖互联网的每个角落,只要某个网站被挂马或某个新木马病毒出现,就会立刻被截获。“云安全”通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,推送到Server端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。目前云安全研究主要集中在:云计算的安全控制、云计算的可信执行环境、虚拟机的安全监控、云计算服务访问的通信安全,以及云计算安全评估方法等方面。7.2.3大规模信息系统大规模信息系统是由计算机硬件、网络和通讯设备、计算机软件、信息资源、信息用户和规章制度组成的以处理信息流为目的的人机一体化系统。其主要任务是最大限度的利用现代计算机及
20、网络通讯技术加强企业的信息管理,通过对企业拥有的人力、物力、财力、设备、技术等资源的调查了解,建立正确的数据,加工处理并编制成各种信息资料及时提供给管理人员,以便进行正确的决策,不断提高企业的管理水平和经济效益。大规模信息系统的开发涉及到计算机技术基础与运行环境:包括计算机硬件技术、计算机软件技术、计算机网络技术和数据库技术。(1)计算机硬件技术硬件基础设施包括网络平台、计算机主机和外部设备。计算机硬件系统是信息系统的运行平台。其中,网络平台是信息传递的载体和用户接入的基础。(2)计算机软件技术软件分为系统软件和应用软件:系统软件是指为管理、控制和维护计算机及外设,以及提供计算机与用户界面的软
21、件。包括各种语言和它们的汇编或解释、编译程序、计算机的监控管理程序(Monitor)、调试程序(Debug)、故障检查和诊断程序、程序库、数据库管理程序、操作系统(OS)等。7.2.3大规模信息系统(3)计算机网络技术计算机网络是用通讯介质把分布在不同的地理位置的计算机、计算机系统和其他网络设备连接起来,以功能完善的网络软件实现信息互通和网络资源共享的系统。计算机网络包括网络介质、协议、节点、链路。计算机网络拓扑结构:网络的链路和节点在地理上所形成的几何结构,并用以表示网络的整体结构外貌,同时也反映各个模块之间的结构关系。按照通信系统的传输方式,计算机网络的拓扑结构可分为点对点传输结构和广播传
22、输结构两大类。计算机网络根据通信距离可分为局域网和广域网两种。(4)数据库技术数据库系统包括数据集合、硬件、软件和用户层次模型(HierarchicalModel)、网状模型(NetworkModel)数据库系统、关系型(RelationModel)数据库系统。数据库设计的步骤包括用户需求分析、数据库逻辑设计、数据库物理设计、数据库的实施和维护四个阶段。关系的规范化理论是数据库设计过程中的有力工具。范式,是指关系满足一定的条件。7.2.4云计算与物联网的结合可以从以下三种可能的应用出发来研究云计算技术在物联网中的应用。1、一些刚刚运行的用于物流、位置确定、环境监测等服务的物联网应用系统,它们需
23、要完成复杂的物流运输线路规划与供应链分析,大量用户的位置信息的感知、存储与分析,大量环境数据的存储、分析与计算,但是出于经济或其他原因,这些单位不打算买大型计算机、服务器与专用软件,他们希望社会上出现一类能够满足其计算与存储需求的企业,用户可以按需租用计算资源。能够按需为用户提供计算资源的企业就是云计算服务提供商。2、随着物联网应用的深入,用户终端设备开始从计算机向各种家庭电器、智能手机与各种移动终端设备方向发展。如果在手机上键入一个搜索某个智能交通系统的应用请求,那么整个应用请求的执行过程需要物联网中大型服务器集群来协同进行。随着基于智能手机等移动终端设备的物联网服务的不断增加,提供新的物联
24、网服务的计算资源与存储资源,就可以快速组建应用系统,提供物联网服务,满足包括智能手机在内的各种移动终端设备访问物联网应用系统的需求。3、随着物联网应用的扩大,各种公共事业部门或个人需要存储的信息量不断增长,他们需要通过物联网将部门或个人的信息存储或备份到一个安全的地方,云计算服务提供商能够帮助他们完成这项工作。当然,如果物联网的应用规模达到一定的程度,也可以考虑组建部门、企业或公司专用的私有云平台。7.3 数据挖掘7.3.1数据挖掘技术1、数据挖掘的产生数据挖掘工具可以帮助从大量数据中发现所存在的特定模式规律,从而可以为商业活动、科学探索和医学研究等诸多领域提供所必需的信息知识。数据与信息知识
25、之间的巨大差距迫切需要系统地开发数据挖掘工具,来帮助实现将“数据坟墓”中的数据转化为知识财富。数据挖掘发展过程如图所示。7.3.1数据挖掘技术2、数据挖掘的基本工作原理数据挖掘的过程数据挖掘是一个反复迭代的人机交互与处理的过程。数据挖掘要经过数据预处理、数据挖掘、对挖掘结果评估表示三个阶段。(1)数据预处理数据预处理阶段主要完成以下4项任务:1)数据准备:首先需要了解数据挖掘在该领域应用的相关情况与背景知识,确定用户需求与总体目标。2)数据选取:根据用户需求,确定关注的目标数据,并从原始数据库中选取相关的数据或样本。3)数据预处理:进一步检查选取的数据的完整性与一致性,滤除与数据挖掘无关的冗余
26、数据。根据时间顺序和意志的变化情况,利用统计等方法填充丢失的数据。4)数据变换:根据知识发现的要求对预处理过的数据再进行处理,通过数据库的操作减少数据量。7.3.1数据挖掘技术(2)数据挖掘数据挖掘阶段主要完成以下三项任务:1)确定数据挖掘的目标:根据用户需求确定要发现的知识类型,为选择适合的数据挖掘算法提供依据。2)选择算法:根据确定的目标,从关联规则、分类、聚类、文本挖掘、时序模式挖掘等算法中选择合适的算法与模型。3)数据挖掘:使用选择的算法,从数据中提取用户感兴趣的知识。(3)对挖掘结果评估与表示对挖掘结果评估与表示阶段主要完成以下两项任务:1)知识评估:对数据挖掘产生的知识进行评估,剔
27、除冗余和无用的知识。如果用户不满足挖掘的结果,可以返回到前面的步骤反复提取。2)知识表示:使用可视化技术,向用户展示所挖掘的知识。7.3.1数据挖掘技术 数据挖掘的类型和算法(1)数据挖掘的类型数据挖掘基本上可以分为两类:描述性挖掘和预测性挖掘。描述性挖掘用于刻画数据库中数据的一般特性。而预测性挖掘则要在当前数据上进行推断,以进行预测。(2)描述性挖掘的算法描述性挖掘的算法主要有:关联分析、分类与聚类分析、离群点分析。关联分析是从给定的数据集中发现频繁出现的现象。关联分析广泛应用于市场营销、实务分析等应用领域。例如,我们可以用关联分析的方法,从一家手机商场的数据中发现:购买智能手机的客户中35
28、%是年龄在2329岁的年轻人,其中的70%月收入在50008000元。分类分析就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别之一。分类模型可以通过分类挖掘算法从一组样本数据中学习获得。一个商场销售主管可能会对影响商品销售的主要因素很感兴趣,若将顾客对商品的感觉分为三类,即:积极、一般和消极。那么利用分类挖掘对商场销售商品情况进行挖掘,就可以获得利用商品特征来预测顾客对其的感觉的分类知识,所获得的分类规则显然将帮助商场主管更有效开展商品的促销活动。7.3.1数据挖掘技术 聚类分析与分类预测方法明显不同之处在于,后者所学习
29、获取分类预测模型所使用的数据是已知类别归属。而聚类分析(无论是在学习还是在归类预测时)所分析处理的数据均是无类别归属,类别归属标志在聚类分析处理的数据集中是不存在的。例如:对在一个商场购买力较大的顾客居住地进行聚类分析,可以帮助商场主管针对相应顾客群采取有针对性的营销策略。在数据集合中,可能发现有一些数据与绝大多数数据的特征、模型不相同,这些点叫做离群点。在数据挖掘时,人们一般会将这些点作为噪点、错误而丢弃。但是,在商业欺诈行为的自动检测中,这些离群点作为小概率事件往往比经常发生的事件更有挖掘价值。利用离群点分析方法可以根据购物地点、商品类型、金额与频率,挖掘出信用卡欺诈行为。在网络购物中,商
30、业欺诈者往往会冒充正常的网络商城,但是它出售同一种物品价格往往低于正常价格很多,这一类离散的数据往往能够反映网购中商业欺诈行为。在用于安全监控的无线传感器网络中可以根据离群点的数据来分析是否有危险人员潜入。离群点分析算法主要有基于统计、基于距离,以及基于偏离的方法。7.3.1数据挖掘技术(3)预测性挖掘的算法预测性挖掘的算法主要包括分类和预测、演化分析。我们可以根据分类算法,对数据进行深度分析,以寻找隐藏在数据背后的许多有用的知识,预测未来的发展规律。例如,商场数据库数据中包括客户的姓名、年龄、职业、收入与信用记录信息,那么我们在年底促销及产品资料时,可以将关于笔记本计算机、手机的资料寄给一部
31、分客户,而将时装、名牌手表的资料寄给另一类客户。根据数据库中已有的信息,我们可以很容易地生成有不同潜在需求客户的名单,有针对性地宣传,可以减少工作量与费用,提高效率。演化分析是通过对关注对象的建模,挖掘随时间变化的数据对象的变化规律与趋势。例如,用于水环境监测的物联网系统,根据流域或地区的城市发展、工业与居民用水、污染源位置与治理情况,以及气候情况建立水环境的模型,结合历史与现实数据,分析水环境情况以及中长期的发展趋势,为决策提供科学依据。演化分析的关键是建模。与时间相关的演化分析方法主要包括趋势分析、相似分析、序列模型挖掘与周期分析。7.3.2数据挖掘技术与物联网的结合通过无所不在的传感器、
32、RFID自动获取、存储物理世界的各种数据,不是我们组建物联网应用系统的目的,我们的目的是透过海量数据,寻找物理世界的变化规律与发展趋势,以便更加智慧地处理物理世界的问题,否则我们就在制造大量的“信息垃圾”。因此,如何有效地利用物联网的海量数据已经成为物联网应用的关键,而数据挖掘技术对于物联网实现智能处理至关重要。数据挖掘技术在物联网背景下有着广泛的需求和运用,可以表现在以下方面:(1)精准农业:首先通过植入土壤或暴露在空气中的传感器监控土壤性状和环境状况。然后将获取的数据通过物联网传输到远程控制中心,可及时查清当前农作物的生长环境现状和变化趋势,确定农作物的生产目标。通过数据挖掘的方法,可以知
33、道:环境温度湿度和土壤各项参数等因素是如何影响农作物产量的,如何调节它们才能够最大限度地提高农作物产量。(2)市场行销:利用数据挖掘技术通过对用户数据的分析,可以得到关于顾客购物取向和兴趣的信息,从而为商业决策提供依据。(3)智能家居:以获取天气信息为例,一方面,智能设备随时关注气象信息,并针对雨天发出报警提醒;另一方面,另外一些智能终端会随时跟踪主人的行踪,并通过数据挖掘方法由主人的历史行动特征数据预测他的去向。一旦预测到主人要出门,那么就在合适的时候由相应的智能终端提醒不要忘记带雨伞。例如,如果主人在门口,就将由安装在门上的智能设备向他发出提醒,如果在车内,则由车载计算机发出提醒。7.3.
34、2数据挖掘技术与物联网的结合(4)金融安全:由于金融投资的风险很大,所以在进行投资决策时,需要通过对各种投资方向的数据进行分析,以选择最佳的投资方向。数据挖掘可以通过对已有数据的处理,找到数据对象之间的关系,然后利用学习得到的模式进行合理的预测。而金融欺诈识别主要是通过分析正常行为和诈骗行为的数据和模式,得到诈骗行为的一些特性,这样当某项业务记录符合这样的特征时,识别系统可以向决策人员提出警告。(5)产品制造和质量监控:随着科技进步,制造业已不是简单的手工劳动,而是集成了多种先进科技的流水作业。在产品的生产制造过程中常常伴随有大量的数据,如产品的各种加工条件或控制参数(如时间、温度等)。通过各
35、种监控仪器收集这些数据反映了每个生产环节的状态,对生产的顺利进行起着至关重要的作用。而通过数据挖掘对数据进行分析,可以得到产品质量与这些参数之间的关系,从而能获得针对性很强的建议以改进产品质量,而且有可能发现新的更高效节约的控制模式,为厂家带来丰厚的回报。7.3.3应用展望由于数据挖掘带来的显著的经济效益,使数据挖掘越来越普及。它不仅能用于控制成本,也能给企业带来效益。很多企业都在利用数据挖掘技术帮助管理客户生命周期的各个阶段,包括争取新的客户、在已有客户的身上赚更多的钱和保持住好的客户。如果能够确定好的客户的特点,那么就能为客户提供针对性的服务。数据挖掘可以应用在各个不同的领域:电讯公司和信
36、用卡公司是用数据挖掘检测欺诈行为的先行者;保险公司和证券公司也开始采用数据挖掘来减少欺诈等。当前,数据挖掘研究方兴未艾,研究焦点可能会集中到以下几个方面:1)发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言;2)寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互;3)研究在网络环境下的数据挖掘技术(WebMining),特别是在因特网上建立DM服务器,并且与数据库服务器配合,实现WebMining;4)加强对各种非结构化数据的开采(DataMiningforAu2dio&Video),如对文本数据、图形数据、视频图像数据、声音数据乃至
37、综合多媒体数据的开采;5)处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。6)交互式发现;7)知识的维护更新。7.4 软件和算法7.4.1面向服务的体系架构面向服务的体系结构(Service-Oriented Architecture)是构造分布式计算的应用程序的方法。它将应用程序功能作为服务发送给最终用户或者其他服务。1、SOA概念及体系架构(1)SOA基本概念SOA是一种IT体系结构风格,或SOA是包含运行环境、编程模型、架构风格和相关方法论等在内的一整套新的分布式软件系统构造方法和环境,涵盖服务的整个生命周期:建模-开发-整合-部署-运行-管理。SOA支
38、持将业务转换为一组相互链接的服务或可重复业务任务,可以对这些服务进行重新组合,以完成特定的业务任务,从而让您的业务快速适应不断变化的客观条件和需求。SOA的模型中有三种角色:服务提供者、服务注册库和服务请求者。SOA模型中还包含三种操作即发布、查找、绑定。具有简单、开放和动态的特性。常见的SOA参考模型见图。7.4.1面向服务的体系架构(2)SOA特性根据业界对SOA的普遍认识,SOA不是一种语言技术,而是一种组件模型,一种粗粒度、松耦合的软件架构,通过服务间定义良好的接口和契约把服务联系起来。与传统的软件架构相比较可以得出SOA架构的几点鲜明的特性:1)松散耦合性 SOA架构中定义的接口是具
39、有中立性的接口(没有强制性的绑定到特定的实现上),它的这种特征称之为服务的松散耦合。2)粗粒度的服务 服务粒度指的是服务所公开功能的范围,一般分为细粒度和粗粒度。其中细粒度服务是那些能提供少量商业流程可重用性的服务,粗粒度服务是那些能够提供高层商业逻辑的可重用性服务。设计中应该在不损失相关性、一致性和完整性的情况下,尽可能地进行粗粒度的建模。3)基于标准的服务接口 SOA的关键在于“服务”。服务是一种部署在网络应用服务器上的实现了一定功能的应用逻辑模块。它本身可以包含一组操作集(一个或多个操作)并向外界提供访问操作的接口,所有的服务都要发布一个标准的接口,即服务和服务客户端都能够理解并且同意遵
40、守的通信规则。当服务请求者查找所需服务时,它查找到的结果也是那个服务的接口。接口里应包含使用该服务的所有的必要信息。把服务要求的信息传递给服务来利用服务的过程,称之为绑定。4)服务位置、传输协议以及具体实现的透明性 服务请求者在需要使用他人提供的服务时,完全不需要知道对方提供的服务的位置、服务的具体实现方式、服务方是不是与其异构等。所有的消息都通过查询服务注册中心这个中介来发送和接收、来负责告诉请求方所需服务的位置、相关参数等信息,同时把相关信息在请求者和服务之间相互传递,其具体实现细节服务请求者也不需知道。7.4.1面向服务的体系架构(3)实现SOA的相关技术SOA的关键就在于服务。所有的功
41、能都是以服务的形式来展现出来的。服务就是应用系统的基本单元。广义上来讲,SOA的实现技术有多种方式,如:COM、CORBA、Web服务等都是实现SOA的技术。但使用最广泛的仍是Web服务技术。1)Web服务的定义W3C给Web服务下的定义:Web服务是由URL识别的软件应用,它的接口和绑定可以由XML构件进行定义、描述和发现。Web服务支持使用通过因特网协议交换的基于XML的消息与其他软件代理直接交互。2)Web服务的体系结构Web服务采用了SOA的体系结构,通过服务提供者、请求者和注册中心等实体之间的交互完成服务调用。IBM提出了由服务级别协议(Service Level Agreement
42、,SLA)保证的web服务体系结构,如图所示。7.4.1面向服务的体系架构Web服务是基于开放的因特网标准的,它所依赖的开放标准主要有XML、SOAP、WSDL和UDDI等。下面简述这些相关的协议标准:XML(Extensible Markup Language)全称是可扩展的标记语言,它为web服务提供了统一的数据格式,它可以用来作为定义数据描述语言的语言,如标记交换格式、通信协议和标记语法或词汇等。用来解决系统之间的数据表达的异构性问题,可以实现跨平台互操作,也能确保SOA实现松散耦合。SOAP虽然统一的数据格式由XML来保证,但真正实现服务实体之间通信的协议却是SOAP(Sample O
43、bject Access Protocol)简单对象访问协议。SOAP是运行在任何其他传输协议之上的用于交换XML编码信息的协议。SOAP规定了传递信息的格式是XML,还规定了远程对象方法调用的格式、参数类型和XML格式之间的映像等内容。WSDL(Web Service Description Language)web服务描述语言是一种关于web服务的基于XML格式的描述语言。它用来描述远程方法调用的请求信息和相应的消息格式。可以让Web服务提供者把web服务的接口方法、接口参数、服务的传输方式等相关内容,生成相应的文档,发布给服务使用者。7.4.1面向服务的体系架构 UDDI(Univers
44、al Description,Discovery and Integration)统一描述、发现与集成服务,是一套分布式的、基于web的规范,是可以使企业发布的Web服务注册被其他企业服务发现的访问协议实现规范。UDDI实现将发布和发现服务的SOAP请求解释为用于基本数据存储的数据管理功能调用。SOA并不是必须使用UDDI,而UDDI是建立在SOA上来完成自身工作的,所以UDDI是服务发现的一个好的解决方案。XSLT(Extensible Stylesheet Language Transformations)是一种用于转换XML文档结构的语言,使得XML能够从根本上解决应用系统之间的信息交换
45、。Schema描述XML数据结构的数据模型,也称作元数据。schema是XML世界中的标准建模语言,SOAP、WSDL、UDDl的XML语法都是采用Schema进行描述的。XPathXPath是XSLT的重要组成部分。XPath是一门在XML文档中查找信息的语言,XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。用于在XML文档中通过元素和属性进行导航。BPEL(Business Process Execution Language)业务流程执行语言,提供了一种XML注释和语义,用于指定基于Web服务的业务流程行为。合作伙伴可以将服务提供给流程,也可以向流程请求服务,或者参与到
46、流程的双向交互中。7.4.1面向服务的体系架构2、ESB模型1)ESB的定义和模型企业服务总线(Enterprise Service Bus,ESB),从面向服务的架构发展而来,是以“软总线”的方式提供服务之间的相互协作、管理和控制的分布式架构,支持异构环境下的服务、消息以及基于事件的交互,具有适当的服务级别的可管理性。可以用来构建、集成、部署和监控管理各种企业的分布式资源,是一种可以实现统一并连接服务、应用和资源的中间件模式。通常的说法是:ESB是一种中间件,可以为松散耦合的服务和应用提供标准的集成方式。一个企业服务总线是一个预先组装的SOA的实现,包含着实现SOA目标所必需的基础功能部件,
47、它集Web服务、通信、XML和数据传输于一体,管理相关连接并协调应用交互。7.4.1面向服务的体系架构2)ESB的设计原则和实现技术(1)ESB设计的核心原则 IBM给出了ESB设计的核心原则,第一条就是服务的虚拟化,服务的请求者和服务提供者之间是通过一个ESB总线来进行交互的。ESB提供了服务请求者和服务提供者之间的松散耦合互连,ESB总线充当逻辑中介。服务虚拟化是指ESB将下面内容虚拟化的能力:协议和模式 交互各方所使用的通信协议和交互的模式不需要一致。由ESB来提供所需的转换,屏蔽不同协议或模式的差异,使交互参与者能够自由的进行交流接口 参与交互者不需要就用于交互的接口达成一致。身份 交
48、互中的参与者不需要知道交互中其他参与者的身份(如位置,标识等)。而这些内容只有ESB知道。另外一个核心原则是面向方面的连接,面向方面的解决方案包括了诸如安全性、日志记录、管理和审核等服务,ESB可以代表参与者各方来实现或者执行这些基础服务,使得交互的参与者不再关注此类事项。(2)ESB的实现技术 ESB总线是服务请求者和服务提供者之间的中介,需要实现消息的传输、路由选择以及数据转换等重要功能。因此,ESB总线所涉及到的技术有消息路由、消息转换。ESB操作的是元数据是服务,服务封装、服务代理技术是必不可少的。另外异构数据集成技术、安全管理等技术也是不可或缺的。其中消息路由、服务代理尤为重要。7.
49、4.1面向服务的体系架构3)基于ESB的SOA框架设计在实际的软件开发工作中,根据一个己有的设计合理、可复用的开发框架去开发,会起到事半功倍的效果。本章将提出一个基于企业服务总线(ESB)技术的SOA框架,该框架的设计遵循SOA的概念原则,对开发人员理解SOA、实现SOA有参考价值和指导意义。为了体现ESB在面向服务架构中的角色,我们将服务引入进来。在各种服务中ESB总线所起的作用和扮演的角色是各种服务的集成平台。总线和服务之间是一种相互平等的关系,两者都可以无限地扩展。4)基于ESB的SOA框架根据以上对SOA框架和ESB技术做出的研究,我们可以采用交互模式设计这样一种轻量级的框架,它是符合
50、SOA的一个框架,同时是符合ESB技术实现的框架。基于ESB的SOA框架结构图如图所示。7.4.1面向服务的体系架构框架中各部分的说明:客户层:既可以是服务请求者,也可以是服务提供者。服务层:包含服务提供者所提供的各种服务。这里的服务有完整的业务功能,也包含各种基层数据库。ESB总线部分:是ESB总线中的核心模块,主要职责是负责服务的路由和交互。主要由总线适配器、服务处理器、业务代理器、服务管理器、服务注册中心、服务代理等模块组成。日记管理组件和安全管理组件都为服务处理器工作。7.4.2中间件技术1、中间件概述中间件(Middleware)是处于操作系统和应用程序之间的软件,也有人认为它应该属