1、主编:主编:丁跃潮丁跃潮210.1新型计算机系统新型计算机系统 10.2 计算理论发展计算理论发展 计算机科学与技术是科技领域最活跃、发展最快的科学,计算机科学与技术是科技领域最活跃、发展最快的科学,也是现代生产力中最活跃的部分。从电子产品的换代到软件也是现代生产力中最活跃的部分。从电子产品的换代到软件和相关书刊的更新,从计算机的在日常事务中的作用到计算和相关书刊的更新,从计算机的在日常事务中的作用到计算机在尖端科技的上的应用,无不体现出日新月异的景象。这机在尖端科技的上的应用,无不体现出日新月异的景象。这些给世界带来了灿烂的文明些给世界带来了灿烂的文明信息时代和网络经济,而计算信息时代和网络
2、经济,而计算机在经济和社会各领域的应用促进了计算机科学的发展,计机在经济和社会各领域的应用促进了计算机科学的发展,计算机的研究永无止境。算机的研究永无止境。3现代计算机理论的奠基人是图灵,他提出了通用机的概念,描述了计算步现代计算机理论的奠基人是图灵,他提出了通用机的概念,描述了计算步骤的数学模型。美国数学家冯骤的数学模型。美国数学家冯诺伊曼提出计算机可以使用二进制,计算机的诺伊曼提出计算机可以使用二进制,计算机的指令和数据都可以存储在机内,这奠定了计算机软件的理论基础。在冯指令和数据都可以存储在机内,这奠定了计算机软件的理论基础。在冯诺伊诺伊曼的主持下,曼的主持下,1949年诞生了第一台存储
3、程序的计算机,又称第一代机,这台年诞生了第一台存储程序的计算机,又称第一代机,这台计算机为后来的计算机发展奠定了基础。半个多世纪以来,虽然计算机的系计算机为后来的计算机发展奠定了基础。半个多世纪以来,虽然计算机的系统结构发生了翻天覆地的变化,电子学及其相关科学的发展,使计算机的总统结构发生了翻天覆地的变化,电子学及其相关科学的发展,使计算机的总线、线、CPU、存储器、外部设备都改进到了接近巅峰的状态,但仍然是在原来、存储器、外部设备都改进到了接近巅峰的状态,但仍然是在原来的系统结构框架之下,现有芯片制造方法将在未来的系统结构框架之下,现有芯片制造方法将在未来10多年内即多年内即2020年左右达
4、年左右达到极限。如果人们想要极大地扩展电子元件的能力,使之克服摩尔定律的限到极限。如果人们想要极大地扩展电子元件的能力,使之克服摩尔定律的限制,那么很可能需要在目前的计算设计上做根本改变,采用全新计算机系统制,那么很可能需要在目前的计算设计上做根本改变,采用全新计算机系统结构。为此,世界各国研究人员正在加紧开发新型计算机。随着生物学、物结构。为此,世界各国研究人员正在加紧开发新型计算机。随着生物学、物理学和化学的发展,多种新型计算机系统结构已见雏形。哪种结构类型将主理学和化学的发展,多种新型计算机系统结构已见雏形。哪种结构类型将主导第六代计算机,尚待今后的研究成果确定。导第六代计算机,尚待今后
5、的研究成果确定。410.1.1 10.1.1 生物计算机生物计算机 以生物界处理问题的方式为模型的计算机都属于生物计算机,而狭义的生以生物界处理问题的方式为模型的计算机都属于生物计算机,而狭义的生物计算机主要是指利用生物化学反应算法或具有生物分子、超分子芯片的计物计算机主要是指利用生物化学反应算法或具有生物分子、超分子芯片的计算机。广义的生物计算机还包括自动机模型、仿生算法等类型。生物计算机算机。广义的生物计算机还包括自动机模型、仿生算法等类型。生物计算机目前主要有以下几类:目前主要有以下几类:(1)生物分子或超分子芯片生物分子或超分子芯片 生物分子或超分子芯片立足于传统计算机模式,从寻找高效
6、、体微的电子生物分子或超分子芯片立足于传统计算机模式,从寻找高效、体微的电子信息载体及信息传递体入手,目前已对生物体内的小分子、大分子、超分子信息载体及信息传递体入手,目前已对生物体内的小分子、大分子、超分子生物芯片的结构与功能做了大量的研究与开发。生物芯片的结构与功能做了大量的研究与开发。生物分子计算机中的生物分子,在电流的作用下同样可以产生生物分子计算机中的生物分子,在电流的作用下同样可以产生“开开”和和“关关”的两种状态的两种状态,并能贮存、输出并能贮存、输出“0”和和“1”这样的二进制信息。因此这样的二进制信息。因此,可可以像电子计算机一样进行运算和信息处理。组成生物计算机的蛋白质分子
7、以像电子计算机一样进行运算和信息处理。组成生物计算机的蛋白质分子,直直径只有头发丝的五千分之一,体积仅手指头粗细的一只生物计算机径只有头发丝的五千分之一,体积仅手指头粗细的一只生物计算机,其贮存其贮存信息的容量可以比现在的普通电子计算机大信息的容量可以比现在的普通电子计算机大1千万倍千万倍。而且由于生物分子非。而且由于生物分子非常微小、彼此之间的距离又非常近常微小、彼此之间的距离又非常近,所以传递信息和计算速度非常快。所以传递信息和计算速度非常快。510.1.1 10.1.1 生物计算机生物计算机(续续1)1)(2)自动机模型和仿生算法自动机模型和仿生算法 以自动理论为基础,致力与寻找新的计算
8、机模式,特别是特殊用途的非数以自动理论为基础,致力与寻找新的计算机模式,特别是特殊用途的非数值计算机模式。目前研究的热点集中在基本生物现象的类比,如神经网络、值计算机模式。目前研究的热点集中在基本生物现象的类比,如神经网络、免疫网络、细胞自动机等。不同自动机的区别主要是网络内部连接的差异,免疫网络、细胞自动机等。不同自动机的区别主要是网络内部连接的差异,其基本特征是集体计算,又称集体主义,在非数值计算、模拟、识别方面有其基本特征是集体计算,又称集体主义,在非数值计算、模拟、识别方面有极大的潜力。极大的潜力。以生物智能为基础,用仿生的观念致力于寻找新的算法模式,虽然类似于以生物智能为基础,用仿生
9、的观念致力于寻找新的算法模式,虽然类似于自动机思想,但立足点在算法上,不追求硬件上的变化。自动机思想,但立足点在算法上,不追求硬件上的变化。人工智能的人工智能的“结构模拟结构模拟”学派学派(或称为或称为“联结主义联结主义”学派学派)对计算神经网络对计算神经网络的研究取得了突出的成果,主张从结构方面模拟、延伸、扩展人的智能,用的研究取得了突出的成果,主张从结构方面模拟、延伸、扩展人的智能,用“电脑电脑”模拟模拟“人脑人脑”神经系统的联结机制。神经网络就是由许多神经元互神经系统的联结机制。神经网络就是由许多神经元互连在一起所组成的神经结构。把神经元之间相互作用的关系进行数学模型化连在一起所组成的神
10、经结构。把神经元之间相互作用的关系进行数学模型化就可以得到神经网络模型。目前应用较多的代表性模型有:就可以得到神经网络模型。目前应用较多的代表性模型有:M-P神经细胞模神经细胞模型、型、BP神经网络模型、神经网络模型、Hopfield神经网络模型。神经网络模型。610.1.1 10.1.1 生物计算机生物计算机(续续2)2)(3)生物化学反应算法生物化学反应算法立足于可控的生物化学反应或反应系统,利用小容积内同类分子高拷贝数的立足于可控的生物化学反应或反应系统,利用小容积内同类分子高拷贝数的优势,追求运算的高度并行化,从而提供运算的效率。优势,追求运算的高度并行化,从而提供运算的效率。DNA计
11、算机属于此类,计算机属于此类,将在下文介绍分子计算机时予以介绍。将在下文介绍分子计算机时予以介绍。上海交通大学上海交通大学2004年在试管中完成了年在试管中完成了DNA计算机的雏形研制工作。计算机的雏形研制工作。由于生物具有自我修复功能,生物芯片一旦出现故障,不需要人工修理也可由于生物具有自我修复功能,生物芯片一旦出现故障,不需要人工修理也可以进行自我修复。所以,生物计算机具有以进行自我修复。所以,生物计算机具有“半永久性半永久性”和很高的可靠性。再和很高的可靠性。再者,生物计算机的元件是由有机分子组成的生物化学元件,它们是利用化学者,生物计算机的元件是由有机分子组成的生物化学元件,它们是利用
12、化学反应工作的,所以,只需要很少的能量就可以工作了。因此,不会像电子计反应工作的,所以,只需要很少的能量就可以工作了。因此,不会像电子计算机那样,工作一段时间后,机体会发热,而且它的电路间也没有信号干扰。算机那样,工作一段时间后,机体会发热,而且它的电路间也没有信号干扰。除了除了DNA计算外,生物计算还有另一个发展方向,即在半导体芯片上加入生计算外,生物计算还有另一个发展方向,即在半导体芯片上加入生物分子芯片,将硅基与碳基结合起来的混合技术。例如,硅片上长出排列特物分子芯片,将硅基与碳基结合起来的混合技术。例如,硅片上长出排列特殊的神经元的殊的神经元的“生物芯片生物芯片”已被生产出来。尽管这些
13、生物计算实验离实用还已被生产出来。尽管这些生物计算实验离实用还很遥远。很遥远。710.1.2 10.1.2 光计算机光计算机光计算机是用光束代替电子进行运算和存储,它以不同波长的光代表不光计算机是用光束代替电子进行运算和存储,它以不同波长的光代表不同的数据,以大量的透镜、棱镜和反射镜将数据从一个芯片传送到另一个同的数据,以大量的透镜、棱镜和反射镜将数据从一个芯片传送到另一个芯片。这种传送方式称为自由空间光学技术。芯片。这种传送方式称为自由空间光学技术。自由空间光学技术的原理非常简单。首先,将硅片内的电子脉冲转换为自由空间光学技术的原理非常简单。首先,将硅片内的电子脉冲转换为极细的闪烁光束,极细
14、的闪烁光束,“接通接通”表示表示“1”,“断开断开”表示表示“0”。然后,将数据。然后,将数据流通过反射镜和棱镜网络投射到需要数据的地方。在接收端,透镜将每根流通过反射镜和棱镜网络投射到需要数据的地方。在接收端,透镜将每根光束聚焦到微型光电池上,由光电池将闪光重新转换成一系列电子脉冲。光束聚焦到微型光电池上,由光电池将闪光重新转换成一系列电子脉冲。光计算机有三大优势。一是光子的传播速度无与伦比,电子在导线中的光计算机有三大优势。一是光子的传播速度无与伦比,电子在导线中的运行速度与其相比就像蜗牛爬行那样,而采用硅光混合技术后,其传送运行速度与其相比就像蜗牛爬行那样,而采用硅光混合技术后,其传送速
15、度就可达到每秒万亿字节。二是光子不像带电的电子那样相互作用,因速度就可达到每秒万亿字节。二是光子不像带电的电子那样相互作用,因此经过同样窄小的空间通道可以传送更多数据。三是光无须物理连接。如此经过同样窄小的空间通道可以传送更多数据。三是光无须物理连接。如能将普通的透镜和激光器做得很小,足以装在微芯片的背面,那么明天的能将普通的透镜和激光器做得很小,足以装在微芯片的背面,那么明天的计算机就可以通过稀薄的空气传送信号了。计算机就可以通过稀薄的空气传送信号了。810.1.3 10.1.3 量子计算机量子计算机量子计算机是利用原子所具有的量子特性进行高速数学和逻辑运算、存量子计算机是利用原子所具有的量
16、子特性进行高速数学和逻辑运算、存储及处理的一种物理装置。量子计算机是一种全新概念的计算机,基于量储及处理的一种物理装置。量子计算机是一种全新概念的计算机,基于量子的相干性,因而它具有高度的并行计算能力。子的相干性,因而它具有高度的并行计算能力。与经典计算机相比,量子计算机在存储容量、运算速度上都会有指数数与经典计算机相比,量子计算机在存储容量、运算速度上都会有指数数量级的提高。因此,量子计算机的研究在国际上引起高度关注。如对一个量级的提高。因此,量子计算机的研究在国际上引起高度关注。如对一个129位数的因子分解,用位数的因子分解,用1600台超级计算机与互连网进行运算要花台超级计算机与互连网进
17、行运算要花8个多月个多月才能破译,而用一台量子计算机几秒钟就轻易解决了。据介绍,具有才能破译,而用一台量子计算机几秒钟就轻易解决了。据介绍,具有5000个量子位的量子计算机,可以在秒内解决传统超级计算机要亿个量子位的量子计算机,可以在秒内解决传统超级计算机要亿年才能解决的大数因子分解问题。年才能解决的大数因子分解问题。量子计算机的输入用一个具有有限能级的量子系统来描述,最小的信息量子计算机的输入用一个具有有限能级的量子系统来描述,最小的信息单元是一个量子比特单元是一个量子比特(quantum bit)。量子比特不只是开、关两种状态,而。量子比特不只是开、关两种状态,而是以多种状态同时出现。处于
18、量子状态的粒子能够进入是以多种状态同时出现。处于量子状态的粒子能够进入“超态超态”,即同时,即同时沿上、下两个方向自旋。这一状态可代表沿上、下两个方向自旋。这一状态可代表1、0以及中间的所有可能数值。以及中间的所有可能数值。910.1.4 10.1.4 分子计算机分子计算机分子计算机用单个分子或单个电子代替硅晶体管,起到类似逻辑门和电子开关的分子计算机用单个分子或单个电子代替硅晶体管,起到类似逻辑门和电子开关的作用,从而进行运算。近年来,分子级电子元件领域中取得了进展,该领域的出现作用,从而进行运算。近年来,分子级电子元件领域中取得了进展,该领域的出现有一个前提,即有可能制造出单个的分子,其功
19、能与三极管、二极管及今天的微电有一个前提,即有可能制造出单个的分子,其功能与三极管、二极管及今天的微电路的其他重要部件完全相同或相似。化学家、物理学家和工程师已经在一系列出色路的其他重要部件完全相同或相似。化学家、物理学家和工程师已经在一系列出色的示范试验中显示:单个的分子能传导和转换电流,并存储信息。的示范试验中显示:单个的分子能传导和转换电流,并存储信息。DNA计算机将是分子计算机发展的方向之一。计算机将是分子计算机发展的方向之一。20世纪世纪70年代,人们发现年代,人们发现脱氧核糖核酸(脱氧核糖核酸(DNA)分子是一条双螺)分子是一条双螺“长链长链”,链上布满了,链上布满了“珍珠珍珠”即
20、即核苷酸,核苷酸,DNA分子计算机就是用这些分子计算机就是用这些“珍珠珍珠”的排列来表示各种信息。的排列来表示各种信息。DNA处于不同状态时可以代表信息的有或无。处于不同状态时可以代表信息的有或无。DNA分子中的遗传密码相当分子中的遗传密码相当于存储的数据,于存储的数据,DNA分子间通过生化反应,从一种基因代码转变为另一种分子间通过生化反应,从一种基因代码转变为另一种基因代码。反应前的基因代码相当于输入数据,反应后的基因代码相当于基因代码。反应前的基因代码相当于输入数据,反应后的基因代码相当于输出数据。如果能控制这一反应过程,那么就可以制作成功输出数据。如果能控制这一反应过程,那么就可以制作成
21、功DNA计算机。计算机。当计算机计算时,几种生物酶则充当加、减、乘、除。当计算机计算时,几种生物酶则充当加、减、乘、除。DNA计算机通过生计算机通过生物化学反应得出计算的结果。物化学反应得出计算的结果。1010.2.1 人工智能人工智能智能是个体有目的的行为,合理的思维,以及有效的、适应环境的综合智能是个体有目的的行为,合理的思维,以及有效的、适应环境的综合能力。智能是个体认识客观事物和运用知识解决问题的能力。能力。智能是个体认识客观事物和运用知识解决问题的能力。人工智能(人工智能(Artificial Intelligence)简称)简称AI。它是研究、开发用于模拟、。它是研究、开发用于模拟
22、、延伸和扩展人的智能(延伸和扩展人的智能(Human Intelligence)的理论、方法、技术及应用)的理论、方法、技术及应用系统的一门新的技术科学。人工智能是由多学科渗透产生的综合性边缘学系统的一门新的技术科学。人工智能是由多学科渗透产生的综合性边缘学科。科。人工智能的研究目标就是探讨智能的基本机理,研究如何利用各种自动人工智能的研究目标就是探讨智能的基本机理,研究如何利用各种自动机来模拟人的某些思维过程和智能行为,用机器来代替人的部分脑力劳动,机来模拟人的某些思维过程和智能行为,用机器来代替人的部分脑力劳动,包括用计算机进行复杂推理、自动求解某些复杂问题。包括用计算机进行复杂推理、自动
23、求解某些复杂问题。1110.2.1 10.2.1 人工智能人工智能(续续)人工智能在以下方面取得了成就,并且研究正在深入:人工智能在以下方面取得了成就,并且研究正在深入:1)专家咨询系统:专家咨询系统:主要由知识库、数据库和推理机制组成。如:数学专家系统,主要由知识库、数据库和推理机制组成。如:数学专家系统,化学专家系统、中医专家系统等。化学专家系统、中医专家系统等。2)模式识别:模式识别:用特征识别和关系识别,先对文字、声音、图形、图象、物体等用特征识别和关系识别,先对文字、声音、图形、图象、物体等信息加以分析,然后与模式对比识别。有效的应用已有文字识别、语言识别信息加以分析,然后与模式对比
24、识别。有效的应用已有文字识别、语言识别和理解、人的面孔和指纹识别、医疗诊断等。和理解、人的面孔和指纹识别、医疗诊断等。3)机器人:机器人:模拟人的部分功能的自动机器。分工业机器人和智能机器人,人工模拟人的部分功能的自动机器。分工业机器人和智能机器人,人工智能主要研究智能机器人。智能机器人具有各种传感器(感觉器)和学习能智能主要研究智能机器人。智能机器人具有各种传感器(感觉器)和学习能力。力。4)数学定理的证明:数学定理的证明:大大减轻人的脑力劳动。四色问题又称四色猜想,即:如大大减轻人的脑力劳动。四色问题又称四色猜想,即:如果相邻两国用不同颜色涂上,地图只需要四种颜色就够了。果相邻两国用不同颜
25、色涂上,地图只需要四种颜色就够了。5)博奕:博奕:由计算机与人下棋、打牌等。由计算机与人下棋、打牌等。IBM的的“深蓝深蓝”系统战胜了国际象棋大师系统战胜了国际象棋大师卡斯帕诺夫,就是计算机的机器智能水平的一次荣誉记录,也是聪明的人工卡斯帕诺夫,就是计算机的机器智能水平的一次荣誉记录,也是聪明的人工智能软件的一个成功范例。智能软件的一个成功范例。6)人工智能计算机:人工智能计算机:对正在研制中的新型电子计算机,有人称为第五代计算机,对正在研制中的新型电子计算机,有人称为第五代计算机,是一种更接近人的人工智能计算机。是一种更接近人的人工智能计算机。1210.2.2 10.2.2 数据挖掘数据挖掘
26、数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来作出预测。程,这些模型和关系可以用来作出预测。数据挖掘和数据仓库数据挖掘和数据仓库 大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中(见图市中(见图10-1)。从数据仓库中直接得到进行数据挖掘的数据有许多好处。)。从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓数据仓库的数据清理和
27、数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,那很可能在做数据挖掘时就没必要再清理一次了,而且所库时已经清理过,那很可能在做数据挖掘时就没必要再清理一次了,而且所有的数据不一致的问题都已经被解决了。有的数据不一致的问题都已经被解决了。1310.2.2 10.2.2 数据挖掘数据挖掘(续续1)1)数据挖掘库可能是数据仓库的一个逻辑上的子集,而不一定非得数据挖掘库可能是数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。但如果数据仓库的计算资源已经很紧张,是物理上单独的数据库。但如果数据仓库的计算资源已经很紧张,那最好还是建立一个单独的数据挖掘库。那最好还是建立一个单独的
28、数据挖掘库。数据挖掘和数据仓库数据挖掘和数据仓库(续续)1410.2.2 10.2.2 数据挖掘数据挖掘(续续2)2)数据挖掘和在线分析处理(数据挖掘和在线分析处理(OLAP)OLAP是决策支持领域的一部分。传统的查询和报表工具是告诉你是决策支持领域的一部分。传统的查询和报表工具是告诉你数据库中都有什么(数据库中都有什么(What happened),),OLAP则更进一步告诉则更进一步告诉你下一步会怎么样(你下一步会怎么样(What next)、如果我采取这样的措施又会怎)、如果我采取这样的措施又会怎么样(么样(What if)。用户首先建立一个假设,然后用)。用户首先建立一个假设,然后用O
29、LAP检索数检索数据库来验证这个假设是否正确。据库来验证这个假设是否正确。数据挖掘与数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型,在本的模式(模型)的正确性,而是在数据库中自己寻找模型,在本质上是一个归纳的过程。质上是一个归纳的过程。数据挖掘和数据挖掘和OLAP具有一定的互补性。在利用数据挖掘出来的结论具有一定的互补性。在利用数据挖掘出来的结论采取行动之前,你也许要验证一下如果采取这样的行动会给公司采取行动之前,你也许要验证一下如果采取这样的行动会给公司带来什么样的影响,那么带来什么样的
30、影响,那么OLAP工具能回答你的这些问题。工具能回答你的这些问题。1510.2.2 10.2.2 数据挖掘数据挖掘(续续3)3)数据挖掘、机器学习和统计数据挖掘、机器学习和统计数据挖掘利用了人工智能(数据挖掘利用了人工智能(AI)和统计分析的进步所带来的好处。)和统计分析的进步所带来的好处。这两门学科都致力于模式发现和预测。这两门学科都致力于模式发现和预测。数据挖掘不是为了替代传统的统计分析技术。相反,它是统计分数据挖掘不是为了替代传统的统计分析技术。相反,它是统计分析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数析方法学的延伸和扩展。大多数的统计分析技术都基于完善的数学理论和高超的技
31、巧,预测的准确度还是令人满意的,但对使用学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求很高。而随着计算机计算能力的不断增强,我们有可能者的要求很高。而随着计算机计算能力的不断增强,我们有可能利用计算机强大的计算能力只通过相对简单和固定的方法完成同利用计算机强大的计算能力只通过相对简单和固定的方法完成同样的功能。样的功能。一些新兴的技术同样在知识发现领域取得了很好的效果,如神经一些新兴的技术同样在知识发现领域取得了很好的效果,如神经元网络和决策树,在足够多的数据和计算能力下,它们几乎不用元网络和决策树,在足够多的数据和计算能力下,它们几乎不用人的关照自动就能完成许多有价值的功能
32、。人的关照自动就能完成许多有价值的功能。数据挖掘就是利用了统计和人工智能技术的应用程序,它把这些数据挖掘就是利用了统计和人工智能技术的应用程序,它把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。成同样的功能,并且更专注于自己所要解决的问题。1610.2.2 10.2.2 数据挖掘数据挖掘(续续4)4)数据挖掘应用数据挖掘应用 由于数据挖掘带来的显著的经济效益,使数据挖掘越来越普及。数由于数据挖掘带来的显著的经济效益,使数据挖掘越来越普及。数据挖掘不仅能用于控制成本,也能给企业带来
33、效益。据挖掘不仅能用于控制成本,也能给企业带来效益。很多企业都在利用数据挖掘技术帮助管理客户生命周期的各个阶段,很多企业都在利用数据挖掘技术帮助管理客户生命周期的各个阶段,包括争取新的客户、在已有客户的身上赚更多的钱、和保持住好包括争取新的客户、在已有客户的身上赚更多的钱、和保持住好的客户。如果能够确定好的客户的特点,那么就能提供为客户提的客户。如果能够确定好的客户的特点,那么就能提供为客户提供针对性的服务。比如,已经发现了购买某一商品的客户的特征,供针对性的服务。比如,已经发现了购买某一商品的客户的特征,那么就可以向那些具有这些特征但还没有购买此商品的客户推销那么就可以向那些具有这些特征但还
34、没有购买此商品的客户推销这个商品;找到流失的客户的特征,就可以在那些具有相似特征这个商品;找到流失的客户的特征,就可以在那些具有相似特征的客户还未流失之前进行针对性的弥补,因为保留一个客户要比的客户还未流失之前进行针对性的弥补,因为保留一个客户要比争取一个客户便宜得多。争取一个客户便宜得多。1710.2.2 10.2.2 数据挖掘数据挖掘(续续5)5)数据挖掘的步骤数据挖掘的步骤(1)定义商业问题。定义商业问题。在开始知识发现之前,最先的、最重要的要求就是在开始知识发现之前,最先的、最重要的要求就是了解数据和业务问题,搞清楚到底想干什么。了解数据和业务问题,搞清楚到底想干什么。(2)建立数据挖
35、掘库。建立数据挖掘库。应该把要挖掘的数据都收集到一个数据库中。应该把要挖掘的数据都收集到一个数据库中。(3)分析数据。分析数据。浏览分析这些数据,产生初步的认识和处理方向。浏览分析这些数据,产生初步的认识和处理方向。(4)准备数据。准备数据。这是建立模型之前的最后一步数据准备工作,包括选择这是建立模型之前的最后一步数据准备工作,包括选择变量、选择记录、创建新变量和转换变量。变量、选择记录、创建新变量和转换变量。(5)建立模型。建立模型。建立模型是最重要的工作,也是一个反复的过程。建立建立模型是最重要的工作,也是一个反复的过程。建立模型是为了预测或分类。模型是为了预测或分类。(6)评价模型。评价
36、模型。模型建立好之后,必须评价其结果、解释其价值。模型建立好之后,必须评价其结果、解释其价值。(7)实施和改进。实施和改进。模型建立好后,可以投入实用,记载使用情况。模型建立好后,可以投入实用,记载使用情况。1810.2.3 10.2.3 人工神经网络人工神经网络所谓人工神经网络所谓人工神经网络(Artificial Neural Networks,简写为简写为ANN或或ANNs)是指为了模拟生物大脑的结构和功能而构成的一种信息处)是指为了模拟生物大脑的结构和功能而构成的一种信息处理系统。人工神经网络是一个并行、分布处理结构,是由处理单理系统。人工神经网络是一个并行、分布处理结构,是由处理单元
37、元(人工神经元人工神经元)及称为联接的无向讯号通道互连组成的网络。它是及称为联接的无向讯号通道互连组成的网络。它是从微观结构和功能上对人脑的抽象、简化,是模拟人类智能的一从微观结构和功能上对人脑的抽象、简化,是模拟人类智能的一条重要途径,反映了人脑功能的若干基本特征,如并行信息处理、条重要途径,反映了人脑功能的若干基本特征,如并行信息处理、学习、联想、模式分类、记忆等。学习、联想、模式分类、记忆等。简单地讲,它是一个数学模型,简单地讲,它是一个数学模型,可以用电子线路来实现,也可以用计算机程序来模拟,是人工智可以用电子线路来实现,也可以用计算机程序来模拟,是人工智能研究的一种方法。传统的人工智
38、能技术是基于物理符号系统的,能研究的一种方法。传统的人工智能技术是基于物理符号系统的,而人工神经网络技术是基于联接主义观点的。而人工神经网络技术是基于联接主义观点的。人工神经网络是对人脑或自然神经网络(人工神经网络是对人脑或自然神经网络(Natural Neural Network)若干基本特性的抽象和模拟。)若干基本特性的抽象和模拟。人工神经网络的模型现在有数十种之多,应用较多的典型的神经网人工神经网络的模型现在有数十种之多,应用较多的典型的神经网络模型有络模型有BP网络、网络、Hopfield网络、网络、ART网络和网络和Kohonen网络。网络。1.什么是神经网络什么是神经网络192.2
39、.神经元及其行为机理神经元及其行为机理神经网络的基础在于神经元。神经元是脑组织的基本单元神经网络的基础在于神经元。神经元是脑组织的基本单元,人脑是由大约人脑是由大约10亿个亿个神经元组成的巨系统。在人体内,神经元的结构形式并非是完全相同的;但神经元组成的巨系统。在人体内,神经元的结构形式并非是完全相同的;但是,无论结构形式如何,神经元都是由一些基本的成份组成的。从图中可以是,无论结构形式如何,神经元都是由一些基本的成份组成的。从图中可以看出:神经元是由细胞体、树突和轴突三部分组成。看出:神经元是由细胞体、树突和轴突三部分组成。2010.2.3 10.2.3 人工神经网络人工神经网络细胞体:细胞
40、体:由细胞核、细胞质和细胞膜组成,是神经元活动的能量供应地,由细胞核、细胞质和细胞膜组成,是神经元活动的能量供应地,在这里进行新陈代谢等各种生化过程。在这里进行新陈代谢等各种生化过程。轴突:轴突:由细胞体外伸出的最长的分支组成,是把神经元兴奋的信息传出由细胞体外伸出的最长的分支组成,是把神经元兴奋的信息传出到其它神经元的出口。有兴奋型与抑制型两种。到其它神经元的出口。有兴奋型与抑制型两种。树突树突:由细胞体外伸出的较短的分支组成,是接受从其它神经元传入的由细胞体外伸出的较短的分支组成,是接受从其它神经元传入的信息的入口。信息的入口。根据神经生理学的研究,已经发现神经元有根据神经生理学的研究,已
41、经发现神经元有4种生物行为:种生物行为:能处于抑制或兴奋状态;能处于抑制或兴奋状态;能产生爆发和平台两种情况;能产生爆发和平台两种情况;能产生抑制后的反冲;能产生抑制后的反冲;具有适应性。具有适应性。2110.2.3 10.2.3 人工神经网络人工神经网络(续续1)1)突触是一个神经元与另一个神经元之间相联系并进行信息传送的结构。突触是一个神经元与另一个神经元之间相联系并进行信息传送的结构。突触如图突触如图10-4所示。它由突触前成分,突触间隙和突触后成分组成。所示。它由突触前成分,突触间隙和突触后成分组成。突触前成分是一个神经元的轴突末梢。突触间隙是突触前成分与后成突触前成分是一个神经元的轴
42、突末梢。突触间隙是突触前成分与后成分之间的距离空间,间隙一般为分之间的距离空间,间隙一般为200300。突触后成分可以是细胞。突触后成分可以是细胞体、树突或轴突。突触的存在说明两个神经元的细胞质并不直接连通,体、树突或轴突。突触的存在说明两个神经元的细胞质并不直接连通,两者彼此联系是通过突触这种结构接口的。两者彼此联系是通过突触这种结构接口的。突触的突触的4种生物行为有:种生物行为有:能进行信息综合;能进行信息综合;能产生渐次变化的传送;能产生渐次变化的传送;有电接触和化学接触等多种连接方式;有电接触和化学接触等多种连接方式;会产生延时激发。会产生延时激发。223.3.神经元的数学模型神经元的
43、数学模型与神经生理学类比,连接机制结构的基本处理单元就称为神经元。每个构造起网与神经生理学类比,连接机制结构的基本处理单元就称为神经元。每个构造起网络的神经元模型模拟一个生物神经元,如图络的神经元模型模拟一个生物神经元,如图10-5所示。该神经元单元由多个所示。该神经元单元由多个输入输入(i=1,2,.,n)和一个输出和一个输出y组成。中间状态由输入信号的权和表示,而输组成。中间状态由输入信号的权和表示,而输出为出为:神经元的数学模型如图神经元的数学模型如图 10.2.3 10.2.3 人工神经网络人工神经网络(续续2)2)233.3.神经元的数学模型神经元的数学模型(续续)式中式中,为神经元
44、单元的偏置(阈值),为神经元单元的偏置(阈值),wi为连接权系数(对于激发状态,为连接权系数(对于激发状态,wi取正取正值,对于抑制状态,值,对于抑制状态,wi取负值),取负值),n为输入信号数目,为输入信号数目,Y为神经元输出,为神经元输出,f为为输出变换函数,有时叫做激发或激励函数,往往采用输出变换函数,有时叫做激发或激励函数,往往采用0和和1二值函数或形函二值函数或形函数,这些函数都是连续和非线性的。一种二值函数可由下式表示:数,这些函数都是连续和非线性的。一种二值函数可由下式表示:一种常规的形函数可由下式表示:一种常规的形函数可由下式表示:常用双曲正切函数来取代常规形函数,因为形函数的
45、输出均为正值,而双常用双曲正切函数来取代常规形函数,因为形函数的输出均为正值,而双曲正切函数的输出值可为正或负。双曲正切函数如下式所示:曲正切函数的输出值可为正或负。双曲正切函数如下式所示:10.2.3 10.2.3 人工神经网络人工神经网络(续续3)3)24神经网络的工作过程神经网络的工作过程10.2.3 10.2.3 人工神经网络人工神经网络(续续4)4)254.4.人工神经网络的特点和优越性人工神经网络的特点和优越性1)可以充分逼近任意复杂的非线性关系;可以充分逼近任意复杂的非线性关系;2)所有定量或定性的信息都分布贮存于网络内的各神所有定量或定性的信息都分布贮存于网络内的各神经元及其连
46、线上,故有很强的鲁棒性和容错性;经元及其连线上,故有很强的鲁棒性和容错性;3)采用并行分布处理方法,使得快速进行大量运算成采用并行分布处理方法,使得快速进行大量运算成为可能;为可能;4)可学习和自适应不知道或不确定的系统;可学习和自适应不知道或不确定的系统;5)能够同时处理定量、定性知识;能够同时处理定量、定性知识;6)具有自学习功能;具有自学习功能;7)具有联想存储功能;具有联想存储功能;8)具有高速寻找优化解的能力。具有高速寻找优化解的能力。10.2.3 10.2.3 人工神经网络人工神经网络(续续5)5)26分布式计算分布式计算(Distributed Computing)是一种把需要进
47、行大量是一种把需要进行大量计算的工程数据分割成小块,由多台计算机分别计算,在上计算的工程数据分割成小块,由多台计算机分别计算,在上传运算结果后再统一合并得出数据结论的科学。传运算结果后再统一合并得出数据结论的科学。当今从事的科学研究课题学科繁多,涉及面广,分类又细,而当今从事的科学研究课题学科繁多,涉及面广,分类又细,而每个学科似乎都需要进行大量的计算。天文学研究组织需要每个学科似乎都需要进行大量的计算。天文学研究组织需要计算机来分析太空脉冲(计算机来分析太空脉冲(pulse),星位移动;生物学家需),星位移动;生物学家需要计算机来模拟蛋白质的折叠(要计算机来模拟蛋白质的折叠(protein
48、folding)过程;药)过程;药物学家想要研制克服爱滋病(物学家想要研制克服爱滋病(AIDS)或非典()或非典(SARS)的药)的药物;数学家想计算最大的质数和圆周率的更精确值;经济学物;数学家想计算最大的质数和圆周率的更精确值;经济学家要用计算机分析计算在几万中因素考虑下某个企业家要用计算机分析计算在几万中因素考虑下某个企业/城市城市/国家的发展方向从而宏观调控。由此可见,人类未来的科学,国家的发展方向从而宏观调控。由此可见,人类未来的科学,时时刻刻离不开计算。而分布式计算,以其独特的优点时时刻刻离不开计算。而分布式计算,以其独特的优点便宜、高效而越来越受到社会的关注。便宜、高效而越来越受
49、到社会的关注。10.2.4 10.2.4 分布式计算分布式计算 27分布式计算产生的原因分布式计算产生的原因主要有:主要有:1)计算资源的共享。计算资源的共享。用整个网络中的所有计算机来处理总比单台用整个网络中的所有计算机来处理总比单台机器要快一些,另外,一些运算速度比较慢的客户机也可以机器要快一些,另外,一些运算速度比较慢的客户机也可以用运算速度比较快的服务器来协作完成某项工作。用运算速度比较快的服务器来协作完成某项工作。2)减轻网络的负荷。减轻网络的负荷。虽然网络技术飞速发展,网络的带宽不断的虽然网络技术飞速发展,网络的带宽不断的增加,但总是有限的。在分布式数据处理中,在网络中传递增加,但
50、总是有限的。在分布式数据处理中,在网络中传递的数据量是非常大的。的数据量是非常大的。SQL语句会把一整张表放在网络上。语句会把一整张表放在网络上。因此,如果在网络中所传输的仅仅是一些数据处理后的结果,因此,如果在网络中所传输的仅仅是一些数据处理后的结果,而不是大量的中间数据,整个网络的负荷就会降低了。而不是大量的中间数据,整个网络的负荷就会降低了。3)安全性。安全性。我们可以把一些关键的计算过程和数据放在服务器上,我们可以把一些关键的计算过程和数据放在服务器上,并给予特殊的安全保护。并给予特殊的安全保护。4)合理的软件结构。合理的软件结构。在某一些环境下,拥有分布式计算的软件结在某一些环境下,