1、Artificial Intelligence第六章第六章 机器学习机器学习6.1 6.1 机器学习的定义、研究意义与发展历史机器学习的定义、研究意义与发展历史 6.2 6.2 机器学习的主要策略与基本结构机器学习的主要策略与基本结构6.3 6.7 6.3 6.7 几种常用的学习方法几种常用的学习方法6.8 6.8 知识发现知识发现6.9 6.9 小结小结2022-12-5安徽大学 计算机科学与技术学院3 6.1 机器学习的定义和发展历史机器学习的定义和发展历史6.1.1 机器学习的定义机器学习的定义n机器学习的定义机器学习的定义 顾名思义顾名思义,机器学习是研究如何使用机器来机器学习是研究如
2、何使用机器来模拟人类学习活动的一门学科。稍为严格模拟人类学习活动的一门学科。稍为严格的提法是:机器学习是一门研究机器获取的提法是:机器学习是一门研究机器获取新知识和新技新知识和新技 能能,并识别现有知识的学问。并识别现有知识的学问。2022-12-5安徽大学 计算机科学与技术学院46.1.2机器学习的发展史机器学习的发展史n机器学习的发展分为机器学习的发展分为4个时期个时期n第一阶段是在第一阶段是在50年代中叶到年代中叶到60年代中叶年代中叶,属于热,属于热烈时期。无知识、自组织、自适应、修改参数烈时期。无知识、自组织、自适应、修改参数n第二阶段在第二阶段在60年代中叶至年代中叶至70年代中叶
3、年代中叶,被称为机,被称为机器学习的冷静时期。消解,归纳学习器学习的冷静时期。消解,归纳学习n第三阶段从第三阶段从70年代中叶至年代中叶至80年代中叶年代中叶,称为复兴,称为复兴时期。示例学习时期。示例学习n机器学习的最新阶段始于机器学习的最新阶段始于1986年年。网络、遗传、。网络、遗传、挖掘挖掘2022-12-5安徽大学 计算机科学与技术学院5n机器学习进入新阶段的表现机器学习进入新阶段的表现n机器学习机器学习已成为新的边缘学科并在高校形已成为新的边缘学科并在高校形成课程。成课程。n综合各种学习方法综合各种学习方法n 机器学习与人工智能问题机器学习与人工智能问题的统一性观点正的统一性观点正
4、在形成。在形成。n各种学习方法的应用范围不断扩大。各种学习方法的应用范围不断扩大。n数据挖掘和知识发现数据挖掘和知识发现的研究已形成热潮的研究已形成热潮 。n与机器学习有关的学术活动空前活跃与机器学习有关的学术活动空前活跃 。2022-12-5安徽大学 计算机科学与技术学院66.2 机器学习的主要策略和基本结构机器学习的主要策略和基本结构 6.2.1 机器学习的主要策略机器学习的主要策略 按照学习中使用推理的多少,机器学习所采按照学习中使用推理的多少,机器学习所采用的策略大体上可分为用的策略大体上可分为4 4种种机械学习、通机械学习、通过传授学习、类比学习和通过传授学习、类比学习和通过事例学习
5、。过事例学习。n机械学习机械学习n传授学习传授学习n类比学习系统类比学习系统n通过通过事例学习事例学习2022-12-5安徽大学 计算机科学与技术学院76.2.2 机器学习系统的基本结构机器学习系统的基本结构 1.学习系统的基本结构 学学 习习执执 行行图图6.1 6.1 学习系统的基本结构学习系统的基本结构环境环境知识库知识库2022-12-5安徽大学 计算机科学与技术学院82.2.影响学习系统设计的要素影响学习系统设计的要素n影响学习系统设计的最重要因素影响学习系统设计的最重要因素是环境向系统提供的信息是环境向系统提供的信息,或者,或者更具体地说是信息的质量更具体地说是信息的质量。n知识库
6、是影响学习系统设计的第知识库是影响学习系统设计的第二个因素。二个因素。知识的表示有特征向知识的表示有特征向量、一阶逻辑语句、产生式规则、量、一阶逻辑语句、产生式规则、语义网络和框架等多种形式。语义网络和框架等多种形式。2022-12-5安徽大学 计算机科学与技术学院96.3 机械学习机械学习1.1.机械学习模式机械学习模式 机机械械学习是最简单的学习方法。机学习是最简单的学习方法。机械械学习就是记忆,即把新的知识存储起来,学习就是记忆,即把新的知识存储起来,供需要时检索调用,而不需要计算和推理。供需要时检索调用,而不需要计算和推理。它是一种最基本的学习过程。它是一种最基本的学习过程。(X1,X
7、2,Xn)(Y1,Y2,Yp)存储(X1,X2,Xn),(Y1,Y2,Yp)2022-12-5安徽大学 计算机科学与技术学院10存储存储计算计算推导推导归纳归纳算法与理论算法与理论机械记忆机械记忆搜索规则搜索规则图图6.2 6.2 数据化简级别图数据化简级别图 Lenat,Hayes-Roth,和,和Klahr等人于等人于1979年年关于机械学习提出一种有趣的观点,见图关于机械学习提出一种有趣的观点,见图6.2。2022-12-5安徽大学 计算机科学与技术学院11 2.机械学习的主要问题机械学习的主要问题n存储组织信息存储组织信息:要采用适当的存储方式,要采用适当的存储方式,使检索速度尽可能地
8、快。使检索速度尽可能地快。n环境的稳定性与存储信息的适用性问题:环境的稳定性与存储信息的适用性问题:机械学习系统必须保证所保存的信息适机械学习系统必须保证所保存的信息适应于外界环境变化的需要。应于外界环境变化的需要。n存储与计算之间的权衡:存储与计算之间的权衡:对于机对于机械学习械学习来说很重要的一点是它不能降低系统的来说很重要的一点是它不能降低系统的效率。效率。2022-12-5安徽大学 计算机科学与技术学院12 6.4 归纳学习归纳学习n归纳学习归纳学习(induction learning)是应用归纳推理进是应用归纳推理进行学习的一种方法。根据归纳学习有无教师指导,行学习的一种方法。根据
9、归纳学习有无教师指导,可把它分为示例学习和观察与发现学习。可把它分为示例学习和观察与发现学习。6.4.1 归纳学习的模式和规则归纳学习的模式和规则 1.归纳学习的模式归纳学习的模式 解释过程 实例空间 规则空间 规划过程 2022-12-5安徽大学 计算机科学与技术学院13 6.4 归纳学习归纳学习2.归纳概括规则归纳概括规则变型变型(版本版本)空间空间(Version Space)1)取消部分条件取消部分条件(去合取去合取)Suit(C,clubs)Rank(C,7)草花草花Suit(C,clubs)草花草花2)放松条件放松条件(加析取加析取)Suit(C1,clubs)Rank(C1,7)
10、草花草花(Suit(C1,clubs)Rank(C1,7)(Suit(C2,clubs)Rank(C2,8)草花草花2022-12-5安徽大学 计算机科学与技术学院14 6.4 归纳学习归纳学习2.归纳概括规则归纳概括规则变型空间变型空间(Version Space)3)沿概念树上塑沿概念树上塑(个别到一般个别到一般)Suit(C1,clubs)Rank(C1,9)草花草花 Suit(Cn,clubs)Rank(Cn,3)草花草花Suit(Cm,clubs)Rank(Cm,J)草花草花Suit(C,clubs)Rank(C,L=S)草花草花4)形成闭合区域形成闭合区域Youth(P1,18)青
11、年;青年;Youth(P2,25)青年青年Youth(P,18,25)青年青年5)将常量转换为变量将常量转换为变量Suit(C,clubs)Rank(C,7)草花草花Suit(C,clubs)Rank(C,x)草花草花2022-12-5安徽大学 计算机科学与技术学院15 6.4 归纳学习归纳学习6.4.2 归纳学习方法归纳学习方法规则空间规则空间空描述空描述训练示例训练示例较一般较一般较具体较具体假设集合假设集合GSP251规则空间的结构规则空间的结构假设假设(概念概念)空间的结构空间的结构2022-12-5安徽大学 计算机科学与技术学院166.5 类比学习类比学习6.5.1 类比推理和类比学
12、习方式类比推理和类比学习方式 类比学习类比学习(learning by analogy)就是通就是通过类比,即通过对相似事物加以比较所进过类比,即通过对相似事物加以比较所进行的一种学习行的一种学习。其推理过程如下其推理过程如下 :回忆与联想回忆与联想-选择选择 -建立对应关系建立对应关系-转换转换 2022-12-5安徽大学 计算机科学与技术学院176.5 类比学习类比学习6.5.1 类比推理和类比学习方式类比推理和类比学习方式a S(源域源域),b T(目标域目标域),P,Q为性质为性质P(a)Q(a),P(a)P(b)Q(b)1.回忆与联想:找出回忆与联想:找出P(a)Q(a)2.选择:找
13、出一般规律选择:找出一般规律P(x)Q(x),x S3.建立对应关系建立对应关系:P(x)Q(x),x T4.转换转换:P(b),P(x)Q(x)Q(b)2022-12-5安徽大学 计算机科学与技术学院186.5.2 类比学习过程与研究类型类比学习过程与研究类型n类比学习主要包括如下四个过程:类比学习主要包括如下四个过程:1.输入一组已知条件和一组未完全确定输入一组已知条件和一组未完全确定的条件的条件。2.对两组出入条件寻找其可类比的对应对两组出入条件寻找其可类比的对应关系。关系。3.根据相似转换的方法,进行映射。根据相似转换的方法,进行映射。4.对类推得到的知识进行校验。对类推得到的知识进行
14、校验。2022-12-5安徽大学 计算机科学与技术学院19n类比学习的研究可分为两大类类比学习的研究可分为两大类:(1)问题求解型的类比学习问题求解型的类比学习 (2)预测推定型的类比学习。它又分为预测推定型的类比学习。它又分为两种方式:两种方式:一是传统的类比法一是传统的类比法:解决问题与以前相解决问题与以前相似的比较。似的比较。另一是因果关系型的类比:找出事物的另一是因果关系型的类比:找出事物的其他属性;其他属性;A,AB AB 2022-12-5安徽大学 计算机科学与技术学院206.6 解释学习解释学习6.6.1 解释学习过程和算法解释学习过程和算法 1986年米切尔(年米切尔(Mitc
15、hell)等人为基于解)等人为基于解释的学习提出了一个统一的算法释的学习提出了一个统一的算法EBG:训练例子 操作准则 知识库 新规则 目标概念2022-12-5安徽大学 计算机科学与技术学院21EBG求解问题的形式可描述于下求解问题的形式可描述于下:给定:给定:(1)目标概念描述目标概念描述TC(Target Concept);(2)训练实例训练实例TE(Training Example);(3)领域知识领域知识DT(Domain Theory);(4)操作准则操作准则OC(Operationality Criterion)。求解:求解:训练实例的一般化概括,使之满足:训练实例的一般化概括,
16、使之满足:(1)目标概念的充分概括描述目标概念的充分概括描述TC;(2)操作准则操作准则OC。2022-12-5安徽大学 计算机科学与技术学院226.6.2 解释学习举例解释学习举例例例6.2 已知:物体已知:物体x、y,使,使safe-to-stack(x,y)有:有:safe-to-stack(x,y)fragile(y)lighter(x,y)事实:事实:on(a,b);isa(a,brick);isa(b,endtable);volume(a,1);density(a,1);weight(b,5);times(1,1,1);less(1,5)安全准则:安全准则:lighter(x,y)
17、safe-to-stack(x,y)weight(P1,W1)weight(P2,W2)less(W1,W2)lighter(P1,P2)volume(P,V)density(P,D)times(V,D,W)weight(P,W)isa(P,endtable)weight(endtable,5)weight(P,5)2022-12-5安徽大学 计算机科学与技术学院23safe-to-stack解释的证明树解释的证明树safe-to-stack(a,b)lighter(a,b)weight(b,w2)times(V,D,w1)less(w1,w2)weight(a,w1)less(1,5)vol
18、ume(a,V)isa(b,endtable)density(a,D)weight(b,w2)volume(a,1)density(a,1)times(1,1,1)weight(b,5)volume(X,V)density(X,D)times(V,D,W1)isa(Y,endtable)weight(Y,W2)less(W1,W2)safe-to-stack(X,Y)5/w21/w1,5/w21/w11/D1/V2022-12-5安徽大学 计算机科学与技术学院246.7 神经学习神经学习6.7.1 基于反向传播网络的学习基于反向传播网络的学习 反向传播反向传播(back-propagation
19、,BP)算法)算法是一种计算单个权值变化引起网络性能是一种计算单个权值变化引起网络性能变化值的较为简单的方法。变化值的较为简单的方法。BP算法过程算法过程包含从输出节点开始,反向地向第一隐包含从输出节点开始,反向地向第一隐含层传播由总误差引起的权值修正。含层传播由总误差引起的权值修正。2022-12-5安徽大学 计算机科学与技术学院256.7.2 基于基于Hopfield网络的学习网络的学习 反馈神经网络,它是一种动态反反馈神经网络,它是一种动态反馈系统,比前馈网络具有更强的馈系统,比前馈网络具有更强的计算能力。计算能力。Hopfield网络是一种具有正反相输网络是一种具有正反相输出的带反馈人
20、工神经元。出的带反馈人工神经元。2022-12-5安徽大学 计算机科学与技术学院26 6.8 知识发现知识发现 6.8.1 知识发现的发展和定义知识发现的发展和定义n知识发现的产生和发展知识发现的产生和发展 知识发现最早是于知识发现最早是于1989年年8月在第月在第11届国际届国际人工智能联合会议的专题讨论会上提出。人工智能联合会议的专题讨论会上提出。n知识发现的定义知识发现的定义 数据库中的知识发现是从大量数据中辨识数据库中的知识发现是从大量数据中辨识出有效的、新颖的、潜在有用的、并可被出有效的、新颖的、潜在有用的、并可被理解的模式的高级处理过程理解的模式的高级处理过程。2022-12-5安
21、徽大学 计算机科学与技术学院276.8.2 知识发现的处理过程知识发现的处理过程 1.数据选择数据选择。根据用户的需求从数据。根据用户的需求从数据库中提取与库中提取与KDD相关的数据。相关的数据。2.数据预处理数据预处理。主要是对上述数据进。主要是对上述数据进行再加工,检查数据的完整性及数据行再加工,检查数据的完整性及数据的一致性,对丢失的数据利用统计方的一致性,对丢失的数据利用统计方法进行填补,形成发掘数据库。法进行填补,形成发掘数据库。2022-12-5安徽大学 计算机科学与技术学院283.数据变换数据变换。即从发掘数据库里选择。即从发掘数据库里选择数据数据4.4.数据挖掘数据挖掘。根据用
22、户要求,。根据用户要求,确定确定KDD的目标是发现何种类型的知识。的目标是发现何种类型的知识。5.5.知识评价知识评价。这一过程主要用于对所获。这一过程主要用于对所获得的规则进行价值评定,以决定所得得的规则进行价值评定,以决定所得的规则是否存入基础知识库。的规则是否存入基础知识库。2022-12-5安徽大学 计算机科学与技术学院296.8.3 知识发现的方法知识发现的方法 1.统计方法:统计方法是从事物的外在数量上统计方法:统计方法是从事物的外在数量上的表现去推断该事物可能的规律性。的表现去推断该事物可能的规律性。2.机器学习方法机器学习方法 3.神经计算方法神经计算方法 4.可视化方法可视化
23、方法:可视化(:可视化(visualization)就是把数据、信息和知识转化为可视的就是把数据、信息和知识转化为可视的表示形式的过程。表示形式的过程。2022-12-5安徽大学 计算机科学与技术学院306.8.4 知识发现的应用知识发现的应用 n知识发现已在许多领域得到应用。现在,知识发现已在许多领域得到应用。现在,知识发现已在银行业、保险业、零售业、知识发现已在银行业、保险业、零售业、医疗保健、工程和制造业、科学研究、医疗保健、工程和制造业、科学研究、卫星观察和娱乐业等行业和部门得到成卫星观察和娱乐业等行业和部门得到成功应用,为人们的科学决策提供很大帮功应用,为人们的科学决策提供很大帮助。助。2022-12-5安徽大学 计算机科学与技术学院31 6.9 小结小结 本章只对机器学习作个入门介绍。本章只对机器学习作个入门介绍。机器学习在过去十多年中获得较大发机器学习在过去十多年中获得较大发展。今后机器学习将在理论概念、计算机展。今后机器学习将在理论概念、计算机理、综合技术和推广应用等方面开展新的理、综合技术和推广应用等方面开展新的研究。其中,对结构模型、计算理论、算研究。其中,对结构模型、计算理论、算法和混合学习的开发尤为重要。在这些方法和混合学习的开发尤为重要。在这些方面,有许多事要做,有许多新问题需要人面,有许多事要做,有许多新问题需要人们去解决们去解决。