1、 本章主要内容本章主要内容 (1)知识获取的定义和基本原理; (2)主要的知识获取方法,包括:机器学习、数据挖掘与 知识发现; (3)知识获取在智能信息系统中的应用,包括领域知识的 获取、专家知识的获取、用户知识的获取等。 知识获取是人工智能和知识工程的核心技术。知识获取和知识表示是建立、完善和扩展知识库的基础,是利用知识进行推理求解问题的前提。智能信息系统中知识的质量和数量直接影响其系统性能,知识获取成为智能信息系统开发的关键。本章在概述知识获取的基础上,重点讨论机器学习、数据挖掘与知识发现的基本原理与方法,并进一步论述知识获取在智能信息系统中的应用。知识获取定义知识获取定义 所谓知识获取,
2、就是模拟就是模拟人类学习知识的基本过程人类学习知识的基本过程,从信息源中抽取出所需知识,并将其转换成可被计算机程序利用的表示形式。具体说,知识获取就是获得事实、规则及模式的集合,并把它们转换为符合计算机知识表示的形式。信息源主要是人类专家、书本、数据库和网络信息源等。 与信息收集的区别: 信息收集实现信息源浅层内容的获取; 知识获取实现信息源深层知识的获取。知识获取的基本任务知识获取的基本任务 这里通过类比人类学习知识的过程考察知识获取的基本任务。人类学习知识的过程如下图所示。首先,了解基本的领域知识和分析解决问题的方法,即对现有知识的固化记忆;然后,不断在大量的实践活动中进行学习,即对实践数
3、据进行分析、综合,并从实践中总结经验,形成新知识;随后,将新知识与其已有的知识进行融合,逐步精炼、完善和积累知识。知识获取的基本任务:知识获取的基本任务: (通过分析人类学习知识的基本过程) (1)知识抽取)知识抽取。所谓知识抽取是指把蕴含于信息源中的知识经过识别、理解、筛选、归纳等过程抽取出来,并存储于知识库中。 (2)知识建模。)知识建模。知识建模即构建知识模型的过程。构建知识模型的过程可以分为若干个阶段,其中主要的三个阶段是:知识识别、知识规范说明和知识精化。 (3)知识转换)知识转换。所谓知识转换是指把知识由一种表示形式变换为另一种表示形式。如将从专家及文献资料那里抽取的知识转换为产生
4、式规则、框架等知识表示模式。知识获取的基本任务知识获取的基本任务(续)(续) (4)知识存储)知识存储。用适当方式表示知识,并经编辑、编译后存入知识库。 (5)知识检测)知识检测。为保证知识库中知识的一致性、完整性,需要做好对知识的检测。 (6)知识库的重组)知识库的重组。当系统经过一段时间运行后,由于对知识库进行了多次的增、删、改,知识库的结构必然会发生一些变化,需要对知识库中的知识重新进行组织。知识获取方法知识获取方法 知识系统可用多种方法从多种信息源获取知识。如通过与专家会谈、观察专家的问题求解过程、利用智能编辑系统、应用机器学习中的归纳程序、使用文本理解系统等方式,获获取人类专家的知识
5、或将其转换成所需要的形式,也可以取人类专家的知识或将其转换成所需要的形式,也可以从经验数据、实例、出版物、数据库以及网络信息源中获取各种知识。一般来说,按照知识获取的自动化程度按照知识获取的自动化程度,可以将知识可以将知识获取划分为非自动知识获取和自动知识获取两类基本方式获取划分为非自动知识获取和自动知识获取两类基本方式。 (一)非自动知识获取方式 在非自动的知识获取方式中,知识获取分两步进行,首先由知识工程师从相应信息源获取知识;然后再由知识工程师通过某种知识编辑软件将知识输入知识库。其工作方式如下图所示。 (1)知识工程师)知识工程师 知识工程师既懂得如何与领域专家打交道,能从领域专家及有
6、关文献中获得知识系统知识系统所需要的知识,又熟悉知识处理技术。其主要任务是:获取知识系统系统所需要的原始知识;对其进行分析、归纳、整理、升华,用自然语言描述升华,用自然语言描述之;然后由领域专家审查;把最后确定的知识内容知识内容用知识表示语言表示出来,通过知识编辑器进行编辑输入。 (2)知识编辑器)知识编辑器 知识编辑器是一种用于知识编辑和输入编辑和输入的软件,一般采用交互工作方式,其主要功能是: 将获取的知识转换成计算机可表示的内部形式,并输入知识库。 检测知识的错误,包括内容错误和语法错误,例如,知识的正确性、完整性和一致性等。并报告错误性质、原因与部位,以便进行修正。实例:专家系统MYC
7、IN的知识获取 非自动方式是知识库系统建造中用得较普遍的一种知识获取方式。早期专家系统都是运用这种方式建造的,如DENDRAL、MYCIN等。其中,专家系统MYCIN是最具代表性的一个,它用产生式规则作为表示知识的模式,用LISP语言表示规则。其知识获取步骤如下: (1)知识工程师获取专家的知识,用英语描述后输入系统; (2)系统将其翻译为LISP语言的表示形式,然后再用英语的描述形式显示出来,供知识工程师或领域专家检查; (3)如有错误,则由知识工程师与领域专家协商修改,再重复(1)和(2)的工作,直到被确认正确为止; (4)对于新规则,则需检查它与知识库中知识的一致性,有错则修改; (5)
8、将正确的规则送入知识库。 (二)自动知识获取方式 手工获取知识建立知识库是一件相当困难且费时费力的工作,已构成知识工程的瓶颈。为了解决这个难题,人们尝试运用各种理论和方法实现知识的自动化获取。 所谓自动知识获取是指系统采用相关的知识获取方法,直接从信息源“学习”相关的基础知识,以及从系统自身的运行实践中总结、归纳出新知识,不断自我完善,建立起性能优良的知识库。其工作方式如图所示。实现自动知识获取的主要方法:(1)自然语言理解)自然语言理解 自然语言理解方式主要借助于自然语言处理技术,针对文本类型的信息源,通过语法、语义分析,推导文本内容属性,抽取与领域相关的语义实体及其关系,实现知识获取。从本
9、质上说,虽然自然语言理解是最理想的自动知识获取方法,但由于自然语言处理中多项难点技术(如抽词技术、切分词技术、短语识别技术等)尚未得到有效解决,因此,给基于自然语言理解的知识自动获取利用带来一定困难。实现自动知识获取的主要方法:(2)模式识别)模式识别 基于模式识别的知识获取方法主要针对多媒体信息源(如图片、语音波形、符号等),采用统计方法等对事物或现象进行描述、辨认、分类和解释,从经数字化处理后的数据中识别事物对象的特征。(3)机器学习)机器学习 机器学习是系统利用各种学习方法来获取知识,是一种高级的全自动化的知识获取方法。机器学习还具有从运行实践中学习的能力,能纠正可能存在的错误,产生新的
10、知识,从而不断进行知识库的积累、修改和扩充。(4)数据挖掘与知识发现)数据挖掘与知识发现 基于数据挖掘的知识获取是近几年发展起来的新方法,它主要针对结构化的数据库,采用统计学习等定量化分析方法,发现大量数据之间所存在的关联。虽然数据挖掘与机器学习都是从数据中提取知识,但两者之间存在区别:机器学习主要针对特定模式的数据进行学习;数据挖掘则是从实际的海量数据源中发现、抽取知识。由于数据挖掘技术简单易行,目前已逐步发展成为金融业、保险业、零售业、电信、生物等领域中颇具影响力的知识获取工具。(5)机器感知)机器感知 基于机器感知的知识获取主要依靠机器的视觉、听觉、触觉、味觉等传感器获取生理及行为特征信
11、号,直接感知外部世界。它需要采用人工智能方法和技术,观测、建模、识别外界信息,从而创建感知能力。机器感知是一项高智能的活动,比自然语言理解、模式识别具有更复杂的能力,目前还只是处于探索中。 本章将主要论述机器学习和数据挖掘这两类方法。本章将主要论述机器学习和数据挖掘这两类方法。自动知识获取方式的展望 自动知识获取是一种理想的知识获取方式,它涉及到人工智能的多个研究领域,如模式识别、自然语言理解、机器学习等,对硬件亦有较高的要求。而目前这些领域尚处于研究阶段,有许多理论及技术上的问题需要做进一步的研究,就目前已经取得的研究成果而言,尚不足以真正实现自动知识获取。因此,知识的完全自动获取目前还只能
12、作为人们为之奋斗的目标。 机器学习是人工智能研究中的一个重要领域。学习是一种自然的认识处理,是人(或计算机)增长知识和改善其技能的方法。如果一个计算机系统具有学习能力,它就可以自动改进自身的执行性能而不需要重新进行程序设计。概述概述(一)研究及其学习的目的 (1)开发学习的理论,模拟人类学习处理的认知模型,进行理论分析和学开发学习的理论,模拟人类学习处理的认知模型,进行理论分析和学习方法的探索。习方法的探索。 (2)构造学习机器和具有学习能力的知识系统,帮助人类解决困难的社会、技术和科学问题。(二)机器学习研究的主要内容机器学习研究的主要内容 (1)学习机理的研究。这是对人类学习机制的研究,即
13、人类获取知识、技能和抽象概念的天赋能力。通过这一研究,可以指导机器学习,以便解决机器学习中存在的相关问题。 (2)学习方法与技术的研究。研究人类的学习过程,探索各种可能的学习方法,建立起独立于具体应用领域的学习算法。 (3)机器学习系统及应用研究。根据特定任务要求,建立相应的学习系统。(三)机器学习的作用 (1)获取新知识获取新知识。学习可看作一种创造活动,可以获取说明型知识、经验知识和技能。机器学习可以归纳新知识,如发现人类未曾想到过的新概念和模型,可以缩短从专家处获取知识的历程。 (2)精炼知识库精炼知识库。完全自动化的知识获取是困难的,利用机器学习维护知识库的完整性和一致性是较容易实现的
14、。通过学习不仅可以发现知识库中的错误和缺陷,还可以优化和简化知识。例如,参数学习系统中,当知识表示为函数,可用于发现好的参数或可信值集合。 (3)辅助查找处理辅助查找处理。当查找空间很大,描述很多,就可能产生组合爆炸问题。因此,需要学习有效的启发式知识引导查找,忽略大量与目标无关的描述或概念,也就是将学习作为一种查找处理。 (4)形成新理论形成新理论。探索新知识可被看作理论形成的处理。理论形成的一个方面是归纳推理,从具体实例推导一般规律(假设)。理论形成的另一方面是验证假设,寻找与一般理论的上下文有关的事实证据,并且比较多种可能的假设来选择较好的。(四)机器学习所用到的推理方法 目前机器学习所
15、用到的推理方法可分为三大类:基于演绎的保真性推理基于归纳的从个别到一般的推理基于类比的从个别到个别的推理 不同的学习系统采用不同的推理方法。早期的机器学习系统一般采用单一的推理学习方法,而现在则趋于采用多种推理技术支持的学习方法。学习中使用的推理越多,表明系统的学习能力越强。(五)机器学习的类型 根据学习原理,机器学习类型如下: (1)机械学习机械学习(Rote Learning) 机械学习是最简单的学习策略。这种学习策略不需要任何推理过程。通过提供人机接口,将外界的知识按照系统内部的知识表示方法进行组织,由于所输入的知识的表示方式与内部完全一致,不需要任何处理和转换就可以直接存储并提供给用户
16、检索和使用。机械学习中,环境所提供的知识与执行环节中使用的知识有着相同的形式和水平。虽然机械学习在方法上看来简单,但由于计算机的存储容量较大,检索速度较快,而且记忆准确,所以也产生较好的效果。如Samuel西洋象棋程序就是采用了这种机械记忆策略,它记忆每个棋局以便提高下棋水平。(2)指导学习指导学习(Learning from Instruction) 就是对知识进行简单的语法转换,将它同化为已描述的知识结构(模型、框架等)。对于使用传授学习策略的系统来说,外界所输入知识的表示方式与内部知识的表示方式不完全一致,系统在接受外部知识时需要一定的推理、翻译和转化工作。MYCIN、DENDRAL等专
17、家系统在获取知识上都采用这种学习策略。(3)归纳学习归纳学习(Inductive Learning) 归纳学习是研究最广的一种符号学习方法。归纳学习采用归纳推理。归纳推理是从部分到全体,从特殊到一般的推理过程。在进行归纳学习时,学习者从所提供的事实或观察到的假设进行归纳推理,获得某个概念。应用归纳推理,系统可从环境提供的具体事实中获取知识。(4)演绎学习()演绎学习(Deductive Learning) 演绎学习中,学习系统进行演绎推理,从源信息和它的背景知识中推导出所需要的知识。(5)类比学习()类比学习(Learning by Analogy) 类比是一种很有效的推理方法,它能够清晰简洁
18、地描述对象间的相似性。为了使类比系统能够获得类似任务的有关知识,要求类比学习系统必须能够发现当前任务与已知任务的相似之处,并由此制定完成当前任务的方案,可看作是归纳和演绎学习的综合方法。(6)基于案例的学习()基于案例的学习(Case-Based Learning) 计算机系统在执行任务的过程中,常接受、处理和积累大量的具体案例及过程。要求系统通过案例进行学习,需要对这些例子的工作模式与经验进行分析、总结和推广,得到完成任务的一般性规律,并在进一步的工作中验证或修改这些规律。机器学习系统的原理、结构和功能机器学习系统的原理、结构和功能(一)机器学习系统 根据人类学习的原理和方法,机器学习系统需
19、要通过学习增长其知识、改善其性能、提高其智能水平。机器学习系统在不同的学习环境、不同的应用条件下,一般也存在差异。例如,专家系统中的知识获取,主要是获取专家的知识。而对于博弈系统,在与对手较量的过程中,需要了解对方的长处与弱势,从失败与成功的案例中总结经验教训并将其转换为内在的知识。机器学习系统在学习过程中,需要使用合适的学习方法,通过与环境多次交互,逐步达到一定的知识水平和求解问题的能力,从而改善系统的性能。在获取知识过程中,机器学习系统中应设置知识库、人机接口等功能。(二)机器学习系统的结构和功能 机器学习系统的类型很多,但它们具有一些共同的要素。图中给出了学习系统的一般构架,它包含5个主
20、要部分:环境、控制与评价、学习、知识库和执行机制。系统各部分简要描述如下:(1)知识库(Knowledge Base) 用于存储、积累系统的知识,它包括规则集合、参数值、符号结构等,供执行机制使用。它还具有知识增删、修改、扩充等功能。知识库可组织为两个级别:长期存储器(Long Term Memory)和短期存储器(Short Term Memory)。长期存储器存储较永久性的知识,它们是系统必须具备的先验背景知识。短期存储器存放学习过程中的初始数据、中间结果等。(2)学习部分(Learner) 学习部分是系统的核心部件,必须具备以下2个主要功能:进行学习推理。利用输入信息、评价指导信息和多种
21、学习策略,进行学习过程的知识推理,获得有关问题的解答和结论。学习部分还应能修改知识库,纠正系统的错误执行,自动改进系统的执行性能。(3)执行机制(Performer) 该部分使用已学习到的知识去完成所规定的任务。它以各种方法运用知识库中的规则引导系统的活动。例如,当学习过程修改了知识库中的知识,系统行为将要随之改变。(4)控制与评价(Control and Critic) 该部分的首要任务是评价系统执行性能,通过将系统的实际结果与先验理想模型相比较,找出误差,分析错误,检测系统执行效果。然后,系统根据评价和检测结果,将信息反馈给学习部分,对学习进行指导,并控制输入信息的改进。(5)环境(Env
22、ironment) 环境指获取信息和知识的来源,包括实例集合、已存在的实例数据库、人类专家等信息源。 除了以上5个主要部件之外,与学习系统有关的其它2个元素是描述语言和实例集合的选择。 (1)描述语言是系统知识的表达机制。描述语言必须适用于知识获取,应能表达系统中的两类重要知识:一类是输入实例;另一类是系统产生的规则。知识的表示形式应易理解、易转换。 (2)实例集合的选取对于学习系统是很重要的。很显然,系统需要一个训练实例集合,依据这些实例,系统推导与输入描述相关的规则或规则集。但是,系统产生的规则必须被检测。因此系统还必须有另一个检测实例集合,若规则能成功地应用于这些新的实例,则会提高规则的
23、可信度。基于归纳的学习基于归纳的学习 所谓归纳学习,就是系统根据有关的数据或实例,应用归纳推理推导出一般性规则或结论。系统可通过实例学习,还可通过观察样品和通过发现而学习。归纳学习可以迅速地产生知识库,是一种实验成功的、有效的自动化学习方法。(一)归纳学习的原理归纳学习的原理 归纳学习是通过执行归纳推理来实现的。什么是归纳推理呢?如图所示,归纳推理就是从已知事实和背景知识推导出结论的处理过程,该结论描述已知事实。归纳推理是由特殊到一般,若推导出的规则是正确的,那么不仅可将它用于其它特例,还可用于一般情况。适合于学习系统的归纳推理规则可分为以下两大类型: (1)选择归纳 选择归纳包括 : 减少条
24、件:就是从AND操作符连接的表达式中删掉一个或几个条件,那么所得规则比原规则较一般化。例如, 原规则:如果如果 一个学生又聪明又很勤奋 那么那么 他的学习一定很好。 新规则:如果如果 一个学生很勤奋 那么那么 他的学习一定很好。 将常量转换为变量:将事实描述或规则条件中的常量代换为一个变量。例如,likes(Liming, football)转为likes(X, football),则变量X可代表任何一个人,即任何一个人都喜欢足球。 增加选择项:就是将可能的情形用OR操作符号连入规则的条件中。例如Flag(X)= Red,转为Flag(X)= Red OR Blue。 转换AND为OR:就是将
25、条件中的AND操作符转为OR操作符。例如A AND B,转为A OR B。 应用“相对扩展(Extend Against)”操作,扩展规则的条件。(2)构造归纳 构造归纳包括: 计算参数满足一个条件,例如曲线拟合法,可从已存实例推导出新规则。例如,对于(X, Y, Z)三元组有以下三个实例: 实例1:(0, 2, 7) 实例2:(6, 1, 10) 实例3:(1, 5, 16) 其中X、Y是输入,Z是输出。采用最小平方回归分析,可推出规则:Z = 2X+3Y+1。 探索概念之间的从属关系,用较广义的概念代换较狭义的概念。例如用“图书馆”代换“大学图书馆”。 用蕴含性质代换一个性质。例如,A蕴含
26、B,则可用A代换B。(二)归纳学习的要素(二)归纳学习的要素归纳学习的例子:归纳学习的例子: 归纳学习的描述: 已知:观察描述或事实(F)、当前的归纳命题、背景知识(Background Knowledge)、假设的选择标准。 寻找:一个归纳命题/假设(H),它蕴含观察描述(或事实),并满足假设的选择标准。 例如: 前提:张华、李红和王刚都是中国人。 背景知识:他们都是哲学家。 哲学家都是人。 中国人都是人。 选择标准:产生的规则能确定哲学家的国籍。 推出结论:所有哲学家都是中国人。 所有人都是中国人。 选择结论:所有哲学家都是中国人。(三)归纳学习方法(三)归纳学习方法(1)根据是否有教师指
27、导,归纳学习可分为通过实例学习和通过实例学习和通过观察与发现学习通过观察与发现学习两类 通过实例学习通过实例学习,由教师提供正面实例和反面实例,由计算机独立进行模型间的匹配,自动寻找差异,决定优先级别和做出相应处理,完成模型的修改。通过实例学习,可从部分信息推导整体规则,从实例信息推导类的特性。它还可从离散的操作事件推导一般的问题求解步骤。 通过观察与发现学习通过观察与发现学习,是根据环境提供的事例以及一些规则,机器独立地发现正例和反例,并进行推理,发现新概念,做出新猜想。例如概念聚类学习和BACON的发现学习。(2)根据信息提供方式,归纳学习分为增量式和非增量式学习 非增量式学习模式非增量式
28、学习模式是:已知正、反实例集合和背景知识,学习一般性的概念描述(规则),它覆盖所有的正面例子,不包括反面实例。学习过程中,所有实例一次提供给程序。 增量式学习模式增量式学习模式是:已知正面实例集合与反面实例集合、背景知识和输入假设集合,实例分为若干组,逐次将每组实例加入输入数据,同时,将前面程序运行的结果作为输入假设,逐渐修改和精炼以前产生的规则和正在产生的规则。 ASSISTANT学习系统(四)机器归纳学习系统:AQ15 (1)系统概述 AQ15是一个学习分类规则的归纳学习系统,是机器学习领域中成功的典例。它由美国人工智能专家Michalski指导研制。 AQ15是实例归纳学习方法,可执行增
29、量或非增量式学习,从基于属性描述的正、反实例中推导分类判断规则。学习过程中所用的知识包括:系统拥有的概念、规则和学习方法;用户提供的有关信息和规则;选择标准,用于评估和优选假设。系统的输入是实例集合和已知规则。系统的输出是一般、特殊等多种形式的判断规则。AQl5应用谓词逻辑、规则、树等多种知识表示应用谓词逻辑、规则、树等多种知识表示方法方法;具有构造式学习能力来扩充和完善用户的输入数据;应用AQ归纳学习方法产生判断规则;提供多种知识评价方法,对结果假设进行检测和优化。系统输入信息主要包括以下三类:事件表事件表:一个事件表描述一个对象类,包含一组训练实例,事件表名就是类名。背景知识背景知识:背景
30、知识是由用户提供或系统已知的关于应用领域的描述和如何构造规则的知识。它包括概念描述及其类型的定义、定义结构描述的规则、构造新属性的规则以及评估候选假设的标准。背景知识用于构造式学习功能,产生新的描述,以精炼输入数据和简化结果假设。输入假设输入假设:输入假设是关于事件类的描述,用于增量式学习。输入假设有两种作用:i)当存在输入事件时,输入假设用于增量式学习的初始假设;若不需要增量式学习,可以不用它。ii)当不存在输入事件时,输入假设被转换作为事件处理。AQl5程序运行的结果也可作为输入假设。(2)系统结构和学习算法 AQ15系统通过对输入的训练实例集合和背景知识执行归纳推理,产生各类实例的判断规
31、则,训练实例集合表示为属性向量的合取范式。规则集合表示为析取范式。程序对逻辑表达式空间执行启发式搜索,直至找到一个或一组判断规则,它们包含所有的正面实例,不包含任何反面实例,并通过选择标准加以优选。 AQl5系统包括以下5个子系统: 装配。输入用户数据,检查错误,并将其转换为内部形式 预处理构造式学习。程序应用用户输入的背景知识,作用于输入的事件和假设,产生新的变量,系统进一步构造对应新变量的表达式,然后利用确定的标准选择某些新变量,将其加入到事件和假设中。构造式学习可以更精确地描述或完善输入数据,以便产生和优化结果假设。 构造判断规则。程序应用广度优先方式搜索事件的分类结构,为每个类产生判断
32、规则。为了获得某类Ci的判断规则,它把所有已知属于Ci类的实例作为正面实例,而按照某种方式构造Ci的反面实例集,例如,把其余类中的所有实例作为反面实例,并能处理模糊实例。 系统基于输入的实例集合和假设,应用AQ算法产生类的一般性描述,它覆盖当前类的所有正面实例,不包含任何反面实例。然后,根据用户选择的质量评估标准,选择最好的假设。最后,简化整理所产生的判断规则,以关系表形式输出。 检测。应用检测实例集合检测系统产生的判断规则,方法是测量每个检测实例与判断规则的概念隶属度(或匹配度)。 输出。该子程序输出结果关系表,在输出判断规则时,执行附加计算,遍历结构的层次图,并用较高层次结点代换叶点的值。
33、AQ15系统的学习算法:系统的学习算法: AQ学习算法由Michalski于1969年提出,用于从给定的正面实例集和反面实例集中归纳学习新的概念或规则,算法步骤如下: 从正面实例集中选择一个实例为种子; 归纳产生一个Star,它一致地概括种子,排除所有反面实例; 依据给定的选择标准,从Star中选择最好的假设,必要时进一步精炼假设; 如果假设覆盖了所有正面实例,则停止;否则,选一个尚未被假设覆盖的正例,转。 为了产生一个Star,要相对于反面实例执行扩展操作。同时为了获取最好的Star,要利用同化规则执行简化和整理工作,最后产生一个无冗余的合取描述。 首先给出Star算法的已知条件和要求: 已
34、知:一个种子(正面实例)e和一个反面实例集合N=el,e2,ek)。 寻找:一个集合G(e/N),它是一个极大概括实例e的合取描述(Star),而不包含任何反面实例。Star算法:算法: 置Star的初始值为; 对每个反面实例ei,i = l,2,k,执行以下操作: i)PS = Extendagainst(e,ei),PS是变量的析取范式,它覆盖正面实例e,即它的变量具有e的尽可能多的概括值,该值不与ei的值重复; ii)Star = multiply(Star, PS),用i)的结果PS乘以前面产生的初始假设(Star); iii)Star = best(Star, MaxStar, Pr
35、efCrit),简化ii)产生的结果:从Star中删除冗余部分,然后应用质量评估标准选择最好的,解答个数小于“MaxStar”参数的元素。产生Star的例子描述如下: 实例空间:变量定义:X:0,1,2;Y:0,1;Z:0,1 正面实例:e = (2,0,1) 反面实例集N:el = (1,1,0);e2 = (2,1,0) 产生的部分Star: PSl:e e1=X = 0 2,Y=0,Z=1 PS2:e e2=Y = 0,Z = 1 完整的Star: G(e/N)=PSl*PS2=X= 02 & Y=0,X=02&z =1,Y=0&Y=0,Y=0Z=1,Z=1&Y=0,Z=1&Z=1=Y=
36、0,Z=1)(3)样例和系统评价 以下样例是关于个人计算机的统计信息。假设有12台个人计算机,每台计算机的特性用一组属性描述,例如它具有的语言软件(Pascal, Fortran, Cobol),操作系统类型(OP-system),软盘驱动器个数(Floppies),硬盘的有无(Disk),处理器的类型(Processor),主存的大小(Memory),以及是否带有打印机(Printer)。所有的计算机依据它们的价格分为三类:$1000以下,$1000至$4000和$4000以上。12台计算机的信息描述于下: 设用户选择的评估假设标准是,要求规则包含最简化的表达式。对于以上的实例集合,AQ15
37、产生的确定计算机价格的判断规则如下:cost=under 1000 if Floppies=0 意思是,如果一台计算机没有软盘驱动器则它的价格在1000美元以下。cost=From 1000 to4000 if Floppies=1 V 2&DiskPrinter=no 意思是,如果一台计算机有1至2台软盘驱动器,没有硬盘和打印机,则它的价格是1000至4000美元。cost = Over 4000 if Disk=yesVPrinter=yes 意思是,如果一台计算机有硬盘或者有打印机,则它的价格在4000美元以上。 很明显,AQl5程序产生的三条规则,可以正确地分类以上的计算机实例。 AQ
38、15程序还存在一些问题,例如,不能检查出输入数据中的所有语法错误,执行中可能会出现死循环。另外,系统要求教师提供准确的实例集合(正、反实例),这种严格要求不适于大多数情况。对于大量的实例集合,系统有待改进。 专家曾对于医学领域,将AQ15系统、ASSISTANT学习系统与医学专家进行比较,经4次以上实验的平均值如下表所示。该表说明AQ15程序的诊断精确性接近人类专家的水平。基于概念的学习基于概念的学习 在人工智能领域中,概念学习有着特殊的含义,通常被认为是从环境中获取结构描述(这个描述就叫做一个概念、一个模型或一个假设)。这里仅讨论智能信息系统中的概念学习,研究领域对象(如文献、专业术语、用户
39、、提问等)及其关系的学习方法。 从应用的推理方式来看,有两种常用的概念学习方法:归纳概念学习和演绎概念学习。(一)归纳概念学习 归纳概念学习就是从经验实例中推导出一般结论。给出背景知识(BK)和概念的实例集合(E),当满足以下条件可以推导出概念C:(a)BK E实例不是背景知识的逻辑结论(b)BKE C概念与实例、背景知识不矛盾(c)BKCE实例是概念和背景知识的逻辑结论。归纳概念学习的应用实例归纳概念学习的应用实例 智能信息系统可根据用户提供的背景知识和查询实例,应用归纳学习方法,建立用户分类模型。 假设每个用户实例包括用户名、职业、学历、使用的专业概念、交互方式、系统经验等属性,在收集实例
40、时,应识别重要的属性,减少次要的属性个数,删除无用条件,并给每个属性赋予重要程度值。如此处理,不仅提高了学习的经济性(减少了存储空间与计算量),而且可避免学习处理的错误导向。对于获取用户分类模型的任务来说,用户的专业概念和系统经验是最重要的属性,其描述了用户的领域知识水平和应用系统的技能。对每个实例的属性赋予重要程度值后,应用归纳学习方法,可以判别哪些用户是专家,哪些用户是无经验的新手,以建立用户分类模型,并在查询过程中,逐步精炼,直到满足所期望的要求为止。应用归纳概念学习获取新知识: 应用归纳学习方法,还可以根据概念之间的相似和相邻关系推导出新的概念和新的关系。 例如,已知事实 sim(cl
41、,c2)表示概念cl和c2相似 sim(cl,c3)表示概念cl和c3相似 和相似传递规则 if sim(X,Y)and sim(X,Z) then sim(Y,Z); 可以归纳推导出概念cl和c3之间的相似关系。(二)演绎概念学习 演绎概念学习也称基于模型的学习。演绎概念学习应用抽象的概念和领域模型等理论指导学习。模型(如框架、模式等)常常描述问题领域的深层知识结构。它可被用于同化新知识,使学习机制建立关于对象或未来事件的期望值。当有实例违背模型的期望值,则学习机制将查找一个解释,从而扩展新知识。利用模型可以执行定性模拟,自动产生任何可能概念或行为的实例,然后应用这些实例进行归纳学习,产生可
42、用的新概念或决策规则。 已知:抽象的概念描述;概念的实例;领域理论和操作标准; 确定:一个包含该实例的可用概念描述。 其中,实例可从领域理论中演绎出来,而归纳概念学习中的实例不能从背景知识演绎出来。两种概念学习方法的区别 这两种概念学习方法对应着概括和分析方法。两者都涉及查找,但存在以下不同点:归纳方法应用较一般的描述,而演绎方法应用推理语言表达概念;归纳方法用较复杂的顺序控制查找,而演绎达到目标则终止;归纳的结果是学习到的新概念,演绎结果是查找路径本身。基于解释的学习基于解释的学习 解释学习(Explanation-Based Learning)的概念最初是由Illinois大学的DeJon
43、g和Mooney于1986年提出的,随后又经Mitchell、Van Harmelen和Bundy等人的逐步完善,最终成为机器学习中的一个独立分支。解释学习本质上是一种演绎学习,它通过对现有例子求解过程的解释,得出一般性控制知识,用于以后类似问题的求解。(一)学习算法描述 解释学习是由四个前件和一个后件构成。四个前件是: (1)领域理论(Domain theory):用一些规则和事实来描述某一领域的知识,在算法中,这些规则和事实必须用符号抽象出来。 (2)目标概念(Target concept):是对要学习概念的描述。 (3)操作性标准(Operationality criterion):用于
44、衡量学习系统对目标概念的描述是否准确,对学习过程起控制作用。 (4)训练例子(Training example):能用领域理论明确解释,并充分说明目标概念的实例,它是解释学习的对象。 解释学习的后件是:一个满足操作标准的关于目标概念的充分概念描述。解释学习算法的实例说明 假如,要得出关于“一个物体x可以安全地放置在另一个物体y的上面”的一般性控制知识,可以通过以下操作实现。首先,用符号表示出解释学习的前件:目标概念:Safe-to-stack(x,y)训练例子(是一些描述物体obj1与obj2的事实): On(obj1,obj2) 物体obj1可以放在物体obj2上面 Is-a(obj1,bo
45、ok)物体obj1是一本书 Is-a(obj2,table)物体obj2是一张桌子 Volume(obj1,1)物体obj1的数量为1 Density(obj1,0.1)物体obj1的密度为0.1领域理论:Fragile(y)Safe-to-stack(x,y) 若y不是易碎物品,则x可以放在y上Lighter(x,y)Safe-to-stack(x,y) 若x比y轻,则x可以放在y上Volume(p,v)Density(p,d)Product(v,d,w)Weight(p,w) 给定物体p的重量参数Is-a(p,table)Weight(p,5) 桌子的重量参数为5Weight(p1,w1)
46、Weight(p2,w2)Smaller(w1,w2)Lighter(p1,p2) 判别物体p1和p2轻重的准则 接着从目标概念出发,运用领域理论进行逆向推理,便可得到一个实例求解的解释树,如下图所示。Safe -to-stack(obj1,obj2)的解释树 在得出训练例子的解释树之后,将解释树的所有叶子结点的合取作为前件,根结点作为后件,便得到关于判断一个物体是否能放置到桌子上的一般性控制知识:Volume (obj1,1)Density (obj1,0.1)Product (1,0.1,0.1)Is-a (obj2,table)Smaller (0.1,5)Safe-to-stack (
47、obj1,obj2)(二)解释学习模型 在逻辑上,解释学习的求解是由四个前件经过推理得到一个后件,由此我们可以得出解释学习的模型。下图比较简洁地表达了解释学习的基本原理。事实上,解释学习的四个前件在学习中并非处于同一层次,它们控制着学习过程的不同环节。图中箭头的指向表示学习的流程:先由学习系统接受一个不可操作的描述概念D1(不能有效地用于识别相应概念的例子),然后根据知识库中的领域理论对D1进行不同描述的转换,并由执行系统(包含操作性标准)对每个转换结果进行测试,直到转换结果被执行系统所接受,才输出可操作的概念描述D2。解释学习的模拟模型 虽然解释学习属于保真推理,但受领域知识完善程度的影响,
48、并非总能产生正确的解释描述。比如,解释学习的特点非常适合个性化信息检索,但在引入解释学习之前,首先必须完善个性化信息检索的领域知识,用逻辑符号抽象出个性化信息模型。基于类比的学习基于类比的学习 所谓类比学习就是在几个对象之间检测相似性,根据一方对象所具有的事实和知识推论出相识对象所具有的事实和知识。类比是一种很有用的和有效的推理方法,借助这种相似性推理,人们可以领会或表达出某些概念的内涵。 类比推理是在两个领域中进行的,一个是已认识的领域,可称为基(Base)或源域;一个是当前尚未完全认识的领域,可称为靶(Target)或目标域。一般来说,类比学习就是用类比来比较源域和目标域,以发现目标域中的
49、新属性、新结构、新关系。(一)类比学习的用途 类比学习是人类认识事物的一个重要手段,它主要有两方面的用途:(1)通过类比学习,获得新的概念或新的技巧 利用类比学习方法学习新概念或新技巧时,它要把类似这些新概念或新技巧的已知知识转换为适于新情况的形式。其学习的步骤是:首先从记忆中(知识库中)找到类似的概念或技巧,然后把它们转换为新形式以便用于新情况。例如人类的一种学习方式是先由老师教学生解例题,再给学生留习题。学生寻找在例题和习题间的对应关系,利用解决例题的知识去解决习题中的问题。学生经过一般化归纳,就可推出一些解题原理,以便以后使用。(2)通过类比来学习解决问题的方法 日常生活中这样的例子很多
50、,例如,通过与鸟类飞行类比,人们发明了飞机;通过与鱼类潜水类比,人们发明了潜艇。这种类比就是要机器像人一样,从分析已有的解题方法中找到解决新的、类似问题的方法。(二)类比学习的类型 从不同的角度,根据不同的论域以及不同的相似“型”,可将类比学习归结为如下4种类型:属性类比、射类比、结构类比、扩展类比。(1)属性类比 对象是由一组属性所限定的。如果对象t的组属性P(t)和对象b的组属性P(b)相似,则称对象t与对象b类似。由此可见,属性类比学习推论出来的结果并不是保真的。但是,属性类比类比学习增加了新的知识。(2)射类比 射是借用范畴论的术语,它表示对象与对象之间的对应关系。设基对象是一个二元组
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。