1、知识获取与知识发现知识获取与知识发现n知识获取知识获取n机器学习机器学习n知识发现与数据挖掘知识发现与数据挖掘重点与难点重点与难点n重点 掌握知识获取定义,理解各种知识获取方法,以及知识获取在智能信息系统中的应用。n难点 如何进行知识获取。一、知识获取一、知识获取n知识获取是把所需要的知识从知识源中抽取出来,并将其转换成可被计算机程序利用的表示形式的过程,是知识工程的关键工序。n知识获取是智能信息系统开发中的一个“瓶颈”。n知识获取贯穿于智能信息系统生命周期的始终,可分为早期、中期、和后期三个阶段。知识获取的任务和目标知识获取的任务和目标知识获取的任务包括:获取知识:获取事实和规则、从规则演绎
2、新的事实,描述基本元素、定义概念精练和维护知识:分类、整合、精练知识;维护一致性、完整性,修改事实和规则知识获取的任务和目标知识获取的任务和目标n在智能信息系统中,知识获取的目标和任务可概括为以下三个方面:领域知识的获取用户知识的获取专家知识的获取领域知识的获取领域知识的获取n领域知识就是专业领域的概念术语及其相互关系的描述。n领域知识的主要表达方法是概念知识库,它是描述问题领域和智能提问处理的重要工具,直接影响着系统的执行效率。n领域知识获取的主要工作是建立、修改和扩充概念知识库,即获取基本概念、复合概念及概念之间的各种语义关系,建立分类层次结构。领域知识的获取领域知识的获取n领域知识的来源
3、形式不同,其获取方法也不同:文本知识的获取多媒体知识的获取Web知识的获取文本知识的获取文本知识的获取n文本知识发现n自动文本分类n自动文本摘要文本知识发现文本知识发现该模型的主要功能:(1)语言辨认(2)特征提取 多媒体知识的获取多媒体知识的获取n多媒体知识来源于对多媒体数据库的知识挖掘和获取 特征分析与提取语义分析与抽取Web知识的特点知识的特点 nWeb的信息量过于庞大nWeb上的数据形式多样,结构复杂nWeb是一个动态性极强的信息源nWeb面对的是一个广泛的形形色色的用户群体Web知识的获取知识的获取nWeb知识的获取可以定义为:从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐
4、含信息。它大体上可以分为如下三类:Web内容挖掘 Web结构挖掘 Web记录的挖掘 Web知识的获取知识的获取n 在Web知识获取的研究领域,目前比较受关注的问题有:权威Web页面的识别web用户日志的挖掘Web文档的自动分类 用户知识的获取用户知识的获取n用户知识包括用户的身份、目标、兴趣、系统经验和用户背景知识、偏好的交互方式等,它可通过用户模型来描述。n智能信息系统通过用户模型,能比较准确地预测用户的行为和信息需求,从而使系统行为变得更为有效。用户知识的获取模型用户知识的获取模型n用户知识获取的主要目标之一是获取和学习用户的兴趣偏好。n用户的兴趣偏好包括两种:长期偏好短期偏好用户知识的获
5、取模型用户知识的获取模型专家知识的获取专家知识的获取n专家知识是指专家执行专门任务的决策规则和技能,它们是系统执行各种推理的基础。n使用专家知识的优点:使系统能够在无人监督的情况下,高效、准确、迅速地工作。使专家知识突破时间和空间的限制,长久保存,并可复制任意多的副本或在网上供不同地区或不同部门的人使用。知识获取方法知识获取方法n非自动知识获取方法 知识工程师获取知识,通过知识编辑软件输入到知识库n自动知识获取自然语言理解模式识别机器学习数据挖掘与知识发现机器感知知识获取的主要技术知识获取的主要技术n机器学习n数据挖掘知识获取与机器学习知识获取与机器学习n知识获取知识获取n机器学习机器学习n知
6、识发现与数据挖掘知识发现与数据挖掘何为机器学习何为机器学习心理学中的解释:学习是指(人或动物)依靠经验心理学中的解释:学习是指(人或动物)依靠经验的获得而使行为持久变化的过程。的获得而使行为持久变化的过程。SimonSimon认为:如果一个系统能够通过执行某种过程而认为:如果一个系统能够通过执行某种过程而改进它的性能,这就是学习。改进它的性能,这就是学习。MinskyMinsky认为:学习是在人们头脑中(心理内部)进认为:学习是在人们头脑中(心理内部)进行有用的变化。行有用的变化。Tom M.MitchellTom M.Mitchell在在机器学习机器学习一书中对学习的定一书中对学习的定义:对
7、于某类任务义:对于某类任务T T和性能度和性能度P P,如果一个计算机程,如果一个计算机程序在序在T T上以上以P P衡量的性能随着经验衡量的性能随着经验E E而自我完善,则称而自我完善,则称这个计算机程序从经验这个计算机程序从经验E E中学习。中学习。21当前关于机器学习的许多文献中大都认为:当前关于机器学习的许多文献中大都认为:学习是学习是系统积累经验以改善其自身性能的过程系统积累经验以改善其自身性能的过程。学习与经验有关;学习与经验有关;学习可以改善系统性能;学习可以改善系统性能;学习是一个有反馈的信息处理与控制过程。因为学习是一个有反馈的信息处理与控制过程。因为经验是在系统与环境的交互
8、过程中产生的,而经经验是在系统与环境的交互过程中产生的,而经验中应该包含系统输入、响应和效果等信息。因验中应该包含系统输入、响应和效果等信息。因此经验的积累、性能的完善正是通过重复这一过此经验的积累、性能的完善正是通过重复这一过程而实现的。程而实现的。22n学习的基本模型人类是如何学习的?n基本过程:观察响应热红色跳动火n学习的基本模型人类是如何学习的?火内在实体:不可直接观测因果律热红色跳动可观测特征学习意识中的实体n学习的基本模型应用过程原始数据人工分析机器学习训练样本模型新数据结果离线过程在线过程数学方法决定性步骤尚无有效的理论指导机器学习的分类机器学习的分类1.1.基于学习策略的分类基
9、于学习策略的分类1 1)模拟人脑的机器学习)模拟人脑的机器学习n符号学习符号学习:模拟人脑的宏观心理级学习过程,以认知心:模拟人脑的宏观心理级学习过程,以认知心理学原理为基础,以符号数据为输入,以符号运算为方理学原理为基础,以符号数据为输入,以符号运算为方法,用推理过程在图或状态空间中搜索,学习的目标为法,用推理过程在图或状态空间中搜索,学习的目标为概念或规则等。概念或规则等。典型方法:记忆学习、示例学习、演绎学习、类比学习、解释典型方法:记忆学习、示例学习、演绎学习、类比学习、解释学习等。学习等。n神经网络学习(或神经网络学习(或连接学习连接学习):模拟人脑的微观生理级):模拟人脑的微观生理
10、级学习过程,以脑和神经科学原理为基础,以人工神经网学习过程,以脑和神经科学原理为基础,以人工神经网络为函数结构模型,以数值数据为输入,以数值运算为络为函数结构模型,以数值数据为输入,以数值运算为方法,用迭代过程在系数向量空间中搜索,学习的目标方法,用迭代过程在系数向量空间中搜索,学习的目标为函数。为函数。典型的连接学习典型的连接学习:权值修正学习、拓扑结构学习。权值修正学习、拓扑结构学习。262 2)直接采用数学方法的机器学习)直接采用数学方法的机器学习n主要有统计机器学习。而统计机器学习又有主要有统计机器学习。而统计机器学习又有广义和狭义之分。广义和狭义之分。n广义统计机器学习指以样本数据为
11、依据广义统计机器学习指以样本数据为依据,以概以概率统计理论为基础率统计理论为基础,以数值运算为方法的一类以数值运算为方法的一类机器学习。在这个意义下机器学习。在这个意义下,神经网络学习也神经网络学习也可划归为统计学习范畴。可划归为统计学习范畴。n统计学习又可分为以概率表达式函数为目标统计学习又可分为以概率表达式函数为目标(如贝叶斯学习、贝叶斯网络学习等如贝叶斯学习、贝叶斯网络学习等 )和以和以代数表达式函数为目标(如几何分类学习方代数表达式函数为目标(如几何分类学习方法和支持向量机法和支持向量机(SVM)(SVM)等)两大类。等)两大类。272 2、基于学习方法的分类、基于学习方法的分类n归纳
12、学习归纳学习符号归纳学习:示例学习,决策树学习符号归纳学习:示例学习,决策树学习函数归纳学习(发现学习):神经网络学函数归纳学习(发现学习):神经网络学习、示例学习,发现学习,统计学习习、示例学习,发现学习,统计学习n演绎学习演绎学习:基于演绎推理的学习:基于演绎推理的学习n类比学习类比学习:案例(范例)学习:案例(范例)学习n分析学习分析学习:案例(范例)学习、解释学习:案例(范例)学习、解释学习283、基于学习方式的分类n有导师学习(监督学习)有导师学习(监督学习):输入数据中有导:输入数据中有导师信号,以概率函数、代数函数或人工神经师信号,以概率函数、代数函数或人工神经网络为基函数模型,
13、采用迭代计算方法,学网络为基函数模型,采用迭代计算方法,学习结果为函数。习结果为函数。n无导师学习(非监督学习)无导师学习(非监督学习):输入数据中无:输入数据中无导师信号,采用聚类方法,学习结果为类别。导师信号,采用聚类方法,学习结果为类别。如发现学习、聚类、竞争学习等。如发现学习、聚类、竞争学习等。n强化学习(增强学习)强化学习(增强学习):以环境反馈(奖:以环境反馈(奖/惩惩信号)作为输入,以统计和动态规划技术为信号)作为输入,以统计和动态规划技术为指导的一种学习方法。指导的一种学习方法。294、基于数据形式的分类基于数据形式的分类n结构化学习结构化学习:以结构化数据为输入,以数值:以结
14、构化数据为输入,以数值计算或符号推演为方法。计算或符号推演为方法。如:神经网络学习、统计学习、决策树如:神经网络学习、统计学习、决策树学习、规则学习。学习、规则学习。n非结构化学习非结构化学习:以非结构化数据为输入:以非结构化数据为输入 如:类比学习、案例学习、解释学习、如:类比学习、案例学习、解释学习、文本挖掘、图像挖掘、文本挖掘、图像挖掘、WebWeb挖掘等。挖掘等。305 5、基于学习目标的分类、基于学习目标的分类n概念学习概念学习:即学习的目标和结果为概念,为了获:即学习的目标和结果为概念,为了获得概念的一种学习。如示例学习得概念的一种学习。如示例学习n规则学习规则学习:即学习的目标和
15、结果为规则,为了获:即学习的目标和结果为规则,为了获得规则的一种学习。如决策树学习得规则的一种学习。如决策树学习n函数学习函数学习:即学习的目标和结果为函数,为了获:即学习的目标和结果为函数,为了获得函数的一种学习。如神经网络学习得函数的一种学习。如神经网络学习n类别学习类别学习:即学习的目标和结果为对象类,为了:即学习的目标和结果为对象类,为了获得类别的一种学习。如聚类分析获得类别的一种学习。如聚类分析n贝叶斯网络学习贝叶斯网络学习:即学习的目标和结果是贝叶斯:即学习的目标和结果是贝叶斯网络,为了获得贝叶斯网络的一种学习。又可分网络,为了获得贝叶斯网络的一种学习。又可分为结构学习和参数学习。
16、为结构学习和参数学习。31知识获取与机器学习知识获取与机器学习n知识获取知识获取n机器学习机器学习n知识发现与数据挖掘知识发现与数据挖掘n数据准备数据准备n数据挖掘数据挖掘n解释和评价解释和评价n知识表示知识表示33一、一、知识发现的一般过程知识发现的一般过程二、知识发现的对象二、知识发现的对象n数据库数据库n数据仓库数据仓库 nWebWeb信息信息n图像和视频数据图像和视频数据34三、知识发现的任务三、知识发现的任务n数据总结数据总结n概念描述概念描述n分类分类(classification)n聚类聚类(clustering)n相关性分析相关性分析n偏差分析偏差分析n建模建模35四、知识发现
17、的方法四、知识发现的方法n 统计方法统计方法n 机器学习方法机器学习方法n 粗糙集及模糊集粗糙集及模糊集n 智能计算方法智能计算方法n 可视化可视化36数据挖掘的一般过程数据挖掘的一般过程五、知识发现的应用五、知识发现的应用n银行:聚类(细分)银行:聚类(细分),交叉销售交叉销售n百货公司百货公司/超市:购物篮分析超市:购物篮分析 (关联规则)(关联规则)n保险:细分,交叉销售,流失(原因分析)保险:细分,交叉销售,流失(原因分析)n网络安全:入侵检测网络安全:入侵检测n信用卡:信用卡:欺诈探测,细分欺诈探测,细分n电子商务:网站日志分析电子商务:网站日志分析n税务部门:偷漏税行为探测税务部门:偷漏税行为探测n警察机关:犯罪行为分析警察机关:犯罪行为分析n医学:医学:医疗保健医疗保健 .