数据库课件：第十讲数据挖掘概述 .ppt_163文库

资源描述

1、1第十讲数据挖掘概述本讲讲授目标：本讲讲授目标：1. 数据挖掘基本概念数据挖掘基本概念2. 数据挖掘系统的体系结构数据挖掘系统的体系结构3. 数据挖掘的过程数据挖掘的过程4. 数据挖掘系统的组成数据挖掘系统的组成5. 数据挖掘常用技术数据挖掘常用技术6. 数据挖掘的类型数据挖掘的类型一. 数据挖掘基本概念1. 什么是数据挖掘？ Data Mining 最早定义从现有的大量数据中，获取不明显、之前未知、可能有用的信息。 William Frawley & Gregory Piatetsky Shapiro,1991 目标建立起决策模型（比如哪一类用户对我的产品感兴趣？）根据过去的行动来预

2、测未来的行为一. 数据挖掘基本概念4一. 数据挖掘基本概念保险业保险业银行业银行业政府政府通信业通信业零售业零售业数据数据挖掘挖掘2. 数据挖掘的应用一. 数据挖掘基本概念3. 数据挖掘的发展历程一. 数据挖掘基本概念4. 数据挖掘工具7一. 数据挖掘基本概念5. 数据挖掘的定义数据挖掘的定义又称为数据库中的知识发现，是基于、机器学习、又称为数据库中的知识发现，是基于、机器学习、统计学等技术，高度自动化地分析原有的数据，进行归统计学等技术，高度自动化地分析原有的数据，进行归纳性推理，从数据仓库或数据库等中提取可信的、新颖纳性推理，从数据仓库或数据库等中提取可信的、新颖的、有效的、人们感兴趣的

3、、能被人理解的知识的高级的、有效的、人们感兴趣的、能被人理解的知识的高级处理过程。这些知识是隐含的、事先未知的有用信息，处理过程。这些知识是隐含的、事先未知的有用信息，提取的知识表现为概念、规则、模式、规律等形式，以提取的知识表现为概念、规则、模式、规律等形式，以帮助管理者作出正确的决策。帮助管理者作出正确的决策。模式：它给出了数据特性或数据之间的关系，是对数据所包模式：它给出了数据特性或数据之间的关系，是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中，可以细分为关联模式、式和描述型模式。在实际应用中，可以

4、细分为关联模式、分类模式、聚类模式和序列模式等。分类模式、聚类模式和序列模式等。数据库中的知识发现知识发现过程：属性选择数据清洗属性扩展数据编码数据挖掘形成报告属性选择数据清洗属性扩展数据编码数据编码14二二. 数据挖掘系统的体系结构数据挖掘系统的体系结构（1）DM的步骤：的步骤：l数据准备：数据准备：n数据集成数据集成n数据选择数据选择n预分析预分析l挖掘挖掘l表述表述l评价评价（2）DM系统的结构：系统的结构：用户界面用户界面结果输出结果输出数据挖掘核心数据挖掘核心知识库知识库数据仓库数据仓库数据库数据库文件系统文件系统其他其他数据源数据源ODBC或其他专用数据库接口或其他专

5、用数据库接口三三. 数据挖掘的过程数据挖掘的过程取样（Sample）输入数据源、数据分块，取样探索（Explore）数据分布情况, 关联分析, 变量选择, 修改（Modify）异常过滤, 属性变换, 属性选择, 建立模型（Model）决策树, 神经网络, 回归, 聚类, 关联, 评估（Assess）评估、打分、结果呈现16三三. 数据挖掘的过程数据挖掘的过程又可分为四个阶段：又可分为四个阶段：1. 数据准备阶段：经过处理过的数据一般存数据准备阶段：经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最将影

6、响到数据挖掘的效率和准确度以及最终模式的有效性。包括：终模式的有效性。包括：n 数据的选择：选择相关的数据数据的选择：选择相关的数据n 数据的净化：消除噪音、冗余数据数据的净化：消除噪音、冗余数据n 数据的推测：推算缺失数据数据的推测：推算缺失数据n 数据的转化：离散值数据与连续值数据之间数据的转化：离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之的相互转换、数据值的分组分类、数据项之间的计算组合等间的计算组合等n 数据的缩减：减少数据量数据的缩减：减少数据量17三三. 数据挖掘的过程数据挖掘的过程2. 挖掘阶段：该阶段是数据挖掘的核心步骤，挖掘阶段：该阶段是数据挖掘的核心步骤

7、，也是技术难点所在。根据数据挖掘的目标，也是技术难点所在。根据数据挖掘的目标，采用人工智能、集合论、统计学等方法，采用人工智能、集合论、统计学等方法，应用相应的数据挖掘算法，分析数据并通应用相应的数据挖掘算法，分析数据并通过可视化工具表述所获得的模式或规则。过可视化工具表述所获得的模式或规则。18三三. 数据挖掘的过程数据挖掘的过程3. 评价阶段：在数据挖掘中得到的模式可能评价阶段：在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的，也有是没有实际意义或没有使用价值的，也有可能不能准确反映数据的真实意义，甚至可能不能准确反映数据的真实意义，甚至在某些情况下是与事实相反的，因此需要在某些情

8、况下是与事实相反的，因此需要评估，确定哪些是有效的、有用的模式。评估，确定哪些是有效的、有用的模式。评估可以根据用户多年的经验，有些模式评估可以根据用户多年的经验，有些模式也可以直接用数据来检验其准确性。也可以直接用数据来检验其准确性。19三三. 数据挖掘的过程数据挖掘的过程4. 巩固和运用阶段：用户理解的、并被认为巩固和运用阶段：用户理解的、并被认为是符合实际和有价值的模式形成了知识。是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查，解决与同时还要对知识进行一致性检查，解决与以前得到的知识互相冲突、矛盾的地方，以前得到的知识互相冲突、矛盾的地方，使知识得到巩固。使知识得到巩固

9、。运用知识有两种方法：一种是只需看知识运用知识有两种方法：一种是只需看知识本身所描述的关系或结果，就可以对决策本身所描述的关系或结果，就可以对决策提供支持；另一种是要求运用知识对新的提供支持；另一种是要求运用知识对新的数据进行分析，由此可能产生新的问题，数据进行分析，由此可能产生新的问题，而需要对知识作进一步的优化。而需要对知识作进一步的优化。20四. 数据挖掘系统的组成数据挖掘系统的组成数据挖掘系统可以采用三层的数据挖掘系统可以采用三层的C/S结构：结构：第一层：为图形用户界面，位于系统的客户端；第一层：为图形用户界面，位于系统的客户端；第二层：为数据挖掘引擎，它是数据挖掘系统第二层

10、：为数据挖掘引擎，它是数据挖掘系统的核心，位于系统的应用服务器端；的核心，位于系统的应用服务器端；第三层：为数据库与数据仓库，位于数据服务第三层：为数据库与数据仓库，位于数据服务器端。器端。21数据挖掘系统的组成数据挖掘系统的组成图形用户界面图形用户界面该模块实现用户与数据挖掘系统之间的通该模块实现用户与数据挖掘系统之间的通信，允许用户与系统交互。用户可以通过信，允许用户与系统交互。用户可以通过图形化界面指定数据挖掘任务、输入有关图形化界面指定数据挖掘任务、输入有关信息，根据系统以可视化形式输出的数据信息，根据系统以可视化形式输出的数据挖掘的中间结果进行探索式的数据挖掘。挖掘的中间结果进行

11、探索式的数据挖掘。此外，该模块还提供用户浏览数据库和数此外，该模块还提供用户浏览数据库和数据仓库模式或数据结构、评价数据挖掘的据仓库模式或数据结构、评价数据挖掘的模式等功能。模式等功能。22数据挖掘系统的组成数据挖掘系统的组成数据挖掘引擎数据挖掘引擎数据挖掘引擎是数据挖掘系统最基本、最数据挖掘引擎是数据挖掘系统最基本、最重要的部分，是数据挖掘系统的核心。该重要的部分，是数据挖掘系统的核心。该部分由一系列功能模块组成，分别用于关部分由一系列功能模块组成，分别用于关联规则挖掘、分类规则挖掘、聚类规则挖联规则挖掘、分类规则挖掘、聚类规则挖掘、时序与序列数据挖掘和掘、时序与序列数据挖掘和WEB数据

12、挖掘数据挖掘等。等。23数据挖掘系统的组成数据挖掘系统的组成数据库与数据仓库数据库与数据仓库该部分位于数据服务器端，包括数据库、该部分位于数据服务器端，包括数据库、知识库、文件系统、其他数据源以及存放知识库、文件系统、其他数据源以及存放经过数据准备提取和集成后数据的数据仓经过数据准备提取和集成后数据的数据仓库。在知识库中存放领域知识，用于搜索库。在知识库中存放领域知识，用于搜索和对模式进行评价。和对模式进行评价。数据库与数据仓库服务器的功能是根据用数据库与数据仓库服务器的功能是根据用户的数据挖掘请求，提取相应的数据供数户的数据挖掘请求，提取相应的数据供数据挖掘引擎使用。据挖掘引擎使用。24

13、五. 数据挖掘常用技术数据挖掘常用技术生物学方法生物学方法人工神经网络人工神经网络遗传算法遗传算法信息论方法信息论方法决策树决策树集合论方法集合论方法约略集约略集模糊集模糊集最邻近技术最邻近技术统计学方法统计学方法回归统计回归统计贝叶斯分类贝叶斯分类可视化技术可视化技术25六. 数据挖掘的类型数据挖掘的类型数据挖掘的任务是从大量的数据中发现模式。根数据挖掘的任务是从大量的数据中发现模式。根据数据挖掘的任务可分为多种类型，其中比较典据数据挖掘的任务可分为多种类型，其中比较典型的有：型的有：预测模型预测模型关联分析关联分析分类分析分类分析聚类分析聚类分析序列分

14、析序列分析偏差检测偏差检测模式相似性挖掘模式相似性挖掘 Web数据挖掘数据挖掘26预测模型预测模型预测模型（预测模型（Predictive Modeling）：所谓预测即）：所谓预测即从数据库或数据仓库中已知的数据推测未知的数从数据库或数据仓库中已知的数据推测未知的数据或对象集中某些属性的值分布。据或对象集中某些属性的值分布。建立预测模型的常用方法：建立预测模型的常用方法：回归分析回归分析线性模型线性模型关联规则关联规则决策树预测决策树预测遗传算法遗传算法神经网络神经网络27关联分析关联分析关联（关联（Association）分析：关联规则描述了一组数据项）分析：关联规则

15、描述了一组数据项之间的密切度或关系。关联分析用于发现项目集之间的关之间的密切度或关系。关联分析用于发现项目集之间的关联。在关联规则挖掘算法中，通常给出了置信度和支持度联。在关联规则挖掘算法中，通常给出了置信度和支持度两个概念，对于置信度和支持度均大于给定阈值的规则称两个概念，对于置信度和支持度均大于给定阈值的规则称为强规则，而关联分析主要就是对强规则的挖掘。为强规则，而关联分析主要就是对强规则的挖掘。关联规则挖掘近几年研究较多。现在，关联规则的挖掘已关联规则挖掘近几年研究较多。现在，关联规则的挖掘已经从单一概念层次关联规则的发现发展到多概念层次的关经从单一概念层次关联规则的发现发展到多概念层

16、次的关联规则的发现，并把研究的重点放在提高算法的效率和规联规则的发现，并把研究的重点放在提高算法的效率和规模可收缩性上。它广泛地运用于帮助市场导向、商品目录模可收缩性上。它广泛地运用于帮助市场导向、商品目录设计客户关系管理）（设计客户关系管理）（CRM）和其他各种商业决策过程）和其他各种商业决策过程中。中。关联分析算法：关联分析算法：APRIORI算法、算法、DHP算法、算法、DIC算法、算法、PARTITION算法及它们的各种改进算法等。另外，对于算法及它们的各种改进算法等。另外，对于大规模、分布在不同站点上的数据库或数据仓库，关联规大规模、分布在不同站点上的数据库或数据仓库，关联规则的挖

17、掘可以使用并行算法，如：则的挖掘可以使用并行算法，如：Count分布算法、分布算法、Data分布算法、分布算法、Candidate 分布算法、智能分布算法、智能Data分布算法分布算法（IDD）和）和DMA分布算法等。分布算法等。28分类分析分类分析分类（分类（Classification）分析：所谓分类是根据数据的特）分析：所谓分类是根据数据的特征为每个类别建立一个模型，根据数据的属性将数据分配征为每个类别建立一个模型，根据数据的属性将数据分配到不同的组中。在实际应用过程中，分类规则可以分析分到不同的组中。在实际应用过程中，分类规则可以分析分组中数据的各种属性，并找出数据的属性模型，从而确

18、定组中数据的各种属性，并找出数据的属性模型，从而确定哪些数据属于哪些组。这样就可以利用该模型来分析已有哪些数据属于哪些组。这样就可以利用该模型来分析已有数据，并预测新数据将属于哪一个组。类的描述可以是显数据，并预测新数据将属于哪一个组。类的描述可以是显式的，如用一组特征概念描述；也可以是隐式的，如用一式的，如用一组特征概念描述；也可以是隐式的，如用一个数学公式或数学模型描述。分类分析已经成功地用于顾个数学公式或数学模型描述。分类分析已经成功地用于顾客分类、疾病分类、商业建模和信用卡分析等。客分类、疾病分类、商业建模和信用卡分析等。分类分析的常用方法：分类分析的常用方法：约略（约略（Roug

19、h）集）集决策树决策树神经网络神经网络统计分析法统计分析法29聚类分析聚类分析聚类聚类(Clustering)分析：所谓聚类是指一组彼此间非常分析：所谓聚类是指一组彼此间非常“相似相似”的数据对象的集合。相似的程度可以通过距离函的数据对象的集合。相似的程度可以通过距离函数来表示，由用户或专家指定。聚类分析是按照某种相近数来表示，由用户或专家指定。聚类分析是按照某种相近程度度量方法将数据分成互不相同的一些分组。每一个分程度度量方法将数据分成互不相同的一些分组。每一个分组中的数据相近，不同分组之间的数据相差较大。好的聚组中的数据相近，不同分组之间的数据相差较大。好的聚类方法可以产生高质量的

20、聚类，保证每一聚类内部的相似类方法可以产生高质量的聚类，保证每一聚类内部的相似性很高，而各聚类之间的相似性很低。聚类分析的核心是性很高，而各聚类之间的相似性很低。聚类分析的核心是将某些定性的相近程度测量方法转换成定量测试方法。采将某些定性的相近程度测量方法转换成定量测试方法。采用聚类分析，系统可以根据部分数据发现规律，找出对全用聚类分析，系统可以根据部分数据发现规律，找出对全体数据的描述。体数据的描述。聚类分析的常用方法：聚类分析的常用方法：随机搜索聚类法随机搜索聚类法特征聚类特征聚类 CF树树30序列分析序列分析序列（序列（Sequence）分析：序列分析主要用）分析：序列分析主要用

21、于分析数据仓库中的某类与时间相关的数于分析数据仓库中的某类与时间相关的数据，搜索类似的序列或子序列，并挖掘时据，搜索类似的序列或子序列，并挖掘时序模式、周期性、趋势和偏离等。例如，序模式、周期性、趋势和偏离等。例如，它可以导出类似它可以导出类似“若若AT&T股票连续上涨两股票连续上涨两天且天且DEC股票不下跌，则第三天股票不下跌，则第三天IBM股票股票上涨的可能性为上涨的可能性为75%”的数据关系。序列模的数据关系。序列模式可以看成是一种特定的关联模型，它在式可以看成是一种特定的关联模型，它在关联模型中增加了时间属性。关联模型中增加了时间属性。31偏差检测与模式相似性挖掘偏差检测与模式相似性挖

22、掘偏差检测（偏差检测（Deviation Detection）：用于检测并）：用于检测并解释数据分类的偏差，它有助于滤掉知识发现引解释数据分类的偏差，它有助于滤掉知识发现引擎所抽取的无关信息，也可滤掉那些不合适的数擎所抽取的无关信息，也可滤掉那些不合适的数据，同时可产生新的关注性事实。据，同时可产生新的关注性事实。模式相似性挖掘：用于在时间数据库或空间数据模式相似性挖掘：用于在时间数据库或空间数据库中搜索相似模式时，从所有对象中找出用户定库中搜索相似模式时，从所有对象中找出用户定义范围内的对象；或找出所有元素对，元素对中义范围内的对象；或找出所有元素对，元素对中两者的距离小于用户定义的距离

23、范围。模式相似两者的距离小于用户定义的距离范围。模式相似性挖掘的方法有相似度测量法、遗传算法等。性挖掘的方法有相似度测量法、遗传算法等。32Web数据挖掘数据挖掘 Web数据挖掘：万维网是一个巨大的、分布广泛的和全球数据挖掘：万维网是一个巨大的、分布广泛的和全球性的信息服务中心，其中包含了丰富的超链接信息，为数性的信息服务中心，其中包含了丰富的超链接信息，为数据挖掘提供了丰富的资源。据挖掘提供了丰富的资源。Web数据挖掘包括数据挖掘包括Web使用使用模式挖掘、模式挖掘、Web结构挖掘和结构挖掘和Web内容挖掘等。内容挖掘等。 Web使用模式挖掘：在使用模式挖掘：在Web环境中，文档和对象一般都

24、是通过链环境中，文档和对象一般都是通过链接来便于用户访问。捕捉用户的存取模式或发现一个接来便于用户访问。捕捉用户的存取模式或发现一个Web网站最网站最频繁的访问路径称为频繁的访问路径称为Web使用模式挖掘或使用模式挖掘或Web路径挖掘。路径挖掘。 Web结构挖掘：是挖掘结构挖掘：是挖掘Web的链接结构，并找出关于某一主题的的链接结构，并找出关于某一主题的权威网站。权威网站。 Web内容挖掘：是指在大量训练样本的基础上，得到数据对象之内容挖掘：是指在大量训练样本的基础上，得到数据对象之间的内在特征，并以此为依据进行有目的的信息筛选，从而获得间的内在特征，并以此为依据进行有目的的信息筛选，从而获得指定内容的信息。指定内容的信息。基于基于Web的研究：搜索引擎的设计、文件自动分类技术、的研究：搜索引擎的设计、文件自动分类技术、关键词的自动提取、半结构化信息的提取及关键词的自动提取、半结构化信息的提取及Web上新型应上新型应用的研究等。用的研究等。

展开阅读全文

数据库课件：第十讲 数据挖掘概述 .ppt

数据库课件：第十讲数据挖掘概述 .ppt