1、姜素芳姜素芳第第7章章 数据仓库和数据挖掘数据仓库和数据挖掘本章学习目标本章学习目标了解数据仓库的概念及特点了解数据仓库的概念及特点了解数据挖掘的应用和功能了解数据挖掘的应用和功能熟悉数据挖掘的几种主要技术熟悉数据挖掘的几种主要技术姜素芳姜素芳第第7章章 数据仓库和数据挖掘数据仓库和数据挖掘7.1 数据仓库概述数据仓库概述 7.2 数据挖掘概述数据挖掘概述 7.3 数据挖掘的主要技术数据挖掘的主要技术 7.4 数据仓库和挖掘对数据仓库和挖掘对CRM的影响的影响姜素芳姜素芳第第7章章 数据仓库和数据挖掘数据仓库和数据挖掘7.1 数据仓库概述数据仓库概述 7.2 数据挖掘概述数据挖掘概述 7.3
2、数据挖掘的主要技术数据挖掘的主要技术 7.4 数据仓库和挖掘对数据仓库和挖掘对CRM的影响的影响姜素芳姜素芳什么是数据仓库?什么是数据仓库?7.1.1 数据仓库概念与特点数据仓库概念与特点 始于20世纪80年代初,“数据仓库之父”William H.Inmon。 “数据仓库是在企业管理和决策中面向主题的、集成的、相对稳定的、与时间相关的数据集合,以支持经营管理中的决策。 数据仓库用于支持决策,面向分析型数据处理,不同于企业现有的操作型数据库;数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据。姜素芳姜素芳7.1.1 数据仓库概念与特点数据仓库概念与特点1 1、面向主
3、题、面向主题2 2、集成的数据、集成的数据3 3、数据相对稳定、数据相对稳定4 4、数据仓库的时间相关性、数据仓库的时间相关性特点特点姜素芳姜素芳7.1.1 数据仓库概念与特点数据仓库概念与特点(1)面向主题)面向主题 数据库:面向事务处理任务,各系统分离 数据仓库:按照一定的主题域组织在一起按照一定的主题域组织在一起 主题:用户使用数据仓库进行决策时所主题:用户使用数据仓库进行决策时所关心的重点关心的重点方面方面。针对决策者的数据分析,而不是日常事务的处理,。针对决策者的数据分析,而不是日常事务的处理,因而排除了对决策无用的数据,提供了特定主题的简明因而排除了对决策无用的数据,提供了特定主题
4、的简明视图。是对应企业中某一宏观分析领域所涉及的分析对视图。是对应企业中某一宏观分析领域所涉及的分析对象,是针对某一决策问题而设置的。象,是针对某一决策问题而设置的。姜素芳姜素芳姜素芳姜素芳财务子系统财务子系统销售商分析销售商分析产品分析产品分析销售子系统销售子系统供应子系统供应子系统人力资源子系统人力资源子系统消费者分析消费者分析数据仓库数据仓库生产调度子系统生产调度子系统数据库数据库面向主题面向主题面向事务面向事务姜素芳姜素芳v例如:一个保险公司的数据仓库所组织的主题可例如:一个保险公司的数据仓库所组织的主题可能是:客户、政策、保险金、索赔等,而按应用能是:客户、政策、保险金、索赔等,而按
5、应用来组织则可能是:汽车保险、生命保险、伤亡保来组织则可能是:汽车保险、生命保险、伤亡保险等。险等。姜素芳姜素芳7.1.1 数据仓库概念与特点数据仓库概念与特点(2)集成的数据)集成的数据 从原来分散的多个从原来分散的多个异种数据源异种数据源(关系数据库、文本数据库、(关系数据库、文本数据库、Web数据库、一般文件等)构成的子系统中提取数据。数据库、一般文件等)构成的子系统中提取数据。 原有数据库系统记录的是每一项业务处理的流水账,不适原有数据库系统记录的是每一项业务处理的流水账,不适合分析处理,在进入数据仓库之前必须进行综合、计算,抛弃合分析处理,在进入数据仓库之前必须进行综合、计算,抛弃分
6、析处理不需要的数据项,必要时增加一定的外部数据。分析处理不需要的数据项,必要时增加一定的外部数据。 原分散数据库中有很多重复或不一致的地方,必须消除不原分散数据库中有很多重复或不一致的地方,必须消除不一致和错误,全局统一。一致和错误,全局统一。为何进行数据集成?为何进行数据集成?姜素芳姜素芳7.1.1 数据仓库概念与特点数据仓库概念与特点(3)数据相对稳定)数据相对稳定 数据库:通常定时更新,根据需要变化数据库:通常定时更新,根据需要变化 数据仓库:主要供查询,只读。数据仓库:主要供查询,只读。 从内容上看,存储当前和历史的数据,不是日常事务从内容上看,存储当前和历史的数据,不是日常事务产生的
7、数据,并且当前数据在一定时间间隔后要转换成历产生的数据,并且当前数据在一定时间间隔后要转换成历史数据转存慢速设备,不需要的则删除,因此极少修改。史数据转存慢速设备,不需要的则删除,因此极少修改。火车票销售火车票销售姜素芳姜素芳7.1.1 数据仓库概念与特点数据仓库概念与特点(4)数据仓库的时间相关性)数据仓库的时间相关性 数据仓库中的数据都要表明数据仓库中的数据都要表明时间属性时间属性。通常。通常包包含历史信息含历史信息,记录了企业从过去某一时点(如开始,记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对
8、企业的发展历程和未来趋势通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。为了满足决策分析的需要,做出定量分析和预测。为了满足决策分析的需要,数据仓库的数据存储期限一般为数据仓库的数据存储期限一般为510年,当超过年,当超过数据仓库的存储期限,或对分析不再有用时,这些数据仓库的存储期限,或对分析不再有用时,这些数据将从数据仓库中删去。数据将从数据仓库中删去。姜素芳姜素芳学籍管理系统学籍管理系统 & & 成绩管理系统成绩管理系统姜素芳姜素芳7.1.2 传统数据库与数据仓库传统数据库与数据仓库传统数据库传统数据库数据仓库数据仓库迥异迥异日常业务的自动化处理属于联机事务处理只涉及当前数
9、据,系统积累下的历史业务数据往往被转存到脱机的环境中用于支持高层决策分析属于联机分析处理对自身业务的运作及整个市场相关行业的态势进行分析,做出有利的决策姜素芳姜素芳7.1.2 传统数据库与数据仓库传统数据库与数据仓库联机的事务处理系统异构的外部数据源脱机的历史业务数据数据中心(仓库)datadatadata为分析统计和决策支持应用服务为分析统计和决策支持应用服务姜素芳姜素芳 联机事务处理和联机分析处理联机事务处理和联机分析处理联机联机事务事务处理(处理(OLTP)传统的关系型数据库的核传统的关系型数据库的核心应用。心应用。OLTP:执行:执行基本的增加、删除基本的增加、删除等联机事务和等联机事
10、务和查询查询处理,处理,及时、安全地将当前事务所产生的记录保存下来。几乎及时、安全地将当前事务所产生的记录保存下来。几乎涵盖了组织的大部分日常操作。涵盖了组织的大部分日常操作。SQL语言语言例如:银行交易管理系统中,每天的大量操作都限于增例如:银行交易管理系统中,每天的大量操作都限于增加新账号、删除旧账号、更改账号中的金额数据、查询加新账号、删除旧账号、更改账号中的金额数据、查询客户账号余额等。客户账号余额等。姜素芳姜素芳联机联机分析分析处理(处理(OLAP)数据仓库的核心应用。数据仓库的核心应用。OLAP:针对同一个主题对数据进行:针对同一个主题对数据进行分析、查询和生成分析、查询和生成报表
11、报表,从而快速、交互地得出决策支持的分析结论。,从而快速、交互地得出决策支持的分析结论。基本功能是对用户基本功能是对用户当前及历史当前及历史数据进行分析以辅导领导数据进行分析以辅导领导决策,侧重决策支持,并提供直观易懂的查询结果。决策,侧重决策支持,并提供直观易懂的查询结果。姜素芳姜素芳OLTPOLAP特征特征操作处理操作处理信息处理信息处理面向面向事务事务分析分析用户用户操作人员、低层管理操作人员、低层管理人员人员决策人员、高级管理决策人员、高级管理人员人员功能功能日常操作处理日常操作处理长期信息需求、分析长期信息需求、分析决策决策DB设计设计 面向应用面向应用面向主题面向主题OLTP &
12、OLAP姜素芳姜素芳7.1.3 CRM中数据仓库的结构中数据仓库的结构v 体系结构斯坦福大学的数据仓库体系结构客户应用数据仓库集成器监视器/包装器监视器/包装器监视器/包装信息信息信息姜素芳姜素芳7.1.3 CRM中数据仓库的结构中数据仓库的结构v 体系结构综合的数据仓库的体系结构数据源数据源抽取抽取 清理清理装载装载 刷新刷新数据仓库数据仓库服务服务前端工具前端工具查询工具查询工具报表工具报表工具分析工具分析工具数据挖掘工具数据挖掘工具数据集市数据集市OLAPOLAP主题主题 主题主题主题主题姜素芳姜素芳7.1.3 CRM中数据仓库的结构中数据仓库的结构v 组织结构四个级别当前细节级当前细节
13、级集成集成轻度综合级轻度综合级提取综合提取综合高度综合级高度综合级精炼综合精炼综合早期细节级早期细节级老化的数据老化的数据最近时期的业最近时期的业务数据务数据被转储于磁带被转储于磁带等转换介质等转换介质四个级别四个级别姜素芳姜素芳7.1.3 CRM中数据仓库的结构中数据仓库的结构关于数据的数据关于数据的数据组织仓库内的数据存储,描述何种信息存于何处,怎样组织仓库内的数据存储,描述何种信息存于何处,怎样编码,怎样与其他信息相关,来自哪里,怎样与业务相编码,怎样与其他信息相关,来自哪里,怎样与业务相关。关。元数据对于管理、组织、探索数据非常重要,它能够让元数据对于管理、组织、探索数据非常重要,它能
14、够让用户知道数据仓库有什么,以及如何使用。用户知道数据仓库有什么,以及如何使用。例如:数据仓库表的结构、数据仓库表的属性、数据仓例如:数据仓库表的结构、数据仓库表的属性、数据仓库的元数据、抽取日志。库的元数据、抽取日志。v 组织结构元数据姜素芳姜素芳7.1.3 CRM中数据仓库的结构中数据仓库的结构v 组织结构图高度综合级面向决策人员生产线每月销售轻度综合级面向管理人员中心数据库当前细节级销售细节级操作型转换早期细节级销售细节级子生产线每周销售元数据元数据姜素芳姜素芳7.1.4 数据仓库几个重要概念数据仓库几个重要概念u对数据仓库中数据综合程度的一个度量对数据仓库中数据综合程度的一个度量 粒度
15、越高,综合程度越高,细节程度越低粒度越高,综合程度越高,细节程度越低 粒度越低,综合程度越低,细节程度越高粒度越低,综合程度越低,细节程度越高u将将近期近期的、的、综合综合的、查询的、查询频率高频率高的的高粒度高粒度数据存放于磁盘、数据存放于磁盘、光盘等光盘等快速快速设备设备u将将久远久远的、的、细节细节的、查询的、查询频率低频率低的的低粒度低粒度数据存放于磁带数据存放于磁带等等低速低速设备设备姜素芳姜素芳7.1.4 数据仓库几个重要概念数据仓库几个重要概念u将数据分散到各自的物理单元中,以便能分别地、将数据分散到各自的物理单元中,以便能分别地、独立地处理,提高效率。独立地处理,提高效率。u数
16、据分割时可以依据不同的标准,如日期、地域数据分割时可以依据不同的标准,如日期、地域或业务领域等,也可以是它们的组合,一般按日或业务领域等,也可以是它们的组合,一般按日期分割不可或缺。期分割不可或缺。u数据分割后的数据单元称为分片,各个分片内的数据分割后的数据单元称为分片,各个分片内的数据独立,处理和重构、监控等操作更容易。数据独立,处理和重构、监控等操作更容易。姜素芳姜素芳7.1.4 数据仓库几个重要概念数据仓库几个重要概念u是数据仓库的一个子集,只包含公司业务某一方面的数据是数据仓库的一个子集,只包含公司业务某一方面的数据子集。子集。u数据集市的目标是把不同的数据提供给不同的用户。数据集市的
17、目标是把不同的数据提供给不同的用户。u数据集市在物理上独立,被布局在局域网的一个单独的数数据集市在物理上独立,被布局在局域网的一个单独的数据服务器上,专门为某一类特定用户服务,以满足只对数据服务器上,专门为某一类特定用户服务,以满足只对数据仓库中一部分数据感兴趣的用户的分析需求。据仓库中一部分数据感兴趣的用户的分析需求。姜素芳姜素芳7.1.5 数据仓库的主要技术数据仓库的主要技术1.联机分析处理联机分析处理(OLAP)(1)MOLAP 多维联机分析处理。以多维数据仓库为核心,以多维方多维联机分析处理。以多维数据仓库为核心,以多维方式存储和显示数据。在多维数据存储式存储和显示数据。在多维数据存储
18、“超立方块超立方块”的结的结构技术上使用各种报表技术。当用户发出请求时,从多构技术上使用各种报表技术。当用户发出请求时,从多维立方体中而不是数据仓库中取得数据,多维数据的处维立方体中而不是数据仓库中取得数据,多维数据的处理速度快。理速度快。 综合数据多,不能存储大量细节数据,粒度不会太细。综合数据多,不能存储大量细节数据,粒度不会太细。 技术较新,处理大规模数据能力较弱等,接口不统一。技术较新,处理大规模数据能力较弱等,接口不统一。姜素芳姜素芳(2)ROLAP: 关系型联机分析处理,以数据仓库为核心,关系型联机分析处理,以数据仓库为核心, 不生成多不生成多维立方体,知识存储数据模型与数据仓库之
19、间的映射关维立方体,知识存储数据模型与数据仓库之间的映射关系,真正存储在数据仓库。当用户发出请求时,从数据系,真正存储在数据仓库。当用户发出请求时,从数据仓库中取得数据,实时分析,增加相应时间,但是节省仓库中取得数据,实时分析,增加相应时间,但是节省空间,且可以具体到细节,另外可直接应用到数据仓库空间,且可以具体到细节,另外可直接应用到数据仓库系统上。系统上。 主打产品。主打产品。姜素芳姜素芳(3)DOLAP:桌面联机分析处理。讲联机分析要用桌面联机分析处理。讲联机分析要用的数据,传输并存储到用户的客户端,用户访问不受的数据,传输并存储到用户的客户端,用户访问不受网络显示。但操作安全性和数据安
20、全性不受保障,也网络显示。但操作安全性和数据安全性不受保障,也不易维护,一般应用于小型项目。不易维护,一般应用于小型项目。(4)HOLAP:混合联机分析。折中方案,根据用户混合联机分析。折中方案,根据用户常用到的维度和测量值的分析,将它们生成多维数据常用到的维度和测量值的分析,将它们生成多维数据库,存储于多维数据库中;与这些维度和测量值相关库,存储于多维数据库中;与这些维度和测量值相关的详细数据,仍然以关系数据的形式保存在仓库中,的详细数据,仍然以关系数据的形式保存在仓库中,既解决速度问题、存储问题,也解决了对详细数据的既解决速度问题、存储问题,也解决了对详细数据的分析问题。分析问题。姜素芳姜
21、素芳2.数据挖掘数据挖掘 数据挖掘时高级应用,当前发展最快最活跃的技术,为决策过程提供强有力的支持。姜素芳姜素芳 思考:思考:v 1.数据仓库的定义及特点v 2.什么是元数据?有何地位?v 3.什么是数据集市?与数据仓库的关系?v 4.什么是粒度?姜素芳姜素芳第第7章章 数据仓库和数据挖掘数据仓库和数据挖掘7.1 数据仓库概述数据仓库概述 7.2 数据挖掘概述数据挖掘概述 7.3 数据挖掘的主要技术数据挖掘的主要技术 7.4 数据仓库和挖掘对数据仓库和挖掘对CRM的影响的影响姜素芳姜素芳姜素芳姜素芳(1)什么是数据挖掘?7.2.1 数据挖掘的定义数据挖掘的定义v数据挖掘(Data Mining
22、)是从大型数据库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知、潜在有用的信息,提取的知识表示为概念、规则、规律和模式等形式。挖掘对象不仅是数据库,还可能是文件系统或其他任何组织在一起的数据集合。v 从大量的数据中,抽取出潜在的、有价值的知识、模型或规则的过程。姜素芳姜素芳 (2)数据与知识 数据原始事实组成,有数值数据、图形数据、声 音数据和视觉数据等。 知识概念、规则、模式、规律和约束等源源泉泉姜素芳姜素芳l 广义知识数据的概括性描述,反映事物共同性质l 关联知识一个事件与其他时间之间依赖或关联的知识l 分类知识同类事物具有共同的特征和不同事物之间存在差异性特征的知识l 预测知识
23、根据时间序列性数据,用历史的和当前的数据区推测未来的数据,以时间为关键属性的关联知识l 偏差性知识对差异和极端特例的描述,揭示事物偏离常规的异常现象姜素芳姜素芳7.2.2在数据仓库进行的数据挖掘在数据仓库进行的数据挖掘数据仓库和数据挖掘的关系 v 数据仓库是基础,数据挖掘是高级应用v 两者需整体规划、分步实施优势 v 已经完成对数据抽取、清洗、转换和装载,节省时间。v 数据集成度和综合性高v 历史数据丰富姜素芳姜素芳基于数据仓库中的数据挖掘基于数据仓库中的数据挖掘数据仓库数据仓库各分公司各分公司数据集市数据集市分析分析数据集市数据集市数据挖掘数据挖掘数据集市数据集市数据数据姜素芳姜素芳7.2.
24、3 数据挖掘的功能数据挖掘的功能功能一:自动预测趋势和行为ATM设置地点姜素芳姜素芳功能二:关联分析沃尔玛的购物篮分析姜素芳姜素芳功能三:聚类亚马逊网站Amazon姜素芳姜素芳功能四:概念描述 销售经理按照客户居住区域进行分组汇总,观察销售经理按照客户居住区域进行分组汇总,观察每组客户的购买频率和客户的收入。每组客户的购买频率和客户的收入。功能五:偏差检测 饭卡某天异常刷了饭卡某天异常刷了200元元姜素芳姜素芳7.2.4 CRM中的数据挖掘流程中的数据挖掘流程确定问题和明确目标建立营销数据库为建模准备数据数据挖掘模型的建立评价模型将数据挖掘运用到CRM方案中探索数据为建立模型选择变量;从数据中
25、选取一个样本来建立模型;转换变量,与算法一致。投资回收率、收益等姜素芳姜素芳第第7章章 数据仓库和数据挖掘数据仓库和数据挖掘7.1 数据仓库概述数据仓库概述 7.2 数据挖掘概述数据挖掘概述 7.3 数据挖掘的主要技术数据挖掘的主要技术 7.4 数据仓库和挖掘对数据仓库和挖掘对CRM的影响的影响姜素芳姜素芳7.3 数据挖掘的主要技术数据挖掘的主要技术v决策树决策树vID3ID3算法算法v神经网络神经网络v遗传算法遗传算法姜素芳姜素芳 决策树:对贷款申请的风险大小做出判断决策树:对贷款申请的风险大小做出判断低风险工作时间10年是否高负债收入20万高风险高风险低风险YNNNYY决策树的规模大小决定
26、了数据挖掘的效率。根节点根节点叶子叶子7.3.1 决策树决策树姜素芳姜素芳v执行语句 If(income20) if(working life10 ) ; ; else ;姜素芳姜素芳7.3.2 ID3算法算法ID3算法:解决两类人群的问题算法:解决两类人群的问题头发颜色红色金色黑色第一类人眼睛颜色第二类人黑色灰色蓝色第一类人第三类人第二类人(X.Q)(X.Q)姜素芳姜素芳7.3.3 神经网络神经网络312456输入层输入层隐含层隐含层输出层输出层预测变量预测变量目标变量目标变量连接连接 节点节点 W56W36W25W24W23W13W15W14W46姜素芳姜素芳节点:对应于人脑的神经细胞连接
27、:对应于人脑神经细胞的连接隐含层的层数和每层节点的个数决定了神经网络的复杂度。每个连接对应一个权重,此节点的值=它所有的输入节点的值与对应连接权重乘积的和。神经网络相互之间的差别也是通过连接权值及组成结构上的差别来体现的,每次出现错误时,修改的就是连接权值。神经网络神经网络姜素芳姜素芳带权重的神经网络带权重的神经网络节点节点3到节点到节点6的值?的值?忠诚区域年龄呼叫率 WXYWXYWXY业务流失姜素芳姜素芳神经网络的优点: 对于复杂问题也有好效果 处理种类和连续变量缺点: 输入值需要再01之间 不能解释结果 可能会产生一个不好的结果 耗时,前期数据处理工作量大 神经网络神经网络姜素芳姜素芳7
28、.3.4 遗传算法遗传算法遗传算法遗传算法关键算子:繁殖算子、交叉算子、变异算子关键算子:繁殖算子、交叉算子、变异算子执行过程:执行过程:P158 图图7-9应用:数据聚类应用:数据聚类姜素芳姜素芳第第7章章 数据仓库和数据挖掘数据仓库和数据挖掘7.1 数据仓库概述数据仓库概述 7.2 数据挖掘概述数据挖掘概述 7.3 数据挖掘的主要技术数据挖掘的主要技术 7.4 数据仓库和挖掘对数据仓库和挖掘对CRM的影响的影响 姜素芳姜素芳7.4 数据仓库和挖掘在数据仓库和挖掘在CRM中的应用中的应用姜素芳姜素芳n 提供个性化服务:移动电话信号中断n 事件营销:65岁老太太的大举动(自动发现和汇报)数据仓
29、库重要性数据仓库重要性姜素芳姜素芳数据挖掘数据挖掘v 新客户获取v 交叉销售v 客户保持v 客户个性化服务v 重点客户发现数据挖掘重要性数据挖掘重要性姜素芳姜素芳v新客户获取 新客户:以前没听说过本企业产品的人 以前不需要该类产品的人 竞争对手的客户方法:根据客户信息和他们的市场反应行为模式辨别潜在客户群,完成潜在客户的筛选工作,与CRM中的销售自动化模块相结合,由数据挖掘技术得出的潜在客户名单和这些客户可能感兴趣的优惠措施结合起来。姜素芳姜素芳v交叉销售定义:向原有客户销售新的产品或服务的过程。方法:利用数据挖掘,根据客户的历史行为信息进行建模,依据建立的客户预测模型对客户的可能反应进行评分
30、,与CRM中的营销自动化模块结合,有针对性地向客户推荐新产品或新服务,实现交叉销售。姜素芳姜素芳v客户保持客户类别:无价值或低价值的客户; 不会轻易流失的有价值的客户; 寻找更优价格和更好服务的有价值的客户。方法:通过数据挖掘可以依据历史信息建立客户流失预测模型,发现易流失的客户,与CRM中的客户服务自动化模块结合,针对易流失客户的具体需求,采取措施。姜素芳姜素芳v客户个性化服务 利用数据挖掘对客户进行细分,把大量的客户分成不同的类,每个类里的客户拥有相似的属性,对属于同一类的客户采用相同的个性化服务。 分类属性:性别、居住地域、收入、行为方式等姜素芳姜素芳v重点客户发现数据收集(数据仓库):个人基本信息、爱好等 进行建模(数据挖掘):对客户未来的行为进行预测对数据进行评分:计算客户未来盈利能力的变化和客户忠诚度的变化根据得分发现重点客户:与客户服务自动化模块相结合,有针对性地向重点客户采取特殊的服务策略姜素芳姜素芳 1.数据挖掘的定义?与数据仓库的关系? 2.数据挖掘的主要功能有哪些? 3.数据挖掘的主要技术有哪些? 4.数据挖掘可以用于哪些领域?姜素芳姜素芳案例案例1:数据挖掘及其在信用卡风险控制中的应用数据挖掘及其在信用卡风险控制中的应用案例案例2:“数据挖掘数据挖掘”让美国汇丰银行赢利更多让美国汇丰银行赢利更多