1、第第1章章 数据仓库与数据挖掘概述数据仓库与数据挖掘概述第一章 数据仓库与数据挖掘概述1.1数据库与数据仓库1.2数据分析与数据挖掘1.3商务智能1.1数据库与数据仓库数据库与数据仓库1.1.1 数据的层次性数据的层次性 39摄氏度摄氏度体温体温1.1数据库与数据仓库数据库与数据仓库1.1.1 数据的层次性数据的层次性 石家庄2021年7月1日气温39摄氏度石家庄(1971年-2021年)7月平均气温39摄氏度1.1数据库与数据仓库数据库与数据仓库1.1.1 数据的层次性数据的层次性 知识知识信息信息数据数据数据是信息的载体,数据是信息的载体,信息是数据的内涵信息是数据的内涵客观事物的数量、属
2、客观事物的数量、属性、位置及其相互关性、位置及其相互关系进行抽象表示系进行抽象表示反应了客观世界的规反应了客观世界的规律性,与决策相关律性,与决策相关1.1数据库与数据仓库数据库与数据仓库1.1.1 数据的层次性数据的层次性 清明时节雨纷纷清明时节雨纷纷立夏耕田立夏耕田 小满灌水小满灌水 芒种看果芒种看果 夏至看禾夏至看禾 小暑谷熟小暑谷熟 大暑忙收大暑忙收1.1数据库与数据仓库数据库与数据仓库1.1.1 数据的层次性数据的层次性 石家庄哪种病的死亡率石家庄哪种病的死亡率最高?最高?1.1数据库与数据仓库数据库与数据仓库1.1.1 数据的层次性数据的层次性 1.1数据库与数据仓库数据库与数据仓
3、库1.1.2数据仓库出现的原因数据仓库出现的原因 数据库存在的问题数据量增长迅速,处理复杂问题的性能下降明显存在信息孤岛现象,异构环境的数据转换和共享困难数据主要面向事务处理,缺少对决策和数据分析的支撑1.1数据库与数据仓库数据库与数据仓库1.1.2数据仓库出现的原因数据仓库出现的原因 传统数据库在当前数据量增长迅速、经营管理中决策支持、数据分析要求越来越高的背景下,越来越力不从心,无法担当作为大规模数据综合分析平台的重任,管理决策任务需要有一种新的理论、技术和工具来提供支持,这就是数据仓库。1.1数据库与数据仓库数据库与数据仓库1.1.3 数据仓库的概念数据仓库的概念 数据仓库是面向主题的、
4、集成的、随时间变化的、非易失的数据集合,用于支持管理层的决策过程。是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合1.1数据库与数据仓库数据库与数据仓库1.1.3 数据仓库的概念数据仓库的概念 面向主题:数据仓库以支持管理层的决策为目的,围绕着某些具体的分析主题而组织数据组合起来,共同形成对该对象的较为完整、一致、准确的描述,这一被描述的对象就是“主题”确定了主题之后,就应对业务数据库的内容加以组织归类。1.1数据库与数据仓库数据库与数据仓库1.1.3 数据仓库的概念数据仓库的概念 数据集成性:数据
5、仓库中数据的集成性,是指在构建数据仓库的过程中,多个外部数据源内格式不同、定义各异的数据,按既定的策略经过抽取、清洗、转换等一系列处理,最终构成一个有机的整体。1.1数据库与数据仓库数据库与数据仓库1.1.3 数据仓库的概念数据仓库的概念 数据集成性:数据仓库从业务数据库中获取数据后,并不直接将其导入,而是进行一系列的预处理工作,即对数据进行筛选、清洗和转换、综合等工作(ETL),以解决数据中存在的问题。1.1数据库与数据仓库数据库与数据仓库1.1.3 数据仓库的概念数据仓库的概念 数据非易失性:数据按照业务要求在操作型数据库系统产生、更新、删除和查询。但是数据仓库则体现出一种不同数据的特性。
6、数据被装载(load)到数据仓库后,被打上一个时间戳。数据仓库中的这个数据代表了在某一时刻业务数据库中对应数据项的描述,可以称之为数据快照。虽然随着时间的流逝,在实际业务中这个数据字段可能早已发生变化,但是在数据仓库中,该数据仍代表在这个时间戳时刻,该数据项的值,不会随着后续装载进来的新数据而发生变化。1.1数据库与数据仓库数据库与数据仓库1.1.3 数据仓库的概念数据仓库的概念 数据随时间变化:数据的时变性,是指数据仓库的内容随时间的变化而不断得到增补、更新。正如上面谈到非易失性时说的,数据仓库对导入其中的数据给定一个时间戳,使之成为一个描述特定时刻特征的数据快照。数据时变性的实质,就是指数
7、据仓库中的数据能利用快照数据,形成历史数据的轨迹,描述业务随时间变化的情况1.1数据库与数据仓库数据库与数据仓库1.1.3 数据仓库的概念数据仓库的概念 事务处理环境不适于决策支持应用:要提高分析和决策的效率和有效性,就必须把分析型数据从事务处理环境中提取出来,按照决策支持处理的需要进行重新组织,建立单独的分析处理环境。也就是说,分析型处理及其数据必须与操作型处理及其数据相分离。数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。1.1数据库与数据仓库数据库与数据仓库1.1.4 数据仓库与数据库的差异数据仓库与数据库的差异 1.1数据库与数据仓库数据库与数据仓库1.1.5数
8、据仓库的商业应用数据仓库的商业应用 新一代的商业模式则侧重于客户的需求,以客户为中心,以需求定制产品。有了数据仓库后,企业可以通过大量的、各方各面的数据分析客户是谁,他喜欢什么样的产品和服务,应该如何提供更好的产品和服务给他,并以此创造更多利润。零售业、电信、银行等,在中国邮政如何应用。1.2数据分析与数据挖掘数据分析与数据挖掘1.2.1数据挖掘概念数据挖掘概念 数据挖掘早期在人工智能(Artificial Intelligence,AI)中被称为知识发现(Knowledge Discovery in Database,KDD),指的是从大量数据中寻找未知的、有价值的模式或规律等知识的过程。1
9、.2数据分析与数据挖掘数据分析与数据挖掘1.2.1数据挖掘概念数据挖掘概念 知识发现过程数据清洗(Data Cleaning):清除噪声数据、不一致的数据和与挖掘主题明显无关的数据;数据集成(Data Integration):将来自多数据源中的相关数据整合到一起,形成一致的、完整的数据描述;数据转换(Data Transform):通过汇总或聚集将数据转换为易于进行数据挖掘的数据存储形式;数据挖掘(Data Mining):知识发现的一个基本步骤,利用智能方法挖掘模式、规则、网络等知识;模式评估(Pattern Evaluation):根据一定评估标准或度量(Measure)从挖掘结果中筛选
10、出有意义的知识;知识表示(Knowledge Representation):利用可视化和知识表示技术,向用户展示所挖掘出的相关知识。1.2数据分析与数据挖掘数据分析与数据挖掘1.2.1数据挖掘概念数据挖掘概念 数据挖掘系统结构1.2数据分析与数据挖掘数据分析与数据挖掘1.2.2数据挖掘商业流程数据挖掘商业流程 数据商务环境下的数据挖掘过程主要划分为以下过程:商业理解、数据理解、数据准备、建立模型、模型评估、模型发布。1.2数据分析与数据挖掘数据分析与数据挖掘1.2.2数据挖掘商业流程数据挖掘商业流程 商业理解确定商业目标 分析项目背景、具体商业目标 如何定义项目成功进行形势评估 描述项目拥有
11、的资源、需求的资源和限制、项目风险 可能的偶发因素、成本与收益确定数据挖掘目标 该目标应具有可评估性和可实现性 定义数据挖掘成功的标准 制定项目计划,描述和评估需使用的工具、方法 1.2数据分析与数据挖掘数据分析与数据挖掘1.2.2数据挖掘商业流程数据挖掘商业流程 数据理解收集原始数据,撰写数据收集报告,说明数据来源完成数据描述报告完成数据的探索性分析报告,说明业务数据的基本情况撰写数据质量报告,说明数据基本质量,如空缺值情况、字段完整率。1.2数据分析与数据挖掘数据分析与数据挖掘1.2.2数据挖掘商业流程数据挖掘商业流程 数据准备根据业务理解和挖掘目标,在已得到的数据集中确定挖掘时要包含(或
12、去除)的数据根据数据探索性分析报告和质量报告,设计数据清洗方案,撰写数据清洗报告根据现有数据字段设计数据重构方案,生成新的字段;整合相关数据格式化数据,使之适合于后续分析1.2数据分析与数据挖掘数据分析与数据挖掘1.2.2数据挖掘商业流程数据挖掘商业流程 建立模型从商业理解和可用的数据出发选择挖掘算法使用快速挖掘工具建立模型调整模型,分析模型结果,通过和预期结果比较分析、修订模型参数得到模型结果,整理挖掘结论1.2数据分析与数据挖掘数据分析与数据挖掘1.2.2数据挖掘商业流程数据挖掘商业流程 模型评估结果评估,结合商业理解评估挖掘结果,描述商业结论与管理、营销人员沟通,确定下一步的工作,做出决
13、策是否结束模型调整。1.2数据分析与数据挖掘数据分析与数据挖掘1.2.2数据挖掘商业流程数据挖掘商业流程 结果发布设计模型维护计划及方案撰写最终的数据挖掘报告项目总结1.2数据分析与数据挖掘数据分析与数据挖掘1.2.3数据挖掘典型应用数据挖掘典型应用 客户细分客户细分客户获得客户获得客户保持客户保持交叉销售交叉销售个性服务个性服务资源优化资源优化异常事异常事件确定件确定1.2数据分析与数据挖掘数据分析与数据挖掘1.2.4基于电子商务数据挖掘技术基于电子商务数据挖掘技术 Web挖掘技术:内容挖掘、结构挖掘、使用模式挖掘等能够预测客户的消费趋势,市场的走向,指导企业建设个性化智能网站提供个性化服务
14、1.2数据分析与数据挖掘数据分析与数据挖掘1.2.5典型的数据挖掘方法典型的数据挖掘方法 关联分析:关联规则表示如XY形式,含义是数据库的某记录中如果出现了X情况,则也会出现Y的情况。这个写法与数据库中的函数依赖一致,但表述的则是数据库中记录的实际购买行为。一个数据挖掘系统可以从一个商场的销售(交易事务处理)记录数据中,挖掘出如下所示的关联规则:该商场有2%的顾客同时购买了土豆和苹果,但购买土豆的人中有60%购买了苹果 土豆苹果【support=2%,confidence=60%】1.2数据分析与数据挖掘数据分析与数据挖掘1.2.5典型的数据挖掘方法典型的数据挖掘方法 分类:根据已有的实例建立
15、一个模型,使之能够识别对象所属类别,该模型可以用于将未定类别的对象划分到已知类别的工作该典型的分类应用在商业中的客户识别、老客户维系、新客户获取等方面在河北省内,年龄在25岁到35岁的男士,且月收入在6000-10000之间,最有可能购买2013款的大众CC1.2数据分析与数据挖掘数据分析与数据挖掘1.2.5典型的数据挖掘方法典型的数据挖掘方法 聚类:根据最大化簇内的相似性、最小化簇间的相似性的原则将数据对象聚类或分组,所形成的每个簇可以看作一个数据对象类该聚类分析与分类预测方法明显不同之处在于,后者所学习获取分类预测模型所使用的数据是已知类别归属,属于有教师监督学习方法;而聚类分析(无论是在
16、学习还是在归类预测时)所分析处理的数据均是无(事先确定)类别归属,类别归属标志在聚类分析处理的数据集中是不存在的1.2数据分析与数据挖掘数据分析与数据挖掘1.2.5典型的数据挖掘方法典型的数据挖掘方法 时间序列模式:时间序列模式侧重于挖掘出数据的前后时间顺序关系,分析是否存在一定趋势,以预测未来的访问模式顾客购买商品A,接着购买商品B,而后购买商品C,即“序列A-B-C出现的频率较高”1.3商务智能商务智能商务智能是多项技术交叉在一起的复合应用,即将数据、信息成功地转化为决策知识,提供一种决策的辅助手段。商务智能还是一套完整的解决方案。它是将数据仓库、联机分析处理和数据挖掘等结合起来应用到商业
17、活动中,从不同数据源收集数据,经过抽取、转换和加载的过程,送入到数据仓库。然后使用合适的查询与分析工具、数据挖掘工具和联机分析处理工具对信息进行再处理,将信息转变成为辅助决策的知识,最后将知识呈现于用户面前,以实现技术服务与决策的目的。1.3商务智能商务智能数据仓库与数据挖掘的关系数据挖掘的数据主要来源于数据仓库数据仓库不是数据挖掘的唯一源数据数据仓库和数据挖掘都是决策支持技术1.3商务智能商务智能OLAP在商务智能中还有一项联机分析处理技术(On Line Analysis Processing,0LAP),该技术与数据仓库技术相伴而发展起来,可以看成是数据仓库系统最主要的应用。OLAP作为分析处理数据仓库中海量数据的有效手段,它弥补了数据仓库在直接支持多维数据视图方面的不足。可以这样来看,在数据仓库的基础上,由OLAP技术给业务和管理人员提供了一种从多个不同角度观察和分析数据的能力