1、人工智能人工智能 数据挖掘之数据仓库数据挖掘之数据仓库目目 录录一、什么是数据挖掘?一、什么是数据挖掘?二、什么是数据仓库?数据仓库的特征。二、什么是数据仓库?数据仓库的特征。三、数据仓库设计三、数据仓库设计四、从数据仓库到数据挖掘、从数据仓库到数据挖掘2022年年8月月10日星期三日星期三数据挖掘:概念与技术数据挖掘:概念与技术3什么是数据挖掘数据挖掘数据挖掘(数据库中知识发现数据库中知识发现):从大型数据库中提取有趣的(非平凡的,蕴涵的,先前未知的并且是潜在有用的)信息或模式 数据挖掘:用词不当?其它名称其它名称:数据库中知识发现(Knowledge discovery in databa
2、ses,KDD)知识提取(knowledge extraction)数据/模式分析(data/pattern analysis)数据考古(data archeology)数据捕捞(data dredging)信息收获(information harvesting)商务智能(business intelligence),等.什么不是数据挖掘什么不是数据挖掘?(演绎)查询处理.专家系统 或小型 机器学习(ML)/统计程序2022年年8月月10日星期三日星期三数据挖掘:概念与技术数据挖掘:概念与技术4数据挖掘:在数据中发现知识/模式2022年年8月月10日星期三日星期三数据挖掘:概念与技术数据挖掘:
3、概念与技术5数据挖掘过程数据库数据库文件文件数据数据仓库仓库清理与集成清理与集成选择与变换选择与变换数据挖掘数据挖掘模式评估模式评估知识知识什么是数据仓库用不同的方法定义用不同的方法定义,但不是严格的但不是严格的是一个决策支持数据库,它与组织的操作数据库分离地维护数据仓库系统允许将各种应用系统集成在一起,通过为统一的历史数据分析提供坚实的平台,支持信息处理.数据仓库是一种信息环境,它将各种应用系统集成在一起,提供了企业信息的完整概括,为灵活的、交互的数据分析提供坚实的平台,为决策提供支持.W.H.InmonW.H.Inmon的定义的定义:数据仓库是 面向主题的(subject-oriented
4、),集成的,时变的,和非易失的数据集合,支持管理决策过程建立数据仓库建立数据仓库(Data warehousing):(Data warehousing):构造和使用数据仓库的过程2022-8-10数据仓库与OLAP技术6数据仓库的特征面向主题的面向主题的 (subject-oriented)(subject-oriented)数据仓库围绕一些主题,如顾客、供应商、产品和销售组织数据仓库关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理.数据仓库排除对于决策无用的数据,提供特定主题的简明视图 集成的集成的 (integrated)(integrated)通常,构造数据仓库是将
5、多个异种数据源,如关系数据库、一般文件和联机事务处理记录,集成在一起使用数据清理和数据集成技术,确保命名约定、编关键字结构、属性度量等的一致性 当数据装入数据仓库时,数据将被转换2022-8-10数据仓库与OLAP技术7数据仓库的特征(续)时变的时变的 (time-variant)(time-variant)数据存储从历史的角度(例如过去5-10年)提供信息.操作数据库数据:当前值数据数据仓库中的关键结构,隐式或显式地包含时间元素 非易失的非易失的 (nonvolatile)(nonvolatile)数据仓库总是物理地分离存放数据;这些数据源于操作环境下的应用数据由于这种分离,数据仓库不需要事
6、务处理、恢复和并发控制机制.通常,它只需要两种数据访问操作:数据的初始化装入和数据访问 2022-8-10数据仓库与OLAP技术8如何使用数据仓库中的信息数据仓库用于商务决策活动,包括 增加顾客关注 包括分析顾客购买模式,如喜爱买什么、购买时间、预算周期、消费习惯根据季度、年和地区的营销情况比较,重新配置产品和管理产品的投资,调整生产策略分析运营情况和查找利润源管理顾客关系、进行环境调整、管理公司资产开销 2022-8-10数据仓库与OLAP技术9数据仓库 vs.操作数据库 OLTP(on-line transaction processing,联机事务处理)传统关系 DBMS的主要任务日常事
7、务处理:购买,库存,银行,制造,工资单,注册,记帐等.OLAP(on-line analytical processing,联机分析处理)数据仓库系统的主要任务数据分析和决策制定2022-8-10数据仓库与OLAP技术10数据仓库 vs.操作数据库(续)不同的特点(OLTP vs.OLAP):用户和系统的面向性:顾客顾客 vs.vs.市场市场 OLTP是面向顾客的,用于办事员、客户、和信息技术专业人员的事务和查询处理 OLAP是面向市场的,用于知识工人(包括经理、主管、和分析人员)的数据分析 数据内容:当前的当前的,细节的细节的 vs.vs.历史的历史的,合并的合并的 OLTP系统管理当前数据
8、这种数据太琐碎,很难用于决策 OLAP系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息这些特点使得数据更容易用于决策 2022-8-10数据仓库与OLAP技术11数据仓库 vs.操作数据库(续)2022-8-10数据仓库与OLAP技术12数据仓库设计 数据仓库为商务分析提供了什么数据仓库为商务分析提供了什么 拥有数据仓库可以提供竞争优势 通过提供相关信息,据此测量性能并作出重要调整,以帮助战胜其它竞争对手 数据仓库可以提高企业生产力 因为它能够快速有效地搜集准确描述组织机构的信息 数据仓库有利于顾客的联系管理 因为它跨越所有商务、所有部门和所有市场,提供了顾客和商品
9、的一致视图 数据仓库可以带来费用的降低 通过以一致和可靠的方式长期跟踪趋势、模式和异常2022-8-10数据仓库与OLAP技术13数据仓库设计(续)四种视图四种视图自顶向下视图 使得我们可以选择数据仓库所需的相关信息.这些信息能够满足当前和未来商务的需求 数据源视图 揭示被操作数据库系统捕获、存储和管理的信息 通常,数据源用传统的数据建模技术,如实体-联系模型或CASE 工具建模 数据仓库视图 包括事实表和维表.它们提供存放在数据仓库内部的信息,包括预计算的总和与计数,以及增加的提供历史背景的关于源、原来的日期和时间等信息 商务查询视图 从最终用户的角度透视数据仓库中的数据 2022-8-10
10、数据仓库与OLAP技术14数据仓库设计(续)建立和使用数据仓库是一项复杂的任务,需要商务技巧、技术技巧和程序管理技巧 商务技巧建立数据仓库涉及 理解系统如何存储和管理数据;如何构造一个提取程序,将数据由操作数据库转换到数据仓库;如何构造一个仓库刷新软件,合理地保持数据仓库中的数据相对于操作数据库中数据的当前性 使用数据仓库涉及 理解它所包含的数据的含义 理解商务需求并将它转换成数据仓库查询 2022-8-10数据仓库与OLAP技术15数据仓库设计(续)技术技巧数据分析需要 理解如何由定量信息作出估价 如何根据数据仓库中的历史信息得到的结论推导事实这些技巧包括发现模式和趋势,根据历史推断趋势和发
11、现异常或模式漂移,并根据这种分析提出相应的管理建议的能力 程序管理技巧涉及与许多技术人员、经销商和最终用户交往,以便以及时和合算的方式提交结果 2022-8-10数据仓库与OLAP技术16数据仓库设计(续)数据仓库可以使用自顶向下方法、自底向上方法,或二者结合的混合方法设计自顶向下方法由总体设计和规划开始当技术成熟并且已经掌握,对必须解决的商务问题清楚并且已经很好理解时,这种方法是有用的 自底向上方法以实验和原型开始在商务建模和技术开发的早期阶段,这种方法是有用的混合方法既能利用自顶向下方法的规划和战略特点,又能保持象自底向上方法一样快速实现和立即应用 2022-8-10数据仓库与OLAP技术
12、17数据仓库设计(续)典型的数据仓库设计过程选取待建模的商务处理 例如,订单、发票、出货、库存、记帐管理、销售或一般分类帐 选用数据仓库模型 vs.选择数据集市 选取商务处理的粒度 该粒度是基本的,在事实表中是数据的原子级 例如,单个事务、一天的快照等 选取用于每个事实表记录的维 典型的维是时间、商品、顾客、供应商、仓库、事务类型和状态 选取将安放在事实表中的度量 典型的度量是可加的数值量,如dollars_sold和units_sold 2022-8-10数据仓库与OLAP技术18三层数据仓库结构2022-8-10数据仓库与OLAP技术19三层数据仓库结构(续)底层是仓库数据服务器一般是关系
13、数据库系统 使用后端工具和实用程序,由操作数据库或其他外部数据源(如由外部咨询者提供的顾客侧面信息)提取数据,放入底层 这一层还包括元数据库,存放关于数据仓库和它的内容的信息 中间层是OLAP服务器 关系OLAP(ROLAP)模型 即扩充的关系DBMS,它将多维数据上的操作映射为标准的关系操作多维OLAP(MOLAP)模型 即专门的服务器,它直接实现多维数据和操作顶层是前端客户层包括查询和报告工具、分析工具和/或数据挖掘工具 2022-8-10数据仓库与OLAP技术20三种数据仓库 企业仓库企业仓库 (enterprise warehouse)(enterprise warehouse)搜集了
14、跨越整个组织的关于主题的所有信息提供企业范围内的数据集成 数据集市数据集市 (data mart)(data mart)包含企业范围数据的一个子集,对于特定的用户是有用的根据数据的来源不同,数据集市分为独立的和依赖的两类 独立的数据集市:数据来自一个或多个操作的系统或外部信息提供者,或者来自在一个特定的部门或地域局部产生的数据 依赖的数据集市中的数据直接来自企业数据仓库 虚拟仓库虚拟仓库 (virtual warehouse)(virtual warehouse)是操作数据库上视图的集合.为了有效地处理查询,只有一些可能的汇总视图被物化虚拟仓库易于建立,但需要操作数据库服务器具有剩余能力 20
15、22-8-10数据仓库与OLAP技术21数据仓库开发:一种推荐的方法以递增、进化的方式实现数据仓库 定义一个高层企业数据模型定义一个高层企业数据模型数据数据集市集市分布式分布式数据集市数据集市多层数据仓库多层数据仓库企业数据仓库企业数据仓库模型模型 提炼提炼数据数据集市集市模型提炼模型提炼2022-8-10数据仓库与OLAP技术22数据仓库的使用通常,数据仓库使用时间越长,它进化得越好 数据仓库应用的三种类型信息处理 支持查询,基本统计分析,使用交叉表,表,图表和图进行报告分析处理 数据仓库数据的多维分析 支持基本的 OLAP 操作,切片-切块,上下钻,转轴数据挖掘 隐藏模式的知识发现 支持关
16、联,构造分析模型,进行分类和预测,并使用可视化工具提供挖掘结果.2022-8-10数据仓库与OLAP技术23OLAP与数据挖掘OLAP向数据挖掘走近了一步 它可以由用户选定的数据仓库子集,在多粒度上导出汇总的信息。这种描述等价于类/概念描述 数据挖掘系统能挖掘更一般的类/概念描述 数据挖掘比传统的OLAP前进了一步OLAP是数据汇总/聚集工具,帮助简化数据分析;而数据挖掘自动地发现隐藏在大量数据中的隐含模式和有趣知识 OLAP工具的目标是简化和支持交互数据分析;而数据挖掘工具的目标是尽可能自动处理 OLAP的功能基本上是用户指导的汇总和比较,是数据挖掘的功能;数据挖掘的涵盖面要比简单的OLAP操作宽得多,因为它不仅执行数据汇总和比较,而且执行关联、分类、预测、聚类、时间序列分析和其它数据分析任务 数据挖掘不限于分析数据仓库中的数据 2022-8-10数据仓库与OLAP技术24谢谢欣赏!谢谢欣赏!