1、数据挖掘与知识发现(复杂数据对象的数据挖掘与知识发现)3 数据仓库3 数据挖掘仓库 3.1数据库与数据仓库数据库与数据仓库3.2数据仓库的操作数据仓库的操作3.3数据仓库的概念模型数据仓库的概念模型3.4数据立方体数据立方体3.5数据仓库的结构数据仓库的结构3.6数据仓库的元数据数据仓库的元数据 3.7数据仓库的建立数据仓库的建立 3.8数据仓库与数据挖掘数据仓库与数据挖掘省器材省器材总公司总公司省邮购局省邮购局市内DDN各县邮购网点机房各县邮购网点机房打印机配货部采购部管理1财务部CICSO2510打印机Modem省邮运局省邮运局CICSO2510 运输管理1库房管理1打印机条码打印机Mod
2、emModemModem局长局长省财务省财务查询查询PSTNDDN/FR各地市综合网机房各地市综合网机房IBMIBM小型机磁盘阵列数据库服务器骨干交换机广域路由器城域路由器访问服务器省综合网机房省综合网机房PSTN各地市邮购网点机房各地市邮购网点机房采用局域网、PSTN或DDN数据仓库数据仓库 河南邮政邮购系统网络拓扑总图河南邮政邮购系统网络拓扑总图吐哈油田开发信息管理与决策支持“数字油田”框架大数据体库大数据体库主数据库主数据库勘探勘探测井测井钻井钻井开发开发经营经营其他其他开发开发数据应用数据应用(缓存和缓存和质量检查质量检查)数据采集数据采集原始数据原始数据审核后审核后审核后审核后项目项
3、目数据库数据库项目项目数据库数据库现有应用系统现有应用系统项目应用项目应用项目应用项目应用集成管理平台集成管理平台勘探勘探数据应用数据应用(以开发数据以开发数据应用为例应用为例)地学研究平台地学研究平台地学研究应用生产管理平台生产管理平台经营管理平台经营管理平台生产管理应用经营管理应用决策支持系统决策支持系统业务逻辑平台业务逻辑平台其他专业其他专业数据应用数据应用源点数据库源点数据库基层生产基层生产管理库管理库质量质量控制控制迁移迁移提升提升应用服务管理体系应用服务管理体系项目库项目库项目库项目库数数据据中中心心专业应用专业应用综合应用综合应用基层应用基层应用采油厂采油厂人工采集人工采集实时采
4、集实时采集甲乙方关系甲乙方关系外部信息外部信息钻测录钻测录政府政府客户客户有限公司源点数据采集平台地学研究地学研究总库总库大数据体大数据体总库总库生产管理生产管理总库总库成果总库成果总库图形、文档图形、文档数据采集标准质量控制标准源点数据库逻辑标准数据中心数据库逻辑标准项目数据库逻辑标准生产管理库逻辑标准物探物探天然气数据标准体系源点数据采集标准数据中心标准应用标准生产管理数据库标准(现有标准、符合国内企业 管理特色)源点数据采集标准采集质量控制标准源点数据库标准(贴近业务需求、继承性)地学研究数据库标准(国际标准)大数据体数据库标准(国际标准)成果数据库标准(国际标准)项目数据库标准(由应用
5、定制)成果数据标准(符合数据中心存贮要求)中石化天然气数据标准数据采集标准天然气数据标准数据应用标准数据库逻辑结构(与国际接轨)源点数据标准(符合国家标准、企业标准、行业标准和现行信息化标准)数据采集标准(符合国内企业生产特点和业务流程)采集质量控制标准数据代码标准(符合数据中心整体要求)科研成果数据标准(符合数据中心整体要求)数据应用标准(符合企业个性化管理特色)数据库管理规章制度成果数据加载标准(符合数据中心加载要求)数据库与数据仓库 什么是数据仓库什么是数据仓库 数据仓库是一个环境,提供用户用于决策数据仓库是一个环境,提供用户用于决策支持的当前和历史数据,这些数据在传统支持的当前和历史数
6、据,这些数据在传统的操作型数据库中很难或不能得到。数据的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作型仓库技术是为了有效的把操作型数据集成数据集成到统一的环境中到统一的环境中以提供决策型数据访问,以提供决策型数据访问,的各种的各种技术和模块技术和模块的总称。所做的一切都的总称。所做的一切都是为了让用户更快更方便查询所需要的信是为了让用户更快更方便查询所需要的信息,提供决策支持。息,提供决策支持。数据库、数据仓库间的关系生产生产人事人事供应供应监测监测销售销售数据数据仓库仓库清理清理转换转换分析分析查询查询用户用户数据库与数据仓库“A data warehouse is a su
7、bject-oriented,integrated,time-variant collection of data in support of managements decision-making process.”W.H.Inmonn多维模型是人们观察数据多维模型是人们观察数据的形象表示 n可以是可以是 2,3,42,3,4或更多维或更多维 n可以对多维模型进分析可以对多维模型进分析 即即:选择哪维作为查询条件选择哪维作为查询条件.多维模型多维模型Product LinesRegionsTimen当数据量大时,传统的数据模型比较复杂当数据量大时,传统的数据模型比较复杂,最终用户难于理最终用
8、户难于理解解n多表联结多表联结(Join)(Join)查询查询(尤其是大表尤其是大表),),既费时既费时,又占用大量资源数据库与数据仓库8维:人们观察数据的特定角度-对应维表。8维成员:维的取值。8维层次:8代表维的细节程度,时间维的层次可以是年,季,月,周,日,等等.8类:8维成员互不相交的一个子集.多维模型:基本概念多维模型多维模型Product LinesRegionsTime维表维表8多维分析:8对以维形式组织的数据采取切片,切块和旋转等动作,以求全面深刻地分析数据.8切片(Slice):8 按照某一维取值做查询.8切块(Dice):8按照一维或多维取值做查询.8旋转:8改变一个报告或
9、页面显示的维方向.多维模型:基本概念8维表:8存放维数据的表.对维进行深层次的分析8事实表:事实表示主题主题8由事实数据元素和维数据元素组成.事实表是多维模型的核心.事实数据是决策分析的数据基础.其中包含事实名称和度量。多维模型:基本概念下面我们看一下数据仓库有哪些特点?下面我们看一下数据仓库有哪些特点?数据仓库的面向主题围绕一些主题 Organized around major subjects,such as customer,product,sales.概念 Focusing on the modeling and analysis of data for decision makers
10、,not on daily operations or transaction processing.Provide a simple and concise view around particular subject issues by excluding data that are not useful in the decision support process.数据仓库的数据集成异种数据源集成 Constructed by integrating multiple,heterogeneous data sources relational databases,flat files,
11、on-line transaction records Data cleaning and data integration techniques are applied.Ensure consistency in naming conventions,encoding structures,attribute measures,etc.among different data sources When data is moved to the warehouse,it is converted.数据仓库的时变性包含历史数据 The time horizon for the data ware
12、house is significantly longer than that of operational systems.Operational database:current value data.Data warehouse data:provide information from a historical perspective(e.g.,past 5-10 years)Every key structure in the data warehouse Contains an element of time,explicitly or implicitly But the key
13、 of operational data may or may not contain“time element”.数据仓库数据的非易失性物理分离 A physically separate store of data transformed from the operational environment.Operational update of data does not occur in the data warehouse environment.Does not require transaction processing,recovery,and concurrency cont
14、rol mechanisms Requires only two operations in data accessing:initial loading of data and access of data.数据仓库的操作3.1数据库与数据仓库数据库与数据仓库3.2数据仓库的操作数据仓库的操作3.3数据仓库的概念模型数据仓库的概念模型3.4数据立方体数据立方体3.5数据仓库的结构数据仓库的结构3.6数据仓库的元数据数据仓库的元数据 3.7数据仓库的建立数据仓库的建立 3.8数据仓库与数据挖掘数据仓库与数据挖掘数据仓库的操作 OLTP(on-line transaction processin
15、g)Major task of traditional relational DBMS Day-to-day operations:purchasing,banking,manufacturing,payroll,accounting,etc.OLAP(on-line analytical processing)Major task of data warehouse system Data analysis and decision makingOLTP 与 OLAP对比 OLTP OLAP users clerk,IT professional knowledge worker funct
16、ion day to day operations decision support DB design application-oriented subject-oriented data current,up-to-date detailed,flat relational isolated historical,summarized,multidimensional integrated,consolidated usage repetitive ad-hoc access read/write index/hash on prim.key lots of scans unit of w
17、ork short,simple transaction complex query#records accessed tens millions#users thousands hundreds DB size 100MB-GB 100GB-TB 测度指标测度指标 交易量交易量 查询量查询量,响应响应 数据仓库的概念模型3.1数据库与数据仓库数据库与数据仓库3.2数据仓库的操作数据仓库的操作3.3数据仓库的概念模型数据仓库的概念模型3.4数据立方体数据立方体3.5数据仓库的结构数据仓库的结构3.6数据仓库的元数据数据仓库的元数据 3.7数据仓库的建立数据仓库的建立 3.8数据仓库与数据挖掘数
18、据仓库与数据挖掘数据仓库的概念模型 Modeling data warehouses 星形结构:以事实表为核心 连接多个维表。雪花结构:精华的事实表,有些维层次规范化,构成雪花状的维表。事实星群结构:多个事实表共享维表,看上去像星簇,所以称之为星河或事实群。星型结构time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcitystate_or_provincecountrylocationSales Fact Table time_key item_key branch_key location_key units_so
19、ld dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranch雪花状结构time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcity_keylocationSales Fact Table time_key item_key branch_key location_key units_sold dollars_sold avg_salesMeasuresi
20、tem_keyitem_namebrandtypesupplier_keyitembranch_keybranch_namebranch_typebranchsupplier_keysupplier_typesuppliercity_keycitystate_or_provincecountrycity事实星群结构time_keydayday_of_the_weekmonthquarteryeartimelocation_keystreetcityprovince_or_statecountrylocationSales Fact Tabletime_key item_key branch_k
21、ey location_key units_sold dollars_sold avg_salesMeasuresitem_keyitem_namebrandtypesupplier_typeitembranch_keybranch_namebranch_typebranchShipping Fact Tabletime_key item_key shipper_key from_location to_location dollars_cost units_shippedshipper_keyshipper_namelocation_keyshipper_typeshipper概念层次all
22、EuropeNorth_AmericaMexicoCanadaSpainGermanyVancouverM.WindL.Chan.allregionofficecountryTorontoFrankfurtcity概念分层:定义一种映射序列,序关系。许多概念都具有序结构概念分层:定义一种映射序列,序关系。许多概念都具有序结构数据立方体3.1数据库与数据仓库数据库与数据仓库3.2数据仓库的操作数据仓库的操作3.3数据仓库的概念模型数据仓库的概念模型3.4数据立方体数据立方体3.5数据仓库的结构数据仓库的结构3.6数据仓库的元数据数据仓库的元数据 3.7数据仓库的建立数据仓库的建立 3.8数据仓库
23、与数据挖掘数据仓库与数据挖掘数据立方体 销售量是产品,月份以及区域的函数ProductRegionMonthDimensions:Product,Location,Time层次归纳路径为:层次归纳路径为:Industry Region YearCategory Country QuarterProduct City Month Week Office Day数据立方体:允许以多维对数据进行建模和观察数据立方体的实例Total annual salesof TV in U.S.A.DateProductCountrysumsum TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanad
24、aMexicosum立方格,三维立方体allproductdatecountryproduct,dateproduct,countrydate,countryproduct,date,country0-D(apex)cuboid1-D cuboids2-D cuboids3-D(base)cuboid数据立方体实例 Visualization OLAP capabilities Interactive manipulation数据仓库的结构3.1数据库与数据仓库数据库与数据仓库3.2数据仓库的操作数据仓库的操作3.3数据仓库的概念模型数据仓库的概念模型3.4数据立方体数据立方体3.5数据仓库的
25、结构数据仓库的结构3.6数据仓库的元数据数据仓库的元数据 3.7数据仓库的建立数据仓库的建立 3.8数据仓库与数据挖掘数据仓库与数据挖掘DataWarehouseExtractTransformLoadRefreshOLAP EngineAnalysisQueryReportsData miningMonitor&IntegratorMetadataData SourcesFront-End ToolsServeData MartsOperational DBsothersourcesData StorageOLAP Server数据仓库的多层结构 高度综合级 轻度综合级 当前细节级 早期细节
26、级 备注:数据仓库体系结构图 数据仓库 数据仓库工具层 多维分析工具 数据挖掘工具 可视化工具 最终用户:表示关系型数据:表示多维数据 数据仓库体系结构图按按照照不不同同的的主主题题进进行行数数据据综综合合数据仓库的元数据3.1数据库与数据仓库数据库与数据仓库3.2数据仓库的操作数据仓库的操作3.3数据仓库的概念模型数据仓库的概念模型3.4数据立方体数据立方体3.5数据仓库的结构数据仓库的结构3.6数据仓库的元数据数据仓库的元数据 3.7数据仓库的建立数据仓库的建立 3.8数据仓库与数据挖掘数据仓库与数据挖掘元数据 元数据:元数据:元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途
27、的不同分为两类,管理元数据和商业元数据。管理元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录等。元数据 商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询 元数据为访问数据仓库提供了一个信息目录,这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。
28、描述数据仓库中数据的数据描述数据仓库中数据的数据 Metadata 的组成是的组成是:表表,数据元素数据元素,主键主键数据元素的物理特征数据元素的物理特征各种定义各种定义数据抽取历史数据抽取历史数据汇总算法数据汇总算法数据属主关系及存取模式数据属主关系及存取模式数据生命期以及淘汰规则数据生命期以及淘汰规则数据安全性数据安全性数据的度量单位数据的度量单位元数据(Metadata)在整个数据仓库建设过程中在整个数据仓库建设过程中,元数元数据被不断积累和丰富据被不断积累和丰富,从源数据到目从源数据到目标数据或相反,是可以追踪的。标数据或相反,是可以追踪的。MetadataHighlySummariz
29、edLightlySummarizedSourceDataTarget tableattributesLightlySummarizedattributesTransformation&LoadSource tableattributesExtractProcessExtractProcessSummarzation&LoadKeys to tablesAttribute informationSource locationEntity informationAttribute mappingName ChangesKey changesDefaults usedDefaults reason
30、Extract HistoryData ownership/stewardshipReference tablesAging/purging criteriaUnit of measureSecuritySummarizationAlgorithmsSummarizationprogramsRun SchedulesLocation ofprogramsInput tableOutput tableKeys to tablesAttribute infoSource locationEntity informationAttribute mappingName ChangesKey chang
31、esDefaults usedDefaults reasonExtract HistoryData ownership/stewardshipReference tablesAging/purging criteriaUnit of measureSecurityExtract Algorithms ProgramsRun SchedulesLocation of pgmsInput tableOutput tableExtract Algorithms ProgramsRun SchedulesLocation of pgmsInput tableOutput tableSummarizat
32、ionAlgorithmsSummarizationprogramsRun SchedulesLocation ofprogramsInput tableOutput tableKeys to tablesAttribute infotarget locationEntity informationAttribute mappingExtract HistoryData ownership/stewardshipReference tablesAging/purging criteriaUnit of measureSecurity收集元数据数据仓库的建立3.1数据库与数据仓库数据库与数据仓库
33、3.2数据仓库的操作数据仓库的操作3.3数据仓库的概念模型数据仓库的概念模型3.4数据立方体数据立方体3.5数据仓库的结构数据仓库的结构3.6数据仓库的元数据数据仓库的元数据 3.7数据仓库的建立数据仓库的建立 3.8数据仓库与数据挖掘数据仓库与数据挖掘建立数据仓库的步骤:1.收集和分析业务需求收集和分析业务需求2.建立数据模型和数据仓库的物理设计建立数据模型和数据仓库的物理设计3.定义数据源定义数据源4.选择数据仓库技术和平台选择数据仓库技术和平台5.从操作型数据库中抽取、净化、和转换从操作型数据库中抽取、净化、和转换数据到数据仓库数据到数据仓库6.选择访问工具和报表生成工具选择访问工具和报
34、表生成工具7.选择数据库连接软件选择数据库连接软件8.选择数据分析和数据展示软件选择数据分析和数据展示软件9.数据仓库更新和安全解决方案数据仓库更新和安全解决方案*确定主题精心选择主题域,最大限度地发挥其作精心选择主题域,最大限度地发挥其作用。如,市场部门可能关心下面的主题:用。如,市场部门可能关心下面的主题:市场研究市场研究 竞争分析竞争分析 购买者的特点购买者的特点 市场辅助产品(市场比较)市场辅助产品(市场比较)价格和预算决策价格和预算决策 产品决策产品决策 促销决策促销决策 渠道决策渠道决策 预测趋势预测趋势 水平标准水平标准*分析 数据仓库开发生存期的分析阶段主要是把数据仓库开发生存
35、期的分析阶段主要是把以前需求阶段所收集的需求转化为一系列能以前需求阶段所收集的需求转化为一系列能够支持设计的规格说明。数据仓库有三个主够支持设计的规格说明。数据仓库有三个主要的输入规格说明:要的输入规格说明:1.商业重点需求:用于描述数据仓库必须包含商业重点需求:用于描述数据仓库必须包含的信息范围,还可确定读者群及其信息需求的信息范围,还可确定读者群及其信息需求2.数据源需求规格说明:用于描述当前数据源数据源需求规格说明:用于描述当前数据源中可用信息的范围。中可用信息的范围。*分析3.最终使用和访问需求规格说明:用于确最终使用和访问需求规格说明:用于确定数据仓库中信息的使用方式,同时还定数据仓
36、库中信息的使用方式,同时还用于说明工具的种类和所使用的技术。用于说明工具的种类和所使用的技术。4.分析的过程就是为数据仓库逻辑和物理分析的过程就是为数据仓库逻辑和物理数据模型,并且确定将数据源、数据仓数据模型,并且确定将数据源、数据仓库和最终用户访问工具连接在一起所需库和最终用户访问工具连接在一起所需的过程。的过程。*设计 设计阶段将分析阶段所开发的逻辑模设计阶段将分析阶段所开发的逻辑模型转化为物理模型。将数据源连接到数据型转化为物理模型。将数据源连接到数据仓库、将数据仓库连接到基于用户工作站仓库、将数据仓库连接到基于用户工作站的工具,这些过程都被转化成处理过程所的工具,这些过程都被转化成处理
37、过程所需要的方案设计,同时还要指定和细化数需要的方案设计,同时还要指定和细化数据仓库。据仓库。*设计 数据结构设计包括以下内容:数据结构设计包括以下内容:为数据仓库的存储数据库开发物理数据模为数据仓库的存储数据库开发物理数据模型,而且物理模型还可能用于最终用户工型,而且物理模型还可能用于最终用户工具所需的逻辑存储。具所需的逻辑存储。将数据源的物理模型映射到数据仓库的物将数据源的物理模型映射到数据仓库的物理模型。这种映射有助于数据抽取程序和理模型。这种映射有助于数据抽取程序和数据仓库内部的求精和重构工程更好地完数据仓库内部的求精和重构工程更好地完成其功能。成其功能。*构造 构造阶段负责从物理上实
38、现设计阶段构造阶段负责从物理上实现设计阶段所开发的设计方案。通过明智地所开发的设计方案。通过明智地“制定或制定或购买购买”决策,就有可能相当快地集成数据决策,就有可能相当快地集成数据仓库解决方案。同时,果断地合并已有投仓库解决方案。同时,果断地合并已有投资,还可能加速开发任务。资,还可能加速开发任务。*应用程序结构设计的组成:1.为数据仓库创建和修改数据库的程序。为数据仓库创建和修改数据库的程序。制售商提供了自动生成这些程序的功能。制售商提供了自动生成这些程序的功能。2.从数据源中抽取数据的程序。从数据源中抽取数据的程序。一些制售商提供了自动生动这些程序的工具。一些制售商提供了自动生动这些程序
39、的工具。3.进行数据转换的程序(如集成、聚集等)。进行数据转换的程序(如集成、聚集等)。开发的专用开发的专用ETL程序程序4.更新关系数据库的程序。更新关系数据库的程序。5.查询、分析和展示大型数据库的程序。查询、分析和展示大型数据库的程序。许多最终用户工具都需要有优化的查询工具许多最终用户工具都需要有优化的查询工具*运行配置1.数据源净化和抽取过程数据源净化和抽取过程2.数据源连接到数据仓库的过程;数据源连接到数据仓库的过程;3.数据仓库内部用于管理目的的过程;数据仓库内部用于管理目的的过程;4.数据仓库连接到最终用户工具的过程;数据仓库连接到最终用户工具的过程;5.建立与数据仓库相连接的分
40、析工具的过程;建立与数据仓库相连接的分析工具的过程;6.日常管理、分配以及维护数据仓库的过程。日常管理、分配以及维护数据仓库的过程。*试运行 试用阶段主要解决数据仓库方案的安装、试用阶段主要解决数据仓库方案的安装、运行和使用等问题。运行和使用等问题。1.提供初始安装,初始数据与资源连接和数据更提供初始安装,初始数据与资源连接和数据更新与同步工具;新与同步工具;2.规划并提交一个分阶段的实现方案;规划并提交一个分阶段的实现方案;3.为各阶层的人提供培训和指导;为各阶层的人提供培训和指导;4.规划并实现数据仓库解决方案平台更新与维护;规划并实现数据仓库解决方案平台更新与维护;5.提供归档与备份功能
41、;提供归档与备份功能;6.提供恢复功能提供恢复功能7.提供访问控制和安全性;提供访问控制和安全性;数据抽取、清理、转换、和移植工具 数据转换工具要能从各种不同的数据源中读取数据。数据转换工具要能从各种不同的数据源中读取数据。能以不同类型数据源为输入整合数据。能以不同类型数据源为输入整合数据。具有规范的数据访问接口具有规范的数据访问接口 具有从数据字典中读取数据的能力具有从数据字典中读取数据的能力 工具生成的代码必须是在开发环境中可维护的工具生成的代码必须是在开发环境中可维护的 能只抽取满足指定条件的数据和源数据的指定部分能只抽取满足指定条件的数据和源数据的指定部分 能在抽取中进行数据类型转换和
42、字符集转换能在抽取中进行数据类型转换和字符集转换 能在抽取的过程中计算和生成衍生字段能在抽取的过程中计算和生成衍生字段 能让数据仓库管理系统自动调用以定期进行数据抽取能让数据仓库管理系统自动调用以定期进行数据抽取数据仓库的关键技术数据仓库核心技术主要包括:数据仓库核心技术主要包括:海量数据存储与访问高速准确查询性能快速强大并行处理能力与伸缩能力企业应用 数据分析与处理数据结构 用于高维空间数据的存取方法已有很多研究并提用于高维空间数据的存取方法已有很多研究并提出了很多方法,其中包括出了很多方法,其中包括R树及其变种树及其变种12、x树、树、k-D-B-tree、SS-tree等。等。每种方法都
43、有其自身的特点和适应性,如每种方法都有其自身的特点和适应性,如k-D-B-tree主要适应于点数据的存取,对于高维数据的主要适应于点数据的存取,对于高维数据的适应性较差。适应性较差。R树是常用的空间数据索引结构,具有高维数据、树是常用的空间数据索引结构,具有高维数据、高并存和较高效率等特征,因而广泛应用于空间高并存和较高效率等特征,因而广泛应用于空间数据以及复杂数据类型的组织和管理数据以及复杂数据类型的组织和管理,目前已在大目前已在大型商业数据库技术中采用了这种方法。型商业数据库技术中采用了这种方法。1 A.Guttman,R-trees:a dynamic index structure f
44、or spatial searching.In Proc.Of the ACM SIGMOD Conference on Management of Data,Boston,Mass,June 1984,p4757 2 T.Sellis,N.Roussopoulos,and C.Faloutsos.The R+tree:a dynamic index for multi-dimensional objects.In Proc.13th Intl Conference on Very Large Databases,Brighton,England,1987 p507518R树的特点1.R树是树
45、是B+树对于多维空间对象的扩展。树对于多维空间对象的扩展。2.在空间中一个几何体可由其最小边界矩形来限定。在空间中一个几何体可由其最小边界矩形来限定。3.R树的节点分为叶节点和非叶节点树的节点分为叶节点和非叶节点4.用区间用区间a,b来确定空间对象在第来确定空间对象在第I 维上的范围;维上的范围;5.它采用重叠子空间方法对它采用重叠子空间方法对n维空间对象进行索引。维空间对象进行索引。6.R树是对空间对象的最小边界矩形建立索引,只存储树是对空间对象的最小边界矩形建立索引,只存储空间对象的标识符(空间对象的标识符(ID),通过),通过ID访问空间对象所关访问空间对象所关联的数据。联的数据。7.I
46、D可以是数据的逻辑地址或实际物理地址。可以是数据的逻辑地址或实际物理地址。8.利用利用R树可以对高维空间对象进行索引。树可以对高维空间对象进行索引。fedjkihmgnlabcacbdfeghjiklnmR树基本原理数据仓库与数据挖掘3.1数据库与数据仓库数据库与数据仓库3.2数据仓库的操作数据仓库的操作3.3数据仓库的概念模型数据仓库的概念模型3.4数据立方体数据立方体3.5数据仓库的结构数据仓库的结构3.6数据仓库的元数据数据仓库的元数据 3.7数据仓库的建立数据仓库的建立 3.8数据仓库与数据挖掘数据仓库与数据挖掘数据仓库与数据挖掘1、基于数据仓库的数据挖掘实现是借助于、基于数据仓库的数
47、据挖掘实现是借助于OLAP2、专用的数据挖掘工具、专用的数据挖掘工具数据分析处理技术 数据仓库主要涉及三类分析处理技术数据仓库主要涉及三类分析处理技术 基本分析基本分析 supports querying,basic statistical analysis,and reporting using crosstabs,tables,charts and graphs 数据解析数据解析 multidimensional analysis of data warehouse data supports basic OLAP operations,slice-dice,drilling,pivoti
48、ng 数据挖掘数据挖掘 knowledge discovery from hidden patterns supports associations,constructing analytical models,performing classification and prediction,and presenting the mining results using visualization tools.*在线分析处理与在线挖掘 在线分析处理在线分析处理OLAP 专业人员,数据分析处理,提供决策支持专业人员,数据分析处理,提供决策支持 面向主题、统一多维面向主题、统一多维 汇总、复杂查询
49、,涉及大量数据汇总、复杂查询,涉及大量数据 代表性的分析工具代表性的分析工具 上卷(上卷(roll up):通过概念分层的提升或维归约,在数通过概念分层的提升或维归约,在数据立方体上进行聚集。据立方体上进行聚集。下钻(下钻(drill down):沿着维的概念分层向下,由不太:沿着维的概念分层向下,由不太详细的数据到更详细的数据。详细的数据到更详细的数据。转轴(转轴(pivot,rotate):可视化操作,转动数据的视角。可视化操作,转动数据的视角。Han,J.&Kamber,M.,Data Mining:Concepts and Techniques,Morgan Kaufmann,2000
50、基于多维数据立方体的分析在线分析处理与在线挖掘 在线挖掘在线挖掘 High quality of data in data warehouses DW contains integrated,consistent,cleaned data Available information processing structure surrounding data warehouses ODBC,Web accessing,service facilities,reporting OLAP-based exploratory data analysis mining with drilling,piv