1、新圆计算机系统公司-数据仓库数据仓库议程:数据仓库数数据库的应用分类和数据仓库的由来据库的应用分类和数据仓库的由来数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘数据挖掘的任务和工具国内外主要供应商与产品数据库的定义传统的数据库技术是以单一的数据资源为中心,同时进行从事务处理,批处理到决策分析的各类处理;特别是OLTP主要是为自动化,精简工作任务和高速数据采集服务的。它的运行是事务驱动,面向应用的,数据库的根本任务是完成数据操作,即及时安全地将当前事务所产生的记录保存下来。数据仓库的产生随着计算机的全局应用和复杂分析的增加,人们已不满足与简单的数据操作,用
2、于进行商务运转的大量数据可能是人们不大在意未加充分利用的东西。近而产生了使用现有的和自己长期积累生成的数据进行分析和推理,为决策提供依据的需求,从而导致了DSS和OLAP的产生。人们逐渐认识到计算机系统中存在着两类不同的处理:操作型处理(事务处理):主要是对一个或一组记录的查询和修改,这时候人们关心的是响应时间数据的安全性和完整性。和分析型处理(信息型处理):用于管理人员的决策分析,如DDS(decision support system)、EIS、多维分析等。数据仓库的产生和定义随着时间的推移,人们开始对DB中的原始数据进行再加工,形成一个综合的、面向分析的环境以支持决策的产生;数据库由操作
3、性环境发展成一种新的环境:t体系化环境,数据仓库则是体系化环境的核心。面向主题的、集成的、稳定的、用以支持经营管理中的决策制定过程的不同时间的数据集合。用于OLTP的数据库无法满足分析的需求缺乏组织性:无统一的时间标准,抽取算法和抽取级别又不相同,参考的外部数据的不同效率低下:操作数据难以转化成有用的信息。1。各公司个阶段都要积累大量的数据,但他们仅是一种处于原始状态的资源2为了提高性能,数据常被分散在各个子系统中,而各个子系统的应用又是千差万别、零散琐碎。3同时主题内容可能分散在多个应用中,同一应用在不同字段中可能存在着同名异义,异名同义、单位不同和字段不同等矛盾。用于OLTP的数据库无法满
4、足分析的需求其他困扰着基于传统数据库的DDS问题。如DDS分析需要较长时间,而OLTP则要求尽快作出响应;进行一次大规模的分析,对OLTP的影响是难以忍受的。DDS常常需通过一端历史时期的数据来进行分析趋势,而数据库一般只存储短期数据,且各个领域的保存期限也千差万别,分析难以满足DDS 的需要。数据数据DATA知识知识KNOWLEDGE决定决定DECISIONSnPatternsnTrendsnFactsnRelationsnModelsnAssociationsnSequencesnTarget MarketsnFunds allocationnTrading optionsnWhere t
5、o advertisenCatalog mailing listnSales geographyn财经的财经的 Financialn经济的经济的Economicn政府政府Governmentn销售分数销售分数Point-of-Salen人口统计学人口统计学Demographicn生活方式生活方式Lifestyle 痛苦:太多数据,无法作出正确判断!为什么要建立数据仓库n面向应用面向应用 Application Orientedn有限的集成有限的集成 Limited Integrationn经常的更新经常的更新 Constantly Updatedn只有当前值只有当前值 Current Valu
6、es Onlyn支持日常的操作支持日常的操作 Supports Day-to-Day Operations操作性数据Operational Data信息性数据Informational Data操作性数据和信息性数据是根本性的不同操作性数据和信息性数据是根本性的不同TrustAccountsCheckingAccountsLoanAccountsYearMonthDay财务记帐财务记帐Account History建立数据仓库从而获取正确信息管理和自动操作管理和自动操作Manageand Automate转换转换TransformTemplates 分发分发DistributeDATADATA
7、DATA仓库仓库Store摘取摘取Extract寻找并理解寻找并理解Find and UnderstandLogMetadata选取数据选取数据 .获取信息获取信息 .作出决定作出决定设计设计数据库的建立数据库的建立-步向成功之路步向成功之路议程:数据仓库数数据库的应用分类和数据仓库的由来据库的应用分类和数据仓库的由来数据仓库的特点数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘数据挖掘的任务和工具国内外主要供应商与产品数据库的特征数据仓库是面向主题的。每个主题基本对应于一个宏观的分析领域如政策、市场分析、价格趋势等数据仓库是集成的。在数据进入数据仓库之前
8、,必然经过加工和集成,以统一原始数据中的所有矛盾,实现将原始数据从面向应用到面向主题的转变。数据仓库是稳定的。数据仓库反映的是历史数据的内容,而不是处理联机数据。古数据经集成进入数据仓库是极少或不更新的。数据仓库是时变的。它存储有大量的历史数据、当前数据和综合数据等,它处于永远的发展变化中。引起变化的因素有:新主题的引入、历史数据的不断积累、细节数据的综合存储及无用数据的清除。议程:数据仓库数据库的应用分类和数据仓库的由来数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘数据挖掘的任务和工具国内外主要供应商与产品 数据仓库的建立和开发 数据仓库并不等同于数据
9、库,数据仓库也有其自身开发的特点。创建一个数据仓库会有以下五方面的工作:1 任务和环境的评估 2 需求的收集和分析 3 构造数据仓库 4 数据仓库技术的培训 5 回顾、总结及再发展 1.任务和环境的评估数据仓库是建立在原有运行系统之上的。因此要结合用户的现状,来明确数据仓库的目标任务。除了业务现状外,特别要搞清任务所面对的数据源所在系统和其中的数据的状况。通过对这些情况的评估,看建立数据仓库这个任务是否可行;所能建立的数据仓库是不是用户所期望的;在此有没有不可逾越的障碍。最好能确定评定将来数据仓库系统成功与否的基本原则。开展评估工作一定要有高层负责人参加,最好他就是将来使用数据仓库部门的负责人
10、。这样从他这里就可以了解到全部的业务工作状况。他也最清楚今后的工作目标及对任务的期望,以及和竞争对手比较的差距。在评估工作开展过程中,他应当及时的提出问题,并检查、回顾工作的进展。在他的领导下要组成一个项目组,并有以下人员参加:项目总负责人,与数据仓库相关的所有业务单位的负责人,计算机软/硬件负责人,向数据仓库提供数据的数据库管理员以及网络方面的人员。项目组要进行项目定义,并首先按要求达到的目标初步确定数据仓库的主题。进一步说明这个主题的层次结构,及所涉及的相关业务处理。最好还能设立几个可量化的工作指标。除了业务工作外,还要对相关的信息技术状况进行评估:数据源的数据库类型,工作平台,数据量,数
11、据的质量等;将要建立数据仓库的环境状况,以及所利用的网络技术状况。全部评估工作应有正规的文档记载,并交数据仓库负责人审定。数据仓库是为支持决策服务的。故首先要看决策者(亦即领导)的需求,即现在最重要的工作目标是什么;怎样衡量这个目标的达到与否;现在是怎样获得决策支持信息的;和竞争对手比差距是什么。领导的决策总是由一批具体工作人员支持的,所以还应从他们这里收集具体的需求,并加以分析:对应前面所定的主题,现在利用什么信息或报表(最好有实例);这报表中还缺什么信息;这报表是如何制作出来的;有没有紧急、突发的决策信息要求,其内容是什么;还希望数据仓库为他们完成什么等。在此基础上确认:当前共同的业务问题
12、是什么;希望开发怎样的功能来解决这些问题;由此定义好业务处理的规则;初步估计功能的规模和数据量;与此同时还要定义、理清业务和编程所需的代码。基于上述业务需求和分析即可开始制定系统的逻辑模型。此外,还要对在实现这些业务需求时,对信息技术的需求加以分析:每一个数据源的物理存储状况、运行平台、数据质量如何;确认硬件、网络和软件的限制条件;数据装载与更新的策略和问题;数据量和占用空间的估计;从信息技术看数据的质量有何问题等。最后,还有文档制作,其内容应包括:项目概述、差距分析、系统基本架构图示、逻辑模型、物理模型、数据仓库初始装载和更新的策略、数据仓库的运行计划、决策信息展现的希望和需求、数据仓库建成
13、的时限。2.需求的收集和分析3.构造数据仓库构造数据仓库包括了数据仓库的管理,数据仓库的组织和决策支持信息的展现三部分。数据仓库的管理通过建立以下诸项内容实现之:设置和编写取用数据的程序;设置和编写数据转换程序;设置和编写数据更新程序;设置和编写运行的接口程序;建立这一阶段的所有管理用数据Metadata;此阶段所有程序统一标准命名和建档。数据仓库的组织包括了:规划数据仓库的初始装载;在数据仓库中建立所需的索引;除了数据表外,建立数据视窗(View);进行数据仓库及工作平台的安全检查;装入数据和应用功能;建立这一阶段的所有管理用数据Metadata。4 数据仓库技术的培训 数据仓库是支持其使用
14、者进行决策的,建成数据仓库后要认真进行最终用户的培训。首先要向用户介绍数据仓库的全部情况,数据是向用户介绍的重点,数据内容,系统如何保障数据的质量、完整性和可靠性。假如数据仓库的管理员不是系统的开发者,那末该员亦属培训范围。培训内容是:数据仓库的逻辑和物理模型;从OLTP系统到数据仓库的数据流;全部的数据转换操作;所有Metadata的所在和内容,管理员对Metadata要有相当的熟悉程度才能胜任工作;数据装载和更新的策略;所有安全性问题及其测度;所有程序文档资料的管理等。5.回顾、总结再发展 在数据仓库开发过程中要不断总结回顾哪些地方可以做得更好;业务部门对开发的支持是否到位;双方如何合作得
15、更好。主题的范围选择是否恰当;有什么阶段成果;发布这些成果的反映如何;业务和开发部门分别有什么反映;公司层的领导是否看到了初步成果;、公司的其它部门是否可以利用数据仓库获得效益;有没有得到未曾期望过的效益。数据仓库的开发往往是从一个简明的急需主题开始,从中积累经验,并由此也可能会激发用户的新需求,然后不断扩大数据仓库的内容和规模。议程:数据仓库数数据库的应用分类和数据仓库的由来据库的应用分类和数据仓库的由来数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘数据挖掘的任务和工具国内外主要供应商与产品数据挖掘 和 知识发现数 据 挖 掘(Data Mining)
16、,也 可 以 称 为 数 据 库 中 的 知 识 发 现(Knowledge Discovery in Database,KDD),是 从 大 量 数 据 中 提 取 出 可 信、新 颖、有 效 并 能 被 人 理 解 的 模 式 的 高 级 处 理 过 程。知 识 发 现 是 一 个 多 步 骤 的 处 理 过 程,问 题 定 义 了 解 相 关 领 域 的 有 关 情 况,熟 悉 背 景 知 识,弄 清 用 户 要 求。数 据 提 取 根 据 要 求 从 数 据 库 中 提 取 相 关 的 数 据。数 据 预 处 理 主 要 对 前 一 阶 段 产 生 的 数 据 进 行 再 加 工,检
17、查 数 据 的 完 整 性 及 数 据 的 一 致 性,对 其 中 的 噪 音 数 据 进 行 处 理,对 丢 失 的 数 据 进 行 填 补。数 据 挖 掘 运 用 选 定 的 知 识 发 现 算 法,从 数 据 中 提 取 出 用 户 所 需 要 的 知 识,这 些 知 识 可 以 用 一 种 特 定 的 方 式 表 示 或 使 用 一 些 常 用 的 表 示 方 式。知 识 评 估 将 发 现 的 知 识 以 用 户 能 了 解 的 方 式 呈 现,根 据 需 要 对 知 识 发 现 过 程 中 的 某 些 处 理 阶 段 进 行 优 化,直 到 满 足 要 求。议程:数据仓库数据库的应
18、用分类和数据仓库的由来数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘数据仓库与数据挖掘数据挖掘的任务和工具国内外主要供应商与产品数 据 挖 掘 能 做 什 么?-数 据 总 结 其 目 的 是 对 数 据 进 行 浓 缩,给 出 它 的 紧 凑 描 述。分 类 其 目 的 是 学 会 一 个 分 类 函 数 或 分 类 模 型,该 模 型 能 把 数 据 库 的 数 据 项 映 射 到 给 定 类 别 中 的 某 一 个。聚 类 是 把 一 组 个 体 按 照 相 似 性 归 成 若 干 类 别,即 物 以 类 聚。-关 联 规 则 是 形 式 如 下
19、的 一 种 规 则,在 购 买 面 包 和 黄 油 的 顾 客 中,有90 的 人 同 时 也 买 了 牛 奶(面 包 黄 油 牛 奶)。还 有 时 间 或 序 列 上 的 规 律。前 途 光 明 的 数 据 挖 掘 技 术KDD 在 研 究 和 应 用 方 面 发 展 迅 速,尤 其 是 在 商 业 和 银 行 领 域 的 应 用 比 研 究 的 发 展 速 度 还 要 快。用 户 主 要 集 中 在 大 型 银 行、保 险 公 司、电 信 公 司 和 销 售 业。IBM 和 微 软 都 成 立 了 相 应 的 研 究 中 心 进 行 这 方 面 的 工 作,此 外,一 些 公 司 的 相
20、关 软 件 也 开 始 在 国 内 销 售,如Platinum、BO 以 及IBM。数 据 挖 掘 的 研 究 和 应 用 在国内也受 到 了 学 术 界 和 实 业 界 越 来 越 多 的 重 视。议程:数据仓库数据库的应用分类和数据仓库的由来数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘国内外主要供应商与产品 数 据 挖 掘 工 具数 据 挖 掘 工 具 主 要 有 两 类:特 定 领 域 的 数 据 挖 掘 工 具 通 用 的 数 据 挖 掘 工 具。特 定 领 域 的 数 据 挖 掘 工 具特 定 领 域 的 数 据 挖 掘 工 具 针 对 某
21、个 特 定 领 域 的 问 题 提 供 解 决 方 案。在 设 计 算 法 的 时 候,充 分 考 虑 到 数 据、需 求 的 特 殊 性,并 作 了 优 化。对 任 何 领 域,都 可 以 开 发 特 定 的 数 据 挖 掘 工 具。-特 定 领 域 的 数 据 挖 掘 工 具 针 对 性 比 较 强,只 能 用 于 一 种 应 用;也 正 因 为 针 对 性 强,往 往 采 用 特 殊 的 算 法,可 以 处 理 特 殊 的 数 据,实 现 特 殊 的 目 的,发 现 的 知 识 可 靠 度 也 比 较 高。通 用 的 数 据 挖 掘 工 具通 用 的 数 据 挖 掘 工 具 不 区 分
22、具 体 数 据 的 含 义,采 用 通 用 的 挖 掘 算 法,处 理 常 见 的 数 据 类 型,一 般 提 供 六 种 模 式。例 如,IBM 公 司Almaden 研 究 中 心 开 发 的QUEST 系 统,SGI 公 司 开 发 的MineSet 系 统,加 拿 大Simon Fraser 大 学 开 发 的DBMiner 系 统。通 用 的 数 据 挖 掘 工 具 可 以 做 多 种 模 式 的 挖 掘,挖 掘 什 么、用 什 么 来 挖 掘 都 由 用 户 根 据 自 己 的 应 用 来 选 择。下 面 简 单 介 绍 几 种 数 据 挖 掘 工 具:1.QUESTQUEST 是
23、IBM 公 司Almaden 研 究 中 心 开 发 的 一 个 多 任 务 数 据 挖 掘 系 统,目 的 是 为 新 一 代 决 策 支 持 系 统 的 应 用 开 发 提 供 高 效 的 数 据 开 采 基 本 构 件。系 统 具 有 如 下 特 点:提 供 了 专 门 在 大 型 数 据 库 上 进 行 各 种 开 采 的 功 能:关 联 规 则 发 现、序 列 模 式 发 现、时 间 序 列 聚 类、决 策 树 分 类、递 增 式 主 动 开 采 等。各 种 开 采 算 法 具 有 近 似 线 性(O(n))计 算 复 杂 度,可 适 用 于 任 意 大 小 的 数 据 库。算 法
24、具 有 找 全 性,即 能 将 所 有 满 足 指 定 类 型 的 模 式 全 部 寻 找 出 来。为 各 种 发 现 功 能 设 计 了 相 应 的 并 行 算 法。2.MineSetMineSet 是 由SGI 公 司 和 美 国Standford 大 学 联 合 开 发 的 多 任 务 数 据 挖 掘 系 统。有 如 下 特 点:MineSet 2.6 中 使 用 了6 种 可 视 化 工 具 来 表 现 数 据 和 知 识。对 同 一 个 挖 掘 结 果 可 以 用 不 同 的 可 视 化 工 具 以 各 种 形 式 表 示,用 户 也 可 以 按 照 个 人 的 喜 好 调 整 最
25、终 效 果,以 便 更 好 地 理 解。提 供 多 种 数 据 挖 掘 模 式。包 括 分 类 器、回 归 模 式、关 联 规 则、聚 类 归、判 断 列 重 要 度。支 持 多 种 关 系 数 据 库。可 以 直 接 从Oracle、Informix、Sybase 的 表 读 取 数 据,也 可 以 通 过SQL 命 令 执 行 查 询。多 种 数 据 转 换 功 能。操 作 简 单。支 持 国 际 字 符。可 以 直 接 发 布 到Web。数 据 挖 掘 工 具 的 选 择评 价 一 个 数 据 挖 掘 工 具,需 要 从 以 下 几 个 方 面 来 考 虑:1 可 产 生 的 模 式 种 类 的 多 少 2 解 决 复 杂 问 题 的 能 力 3 易 操 作 性 4 数 据 存 取 能 力 5 与 其 他 产 品 的 接 口 议程:数据仓库数数据库的应用分类和数据仓库的由来据库的应用分类和数据仓库的由来数据仓库的特点数据仓库的建立服务器的整合与数据仓库数据挖掘与知识发现数据仓库与数据挖掘数据挖掘的任务和工具国内外主要供应商与产品国内外主要供应商与产品Brio 产品介绍cognus 产品介绍点击进入 One介绍 和Brio Reports点击进入 Cognus