数据分析和挖掘课件.ppt_163文库

资源描述

1、2022年5月31日1第18章数据分析与挖掘 1、决策支持系统 2、数据分析和联机分析处理（OLAP） 3、数据仓库工程 4、数据挖掘2022年5月31日2 数据挖掘数据挖掘数据库越来越大数据库越来越大有价值的知识有价值的知识可怕的数据可怕的数据2022年5月31日3 苦恼: 淹没在数据中 ; 不能制定合适的决策! 数据n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.n人口统计人口统计n生命周期生命周期2022年5

2、月31日41、决策支持系统数据库应用系统可广义地划分为事务处理系统和决策支持系统事务处理系统用来记录有关事务的信息的系统决策支持系统是从事务处理系统存储的细节信息中提取出高层次的信息2022年5月31日52.数据分析和联机分析处理随着数据库技术的发展和应用，数据库存储的数据量从20世纪80年代的兆（M）字节及千兆（G）字节过渡到现在的兆兆（T）字节和千兆兆（P）字节，同时，用户的查询需求也越来越复杂，涉及的已不仅是查询或操纵一张关系表中的一条或几条记录，而且要对多张表中千万条记录的数据进行数据分析和信息综合，关系数据库系统已不能全部满足这一要求。2022年5月31日6什么是OLAP 联机

3、分析处理（Online Analytical Processing）是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取，允许管理决策人员对数据进行深入观察。 OLAP=多维数据库？2022年5月31日7OLTP联机事务处理传统的关系型数据库的主要应用侧重于日常的商务操作专门为了实时的数据操作而设计支持数据的快速插入和修改提供单个纪录的查询支持数千个并发用户 2022年5月31日8OLAP 是数据仓库的核心部心，数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。提

4、供数据挖掘，发现数据间潜在的联系从各个不同的视觉察看数据2022年5月31日9 OLTP vs OLAP2022年5月31日10OLAP是多维的（多维数据库有层次概念）“嘿4月份我在北京卖掉了价值十万美元的可乐”维度的层次概念：产品产品类别类别产品名称产品名称地域地域国家国家省省市市时间时间年年季度季度月月日日2022年5月31日11维度和量度2022年5月31日123、数据仓库数据仓库简介数据仓库与数据库的区别如何建设数据仓库2022年5月31日13数据仓库简介数据仓库（data warehouse）是从多个源中收集一个信息仓储（或归档），在同一个位置用唯一的模式存储。长时间存储单

5、独的统一的数据接口2022年5月31日14数据仓库与数据库的区别数据仓库是对于大量已经由OLTP形成的数据的一种分析型的数据库，用于处理商业智能、决策支持等重要的决策信息；数据仓库是在数据库应用到一定程度之后而对历史数据的加工与分析；是处理两种不同用途的工具而已。2022年5月31日15数据仓库的建设（1）2022年5月31日16设计数据仓库一个数据仓库包括了一个中央事实表Fact table 多个维表2022年5月31日17数据仓库的星型结构2022年5月31日18数据仓库的建设（2）2022年5月31日19ETL：数据的提取与转换2022年5月31日20数据仓库的建设（3）2022

6、年5月31日21数据仓库的建设（4）2022年5月31日22四、数据挖掘 1、数据挖掘简介 2、数据挖掘系统的特征 3、数据挖掘技术2022年5月31日231、数据挖掘简介基本知识数据挖掘与OLAP比较数据挖掘的流程2022年5月31日24数据挖掘简介1、数据挖掘是怎样的一个过程呢？从海量数据中，提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。2、数据挖掘特性？数据挖掘是从数据中自动地抽取模式、关联、变化、异数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构常和有意义的结构；数据挖掘大部分的价值在于利用数据挖掘技术改善预测数据挖掘大部分的价值在于利用

7、数据挖掘技术改善预测模型模型。2022年5月31日25代代特征特征数据挖掘算法数据挖掘算法集成集成分布计算分布计算模型模型数据模型数据模型第一代第一代数据挖掘作为数据挖掘作为一个独立的应一个独立的应用用支持一个或者支持一个或者多个算法多个算法独立的系独立的系统统单个机单个机器器向量数据向量数据第二代第二代和数据库以及和数据库以及数据仓库集成数据仓库集成多个算法：能够多个算法：能够挖掘一次不能放挖掘一次不能放进内存的数据进内存的数据数据管理系数据管理系统，包括数统，包括数据库和数据据库和数据仓库仓库同质同质/ /局局部区域部区域的计算的计算机群集机群集有些系统支有些系统支持对象、文持对象、文本

8、、和连续本、和连续的媒体数据的媒体数据第三代第三代和预言模型和预言模型系统集成系统集成多个算法多个算法数据管理和数据管理和预言模型系预言模型系统统intranet/extranet网网络计算络计算支持半结构支持半结构化数据和化数据和webweb数据数据第四代第四代和移动数据和移动数据/ /各种计算数各种计算数据联合据联合多个算法多个算法数据管理、数据管理、预言模型、预言模型、移动系统移动系统移动和各移动和各种计算设种计算设备备普遍存在普遍存在的计算模的计算模型型2022年5月31日26数据挖掘与OLAP比较（1）功能不同数据挖掘DM的功能在于知识发现。

9、如：数据挖掘DM中的“分类”包括：贝叶斯分类、粗糙集分类、决策树分类等，是从数据中发现知识规则而联机分析OLAP是一种自上而下、不断深入的分析工具:用户提出问题或假设，OLAP负责从上至下深入地提取出关于该问题的详细信息，并以可视化的方式呈现给用户。用户先入为主的局限性可能会限制问题和假设的范围，从而影响最终的结论。2022年5月31日27 （2）数据组成不同数据挖是从混沌的、具有巨大噪声的数据中提炼知识规则；而联机分析OLAP只是从已经规范化的、纯净的关系数据库中组织数据。（3）知识与数据的关系不同数据挖掘DM是从数据中发现知识KDD；而联机分析OLAP是利用人已知的知识来有意识地组织和

10、使用数据。2022年5月31日28 知识发现（KD）输出的是规则数据挖掘（DM）输出的是模型共同点两种方法输入的都是学习集（learning sets）目的都是尽可能多的自动化数据挖掘过程数据挖掘过程并不能完全自动化，只能半自动化 2022年5月31日29SQL Server 2005数据挖掘处理流程2022年5月31日302、矿山（数据）挖掘工具（算法）金子（知识）数据的特征知识的特征算法的特征2022年5月31日31数据的特征大容量 POS数据（某个超市每天要处理高达2000万笔交易）卫星图象（NASA的地球观测卫星以每小时50GB的速度发回数据）互联网数据含噪音（

11、不完全、不正确）异质数据（多种数据类型混合的数据源，来自互联网的数据是典型的例子）2022年5月31日32系统的特征知识发现系统需要一个前处理过程数据抽取数据清洗数据选择数据转换知识发现系统是一个自动/半自动过程知识发现系统要有很好的性能2022年5月31日33知识的特征知识发现系统能够发现什么知识？计算学习理论COLT（Computational Learning Theory）以FOL为基础的以发现关系为目的的归纳逻辑程序设计现行的知识发现系统只能发现特定模式的知识规则分类关联2022年5月31日34算法的特征构成数据挖掘算法的三要素模式记述语言：反映了算

12、法可以发现什么样的知识模式评价：反映了什么样的模式可以称为知识模式探索：包括针对某一特定模式对参数空间的探索和对模式空间的探索2022年5月31日353、数据挖掘技术技术分类预言（Predication）：用历史预测未来描述（Description）：了解数据中潜在的规律数据挖掘技术分类关联规则聚集时间序列2022年5月31日36决策树算法基本介绍根据数据源，找到决定预测目标的因素的重要关系登记以及程度。把已知条件自动分解为多个离散的类别初始状态是一个大的空间，挖掘的过程是递归分区不断分割。2022年5月31日37案例我们有大量的客户年龄在20-60岁月薪在

13、08000元55%的被我们认可为好客户里边潜在的规律是什么？2022年5月31日38谁是我们的有价值客户呢？2022年5月31日39谁是我们的有价值客户呢？2022年5月31日40谁是我们的有价值客户呢？2022年5月31日41决策树算法典型应用一个或多个变量预测目标，变量对目标的重要程序。预测客户是否会购买某种产品，预测潜在客户。评估客户风险找到决策规则2022年5月31日42关联规则算法基本介绍分析发现数据库中不同变量或个体间之间的关系程度，用这些规则找出顾客购买行为模式。关联规则算法可以处理异常大的目录，经过了包含超过五千万种商品的目录的测试。2022年5月31日43关联规

14、则算法典型应用购物篮物品关联度货品摆放捆绑销售网站内容关联个性化促销网上书店关联销售 2022年5月31日44聚类算法基本介绍将相似的事物归类最大期望方法 K-Means2022年5月31日45聚类算法典型应用分类和预测、客户价值度分析典型问题寻找有价值客户群体寻找欺诈群体2022年5月31日46 2022年5月31日47 分类：预测项目所属类根据已有训练数据集和所属类，构建模型来分类现有数据，并用来分类新数据预测：是构造和使用模型评估无样本类，或评估给定样本可能具有的属性或值空间。建立连续函数值模型，比如预测空缺值2022年5月31日48预测和分类的异同

15、相同点两者都需要构建模型都用模型来估计未知值预测当中主要的估计方法是回归分析线性回归和多元回归非线性回归不同点分类法主要是用来预测类标号（分类属性值）预测法主要是用来估计连续值（量化属性值）2022年5月31日49训练数据集NAME RANKYEARS TENUREDMikeAssistant Prof3noMaryAssistant Prof7yesBill Professor2yesJimAssociate Prof7yesDaveAssistant Prof6noAnneAssociate Prof3no分类算法IF rank = professorOR years 6THE

16、N tenured = yes 分类规则2022年5月31日50分类规则测试集NAMERANKYEARS TENUREDTomAssistant Prof2noMerlisa Associate Prof7noGeorge Professor5yesJoseph Assistant Prof7yes未知数据(Jeff, Professor, 4)Tenured?注：测试集要独立于训练样本集，否则会出现“过分适应数据”的情况2022年5月31日51 通过对数据进行预处理，可以提高分类和预测过程的准确性、有效性和可伸缩性数据清理消除或减少噪声，处理空缺值。相关性分析数据中的有些属性可能与当

17、前任务不相关；也有些属性可能是冗余的；数据变换可以将数据概化到较高层概念，或将数据进行规范化2022年5月31日52 使用下列标准比较分类和预测方法预测的准确率：模型正确预测新数据的类编号的能力速度：产生和使用模型的计算花销鲁棒性：给定噪声数据或有空缺值的数据，模型正确预测的能力可伸缩性：对大量数据，有效的构建模型的能力可解释性：学习模型提供的理解和洞察的层次2022年5月31日53 什么是判定树？类似于流程图的树结构每个内部节点表示在一个属性上的测试每个分枝代表一个测试输出每个树叶节点代表类或类分布判定树的生成由两个阶段组成判定树构建开始时，所有的训练样本都在根节点

18、递归的通过选定的属性，来划分样本（必须是离散值）树剪枝许多分枝反映的是训练数据中的噪声和孤立点，树剪枝试图检测和剪去这种分枝判定树的使用：对未知样本进行分类通过将样本的属性值与判定树相比较2022年5月31日54 判定归纳树算法（一个贪心算法）自顶向下的分治方式构造判定树树以代表训练样本的单个根节点开始使用分类属性（如果是量化属性，则需先进行离散化）递归的通过选择相应的测试属性，来划分样本，一旦一个属性出现在一个节点上，就不在该节点的任何后代上出现测试属性是根据某种启发信息或者是统计信息来进行选择（如：信息增益）注：属性的选择递归划分步骤停止的条件给定节点的所有样本属

19、于同一类没有剩余属性可以用来进一步划分样本使用多数表决没有剩余的样本2022年5月31日55 贝叶斯分类利用统计学中的贝叶斯定理，来预测类成员的概率，即给定一个样本，计算该样本属于一个特定的类的概率。朴素贝叶斯分类：假设每个属性之间都是相互独立的，并且每个属性对非类问题产生的影响都是一样的。)()()|()|(DPhPhDPDhP2022年5月31日56 Bagging技术和boosting技术都通过将T个学习得到的分类法C1,C2CT组合起来，从而创造一个改进的分类法C* Bagging技术对训练集S进行T次迭代，每次通过放回取样选取样本集St，通过学习St得到分类法Ct 对于未知样

20、本X，每个分类法返回其类预测，作为一票 C*统计得票，并将得票最高的预测赋予X Boosting技术每个训练样本赋予一个权值 Ct的权值取决于其错误率2022年5月31日572022年5月31日58关联规则挖掘：在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。应用：购物篮分析、交叉销售、产品目录设计等。举例：规则形式： “Body Head support, confidence”.buys(x, “diapers”) buys(x, “beers”) 0.5%, 60%2022年5月31日59 查找所有的规则 X & Y Z 具

21、有最小支持度和可信度支持度, s, 一次交易中包含X 、 Y 、 Z的可能性可信度, c, 包含X 、 Y的交易中也包含Z的条件概率注：可信度 A C (50%, 66.6%) C A (50%, 100%)买尿布的客买尿布的客户户二者都买二者都买的客户的客户买啤酒的客户买啤酒的客户2022年5月31日60布尔 vs. 定量关联 (基于处理数据的类型)buys(x, “SQLServer”) buys(x, “DMBook”) buys(x, “DBMiner”) 0.2%, 60%age(x, “30.39”) income(x, “42.48K”) buys(x, “PC”) 1%

22、, 75%单维 vs. 多维关联 (例子同上)单层 vs. 多层分析那个品种牌子的啤酒与那个牌子的尿布有关系?各种扩展相关性、因果分析关联并不一定意味着相关或因果添加约束如, 哪些“小东西”的销售促发了“大家伙”的买卖？2022年5月31日61对于 A C：support = support(A 、C) = 50%confidence = support(A 、C)/support(A) = 66.6%交易ID购买商品2000A,B,C1000A,C4000A,D5000B,E,F频繁项集支持度A75%B50%C50%A,C50%最小值尺度 50%最小可信度 50%2022年5月31日62

23、 Apriori的基本思想:频繁项集的任何子集也一定是频繁的频繁集:是指满足最小支持度的项目集合频繁集的子集也一定是频繁的如, 如果AB 是频繁集，则 A B 也一定是频繁集从1到k（k-频繁集）递归查找频繁集用得到的频繁集生成关联规则2022年5月31日63 项通常具有层次底层的项通常支持度也低某些特定层的规则可能更有意义交易数据库可以按照维或层编码可以进行共享的多维挖掘食品面包牛奶脱脂奶光明统一酸奶白黄TID ItemsT1111, 121, 211, 221T2111, 211, 222, 323T3112, 122, 221, 411T4111, 121T5111, 1

24、22, 211, 221, 4132022年5月31日64 自上而下，深度优先的方法：先找高层的“强”规则：牛奶面包 20%, 60%. 再找他们底层的“弱”规则：酸奶黄面包 6%, 50%.2022年5月31日65 支持度不变: 在各层之间使用统一的支持度 + 一个最小支持度阈值. 如果一个项集的父项集不具有最小支持度，那他本身也不可能满足最小支持度。底层项不会成为频繁集，如果支持度太高丢失底层关联规则太低生成太多的高层关联规则支持度递减: 随着层次的降低支持度递减2022年5月31日66支持度不变多层挖掘牛奶牛奶support = 10%酸奶酸奶 support = 6%脱

25、脂奶脱脂奶support = 4%层层 1min_sup = 5%层层 2min_sup = 5%2022年5月31日67支持度递减多层挖掘酸奶酸奶 support = 6%脱脂奶脱脂奶 support = 4%层层 1min_sup = 5%层层 2min_sup = 3%牛奶牛奶support = 10%2022年5月31日68 由于“祖先”关系的原因，有些规则可能是多余的。例子牛奶白面包 support = 8%, confidence = 70% 酸奶白面包 support = 2%, confidence = 72% 我们称第一个规则是第二个规则的祖先参考规则的祖先，如果他

26、的支持度与我们“预期”的支持度近似的话，我们就说这条规则是冗余的。2022年5月31日69 自顶向下，深度优先的方法：先挖掘高层频繁项：牛奶 (15%), 面包 (10%) 再挖掘他们底层的相对较弱的频繁项：酸奶 (5%), 白面包 (4%) 跨层时对支持度的不同处理方法，对应了不同的算法: 层之间支持度不变：如果t的祖先是非频繁的，则不用考虑t 支持度随层递减：则只考虑那些其祖先是频繁的/不可忽略的项2022年5月31日70 单维规则：buys(X, “milk”) buys(X, “bread”) 多维规则： 2个以上维/谓词维间关联规则 (维词不重复)age(X,”19-25”)

27、 occupation(X,“student”) buys(X,“coke”) 混合维关联规则 (维词重复)age(X,”19-25”) buys(X, “popcorn”) buys(X, “coke”) 类别属性有限个值, 值之间无顺序关系数量属性数字的，值之间隐含了顺序关系2022年5月31日71 搜索频繁k-维词集合：如: age, occupation, buys 是一个3-维词集合。按照对 age 处理方式的不同，分为：1. 用静态方法把数值属性离散化数值属性可用预定义的概念层次加以离散化。2. 带数量的关联规则根据数据的分布动态的把数值属性离散化到不同的“箱”。3.

28、基于距离的关联规则用数据点之间的距离动态的离散化2022年5月31日72大趋势 BIG DATA2022年5月31日732022年5月31日74美国的大数据战略 2012年3月，美国奥巴马政府宣布投资2亿美元启动“大数据研发计划”，旨在提高和改进从海量和复杂数据中获取知识的能力，加速美国在科学和工程领域发明的步伐，增强国家安全。这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署，由美国国家科学基金会、能源部等6个联邦部门共同投资。2022年5月31日75谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时，把个人的行为、喜好等信息也免费的送给了Goog

29、le。因此Google的产品线越丰富，他对用户的理解就越深入，他的广告就越精准。广告的价值就越高。这是正向的循环，谷歌好用的、免费得软件产品，换取对用户的理解；通过精准的广告，找到生财之道。颠覆了微软卖软件拷贝赚钱的模式。成为互联网的巨头。互联网越来越智能互联网越来越智能2022年5月31日76马云的判断来自于数据分析马云的判断来自于数据分析“2008年初年初,阿里巴巴平台阿里巴巴平台上上整个整个买家买家询盘数急剧下滑询盘数急剧下滑，欧美对中国采购在下滑。欧美对中国采购在下滑。海关是卖了货海关是卖了货,出去以后再出去以后再获得数据获得数据;而我们提前半年而我们提前半年时间从询盘上推断出世界贸时

30、间从询盘上推断出世界贸易发生变化了易发生变化了。”马云对未来的预测，是建立在马云对未来的预测，是建立在对用户行文分析的基础上。对用户行文分析的基础上。通常而言，买家在采购商品前，会比较多家供应商的产品，反映到阿里巴巴网站统计数据中，就是查询点击的数量和购买点击的数量会保持一个相对的数值，综合各个维度的数据可建立用户行为模型。因为数据样本巨大，保证用户行为模型的准确性。因此在这个案例中，询盘数据的下降，自然导致买盘的下降。腾讯在天津投资建立亚洲最大的数据中心；百度也在投资建立大数据处理中心；2022年5月31日77什么是大数据?2022年5月31日78大数据就是云计算吗? 2022年5月31日7

31、9大数据的4V特性体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式（文本、图像、视频、机器数据）无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析（机器学习、人工智能Vs传统商务智能(咨询、报告等）实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效2022年5月31日80Variety 多样性企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位

32、置信息等是大数据的主要来源. 能够在不同的数据类型中能够在不同的数据类型中,进行交叉分析的技术进行交叉分析的技术,是大数据的核心技术之一是大数据的核心技术之一.语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用.2022年5月31日81Velocity 速度1s 是临界点.对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的.实时处理的要求实时处理的要求,是区别大数据引用和传统数据仓库技术是区别大数据引用和传统数据仓库技术,BI技术的关键差别之技术的关键差别之一一.重庆抢劫案：周克华2022年5月31日82Volume 数据量PB是大数据層次的临界点是大数据層次的临界点. KB-MB-GB-TB-PB-EB-ZB-YB-NB-DB

展开阅读全文