ImageVerifierCode 换一换
格式:PPTX , 页数:73 ,大小:929.94KB ,
文档编号:3335604      下载积分:28 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-3335604.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(三亚风情)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(大数据分析与挖掘01数据挖掘概论课件.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

大数据分析与挖掘01数据挖掘概论课件.pptx

1、 数据挖掘概论聊点别的聊点别的 作为老师,你能在开课之初第一次课一眼扫过教室,就知道该给这个班这个班好不好教、该什么样的教学方式?经过几周,你会逐渐了解这个班的80/15/5人群,你会相应的调整分别对这些学生怎么教学,不费力还能讨好?甚至有些学生会跟你做朋友,你永远都懂得他们想听什么,他们也觉得你特别懂他们,你在内心中狂喜。有时候你也会跟他们讲三岁看老的道理、也会拿着作业本就侃侃而谈他将来哪里会顺哪里会痛,而这些好像还真的被你“算”对了!你给她们描绘的美好的前途激励了学生们学习的激情和兴趣。Part 1.你准备好应对大数据时代了身 处大数据时代!我们已经处在大数据时代,可能还浑然不知事件一:变

2、革公共卫生事件2009年,H1N1流感预测对手谷歌疾控中心武器分析搜索记录医院报告结果谷哥提前两周得到结果与官方数据相关性达97%维克托教授将带我们一窥大数据时代的全景事件二:变革商业事件机票价格预测人物埃齐奥尼的Farecast系统武器分析大量价格记录结果票价预测准确度达75%平均每张机票节省50美元时间就是生命!省钱是硬道理!处理数据理念的思维变革挖掘数据价值的商业变革面对数据风险的管理变革3大重要变革010102020303处理数据理念的思维变革0101云计算能便宜、有效、高速地的对信息存储、分享和挖掘采样分析是信息缺乏时代和信息流通受限制时代的产物a更多而是全体数据不是随机样本b更杂不

3、求精确、更多混杂非结构c更好而是相关关系不是因果关系挖掘数据价值的商业变革0202大数据时代的重要价值在数据深挖掘数据的价值来源于万物数据化和数据交叉复用a数据化01码转可量化、交叉复用b价值之不竭、开放取之不尽,用c角色定位思维的三足鼎立数 据、技 术 与面对数据风险的管理变革0303需要新的规章制度应对大数据时代的各种隐忧危险不再是隐私的泄露,而是被预知的可能性b掌控的 信 息 管 理责任与自由并举a风险一 切 的 隐 忧让 数 据 主 宰初识数据分析Part 2.现实中的问题现实中的问题 你的产品更新是否达到了你的预期效果?你的流量发生波动的原因是哪些?你如何控制你的成本?你如何去预测你

4、未来的流量,收入,或是成本?面对一堆数据,你该如何下手?大数据(大数据(Big Data)数据分析:进行数据收集、整理、分析、并依据数据做出评估和预测 BIG DATA:Big data is like teenage sex,everyone talks about it,nobody really knows how to do it,everyone thinks everyone else is doing it,so everyone claims they are doing it.数据分析流程:SEMMA业务分析目的产品理解收集收集数据抽样数据导入数据分裂过滤抽样探索图形探索数值

5、探索聚类分析特征选择修改删除主成分建模逻辑回归SVM神经网络评估模型比较模型评分EXCEL-数据分析的基础数据分析的基础 常用的分析技术 描述统计(平均数、标准误差、中位数、众数、标准差、方差等)相关系数(可以使用相关系数分析工具来检验每对测量值变量,以便确定两个测量值变量是否趋向于同时变动,检测两个变量是否相关以及关联的程度有多强)T检验(双样本 t-检验”分析工具基于每个样本检验样本总体平均值的等同性,检测两组数据是否有差异)回归(回归分析工具通过对一组观察值使用“最小二乘法”直线拟合来执行线性回归分析。本工具可用来分析单个因变量是如何受一个或多个自变量影响的。)数据分析还能做什么?数据分

6、析还能做什么?对用户或者渠道进行等级分类(聚类分析)对渠道是否作弊进行判断(逻辑回归,支持向量机等)对不同推广方式的有效性进行检测(方差分析)对广告位或者推广价格的精准制定(回归分析)商品推荐(关联分析)。数据数据挖掘挖掘的应用的应用关于数据挖掘的故事关于数据挖掘的故事142022-8-11 历史性的大数据时代 东东比萨店的电话铃响了,客服人员拿起电话。客服:东东比萨店,您好,请问有什么需要我为您服务?顾客:你好,我想要 客服:先生,请把您的AIC会员卡号码告诉我。顾客:135259XXXXXX。客服:陈先生,您好,您是住在XX街一号12楼1205室,您家电话是2039XXXX。对吗?(1.客

7、户数据库)顾客:为什么你知道我的电话号码?客服:陈先生,因为我们有AIC会员系统。152022-8-11 顾客:我想要海鲜比萨 客服:陈先生,海鲜比萨不适合您。顾客:为什么?客服:根据您的医疗记录,您有高血压和胆固醇偏高。(2.医疗数据库)顾客:那你们有什么可以推荐的?客服:您可以试试我们的低脂健康比萨。顾客:你怎么知道我会喜欢吃这种的?客服:您上星期一在中央图书馆借了一本低脂健康食谱。(3.图书借阅数据库)顾客:好那我要一个家庭号特大比萨,要付多少钱?162022-8-11 客服:99元,这个足够您一家六口吃了,但是您母亲应该少吃,因为她上个月刚做了心脏搭桥手术,处在恢复期。(2.医疗数据库

8、)顾客:可以刷卡吗?客服:陈先生,对不起,请您付现款,因为您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。(4.金融数据库-信用卡)顾客:“喔!那我先去附近的提款机领钱。”客服:“陈先生,根据您的记录,您已经超过今日提款机提款限额。”(5.金融数据库-现金卡)顾客:算了。你们直接把比萨送到我家吧,家里有现金。你们多久会送到?客服:大约三十分钟,如果您不想等,可以自己骑车来。172022-8-11 顾客:什么?客服:根据AICCRM系统全球定位系统的实时自动跟踪系统的记录,目前您正骑着这辆车,离我们店并不远。(1.客户数据库)顾客:XXX 客服:陈先生,请您说话小心点儿,您

9、曾在2004年4月1日用脏话侮辱XX,被拘役10天,罚款200元。如果您不想重蹈覆辙,就请您礼貌回复。(6.刑事刑案数据库)顾客:那算了,我什么都不要了,那份比萨也不要了!客服:谢谢您的电话光临,下星期三是您太太的生日,你不想预订一份生日比萨吗?提前一周预订可以享受8折优惠。(1.客户数据库)顾客:18CRM Road MAP数据仓库营销自动化接触通路电子邮件/简讯客服中心网络银行邮件/传真业务代表销售自动化服务自动化作业型资料储存库(ODS)整合性客户数据库分析性资料超市分析模块(AnalyticalModels)/BusinessDomainReadySolutions前台后台查询/报表在

10、线实时分析数据挖掘(Data Mining)客户数据挖掘所能解决的典型商业问题包括:银行:反欺诈行为、关联销售、市场竞争分析。客户分类、客户价值分析与预测、客户偏好分析、客户信用分析以及欺诈检测等。电信:流失预警、客户分群、关联销售。网上销售点:购物车交叉销售、网上商品布局。2022-8-1119数据挖掘在企业中的应用数据挖掘在企业中的应用 DM在信用卡欺诈交易中的应用:通过评价交易数目、交易金额、账户信息如姓名变化和地址变迁、换卡申请等非金融信息的组合,描述出持卡人最近交易的大概轮廓,从而评估出是否与持卡人的交易习惯相符,发现交易异常明显痕迹,发卡行需要联系持卡人,以确定其信用卡账户最近是否

11、正常,是否被以任何方式遭受损害。2022-8-1120DM在大型零售企业中的应用 优化商品组合布局,正确安排商品进货与库存:从众多的商品中发现创造价值最大的商品,据此调整商品的结构,安排商品的库存和定货;商品布局管理通过商品摆放位置促进销售,如超级市场的厨房用品是按照女性的视线高度来摆放。如美国妇女的视线高度是150公分左右,男性是163公分左右,而最舒适的视线角度是视线高度以下15度左右,所以最好的货品陈列位置是在130-135公分之间。精准制定营销策略:(1)通过对市场同类产品和销售情况、顾客情况的收集和分类分析,明确细分市场,确定本企业差别化的产品和服务定位、目标顾客和市场营销策略。(业

12、绩分析);(2)正确安排商品进货与库存,降低库存成本 DM在交叉销售中的应用:拥有汽车的新婚夫妻购买儿童专用汽车椅时通过数据挖掘推荐购买儿童专用汽车椅颜色,以便在新婚夫妻购买汽车的时候销售给他们合适儿童专用汽车椅。2022-8-1121DM在管理优化与支持 市场分析和管理:针对销售(target marketing),顾客关系管理,购物篮分析,交叉销售(cross selling),市场分割(market segmentation)风险分析与管理:预测,顾客关系,改进保险,质量控制,竞争能力分析 欺骗检测与管理DM在其他应用 文本挖掘(新闻组,email,文档资料)流数据挖掘(Stream d

13、ata mining)DNA 数据分析运动领域:IBM Advanced Scout分析NBA的统计数据(阻挡投篮,助攻,和犯规)获得了对纽约小牛队(New York Knicks)和迈艾米热队(Miami Heat)的竞争优势天文领域:借助数据挖掘,JPL 和 Palomar Observatory 发现22 颗类星体(quasars)Internet Web Surf-Aid:IBM Surf-Aid 将数据挖掘算法用于有关交易的页面的Web访问日志,以发现顾客喜爱的页面,分析Web 销售的效果,改进Web 站点的组织,等.Top 10数据挖掘工具数据挖掘工具 1.RapidMiner 2

14、.SAS Data Mining(SAS)3.WEKA 4.Teradata 5.Orange 6.KNIME 7.NLTK 8.JHepWork 9.Pentaho 10.OracleData Mining242022-8-11PMT:一款基于Python的数据挖掘工具数据挖掘与数据仓库Part 3.数据挖掘的社会需求数据挖掘的社会需求 现实情况:人类积累的数据量以每月高于15%的速度增加1.信息过量,难以消化;2.信息真假难以辨识;3.信息安全难以保证;4.信息形式不一致,难以统一处理。数据挖掘的内容和本质 随着DMKD研究逐步走向深入,其研究工作已经形成了三根强大的技术支柱:DB、AI和

15、数理统计。DMKD的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。DM所发现的知识最常见的有以下五类:广义知识(Generalization);关联知识(Association);分类知识(ClassificationClustering);预测型知识(Prediction);偏差型知识(Deviation)数据挖掘的技术基础(1)超大规模数据库的出现(2)先进的计算机技术(3)经营管理的需要(4)对数据的精深计算能力数据挖掘数据挖掘 数据挖掘的技术定义 数据挖掘是从大量的

16、、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。简单地说,数据挖掘就是从大量数据中提取或“挖掘”知识。数据挖掘和信息检索的比较信息检索和数据挖掘的相同点是从档案文件或数据库中抽取感兴趣的数据和信息。区别在于数据检索对信息的抽取规则是事先定义好的,抽取的是外在信息。数据挖掘则寻找现象之间事先未知的关系和关联 。数据挖掘的商业定义 数据挖掘是一种崭新的商业信息处理技术。其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识,即从一个数据库中自动发现相关商业模式。数据挖掘与传统的数据分

17、析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征。大数据的4V特点 大量化(Volume)多样化(Variety)快速化(Velocity)价值(Value)数据挖掘的分类数据挖掘的分类 数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机器学习、可视化和信息科学。数据挖掘受多门学科影响的示意图分类标准类别按数据挖掘方法的直接性直接数据挖掘、间接数据挖掘按数据分析的角度分类描述式数据挖掘、预测式数据挖掘按挖掘的数据库分类关系型、事务型、面向对象型、主动型、空间型、文本型、多媒体、异构数据库按挖掘的规则

18、分类关联规则、分类规则、聚类规则、趋势分析、偏差分析、模式分析、特征规则、总结规则按采用的技术分类模糊和粗集方法、人工神经网络、遗传算法、决策树、最近邻技术、规则归纳、可视化技术按挖掘知识的抽象层次分类原始层次、高层次和多层次按挖掘知识的反映事物之间的性质分类同类共性广义知识、特征型知识、属性差别知识、关联型知识、预测型知识、离群型知识数据挖掘的分类数据挖掘的应用领域数据挖掘的应用领域(1)金融领域(2)营销领域(3)电子政务领域(4)电信领域(5)工业生产领域(6)生物和医学领域(1)金融领域金融领域 贷款偿还预测 客户信用政策分析 客户透支分析 客户利润分析 客户消费行为分析 客户消费异常

19、行为分析(2)营销领域)营销领域 关联分析-市场篮子分析,用于了解顾客的购买习惯和偏好,有助于决定市场商品的摆放和产品的捆绑销售策略;序列模式与市场篮子分析相似,不过是用某时间点发现的产品购买或其他行为模式来预测将来购买产品或服务类别的概率;聚类用于市场细分,将顾客按其行为或特征模式的相似性划分为若干细分市场,以采取有针对性的营销策略;分类用于预测哪些人会对邮寄广告和产品目录、赠券等促销手段有反应,还可用于顾客定级、破产预测等。例如:美国运通公司“关联结算优惠”的促销策略 美国读者文摘出版公司(3)电子政务领域)电子政务领域 电子政务数据挖掘是把数据挖掘及时折射到政府部门,使政府部门的内部信息

20、与外部信息进行有效地整合,以便政府部门可以更好、更有效地将信息发布给最希望得到它们的公众,从而使政府部分更好地服务于公众。另外,由于政府各部门自动化的实现,产生了大量的数据,对这些数据进行收集和分析,可以获得影响政府部门工作的关键因素,从而为政府部门决策提供依据,帮助政府部门提高政府信息化水平,促进整个社会的信息化。如:美、英、日本、新加坡(电子公民中心)(4)电信领域)电信领域 目前,数据挖掘技术在电信CRM系中的应用有以下几个方面:(1)客户获得(2)交叉销售(Cross_selling)(3)客户保持 (4)一对一营销(5)工业生产领域)工业生产领域 在生产工业领域,大部分工厂都积累了大

21、量的实际生产数据,这些数据大多以数据库、数据文件、生产记录等形式存在,它们蕴涵了与生产设备、生产过程相关的许多规律性知识和生产决策、操作人员的操作决策和控制经验。工业过程优化是应用工业生产数据挖掘的一个重要目标。应用方法:(1)建立过程输入输出模型,以此模型为指导寻求最优的操作和控制条件;(2)构造数据样本后,根据某种评估分类方法选出优选样本,根据优选样本的分布确定可探最优区,确定优化方向。(6)生物和医学领域)生物和医学领域 海量的生物信息学信息,如基因;远程数据库的出现,网络数据挖掘技术在生物信息学中的应用方兴未艾;万维网上涌现出大量的生物学数据库;美国国立生物技术信息中心网站(NCBI)

22、数据挖掘项目实施的步骤数据挖掘项目实施的步骤长途电信公司如何使用数据挖掘提高其竞争优势长途电信公司如何使用数据挖掘提高其竞争优势 1、问题定义 随着长途电信业务竞争日益激烈,传统营销方法保持客户已显得越来越困难。电信公司拟采用数据挖掘来划分客户,调整销售信息发布策略,希望对语音邮件和页面传送服务两个不同产品线进行分析,以加深对基本客户的了解。公司使用数据挖掘有两个目标:(1)从公司的基本客户识别出有价值的客户群体并预测怎样才能保留这些客户。(2)从公司基本客户识别出有价值客户群体并预测怎样对这些客户进行交叉销售。2、发现信息:“高价值用户”:一组频繁使用电话的客户。3、制定计划:开展一系列的市

23、场营销活动为这类用户提供有吸引力的产品。要保留住这些高价值用户就必须有针对地制定出新的市场计划。计划的内容必须基于及时有效的信息,这样才能保证计划的目标能够准确地跟上人们的消费行为及市场的变化。4、行动原则:当客户与公司进行联系时开展促销行动最有针对性。客户与公司进行联系的渠道包括呼叫中心或交互式WEB站点。用户主动与公司进行交互将使企业有机会获得他们的关注。这也意味着公司需要将数据挖掘模型与客户交互渠道相互集成。为了实现与客户交互渠道集成,公司决定通过呼叫中心向客户发布促销信息,吸引高价值用户将电话打入呼叫中心,并通过主动的电话交谈而保留住这些高价值的客户。5、监测效果数据仓库的发展数据仓库

24、的发展 传统数据库对日常事务处理十分理想,但是要基于事务处理的数据库帮助决策分析,就产生了很大的困难。其原因主要是传统数据库的处理方式和决策分析中的数据需求不相称,导致传统数据库无法支持决策分析活动。这些不相称性主要体现在决策处理中的系统响应问题,决策数据需求的问题和决策数据操作的问题。(1)决策处理的系统响应问题(2)决策数据需求的问题(3)决策数据操作的问题 数据仓库的定义 数据仓库之父W.H.Inmon在Building the Data Warehouse中将数据仓库定义为:“一个面向主题的、集成的随时间变化的非易失数据的集合,用于支持管理层的决策过程”。从这个定义中,可以发现数据仓库

25、具有一些重要的特性:面向主题性、数据集成性、数据的时变性、数据的非易失性、数据的集合性和支持决策作用。数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。AllElectronics典型的数据仓库结构典型的数据仓库结构 如何处理如下问题?(1)“数据太多,信息不足”(2)异构环境的数据的转换和共享(3)从进行数据处理发展为利用数据支持决策

26、 数据仓库架构图数据仓库架构图数据挖掘与数据仓库的关系数据挖掘与数据仓库的关系 数据仓库是一种存储技术,数据挖掘研究各种方法和技术 数据挖掘的数据源可以是数据仓库,也可以是其它形式(数据文件等);数据仓库与数据挖掘是有着完全不同的辅助决策方式的新技术ETL:数据抽取、转换、加载数据抽取、转换、加载 ETL:将原来业务系统的数据经过抽取、转换、加载到数据仓库所在的中心存储库的过程称为ETL(Extraction,Transformation and Loading)过程。相对于数据仓库中的表而言,业务系统数据库中的表称为源表,业务系统数据库称为源数据库,数据仓库中所有的数据都来自于业务系统数据库

27、。ETL过程的功能是:发现数据仓库需要的数据,将其从源系统中抽取出来,并进行一定的净化处理,然后装载到数据仓库中去。数据仓库数据仓库临时存储区数据源数据源抽取抽取转换转换/清洁清洁装载装载 All driven by metadataETL(抽取-转换/清洁-装载)的流程)的流程 ETL功能提高数据质量 数据清洁。补充缺失值,平滑噪声数据,识别与删除异常数据以及有效解决数据的一致性问题 数据集成。多个数据库、数据立方体或文件的数据整合 数据转换。实现数据的归一化 数据简化。在不影响分析结果的前提下,缩减数据量 数据离散化。对于数值型数据可通过取样实现离散化以降低数据量基于数据仓库的决策支持系统

28、基于数据仓库的决策支持系统 数据仓库的决策支持功能 数据仓库中的大量综合数据,通过预测模型计算得到预测信息,对当前和历史数据完成查询和报表处理;按“如果,将怎样(what-if)”逻辑,从综合数据到细节数据,深入追踪钻取查询,寻找问题出现原因 可视化查询工具按对分析要求进行查询,以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性。联机分析处理(OLAP)对数据仓库的数据的切片、切块、旋转、钻取等多维数据分析,得到更深层中的信息和知识。数据挖掘(DM)技术能从大量数据中挖掘获取关联知识、时序知识、聚类知识、分类知识等。数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)等结合,

29、形成决策支持系统。60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端客户对数据库查询分析的需要,SQL对大型数据库的简单查询也不能满足终端客户分析的要求。客户的决策分析需要对关系数据库进行大量计算才能获得结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。OLAP的基本思想:从多方面和多角度以多维的形式来观察企业信息的状态,了解企业变化。一般的查询只能回答What,OLAP则回答W

30、hy。多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。OLAP的基本概念术语 变量:变量是数据的实际意义,即描述数据“是什么”,往往也是待分析的内容。维:维是人们观察数据的特定角度。如产品维、顾客维、时间维等。维的层次:数据的细节不同程度为维的层次。如日、月、季、年是时间维的层次。维成员:维的一个取值称为该维的一个维成员。如“某年某月某日”是时间维的一个成员。多维数组:一个多维数组可以表示为:(维1,维2,维n,变量)数据单元(单元格):多维数组的取值称为数据单元,如,4维数据单元(牙膏,上海,1998年12月,批发,销售额为100000元)。OLAP的定义:是一种软件技

31、术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。这些信息是从原始数据转换过来的,按照用户的理解,它反映了企业真实的方方面面。OLAP的主要特点 一是在线性(On Line),体现为对用户请求的快速响应和交互式操作;二是多维分析(Multi_Analysis),这是OLAP技术的核心所在。根据对数据的组织方式的不同,OLAP分为两种:基于多维数据库的OLAP(MD-OLAP)基于关系数据库的OLAP(ROLAP)前者响应速度快、执行效率高,但源于结构的局限,灵活性不高。与之相比,后者由于建立在大量现有数据库(数据仓库)的基础上,灵活性、扩展性要高的多,并且支持

32、大数据量和较多维数的能力也要强于前者。因此,虽然在响应速度、执行效率上差一点,仍然得到了广泛应用。现有的OLAP工具大多基于后者。OLAP与与OLTP的不同的不同 OLTP OLAP 使使用用者者 职员、IT人员 知识工作者 功功能能 日常操作 决策支持 数数据据库库设设计计 面向应用的 面向主题的 数数据据特特点点 当前的,更新的 详细的,关系型的 孤立的 历史的,汇总的,多维的 集成的,consolidated 使使用用 repetitive ad-hoc 存存取取方方式式 读/写 索引 大量的扫描 unit of work 简单的事务处理 复杂的查询 记记录录 访访问问量量 几十 上百万

33、 用用户户数数量量 数以千计 数以百计 数数据据库库规规模模 100MB-GB 100GB-TB OLAPOLAP与数据挖掘的比较与数据挖掘的比较 相同之处 OLAP与DM都是数据库(数据仓库)上的分析工具;不同之处(1)在实际应用中各有侧重。前者是验证型的,后者是挖掘型的;(2)前者建立在多维视图的基础之上,强调执行效率和对用户请求命令的及时响应,而且其直接数据源一般是数据仓库;后者建立在各种数据源的基础上,重在发现隐藏在数据深层次的对人们有用的模式,一般并不过多考虑执行效率和响应速度。(3)数据挖掘与OLAP不同,主要体现在它分析数据的深入和分析过程的自动化,自动化的含义是其分析过程不需要

34、客户的参与,这是它的优点,也正是其不足。因为在实际中,客户也希望参与到挖掘中来,例如只想对数据的某一子集进行挖掘,对不同抽取、集成水平的数据进行挖掘,或是根据自己的需要动态选择挖掘算法等等。OLAP与数据挖掘的结合OLAM 将OLAP与数据挖掘结合起来,发展出一种为数据挖掘服务的具有新型OLAP的数据仓库,将更能适应实际的需要。OLAM(On Line Analytical Mining,联机分析挖掘)正是这种结合的产物。OLAP基本分析功能 切片和切块(Slice and Dice):根据维的限定作投影、选择等数据库操作,从而获取相应数据 旋转(Pivoting):将表格(维)的横纵坐标交换

35、 钻取:上钻(Roll up)和下钻(Roll down),根据维的层次提升所关心的数据或降低观察层次钻取钻取 钻取有向下钻取(drill down)和向上钻取(drill up)操作。向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据。向上钻取获取概括性的数据。例如,例如,20052005年各部门销售收入表如下:年各部门销售收入表如下:对时间维进行下钻操作,获得新表如下:对时间维进行下钻操作,获得新表如下:2005年年部门部门1季度季度2季度季度3季度季度4季度季度部门部门1200200350150部门部门225050150150部门部门3200150180270旋转旋转 通过

36、旋转可以得到不同视角的数据。旋转操作相当于平面数据将坐标轴旋转。例如,旋转可能包含了交换行和列,或是把某一个行维移到列维中去。或是把页面显示中的一个维和页面外的维进行交换(令其成为新的行或列中的一个)时间维产品维产品维时间维(a)行列交换旋转以改变显示布局时间维地区维产品维时间维产品维地区维旋转前的数据旋转前的数据旋转后的数据旋转后的数据旋转后再切片旋转后再切片n 绝对模型绝对模型n 解释模型解释模型n 思考模型思考模型n 公式模型公式模型 通过比较历史数据值或行为来描述过去发生的事实。绝对模型只能对历史数据进行比较,并且利用回归分析等一些分析方法得出趋势信息。解释模型 利用系统已有的多层次的

37、综合路径层层细化,找出事实发生的原因。假设今年销售量下降,那么解释模型应当能找出原因,即下滑与时间、地区、商品及销售渠道四者中的何种因素有关。思考模型 说明在一维或多维上引入一组具体变量或参数后将会发生什么。What-If 分析。例如该公司决策者为了解某商品的销售量是否与顾客的年龄有关,引入了行变量年龄,即在当前的多维视图上增加了顾客的年龄维。公式模型 该模型表示在多个维上,需要引入哪些变量或参数,以及引入后所产生的结果。公式模型自动完成上述变量引入工作,从而最终找出与销量有关的全部因素,并给出了引入后的结果。启动项目 建立技术环境 设计分析主题,进行数据建模 设计数据仓库中的数据库 开发数据

38、转换程序 管理元数据 开发用户决策的数据分析应用软件 管理数据仓库环境数据挖掘与传统数据分析Part 4.一般,数据挖掘可以分为以下三类:传统分析类 相应的数据挖掘模型主要包括:线性分析和非线性分析、回归分析、逻辑回归分析、变量分析、多变量分析、时间序列分析、最邻近算法、聚类分析等 知识发现类-它可以从数据仓库的大量数据中筛选信息,寻找并发掘人们所不知道的事实和规律。主要包括:人工神经网络、决策树、遗传算法、粗糙集、关联规则等 新近出现的挖掘技术 主要包括:文本数据挖掘针对非结构化信息;、Web数据挖掘针对大批量网络信息;可视化系统分为数据可视化、挖掘过程可视化、结果可视化和交互式数据可视化;

39、空间数据挖掘基于GIS的数据挖掘;分布式数据挖掘基于分布式DB的数据挖掘。数据挖掘数据库技术统计学其他学科信息科学机器学习可视化数据挖掘是 多学科交叉领域。统计学 统计学与自然、经济、社会都有紧密的关系。其法则和方法是概率论。通过对全部对象(总体)进行调查,为制定计划和决策提供依据。统计学中应用于数据挖掘的内容 常用统计(均值、方差等)相关分析/回归分析/假设检验/聚类分析 判别分析 主成份分析 统计学是数据挖掘的核心 统计学和数据挖掘有着共同的目标。统计学和数据挖掘有着共同的目标:发现数据中的结构或模式。统计学在数据挖掘中起着重要的作用。传统的统计学方法是数据挖掘的经典方法,统计学思想在整个

40、数据挖掘过程都有重要的体现,担负着不可忽视的重任。数据挖掘技术与统计学集成是必然趋势。2022-8-11702022-8-1171 数据挖掘不是统计分析 海量差异:数据挖掘基于多维、高复杂度的的海量数据 思维偏好:统计偏好数学上的严格性、避免出现特殊方法的运用,数据挖掘分析问题喜欢“冒险”的态度。技术手段:统计学中模型是主要的、模型计算是次要的;数据挖掘中算法也扮演着重要角色。前提假设:统计学基于前提假设;数据挖掘不做明确假设 统计理论:统计推断基于总体和样本;数据挖掘解释数据量加大后小概率事件的“显著性”;数据挖掘不是传统数据分析 数据挖掘的数据源与以前相比有了显著改变:数据是海量的;数据有噪声;数据可能是非结构化的;传统数据分析方法是假设驱动的:先给出假设然后通过数据验证;数据挖掘是要发现不能靠直觉、甚至违背直觉的信息或知识的发现驱动,模式是通过搜索工作从数据中自动提取,信息越出乎意料就可能越有价值。数据挖掘能对因缺乏有力数据分析工具而不能分析而累计的历史海量“数据坟墓”里面的数据价值进行智能处理谢 谢 观 看谢 谢 观 看

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|