第1章-数据挖掘概述课件.ppt

上传人(卖家):晟晟文业 文档编号:4607657 上传时间:2022-12-24 格式:PPT 页数:93 大小:896.52KB
下载 相关 举报
第1章-数据挖掘概述课件.ppt_第1页
第1页 / 共93页
第1章-数据挖掘概述课件.ppt_第2页
第2页 / 共93页
第1章-数据挖掘概述课件.ppt_第3页
第3页 / 共93页
第1章-数据挖掘概述课件.ppt_第4页
第4页 / 共93页
第1章-数据挖掘概述课件.ppt_第5页
第5页 / 共93页
点击查看更多>>
资源描述

1、经济数据挖掘与分析第1章 数据挖掘概述1王耀东上海财经大学第1章 数据挖掘概述21.1 数据挖掘定义1.2 数据挖掘的重要性及意义1.3 数据挖掘功能1.4 数据挖掘步骤和标准1.5 数据挖掘常用方法1.5.1 数据挖掘的对象1.5.2 数据挖掘的常用方法1.1 数据挖掘定义31.1.1 数据挖掘的技术定义1.1.2 数据挖掘的商业定义1.2 数据挖掘的重要性及意义41.3 数据挖掘功能51.4 数据挖掘步骤和标准61.4.1 数据挖掘步骤1.4.2 数据挖掘需要的人员1.5 数据挖掘常用方法71.5.1 数据挖掘的对象1.5.2 数据挖掘的常用方法第1章 数据挖掘概述8 1.1 数据挖掘定义

2、1.1.1 数据挖掘的技术定义1.1.2 数据挖掘的商业定义1.2 数据挖掘的重要性及意义1.3 数据挖掘功能91.4 数据挖掘步骤和标准 1.4.1 数据挖掘步骤 1.4.2 数据挖掘需要的人员1.5 数据挖掘常用方法 1.5.1 数据挖掘的对象 1.5.2 数据挖掘的常用方法1.1 前言10 Data Mining的汉语名称有:数据挖掘、数据淘金和数据采矿,还没有一个一致公认的译法,一般还是喜欢用英文Data Mining这个词,今后我们常用DM这样的简写来表示,因为很难找到一个确切的汉语词汇与之对应。数据挖掘11 直观上说,数据挖掘就是要采掘出隐藏在原始数据中对决策有用的信息,为管理和研

3、究服务。难怪很多人称之为数据淘金。12 数据挖掘的历史虽然较短,但从20世纪90年代以来,它的发展速度很快,加之它是多学科综合的产物,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义。商业周刊中文版1997年第7期发表的在原始数据中寻找关系一文 13 关于数据搜索技术、数据仓库技术,但讲的内容确是数据挖掘在银行、保险、电信及超市等方面的具体应用问题,并给出了由于进行了数据挖掘而获得了巨大回报的具体案例,如MCI通讯公司,Wal-Mart百货公司等。这说明一开始数据挖掘就是作为一个新兴的现代技术出现的。数据挖掘14 信息技术的发展,企业、政府机构可以很方便地收集到大量的资料。海量数据中确实

4、隐含着各种各样的信息,这些信息往往人们凭直觉与经验是难于发现的,而电脑的特点是不怕多、不怕烦,总是可以耐心地仔细处理,数据越多,对研究目标越了解,也就越容易发现有用的规律。数据挖掘正是在这种情况下,从一些个案的处理,克服了许多困难,利用了并行算法、人工智能、统计分析的技术,综合成一种新的、能快速处理大量、海量数据的技术。数据挖掘15 信息技术的发展,企业、政府机构可以很方便地收集到大量的资料。海量数据中确实隐含着各种各样的信息,这些信息往往人们凭直觉与经验是难于发现的,而用电脑的就容易发现有用的规律。数据挖掘正是在这种情况下,从一些个案的处理,克服了许多困难,利用了并行算法、人工智能、统计分析

5、的技术,综合成一种新的、能快速处理大量、海量数据的技术。1.2 什么是数据挖掘16 数据挖掘是目前IT行业发展最快的产业,并且许多不同领域的专家,如统计学家,金融学家等,对数据挖掘也产生了极大的兴趣。计算机技术,统计分析方法、各类算法及行业知识的结合推动了数据挖掘技术的快速发展。Hand et al(2000)的定义 17 Data Mining is the process of seeking interesting of valuable in formation in large databases (数据挖掘是在庞大的数据库中找出有意义或有价值信息的方法)Hand et al(200

6、0),eds.Proc.of the 8th ACM SIGKDD International Workshop on Data Mining and Knowledge Discovery.Dallas:ACM Press.Bhavani (1999)的定义18 Data Mining is the process of posing various queries and extractions useful information,patterns,and trends often previously unknown from large quantities of data poss

7、ibly stored in databases 数据挖掘是从储存在数据库的大量数据资料中,设置盘问,提取以前未知的信息、模式和趋势的方法。Bhavani(1999)的定义19 The process of discovering meaningful new correlation,patterns,and trends by sifting through large amount of stored data,using pattern recognition technologies and statistical and mathematical techniques 数据挖掘是从大

8、量储存的数据中,利用模式识别、统计和数学的技术、筛选发现新的有意义的关系、模式和趋势的方法。Kovalerchuk&Evgenii Vityaev的定义20 These techniques are now applied to discover hidden trends and patterns in financial databases 这些技术现在用于发现潜藏在金融数据库中的趋势与模式 Berry and Linoff(1997)21分析报告给你的是后见之明(hindsight);统计分析给你的是先机(foresight);数据挖掘给你识见(insight)。数据挖掘所要处理的问题2

9、2 在庞大的数据库中寻找出有价值的隐藏事件,加以分析,并将这些有意义的信息归纳成结构模式,作为企业在进行决策时之参考。数据挖掘看重的是数据库的再分析,包括模式的建构或是资料特征的判定,其主要目的就是要从数据库中发现先前关心却未曾获悉的有价值信息(Hand,1998)。事实上,数据挖掘并不只是一种技术或是一套软件,而是数种专业技术的综合应用。数据挖掘找寻隐藏在资料中的信息23趋势(Trend)特征(Pattern)关系(Relationship)的过程,从资料中发掘信息或知识(有人称为Knowledge Discovery in Databases,KDD)24“资料考古学”(Data Arch

10、aeology)“资料模式分析”(Data Pattern Analysis)“功能相依分析”(Functional Dependency Analysis),数据挖掘25 目前已被许多研究人员视为结合数据库系统与机器学习技术的重要领域,许多产业界人士也认为此领域是一项能增加企业潜能的重要途径。这一领域蓬勃发展的原因是因为现代的企业已搜集了大量资料,包括市场、客户、供货商、竞争对手以及未来趋势等重要信息,但是数据的超载与无结构化,使得企业决策单位无法有效利用现存的资料,甚至会使决策行为产生混乱与误用。如果能通过数据挖掘技术,从巨量的数据库中,采掘出不同的信息与知识出来,作为决策支持之用,就一定

11、能成为企业竞争的优势。数据挖掘的软件工具26 有些销售得还相当火爆,但是,对于这种数据挖掘的产品应该有一个正确的认识,就是它不是一个无所不能的魔法。它不是在那边监视你的资料的状况,然后告诉你说你的数据库里发生了某种特别的现象。也不是说有了数据挖掘的工具,就连不了解业务、不了解资料所代表的意义、或是不了解统计原理的人也可以做数据挖掘。数据挖掘所采掘出来的信息,也不是你可以不经确认,就可以照单全收应用到业务上的。事实上,数据挖掘工具是用来帮助业务分析策画人员从资料中发掘出各种假设(Hypothesis),但是它并不帮你确认(Verify)这些假设,也不帮你判断这些假设对你是否真有价值。数据挖掘使用

12、的分析方法27预测模型(回归、时间序列)数据库分割(Database Segmentation)连接分析(Link Analysis)偏差侦测(Deviation Detection)28 美国政府从第二次世界大战以前,就在人口普查以及军事方面使用过。近几年来,随着信息科技超乎想象的发展,新工具的出现。新工具29关系式数据库对象导向数据库柔性计算理论(包括Neural network、Fuzzy theory、Genetic Algorithms、Rough Set等)人工智能的应用(如知识工程、专家系统)网络通讯技术的发展 30 使从资料堆中采掘宝藏,常常能超越归纳的关系,使数据挖掘成为企业

13、智能的一部份。31 数据挖掘和统计分析是有不同的。其实数据挖掘技术中的CART、CHAD或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,数据挖掘有相当大的比重是由高等统计学中的多变量分析所支撑。数据挖掘有下列几项特性32 目标是海量数据的处理,不是一般意义上的统计分析;分析的任务是找出特征、规律、联系,而不是验证;必须多种技术结合,而不只是统计分析。1.3 数据挖掘综合的技术领域33Database systems,Data Warehouses,OLAPParallel ProcessingMachine learningVisualizationStatistical an

14、d data analysis methodsMathematical programmingHigh performance computingDecision support 34 统计分析研究35 除了将许多的统计及数据分析方法用于数据挖掘以外 还将统计方法和机器学习方法结合在一起,为数据挖掘发展更复杂的统计分析工具(现在,许多的统计分析软件都有市场化的数据挖掘工具产品)。机器学习的概念是让机器从已观测到的模式中学习各种各样的规则,然后再用这些规则来解决问题。数据挖掘通常面临的是海量的数据,所以,进行数据挖掘工作时,必须将数据库管理与机器学习技术结合起来应用。计算机可视化技术36 利用计

15、算机可视化技术,可以进行交互式数据挖掘工作。决策支持系统37 决策支持系统是一系列工具和过程,用来帮助管理者进行决策并指导他们进行管理。数学规划和高性能计算方法38 利用数学规划和高性能计算方法发展的技术能使得数据挖掘算法顺利实现。当然,有了高性能的硬件会更好。数据挖掘的发展39 数据挖掘正在不断发展,别的技术也不时地对数据挖掘产生影响。新技术40协作代理分布式目标管理技术等。1.4 数据挖掘的功能41 分类(classification)估计与预测(Estimation and Prediction)聚类(Clustering)关联(Association)和序列发现 (Sequence D

16、iscovery)描述(Description),数据挖掘的功能42 这些功能大都可以用成熟的计量及统计分析方法来实现,1分类(Classification)43 所谓分类,就是按照分析对象的属性,建立类组(class)。它根据一些变量的数值做计算,再依照结果作分类。(计算的结果最后会是几个少数离散值,然后按不同值分类,例如将一组资料分为“可能会响应”或是“可能不会响应”两类)。分类44 分类常常被用来处理邮寄对象筛选的问题。我们会用一些已经分好类的资料来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。这些我们用来寻找特征的已分类资料可能是来自我们的现有的历史性资料,或是将

17、一个完整数据库做部份取样,再经由实际的运作来测试分类例子45 譬如利用一个大的邮寄对象数据库的部份取样来建立一个分类模型(Classification Model),以后再利用这个模型来对数据库的其它资料或是新的资料作预测。例如,将信用申请者的风险属性,区分为高度风险申请者,中度风险申请者及低度风险申请者。使用的技术有决策树(decision tree),记忆基础推理(memory-based reasoning)等。2聚类(clustering)46面对海量的资料首要的任务是将它合理地归类。如果已知要求,于是对资料可以设问,按回答的不同给予分类,这就是上面所说的分类。如果事先没有任何要求,象

18、全国各地环境监测的资料,就只能按资料反映的情况,比较接近的划归一类,这种归类的方法称之为聚类(clustering)。聚类47 聚类分析的算法往往按距离的远近来归类,也可以按相似程度的大小来归类。只有合理地聚类后,每一类内就可以找出有关的特征,否则是难于发现真正有用的信息。聚类48 很自然,不同类型的问题可以给出不同的聚类原则,从而找到不同的特征。例如世界上的居民可以按民族归类,可以按肤色归类,可以按国家归类,也可以按宗教信仰归类,这些不同的聚类原则自然会找出不同的特征。3估计与预测(Estimation and Prediction)49 估计(estimation)是根据已有的长期累积的资

19、料来推测某一属性未知的真值。例如按照信用卡申请者的教育程度、行为和性别来推估其信用卡的消费量。使用的技巧包括统计方法中的相关分析、回归分析及人工神经网络方法。估计与预测50 预测(prediction)是根据对象属性之过去观察值来估计该属性未来之值。例如,由顾客过去的刷卡消费量来预测其未来刷卡消费量。使用的技巧包括回归分析、时间序列分析及人工神经网络方法等。回归51 回归是使用一系列的现有数值来预测一个定量指标的可能值。若将范围扩大亦可利用逻辑斯蒂回归(Logistic Regression)来预测定性变量,特别在广泛运用现代分析技术如人工神经网络或决策树理论等工具,预测的模式已不受传统线性的

20、局限,在预测的功能上大大增加了选择工具的弹性与应用范围的广度。时间序列预测52 时间序列预测是用指标本身现有的历史数值来预测未来的数值。Time-Series Forecasting的特点在于它所分析的数值都与时间有关,可以处理有关时间的一些特性,譬如时间的阶段性(例如每个礼拜五个或六个工作天)、季节性、节日、以及其它的一些特别因素如过去与未来的关连性有多少等等。4关联(Association)和序列发现(Sequence Discovery)53 关联是要找出在某一事件或是资料中会同时出现的东西。关联(Association)主要是要找出下面这样的信息:如果A是某一事件的一部份,则B也出现在

21、该事件中的机率有X。关联和序列发现54例如:如果一个顾客买了低脂乳酪,那么这个顾客同时也买低脂牛奶的机率是85。确定那些相关对象应该放在一起。例如超市中相关之盥洗用品(牙刷、牙膏和牙线),放在同一间货架上。在客户行销系统上,此种功能可以用来确认交叉销售(cross-selling)的机会,以设计出吸引人的产品群组。序列发现(Sequence Discovery)与关联(Association)关系55 序列发现(Sequence Discovery)与关联(Association)关系很密切,所不同的是序列发现(Sequence Discovery)中相关的对象是以时间区分开来例如:如果做了X

22、手术,则Y病菌在手术后感染的机率是45。例如:如果A股票在某一天上涨12,而且当天股市加权指数下降,则B股票在两天之内上涨的机率是68)。5 描述(Description)56 描述的功能是对复杂的数据库提供简要的描述。最简单的例子就是变量的均值和方差。这个功能的主要目的是为了在使用别的功能时对数据先有较好的了解。在建立任何模型之前先做数据描述的工作是十分重要的,因为这会告诉我们怎样去建模。描述57 许多的商业数据挖掘软件包也提供有用的画图软件来帮你对数据作可视化处理。另外,经理们经常使用更加复杂的采掘工具(比如market basket analysis,tree-based models)

23、来更好地理解数据和开发模型。实现数据挖掘的方法一些统计分析方法58回归分析时间序列判别分析因子分析聚类分析实现数据挖掘的方法59粗集(rough set)模糊逻辑(fuzzy logic)人工神经网络(Neural Network)决策树理论(Decision Trees)规则归纳法(Rules Induction)为基础的方法等表1.4.1 数据挖掘功能及常用的工具举例功 能采掘工具举例应用举例ClassificationNeural networks,logistic regression,tree-based models,decision tree,memory-based reaso

24、ningMailing decisions,target marketing,credit decisionsClusteringNeural networks,multivariate statistics,SegmentationEstimation andPredictionLinear and nonlinear regression,neural networks,hazard models,collaborative filteringCustomer scorning,sales forecasting,customer service,various marketing dec

25、ision models,AssociationMarket basket analysis,set theory,link analysisPromotion design,shelf space allocation,DescriptionTraditional statistics,market basket analysis,tree-basedmodelsExploratory data analysis601.5 数据挖掘的应用国际上数据挖掘应用的行业包括61金融业电信业网络相关行业零售商制造业医疗保健制药业数据挖掘行业应用分类 62 综合General 银行业保险与保健行业电信行

26、业零售行销行业Manufacturing and Utilities(制造业和公用事业)综合General 63 客户分类(Customer Segmentation)RetentionAcquisition Database marketing Lifetime value of a customer Cross selling 银行业64 Banking Credit scoring Credit Card Fraud Detection Portfolio Analysis Cash Planning 保险与保健行业65 Insurance&Health Care Claim Analy

27、sis Fraudulent Behavior电信行业66 Telecommunications Call Behaviour Analysis Churn Management Fraud Detection 零售行销行业67 Retail/Marketing Market Basket Analysis Category Management Credit Scoring Manufacturing and Utilities(制造业和公用事业)68 Process Management Demand Patterns Capacity Planning Inventory Plannin

28、g 表1.5.1 数据挖掘应用领域分类表Applications of 数据挖掘Customer-focusedOperations-focusedCustomer-focusedLife-time ValueMarket-Basket AnalysisProfiling&SegmentationRetentionTarget MarketAcquisitionKnowledge PortalCross-SellingCampaign ManagementE-CommerceProfitability AnalysisPricingFraud DetectionRisk AssessmentP

29、ortfolio ManagementEmployee TurnoverCash ManagementProduction EfficiencyNetwork PerformanceNetwork PerformanceManufacturing ProcessesCombinatorial ChemistryGenetic ResearchEpidemiology69数据挖掘应用目前国外企业界把数据挖掘应用在许多领域70行销财务银行制造厂通讯数据挖掘应用71 在产学合作下,发展出许多实用的系统,例如MDT、Cover story and Spotlight、Nich Work visuali

30、zation system、LBS、FALCON、FAIS、NYNEX、TASA等等。应用在行销领域的例子72 经由记录客户的消费记录与采购路线,超级市场可以设计出更吸引顾客购买的环境。根据数据挖掘出来的信息,现在超级市场的厨房用品,是按照女性的视线高度来摆放。根据研究指出:美国妇女的视线高度是150公分左右,男性是163公分左右,而最舒适的视线角度是视线高度以下15度左右,所以最好的货品陈列位置是在130至135公分之间。73 在商业上,有许多特征是很难理解的,但若了解到这些信息,就会增加企业的竞争能力。一般行销部门较典型的问题74 除了已经购买的产品外,我的客户还可能购买哪些产品?我的最有

31、价值客户中,他们的共通特征为何?当我的客户有可能转向其它竞争同业时,哪些变量能测量出这样的信息?国外企业界实际发展数据挖掘时,效能并不能预期,因为有许多因素影响着75不充足的教育训练不适当的支持工具资料的无效性过于丰富的模式(patterns)易变与具有时间性资料空间导向资料(spatially oriented data)复杂的资料结构资料的可度量性(scalability)等。复杂性76这说明资料与知识的发掘是一项信息技术程度很高的工作,面对易变的环境,没有现成的模型马上可用,也不要期望按一定的计算程序即能成功。潜在的因素77 我们要认识到一些潜在的因素资料取舍实体关系性数量多寡复杂性数据

32、质量变迁专家意见数据挖掘应用广泛78 数据挖掘在各领域的应用非常广泛,只要该产业拥有具分析价值的数据仓库或数据库,就可利用挖掘工具进行有目的的分析。数据挖掘应用广泛国外一般较常见的应用案例79零售业直销界制造业财务金融保险通讯业以及医疗服务 数据挖掘的三个应用方式80Customer ProfilingTargeted MarketingMarket-Basket Analysis。Customer Profiling81即如何获得新顾客?我们希望找出客户的一些共同的特征,希望能藉此预测哪些人可能成为我们的客户,以帮助行销人员找到正确的行销对象。数据挖掘可以从现有客户资料中找出他们的特征,再利

33、用这些特征到潜在客户数据库里去筛选出可能成为我们客户的名单,作为行销人员推销的对象。行销人员就可以针对这些名单寄发广告资料,既可以降低成本,又提高了行销的成功率。Market-Basket Analysis82主要是用来帮助零售业者了解客户的消费行为,即如何增加顾客的消费额?譬如哪些产品客户会一起购买,或是客户在买了某一样产品之后,在多长时间之内可能购买另一产品等等,利用关联性产品销售(cross-selling)和连贯性销售(Continuity-Selling)方法,来提高客户的终生价值(Live Time Value)。利用数据挖掘,零售业者可以更有效的决定进货量、库存量,以及在店里要如

34、何摆设货品,同时也可以用来评估店里促销活动的成效。客户关系管理83客户关系管理是数据挖掘的另一个常见的应用方式,即如何留住他们?我们可以由一些原本是我们的客户,后来却转向成为我们竞争对手的客户,分析他们的特征,再根据这些特征到现有客户资料中找出有可能转向的客户,然后公司必须设计一些方法将他们留住,因为毕竟找一个新客户的成本要比留住一个原有客户的成本要高出许多。销售资料中挖掘顾客的消费习性84 在销售资料中挖掘顾客的消费习性,很容易由交易纪录找出顾客偏好的产品组合,还可找出流失顾客的特征,确定推出新产品的时机点,还可结合基本资料,并依品牌价值等级的高低来区分顾客,进而达到差异化行销的目的;制造业

35、对数据挖掘的需求多运用在质量管理方面,由制造过程中找出影响产品品质最重要的因素,来提高作业流程的效率。数据挖掘应用85近来国外的电话公司、信用卡公司、保险公司、股票交易商、以及政府单位对于诈欺行为的侦查(Fraud Detection)比较关注,这些行业每年因为诈欺行为而造成的损失都非常可观。数据挖掘可以从一些信用不良的客户资料中找出相似特征并预测可能的诈欺交易,从而达到减少损失的目的。数据挖掘应用86财务金融业可以利用数据挖掘来分析市场动向,并预测个别公司的营运以及股价走向。数据挖掘的另一个独特的用法是在医疗业,用来预测手术、用药的疗效、以及医院服务、管理上的效益提高。数据挖掘的在国外别的方

36、面运用的类型 87 如果采用不同的价格策略,是否能增加市场占有率?让我们获利高的客户们有什么共同的特征?如何认定客户的信用风险状况?如何设计更好的保险产品来吸引客户,让客户满意?一个经纪人在一个星期中应该可以卖出多少共同基金?根据以往审核的资料,寻找核发信用卡的规则 数据挖掘的在国外别的方面运用的类型 88在NBA球赛资料中,找出球员的强弱点从消费及缴费资料中,预警信用卡呆帐可能从通话记录资料中,预警盗打电话可能从宇宙飞船拍摄的影像资料,找寻星球上的火山星际星体分类 数据挖掘的软件89SPSSSPSS Clementine3dbSASSAS Enterprise Miner Statiatic

37、a本章的参考书目本章的参考书目90邓纳姆著,郭崇慧田凤占 靳晓明译,数据挖掘教程(世界著名计算机教材精选),清华大学出版社,2005年5月。(美)Mehmed Kantardzic,数据挖掘,清华大学出版社,2003年8月。(美)Olivia Parr Rud,数据挖掘实践,机械工业出版社,2003年9月。91Kimball,R.and Ross,M.,2002,The data warehouse toolkit,Wiley.Robert Nisbet,John Elder IV and Gary Miner(2007),Handbook of Statistical Analysis an

38、d Data Mining Applications,Wiley-Interscience.JournalsJournals92Applied IntelligenceComputer WorldCIO JournalHarvard Business ReviewIEEE Transactions on SMCInternational Journal of Computer Applications in TechnologyInternational Journal of Information ManagementIT Solution JournalJournalsJournals93Journal of Information Technology Journal of Data AnalysisJournal of Data Science Journal of the American Statistical AssociationJournal of the Royal Statistical Society Series BJournal of Business and Economics Statistics

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第1章-数据挖掘概述课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|