1、2022-5-31数据挖掘数据挖掘中的统计中的统计方法及其实践方法及其实践朱建平朱建平厦门大学经济学院计划统计系厦门大学经济学院计划统计系2022-5-31The Statistical Method for Data Mining and Its ApplicationZhu JianpingXiamen University2022-5-31教学目的 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是涉及机器学习、模式识别、统计学、人工智能、数据库管理及数据可视化等学科的边缘学
2、科。 用统计的观点看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析。作为一种独立于应用的技术,一经出现立即受到广泛的关注。 本课程从统计学的角度介绍该领域的全面情况,讲授有趣的数据挖掘技术和方法,并讨论应用和研究方向。其目的是针对海量数据,让我们掌握利用计算机分析数据、理解数据,并具有基于丰富的数据做出决策的能力。 2022-5-31讲授的基本内容n 随着计算机技术和电子数据获取方面的不断进展以及Internet和各种局域网的广泛普及,人们获得的数据正以前所未有的速度急剧增加,最近几十年产生了很多超大型数据库,遍及超级市场销售、银行存款、天文学、粒子物理、化学、医学以及政府统计等领
3、域。n 那么,如何从这些大型数据库中发现有用的信息、模式和知识?如何开发有效的挖掘方法?已成为众多科技工作者共同关注的焦点。在过去几年,一个称为“数据挖掘” (Data Mining)的新领域得到了快速发展,已在经济、商业、金融、天文等行业得到了成功的应用,在国际上掀起了一股空前的研究热潮。2022-5-31n 本课程从统计学的观点出发,立足理论,着眼应用,在明确了数据挖掘定义和对象的基础上,从七个方面对数据挖掘的理论及统计方法和应用进行较为详细的介绍。n 第一章介绍数据挖掘概况。讲授数据挖掘的定义,并以技术和商业的角度给出了数据挖掘的定义。在此基础上,澄清数据挖掘与知识发现的关系,明确数据挖
4、掘的对象。最后对数据分析提出一些思考。n 第二章数据挖掘与统计学的关系。以数据挖掘的发展历史为线索,讲授数据挖掘领域研究所取得成果,解释数据挖掘自身的特点,从中领悟到了数据挖掘与统计学的关系。以现代统计方法的基本思想,让学生认识到统计学在数据挖掘中所做的贡献,即统计方法在数据挖掘中强有力的作用。2022-5-31n第三章介绍数据准备。在这一章将分析原始大型数据库的基本表述和特征,了解数据准备的不同技术,比较去除丢失值的不同方法,构造时间相关数据的统一表述方法,实现一些数据预处理技术。 n第四章介绍Rough集的基本模型及有关概念。这一章讲授知识的分类观点和概念的边界观点,知识的约简和决策表的约
5、简。以统计思想与Rough集理论相结合,介绍对事务性数据库的统计描述,对事务性数据库事务项及属性项压缩的方法,构建事务性数据库列联表示的模型的思想。并利用所介绍的方法进行实证分析。n第五章重点介绍数据挖掘中的聚类问题。讲授数据的排序与有向聚类问题。介绍聚类分析数据类型衍生的思想,并对聚类分析方法进行了比较和检验。让学生在实际应用中认识到其方法的可靠性与稳定性。2022-5-31n 第六章介绍挖掘大型数据库中的关联规则。讲授关联规则的意义和量度,维布尔关联规则,多层关联规则,由关联规则到相关分析。另外,引入相应分析作为数据挖掘中关联规则的提升,介绍相应分析适应性检验的基本思想及方法,及相应分析适
6、应性的分层量度方法。利用可视化方法对所多度相应分析方法进行了验证。n 第七章理解一些其它的数据挖掘技术。模糊聚类、神经网络、时序稠密数据集的挖掘技术等。n 为了满足实际的需要,我们将利用所讲授的方法,对某地区中国移动通讯用户消费数据库、某大学大学生隐形教育调查资料和上证指数收盘价信息进行剖析,以便让学生充分地领悟到数据挖掘的理论和实际价值。2022-5-31参考文献1.Cios, K. J., Pedrycz, W. and Swiniarski, R. W. (1998), Data Mining Methods for Knowledge Discovery, U.S.A2.Friedma
7、n, J. H., Data Mining and Statistics: Whats The Connection? Technical Report, Stanford University3.Glymour, C., etc. Statistical Themes and Lessons for Data Mining, Data Mining and Knowledge Discovery 1, 11-28 (1997)4.Han, J . W. and Kamber, M. Data Mining: Concepts and Techniques ,Higher Education
8、Press, (2001)5.Theresa, B., Frederick, E. P. and Gurdial, A., Information-Theoretic Measures of Uncertainty for Rough Sets and Rough Relational Databases, Journal of Information Sciences 109(1998), pp185-1956.Nelson , D. E., High Range Resolution Radar Target Classification: A Rough Set Approach,Pap
9、er of PhD2022-5-31n张尧庭,谢邦昌,朱世武,数据采掘入门及应用张尧庭,谢邦昌,朱世武,数据采掘入门及应用从统计技术从统计技术看数据采掘,中国统计出版社,北京,看数据采掘,中国统计出版社,北京,(2001.6) n史忠植著,知识发现,清华大学出版社,北京,史忠植著,知识发现,清华大学出版社,北京,(2002.1)n刘同明等编著,刘同明等编著,数据挖掘技术及其应用数据挖掘技术及其应用,国防工业出版社,国防工业出版社,(2001.9)n数据挖掘讨论组,数据挖掘的研究历史和现状,数据挖掘讨论组,数据挖掘的研究历史和现状, http:/ Kantardzic),数据挖掘,数据挖掘概念、
10、模型、概念、模型、方法和算法,清华大学出版社,方法和算法,清华大学出版社,(2003.8)n张银奎等译张银奎等译(Hand, D),数据挖掘原理,机械工业出版社,数据挖掘原理,机械工业出版社,(2003.4)n范明等译,范明等译,统计学习基础统计学习基础数据挖掘、推理与预测,数据挖掘、推理与预测,电子工业电子工业出版社,出版社,(2004.1)2022-5-31第一章第一章 数据挖掘概述数据挖掘概述 1.1 数据挖掘的定义 1.2 数据挖掘与知识发现 1.3 数据挖掘对象 1.4 数据分析的一些思考2022-5-31What are these numbers trying to Tell m
11、e?nMatrix Codesn:, 舅舅:不要吃酒,吃酒误事, 吃了二两酒,不是动怒,就是动武,.。 吃酒要被酒杀死,一点酒也不要吃。2022-5-31What Are These Numbers Trying to Tell Us?2022-5-31What Are These Numbers Trying to Tell Us?n7 2 n2x3 n40 6 n二四六八 n0000 n 1 1 = 1 n10002 =100100100 n7/8 n不三不四 n接二連三 n陸續不斷 n無獨有偶 n掛萬漏一 n一成不變 n千方百計 n七上八下2022-5-311.1 数据挖掘的技术定义与商
12、业定义n什么是数据挖掘(Data Mining)? 关于定义取决于定义者的观点和背景,各人的说法不一. Friedman, J. H.在技术报告Data Mining and Statistics: Whats The Connection? 中总结出了多家关于数据挖掘的定义(也有对知识发现而言的):nFayyad提出数据挖掘是一个确定数据中有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程. 2022-5-31nZekulin的说法是数据挖掘是一个从大型数据库中提取以前未知的、可理解的、可执行的信息,并用它来进行关键的商业决策的过程. nFerruzza给出数据挖掘是用在知识发现过
13、程,来辩识存在于数据中的未知关系和模式的一些方法.nJonn提到数据挖掘是发现数据中有益模式的过程. nParsaye定义数据挖掘是我们为那些未知的信息模式而研究大型数据集的一个决策支持过程.n这些表达方式虽然不同,但从各自的角度描述出了对数据挖掘的理解.这里我们主要从技术和商业的角度给出数据挖掘的定义.2022-5-311.1.1 1.1.1 数据挖掘的技术定义数据挖掘的技术定义n从技术角度,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程.n它是涉及机器学习、模式识别、统计学、人工
14、智能、数据库管理及数据可视化等学科的边缘学科.2022-5-31 这个定义包括好几层含义:n数据源必须是真实的、大量的、含噪声的;数据源必须是真实的、大量的、含噪声的;n发现的是用户感兴趣的知识;发现的是用户感兴趣的知识;n发现的知识要可接受、可理解、可运用;发现的知识要可接受、可理解、可运用;n这些知识是相对的,是有特定前提和约束条件的,在特这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值定领域中具有实际应用价值.2022-5-31 什么是知识呢什么是知识呢? ?n从广义上理解,数据、信息是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识.n人们把数
15、据看作是形成知识的源泉,好像从矿石中采矿或淘金一样.n原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据.n发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的. 发现的知识可以被用于信息管理、查询优化、决策支持和过程控制等,还可以用于数据自身的维护.2022-5-311.1.2 1.1.2 数据挖掘的商业定义数据挖掘的商业定义 从商业应用角度看,数据挖掘是一种新的商业信息处理技术. 其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性知识,即从一个
16、数据库中自动发现相关商业模式. 实际上多年来,统计学家就开始手工挖掘数据库,从数据库中寻找符合统计学规律的有意义的模式.这也是统计学类型的数据挖掘技术,是目前数据挖掘技术中最为成熟的重要原因之一.2022-5-31 数据挖掘也可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,且进一步将其模型化的数据处理方法.2022-5-311.2 数据挖掘与知识发现(DM & KDD) 1.2.1 1.2.1 知识发现知识发现(Knowledge Discovery in Database)过程过程 知识发现过程可以粗略的理解为三部曲:数据准备(data
17、preparation)数据挖掘(data mining)结果的解释评估(interpretation and evaluation) 2022-5-31知识发现过程示意图 2022-5-31n数据准备又可分为三个子步骤:数据选取、数据预处理和数据变换.n数据选取的目的是确定发现任务的操作对象,即目标数据.n数据预处理一般可能包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等.n数据变换的主要目的是消减数据维数或降维,即从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征或变量数.2022-5-31n数据挖掘阶段主要是确定开采的任务,如数据总结、分类、聚类、关联规则发现或序
18、列模式发现等.n确定了开采任务后,就要决定使用什么样的开采算法. 选择实现算法有两个需要考虑的因素: 一是不同的数据有不同的特点,需要用与之相应的算法来开采; 二是根据用户或实际运行系统的要求来开采.2022-5-31n结果解释和评价主要是数据挖掘阶段发现出的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要将其剔除.如果有的模式不满足用户要求,需要将整个发现过程退回到发现阶段之前.n最终结果是要面向用户,有时要对发现的模式进行可视化,或着将结果转化为用户易懂的另一种形式.2022-5-311.2.2 1.2.2 数据挖掘的地位数据挖掘的地位 KDD是一种知识发现的一连串程序,数据
19、挖掘只是KDD的一个重要程序 . 数据挖掘主要是利用某些特定的知识发现算法,在一定的运算效率的限制内,从数据中发现有关的知识,即隐藏的模式. 数据挖掘是KDD中最重要的一步,在KDD的全过程中起到了至关重要的作用. 因此,人们往往不加区别地使用数据挖掘和KDD.2022-5-311.3 数据挖掘对象 数据挖掘的范围非常广泛,可以是社会科学、经济学、商业数据、科学处理产生的数据和卫星观测得到的数据.它们的数据结构也各不相同,可以是层次的、网状的、关系的和面向对象的数据.2022-5-311.3.1 关系数据库n关系数据库是表的集合,每个表都赋予一个唯一的名字.每个表包含一组属性(列或字段),并通
20、常存放大量元组(记录或行).关系中的每个元组代表一个被唯一的关键字标识的对象,并被一组属性值描述.n当数据挖掘用于关系数据库时,可以进一步搜索趋势或数据模式.数据挖掘系统也可以检测偏差,如在商业营运中,与以前的年份相比,哪种商品的销售出人预料.这种偏差可以进一步考察,例如包装是否有变化,或价格是否大幅度提高.2022-5-311.3.2 数据仓库 在数据仓库的发展过程中,许多人对此做出了贡献.其中,Devilin和Murphy在1998年发表了一篇关于数据仓库论述的最早文章.而Inmon, W. H.在1993年所写的论著 Building the Data Warehouse 则首先系统性地
21、阐述了关于数据仓库的思想、理论 (Inmon, W. H. (1996),为数据仓库的发展奠定了历史基石.在 Building the Data Warehouse 中,他将数据仓库定义为“一个面向主题的、集成的随时间变化的非易失性数据的集合,用于支持管理层的决策过程”.2022-5-31n通常,数据仓库用多维数据库结构建模.其中,每一维对应于模式中的一个或一组属性,每个单元存放某个聚集度量值.数据仓库的实际物理结构可以是关系数据存储或多维数据立方体(data cube).它提供数据的多维视图,并允许预计算和快速访问汇总的数据.n数据仓库工具对于支持数据分析是有帮助的,但是仍需要更多的数据挖掘
22、工具,以便进行更深入的自动分析.2022-5-311.3.3 高级数据库系统n随着数据库技术的发展,各种高级数据库系统已经出现并在开发中,以适应新的数据库应用需要.n新的数据库应用包括处理空间数据(如地图)、工程设计数据、超文本和多媒体数据、时间相关的数据(如历史数据或股票交易数据)和Webn为响应这些需求,开发了高级数据库系统和面向特殊应用的数据库系统.这些包括面向对象和对象-关系数据库系统 (Han, J. W. and Kamber, M. (2001) 12-16)、空间数据库系统 (史忠植, (2002) 13-16)、时间和时间序列数据库系统、文本(Hahn, U. et al.
23、(1997)和多媒体数据库系统、异种和遗产数据库系统、基于Web的全球信息系统 (Bern, S. (1998).2022-5-311.3.4 事务性数据库 事务数据库由一个文件组成,其中每个记录代表一个事务.通常,一个事务包含一个唯一的事务标识号,和一个组成事务的项的列表(如,在商店购买的商品) (史忠植著, (2002) 13-16).事务数据库可能有一些与之相关联的附加表,包含关于销售的其他信息,如事务的日期、顾客的ID号、销售者的ID号、销售分店等等.2022-5-311.4 数据分析的一些思考数据分析的一些思考我们不能这样简单的理解统计親愛的齊: 我們的感情,在組織的親切關懷下、在領
24、導的過問下, 一年來正沿著健康的道路蓬勃發展。這主要表現在: (一)我們共通信121封,平均3.01天一封。 其中你給我的信51封,占42.1%我給你的信70封, 占57.9%。每封信平均1502字,最長的達5215字, 最短的也有624字。 2022-5-31 (二) 約會共98次,平均3.7天一次。 其中你主動約我38次,占38.7%我主動約你60次, 占61.3%。每次約會平均3.8小時,最長達6.4小時, 最短的也有1.6小時。 (三) 我到你家看望你父母38次,平均每9.4天一次, 你到我家看望我父母36次,平均10天一次。 以上充分証明一年來的交往我們已形成了戀愛的共識, 我們愛情
25、的主流是互相了解、互相關心、互相幫助, 是平等互利的。 2022-5-31 當然,任何事物都是一分為二的, 缺點的存在是不可避免的。我們二人雖然都是積極的, 但從以上的數據看,發展還不太平衡, 積極性還存在一定的差距,這是前進中的缺點。 相信在新的一年里,我們一定會發揚成績、克服缺點、 攜手前進,開創我們愛情的新局面。 2022-5-31 因此,我提出三點意見供你參考: (一)要圍繞一個愛字, (二)要狠抓一個親字, (三)要落實一個合字。 讓我們弘揚團結拼搏的精神,共同振興我們的愛情, 爭取達到一個新高度,登上一個新台階。 本著我們的婚事我們辦,辦好婚事為我們的精神, 共創輝煌! 你的小惠
26、2022-5-312022-5-31 Given 7 2 5 8 11 1 6nWhat is the mean?nWhat is the median?nWhat is the first quartile?nWhat is the third quartile?Introductory Statistics2022-5-317143. 5740761118527xMean Put in order 1 2 5 6 7 8 11 Q1 Median Q32022-5-31 Given x1, x2, x3, , xnnWhat is the mean?nWhat is the median?
27、nWhat is the first quartile?nWhat is the third quartile?2022-5-31nxnx.xxxn21Mean Put in order x(1) x(2) x( ) x(n-1) x(n) Median2n2022-5-31 Given x1, x2, x3, , xnnwhere n=300,000,000.nWhat is the mean?nWhat is the median?nWhat is the first quartile?nWhat is the third quartile?2022-5-31本章参考文献n 1 Fried
28、man, J. H., Data Mining and Statistics: Whats The Connection? Technical Report, Stanford Universityn 2 数据挖掘讨论组, 数据挖掘的研究历史和现状, http:/ 3 Fayyad, U. Piatetsky-Shapiro, Smyth, Uthurusamy, Advances in Knowledge Discovery and Data Mining, MIT Prressn 4 Hahn, U., et al., Deep Knowledge Discovery from Natur
29、al Language Texts, Proc of the 3rd Intl Conf on Knowledge Discovery and Data Mining, Newport Beach, (1997)n 5 Bern, S., Extracting Patterns and Relations form The world Wide Web, Proceedings of Web DB Workshop at EDBT98, Valencia, (1998)n 6 Inmon, W. H., Building Data Warehouse, Second Edition, John Wiley, (1996)n 7 Han, J . W. and Kamber, M., Data Mining: Concepts and Techniques ,Higher Education Press, (2001), pp12-16n 8 张尧庭, 谢邦昌, 朱世武,数据采掘入门及应用从统计技术看数据采掘,中国统计出版社, 北京, (2001.6), pp14-23n 9 史忠植著,知识发现,清华大学出版社,北京, (2002.1), pp13-16n 10 朱建平,数据挖掘的技术与商业定义及其研究对象,统计教育,(2004.1) 2022-5-31n本 章 结 束