1、11钱峰钱峰通信与信息工程学院通信与信息工程学院2018年年第第1 1章章 引论引论第第1章章 引论引论n为什么进行数据为什么进行数据n什么是数据挖掘什么是数据挖掘n可以挖掘什么类型的数据可以挖掘什么类型的数据n可以挖掘什么类型的模式可以挖掘什么类型的模式n使用什么技术使用什么技术n面向什么类型的应用面向什么类型的应用n数据挖掘的主要问题数据挖掘的主要问题n小结小结3为什么要进行数据挖掘为什么要进行数据挖掘?n数据呈现爆炸式增长:数据呈现爆炸式增长:TBPB(1000T)?n数据收集和数据存储数据收集和数据存储n自动的数据收集工具、数据库、自动的数据收集工具、数据库、Web、信息网络、信息网络
2、n数据来源的多样性数据来源的多样性n商业:商业:Web、电子商务、交易、股票、电子商务、交易、股票、n科学:遥感、生物信息学、科学仿真、科学:遥感、生物信息学、科学仿真、n社会和个人:新闻、照片、视频、社会和个人:新闻、照片、视频、n数据丰富,但信息贫乏(人的理解能力受限)数据丰富,但信息贫乏(人的理解能力受限)!n“Necessity is the mother of invention”柏拉图柏拉图n数据挖掘数据挖掘从海量数据中挖掘有用信息从海量数据中挖掘有用信息第第1章章 引论引论n为什么进行数据为什么进行数据n什么是数据挖掘什么是数据挖掘n可以挖掘什么类型的数据可以挖掘什么类型的数据n
3、可以挖掘什么类型的模式可以挖掘什么类型的模式n使用什么技术使用什么技术n面向什么类型的应用面向什么类型的应用n数据挖掘的主要问题数据挖掘的主要问题n小结小结什么是数据挖掘什么是数据挖掘?n数据挖掘数据挖掘(从数据中挖掘知识从数据中挖掘知识):n从从大型数据库大型数据库中提取有趣的中提取有趣的(非平凡的非平凡的,蕴涵的蕴涵的,先前未知的先前未知的 并且是并且是潜在有用的潜在有用的)信息或模式信息或模式n数据挖掘数据挖掘:用词不当用词不当?n其它叫法和其它叫法和“Necessity is the mother of invention”内幕新闻内幕新闻:n数据库中知识发现数据库中知识发现(挖掘挖掘
4、)(Knowledge discovery in databases,KDD),知识提取知识提取(knowledge extraction),数据数据/模式分析模式分析(data/pattern analysis),数据考古数据考古(data archeology),数据捕捞数据捕捞(data dredging),信息信息收获收获(information harvesting),商务智能商务智能(business intelligence),等等.n什么不是数据挖掘什么不是数据挖掘?n(演绎演绎)查询处理查询处理.n 专家系统专家系统 或小型或小型 机器学习机器学习(ML)/统计程序统计程序n
5、处理大量数据处理大量数据/有效的可伸缩的技术有效的可伸缩的技术数据挖掘过程数据挖掘过程n数据挖掘:数据挖掘:KDD的核心的核心数据清理数据清理数据集成数据集成选择与变换选择与变换数据挖掘数据挖掘模式评估模式评估数据仓库数据仓库任务相关数据任务相关数据数据库数据库KDD过程的步骤过程的步骤n学习应用领域学习应用领域:n相关的先验知识和应用的目标相关的先验知识和应用的目标n创建目标数据集创建目标数据集:数据选择数据选择n数据清理和预处理数据清理和预处理:(:(可能占全部工作的可能占全部工作的 60%!)60%!)n数据归约与变换数据归约与变换:n发现有用的特征发现有用的特征,维维/变量归约变量归约
6、,不变量的表示不变量的表示.n选择数据挖掘函数选择数据挖掘函数 n 汇总汇总,分类分类,回归回归,关联关联,聚类聚类.n选择挖掘算法选择挖掘算法n数据挖掘数据挖掘:搜索有趣的模式搜索有趣的模式n模式评估和知识表示模式评估和知识表示n可视化可视化,变换变换,删除冗余模式删除冗余模式,等等.n发现知识的使用发现知识的使用数据挖掘和商务智能数据挖掘和商务智能提高支持提高支持商务决策的潜能商务决策的潜能最终用户最终用户商务分析人员商务分析人员 数据分析人员数据分析人员DBA 制定决策制定决策数据表示数据表示可视化技术可视化技术数据挖掘数据挖掘信息发现信息发现数据探查(预处理)数据探查(预处理)OLAP
7、,MDA统计分析统计分析,查询和报告查询和报告数据仓库数据仓库/数据集市数据集市数据源数据源文字记录文字记录,文件文件,信息提供者信息提供者,数据库系统数据库系统,OLTP系统系统第第1章章 引论引论n为什么进行数据为什么进行数据n什么是数据挖掘什么是数据挖掘n可以挖掘什么类型的数据可以挖掘什么类型的数据n可以挖掘什么类型的模式可以挖掘什么类型的模式n使用什么技术使用什么技术n面向什么类型的应用面向什么类型的应用n数据挖掘的主要问题数据挖掘的主要问题n小结小结数据挖掘数据挖掘:在什么数据上进行在什么数据上进行?n数据库数据数据库数据n数据仓库数据仓库n事务数据库(如:事务数据库(如:交易数据)
8、交易数据)n其它类型的数据其它类型的数据n空间数据(如:地图)空间数据(如:地图)n时间序列数据和流数据时间序列数据和流数据n多媒体数据库多媒体数据库n异种数据库和遗产数据库异种数据库和遗产数据库 n文本数据库和文本数据库和WWW第第1章章 引论引论n为什么进行数据为什么进行数据n什么是数据挖掘什么是数据挖掘n可以挖掘什么类型的数据可以挖掘什么类型的数据n可以挖掘什么类型的模式可以挖掘什么类型的模式n使用什么技术使用什么技术n面向什么类型的应用面向什么类型的应用n数据挖掘的主要问题数据挖掘的主要问题n小结小结数据挖掘功能数据挖掘功能(1)n概念描述概念描述:特征化和区分特征化和区分n概化、汇总
9、和特征化、特征比较(如:干燥和潮湿的地区)概化、汇总和特征化、特征比较(如:干燥和潮湿的地区)n频繁模式、关联、相关频繁模式、关联、相关n频繁模式频繁模式:数据中频繁出现的模式:数据中频繁出现的模式n多维和单维关联多维和单维关联nage(X,“20.29”)income(X,“20.29K”)buys(X,“PC”)support=2%,confidence=60%ncontains(T,“computer”)contains(T,“software”)support=1%,confidence=75%数据挖掘功能数据挖掘功能(2)n分类和预测分类和预测n找出描述和区分类或概念的模型找出描述和
10、区分类或概念的模型(函数函数),用于标号未知用于标号未知的对象的标号预测的对象的标号预测/Predict some unknown class labelsn例如根据气候对国家分类例如根据气候对国家分类,或根据单位里程的耗油量对或根据单位里程的耗油量对汽车分类汽车分类n模型表示模型表示:判定树判定树(decision-tree),分类规则分类规则,神经网络神经网络n预 测预 测:预 测 某 些 未 知 或 遗 漏 的 数 值 值预 测 某 些 未 知 或 遗 漏 的 数 值 值/定 量 的定 量 的quantitative输出变量输出变量数据挖掘功能数据挖掘功能(3)n聚类分析聚类分析n类标号
11、类标号(Class label)未知未知:对数据分组对数据分组,形成新的类形成新的类.例如例如,对房屋分类对房屋分类,找出分布模式找出分布模式n聚类原则聚类原则:最大化类内的相似性最大化类内的相似性,最小化类间的相似性最小化类间的相似性数据挖掘功能数据挖掘功能(4)n孤立点孤立点(Outlier)分析分析n孤立点孤立点:一个数据对象一个数据对象,它它 与数据的一般行为不一致与数据的一般行为不一致n孤立点可以被视为例外孤立点可以被视为例外,但对于欺骗检测和罕见事件分析但对于欺骗检测和罕见事件分析,它是相当它是相当有用的有用的n趋势和演变分析趋势和演变分析n趋势和偏离趋势和偏离:回归分析回归分析n
12、序列模式挖掘序列模式挖掘,周期性分析周期性分析ne.g.,first buy digital camera,then buy large SD memory cardsn基于相似的分析基于相似的分析nApproximate and consecutive motifs离群点检测离群点检测clusteroutliersalaryageLinear Regressionxyy=x+1X1Y1(salary)(age)Example of linear regression挖掘出的所有模式都是有趣的吗挖掘出的所有模式都是有趣的吗?n一个数据挖掘系统一个数据挖掘系统/查询可以挖掘出数以千计的模式查询可
13、以挖掘出数以千计的模式,并非并非所有的模式都是有趣的所有的模式都是有趣的n建议的方法建议的方法:以人为中心以人为中心,基于查询的基于查询的,聚焦的挖掘聚焦的挖掘n兴趣度度量兴趣度度量:一个模式是一个模式是 有趣的有趣的 如果它是如果它是 易于被人理解易于被人理解的的,在某种程度上在某种程度上在新的或测试数据上是有效的在新的或测试数据上是有效的,潜在有用潜在有用的的,新颖的新颖的,或或验证了用户希望证实的某种假设验证了用户希望证实的某种假设n客观与主观的兴趣度度量客观与主观的兴趣度度量:n客观客观:基于模式的统计和结构基于模式的统计和结构,如如,支持度支持度,置信度置信度,等等.n主观主观:基于
14、用户对数据的确信基于用户对数据的确信,如如,出乎意料出乎意料,新颖性新颖性,可行动可行动性性(actionability),等等.19能够只发现有趣的模式吗能够只发现有趣的模式吗?n发现所有有趣的模式发现所有有趣的模式:完全性完全性n数据挖掘系统能够发现数据挖掘系统能够发现所有所有有趣的模式吗有趣的模式吗?n关联关联 vs.vs.分类分类 vs.vs.聚类聚类n仅搜索有趣的模式仅搜索有趣的模式:优化优化n数据挖掘系统能够数据挖掘系统能够仅仅发现有趣的模式吗发现有趣的模式吗?n方法方法n首先找出所有模式首先找出所有模式,然后过滤掉不是有趣的那些然后过滤掉不是有趣的那些.n仅产生有趣的模式仅产生有
15、趣的模式 挖掘查询优化挖掘查询优化第第1章章 引论引论n为什么进行数据为什么进行数据n什么是数据挖掘什么是数据挖掘n可以挖掘什么类型的数据可以挖掘什么类型的数据n可以挖掘什么类型的模式可以挖掘什么类型的模式n使用什么技术使用什么技术n面向什么类型的应用面向什么类型的应用n数据挖掘的主要问题数据挖掘的主要问题n小结小结数据挖掘数据挖掘:多学科交叉多学科交叉数据挖掘数据挖掘机器学习机器学习统计学统计学应用应用算法算法模式识别模式识别高性能计算高性能计算可视化可视化数据库技术数据库技术第第1章章 引论引论n为什么进行数据为什么进行数据n什么是数据挖掘什么是数据挖掘n可以挖掘什么类型的数据可以挖掘什么
16、类型的数据n可以挖掘什么类型的模式可以挖掘什么类型的模式n使用什么技术使用什么技术n面向什么类型的应用面向什么类型的应用n数据挖掘的主要问题数据挖掘的主要问题n小结小结面向什么类型的应用面向什么类型的应用可能的应用可能的应用n数据库分析和决策支持数据库分析和决策支持n市场分析和管理市场分析和管理n针对销售针对销售(target marketing),顾客关系管理顾客关系管理,购物篮分析购物篮分析,交叉销售交叉销售(cross selling),市场分割市场分割(market segmentation)n风险分析与管理风险分析与管理n预测预测,顾客关系顾客关系,改进保险改进保险,质量控制质量控制
17、,竞争能力分析竞争能力分析n欺骗检测与管理欺骗检测与管理n其它应用其它应用n文本挖掘文本挖掘(新闻组新闻组,email,文档资料文档资料)n流数据挖掘流数据挖掘(Stream data mining)nWeb挖掘挖掘n生物信息学生物信息学/生物生物 数据分析数据分析市场分析与管理市场分析与管理(1)n用于分析的数据源在哪用于分析的数据源在哪?n信用卡交易信用卡交易,会员卡会员卡,打折优惠卷打折优惠卷,顾客投诉电话顾客投诉电话,(公共公共)生活时尚研究生活时尚研究n针对销售针对销售(Target marketing)n找出顾客群找出顾客群,他们具有相同特征他们具有相同特征:兴趣兴趣,收入水平收入
18、水平,消费习消费习惯惯,等等.n确定顾客随时间变化的购买模式确定顾客随时间变化的购买模式n个人帐号到联合帐号的转变个人帐号到联合帐号的转变:结婚结婚,等等.n交叉销售分析交叉销售分析(Cross-market analysis)n产品销售之间的关联产品销售之间的关联/相关相关 n基于关联信息的预测基于关联信息的预测市场分析与管理市场分析与管理(2)n顾客分类顾客分类(Customer profiling)n数据挖掘能够告诉我们什么样的顾客买什么产品数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或聚类或分类分类)n识别顾客需求识别顾客需求n对不同的顾客识别最好的产品对不同的顾客识别最好的产品n
19、使用预测发现什么因素影响新顾客使用预测发现什么因素影响新顾客n提供汇总信息提供汇总信息n各种多维汇总报告各种多维汇总报告n统计的汇总信息统计的汇总信息(数据的中心趋势和方差数据的中心趋势和方差)法人分析和风险管理法人分析和风险管理n财经规划和资产评估财经规划和资产评估n现金流分析和预测现金流分析和预测n临时提出的资产评估临时提出的资产评估n交叉组合交叉组合(cross-sectional)(cross-sectional)和时间序列分析和时间序列分析 (金融比金融比率率(financial-ratio),(financial-ratio),趋势分析趋势分析,等等.).)n资源规划资源规划 :n
20、资源与开销的汇总与比较资源与开销的汇总与比较n竞争竞争:n管理竞争者和市场指导管理竞争者和市场指导n对顾客分类和基于类的定价对顾客分类和基于类的定价n在高度竞争的市场调整价格策略在高度竞争的市场调整价格策略欺骗检测和管理欺骗检测和管理(1)n应用应用n广泛用于健康照料广泛用于健康照料,零售零售,信用卡服务信用卡服务,电讯电讯 (电话卡电话卡欺骗欺骗),),等等.n方法方法n使用历史数据建立欺骗行为模型使用历史数据建立欺骗行为模型,使用数据挖掘帮助识使用数据挖掘帮助识别类似的实例别类似的实例n例例n汽车保险汽车保险:检测这样的人检测这样的人,他他/她假造事故骗取保险赔偿她假造事故骗取保险赔偿n洗
21、钱洗钱:检测可疑的金钱交易检测可疑的金钱交易 (US Treasurys Financial(US Treasurys Financial Crimes Enforcement Network)Crimes Enforcement Network)n医疗保险医疗保险 :检测职业病患者检测职业病患者,医生和介绍人圈医生和介绍人圈欺骗检测和管理欺骗检测和管理(2)n检测不适当的医疗处置检测不适当的医疗处置n澳大利亚健康保险会澳大利亚健康保险会(Australian Health Insurance Commission)发发现许多全面的检查是请求做的现许多全面的检查是请求做的,而不是实际需要的而不
22、是实际需要的(每年节省每年节省100万万澳元澳元).n检测电话欺骗检测电话欺骗n电话呼叫模式电话呼叫模式:通话距离通话距离,通话时间通话时间,每天或每周通话次数每天或每周通话次数.分分析偏离期望的模式析偏离期望的模式.n英国电讯英国电讯(British Telecom)(British Telecom)识别频繁内部通话的呼叫者的离散群识别频繁内部通话的呼叫者的离散群,特别是移动电话特别是移动电话,超过数百万美元的欺骗超过数百万美元的欺骗.n零售零售n分析家估计分析家估计,38%,38%的零售业萎缩是由于不忠诚的雇员造成的的零售业萎缩是由于不忠诚的雇员造成的.其它应用其它应用n运动运动nIBM
23、Advanced Scout分析分析NBA的统计数据的统计数据(阻挡投篮阻挡投篮,助助攻攻,和犯规和犯规)获得了对纽约小牛队获得了对纽约小牛队(New York Knicks)和迈和迈艾米热队艾米热队(Miami Heat)的竞争优势的竞争优势n天文天文n借助于数据挖掘的帮助借助于数据挖掘的帮助,JPL 和和 Palomar Observatory 发发现了现了22 颗类星体颗类星体(quasars)nInternet Web Surf-AidnIBM Surf-Aid 将数据挖掘算法用于有关交易的页面的将数据挖掘算法用于有关交易的页面的Web访问日志访问日志,以发现顾客喜爱的页面以发现顾客喜
24、爱的页面,分析分析Web 销售的销售的效果效果,改进改进Web 站点的组织站点的组织,等等.nWeb:页面的分类、聚类、推荐:页面的分类、聚类、推荐/用户的访问模式用户的访问模式第第1章章 引论引论n为什么进行数据为什么进行数据n什么是数据挖掘什么是数据挖掘n可以挖掘什么类型的数据可以挖掘什么类型的数据n可以挖掘什么类型的模式可以挖掘什么类型的模式n使用什么技术使用什么技术n面向什么类型的应用面向什么类型的应用n数据挖掘的主要问题数据挖掘的主要问题n小结小结数据挖掘的主要问题数据挖掘的主要问题(1)n挖掘方法和用户交互挖掘方法和用户交互n在数据库中挖掘不同类型的知识在数据库中挖掘不同类型的知识
25、n在多个抽象层的交互式知识挖掘在多个抽象层的交互式知识挖掘n结合背景知识结合背景知识n数据挖掘语言和启发式数据挖掘数据挖掘语言和启发式数据挖掘 n数据挖掘结果的表示和可视化数据挖掘结果的表示和可视化n处理噪音和不完全数据处理噪音和不完全数据n模式评估模式评估:兴趣度问题兴趣度问题n性能和可伸缩性性能和可伸缩性(scalability)(scalability)n数据挖掘算法的性能和可伸缩性数据挖掘算法的性能和可伸缩性n并行并行,分布和增量的挖掘方法分布和增量的挖掘方法数据挖掘的主要问题数据挖掘的主要问题(2)n数据类型的多样性问题数据类型的多样性问题n处理关系的和复杂类型的数据处理关系的和复杂
26、类型的数据n从异种数据库和全球信息系统从异种数据库和全球信息系统 (WWW)(WWW)挖掘信息挖掘信息n应用和社会效果问题应用和社会效果问题n发现知识的应用发现知识的应用n特定领域的数据挖掘工具特定领域的数据挖掘工具n智能查询回答智能查询回答n过程控制和决策制定过程控制和决策制定n发现知识与已有知识的集成发现知识与已有知识的集成:知识融合问题知识融合问题n数据安全数据安全,完整和私有的保护完整和私有的保护第第1章章 引论引论n为什么进行数据为什么进行数据n什么是数据挖掘什么是数据挖掘n可以挖掘什么类型的数据可以挖掘什么类型的数据n可以挖掘什么类型的模式可以挖掘什么类型的模式n使用什么技术使用什
27、么技术n面向什么类型的应用面向什么类型的应用n数据挖掘的主要问题数据挖掘的主要问题n小结小结小结小结n数据挖掘数据挖掘:从大量数据中发现有趣的模式从大量数据中发现有趣的模式n数据库技术的自然进化数据库技术的自然进化,具有巨大需求和广泛应用具有巨大需求和广泛应用nKDD 过程包括数据清理过程包括数据清理,数据集成数据集成,数据选择数据选择,变换变换,数据挖掘数据挖掘,模式评估模式评估,和知识表示和知识表示n挖掘可以在各种数据存储上进行挖掘可以在各种数据存储上进行n数据挖掘功能数据挖掘功能:特征特征,区分区分,关联关联,分类分类,聚类聚类,孤立点孤立点 和趋势分析和趋势分析,等等.n数据挖掘系统的
28、分类数据挖掘系统的分类n数据挖掘的主要问题数据挖掘的主要问题35数据挖掘界简史数据挖掘界简史n1989 IJCAI Workshop on Knowledge Discovery in Databases nKnowledge Discovery in Databases(G.Piatetsky-Shapiro and W.Frawley,1991)n1991-1994 Workshops on Knowledge Discovery in DatabasesnAdvances in Knowledge Discovery and Data Mining(U.Fayyad,G.Piatetsk
29、y-Shapiro,P.Smyth,and R.Uthurusamy,1996)n1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining(KDD95-98)nJournal of Data Mining and Knowledge Discovery(1997)nACM SIGKDD conferences since 1998 and SIGKDD ExplorationsnMore conferences on data miningnPAKDD(1997),PKDD(1
30、997),SIAM-Data Mining(2001),(IEEE)ICDM(2001),WSDM(2008),etc.nACM Transactions on KDD(2007)36Conferences and Journals on Data MiningnKDD ConferencesnACM SIGKDD Int.Conf.on Knowledge Discovery in Databases and Data Mining(KDD)nSIAM Data Mining Conf.(SDM)n(IEEE)Int.Conf.on Data Mining(ICDM)nEuropean Co
31、nf.on Machine Learning and Principles and practices of Knowledge Discovery and Data Mining(ECML-PKDD)nPacific-Asia Conf.on Knowledge Discovery and Data Mining(PAKDD)nInt.Conf.on Web Search and Data Mining(WSDM)nOther related conferencesnDB conferences:ACM SIGMOD,VLDB,ICDE,EDBT,ICDT,nWeb and IR confe
32、rences:WWW,SIGIR,WSDMnML conferences:ICML,NIPSnPR conferences:CVPR,nJournals nData Mining and Knowledge Discovery(DAMI or DMKD)nIEEE Trans.On Knowledge and Data Eng.(TKDE)nKDD ExplorationsnACM Trans.on KDDWhere 2 Find References?DBLP,CiteSeer,GooglenData mining and KDD(SIGKDD:CDROM)nConferences:ACM-
33、SIGKDD,IEEE-ICDM,SIAM-DM,PKDD,PAKDD,etc.nJournal:Data Mining and Knowledge Discovery,KDD Explorations,ACM TKDDnDatabase systems(SIGMOD:ACM SIGMOD AnthologyCD ROM)nConferences:ACM-SIGMOD,ACM-PODS,VLDB,IEEE-ICDE,EDBT,ICDT,DASFAAnJournals:IEEE-TKDE,ACM-TODS/TOIS,JIIS,J.ACM,VLDB J.,Info.Sys.,etc.nAI&Mac
34、hine LearningnConferences:Machine learning(ML),AAAI,IJCAI,COLT(Learning Theory),CVPR,NIPS,etc.nJournals:Machine Learning,Artificial Intelligence,Knowledge and Information Systems,IEEE-PAMI,etc.nWeb and IR nConferences:SIGIR,WWW,CIKM,etc.nJournals:WWW:Internet and Web Information Systems,nStatisticsn
35、Conferences:Joint Stat.Meeting,etc.nJournals:Annals of statistics,etc.nVisualizationnConference proceedings:CHI,ACM-SIGGraph,etc.nJournals:IEEE Trans.visualization and computer graphics,etc.38Recommended Reference BooksnE.Alpaydin.Introduction to Machine Learning,2nd ed.,MIT Press,2011 nS.Chakrabart
36、i.Mining the Web:Statistical Analysis of Hypertex and Semi-Structured Data.Morgan Kaufmann,2002nR.O.Duda,P.E.Hart,and D.G.Stork,Pattern Classification,2ed.,Wiley-Interscience,2000nT.Dasu and T.Johnson.Exploratory Data Mining and Data Cleaning.John Wiley&Sons,2003nU.M.Fayyad,G.Piatetsky-Shapiro,P.Smy
37、th,and R.Uthurusamy.Advances in Knowledge Discovery and Data Mining.AAAI/MIT Press,1996nU.Fayyad,G.Grinstein,and A.Wierse,Information Visualization in Data Mining and Knowledge Discovery,Morgan Kaufmann,2001nJ.Han,M.Kamber,and J.Pei,Data Mining:Concepts and Techniques.Morgan Kaufmann,3rd ed.,2011nT.
38、Hastie,R.Tibshirani,and J.Friedman,The Elements of Statistical Learning:Data Mining,Inference,and Prediction,2nd ed.,Springer,2009nB.Liu,Web Data Mining,Springer 2006nT.M.Mitchell,Machine Learning,McGraw Hill,1997nY.Sun and J.Han,Mining Heterogeneous Information Networks,Morgan&Claypool,2012nP.-N.Tan,M.Steinbach and V.Kumar,Introduction to Data Mining,Wiley,2005nS.M.Weiss and N.Indurkhya,Predictive Data Mining,Morgan Kaufmann,1998nI.H.Witten and E.Frank,Data Mining:Practical Machine Learning Tools and Techniques with Java Implementations,Morgan Kaufmann,2nd ed.2005