1、数据挖掘PPT前言前言 随着科学技术、网络技术的迅猛发展,人类正在步入信息社会。面对今天浩如烟海的信息,以及数据背后隐藏的许多重要的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。数据挖掘就是为满足这种要求而产生并迅速发展起来的,可用于开发信息资源的一种新的数据处理技术。数据挖掘一词起源于 KDD(Knowledge Discovery in Database,数据库中的知识发现),可以追溯到 20 世纪 80 年代末。KDD 这个名词的正式形
2、成是在 1989 年美国底特律市召开的第一届 KDD 国际学术会议上,而第一届知识发现和数据挖掘(Data Mining,DM)国际学术会议是在 1995 年加拿大召开的,会议上将数据库里存放的数据生动地比拟成矿床,从而“数据挖掘”这个名词很快就流传开来。数据挖掘的概念数据挖掘的概念v 数据挖掘就是利用一系列相关算法和技术从大型数据库中的数据中提取人们感兴趣的知识。它们隐藏在数据中,之前不为人们所知但却是人们确实需要的有价值的潜在知识,所提取到的知识表示形式可以为概念、模式、规律和规则等;它可以通过对历史数据和当前数据的分析,帮助决策人员提取隐藏在数据中的潜在关系与模式等,进而协助其预测未来可
3、能出现的状况和即将产生的结果。v 数据挖掘任务最常见的两种类型是:描述和预测。描述型数据挖掘的任务是寻找数据集中数据的一般特性,并对数据中存在的规则进行描述,或根据数据的相似性把数据分组。预测型数据挖掘的任务是根据当前数据进行推断和预测,进而由数据项的值来确定某种模式。数据挖掘是一个从不完整的、不明确的、大量的并且包含噪声,具有很大随机性的实际应用数据中,提取出隐含其中、事先未被人们获知、却潜在有用的知识或模式的过程。此定义包含了多个含义:(1)数据源必须为大量的、真实的并且包含噪声的;(2)挖掘到的新知识必须为用户需求的、感兴趣的;(3)挖掘到的知识为易理解的、可接受的、有效并且可运用的;(
4、4)挖掘出的知识并不要求适用于所有领域,可以仅支持某个特定的应用发现问题。数据挖掘是一门综合型学科,涉及数据库技术、人工智能、机器学习、统计分析、可视化技术、信息检索等很多学科领域。Text in here2.数据准备3.数据挖掘4.结果分析数据挖掘的过程数据挖掘的过程5.知识的同化1.确定业务对象数据挖掘主要模型与算法数据挖掘主要模型与算法 数据挖掘技术主要涉及神经网络、决策树、遗传算法、数据挖掘技术主要涉及神经网络、决策树、遗传算法、数理统计分析、关联规则和聚类分析等方法和学科。数理统计分析、关联规则和聚类分析等方法和学科。1.神经网络方法 神经网络由于本身良好的鲁棒性、自组织自适应性、并
5、行处理、分布存储和高度容错等特性,为解决大复杂度问题提供了一种相对来说比较有效的简单方法,因此近年来越来越受到人们的关注。其工作机理是通过学习改变神经元之间的连接强度。神经网络有前向神经网络、反馈神经网络、自组织神经网络等,在神经网络中,由权重和网络的拓扑结构决定了它所能识别的模式类型。它是一种通过训练来学习的非线性预测模型,可以完成分类、聚类、特征挖掘等多种数据挖掘任务。2.决策树 决策树学习着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。所以,从
6、根到叶结点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由Quinlan提出的著名的基于信息熵的ID3算法。3.遗传算法 遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法己在优化计算、分类、机器学习等方面发挥了显著作用。在数据挖掘中,它还可以用于评估其它算法的适合度,在处理组合优化问题方面有一定的优势,可用于聚类分析等。遗传算法的最大特点在于演算简单,但其用于数据挖掘也存在一些问题:
7、算法较复杂还有收敛于局部极小的过早收敛等难题未得到彻底解决。4.数理统计分析 此类技术建立在传统的数理统计的基础上。在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用统计、回归分析、相关分析、差异分析、多元回归分析及偏最小二乘回归方法等。传统统计分析可用于分类挖掘和聚类挖掘,SAS,SPSS和BMDP是目前国际上最具影响力的3大统计分析软件。5.聚类分析 聚类分析指将物理或者抽象数据对象集合分组成由相似的数据对象组成的多个类的分析过程,
8、它的目的就是在相似的基础上收集数据来进行分类。聚类分析就是依据数据彼此之间的相似性将其分类到不同的类或簇(Cluster)这样的一个过程,在同一个类中的对象彼此之间非常相似,而不同类间的对象之间具有较高的相异性。聚类分析是一个不断探索的分析过程,分类时根据数据本身进行分类而无需预先确定分类标准。采用不同的方法进行聚类分析得到的结果往往不尽相同。聚类方法五大类:划分法、层次法、基于密度的方法、基于网格的方法与基于模型的方法等。在电信业的应用在生物医药的应用在零售业的应用在金融业的应用在制造业的应用数据挖掘的应用数据挖掘的应用数据挖掘的应用领域数据挖掘的应用领域金融金融v信用卡分析业务模型 客户信
9、用等级评估 客户透支分析 客户利润分析 客户消费行为分析 客户消费异常行为分析数据挖掘在反洗钱系统中的应用数据挖掘的应用领域数据挖掘的应用领域营销营销v 关联分析-市场篮子分析,用于了解顾客的购买习惯和偏好,有助于决定市场商品的摆放和产品的捆绑销售策略;v 序列模式与市场篮子分析相似,不过是用某时间点发现的产品购买或其他行为模式来预测将来购买产品或服务类别的概率;v 聚类用于市场细分,将顾客按其行为或特征模式的相似性划分为若干细分市场,以采取有针对性的营销策略;v 分类用于预测哪些人会对邮寄广告和产品目录、赠券等促销手段有反应,还可用于顾客定级、破产预测等。数据挖掘在营销中的应用流程数据挖掘的
10、应用领域数据挖掘的应用领域电信电信数据挖掘技术在电信CRM系中的应用有以下几个方面:v 客户获得v 交叉销售v 客户保持 v 一对一营销 数据挖掘的应用领域数据挖掘的应用领域工业生产工业生产v 在生产工业领域,大部分工厂都积累了大量的实际生产数据,这些数据大多以数据库、数据文件、生产记录等形式存在,它们蕴涵了与生产设备、生产过程相关的许多规律性知识和生产决策、操作人员的操作决策和控制经验。v 应用方法:(1)建立过程输入输出模型,以此模型为指导寻求最优的操作和控制条件;(2)构造数据样本后,根据某种评估分类方法选出优选样本,根据优选样本的分布确定可探最优区,确定优化方向。数据挖掘在工业生产中的
11、应用示意图数据挖掘的应用领域数据挖掘的应用领域生物医学生物医学v DNA 序列相似搜索和比对v 基因组特征及基因序列的分析v 路径分析v 生物数据可视化和数据挖掘v 生物文献的挖掘v 基于隐私保护的数据挖掘数据挖掘面临的挑战和局限性数据挖掘面临的挑战和局限性v 处理不同种类的数据 v 数据挖掘算法的效率及扩展性 v 数据挖掘结果的可用性、确定性及可表达性v 各种数据挖掘结果的表达 v 多抽象层交互挖掘知识 v 从不同的数据源中挖掘信息 v 隐私保护及数据安全 数据挖掘的发展趋势数据挖掘的发展趋势WEB挖掘挖掘v Web 数据的收集,结构转换等预处理技术的研究;v 现有的数据挖掘方法在适应性和时
12、效性方面的研究v 基于Web 挖掘和信息检索的智能搜索引擎及相关技术的研究;v Web 挖掘在特定领域如电子商务领域的应用研究;v 半结构化文档挖掘。数据挖掘发展趋势数据挖掘发展趋势空间数据挖掘(SDM)的特点v 数据源十分丰富,数据量非常庞大,数据类型多,存取方法复杂;v 应用领域十分广泛,只要与空间位置相关的数据,都可对其进行挖掘;v 挖掘方法和算法非常,而且大多数算法比较复杂,难度大;v 知识的表达方式多样,对知识的理解和评价依赖于对人对客观世界的认知程度。L/O/G/OThank You!此课件下载可自行编辑修改,仅供参考!此课件下载可自行编辑修改,仅供参考!感谢您的支持,我们努力做得更好!谢谢感谢您的支持,我们努力做得更好!谢谢