[管理学]聚类及贝叶斯分类课件.ppt-资源下载-163文库_上传原创PPT模板、课件、文档赚钱

[管理学]聚类及贝叶斯分类课件.ppt

1、聚类（Cluster）聚类目的在将相似的事物归类。聚类分析又称为“同质分组”或者“无监督的分类”，指把一组数据分成不同的“簇”，每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。好的聚类方法应保证不同类间数据的相似性尽可能地小，而类内数据的相似性尽可能地大。12023-2-11 聚类分析的基本思想是认为所研究的数据集中的数据或者属性之间存在着程度不同的相似性。于是从数据集中取出一批数据，具体找出一些能够度量数据值之间或者属性之间相似程度的量，以这些量为中心作为划分类型的依据，把一些相似程度较大的数据或属性聚合为一类，把另外一些彼此之间相似程度较大的样品

2、又聚合为另一类，关系密切的聚合到一个小的分类单位，关系疏远的聚合到一个大的分类单位，直到所有数据或属性都聚合完毕，把不同的类型一一划分出来。比较常用的距离有绝对值距离欧氏距离明斯基距离2023-2-114Hierarchical Clustering层次聚类法该方法是利用距离矩阵作为分类标准，将n个样品各作为一类；计算n个样品两两之间的距离，构成距离矩阵；合并距离最近的两类为一新类；计算新类与当前各类的距离；再合并、计算，直至只有一类为止。Step 0Step 1Step 2Step 3Step 4bdceaa bd ec d ea b c d eStep 4Step 3Step 2S

3、tep 1Step 0agglomerative(AGNES)divisive(DIANA)K均值算法均值算法 K均值（k-means）是一种简便、实用的无监督聚类分析算法。这种算法在已知簇的个数时，可很好地实现数据的聚类分析。基本思想（1）首先，随机选择k个数据点做为聚类中心；（2）然后，计算其它点到这些聚类中心点的距离，通过对簇中距离平均值的计算，不断改变这些聚类中心的位置，直到这些聚类中心不再变化为止。2023-2-116K-Means Clustering K-均值聚类方法 Example：01234567891001234567891001234567891001234567891

4、0012345678910012345678910012345678910012345678910012345678910012345678910K=2Arbitrarily choose K object as initial cluster centerAssign each objects to most similar centerUpdate the cluster meansUpdate the cluster meansreassignreassign K K均值的流程均值的流程由流程图可知，k-均值算法是一种基于对数据集进行划分的方法进行聚类的算法。它是不断趋于最优解的试探过

5、程。每一次迭代都试图使簇中心的选择更加接近于数据集的实际簇中心。输出N输入读入标准化归一化初始化簇计算簇平均值更改簇中心重新决定点归何簇Y簇中心是否变化K均值算法均值算法优势优势（1）算法简单；（2）执行和收敛过程相对较快，是一种常见的聚类算法。局限性局限性（1）算法要求簇是密集的、簇和簇之间的差异比较大；（2）数据集的平均值的计算必须有适当的定义；（3）对于某些孤立数据和“噪声”点敏感等。Nave Bayes算法微软朴素贝叶斯算法是SAS中最简单的算法，通常用作理解数据基本分组的起点,说的简单一点就是处理数据的分类虽然该算法既可用于预测也可用于分组，但最常用于模型构建的早期阶段，更常用

6、于分组而不是预测某个具体的值定义定义事件组A1，A2，An(n可为)，称为样本空间S的一个划分，若满足：.,.,2,1,),(,)(;)(1njijiAAiiSAijiniiA1A2AnBNave Bayes 分类定理定理设设A A1 1，,A,An n是是S S的一个划分，且的一个划分，且P(AP(Ai i)0)0，(i(i1 1，n)n)，则对任何事件则对任何事件B B S S，有有 ),.,1(,)|()()|()()|(1njABPAPABPAPBAPniiijjj式子就称为贝叶斯公式贝叶斯公式。贝叶斯定理回顾贝叶斯定理回顾)()/()()|(BPABPAPBAP例子：例子：已知

7、某种疾病的发病率为已知某种疾病的发病率为0.1%,0.1%,该种疾病患者一个月该种疾病患者一个月以内的死亡率为以内的死亡率为90%90%；且知未患该种疾病的人一个月以内的；且知未患该种疾病的人一个月以内的死亡率为死亡率为0.1%0.1%；现从人群中任意抽取一人，问此人在一个月；现从人群中任意抽取一人，问此人在一个月内死亡的概率是多少？若已知此人在一个月内死亡，则此人内死亡的概率是多少？若已知此人在一个月内死亡，则此人是因该种疾病致死的概率为多少？是因该种疾病致死的概率为多少？45.0002.09.0001.0)()/()()|(002.0)()|()()|()(BPABPAPBAPAPABPA

8、PABPBPAB：某人患有该种疾病，：某人在一个月内死亡答：设贝叶斯定理回顾贝叶斯定理回顾贝叶斯公式给出了贝叶斯公式给出了结果结果事件事件B B已发生的条件已发生的条件下，下，原因原因属于属于事件事件A Ai i的条件概率的条件概率.从这个意义上讲，它是一个从这个意义上讲，它是一个“执果索因执果索因”的的条件概率计算公式条件概率计算公式.相对于事件相对于事件B B而言而言，概率论，概率论中把中把 P(A iP(A i)称为先验概率（称为先验概率（P r i o r P r i o r ProbabilityProbability），而把），而把P(Ai|BP(Ai|B

9、)称为后验概率称为后验概率（Posterior ProbabilityPosterior Probability），这是在已有附加），这是在已有附加信息（即事件信息（即事件B B已发生）之后对事件发生的可能已发生）之后对事件发生的可能性做出的重新认识，体现了已有信息带来的知性做出的重新认识，体现了已有信息带来的知识更新识更新.贝叶斯定理回顾贝叶斯定理回顾分类问题(,120K)X 对于去年退税否婚姻状况婚姻中可征税收入这个人会不会逃税?税号去年退税婚姻状况可征税收入逃税1是单身125k否2否婚姻中100k否3否单身70k否4是婚姻中120k否5否离婚95k是6否婚姻中60k否7是离婚220k

10、否8否单身85k是9否婚姻中75k否10否单身90k是分类问题名称胎生会飞水中生活有腿类别Human是否否是哺乳动物python否否否否非哺乳动物salmon否否是否非哺乳动物whale是否是否哺乳动物frog否否有时是非哺乳动物komodo否否否是非哺乳动物bat是是否是哺乳动物pigeon否是否是非哺乳动物cat是否否是哺乳动物leopard_shark是否是否非哺乳动物turtle否否有时是非哺乳动物penguin否否有时是非哺乳动物porcupine是否否是哺乳动物eel否否是否非哺乳动物salamander否否有时是非哺乳动物gila_monster否否否是非哺乳动物platypus

11、否否否是哺乳动物owl否是否是非哺乳动物dolphin是否是否哺乳动物eagle否是否是非哺乳动物胎生会飞水中生活有腿类别是否是否？贝叶斯分类方法把每一个属性（输入）和分类变量（输出）都看作随机变量对于具有属性值(A1,A2,An)的观测记录目标是预测类别C 特别地,我们想找能够最大化P(C|A1,A2,An)的 C 值能否从直接数据中估计P(C|A1,A2,An)?贝叶斯分类方法方法:使用贝叶斯定理对于分类变量C的所有值计算后验概率P(C|A1,A2,An)，选择C 使得P(C|A1,A2,An)最大等价于选择C 使得 P(A1,A2,An|C)P(C)最大如何估计P(A1,A

13、例如,P(C=否)=7/10,P(C=是)=3/10 Nk 是类别C=Ck.的数量对离散属性:P(Ai|Ck)=|Aik|/Nk|Aik|是属性值为Ai 且属于Ck的记录数量例如:P(婚姻状况=婚姻中|否)=4/7P(去年退税=是|是)=0 对于连续属性:(sqlserver不能处理连续型属性)离散化把属性的范围划分为许多段：每一段设定一个有序值这样会违反独立性假设估计概率密度假定属性服从正态分布估计该属性分布的参数 (例如,均值和标准差)在得到概率密度之后，我们可以使用它估计条件概率P(Ai|c)分类问题分类问题税号去年退税婚姻状况可征税收入逃税1是单身125k否2否婚姻中1

14、00k否3否单身70k否4是婚姻中120k否5否离婚95k是6否婚姻中60k否7是离婚220k否8否单身85k是9否婚姻中75k否10否单身90k是每一对(Ai,ci)的正态分布:例如对于(收入,逃税=否):在逃税=否的情况下，可征税收入的样本均值=110 样本方差=2975222)(221)|(ijijiAijjiecAP2(120 110)2(2975)1(120|)0.00722(54.54)Pe收入否分类问题税号去年退税婚姻状况可征税收入逃税1是单身125k否2否婚姻中100k否3否单身70k否4是婚姻中120k否5否离婚95k是6否婚姻中60k否7是离婚220k否8否单身85k

17、.02013004.0)()|(021.020706.0)()|(0042.01341331310131)|(06.072727676)|(NPNAPMPMAPNAPMAPA:（胎生是，会飞否，水中生活是，有腿否）M:哺乳动物N:非哺乳动物P(A|M)P(M)P(A|N)P(N)=哺乳动物哺乳动物分类问题名称胎生会飞水中生活有腿类别Human是否否是哺乳动物python否否否否非哺乳动物salmon否否是否非哺乳动物whale是否是否哺乳动物frog否否有时是非哺乳动物komodo否否否是非哺乳动物bat是是否是哺乳动物pigeon否是否是非哺乳动物cat是否否是哺乳动物leopard_sha

18、rk是否是否非哺乳动物turtle否否有时是非哺乳动物penguin否否有时是非哺乳动物porcupine是否否是哺乳动物eel否否是否非哺乳动物salamander否否有时是非哺乳动物gila_monster否否否是非哺乳动物platypus否否否是哺乳动物owl否是否是非哺乳动物dolphin是否是否哺乳动物eagle否是否是非哺乳动物胎生会飞水中生活有腿类别是否是否？这个算法之所以称为“朴素”，是因为所有属性的重要性是一样的，没有谁高谁低一说。它是一种运用算术原则来理解数据的方法对此算法的另一个理解就是：所有属性都是独立的，互不相关的。从字面来看，该算法只是计算所有属性之间的关联。虽

19、然该算法既可用于预测也可用于分组，但最常用于模型构建的早期阶段，更常用于分组而不是预测某个具体的值。通常要将所有属性标记为简单输入或者既是输入又是可预测的，因为这就可以要求算法在执行的时候考虑到所有属性很常见的一种情况是，在输入中包含大量属性，然后处理模型再评估结果，如果结果看起来没什么意义，我们经常减少包含的属性数量，以便更好地理解关联最紧密的关系。贝叶斯方法的不足贝叶斯方法的不足 (1)贝叶斯方法最有争议之处就是先验信息的使用。先贝叶斯方法最有争议之处就是先验信息的使用。先验信息来源于经验或者以前的实验结论，没有确定的理论验信息来源于经验或者以前的实验结论，没有确定的理论依据作支持，因此

20、在很多方面颇有争议。由于很多工作都依据作支持，因此在很多方面颇有争议。由于很多工作都是基于先验信息的，如果先验信息不正确，或者存在误差，是基于先验信息的，如果先验信息不正确，或者存在误差，那么最后导致的结论就会是不可想象的。尤其是在数据挖那么最后导致的结论就会是不可想象的。尤其是在数据挖掘中，挖掘出的知识也是不可预知的，就是说不知道挖掘掘中，挖掘出的知识也是不可预知的，就是说不知道挖掘出的知识是有用的还是无用的，甚至是错误的。虽然知识出的知识是有用的还是无用的，甚至是错误的。虽然知识发现中有一步是进行知识评估，但是这种评估并不能总是发现中有一步是进行知识评估，但是这种评估并不能总是知识的可用性

21、和有效性，特别不能确定先验信息是否正确知识的可用性和有效性，特别不能确定先验信息是否正确时，这种评估更带有不确定性。时，这种评估更带有不确定性。(2)处理数据复杂性高，因此时间和空间消耗也比较大。处理数据复杂性高，因此时间和空间消耗也比较大。贝叶斯方法要进行后验概率的计算、区间估计、假设检验贝叶斯方法要进行后验概率的计算、区间估计、假设检验等，大量的计算是不可避免的。等，大量的计算是不可避免的。如果我们拥有大量的数据，而且对数据的了解又很少，这时候可以使用朴素贝叶斯算法。例如：公司可能由于兼并了一家竞争对手而获得了大量的销售数据，在处理这些数据的时候，可以用朴素贝叶斯算法作为起点。应该了解的是

22、，SQLSERVER中这个算法有一个明显的局限：就是只能处理离散的内容类型，如果选择的数据结构中包含有内容类型不是Discrete的数据列，那么朴素贝叶斯算法建立的挖掘模型会忽略这些数据实例：办信用卡意愿分析项目性别年龄学生身分收入办卡1男45否高会2女3145否高会3女2030是低会4男20是低不会5女2030是中不会6女2030否中会7女3145否高会8男3145是中不会9男3145否中会10女0422023-2-111()=()()niiikikP X CP CP CP x C()432023-2-11 训练样本中对于(女性，年龄介于3145之间，不具学生身份，收入中等)的个人，按照

23、朴素贝叶斯分类会将其分到办信用卡一类中。办卡的概率是(0.044)/(0.044+0)=1(正规化分类的结果P(会)/(P(会)+P(不会)聚类分析的基本思想是在样品之间定义距离，在变量之间定义相似系数，距离或相似系数代表样品或变量之间的相似程度，按相似程度的大小，将样品或变量逐一归类，关系密切的类聚集到一个小的分类单位，然后逐步扩大，使得关系疏远的聚合到一个大的分类单位，直到所有的样品或变量都聚集完毕，形成一个表示亲属关系的谱系图，依次按照某些要求对某些样品或变量进行分类。聚类和分类的主要区别是，在进行聚类分析以前，对总体到底有几种类型并不知道，对已知数据分几类需在聚类的过程中探索调整，而分

24、类是在事前已知道分为哪些类。贝叶斯方法用于聚类的挖掘算法目前并不广泛，目前主要是用简单贝叶斯学习模型来进行聚类。由于贝叶斯方法的主要特点是通过先验信息来推得后验知识，如果将贝叶斯方法进行聚类，其基本思想就是：首先根据先验信息假定数据集中可能要聚为一类的数据服从某种分布，再用某种距离测度检验先验信息给出的这种分布是否符合聚为一类的要求。如果达不到聚类的要求，则根据计算概率找出不符合要求的原因，重新确定其分布，或修正此分布的参数，以获得更准确的分布。在BIDS中打开SQL Server示例数据库（Adventure Worksdw）中的Targeted Mailing示例，单击“挖掘模型”选项卡，在使用朴素贝叶斯的模型上单击右键，然后单击“设置算法参数”，打开“算法参数”对话框，如下图所示：

邮箱/手机：
温馨提示：	系统将以此处填写的邮箱或者手机号生成账号和密码，方便再次下载。如填写123，账号和密码都是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？