1、1PPT课件是寻找一种对自然/人工主题、现象或活动可预测且/或可执行的机器理解方法2PPT课件研究计算机怎样模拟模拟或实现实现人类(动物动物)的学习行为,以获取新的知识或技能重新组织已有的知识结构使之不断改善自身的性能是人工智能的核心,是使计算机具有智能的根本途径其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎3PPT课件4PPT课件 必须预先知道学习的期望结果,并依此按照某一学习规则来修正权值。知道输入数据,知道结果,用函数预测个例无监督学习,不知道结果,根据数据特征分类 是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类
2、的问题。输入数据不可靠,依据权重的调整进行训练。 利用某一表示“奖惩”的全局信号,衡量与强化输入相关的局部决策如何。(输入输出之间没有固定的函数)5PPT课件决策树(简单问题)人工神经网络(大量样本)支持向量机(小样本)6PPT课件7PPT课件 决策树学习决策树学习1 1什么是决策树什么是决策树决策树(decision tree)也称判定树,它是由对象的若干属性、属性值和有关决策组成的一棵树。其中的节点为属性(一般为语言变量),分枝为相应的属性值(一般为语言值)。从同一节点出发的各个分枝之间是逻辑“或”关系;根节点为对象的某一个属性;从根节点到每一个叶子节点的所有节点和边,按顺序串连成一条分枝
3、路径,位于同一条分枝路径上的各个“属性-值”对之间是逻辑“与”关系,叶子节点为这个与关系的对应结果,即决策。例如图1就是一棵决策树。其中,A, B, C代表属性,ai, bj, ck代表属性值,dl代表对应的决策。处于同一层的属性(如图中的B, C)可能相同,也可能不相同,所有叶子节点(如图中的dl ,l=1,2, 6)所表示的决策中也可能有相同者。 8PPT课件由图1不难看出,一棵决策树上从根节点到每一个叶子节点的分枝路径上的诸“属性-值”对和对应叶子节点的决策,刚好就构成一个产生式规则:诸“属性-值”对的合取构成规则的前提,叶子节点的决策就是规则的结论。例如,图1中从根节点A到叶子节点d2
4、的这一条分枝路径就构成规则:(A= a1)(B = b2) = d2而不同分枝路径所表示的规则之间为析取关系。 9PPT课件图1 决策树示意图 10PPT课件图 2 飞机起飞的简单决策树 11PPT课件例例1 图3所示是一个描述“兔子”概念的决策树。 图 3 “兔子”概念的决策树 12PPT课件2. 2. 怎样学习决策树怎样学习决策树 决策树是一种知识表示形式, 构造决策树可以由人来完成, 但也可以由机器从一些实例中总结、归纳出来, 即由机器学习而得。 机器学习决策树也就是所机器学习决策树也就是所说的决策树学习说的决策树学习。 决策树学习是一种归纳学习。由于一棵决策树就表示了一组产生式规则,
5、因此决策树学习也是一种规则学习。特别地, 当规则是某概念的判定规则时,这种决策树学习也就是一种概念学习。 13PPT课件决策树学习的基本方法和步骤是决策树学习的基本方法和步骤是: : 首先,选取一个属性, 按这个属性的不同取值对实例集进行分类; 并以该属性作为根节点,以这个属性的诸取值作为根节点的分枝, 进行画树。 然后,考察所得的每一个子类, 看其中的实例的结论是否完全相同。如果完全相同, 则以这个相同的结论作为相应分枝路径末端的叶子节点; 否则, 选取一个非父节点的属性, 按这个属性的不同取值对该子集进行分类, 并以该属性作为节点, 以这个属性的诸取值作为节点的分枝, 继续进行画树。 如此
6、继续,直到所分的子集全都满足: 实例结论完全相同, 而得到所有的叶子节点为止。这样, 一棵决策树就被生成。下面我们进一步举例说明。 14PPT课件表表1 汽车驾驶保险类别划分实例集汽车驾驶保险类别划分实例集 15PPT课件可以看出,该实例集中共有12个实例,实例中的性别、年龄段和婚状为3个属性, 保险类别就是相应的决策项保险类别就是相应的决策项。为表述方便起见, 我们将这个实例集简记为 S=(1,C), (2,C), (3,C), (4,B), (5,A), (6,A), (7,C), (8,B), (9,A), (10,A), (11,B), (12,B) 其中每个元组表示一个实例, 前面的
7、数字为实例序号, 后面的字母为实例的决策项保险类别(下同)。另外, 为了简洁, 在下面的决策树中我们用“小”、“中”、“大”分别代表“21”、 “21且25”、 “25”这三个年龄段。 16PPT课件显然, S中各实例的保险类别取值不完全一样, 所以需要将S分类。对于S, 我们按属性“性别”的不同取值将其分类。 由表1可见, 这时S应被分类为两个子集: S1= (3,C), (4,B), (7,C), (8,B), (11,B), (12,B)S2=(1,C), (2,C), (5,A), (6,A), (9,A), (10,A) 于是, 我们得到以性别作为根节点的部分决策树(见图4(a)。
8、17PPT课件考察S1和S2,可以看出,在这两个子集中,各实例的保险类别也不完全相同。这就是说,还需要对S1和S2进行分类。对于子集S1,我们按“年龄段”将其分类;同样,对于子集S2,也按“年龄段”对其进行分类(注意:对于子集S2,也可按属性“婚状”分类)。分别得到子集S11, S12, S13和S21, S22, S23。于是,我们进一步得到含有两层节点的部分决策树(如图4(b)所示)。 18PPT课件注意到,这时除了S12和S13外,其余子集中各实例的保险类别已完全相同。所以,不需再对其进行分类,而每一个子集中那个相同的保险类别值就可作为相应分枝的叶子节点。添上这些叶子节点,我们又进一步得
9、到发展了的部分决策树(如图4(c)所示)。接着对S12和S13,按属性“婚状”进行分类(也只能按“婚状”进行分类)。由于所得子集S121, S121和S131, S132中再都只含有一个实例,因此无需对它们再进行分类。这时这4个子集中各自唯一的保险类别值也就是相应分枝的叶子节点。添上这两个叶子节点,就得到如图4(d)所示的决策树。 19PPT课件图4 决策树生成过程 20PPT课件图4 决策树生成过程 21PPT课件图4 决策树生成过程 22PPT课件图4 决策树生成过程 23PPT课件由这个决策树即得下面的规则集: 女性且年龄在25岁以上, 则给予A类保险. 女性且年龄在21岁到25岁之间,
10、 则给予A类保险。 女性且年龄在21岁以下, 则给予C类保险。 男性且年龄在25岁以上, 则给予B类保险。 男性且年龄在21岁到25岁之间且未婚, 则给予C类保险。 男性且年龄在21岁到25岁之间且已婚, 则给予B类保险。 男性且年龄在21岁以下且未婚, 则给予C类保险。 男性且年龄在21岁以下且已婚, 则给予B类保险。 24PPT课件25PPT课件人工神经网络人工神经网络1 1 生物神经元及人工神经元的组成生物神经元及人工神经元的组成2 2 人工神经网络的模型人工神经网络的模型 2 .1 2 .1 人工神经元的模型人工神经元的模型 2 .2 2 .2 常用的激活转移函数常用的激活转移函数 2
11、 .3 MP2 .3 MP模型神经元模型神经元26PPT课件神经元也称神经细胞,它是生物神经系统的最基本单元,神经元也称神经细胞,它是生物神经系统的最基本单元,它和人体中其他细胞的关键区别在于具有产生、处理和传递它和人体中其他细胞的关键区别在于具有产生、处理和传递信号的功能。每个神经元都包括三个主要部分:细胞体、树信号的功能。每个神经元都包括三个主要部分:细胞体、树突和轴突,见图突和轴突,见图5 5(a a)。)。 (a) 简单神经元网络图 (b) 简化后的网络示意图 (1) 细胞体;(2) 树突;(3) 轴突;(4) 突触图5 简单神经元网络及其简化结构图27PPT课件v 由一定数量的基本神
12、经元分层联接;v 每个神经元的输入、输出信号以及综合处理内容都比较简单;v 网络的学习和知识存储体现在各神经元之间的联接强度上。28PPT课件 2.1 2.1人工神经元的模型人工神经元的模型 神经元是人工神经网络的基本处理单元,它一般是一个多输入/单输出的非线性元件。神经元输出除受输入信号的影响外,同时也受到神经元内部因素的影响,所以在人工神经元的建模中,常常还加有一个额外输入信号,称为偏差,有时也称为阈值或门限值。29PPT课件 神经元的输出矢量可以表示为:神经元的输出矢量可以表示为: A = f ( W*P + b ) = f ( wj pj + b ) 可以看出偏差被简单地加在可以看出偏
13、差被简单地加在W W* *P P上作为激活函数的另一个输入上作为激活函数的另一个输入分量。实际上偏差也是一个权值,只是它具有固定常数为分量。实际上偏差也是一个权值,只是它具有固定常数为1 1的权值。的权值。在网络的设计中,偏差起着重要的作用,它使得激活函数的图形在网络的设计中,偏差起着重要的作用,它使得激活函数的图形可以左右移动,从而增加了解决问题的可能性。可以左右移动,从而增加了解决问题的可能性。人工神经网络的学习就是过程就是对它的训练过程30PPT课件2 2. 2 . 2 激活转移函数激活转移函数激活转移函数f(Activation transfer function)简称激活函数,它是一
14、个神经元及神经网络的核心之一。神经网络解决问题的能力与功效除了与网络结构有关外,在很大程度上取决于网络激活函数。线性函数、非线性斜面函数、阈值函数、S形函数31PPT课件人工神经网络是对人类神经系统的一种模拟。尽管人类神经系统规模宏大、结构复杂、功能神奇,但其最基本的处理单元却只有神经元。人工神经系统的功能实际上是通过大量神经元的广泛互连,以规模宏伟的并行运算来实现的。基于对人类生物系统的这一认识,人们也试图通过对人工神经元的广泛互连来模拟生物神经系统的结构和功能。人工神经元之间通过互连形成的网络称为人工神经网络。在人工神经网络中,神经元之间互连的方式称为连接模式或连接模型。它不仅决定了神经元
15、网络的互连结构,同时也决定了神经网络的信号处理方式。32PPT课件人工神经网络的分类人工神经网络的分类 目前,已有的人工神经网络模型至少有几十种,其分类方法也有多种。例如,若按网络拓扑结构,可分为无反馈网络与有反馈网络;若按网络的学习方法,可分为有导师学习网络和无导师学习网络;若按网络的性能,可分为连续型网络与离散型网络,或分为确定性网络与随机型网络;若按突触连接的性质,可分为一阶线性关联网络与高阶非线性关联网络。33PPT课件无导师学习: 当两个神经元同时处于激发状态时被加强,否则被减弱。 它学习的是神经元之间的连接强度。有导师学习: 输入向量与其输出向量构成一个训练对,不断调整权值,使输入
16、与输出向量在一个误差范围内。34PPT课件人工神经网络的局限性人工神经网络的局限性人工神经网络是一个新兴学科,因此还存在许多问题。其主要表现有:1.受到脑科学研究的限制:由于生理实验的困难性,因此目前人类对思维和记忆机制的认识还很肤浅,还有很多问题需要解决;2.还没有完整成熟的理论体系;3.还带有浓厚的策略和经验色彩;4.与传统技术的接口不成熟。上述问题的存在,制约了人工神经网络研究的发展。35PPT课件2 2. 3 MP. 3 MP神经元模型神经元模型 MP神经元模型是由美国心理学家McClloch和数学家Pitts共同提出的,因此,常称为MP模型。 MP神经元模型是典型的阈值型神经元,见图
17、7,它相当于一个多输入单输出的阈值器件。w1w2wrp1p2pr briiibpwfA1 图7 MP模型神经元36PPT课件 如图7所示,假定p1,p2,pn表示神经元的n个输入;wi表示神经元的突触连接强度,其值称为权值;n 表示神经元的输入总和,f (n) 即为激活函数;a 表示神经元的输出,b 表示神经元的阈值,那么MP模型神经元的输出可描述为(1)式所示:w1w2wrp1p2pr briiibpwfa1图7 MP模型神经元riiibpwnnfa1(1)37PPT课件MP模型神经元是二值型神经元,其输出状态取值为1或0,分别代表神经元的兴奋和抑制状态。如果 N 0,即神经元输入加权总和超
18、过某个阈值,那么该神经元兴奋,状态为1;如果N 0,那么该神经元受到抑制,状态为0。通常,将这个规定称为MP模型神经元的点火规则。用一数学表达式表示为:对于 MP模型神经元,权值w在( 1, 1)区间连续取值。取负值表示抑制两神经元间的连接强度,正值表示加强。 1000NAf nN(2)38PPT课件为了回答这个问题,为了回答这个问题,我们以简单的逻辑代数运算为例来说明。我们以简单的逻辑代数运算为例来说明。 39PPT课件例例1 1 假设一个假设一个MPMP模型神经元有模型神经元有2 2个输入:个输入:P P1 1和和P P2 2,其,其目标输出记为目标输出记为T T,试问它能否完成下列真值表
19、功能?,试问它能否完成下列真值表功能? 解:根据要求,神经元的权值和阈值必须满足如下不等式组: 若取b值为0.5,W1和W2取0.7。可以验证用这组权值和阈值构成的2输入MP模型神经元能够完成该逻辑“或”运算。00201021WWWW00201021bbWbWbWW(1) (2) (3) (4)不 等 式 组真 值 表 p1 p2 t 1 1 1 1 0 10 1 1 0 0 040PPT课件如同许多代数方程一样,由MP模型激活函数得出的不等式具有一定的几何意义,所有输入样本构成样本输入空间。对于任意特定W和P的值都规定了一个超平面(决策平面),其方程为:它把超平面Rn(XRn)分成了两部分:
20、WX-b0G(X)0;当;当X X点在超平面点在超平面的负侧时,的负侧时,G(X)0G(X)0 0w57PPT课件支持向量机的应用现状支持向量机的应用现状 VM人脸检测、验证和识别 Osuna最早将SVM应用于人脸检测,并取得了较好的效果。其方法是直接训练非线性分类器完成人脸与非人脸的SVM分类。由于SVM的训练需要大量的存储空间,并且非线性SVM 分类器需要较多的支持向量,速度很慢。所以在实际中广泛实用层次结构分类器,它由一个线性组合和一个非线性组成。检测时,由前者快速排除掉图像SVM 中绝大部分背景窗口,而后者只需对少量的候选区域做出确认。 人脸检测研究中更复杂的情况是姿态的变化。基于支持
21、向量机姿态分类器,分类错误率降低到1.67%,明显优于在传统方法中效果最好的人工神经元网络方法。人脸姿态可以划分为多个类别,在训练过程中,面部特征的提取和识别可看作是对3D物体的投影图像进行匹配的问题。很多研究利用了SVM利于处理小样本问题以及泛化能力强的优势,取得了比传统最近邻分类器和BP网络分类器更高的识别率。58PPT课件支持向量机的应用现状支持向量机的应用现状贝尔实验室对美国邮政手写数字库进行的实验,人工识别平均错误率是2.5%,专门针对该特定问题设计的层神经网络错误率为5.1%(其中利用了大量先验知识),而用种方法采用3种SVM核函数得到的错误率分别为4.0%、4.1%和4.2%,且
22、是直接采用1616的字符点阵作为输入,表明了SVM的优越性能。 手写体数字09的特征可以分为结构特征、统计特征等。在一些实验中,SVM表明了对手写汉字识别的有效性。59PPT课件无监督分类聚类关联规则60PPT课件聚类(聚类(CLUSTERCLUSTER)聚类目的在将相似的事物归类。聚类分析又称为“同质分组”或者“无监督的分类”,指把一组数据分成不同的“簇”,每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。好的聚类方法应保证不同类间数据的相似性尽可能地小,而类内数据的相似性尽可能地大。 6161PPT课件聚类分析的基本思想是认为所研究的数据集中的数据
23、或者属性之间存在着程度不同的相似性。于是从数据集中取出一批数据,具体找出一些能够度量数据值之间或者属性之间相似程度的量,以这些量为中心作为划分类型的依据,把一些相似程度较大的数据或属性聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有数据或属性都聚合完毕,把不同的类型一一划分出来。62PPT课件比较常用的比较常用的距离:距离: 绝对值距离欧氏距离明斯基距离63PPT课件64HIERARCHICAL CLUSTERINGHIERARCHICAL CLUSTERING层次聚类法层次聚类法该方法是利用距离矩阵作
24、为分类标准,将n个样品各作为一类;计算n个样品两两之间的距离,构成距离矩阵;合并距离最近的两类为一新类;计算新类与当前各类的距离;再合并、计算,直至只有一类为止。Step 0Step 1Step 2Step 3Step 4bdceaa bd ec d ea b c d eStep 4Step 3Step 2Step 1Step 0agglomerative(AGNES)divisive(DIANA)64PPT课件K K均值算法均值算法K均值(k-means)是一种简便、实用的无监督聚类分析算法。这种算法在已知簇的个数时,可很好地实现数据的聚类分析。 基本思想:(1)首先,随机选择k个数据点做为
25、聚类中心(2)然后,计算其它点到这些聚类中心点的距离,通过对簇中距离平均值的计算,不断改变这些聚类中心的位置,直到这些聚类中心不再变化为止。65PPT课件K-MEANS CLUSTERING KK-MEANS CLUSTERING K- -均值聚类方法均值聚类方法012345678910012345678910012345678910012345678910012345678910012345678910012345678910012345678910012345678910012345678910K=2Arbitrarily choose K object as initial cluste
26、r centerAssign each objects to most similar centerUpdate the cluster meansUpdate the cluster meansreassignreassign66PPT课件K K均值的流程均值的流程由流程图可知,k-均值算法是一种基于对数据集进行划分的方法进行聚类的算法。它是不断趋于最优解的试探过程。每一次迭代都试图使簇中心的选择更加接近于数据集的实际簇中心。输出N输入读入标准化归一化初始化簇计算簇平均值更改簇中心重新决定点归何簇Y簇中心是否变化67PPT课件最近邻方法最近邻方法-分类分类最近邻决策规则最近邻决策规则k-NN
27、k-NN(1)(1)已知已知N N个已知个已知类别样本类别样本X X(2)(2)输入未知类别输入未知类别样本样本x x(6) (6) 判判x x 2 2(3)(3)计算计算x x到到x xi i X X,( (i i=1,=1,2,2,N),N)的的距离距离d di i(x)(x)(4)(4)找出找出x x的的k k个最近邻个最近邻元元X Xk k=x=xi i,i=1,2,i=1,2,k,k(5)(5)看看X Xk k中属于哪一类的样中属于哪一类的样本最多本最多k k1 1=3k=3 0) 0,( (i i1 1,n)n),则对任何事件则对任何事件B B S S,有有 ),.,1( ,)|(
28、)()|()()|(1njABPAPABPAPBAPniiijjj式子就称为贝叶斯公式。贝叶斯定理回顾贝叶斯定理回顾)()/()()|(BPABPAPBAP72PPT课件例子:已知某种疾病的发病率为0.1%, 该种疾病患者一个月以内的死亡率为90%;且知未患该种疾病的人一个月以内的死亡率为0.1%;现从人群中任意抽取一人,问此人在一个月内死亡的概率是多少?若已知此人在一个月内死亡,则此人是因该种疾病致死的概率为多少?45. 0002. 09 . 0001. 0)()/()()|(002. 0)()|()()|()(BPABPAPBAPAPABPAPABPBPAB:某人患有该种疾病,:某人在一个
29、月内死亡答:设贝叶斯定理回顾贝叶斯定理回顾73PPT课件 贝叶斯公式给出了结果事件B已发生的条件下,原因属于事件Ai的条件概率. 从这个意义上讲,它是一个“执果索因”的条件概率计算公式.相对于事件B而言 ,概率论中把P(Ai)称为先验概率(Prior Probability),而把P(Ai|B)称为后验概率 (Posterior Probability),这是在已有附加信息(即事件B已发生)之后对事件发生的可能性做出的重新认识,体现了已有信息带来的知识更新. 贝叶斯定理回顾贝叶斯定理回顾74PPT课件(,120K)X 对于去年退税否婚姻状况婚姻中可征税收入这个人会不会逃税?税号去年退税婚姻状况
30、可征税收入逃税1是单身125k否2否婚姻中100k否3否单身70k否4是婚姻中120k否5否离婚95k是6否婚姻中60k否7是离婚220k否8否单身85k是9否婚姻中75k否10否单身90k是75PPT课件名称胎生会飞水中生活有腿类别Human是否否是哺乳动物python否否否否非哺乳动物salmon否否是否非哺乳动物whale是否是否哺乳动物frog否否有时是非哺乳动物komodo否否否是非哺乳动物bat是是否是哺乳动物pigeon否是否是非哺乳动物cat是否否是哺乳动物leopard_shark 是否是否非哺乳动物turtle否否有时是非哺乳动物penguin否否有时是非哺乳动物porcu
31、pine是否否是哺乳动物eel否否是否非哺乳动物salamander否否有时是非哺乳动物gila_monster否否否是非哺乳动物platypus否否否是哺乳动物owl否是否是非哺乳动物dolphin是否是否哺乳动物eagle否是否是非哺乳动物胎生会飞水中生活有腿类别是否是否?76PPT课件贝叶斯分类方法贝叶斯分类方法 把每一个属性(输入) 和分类变量(输出)都看作随机变量 对于具有属性值(A1, A2,An)的观测记录目标是预测类别C特别地, 我们想找能够最大化P(C| A1, A2,An )的 C 值 能否从直接数据中估计P(C| A1, A2,An )?77PPT课件 方法:使用贝叶斯定
32、理对于分类变量C的所有值计算后验概率P(C | A1, A2, , An) ,选择C 使得P(C | A1, A2, , An)最大等价于选择C 使得 P(A1, A2, , An|C) P(C)最大 如何估计P(A1, A2, , An | C )?)()()|()|(212121nnnAAAPCPCAAAPAAACP贝叶斯分类方法贝叶斯分类方法78PPT课件简单贝叶斯简单贝叶斯 假设在给定的类别上属性变量 Ai 相互独立: P(A1, A2, , An |C) = P(A1| Cj) P(A2| Cj) P(An| Cj) 对所有的Ai 和 Cj计算P(Ai| Cj).如果对某一个Cj ,
33、P(Cj) P(Ai| Cj) 最大,新的数据点就被分类到Cj 。79PPT课件税号去年退税 婚姻状况可征税收入逃税1是单身125k否2否婚姻中100k否3否单身70k否4是婚姻中120k否5否离婚95k是6否婚姻中60k否7是离婚220k否8否单身85k是9否婚姻中75k否10否单身90k是 类别: P(Ck) = Nk/N例如, P(C=否) = 7/10, P(C=是) = 3/10Nk是类别C=Ck.的数量 对离散属性: P(Ai | Ck) = |Aik|/ Nk |Aik| 是属性值为Ai 且属于Ck的记录数量例如:P(婚姻状况=婚姻中|否) = 4/7P(去年退税=是|是)=08
34、0PPT课件 对于连续属性: (sqlserver不能处理连续型属性) 离散化 把属性的范围划分为许多段: 每一段设定一个有序值 这样会违反独立性假设 估计概率密度 假定属性服从正态分布 估计该属性分布的参数 (例如, 均值和标准差) 在得到概率密度之后,我们可以使用它估计条件概率P(Ai|c)81PPT课件税号去年退税 婚姻状况可征税收入逃税1是单身125k否2否婚姻中100k否3否单身70k否4是婚姻中120k否5否离婚95k是6否婚姻中60k否7是离婚220k否8否单身85k是9否婚姻中75k否10否单身90k是 每一对(Ai,ci)的正态分布: 例如对于(收入,逃税=否):在逃税=否的
35、情况下,可征税收入的 样本均值= 110 样本方差= 2975222)(221)|(ijijiAijjiecAP2(120 110)2(2975)1(120 |)0.00722(54.54)Pe收入否82PPT课件思路:看p(逃税=否| X)是否大于p (逃税=是| X)p(逃税=否| X)=p(逃税=否) P(X|逃税=否)/ p(B)p(逃税=是| X)=p(逃税=是) P(X|逃税=是)/ p(B)P(X|逃税=否)= P(去年退税=否|逃税=否) P(婚姻中| 逃税=否) P(收入=120K| 逃税=否)P(X|逃税=是)=P(去年退税=否| 逃税=是) P(婚姻中| 逃税=是) P(
36、收入=120K| 逃税=是)(,120K)X 对于去年退税否 婚姻状况婚姻中可征税收入)()/()()|(BPABPAPBAP83PPT课件P(X|逃税=否) = P(去年退税=否|逃税=否) P(婚姻中| 逃税=否) P(收入=120K| 逃税=否) = 4/7 4/7 0.0072 = 0.0024P(X|逃税=是) = P(去年退税=否| 逃税=是) P(婚姻中| 逃税=是) P(收入=120K| 逃税=是) = 1 0 1.2 10-9 = 0因为: P(X|否)P(否) P(X|是)P(是) 0.0024*0.3 0*0.7 所以: P(否|X) P(是|X) = 逃税 = 否84P
37、PT课件0027.02013004.0)()|(021.020706.0)()|(0042.01341331310131)|(06.072727676)|(NPNAPMPMAPNAPMAPA: (胎生是,会飞否,水中生活是,有腿否)M: 哺乳动物N: 非哺乳动物P(A|M)P(M) P(A|N)P(N)= 哺乳动物名称胎生会飞水中生活有腿类别Human是否否是哺乳动物python否否否否非哺乳动物salmon否否是否非哺乳动物whale是否是否哺乳动物frog否否有时是非哺乳动物komodo否否否是非哺乳动物bat是是否是哺乳动物pigeon否是否是非哺乳动物cat是否否是哺乳动物leopar
38、d_shark是否是否非哺乳动物turtle否否有时是非哺乳动物penguin否否有时是非哺乳动物porcupine是否否是哺乳动物eel否否是否非哺乳动物salamander否否有时是非哺乳动物gila_monster否否否是非哺乳动物platypus否否否是哺乳动物owl否是否是非哺乳动物dolphin是否是否哺乳动物eagle否是否是非哺乳动物胎生会飞水中生活 有腿类别是否是否?85PPT课件这个算法之所以称为“朴素”,是因为所有属性的重要性是一样的,没有谁高谁低一说。它是一种运用算术原则来理解数据的方法对此算法的另一个理解就是:所有属性都是独立的,互不相关的。从字面来看,该算法只是计算
39、所有属性之间的关联。虽然该算法既可用于预测也可用于分组,但最常用于模型构建的早期阶段,更常用于分组而不是预测某个具体的值。通常要将所有属性标记为简单输入或者既是输入又是可预测的,因为这就可以要求算法在执行的时候考虑到所有属性 86PPT课件很常见的一种情况是,在输入中包含大量属性,然后处理模型再评估结果,如果结果看起来没什么意义,我们经常减少包含的属性数量,以便更好地理解关联最紧密的关系。87PPT课件贝叶斯方法的不足贝叶斯方法的不足1.贝叶斯方法最有争议之处就是先验信息的使用。先验信息来源于经验或者以前的实验结论,没有确定的理论依据作支持,因此在很多方面颇有争议。由于很多工作都是基于先验信息
40、的,如果先验信息不正确,或者存在误差,那么最后导致的结论就会是不可想象的。尤其是在数据挖掘中,挖掘出的知识也是不可预知的,就是说不知道挖掘出的知识是有用的还是无用的,甚至是错误的。虽然知识发现中有一步是进行知识评估,但是这种评估并不能总是知识的可用性和有效性,特别不能确定先验信息是否正确时,这种评估更带有不确定性。2.处理数据复杂性高,因此时间和空间消耗也比较大。贝叶斯方法要进行后验概率的计算、区间估计、假设检验等,大量的计算是不可避免的。88PPT课件 如果我们拥有大量的数据,而且对数据的了解又很少,这时候可以使用朴素贝叶斯算法。 例如:公司可能由于兼并了一家竞争对手而获得了大量的销售数据,
41、在处理这些数据的时候,可以用朴素贝叶斯算法作为起点。 89PPT课件聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或变量之间的相似程度,按相似程度的大小,将样品或变量逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品或变量都聚集完毕,形成一个表示亲属关系的谱系图,依次按照某些要求对某些样品或变量进行分类。90PPT课件聚类和分类的主要区别是,在进行聚类分析以前,对总体到底有几种类型并不知道,对已知数据分几类需在聚类的过程中探索调整, 而分类是在事前已知道分为哪些类。91PPT课件首都师范大学首都师范大学信息工程学院信息工程学院92PPT课件