1、1第13讲 其它数据挖掘算法本讲讲授目标:本讲讲授目标:1. 贝叶斯分类器贝叶斯分类器2. 预测预测 回归模型分析回归模型分析 时间序列分析时间序列分析2一. 贝叶斯分类器后验概率与先验概率:后验概率与先验概率: 设设X是一个未知类标号的是一个未知类标号的数据样本数据样本,设,设H为某种假定为某种假定: 数据样本数据样本X属于某特定的类属于某特定的类C。我们希望确定我们希望确定 ,即给定观测数据,即给定观测数据样本样本X后假定后假定H成立的概率。它是表示给出数成立的概率。它是表示给出数据集据集X后我们对假定的信任度的后验概率。相后我们对假定的信任度的后验概率。相反,不管数据样本看上去如何,对于
2、任何样反,不管数据样本看上去如何,对于任何样本来说本来说 都是先验概率。后验概率都是先验概率。后验概率 比先验概率比先验概率 基于更多的信息。基于更多的信息。 ()P H X( )P H()P H X( )P H3 贝叶斯定理提供了一种由概率 、和 来计算后验概率的方法,其基本关系是: 4贝叶斯定理( )PH( )P X()P X H () ( )()( )P X H P HP H XP X5贝叶斯分类算法贝叶斯分类算法 现在假定有一组m个元素的样本 S= (训练数据集),其中每一个样本代表了一个n维向量 。 值分别和样本属性 相对应。并且有k个样本类 , 每一个样本属于其中一个类。 另外给出
3、一个数据样本X(它的类是未知的),可以用最高的条件概率 来预测X的类,这里i=1,k。这是朴素贝叶斯分类的基本思想。 12, ,.,mS SS12,.,nx xxix12,.,nA AA12,.,kC CC()iP C X6贝叶斯分类算法贝叶斯分类算法 () ( )()( )iiiP X C PCPC XP X 可以通过贝叶斯定理计算这些概率: 因为 对所有的类别都是个常量,仅要求乘积 的最大值。我们用下面的式子计算一个类别的先验概率。 = 类别 的训练样本数量/m(m是训练样本的总数)。()P X(). ( )iiP X C P C()iP CiC概率计算过程概率计算过程 因为 的计算是极其
4、复杂的,特别是对大量的数据集来说。所以要给出零假设: 样本各属性之间条件独立。利用这个假设,我们用一个乘积来表示 . = 其中 是样本X的属性值, 能够通过训练数据集来计算 .()iP X C()iP X C()iPX C1()ntitP x Ctx()tiP x C概率计算过程概率计算过程9示例示例例如:一个销售的顾客数据库(训练样本集合),对购买计算机的人例如:一个销售的顾客数据库(训练样本集合),对购买计算机的人员进行分类:字段为(年龄(取值:员进行分类:字段为(年龄(取值:40);收入收入(高高,中中,低低);学生否学生否(Y,N);信用信用(一般一般,很好很好);购买计算机否购买计算
5、机否(Y,N) 记录为记录为14个个,具体数具体数据如下据如下:10问题利用贝叶斯法则预测,符合下列条件的人利用贝叶斯法则预测,符合下列条件的人员购买计算机的可能性员购买计算机的可能性:X=(年龄(年龄30, 收入收入=中中, 学生否学生否=Y, 信用信用=一般一般 ) 本例只有两个类别本例只有两个类别,即即C1=购买计算机购买计算机,C2=不购买不购买计算机计算机,P(Ci)为每个事件的事前概为每个事件的事前概,P(C1)=9/14=0.643, P (C2)=5/14=0.357,为了计算为了计算P(X|Ci)(i=1,2),先进行以下先进行以下运算运算:P(年龄年龄30|C)=2/9,
6、P(年龄年龄P(X|C2)*P(C2) 所以根据贝叶斯分类方法可知,数据对象所以根据贝叶斯分类方法可知,数据对象属于购买计算机类,即属于购买计算机类,即1 分母相同只需比较分子的大小即可。分母相同只需比较分子的大小即可。贝叶斯分类结果13贝叶斯分类的改进存在问题:存在问题: 假设假设条件条件-样本各属性之间条件独立样本各属性之间条件独立,多数情况下该假设条件并不存立。多数情况下该假设条件并不存立。改进:改进: 考虑属性之间的相关性,提出了贝叶斯考虑属性之间的相关性,提出了贝叶斯信念网络(信念网络(Bayesian Belief Network)。)。14二、预测 预测是构造和使用模型评估无样本
7、类,预测是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间。或评估给定样本可能具有的属性或值空间。预测与分类的异同:预测与分类的异同:相同点:相同点: 两者都需要构建模型两者都需要构建模型 都用模型来估计未知值都用模型来估计未知值不同:不同: 分类法主要是用来预测类标号(分类属性值)分类法主要是用来预测类标号(分类属性值) 预测法主要是用来估计连续值(量化属性值)预测法主要是用来估计连续值(量化属性值)15预测模型常用的有两大类: 回归模型 Regression Model 时间序列模型 Time Series16 回归分析回归分析 回归分析就是统计分析,分析两个或两个以上关系
8、的相互变化的统计方法。 回归分析可由另外一个变量的数值或另外几个以上变量的数值来加以分析预测因果关系。 例:销售量与广告费用之间的变化关系。 回归分析模型回归分析模型17 简单线性回归Simple Linear Regression 多元线性回归 Multiple Linear Regression 广义线性模型GLM (function relation)Ybb X01Ybb Xb Xb X0112233Yf X()18回归分析目的 描述事实(description):例:节目制作费用与收视率之关系 (了解变量之关系) 控制(control):例:商品价格与需要量之关系,从而控制价格,控制需
9、要量 (以价制量) 预测(prediction):例:制作费与收视率之关系(可预估收视率)19实例研究-胆固醇预测 有位医生想要探讨成人血液中的胆固醇是否受到体重、血压及年龄的影响,调查10位20至30岁成人男性得到如下结果:年齡(年)體重(公斤)血壓(mmHg)膽固醇(mg/100c.c.)2258.21151752862.01301802556.61221622452.81221602559.51241742656.01261802954.31081562865.11281953061.71201862050.8115165胆固醇=172.804+2.151*(体重-57.700) 或者
10、胆固醇=48.691+2.151*体重20时间序列分析 时间序列是指随时间顺序出现的一连串观测值数列 日常生活中所熟悉的数值资料绝大部分均为虽时间连续观察得到的有顺序的观测值数列集合 如失业率,股票,工厂生产线每日产能,季度GNP,及每月某品牌化妆品销量等。 21时间序列分析-目的 对数列未来趋势作预测(Forecasting) 透析数列的各种趋势,如主要趋势成份(Trend Components)、季节变化成份(Seasonal Components) 对理论性模型与数据进行适合度检验,以讨论模型是否能正确地表示所观测之现象,如一些常见的经济模式。22时间序列分析-假设前提 数列为平稳型(s
11、tationary) 或者是利用某些方法使其平稳 最常用的方法是对数据差分(differencing) 实际分析时经常以数列趋势图形及一些统计检验量对数列的基本性质作初步的判断。23 一般可利用随机变量 (观测值) 建立时间序列時間序列 但是时间序列的特殊性在于这些变量却仅能观测一次,这是与其他统计分析法不同的地方。 ,.,321xxx24 利用数列的参数建模(parametric modeling)的ARIMA (autoregressive integrated moving average) 模型及较为复杂的多变量 ARMA模型 ARMA模型则包含两个重要的子模型 AR(autoregr
12、essive) MA(moving average) 当利用ARMA模型对一平稳性数列建模时,即是利用参数来描述资料的记忆功能。 25 时间序列建模时最重要的观念即是如何利用过去的资料来判定一个变量的未来走向及不同变量间同期(concurrent)或前后期(lead-lag)的关联性 。 单变量时间序列模型Box 和Jenkins 多变量时间序列模型如 Box 和 Tiao (1982) 及 Tiao 和 Tsay (1983)。 26 近年来在非线性及多变量时间序列分析法的领域中有许多新的进展,包括 ARCH models, threshold AR model, co-integratio
13、n, reduced rank models, scalar component models, state-space models 在此介绍最广为使用及实用的方法Box在1980年提出递推的建模技术,并且探究以递归的方式对时间序列数据资料建立模型,及进行预测。 27时间序列-Box-Jenkins实例 平稳性数列化学反应产出量 (每次观测间隔两小时)28 无定向型或非平稳型数列美国电冰箱月度需求(千台)(1957年六月至1961年九月) 29 季节型数列美国月度国际航空旅游人数(1949年一月 至1960年十二月)30 季节型数列Magnavox牌彩色电视机月度销售量(前台)(1976年一
14、月 至1983年十二月) 31 多变量时间序列美国及泰国月度米价(美元/吨)(1969年一月至1991年七月) 美国米价 泰国米价32 营销案例食品业销售 销售量 广告支出33 介入因子英国汽车乘客配置安全带法规对车祸死亡之效果 驾驶人死亡人数 驾驶人死亡或受重伤人数34时间序列-形态 平稳型(Stationary) 无定向型(Drifting) 趋势型(Trend) 季节型(Seasonality) 外部影响型(Exogenous effect)35 从资料分析的角度来考虑,我們需要研究: 数列是否在固定水平上下变动? 此水准是否也在变动? 是否有某种上升或下降的趋势呢? 是否存在有季节性的
15、模式? 是否季节性的模式也在变更呢?36时间序列模型应用 预估与预测(Prediction and Forecasting) 政策影响分析(Policy Impact Analysis) 信号突出-季节性调整(Signal Extraction-Seasonal Adjustment) 过程控制(Process Control) 随机系统描述(Description of a Stochastic System)37建立时间序列模型 建模步骤: a.模型辨识(Model Identification) b.对未知参数作有效的估计(Efficient Estimation) c.诊断性检查(Mo
16、del Checking) -若有必要则回到a. 重做。 d.统计推断(Statistical Inference)38时间序列模型 时间序列有一个明显的特征就是记忆性(memory) 记忆性是指时间序列中的任一观测值的表现皆受到过去观测值影响。39时间序列模型n其中 称为记忆函数(memory function),而 所代表的意义即为 对 的影响程度。n当一个系统输入 后, 的产生是以记忆函数 作为权重建立如上式的关系。 yxxxxttttjt j01122. . . . . . .01, . . . , . . .jxt jjytxtyt40MA model & AR model Udny
17、 Yule 提出了一套对平稳型数列非常有用的模型 移动平均模型 (Moving Average Model, MA) 自回归模型 (Autoregressive Model, AR) Zaaatttqt q11. . .Zcazztttpt p11. . .41MA model 一阶移动平均模型,MA(1) 其中 成为白噪声(white noise) 为 的震动影响或记忆函数(shock effect or memory function) Q阶移动平均模型,MA(q)1tttaaZ), 0(2NatZaaaattttqt q1122. . . .ta42AR model一阶自回归模型,AR(1) 宛如一条回归线,Zt-1 是自变量,Zt 是因变量 P阶自回归模型,AR(p)ttttttazzazz11tptptttptpttazzzazzz111143ARMA model 对于平稳型时间序列可考虑三种模型: 一为 p阶的自回归模型,AR(p) 二为q阶的移动平均模型,MA(q) 三为自回归移动平均模型,ARMA(p,q)tptpttazzz.11qtqtttaaaz.11ptpttzzz.11qtqttaaa.11