1、Principles and Applications of Business IntelligenceChap 5 :数值预测 1Introduction to商务智能方法与应用第5章 数值预测Chapter5: Numeric predictionPrinciples and Applications of Business IntelligenceChap 5 :数值预测 2主要内容 5.1 数值预测的概念 5.2 回归方法 5.3 回归树与模型树 5.4 K近邻数值预测 5.5 预测误差的度量Principles and Applications of Business Intelli
2、genceChap 5 :数值预测 35.1 数值预测的概念Principles and Applications of Business IntelligenceChap 5 :数值预测 4分类 vs. 数值预测 有监督的预测问题 数值预测预测的是数值,通常是连续类型的数值连续数值Continuous value描述属性(自变量)目标属性(因变量)Principles and Applications of Business IntelligenceChap 5 :数值预测 5数值预测方法 回归分析 回归树,模型树 K近邻MYCTMMINMMAXCACHCHMINCHMAXPRP125256
3、600025616128198298000320003283226929800032000328322202980003200032832172268000320006483231823160003200064163236723160003200064163248923160006400064163263623320006400012832641144400512350041640表5.1 数据集CPU的子集 机器周期时间、最小内存、最大内存、缓存、最小信道、最大信道及相对性能Principles and Applications of Business IntelligenceChap 5
4、:数值预测 65.2 回归方法Principles and Applications of Business IntelligenceChap 5 :数值预测 75.2 回归分析 5.2.1 一元线性回归 5.2.2 多元线性回归 5.2.3 非线性回归Principles and Applications of Business IntelligenceChap 5 :数值预测 8 Linear regression: Y = 0 + 1X+ - Parameters: 0 , 1- Random variable: N(0, 2)一元线性回归$0$10$20MonthlyProfitAge
5、206040minimizePrinciples and Applications of Business IntelligenceChap 5 :数值预测 9线性回归分析的基本步骤(1)构建包含因变量和自变量的训练集;(2)通过散点图,确认因变量和自变量之间的近似线性关系;(3)估计系数,构建模型;(4)检验模型;(5)利用模型进行预测Principles and Applications of Business IntelligenceChap 5 :数值预测 10 基于观测样本估计参数:- 用最小二乘法拟合(x1, y1) (x2,y2) 一元线性回归分析$0$10$20MonthlyP
6、rofitAge206040minimizeiiyabxPrinciples and Applications of Business IntelligenceChap 5 :数值预测 11least squares (最小二乘法)- 残差平方和,- 最小化SSE- : mean values of X and Y- sxx 称为x的校正平方和, sxy 称为校正交叉乘积和- syy称为y的校正平方和。2211()nnEiiiiiSSyy-12111()()()11niixyinxxiinniiiixxyysbsxxaybxybxnn- xy和Principles and Applicatio
7、ns of Business IntelligenceChap 5 :数值预测 12一元线性回归baPrinciples and Applications of Business IntelligenceChap 5 :数值预测 13模型检验 回归平方和SSR 总离差平方和SST: 将y的均值作为总体估计值时的误差 SST=SSE+SSR- 总离差平方和中被回归模型解释的部分为回归平方和 拟合优度检验- R2 , adjusted R square- n为样本个数,k为自变量的个数21()nRiiSSyy-21(y)nTiiSSy-2221/(1)111(1)/(1)1RETTETSSSSRS
8、SSSSSnknRRSSnnk - - -2R2211()nnEiiiiiSSyy-Principles and Applications of Business IntelligenceChap 5 :数值预测 14回归模型的显著性检验 假设: H0:b=0; H1: b0 可以证明在H0成立的情况下由下式定义的F符合F(1,n-2)分布 给定显著性水平,查自由度为(1,n-2)的F分布临界值表得临界值F (1,n-2),若由上式计算的F0 F (1,n-2)则因变量和自变量之间的线性关系显著,假设H0被拒绝/(2)RESSFSSn-iiyabxPrinciples and Applicat
9、ions of Business IntelligenceChap 5 :数值预测 15回归系数的显著性检验 为了检验回归模型中每个回归系数的显著性,可以推导出系数a和b的样本方差 可以证明tb=b/Sb和ta=a/Sa均符合自由度为(n-2)的t分布 其中重要的是检验系数b是否为0。因此需要检验假设H0: b=0; H1: b0 给定显著性水平,查自由度为(n-2)的t分布表,得到t (n-2)若tb t (n-2),则拒绝假设H0,即回归系数b显著 同时可以计算出P 值(p value),一般以P 0.05 为显著, P F (k, n-k-1)=- 若F0F (n-k-1) 则因变量和自
10、变量之间的线性关系显著,假设H0被拒绝REMSFMSPrinciples and Applications of Business IntelligenceChap 5 :数值预测 21方差分析表方差类型方差类型 自由度自由度平方和平方和均方差均方差F 回归回归kSSRMSRF= MSR/ MSE残差残差n-k-1SSEMSE总离差总离差n-1SST 表5.3 回归分析结果中通常返回的方差分析表的构成Principles and Applications of Business IntelligenceChap 5 :数值预测 22回归系数的显著性检验 回归系数的显著性检验可以采用t检验。对于
11、每个回归系数bi (i=1, 2, , k),显著性检验的两个假设分别为 H0:bi=0; H1: bi0。 为每个回归系数bi构造变量 cii是矩阵C=(XTX)-1的对角线上的第i个值。 给定显著性水平,查自由度为(n-k-1)的t分布表,得到t (n-k-1),若 t (n-k-1),则拒绝假设H0,即回归系数bi显著ibtiiiibbiiEbbtScMSibtPrinciples and Applications of Business IntelligenceChap 5 :数值预测 23非线性回归分析y=a+bx2 假设x1=x2,则原来的非线性关系变为y=a+bx1Princip
12、les and Applications of Business IntelligenceChap 5 :数值预测 24 转换为线性回归: - : lgy=lga+blgx- y=aebx,可以通过两边取对数变换为lny=lna+bx- y=a+blgx,设 X=lgx,则有y= a+b X. Weka: weka.classify.functions.LinearRegressionData: cpu非线性回归分析y=axbPrinciples and Applications of Business IntelligenceChap 5 :数值预测 255.3 回归树与模型树Princip
13、les and Applications of Business IntelligenceChap 5 :数值预测 265.3 回归树与模型树 5.3.1 模型树的构建 5.3.2 模型树的剪枝Principles and Applications of Business IntelligenceChap 5 :数值预测 27模型树的构建 回归树的叶子结点对应一个数值,模型树的叶子结点对应一个线性回归方程- If CHMIN 7.5 and MMAX 7.5 and MMAX 28000, then PRP =-0.4882 * MYCT+ 0.0218 * MMIN+ 0.003 * MMA
14、X+ 0.3865 * CACH+ 3.2333 * CHMAX- 67.9242图5.3 cpu数据集的模型树Principles and Applications of Business IntelligenceChap 5 :数值预测 28构建模型树的主要步骤 训练数据集D;类别C=c1, c2, , ck 创建一个结点t,与结点t关联的数据集记为Dt。初始情况下训练数据集中的所有样本与根结点关联,即Dt=D。将t设为当前结点。 如果当前结点t所关联的数据集Dt中样本个数小于给定阈值或者Dt中样本的目标属性取值的标准差小于给定阈值(例如初始数据集D的标准差的5%), 则将该结点标记为叶子
15、节点,停止对该结点所关联的数据集的进一步分裂,对数据集Dt运用多元线性回归建模方法构建回归模型。否则,进入下一步。 为数据集Dt选择分裂属性和分裂条件。根据分裂条件将数据集Dt分裂为2个子数据集,为结点t创建2个子女结点,将这2个子数据集分别与之关联。依次将每个结点设为当前结点,转至步骤2进行处理,直至所有结点都标记为叶子结点。Principles and Applications of Business IntelligenceChap 5 :数值预测 29分裂属性的选择 分裂属性的选择以分裂后的各个子数据集中目标属性取值的标准差为依据,将标准差作为一种误差度量,将分裂前后标准差的减少量作为
16、误差的期望减少,称为SDR(standard deviation reduction) 假设数据集D按照属性A的取值分裂为两个子数据集D1和D2,此次分裂的SDR值的计算公式如下: sd(D)代表数据集D中目标属性取值的标准差,|D|代表数据集D中包含的样本个数21|SDR(D, A)sdsd()|iiiDDDD-Principles and Applications of Business IntelligenceChap 5 :数值预测 30分裂条件 连续取值的属性A:将A的所有取值升序排列,每两个相邻的取值的中点可以作为一个候选的分裂点,中点假设用vm表示,分裂条件则为 Avm 和 Av
17、m 计算每个候选分裂点的SDR值, 选取具有最大值的分裂点作为 该属性的分裂条件CHMINPRP140826982208172831816367164891663616198321144Principles and Applications of Business IntelligenceChap 5 :数值预测 31分裂条件Principles and Applications of Business IntelligenceChap 5 :数值预测 32分裂条件 (单身)=(20+40+90)/2=50,(已婚)=120,(离异)=80 排序: 单身、离异、已婚 A1:婚姻状况单身和婚姻状
18、况离异,已婚 A2:婚姻状况单身,离异和婚姻状况已婚婚姻状况婚姻状况账户余额(万)账户余额(万)单身单身20单身单身40单身单身90已婚已婚30已婚已婚200已婚已婚130离异离异60离异离异100Principles and Applications of Business IntelligenceChap 5 :数值预测 33模型树的剪枝 为了避免过度拟合,需要对模型书进行剪枝。剪枝通过对树深度优先遍历从叶子结点向根结点进行 给定结点t及所关联的数据集Dt,设样本个数为n,数据集Dt对应的多元线性回归模型Mt,Mt中涉及的自变量的个数为v,设利用该模型,Dt中每个样本的目标属性的预测值为p
19、i、真值为ai,其节点t的期望误差error(t)如下计算:Principles and Applications of Business IntelligenceChap 5 :数值预测 34模型树的剪枝 子树误差:两个叶子结点的期望误差通过加权求和结合在一起作为子树误差,权值是叶子结点包含样本占其父结点样本个数的比例 若当前结点的期望误差小于子树误差,则将该结点设为叶子结点,即此子树被一个叶子结点代替Principles and Applications of Business IntelligenceChap 5 :数值预测 355.4 K近邻数值预测Principles and App
20、lications of Business IntelligenceChap 5 :数值预测 36K近邻 假设训练集D由n个观测样本构成:oi=(xi1, xi2, xik,yi),i=1,2, n , yi是目标属性Y的取值 对于测试集T中的一个测试样本tj=(xj1, xj2, xjk,yj), jn,选取与测试样本最相似的K个观测样本,构成集合N(tj) 测试样本tj的目标属性的预测值pj可以如下计算:Principles and Applications of Business IntelligenceChap 5 :数值预测 375.5 预测误差的度量Principles and A
21、pplications of Business IntelligenceChap 5 :数值预测 38性能评估 数据集的构造- 训练集,测试集- 交叉验证 cross-validation 度量- 平均绝对误差(mean absolute error) MAE- 均方误差(mean-squared error) MSE- 均方根误差(root mean-squared error) RMSE- 相对平方误差(relative squared error) RSE- 相对绝对误差(relative absolute error) RAE 假设测试集T包含m个样本,对于测试集T中的每个测试样本tj=(xj1, xj2, xjk,yj), njn+m,利用预测模型得出的目标属性的预测值为pj,则11|n mjjj nMAEpym -211()n mjjj nMSEpym -21211()1 y=()n mjjn mj njn mj njj npyRSEymyy -其中111|1 y=|n mjjn mj njn mj njj npyRAEymyy -其中Principles and Applications of Business IntelligenceChap 5 :数值预测 40