1、相关分析和回归分析绿带培训教程 DMAIC阶段阶段 Define 界定界定Measure 测量测量Analyze 分析分析Improve 改进改进Control 控制控制项目启动项目启动寻找寻找Y=f(x)建立基准建立基准测量测量Y=f(x)确定要因确定要因分析分析Y=f(x)消消 除要因除要因 优化优化Y=f(x)贯彻执行贯彻执行更新更新Y=f(x)SIPOC过程图过程图C&E矩阵和矩阵和FMEA多变量研究多变量研究假设检验假设检验试验设计筛选试验设计筛选优化的过程优化的过程30 50个个X10-15 个个X8 10个个 X4-8 关键的关键的X 3-6个个关键的关键的X 漏斗效应控制计划控
2、制计划MAI CD相关分析和回归分析 因果矩阵分析因果矩阵分析 多变量分析多变量分析 相关与回归分析相关与回归分析相关分析和回归分析 因果矩阵分析因果矩阵分析 多变量分析多变量分析 相关与回归分析相关与回归分析因果矩阵分析法因果矩阵分析法 因果矩阵分析法是寻找影响主要过程输出变量因果矩阵分析法是寻找影响主要过程输出变量的主要输入变量的一种方法。的主要输入变量的一种方法。因果矩阵分析法步骤:因果矩阵分析法步骤:(1)确定主要过程输出变量;)确定主要过程输出变量;(2)确定主要过程输出变量的重要度;)确定主要过程输出变量的重要度;(从重要到不重要(从重要到不重要101级)级)(3)列出过程步骤(工
3、序);)列出过程步骤(工序);(4)针对每个主要过程输出变量,确认对该输出)针对每个主要过程输出变量,确认对该输出有影响的输入变量;有影响的输入变量;(5)确定输入变量和输出变量之间相关程度)确定输入变量和输出变量之间相关程度(从相关到不相关(从相关到不相关100级)级)(6)计算每个工序输入变量的总分;)计算每个工序输入变量的总分;(7)根据总分确定输入变量的优先级别(得分最)根据总分确定输入变量的优先级别(得分最高的几个输入变量可能为关键输入变量)高的几个输入变量可能为关键输入变量)(8)对关键输入变量影响的真实性加以验证。)对关键输入变量影响的真实性加以验证。案例:案例:某公司加工某公司
4、加工X产品,为了确认对输出存在主要产品,为了确认对输出存在主要影响的过程输入变量,该公司决定对生产过程进行影响的过程输入变量,该公司决定对生产过程进行因果分析。因为缺陷有几种,所以用因果图分析效因果分析。因为缺陷有几种,所以用因果图分析效率较低,该公司六西格玛团队决定最终用因果矩阵率较低,该公司六西格玛团队决定最终用因果矩阵分析法来帮助分析。分析法来帮助分析。1.确定过程主要输出变量确定过程主要输出变量 通过头脑风暴法,结合目前的过程缺陷,通过头脑风暴法,结合目前的过程缺陷,得出得出X产品加工过程主要输出如下:产品加工过程主要输出如下:X产品加工过程产品加工过程ABCDEF主要输出主要输出2.
5、确定过程主要输出变量的重要度如下表:确定过程主要输出变量的重要度如下表:过程主要输出重要度A10B8C5D10E10F93.列出过程步骤,并与过程主要输出联立成关列出过程步骤,并与过程主要输出联立成关 系矩阵,如表所示:系矩阵,如表所示:过过程程输输出出108510109工工序序输输入入变变量量ABCDEF评评分分a32724141Ib12561c1220IId134494IIIe27644186f14422102IVg1222276h32731121Vi101056105410j833119VIk24262l536104VIIm213263VIIIn357105o8410220IXp1081
6、40Xq1560XIr21133XIIs215534.针对每个主要输出变量,在每个工序列出对针对每个主要输出变量,在每个工序列出对 该输出有影响的输入变量,如表。该输出有影响的输入变量,如表。5.确定输入变量与输出变量之间的相关程度,确定输入变量与输出变量之间的相关程度,如表。如表。6.计算每个工序输入变量的总分计算每个工序输入变量的总分 从表中可知,从表中可知,“i”的总分为的总分为410,“0”的总的总分为分为220,“e”的总分为的总分为186,占前三位,因此,占前三位,因此,认为以上几个输入变量为影响过程输出的关键认为以上几个输入变量为影响过程输出的关键输入变量,需重点给予改进。输入变
7、量,需重点给予改进。7.根据总分确定输入变量的优先级别根据总分确定输入变量的优先级别8.对关键输入变量影响的真实性加以验证对关键输入变量影响的真实性加以验证相关分析和回归分析 因果矩阵分析因果矩阵分析 多变量分析多变量分析 相关分析与回归分析相关分析与回归分析多变量分析多变量分析多变量图(多变量图(Multi-Vari Chart):适用于):适用于连续型数据,描述变量间的关系连续型数据,描述变量间的关系多变量图多变量图:直观地提供过程各影响因素之直观地提供过程各影响因素之间的关系以及它们对过程输出影响的坐标间的关系以及它们对过程输出影响的坐标图。六西格玛团队在研究多个变量时,可图。六西格玛团
8、队在研究多个变量时,可用多变量图形象地描述变量间的关系。这用多变量图形象地描述变量间的关系。这些图在方差分析等数据分析之前做,可以些图在方差分析等数据分析之前做,可以对数据有一些初步的形象了解对数据有一些初步的形象了解。多变量图多变量图 例例:项目团队研究三种材料在某种条件下项目团队研究三种材料在某种条件下的时间效应。数据收集过程是在三个通的时间效应。数据收集过程是在三个通电时间电时间0.5,1.0,1.5分钟里分别测量每种材分钟里分别测量每种材料(材料料(材料1,材料,材料2和材料和材料3)的)的5个样品,个样品,在进行数据分析前,了解是否有明显的在进行数据分析前,了解是否有明显的趋势成交互
9、作用。趋势成交互作用。A通电时间通电时间B材料材料 C超导强度超导强度0.50.50.50.50.50.50.50.50.51.01.01.01.01.01.01.01.01.01.51.51.51.51.51.51.51.51.511122233311122233311122233323202122192019182122201924252220192218181621232020222432125242322212019181716B材料C超 导 强 度0.5 1.0 1.5 材 料 多 变 量 图A通电时间多变量图多变量图 在输出的多变量图中,每一材料类型上都有连在输出的多变量图中,每一
10、材料类型上都有连接三个点的连线,这三个点表示在对应的材料接三个点的连线,这三个点表示在对应的材料类型下,各个时间段里材料的超导强度的平均类型下,各个时间段里材料的超导强度的平均值,反映了各个材料类型组内的信息,值,反映了各个材料类型组内的信息,图中虚线连线上的各个点分别代表三种材料的图中虚线连线上的各个点分别代表三种材料的超导强度的平均值,反映了各个材料类型组间超导强度的平均值,反映了各个材料类型组间的信息的信息,它们虽有差别,但并不严重。它们虽有差别,但并不严重。同种材料内分别对应的通电时间(通电时间分同种材料内分别对应的通电时间(通电时间分别为:别为:0.5,1.0,2.0分钟)的超导强度
11、差异较大,分钟)的超导强度差异较大,而且不同材料对应同样的通电时间的图象样子而且不同材料对应同样的通电时间的图象样子差别很大,差别很大,说明材料的种类与通电时间的长度说明材料的种类与通电时间的长度有交互作用。有交互作用。回归分析回归分析(Regression Analysis)二类关系二类关系 相关系数相关系数 相关系数的检验相关系数的检验 一元线性回归模型一元线性回归模型 回归方程的显著性检验回归方程的显著性检验 利用回归方程作预测利用回归方程作预测 利用回归方程作控制利用回归方程作控制 可化为线性回归的例子可化为线性回归的例子两变量间关系两变量间关系l确定关系确定关系:例:圆面积例:圆面积
12、S与半径与半径Rl相关关系相关关系:例:(例:(1)儿子的身高与父亲的身高)儿子的身高与父亲的身高 (2)教育投资与家庭收入)教育投资与家庭收入 (3)体重与身高)体重与身高 (4)合金钢强度与合金钢中的碳含量)合金钢强度与合金钢中的碳含量l因果关系因果关系:l例:发炎与发烧例:发炎与发烧例例1 1 由专业知识知道,合金的强度由专业知识知道,合金的强度y(107Pa)与合金中碳的含量与合金中碳的含量x(%)有关。为了生产强度满足有关。为了生产强度满足用户需要的合金,在冶炼时如何控制碳的含量?用户需要的合金,在冶炼时如何控制碳的含量?如果在冶炼过程中通过化验得如果在冶炼过程中通过化验得12组数据
13、,列于下组数据,列于下表中:表中:为解决这类问题就需要研究两个变量间的关系。为解决这类问题就需要研究两个变量间的关系。序号 i xi(%)y(107Pa)1 0.10 42.0 2 0.11 43.0 3 0.12 45.0 4 0.13 45.0 5 0.14 45.0 6 0.15 47.5 7 0.16 49.0 8 0.17 53.0 9 0.18 50.0 10 0.20 55.0 11 0.21 55.0 12 0.23 60.0 画画散点图散点图。为了研究两个量间存在什么关系,。为了研究两个量间存在什么关系,可以画一张散点图,具体见下图:可以画一张散点图,具体见下图:回归分析是研
14、究一个随机变量回归分析是研究一个随机变量y与另一些变量与另一些变量x1,x2,xk(普通变量或随机变量)之间关系的统(普通变量或随机变量)之间关系的统计方法。计方法。在某些问题中,诸在某些问题中,诸x带有带有“原因原因”的性质,故的性质,故称之为自变量。而称之为自变量。而y带有带有“结果结果”的性质,故称的性质,故称之为因变量。之为因变量。有时有时x与与y之间并无明显的因果关系,但仍沿之间并无明显的因果关系,但仍沿用自变量与因变量的名称。用自变量与因变量的名称。有时也称有时也称x为为“因子因子”或或“因素因素”,称,称y为为“指标指标”或或“响应响应”。相相 关关 系系 数(数(correla
15、tion coefficients)散点图呈现上图的形状,即散点图呈现上图的形状,即n个点基本在一条个点基本在一条直线附近,但又不完全在一条直线上,我们希望用直线附近,但又不完全在一条直线上,我们希望用一个量来表示他们的密切程度,这个量称为相关系一个量来表示他们的密切程度,这个量称为相关系数,记为数,记为r,它被定义为:,它被定义为:可以证明有可以证明有-1r1。yyxxxyn1in1i2i2in1iiilll)yy()xx()yy)(xx(rn1iixn1x,n1iiyy2n1i2in1i2ixxxnx)xx(lyxnyx)yy)(xx(ln1iiin1iiixy2n1i2in1i2iyyy
16、ny)yy(l在合金钢的例子中可算得:在合金钢的例子中可算得:1583.0 x 2083.49y 3194.0 x2i 75.29392y2i9250.95yxii4292.22083.491583.0129250.95l2292.3352083.491275.29392l01869.01583.0123194.0lxy2yy2xx2292.33501869.04292.2lllryyxxxy 9705.05031.24292.2相关系数相关系数r 示意图与说明示意图与说明相关系数相关系数r大小是表示两个变量大小是表示两个变量x与与y之间线之间线性相关的程度。性相关的程度。当当r=1时,时,n
17、个点在一条直线上,这时两个个点在一条直线上,这时两个变量间变量间完全线性相关完全线性相关。xy r=1,完全线性正相关xyr=-1,完全线性负相关当当r0时,称两个变量间具有时,称两个变量间具有正相关正相关,这时,这时当当x的值增加时,的值增加时,y的值也有增大的趋势。的值也有增大的趋势。0yx强正相关强正相关变量之间有很强的正相关性,变量之间有很强的正相关性,暗示变量之间可能存在显著暗示变量之间可能存在显著的因果关系。在此模式下,的因果关系。在此模式下,一般能够建立起有效的回归一般能够建立起有效的回归方程。方程。yx0弱正相关弱正相关变量之间有一定的正相关性,变量之间有一定的正相关性,暗示变
18、量之间可能存在较弱暗示变量之间可能存在较弱的因果关系,或者变量(其的因果关系,或者变量(其中之一或全部)受其他变量中之一或全部)受其他变量的显著影响。的显著影响。当当r0.576,如今,如今r=0.9705,可以显著性水平,可以显著性水平=0.05认认为,合金强度为,合金强度y与其碳含量与其碳含量x间存在线性关系。间存在线性关系。)2n(rrW21)1n(r2121相关系数检验的临界值表相关系数检验的临界值表 n-2 5%1%n-2 5%1%n-2 5%1%1 0.997 1.000 16 0.468 0.590 35 0.325 0.418 2 0.950 0.990 17 0.456 0.
19、575 40 0.304 0.393 3 0.878 0.959 18 0.444 0.561 45 0.288 0.372 4 0.811 0.917 19 0.433 0.549 50 0.273 0.354 5 0.754 0.874 20 0.423 0.537 55 0.250 0.325 6 0.707 0.834 21 0.413 0.526 60 0.232 0.302 7 0.666 0.798 22 0.404 0.515 70 0.217 0.283 8 0.632 0.765 23 0.396 0.505 80 0.205 0.267 9 0.602 0.735 24
20、0.388 0.496 90 0.195 0.254 10 0.576 0.708 25 0.381 0.487 100 0.174 0.228 11 0.553 0.684 26 0.374 0.478 150 0.159 0.208 12 0.532 0.661 27 0.367 0.470 200 0.138 0.181 13 0.514 0.641 28 0.361 0.463 300 0.113 0.148 14 0.497 0.623 29 0.355 0.456 400 0.098 0.128 15 0.482 0.606 30 0.349 0.449 1000 0.062 0.
21、081 一元线性回归模型一元线性回归模型假定有两个变量:假定有两个变量:x是自变量,其值是可以控制或精确测量的,是自变量,其值是可以控制或精确测量的,认为它的非随机变量。认为它的非随机变量。y是因变量,对给定的是因变量,对给定的x值,值,y的取值事先不的取值事先不确定,故确定,故y是随机变量。是随机变量。假设(假设(x,y)的散点图显示有直线关系,则)的散点图显示有直线关系,则我们可以认为观测值我们可以认为观测值y由两部分迭加而成:一是由两部分迭加而成:一是随随x的变化而呈线性变化的趋势,用的变化而呈线性变化的趋势,用0+1x表示;表示;二是其它随机因素影响的总和,用二是其它随机因素影响的总和
22、,用表示,常设表示,常设N(0,2)。故有如下的数据结构式:。故有如下的数据结构式:yi=0+1x+i,i=1,2,n回归系数的最小二乘估计回归系数的最小二乘估计。按最小二乘法:按最小二乘法:记记若若 与与 满 足 如 下 等 式:满 足 如 下 等 式:则称则称 ,为为0,1的最小二乘估计。的最小二乘估计。n1i2i10i10)xy(),(Q01),(Qmin),(Q101,010010 与与1的最小二乘估计的最小二乘估计可以验证:可以验证:,使使Q(0,1)达到最小,故其为最达到最小,故其为最小二乘估计。小二乘估计。回归方程:回归方程:此回归方程总经过此回归方程总经过 和和 二点二点 xy
23、ll10 xxxy101xy 10),0(0)y,x(计算步骤计算步骤 1求出ix,iy和x,y;2求2ix,iiyx,2iy;3计算22ixxxnxl,yxnyxliixy,22iyyynyl;4求出0,1的最小二乘估计。5.写出回归方程例一的计算表例一的计算表回归方程的显著性检验回归方程的显著性检验我们建立回归方程的目的是去表达两个具有我们建立回归方程的目的是去表达两个具有线性相关的变量间的定量关系,因此,只有当两线性相关的变量间的定量关系,因此,只有当两个变量具有线性相关关系时所建立的回归方程才个变量具有线性相关关系时所建立的回归方程才是有意义的。两个变量间是否存在线性相关关系是有意义的
24、。两个变量间是否存在线性相关关系的。检验有两种方法的。检验有两种方法方法之一,便是上一小段所叙述的求两个变方法之一,便是上一小段所叙述的求两个变量间的相关系数,对于给定的显著性水平量间的相关系数,对于给定的显著性水平,当,当相关系数相关系数r的绝对值大于临界值的绝对值大于临界值 时,便认时,便认为两个变量间存在线性相关关系,所求得的回归为两个变量间存在线性相关关系,所求得的回归方程是有意义的。方程是有意义的。方法之二,是用方差分析的方法。这个方法方法之二,是用方差分析的方法。这个方法具有一般性。具有一般性。)2(2/1nr平方和分解式平方和分解式n个观察值个观察值y1,y2,yn的总的波动可用
25、总偏差的总的波动可用总偏差平方和平方和ST表示:表示:其中其中 为为n个观察值的平均。个观察值的平均。引起这种波动的原因有二:引起这种波动的原因有二:1.由于自变量由于自变量x取不同值引起取不同值引起y的变化;的变化;2.其它因素(除其它因素(除x以外)引起以外)引起y的变化,统归的变化,统归结为随机误差。结为随机误差。1nf,)yy(STn1i2iTy这二个原因可从总平方和分解式看出,即:这二个原因可从总平方和分解式看出,即:其中其中n1iREn1i2i2iin1i2iiiTSS)yy ()y y()yy ()y y(S1,)(2,)(1212RniiREniiiEfyySnfyyS回归平方
26、和残差平方和方差分析表方差分析表其中各平方和的计算:其中各平方和的计算:RTEyy1n1i2iRyyn1i2iTSSSl)yy (Sl)yy(S来源 平方和 自由度 均方和 F 比 回归 SR fR=1 MSR=SR/fR F=MSR/MSE 残差 SE FE=n-2 MSE=SE/fE 例续例续 下面我们对用方差分析的方法作回归下面我们对用方差分析的方法作回归方程的显著性检验。方程的显著性检验。(1)计算各类偏差平方和)计算各类偏差平方和由前面的计算知:由前面的计算知:,9703.172589.3172292.335SSS,2589.3174392.26022.130lS,2292.335l
27、SRTExy1RyyT 10f1f11fERT(2)列方差分析列方差分析在在=0.05时,时,F1-(1,10)=4.96,现在,现在F4.96,这表,这表明在明在=0.05水平上方程有意义的。水平上方程有意义的。方方差差分分析析表表 来 源 偏差平方和 自由度 均方和 F 比 回归 SR=317.2589 fR=1 317.2589 176.55 残差 SE=17.9703 fE=10 1.7970 T Sr=335.2292 fT=11 利用回归方程作预测利用回归方程作预测当求得了回归方程当求得了回归方程 ,并经检验确认回归方,并经检验确认回归方程是显著的,则可以将回归方程用来做预测。程是
28、显著的,则可以将回归方程用来做预测。所谓预测是指当所谓预测是指当x=x0时对相应的时对相应的y的取值的取值y0所作的推所作的推断。由于断。由于y是随机变量,其实际取值是无法预测的,是随机变量,其实际取值是无法预测的,我们只能对其平均取值作出估计,这便称为我们只能对其平均取值作出估计,这便称为y的预测的预测值。显然,如果值。显然,如果x=x0,那么,那么y的预测值为的预测值为xy 100100 xy 另外,我们还可以给出另外,我们还可以给出y0的预测区间:在的预测区间:在x=x0时,随机变量时,随机变量y0的取值与其预测值的取值与其预测值 总会有一定的总会有一定的偏离。人们要求这种绝对偏差偏离。
29、人们要求这种绝对偏差 不超过某个不超过某个的的概率为概率为1-,其中,其中是事先给定的一个比较小的数是事先给定的一个比较小的数(030),),t分布可以用正态分分布可以用正态分布近似,进一步,若布近似,进一步,若x0与与 相差不大时,相差不大时,可以近可以近似取为:似取为:其中其中u1-/2是标准正态分布的是标准正态分布的1-/2分位数。分位数。xxxy)x(y yxy 10)x(y y2/1 u(*)xx例续:例续:1如果取如果取x0=0.16,则得预测值为:,则得预测值为:2求概率为求概率为1-的预测区间:的预测区间:(1)先求)先求的估计的估计 ;(2)由给定的)由给定的,查,查t分布表
30、的分位数分布表的分位数t1-/2,比,比如取如取=0.05,则,则t0.975(10)=2.228;(3)按()按(*)计算)计算的值。本例中的值。本例中 ,lxx=0.0186,故,故(4)写出预测区间)写出预测区间,本例中为,本例中为(4632,52.54)。)。43.4916.06022.1305364.28y 034.1)212/(9703.1790.1x 11.30186.0)19.016.0(1211228.234.12)y,y (003如果求近似区间,由于如果求近似区间,由于u0.975=1.96,故有,故有则近似区间为(则近似区间为(49.43-2.63,49.43+2.63)
31、=(46.80,52.06),此处两个区间相差较大,这是因,此处两个区间相差较大,这是因为为n较小的原因。较小的原因。63.234.196.1利用回归方程作控制利用回归方程作控制控制问题是予报(测)的反问题。控制问题是予报(测)的反问题。若要求观察值若要求观察值y在一定范围在一定范围y1yy2内取值,内取值,那么应把自变量那么应把自变量x控制在什么范围内?即要寻找控制在什么范围内?即要寻找这样两个值这样两个值x1和和x2,使得:,使得:y-(x1)=y1y+(x2)=y2xy y2y1x1 x2由于由于(x)的计算较为复杂,实际中常用近似的计算较为复杂,实际中常用近似分布:分布:,由此可得:由
32、此可得:如果要控制如果要控制y在在y1yy2内,也只要通过方程内,也只要通过方程分别解出分别解出x1和和x2,从而确定,从而确定x值的控制范围值的控制范围),y (Ny0095.0)2y y2y (P0002xy2xy21021101xy y2y1x1 x22xy2102xy110110 xy 可化为线性回归的例子可化为线性回归的例子在实际中,两个变量之间的相关关系大多呈非在实际中,两个变量之间的相关关系大多呈非线性的,这时选用恰当类型的曲线比直接配直线线性的,这时选用恰当类型的曲线比直接配直线更符合实际情况。更符合实际情况。在不少情况下,通过简单的变量变换,可把非在不少情况下,通过简单的变量
33、变换,可把非线性回归问题转化为线性回归问题来解。线性回归问题转化为线性回归问题来解。例例 炼钢厂出钢时盛钢水用钢包。在使用中炼钢厂出钢时盛钢水用钢包。在使用中由于钢液及炉渣对包衬耐火材料的浸蚀,钢包容由于钢液及炉渣对包衬耐火材料的浸蚀,钢包容积不断增大。这里钢包容积用盛满钢水时的重量积不断增大。这里钢包容积用盛满钢水时的重量y表示,相应使用次数用表示,相应使用次数用x表示。如此共测表示。如此共测13组数组数据如下:据如下:N o.使 用 次 数 x 重 量 y 1 2 106.42 2 3 108.20 3 4 109.58 4 5 109.50 5 7 110.00 6 8 109.93 7
34、 10 110.49 8 11 110.59 9 14 110.60 10 15 110.90 11 16 110.76 12 18 111.00 13 19 111.20 1.确定曲线回归方程形式确定曲线回归方程形式 常见的思路有二条常见的思路有二条:这里由散布图(右图)可确形式有多种这里由散布图(右图)可确形式有多种x/bae100y)4(xbay)3(xlgbay)2(x1bay1)1(根据专业知道 根据数据的散布图0 10 201111101091081071062.曲线回归方程中参数的估计曲线回归方程中参数的估计 先线性化,以(先线性化,以(1)为例,令)为例,令v=1/y,u=1/
35、x(1)转化为)转化为 v=a+bu 利用最小二乘法可得利用最小二乘法可得a与与b的最小二乘估计的最小二乘估计 可得回归方程可得回归方程改写为改写为y关于关于x的回归方程的回归方程 008967.0000829.0157760.0009097.0buva 000829.0213670.0000177.0luuluvbu000829.0008967.0v 000829.0 x008967.0 xy x1000829.0008967.0y 1或x y u v y|yy 2 106.42 0.500000 0.00939673 106.59 0.17 3 108.20 0.333333 0.0092
36、4214 108.19 0.01 4 109.58 0.250000 0.00912575 109.00 0.58 5 109.50 0.200000 0.00913242 109.50 0.00 7 110.00 0.142857 0.0090091 110.07 0.07 8 109.93 0.125000 0.00909670 110.25 0.32 10 110.49 0.100000 0.00905059 110.50 0.01 11 110.59 0.090909 0.00904241 110.59 0.00 14 110.60 0.071529 0.00904159 110.79
37、 0.19 15 110.90 0.066667 0.00901713 110.84 0.06 16 110.76 0.062500 0.00902852 110.88 0.12 18 111.00 0.055556 0.00900901 110.95 0.05 19 111.20 0.052632 0.00899281 110.98 0.22 变换后的数据变换后的数据009097.0v157760.0u:平均类似可得(类似可得(2),(3),(4)的回归方程)的回归方程在上述四个回归方程中选用哪一个是合适的?在上述四个回归方程中选用哪一个是合适的?)x/1256.1exp(7506.1110
38、0y x1947.13013.106y xlg9466.33147.106y 比较准则:比较准则:相关指数相关指数R愈大愈好(愈大愈好(R2又称为决定系数),其中又称为决定系数),其中 剩余标准差剩余标准差s愈小愈好愈小愈好方程号(1)(2)(3)(4)R2 0.9728 0.8773 0.7851 0.9623 s 0.2292 0.4864 0.6437 0.2694 结论:选方程(1)为好n1i2iin1i2ii2)yy()y y(1R2n)y y(sn1i2ii可化为线性回归的函数可化为线性回归的函数双曲函数的一般形式为 或 。xbayxbay1指数函数的一般形式为y=aebx。幂函数
39、的一般形式为y=axb。对数函数的一般形式为y=a+blnx。“S-型”函数的一般形式为“反S-型”函数的一般形式为xbeay1xbeay1数据分析数据分析:证实原因证实原因验证引起缺陷的原因,可以通过三种途径:验证引起缺陷的原因,可以通过三种途径:逻辑分析逻辑分析 统计推断统计推断 试验验证试验验证先从逻辑分析开始先从逻辑分析开始。(1 1)逻辑分析逻辑分析 因果逻辑因果逻辑 假定团队认为许多弄错的订单是由于销售人员假定团队认为许多弄错的订单是由于销售人员在订单的管理过程中出了差错而引起的,这也在订单的管理过程中出了差错而引起的,这也许能解释部分出错订单,但它不能解释不熟悉许能解释部分出错订
40、单,但它不能解释不熟悉的顾客的顾客(小商人和计算机新用户小商人和计算机新用户)会出现更多差会出现更多差错这一现象。如果订单管理系统出了问题,你错这一现象。如果订单管理系统出了问题,你应该想到所带来的影响对于所有顾客都是差不应该想到所带来的影响对于所有顾客都是差不多的。多的。(1 1)逻辑分析逻辑分析 要使假定的原因真的成立,它必须通过要使假定的原因真的成立,它必须通过合乎逻辑的测试合乎逻辑的测试解释从数据反应出解释从数据反应出的可见问题和潜在问题,当然这些潜在的可见问题和潜在问题,当然这些潜在问题现在还没有出现问题现在还没有出现。(2 2)原因的统计检验原因的统计检验有这样两种简单的统计方法可
41、以用来分析并确定因果关系:相关分析相关分析:利用散布图分析潜在的因果关系利用散布图分析潜在的因果关系数据整理、分层来验证原因数据整理、分层来验证原因相关分析:利用散布图分析潜在的因果关系相关分析:利用散布图分析潜在的因果关系 判断原因X和结果Y之间的相关程度,从散布图可以有一个大概的印象,精确的计算也可以借助回归分析和相关分析得到对数据进行整理或分层图得到数据的模型,或者数据没有任何模型。相关分析:利用散布图分析潜在的因果关系相关分析:利用散布图分析潜在的因果关系 散布图提供了验证因果假设的一种途径,从成对散布图提供了验证因果假设的一种途径,从成对数据去验证自变量数据去验证自变量X与因变量与因
42、变量Y之间的相关关系。之间的相关关系。成对数据顾名思义是指成对数据顾名思义是指X、Y是来自同一个观测个是来自同一个观测个体,体,“成对成对”本身就反映了一种潜在的原因和结本身就反映了一种潜在的原因和结果:正如构建一个体系,体系的复杂度果:正如构建一个体系,体系的复杂度(X变量或变量或是潜在的原因是潜在的原因)与构建该体系所花时间与构建该体系所花时间(Y输出或结输出或结果果)之间潜在着一种因果关系。成对数据沿着之间潜在着一种因果关系。成对数据沿着X、Y轴分布,再分析其相关性,轴分布,再分析其相关性,相关分析:利用散布图分析潜在的因果关系相关分析:利用散布图分析潜在的因果关系 散布图显示出的强相关
43、性并不能保证散布图显示出的强相关性并不能保证X的增加一的增加一定会引起定会引起Y轴上的相应的输出,但确实表明他们轴上的相应的输出,但确实表明他们以某种方式互相关联着并且不是完全随机地同时以某种方式互相关联着并且不是完全随机地同时发生的。发生的。团队可以用散布图来说明因果试验,但仅做一次团队可以用散布图来说明因果试验,但仅做一次试验是没有说服力的。相关分析若很复杂,可以试验是没有说服力的。相关分析若很复杂,可以对变量进行组合,得到多个散布图来验证猜测的对变量进行组合,得到多个散布图来验证猜测的正确性。正确性。数据整理、分层来验证原因数据整理、分层来验证原因 通过对数据进行整理、分析画出不同种类的
44、散布通过对数据进行整理、分析画出不同种类的散布图,团队明白了一个很有价值的结论图,团队明白了一个很有价值的结论:并非所有缺并非所有缺陷都是同一个背景原因!测量阶段找到的分类因陷都是同一个背景原因!测量阶段找到的分类因素在确定因果模型过程中都能方便得到!素在确定因果模型过程中都能方便得到!无论什么时候团队队员对所收集的数据提出假设无论什么时候团队队员对所收集的数据提出假设时,你都要分析一下,找出那些有助于验证或否时,你都要分析一下,找出那些有助于验证或否定该假设的分类信息。定该假设的分类信息。(3 3)局部检测)局部检测/试验证实原因试验证实原因 在某些情况下,搜集验证存在一种特殊原因导致在某些
45、情况下,搜集验证存在一种特殊原因导致严重的失误的信息是困难的、不切实际的,或简严重的失误的信息是困难的、不切实际的,或简单地说是浪费时间的。单地说是浪费时间的。一个可行的方法是只去改变过程来消除可疑的原一个可行的方法是只去改变过程来消除可疑的原因,并且监测结果,但是不要光凭个人意愿去改因,并且监测结果,但是不要光凭个人意愿去改变!只有把这种改变看成一次常规的局部检测试变!只有把这种改变看成一次常规的局部检测试验一样对待,才能起作用:验一样对待,才能起作用:明确改变的内容和方法明确改变的内容和方法 清楚改变的目的清楚改变的目的 先在小范围内进行试点先在小范围内进行试点 仔细考虑潜在的副作用、并制定应对措施仔细考虑潜在的副作用、并制定应对措施