1、统计分析方法介绍二零零四年元月主要内容 一,区间估计 二,假设检验 三,ANOVA 四,回归分析(比较相关分析)区间估计的主要内容 区间估计的基本步骤 置信水平 总体平均值的区间估计(点估计)区间估计1,基本步骤 确定一个与检验参数相关的统计量及其分布 确定置信水平 1-a 置信水平(置信度):样本统计量反映总体特性的水平,显著性水平,记为 a 根据统计量的分布和置信水平确定置信区间区间估计2,置信水平例:以下是对总体平均值进行区间估计时,样本平均值样本平均值的分布abP(aXb)=95%2.5%2.5%95.0%结果解释:(a,b)总体平均值置信水平为95的置信区间区间估计3,总体平均值的区
2、间估计 与总体平均值相关的统计量 样本平均值 样本平均值的分布 总体特性分布 XN(,2)样本平均值的分布(n:sample size)Sigma 已知 XN(,2/n)Z=n1/2(X-)/N(0,1)Sigma 未知 XN(,2/n)t=n1/2(X-)/st(n-1)总体平均值的置信区间 Sigma 已知 ZaZZ1-a X+Za n-1/2 X+Z1-a n-1/2 Sigma 未知 tatt1-a X+ta s n-1/2 X+t1-a s n-1/2 Za,Z1-a 为标准正态分布 a,1-a 分位点 ta,t1-a 为t(n-1)分布 a,1-a 分位点现在的问题是现在的问题是
3、是多少,是多少,在什么范围?在什么范围?区间估计3,总体平均值的区间估计 标准正态分布和 t 分布比较区间估计3,总体平均值的区间估计 自由度(degree of freedom)在计算sigma=(Xi-X)2/(n-1)1/2时(X1-X)+(X2-X)+(Xn-X)=0 所以(X1-X),(X2-X),(Xn-X)中只有n-1个独立的数据 样本数量越大,自由度越高,估计越准确区间估计.(.),.假设检验的主要内容 基本步骤 两类风险 平均值的假设检验 标准差的假设检验 正态分布的假设检验 合格率的假设检验 离散性数据相关性检验 势(power),样本大小,差异计算假设检验.(.),.1,
4、一般步骤 确定原假设和对立假设 H0:原假设(零假设)H1:对立假设 确定一个与检验参数相关的统计量及其分布 根据统计量的分布和风险水平确定临界值和拒绝域 计算结果并判断 Pu2 H1:u1 u2 3,H0:u1u2 H1:u1 u2与区间估计一致假设检验2,两类风险 第一类风险(生产方风险)当H0成立时,拒绝H0的概率 第二类风险(使用方风险)当H0不成立时,接受H0的概率 势(power)第一类风险与置信水平假设检验tt2.5%2.5%t-tp value1-aa3,平均值的假设检验1,检验总体平均值是否等于指定值u02,原假设和对立假设:H0 U=u0 H1 Uu0 3,检验统计量及其分
5、布:t=n1/2(X-u0)/s4,临界值和拒绝域:t:t t1-a or t t or T-t)假设检验3,平均值的假设检验假设检验3,平均值的假设检验1,单个总体平均值是否等于指定数值单个总体平均值是否等于指定数值项目项目统计量 统计量 原假设 原假设 拒绝域拒绝域1,已知已知(Z-test)H0:U=U0 Z:ZZ1-a/2 H0:UU0 Z:ZZ-a H0:UZ1-a 2,未知未知(1-sample t-test)H0:U=U0 t:tt1-a/2 H0:UU0 t:tt-a H0:Ut1-a 注:注:U 代表总体平均值,代表总体平均值,U0 代表检验(比较)的数值代表检验(比较)的数
6、值X-U0/nZ=t=X-U0s/n假设检验3,平均值的假设检验2,两个总体平均值是否相等两个总体平均值是否相等1,相等相等(2-sample t-test)H0:X0=Y0 t:tt1-a/2 H0:X0Y0 t:tt-a H0:X0t1-a 2,不相等不相等(2-sample t-test)H0:X0=Y0 t:tt1-a/2 H0:X0Y0 t:tt-a H0:X0t1-a t=X-Ys/nt=X-Ys/n1+n2-2假设检验3,平均值的假设检验2,两个总体平均值是否相等两个总体平均值是否相等3,成对数据成对数据(Paired t-test)H0:X0=Y0 t:tt1-a/2 H0:X
7、0Y0 t:tt-a H0:X0t1-a 注:注:1,X0,Y0 分别代表两个总体的平均值分别代表两个总体的平均值2,X,Y 分别代表两组样本的平均值分别代表两组样本的平均值3,s1,s2 分别代表两组样本的标准差分别代表两组样本的标准差4,n1,n2 分别代表两组样本的数量分别代表两组样本的数量(didi=Xi-Yid =di/n假设检验3,平均值的假设检验 MINNTAB中假设检验路径及数据格式假设检验3,平均值的假设检验假设检验1-sample Z-test1-sample t-testSelect data sourceInput tested meansInput known sig
8、maSelect data sourceInput tested means.(.),.3,平均值的假设检验 Two-sample T-test假设检验1,data in one column2,data in two columns.(.),.3,平均值的假设检验 Paired T-test假设检验.(.),.3,平均值的假设检验 Option in hypothesis假设检验 Graph in hypothesisAlternative hypothesis(H1).(.),.4,标准差的假设检验1,检验两组数据的标准差是否相等2,原假设和对立假设:H0 1=2 H1 12 3,标准:P
9、 0.05时,两组数据的标准差相等4,Path in MINITAB:StatBasic statisticsVariances假设检验.(.),.5,正态分布的假设检验 定义:检验一组数据是否服从正态分布 假设:H0:正态分布H1:非正态分布 标准:P 0.05时,数据为非正态分布 正态概率图 计算平均值,标准差 将数据从小到大排序,计算各数据对应的累积分布概率 描点(注意纵轴的刻度)Path in MINITAB:StatBasic statisticsNormality test假设检验.(.),.5,正态分布的假设检验 正态分布下的直方图和正态概率图2.32.42.52.62.72.8
10、051015C1FrequencyHistogram of C1,with Normal CurveAverage:2.50652StDev:0.0953786N:100Anderson-Darling Normality TestA-Squared:0.199P-Value:0.8832.32.42.52.62.7.001.01.05.20.50.80.95.99.999ProbabilityC1Normal Probability Plot假设检验.(.),.5,正态分布的假设检验 非正态分布下的直方图和正态概率图05101501020C1FrequencyHistogram of C1,
11、with Normal CurveAverage:4.83250StDev:3.23309N:100Anderson-Darling Normality TestA-Squared:2.612P-Value:0.000051015.001.01.05.20.50.80.95.99.999ProbabilityC1Normal Probability Plot假设检验.(.),.5,正态分布的假设检验 在数据不服从正态分布时,采用Box-Cox变换改变数据的分布形状 Box-Cox变换 YY(Path:Statcontrol chartsBox-Cox transformation)0.91.0
12、1.11.21.31.40510C2FrequencyHistogram of C2,with Normal CurveAverage:1.16792StDev:0.0920945N:100Anderson-Darling Normality TestA-Squared:0.361P-Value:0.4390.951.051.151.251.35.001.01.05.20.50.80.95.99.999ProbabilityC2Normal Probability Plot假设检验.(.),.6,合格率的假设检验 类型 一批产品合格率是否小于P 二批产品合格率是否相等 例 1,从生产产品中抽出
13、2000进行检查,52不合格,合格率是否小于98?2,从一条生产线抽出1500产品检查,17不合格;从另一条生产线抽出1300产品检查,25不合格;它们的合格率是否一样?假设检验.(.),.6,合格率的假设检验 Proportion test in MINITABProportion test for one groupProportion.parison between two groups假设检验.(.),.6,合格率的假设检验 例 1(Proportion test for one group)输入检查结果输入检验对比合格率选择假设类型假设检验.(.),.6,合格率的假设检验Test a
14、nd CI for One ProportionTest of p=0.98 vs p 0.98 ExactSample X N Sample p 95.0%Upper Bound P-Value1 1948 2000 0.974000 0.979580 0.037 例 1(Proportion test for one group)P0.05,判断结果合格率相等。假设检验.(.),.7,离散性数据相关性检验 例-缺陷严重度(数量)与加工速度关系 MINITAB:stattableschi-square test P0.05,缺陷严重度与速度没有相关关系。假设检验.(.),.8,势(power
15、),样本大小,差异计算假设检验 假设检验判别力假设检验判别力-当检验对象与原假设不同时,当检验对象与原假设不同时,检验方法进行正确判别的能力,又称功效检验方法进行正确判别的能力,又称功效(power),计算为计算为 1-。例:对两个不同的总体,其样本平均值的分布例:对两个不同的总体,其样本平均值的分布N(,2/n)N(,2/n)拒绝域拒绝域(风险)接受域接受域(风险)t.(.),.8,势(power),样本大小,差异计算 与假设检验判别力(功效)相关的因素:样本大小 可接受的差异 假设检验判别力,样本大小,检出差异相互关系及计算 三者中任何两个可确定另外一个 样本多,允许差异大时,判别力高 例
16、假设检验.(.),.8,势(power),样本大小,差异计算计算对应检验的功效 MINITAB 应用假设检验.(.),.8,势(power),样本大小,差异计算 MINITAB 应用(Two sample t-test)1,先确定标准差2,sample size,power,difference,可以根据其中任意二个确定另外一个。假设检验.(.),.8,势(power),样本大小,差异计算Power and Sample Size2-Sample t TestTesting mean 1=mean 2(versus not=)Calculating power for mean 1=mean
17、2+differenceAlpha=0.05 Sigma=1 SampleDifference Size Power 0.5 30 0.4779 MINITAB 应用(Power value in two sample t-test)假设检验.(.),.8,势(power),样本大小,差异计算 MINITAB 应用(Sample size in two sample t-test)Power and Sample Size2-Sample t TestTesting mean 1=mean 2(versus not=)Calculating power for mean 1=mean 2+di
18、fferenceAlpha=0.05 Sigma=1 Sample Target ActualDifference Size Power Power 0.5 86 0.9000 0.9032假设检验.(.),.8,势(power),样本大小,差异计算 MINITAB 应用(Difference in two sample t-test)Power and Sample Size2-Sample t TestTesting mean 1=mean 2(versus not=)Calculating power for mean 1=mean 2+differenceAlpha=0.05 Sigm
19、a=1Sample Size Power Difference 30 0.9000 0.8512假设检验.(.),.ANOVA 1,实例-Swage ball size optimize evaluation 2,原理 3,ANOVA in MINITABANOVA.(.),.1,实例-介绍 例-Swage ball size optimize evaluation 响应变量(Response):gramload 因子/水平(Factor/level):1,swage ball size(79/80/81mil,79/80.5/81.5mil,79/81/82mil,79/81.5mil)2,
20、Heads(HD2,HD3)试验次数:20*8=160 平衡设计 方差分析(two-way)MINITAB:StatANOVAANOVA.(.),.1,实例-方差分析表Two-way ANOVA:Gramload versus Head,GroupAnalysis of Variance for GramloadSource DF SS MS F PHead 1 0.02889 0.02889 9.10 0.003Group 3 0.23875 0.07958 25.08 0.000Interaction 3 0.05986 0.01995 6.29 0.000Error 152 0.4823
21、2 0.00317Total 159 0.80981P0.05时,有显著性影响。误差来源ANOVA.(.),.1,实例-置信区间估计 Individual 95%CIHead Mean -+-+-+-+-HD2 2.5700 (-*-)HD3 2.5431 (-*-)-+-+-+-+-2.5350 2.5500 2.5650 2.5800 Individual 95%CIGroup Mean -+-+-+-+-Group 1 2.6173 (-*-)Group 2 2.5628 (-*-)Group 3 2.5255 (-*-)Group 4 2.5208 (-*-)-+-+-+-+-2.52
22、00 2.5550 2.5900 2.6250ANOVA.(.),.1,实例-平均值分布图GroupHeadGroup 1Group 2Group 3Group 4HD2HD32.5202.5452.5702.5952.620GramloadMain Effects Plot-Data Means for GramloadANOVA.(.),.HeadGramloadHD2HD32.5352.5452.5552.5652.5751,实例-平均值置信区间分布GroupGramloadGroup 1Group 2Group 3Group 42.522.572.62ANOVA.(.),.1,实例-交
23、互作用分布图Group 1Group 2Group 3Group 4HD2HD32.502.552.602.502.552.60GroupHeadGroup 1Group 2Group 3Group 4HD2HD3Interaction Plot-Data Means for GramloadANOVA.(.),.2,原理 方差分解 SST=SSA+SSB+SSAxB+SSE与随机误差比较,确定因子的显著性Pie Chart of Total VarianceSSESSAxBSSASSBANOVA.(.),.3,ANOVA in MINITAB方差分析图形方差分析图形数据格式数据格式ANOVA
24、.(.),.3,ANOVA in MINITABItemFactorBalanced DesignOne-way1不限制One-way(Stacked)1不限制Two-way2是Balanced ANOVA不限制是General Linear Model不限制不限制Fully Nested ANOVA不限制-ANOVA.(.),.3,ANOVA in MINITAB(One-way)数据格式数据格式ANOVA.(.),.3,ANOVA in MINITAB(One-way-stacked)数据格式数据格式ANOVA.(.),.3,ANOVA in MINITAB(Two-way)数据格式数据格
25、式ANOVA.(.),.3,ANOVA in MINITAB(Balanced ANOVA)interactionuncontrolledANOVA.(.),.3,ANOVA in MINITAB(General Linear Model)ANOVA.(.),.3,ANOVA in MINITAB(Fully Nested ANOVA)ANOVA.(.),.回归分析的主要内容 实例 最小二乘原理 显著性检验 预测值和预测区间 回归诊断 MINITAB应用 相关分析回归分析.(.),.1,实例(y=ax+b)0.8140.8190.8240.8290.810.820.830.84KaifaMSP
26、MSP=-0.360174+1.43930 KaifaS=0.0023507 R-Sq=72.9%R-Sq(adj)=72.0%Regression PlotRegression line:Y=aX+bFitted Value:YiResidue:Ei=Yi-Yi回归分析.(.),.2,最小二乘原理 原理 Min(Ei)2=min(Yi Yi)2 相关指数 R2=1-(Ei)2/(Yi Y)2 比较相关性系数回归分析.(.),.3,显著性检验Regression Analysis:MSP versus KaifaThe regression equation isMSP=-0.360+1.44
27、 KaifaPredictor Coef SE Coef T PConstant -0.3602 0.1312 -2.75 0.010Kaifa 1.4393 0.1601 8.99 0.000S=0.002351 R-Sq=72.9%R-Sq(adj)=72.0%回归分析常数是否为零系数是否为零.(.),.3,显著性检验Analysis of VarianceSource DF SS MS F PRegression 1 0.00044631 0.00044631 80.77 0.000Residual Error 30 0.00016577 0.00000553Total 31 0.000
28、61208Unusual ObservationsObs Kaifa MSP Fit SE Fit Residual St Resid 9 0.828 0.828000 0.831858 0.001533 -0.003858 -2.17RX 23 0.819 0.823000 0.818041 0.000420 0.004959 2.14R R denotes an observation with a large standardized residualX denotes an observation whose X value gives it large influence.回归分析.
29、(.),.4,预测值和预测区间0.8140.8190.8240.8290.810.820.830.84KaifaMSPMSP=-0.360174+1.43930 KaifaS=0.0023507 R-Sq=72.9%R-Sq(adj)=72.0%Regression95%CI95%PIRegression Plot回归分析.(.),.5,回归诊断 线性模型-Plot(residual,fit)误差独立性-Plot(residual,observed order)误差正态性-Histogram,Normal plot回归分析.(.),.5,回归诊断51015202530-0.0050.0000.
30、005Observation OrderResidualResiduals Versus the Order of the Data(response is MSP)0.810.820.83-0.0050.0000.005Fitted ValueResidualResiduals Versus the Fitted Values(response is MSP)-0.0050.0000.005-2-1012Normal ScoreResidualNormal Probability Plot of the Residuals(response is MSP)-0.004-0.003-0.002
31、-0.0010.0000.0010.0020.0030.0040.00501234567ResidualFrequencyHistogram of the Residuals(response is MSP)回归分析.(.),.6,MINITAB应用回归分析可以选择多个变量.(.),.6,MINITAB应用残差分布图形预测值及预测区间回归分析.(.),.7,相关分析 相关分析与回归分析差别 相关分析中的变量是随机变量随机变量,回归分析中的变量是非随机变量非随机变量;相关分析中的变量是相互联系的相互联系的,回归分析中一个变量一个变量(自变量自变量)由另一个变量由另一个变量(因变量因变量)引起引起。相关分析是分析两个变量两个变量的线性关系线性关系,回归分析呈以分析一个变量和多个变量一个变量和多个变量的线性关线性关系系和非线性关系非线性关系。回归分析.(.),.7,相关分析 相关分析与回归分析联系 相关系数(相关分析)与相关指数(一元回归分析)计算结果一样;相关方程与回归方程的建立建立方法一样;相关方程与回归方程的诊断诊断方法一样;回归分析.(.),.