1、第六讲第六讲 非参数统计分析与非参数统计分析与直线相关回归分析直线相关回归分析浙江大学流行病与卫生统计教研室 Fall2002,Xiuyang LiB99,MedStat参数统计和非参数统计v参数统计:假设样本所来自的总体分布具有某个已知的函数形式,而其中有的参数是未知的,统计分析的目的就是对这些未知的参数进行估计或检验。此类方法称为参数统计。v非参数统计:不受总体分布的限制,用于检验分布而不是参数的一种统计方法。v秩和检验:通过秩次的排列求出秩和进行假设检验的一种非参数检验的统计方法。Fall2002,Xiuyang LiB99,MedStat非参数统计的特点v样本所来自的总体的分布形式为任
2、何形式,甚至是未知的。v收集资料方便,可用“等级”或“符号”来评定观察结果。v多数非参数方法比较简便,易于理解和掌握。如“秩和检验”计算的统计量是“秩和(等级之和)”。v损失信息量,适用于参数统计法的资料用非参数统计方法进行检验将降低检验效能。v确定p值的方法与参数检验不一样Fall2002,Xiuyang LiB99,MedStat非参数统计的适用范围v半定量资料v偏态分布资料v方差不齐的资料v开口资料v有特异点的资料v分布类型不明Fall2002,Xiuyang LiB99,MedStat常用非参数统计方法v配对资料秩和检验(Wilcoxon配对秩和检验)v成组设计两样本比较的秩和检验(W
3、ilcoxon法)v成组设计多个样本比较的秩和检验(Kruskal-Wallis法)v多个样本的两两比较v配伍组设计的多个样本比较的秩和检验vRidit法v等级相关Fall2002,Xiuyang LiB99,MedStat配对资料比较的秩和检验配对资料比较的秩和检验Fall2002,Xiuyang LiB99,MedStat假设检验的基本步骤v建立健设和确定检验水准 H0:两采样点测得空气中铀浓度结果相同 =0.05。v计算统计量T值 求差:计算每对数据之差 编秩 求秩和:分别求正、负秩次之和 求T值:T=min(T+,T-)=23.5v确定P值T=23.5T11,0.05=10,P0.05
4、v判断结果Fall2002,Xiuyang LiB99,MedStatFall2002,Xiuyang LiB99,MedStat两样本比较的秩和检验两样本比较的秩和检验(Wilcoxon(Wilcoxon法法)Fall2002,Xiuyang LiB99,MedStat基本步骤v建立假设和确定检验水准 H0:两种手术方法治疗肝癌者术后生存月数总体分布 =0.05v求统计量T 排队:两组数据分别从小到大排队,以便于编秩 编秩 求秩:分别以n1和n2代表两样本例数 求T值,TTmin(n1,n2)=23.5(if n1=n2,T=min(T1,T2))v确定P值T23.5(18,42),P0.0
5、5v判断结果 按=0.05水准,不拒绝H0,还不能认为两种手术方法治疗肝癌患者后生存月数总体分布不同。Fall2002,Xiuyang LiB99,MedStat)()1(12n5.02)1(33211jjcttNNNNnNnTuFall2002,Xiuyang LiB99,MedStatFall2002,Xiuyang LiB99,MedStatFall2002,Xiuyang LiB99,MedStatFall2002,Xiuyang LiB99,MedStatFall2002,Xiuyang LiB99,MedStatFall2002,Xiuyang LiB99,MedStatFall2
6、002,Xiuyang LiB99,MedStat线性回归与相关v直线回归直线回归的概念直线回归方程的建立回归系数的假设检验线性回归方程的应用直线回归分析应注意的问题v直线相关直线相关的概念相关系数的意义相关系数的计算和假设检验直线相关分析的注意事项Fall2002,Xiuyang LiB99,MedStat直线回归的概念v回归(regression)是研究多个变量之间的某种数量依存关系的统计方法,当研究只涉及两个变量X和Y,而且它们之间呈直线关系即为直线回归(linear regression).其统计学模型:Y=+X+,其中为误差项,假定为独立的随机变量,服从E()=0,方差为2的正态分布
7、。Fall2002,Xiuyang LiB99,MedStat直线回归方程的建立(1)v变量X和Y的散点图呈现直线趋势,但X和Y之间的线性关系具有不确定性,不同与数学函数式X和Y有严格的意义对应关系,用一组实际资料得到回归方程的和的估计值a和b后就可建立起直线回归方程(linear regression equation)。v其通式为:,式中x为自变量(independent variable),Y 为因变量(dependent variable)是Y的估计值,亦称回归值或预报值。a为直线在Y轴上的截距(intercept),即X=0时Y值;b为直线的斜率(slope),又称回归系数(regr
8、ession coefficient),表示X变动一个单位时,Y 平均变动的单位数。bxayFall2002,Xiuyang LiB99,MedStatYY=mX+bb=Y-interceptXChangein YChange in Xm=SlopeLinear EquationsFall2002,Xiuyang LiB99,MedStatSample Linear Regression ModelFall2002,Xiuyang LiB99,MedStat02040600204060XYScattergramn1.Plot of All(Xi,Yi)Pairsn2.Suggests How
9、Well Model Will FitFall2002,Xiuyang LiB99,MedStat0501000204060 xyThinking ChallengeFall2002,Xiuyang LiB99,MedStat0501000204060 x xy yThinking ChallengeFall2002,Xiuyang LiB99,MedStat0501000204060 x xy yThinking ChallengeFall2002,Xiuyang LiB99,MedStat0501000204060 x xy yThinking ChallengeFall2002,Xiuy
10、ang LiB99,MedStat0501000204060 x xy yThinking ChallengeFall2002,Xiuyang LiB99,MedStat0501000204060 x xy yThinking ChallengeFall2002,Xiuyang LiB99,MedStat0501000204060 x xy yThinking ChallengeFall2002,Xiuyang LiB99,MedStat直线回归方程的建立(2)v求回归直线就是计算方程中a和b的值,常用最小二乘法原理,即求使得剩余平方和 达到最小的a和b.v其计算公式:22yyxxxyllb
11、xbyaFall2002,Xiuyang LiB99,MedStatLeast Squares GraphicallyFall2002,Xiuyang LiB99,MedStat回归系数的假设检验(1)v检验的意义:各观察值Y1,Y2,Yn之间的变异产生的原因:由自变量X 的变异引起;除X以外的一切因素引起的变异。为了检验X和Y之间是否有直线关系,就要检验Y的变异有多大部分是由X的变异引起。Fall2002,Xiuyang LiB99,MedStat回归系数的假设检验(2)将Y的变异的总离均差平方和SS总分解为两部分,即SS总=SS回+SS剩。其中SS回称为回归平方和,它是由X的变化所引起的,
12、SS回/回为回归方面的均方(MS回),在直线回归中自由度为1;SS剩称为剩余平方和,SS剩/剩为剩余均方(MS剩),表示观察点与直线的偏离(纵向距离),它是由除X以外的一切因素所引起的,自由度为n-2。Fall2002,Xiuyang LiB99,MedStatVariation MeasuresFall2002,Xiuyang LiB99,MedStat直线回归方程的区间估计n的95%CI:n条件均数的估计:n个体y值的95%容许区间:bnstb)(2,05.0双220)(2,05.01,:.95%xxxxnsswherestyofICyxyyny双xxyxyyyynlxxnsswheres
13、ty20)(2,05.011,双总体中x为某一定值时,个体 y的波动范围y/xFall2002,Xiuyang LiB99,MedStat回归系数的假设检验(3)如果Y与X之间无直线关系,那么样本所来自的总体的回归均方与剩余均方应相等,即回归系数=0;反之,0。所以,要检验Y与X之间是否有直线关系,就是要检验回归系数是否为0。Fall2002,Xiuyang LiB99,MedStatTest of Slope Coefficientn1.Shows If There Is a Linear Relationship Between X&Y n2.Involves Population Slo
14、pe 1n3.Hypotheses H0:1=0(No Linear Relationship)Ha:1 0(Linear Relationship)n4.Theoretical Basis Is Sampling Distribution of SlopeFall2002,Xiuyang LiB99,MedStatSampling Distribution of Sample SlopesnAll Possible Sample SlopesnSample 1:2.5nSample 2:1.6 nSample 3:1.8nSample 4:2.1 :Very large number of
15、sample slopesFall2002,Xiuyang LiB99,MedStatSlope Coefficient Test StatisticFall2002,Xiuyang LiB99,MedStat回归系数的假设检验v检验方法:可用F检验或t检验。H0:=0 H1:0 =0.05F=MS回/MS剩,回=1,剩=n-2t=|b|/Sb=|b|/(Syx/(lxy),=n-2 式中Sb为 回归系数b的标准误,Syx为剩余标准差,即剩余均方的平方根,Syx=(SS剩/(n-2)=(Y-)2/(n-2)对同一资料,这两种检验的结论是一致的,在回=1时,t=(F)Fall2002,Xiuya
16、ng LiB99,MedStat线性回归方程的应用v描述两变量之间的线性依存关系v利用回归方程进行预测v利用回归方程进行统计控制Fall2002,Xiuyang LiB99,MedStatWhat Is PredictedFall2002,Xiuyang LiB99,MedStat直线回归分析应注意的问题v两变量之间的关系必须有实际意义v变量X是选定的,变量Y服从正态分布,回归分析为型回归,只能建立一个回归方程:,变量X和Y服从双变量正态分布,回归分析为型回归,可以建立两个回归方程:与进行回归分析时,资料应满足假设条件,如不满足时,要作变量变换.v利用回归方程对Y进行预测时一般只适用与自变量X
17、的原观察值的数据范围,不能随意外延.bxayxbayyxyxybaxxyxyFall2002,Xiuyang LiB99,MedStat直线相关的概念v相关是研究多个变量之间相互关系的一种统计方法,它是研究随机变量之间相关的密切程度以及相关的方向。v直线相关是只涉及两个变量X、Y,且它们之间呈直线关系。Fall2002,Xiuyang LiB99,MedStatn1.Pearson Product Moment Coefficient of Correlation,r:Sample Coefficient of CorrelationFall2002,Xiuyang LiB99,MedStat
18、Coefficient of Correlation ValuesFall2002,Xiuyang LiB99,MedStatCoefficient of Correlation ValuesFall2002,Xiuyang LiB99,MedStatCoefficient of Correlation ValuesFall2002,Xiuyang LiB99,MedStatCoefficient of Correlation ValuesFall2002,Xiuyang LiB99,MedStatCoefficient of Correlation ValuesFall2002,Xiuyan
19、g LiB99,MedStatCoefficient of Correlation ValuesFall2002,Xiuyang LiB99,MedStatCoefficient of Correlation ValuesFall2002,Xiuyang LiB99,MedStatCoefficient of Correlation ExamplesYXYXYXYXr=1r=-1r=.89r=0Fall2002,Xiuyang LiB99,MedStat相关系数的意义v两变量之间直线相关的性质和密切程度用直线相关系数表示,简称相关系数(correlation coefficient)用r表示。r-1,1,没有单位。vr值与相关性质的关系:v r0,为正相关;r=1,为完全正相关;v r50时,按公式7-29计算检验统计量,n (7-29)0:0sH1nrusFall2002,Xiuyang LiB99,MedStat作业:作业:vP93:No.1No.2vP120:No.3No.4