拟合优度检验课件.ppt

上传人(卖家):ziliao2023 文档编号:5609979 上传时间:2023-04-27 格式:PPT 页数:62 大小:1.80MB
下载 相关 举报
拟合优度检验课件.ppt_第1页
第1页 / 共62页
拟合优度检验课件.ppt_第2页
第2页 / 共62页
拟合优度检验课件.ppt_第3页
第3页 / 共62页
拟合优度检验课件.ppt_第4页
第4页 / 共62页
拟合优度检验课件.ppt_第5页
第5页 / 共62页
点击查看更多>>
资源描述

1、 我们前面已经比较系统地讨论了双样本的参数和非参数我们前面已经比较系统地讨论了双样本的参数和非参数检验的问题。现在,我们希望利用一般的方法来检验三个以检验的问题。现在,我们希望利用一般的方法来检验三个以上样本的差异,上样本的差异,检验法和方差分析法就是解决这方面问题的。检验法和方差分析法就是解决这方面问题的。检验法可以对拟合优度和独立性等进行检验,方差分析法则检验法可以对拟合优度和独立性等进行检验,方差分析法则可以对多个总体均值是否相等进行检验。后者由于通过各组可以对多个总体均值是否相等进行检验。后者由于通过各组样本资料之间的方差和组内方差的比较来建立服从样本资料之间的方差和组内方差的比较来建

2、立服从F分布的检分布的检验统计量,所以又称验统计量,所以又称F检验。检验。第一节:拟合优度检验第一节:拟合优度检验第二节:无关联性检验第二节:无关联性检验第三节:方差分析第三节:方差分析第四节:回归方程与相关系数的检验第四节:回归方程与相关系数的检验222第一节第一节 拟合优度检验拟合优度检验 运用运用Z检验、检验、t检验等讨论假设检验的问题,一般要求总体服从检验等讨论假设检验的问题,一般要求总体服从正态分布,或者在大样本条件下可以利用渐近正态分布理论来描述正态分布,或者在大样本条件下可以利用渐近正态分布理论来描述抽样分布。也就是说,我们都要直接或间接地假定对象总体具有已抽样分布。也就是说,我

3、们都要直接或间接地假定对象总体具有已知的分布形式,然后对总体的未知参数进行假设检验。如果不知道知的分布形式,然后对总体的未知参数进行假设检验。如果不知道总体的分布形式,就无法运用总体的分布形式,就无法运用t检验法等对总体参数进行假设检验检验法等对总体参数进行假设检验。于是,这里有一个前面留下来的尚未讨论的问题很重要,就是怎。于是,这里有一个前面留下来的尚未讨论的问题很重要,就是怎样检定总体是否具有正态或其他分布形式?拟合优度检验正是就这样检定总体是否具有正态或其他分布形式?拟合优度检验正是就这一问题而言的检验方法。一问题而言的检验方法。2 2n 首先把问题表述成一般模式。设一总体包含c种可区别

4、的个体。根据某种理论或纯粹的假设,第i 种个体出现的概率应为某个已知的数Pi(i1,2,c),有Pi 0,1。这一组概率(P1,P2,Pc)就构成了我们的理论分布。现在在该总体中随机地抽取一个容量为n的样本,发现其中第 i 种个体的数目为fi(i 1,2,c),并有 n。我们要据此检验理论分布。n 用概率论的语言可以这样说,设对象总体中随机变量X有c种取值。当X的取值是xi 时,按零假设,其总体分布等于理论分布,即P()Pi (i1,2,c)例如,就孟德尔的31理论来说,c 2,P(x1)3/4,P(x2)1/4。现在从该总体中随机地抽取一个容量为n的样本,发现其中xi(i1,2,c)出现的次

5、数为fi(i 1,2,c),并有 n。知道了频数也就知道了频率,即:出现的频率为 ,并有 1。现在我们就是要据此经验分布来检验总体分布等于理论分布的零假设。ciiP1ciiP1ciif1ciif1ixixnficiinf1 拟合优度检验如何进行拟合优度检验如何进行?关键是确定合适的检验统计量以及该统计量所服从的概率分布。这里不可避免地要引进某种人为因素,即人们设计出下面这样的综合性可比指标:其中k1,k2,kc 是适当选取的常数。仔细观察不难 发现,L值大,意味着经验分布与理论分布偏离大;L值小,意味着经验分布与理论分布偏离小。当在某个选定的水平上,经验分布显著偏离理论分布,那么对象总体具有某

6、种分布形式的零假设便被否定。2o2o222o2o应用举例应用举例 3 3正态拟合检验正态拟合检验第二节第二节 无关联性检验无关联性检验22应用此式,不必计算理论频数应用此式,不必计算理论频数计算与计算与 这个检验统计量相这个检验统计量相联系的自由度联系的自由度2o算出算出 统计量之值并定出其自由度后,就可以依前述的方法,在给定了显统计量之值并定出其自由度后,就可以依前述的方法,在给定了显著性水平之后,来对著性水平之后,来对X,Y属性无关联的零假设进行检验了。属性无关联的零假设进行检验了。2o2o2o2o2o2第三节第三节 方差分析方差分析 方差分析,是一种很重要的分析方法,它可以检验两个方差分

7、析,是一种很重要的分析方法,它可以检验两个以上样本均值之差。方差分析是均值差检验的推广,一般用以上样本均值之差。方差分析是均值差检验的推广,一般用于处理自变量是一个(或多个)定类变量和因变量是一个定于处理自变量是一个(或多个)定类变量和因变量是一个定距变量之间的关系。方差分析所包含的假定与均值差检验所距变量之间的关系。方差分析所包含的假定与均值差检验所包含的假定差不多,例如正态分布、独立随机样本、等方差包含的假定差不多,例如正态分布、独立随机样本、等方差性等,但检验本身却很不相同。方差分析直接涉及的是方差性等,但检验本身却很不相同。方差分析直接涉及的是方差而不是均值和标准差。同时,比较也不取两

8、种估计量之差,而不是均值和标准差。同时,比较也不取两种估计量之差,而是取两种估计量的比率。在两种估计量彼此独立的前提下,而是取两种估计量的比率。在两种估计量彼此独立的前提下,两种估计量之比率两种估计量之比率F具有已知的抽样分布,因而可进行很简单具有已知的抽样分布,因而可进行很简单的检验。的检验。ijYY211)(cinjijiYYciin1ijYijYiYijYiYYijYijY不能解释的方差可以解释的方差oF 在零假设(H:)之下,检验统计量F的计算公式。解解 据题意,n1n1+n2+n32+4+3 9 组内自由度nc936 组间自由度c1312 分别计算SST和SSB,计算过程参见前表13

9、.16。于是得MSB 和 MSW MSBSSB(c1)6.89/23.45 MSW SSW(nc)30/65.00 再根据(1319)式求检验统计量Fo Fo 0.69 1 故在010显著性水平上不否定零假设,即不能判断不同品脾对 该种商品的销量有显著影响。WBMSMS545.3 当方差分析的检验呈显著性后,进一步讨论两变量间的相关程度是很自然的。方差分析中相关程度的测定仍采用PRE法。当不知因变量Y 的取值与自变量X 的取值A1,A2,A c有关时,最好的预测是以总均值 作为Y 的估计值。此时,估计所犯的错误将等于SST E1 1SST 当已知因变量Y 的取值与自变量X 的取值A1,A2,A

10、 c有关后,自然用各样本的均值 作为各类别的预测值,此时预测所产生的误差将等于SSW E2SSW 所以消减误差比例可写成 PRE 正是因为上式,我们把SSB称为已解释的变差。显然,已解释的变差越大,预测Y 所减少的误差就越多,X与Y 之间的关系就越密切。据此,方差分析中把已解释的变差对总变差的比值称为相关比率,用符号 表示 1 可用于一个定类变量与一个定距变量的相关程度的测定,当然也可以用于定序定距变量或定距定距变量的相关程度的测定。Y211)(cinjijiYYiY cinjiijiYY112)(010EEE TWTSSSSSS TBSSSS222TWSSSSTBSSSS 例例 试以表试以表

11、13131212的资料,分析孩子图书消费与家庭的资料,分析孩子图书消费与家庭类型的关系。类型的关系。解解 据前面例题中已计算的结果,已知据前面例题中已计算的结果,已知SSB2828,SST276276,因而有,因而有 1 1 10.1%10.1%可见,就表给资料而言,利用家庭类型预测孩子图书消可见,就表给资料而言,利用家庭类型预测孩子图书消费量,只能削减费量,只能削减10.1%10.1%的预测误差。的预测误差。2TWSSSSTBSSSS27628n 相关比率相关比率 研究的是定类研究的是定类定距变量之间的相关程度。由于定距变量之间的相关程度。由于定类变量不具有数量大小的问题,不存在关系是否线性

12、的问题。定类变量不具有数量大小的问题,不存在关系是否线性的问题。因此,当因此,当 被用于研究定距被用于研究定距定距变量之间的关系时,不仅可以作定距变量之间的关系时,不仅可以作为线性相关的量度,也可以作为非线性相关的量度。这意味着,为线性相关的量度,也可以作为非线性相关的量度。这意味着,对线性相关,相关比率对线性相关,相关比率 与与r2 2(积差系数之平方积差系数之平方)有相同的有相同的PREPRE性质;性质;但如果对非线性相关,用积差系数但如果对非线性相关,用积差系数r 来讨论就不行了。来讨论就不行了。n 对于定距对于定距定距变量,曲线相关既然要用定距变量,曲线相关既然要用R来测量,那么反来测

13、量,那么反过来,同一资料通过相关指数过来,同一资料通过相关指数R与积差系数与积差系数r计算的比较,可以判计算的比较,可以判断确定两定距变量的关系是不是直线。如果同时求出断确定两定距变量的关系是不是直线。如果同时求出r与与R,r 等等于或略大于于或略大于R,可说明两变量关系是直线的,用,可说明两变量关系是直线的,用r去测量是合适的;去测量是合适的;如果如果rR,则说明两变量关系可能是曲线的。,则说明两变量关系可能是曲线的。222n 首先,MSB和MSW可以分别称为组间方差和组内方差,其中(在等方差的假设下)组内方差总是2的无偏估计;而组间方差,只有当诸总体(即各样本所代表的子总体)均值实际上相等

14、时,它才是2的无偏估计。这就是说,如果零假设为真,MSB和MSW之间将没有太大的差别。反之。如果零假设实际不正确,可以期望MSB和MSW的比值大于1。如果这个比值小于1,则不从F分布表中查找临界值F就可以判断零假设不能被否定。n 其次,以上两个例题也可以用均值差检验来处理。均值差检验涉及t分布,可以做三组合的比较即A1与A2,A2与A3,A1与A3。与均值差检验不同,方差分析仅进行一次检验来判定三种类别的家庭(或品牌)在消费(或销售)上彼此是否有显著性差异。方差分析的优点在于,一个检验可以代替多个检验。如果有四个类别,均值差检验需做(43)26次;如果有六个类别,需做(65)215次;如果有十

15、个类别,需做(109)245次。况且,如果做15次均值差检验。其中4次结果具有显著性,这时应当下什么结论?可能很难回答。n 第三,方差分析中的自变量X如果是二分变量,也可以采用均值差t检验。在这种情况下,F 的分子自由度是211,分母自由度是n2,这与均值差检验中的t相同。经过计算可知,具有自由度n2的t 2值等于具有分子自由度为1和分母自由度为n2的F 值。比较F 表和t 表也可以核实这一点。换言之,t是分子自由度为l的F 的平方根。这当然意味着,对于样本而言,此时不论采用方差分析或均值差检验,其结果完全相同。n 第四,本节集中讨论了自变量为一个定类变量而因变量为一个定距变量的情况。如果对因

16、变量Y影响的自变量由一个变为两个以上,我们就将面对多元方差分析了。总变差分解的思想可以直接推广至多因素显著性检验。例如就两个自变量(A和B)独立对因变量Y 影响的情况,可以得到下述方差分析表(表1317)。第四节第四节 回归方程与相关系数的检验回归方程与相关系数的检验 H0:B0 H1:B0 为了寻求检验为了寻求检验H0 0的方法,我们需要对离差平方和进行分解。而的方法,我们需要对离差平方和进行分解。而这项工作,前面已经完成。我们发现,估计这项工作,前面已经完成。我们发现,估计Y,当不知,当不知Y 和和X 的关系的关系时,对它的最佳估计值只能是时,对它的最佳估计值只能是 。离差之平方和(总变差

17、),正是。离差之平方和(总变差),正是不知不知Y 和和X 的关系时,估计的关系时,估计Y的全部误差的全部误差E0 0Y E0 SST 2)(YY 做了回归预测之后我们可以用做了回归预测之后我们可以用Y Yc c估计估计Y Y(参见下图参见下图)。这时。这时估计估计Y Y 的误差变为的误差变为E E1 1(剩余变差剩余变差):):E1 SSW 2)(cYY n 显然,利用显然,利用Yc去估计去估计Y 比用去比用去 估计估计Y 要消减一些误差。消减的要消减一些误差。消减的误差误差E0 0E1就是被回归直线解释掉的误差就是被回归直线解释掉的误差(回归变差回归变差)。n 从第十二章已经讨论过的回归变差

18、和剩余变差的意义来看,一个从第十二章已经讨论过的回归变差和剩余变差的意义来看,一个回归方程效果的好坏,取决于它们两者之间的比较。已解释的回归变回归方程效果的好坏,取决于它们两者之间的比较。已解释的回归变差越大,用差越大,用Yc 去估计去估计Y 比用去比用去 估计估计Y 消消减的误差就越多,回归预测减的误差就越多,回归预测的效果也就越好。依此,并按上一节方差分析的思想,在的效果也就越好。依此,并按上一节方差分析的思想,在H0 0成立的成立的条件下,检验回归直线的统计量可构造为条件下,检验回归直线的统计量可构造为 E0E1Y2)(YYcYFo F(1,n2))2/()(1/)(22nYYYYccp

19、 因回归变差中仅含一个自变量因回归变差中仅含一个自变量X,故自由度为,故自由度为l l。而。而总变差所含自由度为(总变差所含自由度为(n1 1),从而由总自由度组内,从而由总自由度组内自由度自由度+组间自由度,得剩余变差的自由度为组间自由度,得剩余变差的自由度为(n2)2)。p 对选定显著性水平对选定显著性水平,可查表得临界值,可查表得临界值F。若出现。若出现FoF(1,n2)的情况,则拒绝的情况,则拒绝H0,即认为回归方程中即认为回归方程中X变量对变量对Y的解释力是显著的;若的解释力是显著的;若出现出现FoF(1,n2)的情况,的情况,则不能则不能拒绝拒绝H0,即认为回归方程中即认为回归方程

20、中X 变量对变量对Y 没有的显著的解释力。没有的显著的解释力。例例 对对 例例12125 511所建立的回归方程进行回归直所建立的回归方程进行回归直线的检验线的检验(取取0 005)05)。解解 根据表12.22和例12.5.1的计算结果可知:48,252,52.5,299.75,268.5 a0.475,b0975,n12 299.750.47552.50975268.5 13.02 (0.975)2252 5704X2XY2YXY2)(cYYXYbYaY22)(YYc)(222nXXb12)48(2 计算检验统计量计算检验统计量 Fo 43.81 对对0 00505,查,查F F 表得临界

21、值表得临界值 F F(1(1,n n2)2)F F0 00505(1(1,10)10)4 4969643.8143.81 所以拒绝所以拒绝H H0 0,即可以认为对总体配置回归直线是,即可以认为对总体配置回归直线是 有意义的。有意义的。)2/()()(22nYYYYcc)212/(02.1304.57)(rE)(rD212nrtor t(n2)212rn积差系数检验的假设为积差系数检验的假设为:H0 0:0(0(两总体不具有线性相关关系两总体不具有线性相关关系)H1 1:0(0(两总体具有线性相关关系两总体具有线性相关关系)对选定的显著性水平对选定的显著性水平,查,查t分布表得临界值分布表得临

22、界值t/2/2(n22),与统计值与统计值to作比较。若作比较。若 ,则表明,则表明r在统计上是在统计上是显著的,即总体积差系数显著地不同于零;显著的,即总体积差系数显著地不同于零;,则说明则说明r在统计上不显著,即在统计上不显著,即X与与Y间并不存在线性相关关系。间并不存在线性相关关系。ot)2(2/ntot)2(2/nt 解解 建立假设建立假设 H0:0 H1:0 已知已知r r0 0902902,n n1212,于是得,于是得 tor 0 0902902 6 6608608 对对0 00505,查表得临界值,查表得临界值 t/2 2(n2 2)t0 0。025025(10)(10)2 2

23、2282286 6608608 故拒绝故拒绝H0H0,接受,接受H1H1,即认为员工的工龄和技术考核分之间存在线,即认为员工的工龄和技术考核分之间存在线 性相关。性相关。但是,为了使用者的方便,上述检验现已简化为使用相关系数但是,为了使用者的方便,上述检验现已简化为使用相关系数r进进 行直接检验。附表行直接检验。附表1212是以是以r的抽样分布编制的相关系数表,只要给出显的抽样分布编制的相关系数表,只要给出显 著性水平著性水平和自由度和自由度kn2 2,便可以在表中直接查出相应的临界值,便可以在表中直接查出相应的临界值 r(n2)2)。212rn2)902.01212(解解 已知已知r0 09

24、02902,n1212,对,对0 00505,k 122 21010,从附表,从附表1212中查得中查得 r(n2)2)r(10)(10)0 05765760 0902902 故拒绝零假设,即在故拒绝零假设,即在0 00505显著性水平上可以显著性水平上可以认为员工的工龄和技术考核分之间存在线性相关。认为员工的工龄和技术考核分之间存在线性相关。用附表用附表12直接对上例进行积差系数检验。直接对上例进行积差系数检验。n 上一小节,我们讲的是回归系数的检验,实际上那只是线性回归上一小节,我们讲的是回归系数的检验,实际上那只是线性回归方程的检验。而这一小节讨论积差系数的检验,也是要确认总体线性方程的

25、检验。而这一小节讨论积差系数的检验,也是要确认总体线性相关的存在。因而假设相关的存在。因而假设H0:B0与假设与假设H0:0等价。也就是说,等价。也就是说,如果样本积差系数如果样本积差系数r 通过了检验通过了检验(t 检验检验),也必然导致回归系数,也必然导致回归系数b能通能通过检验过检验(F检验检验)。实际上。实际上F公式与公式与t 公式是有对应关系的。公式是有对应关系的。Fo t 2 2 n 即具有自由度即具有自由度n2 2的的 t 2 2值等于具有分子自由度值等于具有分子自由度1 1和分母自由度和分母自由度n2 2的的F 值。也正是由于这个原因,有的教科书就是用值。也正是由于这个原因,有

26、的教科书就是用t 统计量来检统计量来检验回假设的。而如果有了验回假设的。而如果有了r 检验表检验表(附表附表12)12),问题就变得更为简单,问题就变得更为简单,计算计算Fo值并进行值并进行F 检验也都不必要了。检验也都不必要了。2)1(22nSSrSSrTT)1()2(22rnrY2)(YY 2)(cYY 回归方程区间估计提出的背景 由于误差为正态分布的原理由于误差为正态分布的原理(即中心极限定理即中心极限定理),当样本容量,当样本容量n大于大于30时,我们可以作如下假定(参见前图):时,我们可以作如下假定(参见前图):1)Y 的实际观测值在对应的每个估计值的实际观测值在对应的每个估计值Yc

27、周围都是正态分布,越靠周围都是正态分布,越靠近近Yc的地方,的地方,Y值出现的机会越多,反之出现的机会越少;值出现的机会越多,反之出现的机会越少;2)所有正态分布都具有相同的标准差,即所谓的同方差性。)所有正态分布都具有相同的标准差,即所谓的同方差性。于是,除了重温过去的知识,只有一个具体问题要解决:为了测定于是,除了重温过去的知识,只有一个具体问题要解决:为了测定回归线的代表性,有必要参照标准差的意义,引进一个离中趋势的量回归线的代表性,有必要参照标准差的意义,引进一个离中趋势的量度度估计估计标准误差,标准误差,记作记作SY/X,用来反映围绕回归线的,用来反映围绕回归线的Y值的离散程值的离散

28、程度。在这里,求算度。在这里,求算估计估计标准误差具有标准误差具有第九章中第九章中求算抽样平均误差同样的求算抽样平均误差同样的意义。意义。当知道当知道Y和和X有关系时,用有关系时,用Yc 来估计来估计Y,估计的误差为估计的误差为剩余变差剩余变差 ,即即SSW。所以,。所以,估计标准误差显然为估计标准误差显然为剩余方差剩余方差MSW的平方根,即的平方根,即 SY/X 直接采用直接采用上上式来计算式来计算估计标准误差估计标准误差比较麻烦,实际计比较麻烦,实际计算时,一般用下算时,一般用下式(前面已经证明式(前面已经证明)SY/X 2)(cYY 22nYYc)(22nYXbYaY解解 就表就表12.

29、21所示资料,在所示资料,在 例例12125 511 的基础上,参照的基础上,参照 例例l3l34 411的计算结果,已知的计算结果,已知 13.02 13.02 SY/X 1.141.14 所以,用回归线所以,用回归线0.475+0.975X估计因变量估计因变量Y时的估计标准时的估计标准误差为误差为1.14(分)。(分)。2)(cYYXYbYaY222nYXbYaY21202.13 有了估计标准误差,再结合回归方程,就可以对因变量Y进行估计和推断了。具体来说,就是建立回归估计的置信区间(参见第九章“区间估计”一节),借以确定回归方程预测或控制Y的范围。现在根据上述两个假定,并参见第七章图76

30、,的取值或预测区间可以这样期望:(1)取取 1SY/X,那么在散点图上约有,那么在散点图上约有6826的观的观测点落在其间测点落在其间(参见图参见图133)。(2)取取 2SY/X,那么在散点图上约有,那么在散点图上约有9546的观的观测点落在其间测点落在其间(参见图参见图133)。(3)取取 3SY/X,那么在散点图上约有,那么在散点图上约有9973的观的观测点落在其间测点落在其间(参见图参见图133)。cYcYcY例例 试以表试以表12.21中的资料为例,说明回归置信区间建立的方法。中的资料为例,说明回归置信区间建立的方法。解解 根据例1251和上例计算的结果,已知 0.475+0.975X SY/X1.14 假定自变量工龄X为5(年),得技术考核分的拟合值 0.475+0.97555.35 那么 +1SY/X 5.35+1.14649 1SY/X 5.351.14421 即对工龄为5年的员工,他们的技术考核分在421分至649分之间的概率为6826%。+2SY/X 5.35+21.14763 2SY/X5.3521.14307 即对工龄为5年的员工,他们的技术考核分在307分至763分之间的概率为9546%。cYcYcYcYcYcY

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(拟合优度检验课件.ppt)为本站会员(ziliao2023)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|