体育统计学课件1-8章1214课件.ppt

上传人(卖家):晟晟文业 文档编号:4409572 上传时间:2022-12-07 格式:PPT 页数:282 大小:2.42MB
下载 相关 举报
体育统计学课件1-8章1214课件.ppt_第1页
第1页 / 共282页
体育统计学课件1-8章1214课件.ppt_第2页
第2页 / 共282页
体育统计学课件1-8章1214课件.ppt_第3页
第3页 / 共282页
体育统计学课件1-8章1214课件.ppt_第4页
第4页 / 共282页
体育统计学课件1-8章1214课件.ppt_第5页
第5页 / 共282页
点击查看更多>>
资源描述

1、 统计的作用统计的作用客观事物的特征客观事物的特征研究 运动性特征:反映运动能力心理能力等方面的数量指标是具有 运动性特征的。(1,与运动有关;2,是动态的)综合性特征:兼有自然科学和社会科学的综合属性。客观性特征:数据来源于客观事物本身,是对客观事物的反映。1,总体的概念:根据统计研究的具体研究目的而确定的同质对象的全体。2,个体的概念:组成总体的每个基本单位。3,总体的分类:有限总体:基本研究单位的边界是明晰的,并且基本研究单位的数量是有限的总体。无限总体:基本研究单位的数量是无限多个的总体。1,样本的概念:根据研究需要与可能,从总体中抽取的部 分研究对象所形成的子集为样本。2,样本的分类

2、:随机样本和非随机样本至少理论上至少理论上可以穷举可以穷举不能穷举nmAP)(nmAPnmAfnmAf)()(n)(,当 在高等数学中,采用连加求和缩写式形式来表示连加求和数,它的一般形式为:其中:连加求和号 变量(一组观测数据)在 中,i 是下标,n 是上标,i、n 表示连加求和的界限,即从通项公式具体分解的第一项开始相加一直到第n项为止。各具体项根据 i 的取值不同而有所不同,i 取1为第一项,取“n”为第n项。niix1ixniix1nniixxxx211体育中常用的连加求和运算:22121nniixxxxninixxxx1222212nniniiyxyxyxyx22111 为了避免符号

3、过于复杂,今后凡在求和范围可以看清的为了避免符号过于复杂,今后凡在求和范围可以看清的条件下,通常将条件下,通常将号上下标省略不写,简记为号上下标省略不写,简记为ix?iidf?2 xxi?iiyx?)()()(22yyxxyyxxiiii第二章第二章 统计资料的收集与整理统计资料的收集与整理 收集资料的基本要求收集资料的基本要求 1:资料的准确性 2:资料的齐同性 3:资料的随机性 收集资料的基本方法收集资料的基本方法 1:日常积累 2:全面普查 3:专题研究 简单随机抽样(完全随机抽样)简单随机抽样(完全随机抽样)抽取特点:1:不分组,不分类,不排队地抽取;2:总体中每个个体都有被抽中的机会

4、;3:总体中每个个体被抽中的机会是均等的。抽取方法:1:抽签法 2:随机数表法(见随机数表)该方法的优点:样本代表性好该方法的缺点:总体含量大时,编号困难。工作量大。抽取步骤方法:1:按属性特征分成若干类型、部分或层;2:在类型、部分或层中按照比例进行简单随机抽样。分层的需注意的问题:1:层间必须有清晰的界面;(类间差异大,类内差异小)2:必须知道各类型中的个体数目和比例;3:层的数目不宜太多,但也不要极少。分层抽样的优点:1:能够提高样本代表性,又不至于给调查工作带来麻烦,在代表性和工作量之间做出了平衡;2:适用于总体情况复杂、个体数目较多的情况。某大学体育系大一新生总体人数合计900人田径

5、350人篮球200人足球150人网球100人体操80人游泳20人分层田径35人篮球20人足球15人网球10人体操8人游泳2人按照10%比例简单随机抽样研究样本含量为90人按照学生专按照学生专项属性分层项属性分层 整群抽样的特点:区别于简单随机抽样和分层抽样,抽样的单位不再是总体中的个体,是总体中的划分出来的群。划分群应注意的问题:群间差异要小,群内差异要大。讨论:调查广东省初中毕业生体质达标的情况。如何抽样?资料的审核资料的审核1:初审简单排误2:逻辑检查专业知识、常识,指标关系间排误3:复核按比例抽样复核 频数整理频数整理频数分布表的制作频数分布表的制作频数分布表的编制(实例)分组方法单变量

6、值分组单变量值分组 1.将一个变量值作为一组 2.适合于离散变量 3.适合于变量值较少的情况单变量值分组表单变量值分组表表表 某小学五年级学生跳绳成绩表某小学五年级学生跳绳成绩表成绩成绩(个个)频数频数(人人)成绩成绩(个个)频数频数(人人)成绩成绩(个个)频数频数(人人)107108110112113114115117118121211133119120121122123124125126127121443223128129130131133134135137139211122112组距分组组距分组将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况必须遵循“不重不漏”的原则可采用

7、等距分组,也可采用不等距分组组距分组的步骤(等距分组)组距分组的步骤(等距分组)求全距(极差)求全距(极差)R R:确定组数:组数的确定应以能够显示数据确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,的分布特征和规律为目的。在实际分组时,可以按可以按 Sturges Sturges 提出的经验公式来确定组提出的经验公式来确定组数数K K2lglg1nK组距分组涉及的几个概念组距分组涉及的几个概念 1.下下 限:限:一个组的最小值一个组的最小值 2.上上 限:限:一个组的最大值一个组的最大值 3.组组 距:距:上限与下限之差上限与下限之差 4.组中值:组中值:下限与上限

8、之间的中点值下限与上限之间的中点值1.求全距(极差)求全距(极差)R:确定组数确定组数:3.确定组距:确定组距:)2lg()50lg(1K1+1.70/0.306.66774.确定组限:确定组限:5.1 1:可以依据已有的成熟的:可以依据已有的成熟的专业经验来确定;专业经验来确定;2 2:可参考前苏联专家制定:可参考前苏联专家制定的参考表(如右表)确定:的参考表(如右表)确定:可以绘制直观的图形来方可以绘制直观的图形来方便了解数据的信息。便了解数据的信息。较常使用的图形形式有多较常使用的图形形式有多边形图和直方图等。边形图和直方图等。图形中,一般图形中,一般横坐标横坐标代表代表组限组限,纵坐标

9、纵坐标代表代表频数频数。样本含量(n)分组数(k)30-605-860-1007-10100-2009-12200-50011-15作业作业数据特征及其测量指标数据特征及其测量指标分布状况分布状况集中趋势集中趋势离散程度离散程度 中位数,又称中数,中点数。中位数,又称中数,中点数。符号符号Md(Median)Md(Median),定义:是指位于一组数据中较大一半与定义:是指位于一组数据中较大一半与较小一半中间位置的那个数。较小一半中间位置的那个数。Md 特征:此数可能是数据中的某一个,也可能根本特征:此数可能是数据中的某一个,也可能根本不是原有的数据。不受极端值的影响不是原有的数据。不受极端值

10、的影响 计算方法:将数据依大小次序排列,若数据个数计算方法:将数据依大小次序排列,若数据个数为奇数,则取数列中间的那个数为中数;若数据为奇数,则取数列中间的那个数为中数;若数据个数为偶数,则取中间两个数的平均数为中数。个数为偶数,则取中间两个数的平均数为中数。为偶数时当为奇数时当NXXNXMdNNN1222121 概念:样本观测值在频数分布表中频数最多的那一概念:样本观测值在频数分布表中频数最多的那一组的组中值。组的组中值。(分组数据的众数,属于引申概念)分组数据的众数,属于引申概念)原始概念:众数,符号原始概念:众数,符号MoMo,它指在一组数中出现次,它指在一组数中出现次数最多的那个数。计

11、算方法是直接找到出现次数最数最多的那个数。计算方法是直接找到出现次数最多的那个数。多的那个数。众数具有不唯一性。例如:众数具有不唯一性。例如:频数最多的那一组的组中值。频数最多的那一组的组中值。如书如书P21-P22:P21-P22:练习:找找众数,利用上次所做的作业。练习:找找众数,利用上次所做的作业。几何平均数几何平均数 概念:样本观测值的连乘积,并以样本观测概念:样本观测值的连乘积,并以样本观测值的总数作为次数,开方所得的数据。值的总数作为次数,开方所得的数据。主要适用于一组数据中有少量数据偏大或偏主要适用于一组数据中有少量数据偏大或偏小,数据分布呈偏态。小,数据分布呈偏态。计算公式:计

12、算公式:举例说明:举例说明:1 1,2 2,3 3,4 4,8 8,1616,4242,108108 见教材见教材P22,P22,例题例题3.43.4算术平均数算术平均数 算术平均数简称为平均数或均值,符号为算术平均数简称为平均数或均值,符号为M M(MeanMean)总体算术平均数:希腊字母总体算术平均数:希腊字母 (音:音:miu)miu)样本算术平均数:英文字母样本算术平均数:英文字母 (音:音:X bar)X bar)。算术平均数是由所有数据之和除以数据个数所得的算术平均数是由所有数据之和除以数据个数所得的商数,用公式表示为:商数,用公式表示为:xNXNXXXXNiiN121 算术平均

13、数在应用上有如下特点算术平均数在应用上有如下特点:算术平均数是一个良好的集中量数,具有反应灵敏、确定严密、简明易解、计算简单、适合进一步演算和较小受抽样变化的影响等优点。算术平均数易受极端数据的影响,这是因为平均数反应灵敏,每个数据的或大或小的变化都会影响到最终结果。概念:一组数据最大值与最小值之差。公式:特征与缺陷:1:能够了解数据的范围(区域,区间)。2:只考虑极值,容易受到异常数据的影响,属于粗略的指标值,精细程度不够。绝对差:平均差;n1iixx绝对差nxxn1ii平均差1 1:是离散程度的测量指标值之一,最常用。:是离散程度的测量指标值之一,最常用。2 2:能反映数据的分布。:能反映

14、数据的分布。3 3:能反映各变量值与均值的平均差异。:能反映各变量值与均值的平均差异。4 4:根据总体数据计算的,称为总体方差或标:根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差准差;根据样本数据计算的,称为样本方差或标准差。或标准差。NXXNii122)(NXXNii12)(1)(1221nxxSniin1)(121nxxSniin一组数据中可以自由取值的数据的个数一组数据中可以自由取值的数据的个数当样本数据的个数为当样本数据的个数为 n 时,若样本均值时,若样本均值 x 确定后,确定后,只有只有n-1个数据可以自由取值,其中必有一个数据则个数据可以自由取值,其中

15、必有一个数据则不能自由取值不能自由取值例如,样本有例如,样本有3个数值,即个数值,即x1=2,x2=4,x3=9,则,则 x=5。当。当 x=5 确定后,确定后,x1,x2和和x3有两个数据可以有两个数据可以自由取值,另一个则不能自由取值,比如自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么,那么x3则必然取则必然取2,而不能取其他值,而不能取其他值样本方差用自由度去除,其原因可从多方面来解释,样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差去估计总体方差2时,它是时,它是2的无偏估

16、计量的无偏估计量 平均数与标准差在决策中的直接应用。平均数与标准差在决策中的直接应用。变异系数在稳定性研究中的应用。变异系数在稳定性研究中的应用。法在原始数据逻辑审核中的应用。法在原始数据逻辑审核中的应用。Sx3 用用 队员甲:队员甲:40.50;41.26;40.44;39.62;40.12 42.10;39.84;40.18;38.70;39.54 队员乙:队员乙:40.48;42.88;40.50;39.50;38.00;43.32;38.72;41.82;36.84;40.24简单应用平局数与标准差进行数据决策的步骤:简单应用平局数与标准差进行数据决策的步骤:1:确定样本数据的全域。:

17、确定样本数据的全域。2:确定样本数据的平均水平。:确定样本数据的平均水平。3:确定样本数据的离散程度。:确定样本数据的离散程度。4:根据专业专项应用要求采取相应不同决策。:根据专业专项应用要求采取相应不同决策。注意:决策前提是认同所取得的数据是真实客观有效的。注意:决策前提是认同所取得的数据是真实客观有效的。121x9.52x15.0S18.0S%25.1%1001215.0%10011100 xSCVm%05.3%1009.518.0%10022xSCV跳远Sx3 5.158x法在原始数据逻辑审核中的应法在原始数据逻辑审核中的应用用1.4S1751x8.1442x1563xSx3Sx3Sx3

18、作业作业100100个样本数据的频率分布直方图个样本数据的频率分布直方图200200个样本数据的频率分布直方图个样本数据的频率分布直方图总体密度曲线总体密度曲线无穷多个样本数据的频率分布直方图无穷多个样本数据的频率分布直方图00.020.040.060.080.10.120.1412.014.517.019.522.024.527.029.532.000.020.040.060.080.10.120.1412.00 14.50 17.00 19.50 22.00 24.50 27.00 29.50 32.00 1.1.描述连续型随机变量的最重要的分布描述连续型随机变量的最重要的分布 2.2.可

19、用于近似连续型的离散变量的分布可用于近似连续型的离散变量的分布 3.3.经典统计推断的基础经典统计推断的基础xxfx,e21)(2221f(x):随机变量:随机变量 X 的频数的频数 :总体方差:总体方差 =3.14159;e=2.71828x=随机变量的取值随机变量的取值(-x 0正态曲线的最高点在均值,它也是分布的中位数和众数正态分布是一簇分布,每一特定正态分布通过均值和标准差来区分。决定曲线的位置,称为;决定曲线的形状,称为。曲线f(x)相对于均值对称,尾端向两个方向无限延伸,且理论上永远不会与横轴相交正态曲线下的总面积等于1,即概率值等于1随机变量的概率由曲线下的面积给出xCAB?d)

20、()(baxxfbxaPxU 任何一个一般的正态分布,可通过下面的线性变任何一个一般的正态分布,可通过下面的线性变换换 转化为标准正态分布转化为标准正态分布 xufu,e21)(22xU一般正态分布的不同取决于均值一般正态分布的不同取决于均值 和标准差和标准差 计算概率时计算概率时 ,每一个一般正态分布都需要有自己的,每一个一般正态分布都需要有自己的正态概率分布表,这种表格是无穷多的。正态概率分布表,这种表格是无穷多的。若能将一般正态分布转化为标准正态分布,计算概若能将一般正态分布转化为标准正态分布,计算概率时就只需查一张表(标准正态分布表)就可以了。率时就只需查一张表(标准正态分布表)就可以

21、了。先将一个先将一个一般一般正态分布转换为正态分布转换为标准标准正态分布正态分布计算概率时计算概率时,查标准正态概率分布表,查标准正态概率分布表对于负的对于负的 x x ,可由,可由 (-(-x x)-x x 得到得到对于标准正态分布,即对于标准正态分布,即X X N N(0,1(0,12 2),有,有P P(a a X X b b)b b a a P P(|X|(|X|a a)2 2 a a 1 1对于对于一般一般正态分布,即正态分布,即X X N N(,2 2),有,有abbXaP)(12.01052.6xU5 =102.97.1X21.01051.7 21.1059.221xUxU0 =

22、1-.21Z.219525.0)67.1(67.135351035)10(XPXPXP7938.0)1()67.1(67.1351351035352)102(XPXPXP设设XN(1,4),求),求P(0X1.6)解:解:XN(1,4)XN(1,22)故,故,=1,=1,=2=2(0X1.6)1.6101()()22(0.3)(0.5)(0.3)1(0.5)0.6179 1 0.6915 0.3094 主要应用方面:制定考核标准 制定离差评价表 进行人数估算 在综合评价中统一 变量单位1:制作正态曲线的分布草图。2:计算出从 到 ui值所围成的面积概率。3:查表求得各等级的ui值。4:求得各等

23、级标准的原始成绩xi值。1:根据指标总数画好框表。2:将各个指标的平均数填入0标准差等级线与各个指标纵线的交叉处。3:计算1标准差,2标准差,3标准差的对应指标数值,并填入各级标准差等级线与各个指标纵线的交叉处。特别要注意计量的方向性(如:田径中田赛与径赛的计分区别)特别要注意计量的方向性(如:田径中田赛与径赛的计分区别)。4:依据指标成绩基础值和指标变化值画出不同时期的变化图线。5:注意离差等级的划分标准合理制定。(参考标准有两种)(参考标准有两种):1:作正态分布曲线的草图,以确定估计范围。2:求各个区间的ui 值。3:查表找到所估计范围的面积概率。4:计算估计范围的人数。就是依据距离平均

24、数有多少个标准差的距离来确定分数的方法。如果距离平均数在正方向有2个标准差的距离,则记为U分分为2分。在负方向有2个标准差距离,则记为U分分为-2分。直接用u值来评分。是通过U分转换成更加符合实际运用情况的分数计量方法。可以转换为百分计分法,公式为:用于符合正态分布的前提下不等距升分不等距升分的方法之一。其公式为:用于不符合正态分布不符合正态分布的条件下使用变换分数的变量标准化法。其公式见教材P99(5.15)。100650100650Sxxuz需要计算确定)和为某常数。注意这里的为等级变量,为系数,为累进分数,ZZDkyZkDyk(2 关于误差的说明关于误差的说明1 1:随机误差:随机误差偶

25、然因素造成,不可避免,无法消除偶然因素造成,不可避免,无法消除2 2:系统误差:系统误差实验条件和研究方法造成的,可以改善实验条件和研究方法造成的,可以改善3 3:抽样误差:抽样误差抽出的样本统计量之间或样本统计量与总体参数抽出的样本统计量之间或样本统计量与总体参数之间的偏差,主要由于个体间差异造成的,样本含之间的偏差,主要由于个体间差异造成的,样本含量增大时,抽样误差会有减少的趋势量增大时,抽样误差会有减少的趋势4 4:人为误差(过失错误):人为误差(过失错误)人为过失错误造成的统计数据的失真性。人为过失错误造成的统计数据的失真性。统计处理中最关心的是系统误差和抽样误差。统计处理中最关心的是

26、系统误差和抽样误差。关于关于“标准误标准误”的概念的概念表示样本均数(或样本率)与总体均数表示样本均数(或样本率)与总体均数 (或总体率)之间偏差程度的标准差。(或总体率)之间偏差程度的标准差。均数标准误的计算公式:均数标准误的计算公式:nSSSnxx,以上公式变成:代替通常用不易确定,实际应用中,由于:及样本含量有以下关系均数标准误与总体方差究结果,根据数理统计理论的研 均数标准误的计算公式:均数标准误的计算公式:nppSpnpp)1()1(来代替:用样本率一般得不到,在实际应用中,总体率样本率的标准误:点估计与区间估计点估计与区间估计点点 估估 计计选定适当的样本统计量作为参数的估计选定适

27、当的样本统计量作为参数的估计量。量。区间估计区间估计以变量的概率分布规律来确定未知参数以变量的概率分布规律来确定未知参数 值的可能范围。值的可能范围。置信概率置信概率在区间估计中,预选规定的概率。在区间估计中,预选规定的概率。置信区间置信区间在区间估计中,按照预选规定的概率确在区间估计中,按照预选规定的概率确 定下来的区间范围。定下来的区间范围。一:总体均数的置信区间一:总体均数的置信区间1:大样本含量(:大样本含量(n45),可以认定符合正),可以认定符合正态分布,根据正态分布原理,用态分布,根据正态分布原理,用u分计算。分计算。2:小样本含量(:小样本含量(n45),不符合正态分布,),不

28、符合正态分布,只能根据只能根据t分布原理,用分布原理,用t分计算。分计算。二:总体率的置信区间二:总体率的置信区间 样本含量必须足够大(如:样本含量必须足够大(如:n100)p的抽样分布逼近正态分布,用的抽样分布逼近正态分布,用u分计算。分计算。计算公式:教材计算公式:教材P108-109.假设检验的基本知识假设检验的基本知识 u 检验检验 t 检验检验 卡方检验(不讲)卡方检验(不讲)假设是假设是对总体参数的一种看法对总体参数的一种看法总体参数包括总体参数包括总体均值总体均值、比例比例、方差方差等等分析分析之前之前必需要有合理的陈述必需要有合理的陈述根据研究目的,对样本所属总体的特征根据研究

29、目的,对样本所属总体的特征提提出一个假设出一个假设,然后,然后根据样本资料所提供的根据样本资料所提供的信息信息,对这个假设作出拒绝或者不拒绝的,对这个假设作出拒绝或者不拒绝的判断,这一过程成为假设检验。判断,这一过程成为假设检验。概念核心:概念核心:事先对总体参数或分布形式作出某种假设事先对总体参数或分布形式作出某种假设然后利用样本信息来判断原假设是否成立然后利用样本信息来判断原假设是否成立 =173 cm这个是我们抽样得出的某个样本均值.(提出假设抽取样本作出决策)初三男生初三男生100M100M平平均成绩是均成绩是13.613.6秒秒 拒绝假设拒绝假设!别无选择别无选择.什么是小概率?什么

30、是小概率?1.在一次试验中,一个几乎不可能发生的事件在一次试验中,一个几乎不可能发生的事件发生的概率发生的概率 2.在一次试验中小概率事件一旦发生,我们就在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设有理由拒绝原假设 3.小概率由研究者事先确定(与置信区间相关小概率由研究者事先确定(与置信区间相关)a a/2(1)根据实际情况建立原假设)根据实际情况建立原假设H H0 0,备择假设,备择假设H H1 1(2)选择并计算检验统计量的取值)选择并计算检验统计量的取值(3)确定显著性水平)确定显著性水平,查表得出相应的临界值,查表得出相应的临界值(4)把实值与临界值进行比较,作出统计判断)把

31、实值与临界值进行比较,作出统计判断 什么检验统计量?什么检验统计量?1.用于假设检验问题的统计量用于假设检验问题的统计量2.选择统计量的方法与参数估计相同,需考虑选择统计量的方法与参数估计相同,需考虑 是大样本还是小样本是大样本还是小样本 总体方差已知还是未知总体方差已知还是未知3.检验统计量的基本形式为检验统计量的基本形式为标准误总体均值样本均值检验统计量 什么是原假设?什么是原假设?(Null Hypothesis)1.待检验的假设,又称“0假设、虚无假设”。2.如果错误地作出决策会导致一系列后果。3.总是有等号 ,或 4.表示为 H0 H0:某一数值0 例如,H0:1.73(米)什么是备

32、择假设?什么是备择假设?(Alternative Hypothesis)1.与原假设对立的假设 2.总是有不等号:,或 3.表示为 H1 H1:某一数值,或 某一数值 例如,H1:Fa a,则拒绝原假设H0,表明均值之间的差异是显著的,所检验的因素(A)对观察值有显著影响若F Fa a,则不能拒绝原假设H0,表明所检验的因素(A)对观察值没有显著影响 单因素方差分析表单因素方差分析表(基本结构基本结构)方差来源方差来源平方和平方和SS自由度自由度df均方均方MSF 值值组间组间(因素影响因素影响)组内组内(误差误差)总和总和SSASSESSTk-1n-kn-1MSAMSEMSA单因素方差分析单

33、因素方差分析(一个例子)(一个例子)单因素方差分析单因素方差分析(一个例子)(一个例子)消费者对四个行业的投诉次数消费者对四个行业的投诉次数 观察值观察值(j)行业行业(A)零售业零售业旅游业旅游业航空公司航空公司家电制造业家电制造业123456757554645545347 624960545655 5149485547 7068636960 单因素方差分析单因素方差分析(计算结果)(计算结果)解:设四个行业被投诉次数的均值分别为,1、2、3、4,则需要检验如下假设 H0:1=2=3=4 (四个行业的服务质量无显著差异)H1:1,2,3,4不全相等 (有显著差异)Excel输出的结果如下 结

34、论:拒绝结论:拒绝H0。四个行业的服务质量有显著差异四个行业的服务质量有显著差异 方差分析中的多重比较方差分析中的多重比较 (作用)(作用)多重比较是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异多重比较方法有多种,这里介绍Fisher提出的最小显著差异最小显著差异方法,简写为LSD,该方法可用于判断到底哪些均值之间有差异 LSD方法是对检验两个总体均值是否相等的t检验方法的总体方差估计加以修正(用MSE来代替)而得到的 方差分析中的多重比较方差分析中的多重比较(步骤)(步骤)提出假设H0:i=j(第i个总体的均值等于第j个总体的均值)H1:i j(第i个总体的均值不等于第j

35、个总体的均值)检验的统计量为 )(11kntnnMSExxtjiji若若|t|taa,拒绝,拒绝H0;若若|t|taa,不能拒绝,不能拒绝H0方差分析中的多重比较方差分析中的多重比较(基于统计量(基于统计量 x xi i-x xj j的的LSDLSD方法)方法)通过判断样本均值之差的大小来检验 H0检验的统计量为:xi xj检验的步骤为 提出假设H0:i=j(第i个总体的均值等于第j个总体的均值)H1:i j(第i个总体的均值不等于第j个总体的均值)计算LSDjinnMSEtLSD112a若若|xi-xj|LSD,拒绝,拒绝H0,若若|xi-xj|2.096 颜色颜色1与颜色与颜色2的销售量的

36、销售量有有显著差异显著差异|x1-x3|=|27.3-26.4|=0.92.096 颜色颜色1与颜色与颜色4的销售量的销售量有有显著差异显著差异|x2-x3|=|29.5-26.4|=3.12.096 颜色颜色2与颜色与颜色3的销售量的销售量有有显著差异显著差异|x2-x4|=|29.5-31.4|=1.92.096 颜色颜色3与颜色与颜色4的销售量的销售量有有显著差异显著差异是一一对应的确定关系是一一对应的确定关系设有两个变量设有两个变量 x 和和 y,变量,变量 y 随变量随变量 x 一起变化,并完一起变化,并完全依赖于全依赖于 x,当变量,当变量 x 取某取某个数值时,个数值时,y 依依

37、确定确定的关系的关系取相应的值,则称取相应的值,则称 y 是是 x 的的函数,记为函数,记为 y=f(x),其中,其中 x 称为自变量,称为自变量,y 称为因变称为因变量量各观测点落在一条线上各观测点落在一条线上 变量间关系变量间关系不能不能用函数关用函数关系系精确表达精确表达一个变量的一个变量的取值不能取值不能由另由另一个变量一个变量唯一确定唯一确定当变量当变量 x 取某个值时,变取某个值时,变量量 y 的取值可能有几个的取值可能有几个各观测点分布在直线周围各观测点分布在直线周围 相关关系的例子相关关系的例子父亲身高父亲身高(y)与子女身高与子女身高(x)之间的关系之间的关系家庭收入状况家庭

38、收入状况(y)与体育消费与体育消费(x)之间的关系之间的关系体育用品销售额体育用品销售额(y)与广告费支出与广告费支出(x)之间的关系之间的关系收入水平收入水平(y)与受教育程度与受教育程度(x)之间的关系之间的关系相关关系的类型相关关系的类型相关关系相关关系非线性相关非线性相关线性相关线性相关正正相相关关正正相相关关负负相相关关负负相相关关完全相关完全相关不相关不相关相关关系的图示相关关系的图示相关系数相关系数对变量之间关系密切程度的度量对变量之间关系密切程度的度量对两个变量之间线性相关程度的度量称为简对两个变量之间线性相关程度的度量称为简单相关系数或积差相关系数。单相关系数或积差相关系数。

39、若相关系数是根据总体全部数据计算的,称若相关系数是根据总体全部数据计算的,称为总体相关系数,记为为总体相关系数,记为 若是根据样本数据计算的,则称为样本相关若是根据样本数据计算的,则称为样本相关系数,记为系数,记为 r简单相关系数简单相关系数(积差相关系数)(积差相关系数)样本相关系数的计算公式样本相关系数的计算公式22)()()(yyxxyyxxr2222yynxxnyxxynrnyynxxnyxxyLLLryyxxxy/2222相关系数取值及其意义相关系数取值及其意义 r 的取值范围是的取值范围是-1,1|r|=1,为完全相关,为完全相关r=1,为完全正相关,为完全正相关r=-1,为完全负

40、正相关,为完全负正相关 r=0,不存在线性相关,不存在线性相关-1 r 0,为负相关,为负相关 0 taa,拒绝,拒绝H0 若若ttaa,接受,接受H0若若IrI大于表上的大于表上的a a=5%相应的值,且小于表上相应的值,且小于表上a a1%相应的值,称变量相应的值,称变量x与与y之间有之间有显著的显著的线性关系线性关系若若IrI大于表上大于表上a a=1%相应的值,相应的值,称变量称变量x与与y之之间有间有十分(非常)显著的十分(非常)显著的线性关系线性关系若若IrI小于表上小于表上a a=5%相应的值,相应的值,称变量称变量x与与y之之间间没有明显的线性关系没有明显的线性关系相关系数的显

41、著性检验相关系数的显著性检验 相关系数的显著性检验(实例)相关系数的显著性检验(实例)以例以例8.1为例:对其相关系数进行检验为例:对其相关系数进行检验解:解:第一步:提出假设:第一步:提出假设:H0:0 0;H1:0第二步:计算检验统计量:第二步:计算检验统计量:624.3210)7883.0(107883.021022nrrt 相关系数的显著性检验(实例)相关系数的显著性检验(实例)第三步:确定显著性水平第三步:确定显著性水平a a,并作出决策,并作出决策负相关线性关系存在十分显著的跑成绩与跳远成绩之间,表明,因此本题,)(值表得,查m10001.0)8(t624.3t355.3)8(t3

42、06.28tt2/01.010.01/22/05.0P什么是回归分析?什么是回归分析?(内容)(内容)从一组样本数据出发,确定变量之间的数学关系式对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归分析与相关分析的区别回归分析与相关分析的区别相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析

43、中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制 回归模型的类型回归模型回归模型多元回归多元回归一元回归一元回归线性线性回归回归非线性非线性回归回归线性线性回归回归非线性非线性回归回归回归模型与回归方程回归模型回答“变量之间是什么样的关系?”方程中运用1 个数字的因变量(响应变量)被预测的变量1 个或多个数字的或分类的自变量(解释变量)用于预测的变量3.主要用于预测和估计一元线性回归模型(概念要点)当只涉及一个自变量时称为一元回归

44、,若因变量 y 与自变量 x 之间为线性关系时称为一元线性回归对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型一元线性回归模型(概念要点)对于只涉及一个自变量的简单线性回归模型可表示为 y=0 0 x 模型中,y 是 x 的线性函数(部分)加上误差项线性部分反映了由于 x 的变化而引起的 y 的变化误差项 是随机变量反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响是不能由 x 和 y 之间的线性关系所解释的变异性0 和 1 称为模型的参数一元线性回归模型(基本假定)误差项是一个期望值为0的随机变

45、量,即E()=0。对于一个给定的 x 值,y 的期望值为E(y)=0+1 x对于所有的 x 值,的方差2 都相同误差项是一个服从正态分布的随机变量,且相互独立。即N(0,2)独立性意味着对于一个特定的 x 值,它所对应的与其他 x 值所对应的不相关对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关回归方程(概念要点)描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程回归方程简单线性回归方程的形式如下 E(y)=0+1 x估计(经验)的回归方程01010101xy10参数 0 和 1 的最小二乘估计最小二乘法(概念要点)最小niiniieyyQ121210)

46、(),(01最小二乘法(图示)xy10最小二乘法(和 的计算公式)xyxxnyxyxnniniiiniiniiniii1011211111001估计方程的求法(实例)【例】【例】根据例10.1中的数据,配合人均消费金额对人均国民收入的回归方程 根据 和 的求解公式得2229.54526378.073077.98652638.061538.5735.1282777.160733231374575.1282799.9156173130102101估计(经验)方程 人均消费金额对人均国民收入的回归方程为020040060080010001200140005001000150020002500人均消费

47、与人均国民收入的回归人均消费与人均国民收入的回归估计方程的求法(Excel的输出结果)SUMMARY OUTPUTSUMMARY OUTPUT回归统计回归统计Multiple RMultiple R0.9987038210.998703821R SquareR Square0.9974093220.997409322Adjusted R SquareAdjusted R Square0.9971738060.997173806标准误差标准误差14.9496776614.94967766观测值观测值13 13CoefficientsCoefficients标准误差标准误差t Statt Stat

48、P-valueP-valueLower 95%Lower 95%Upper 95%Upper 95%InterceptIntercept54.2228639254.22286392 8.993978698.99397869 6.0287966.0287968.56501E-058.56501E-05 34.427240334.4272403 74.018487574.0184875X Variable 1X Variable 10.526377140.52637714 0.008088550.00808855 65.0768265.076821.39842E-151.39842E-15 0.5

49、08574350.50857435 0.544179930.5441799301niiyxxSnt1221)()2(aniiyxxxnSnt12220)()(1)2(a回归方程的显著性检验离差平方和的分解因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面由于自变量 x 的取值不同造成的除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示yy离差平方和的分解(图示)yxy10yyyyyy),(iiyx离差平方和的分解(三个平方和的关系)2.两端平方后求和有 yyyyyyniiniinii

50、yyyyyy121212离差平方和的分解(三个平方和的意义)总平方和总平方和(SST)反映因变量的 n 个观察值与其均值的总离差回归平方和回归平方和(SSR)反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和残差平方和残差平方和(SSE)反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和样本决定系数(判定系数 r2)回归平方和占总离差平方和的比例niiniiniiniiyyyyyyyySSTSSRr1212121221回归方程的显著性检验(线性关系的检验)检验自变量和因变量之间

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(体育统计学课件1-8章1214课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|