1、第十二章 调查资料的审核与整理 l资料的审核 l资料的整理 l统计表 第一节 资料的审核 资料的审核l资料的审核是资料处理的第一步工作。它是指研究者对所收集的原始资料(主要是问卷)进行初步的审阅,校正错填、误填的答案,剔出乱填、空白和严重缺答的废卷。其目的是使得原始资料具有较好的准确性、完整性和真实性,从而为后续资料整理录人与统计分析工作打下较好的基础。l资料的审核工作包含两方面的内容:一是检查出问卷资料中的问题;二是重新向被调查者核实。l资料的审核工作有两种不同的做法:边收集边审核 集中审核 第二节 资料的整理 一、资料整理资料整理是根据研究目的将经过审核的资料进行分类汇总,使资料更加条理化
2、和系统化,为进一步深入分析提供条件。二、定性资料的整理 l整理笔记与建立档案 l资料的编码 编码类型:开放式编码、轴心式编码 选择式编码 三、定量资料的整理 l资料的编码(见下表一)l资料的录入(见下表二)l数据清理 有效范围清理 逻辑一致性清理 l数据质量抽查 编码手册列问题号码变量名称内容说明1-6a1期刊年月编号91年6月第二个个案为9106027a2性别1.男 2.女8-9a3年龄如实填写10a4学历1.小学以下 2.中学3.高中 4.中专 5.大专 6.大学 7.硕士 8博士 9.其他11-13a5身高cm14-15a6职业1.工人 2.农民3.党政机关公务员 4.私营企业主 5.离
3、退休人员 6,教师医生7.公安,司法,军人 8.企业白领9专业技术人员 10其他16a7婚姻状况1.未婚 2离婚3.丧偶 4.其他表一择偶标准调查数据登录表表个案编号A1A2A3A4A5A6A71-678-91011-1314-1516052592100113551760310526921002224616504205279210031277177305289210041286167092.0529921005231815812105309210062247155101.06表二第三节 统计表 一、统计表的结构 l从外表形式上看,统计表由总标题、横行标题、纵栏标题、指标数值四部分组成。l总标题
4、是表的名称;横行标题在表的左端,它代表所说明的对象;纵栏标题在表的上方,它代表统计指标的名称。它们分别对横行或纵栏内的统计值作出说明。二、统计表的种类 l1.简单表某村历年人均收入某村历年人均收入 年份1977197819791980收入202840452.简单分组表 是总体仅按一个标志进行分组,即运用简单分组形成的表格。某村各户年人均收入统计表某村各户年人均收入统计表年人均收入村百分比()6080801201201605911203842合计20 3.复合分组表是总体按两个以上标志进行层叠分组的统计表,它又称为交互分类表,它能表现两个分组标志之间的关系。某村家庭规模和经济情况统计表某村家庭规
5、模和经济情况统计表 经济水平家庭规模大小合计高低30501201015060合计80130210第十三章 资料的统计分析 统计分析方法是一种定量分析。它是进行科学预测的重要方法。统计分析的特点:l(1)统计分析要以定性分析为基础;l(2)统计分析方法必须和其他分析结合运用;统计分析有一套专门的方法和技术。观观察察调调查查实实验验12 22 99 86 489如何使用各种统如何使用各种统计表与统计图来计表与统计图来描述一组数据的描述一组数据的分组与分布情况分组与分布情况如何通过一组数如何通过一组数据计算一些特征据计算一些特征数,简缩数据,数,简缩数据,进一步显示与描进一步显示与描述一组数据的全述
6、一组数据的全貌(集中情况、貌(集中情况、分散情况、分布分散情况、分布特征)特征)数据如数据如何分组何分组收集方法收集方法原始数据原始数据表达形式表达形式作作 用用分析过程(图示)主要内容主要内容l单变量描述统计 l单变量推论统计 l相关与回归分析 l双变量统计分析l多变量统计分析第一节、单变量描述统计 l由一种变量的全部分数或观察值组成由一种变量的全部分数或观察值组成的一组或一批数据称为一个分布。单的一组或一批数据称为一个分布。单变量数据的描述统计就是对其分布情变量数据的描述统计就是对其分布情况进行说明。单变量描述统计包括集况进行说明。单变量描述统计包括集中量数分析、离散量数分析。中量数分析、
7、离散量数分析。一.频数分布与频率分布 l频数分布(Frequency Distribution),就是指一组数据中取不同值的个案的次数分布情况,它一般以频数分布表的形式表达。l频率分布(percentages distribution),是一组数据中不同取值的频数相对于总数的比率分布情况.常以百分比的形式来表达.编制频数分布表,画出频数分布图编制频数分布表,画出频数分布图 某中学初三甲班某中学初三甲班60人期中英语考试分数人期中英语考试分数 82609393897285976877769856457776614660518943756989608074746785875587719174648
8、8578491606159637879889687895289857656545890案例案例某中学初三甲班某中学初三甲班6060人英语期中考试成绩人英语期中考试成绩累积频数(频率)分布表累积频数(频率)分布表 上上 限限 以以 下下 累累 积积 下下 限限 以以 上上 累累 积积 组组 别别 频频 数数f 频频 率率%频频 数数f 频频 率率%频频 数数f 频频 率率%90 100 8 13 66 100 8 13 80 90 16 27 52 87 24 40 70 80 13 22 36 60 37 62 60 70 11 10 23 38 48 8 50 60 9 15 12 20 5
9、7 95 40 50 3 5 3 5 60 100 合合 计计 60 100 二、集中量数分析 l集中量数就是代表数据分布集中趋势的量数。l集中量数分析指的是用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。l最常见的集中量数有算术平均数(简称平均数,也称为均值)、众数和中位数三种。中位数中位数(Md d)l中位数中位数(M Md d),又称中数,是频数分,又称中数,是频数分布上布上50%50%处的数值,即将观察总数一处的数值,即将观察总数一分为二的变量值。在这个值的两边各分为二的变量值。在这个值的两边各有相同个数的数据。当数据的个数为有相同个数的数据。当
10、数据的个数为偶数时,取分布偶数时,取分布50%50%(最中心)处的(最中心)处的两个数据的平均数作为中数。两个数据的平均数作为中数。中位数中位数(Md d)l中位数中位数(M Md d),又称中数,是频数分,又称中数,是频数分布上布上50%50%处的数值,即将观察总数一处的数值,即将观察总数一分为二的变量值。在这个值的两边各分为二的变量值。在这个值的两边各有相同个数的数据。当数据的个数为有相同个数的数据。当数据的个数为偶数时,取分布偶数时,取分布50%50%(最中心)处的(最中心)处的两个数据的平均数作为中数。两个数据的平均数作为中数。几何平均数几何平均数(MMg g)是是n n个数据的连乘积
11、开个数据的连乘积开n n次方的根。次方的根。常用作速率的集中量数,如学龄儿童人常用作速率的集中量数,如学龄儿童人数的增加率、学校经费的增加率、阅读数的增加率、学校经费的增加率、阅读能力的进步率等。能力的进步率等。Mg=xxxnn12算术平均数算术平均数l通常称平均数,又称均数或均值。英文为通常称平均数,又称均数或均值。英文为MeanMean,故以故以M M表示。如果是由变量表示。如果是由变量X X计算得来的就记为计算得来的就记为 (读(读X X杠),现在一般都杠),现在一般都 以表示样本的平均数,以表示样本的平均数,以以U U 表示总体的平均数。表示总体的平均数。l算术平均数就是各个变量值相加
12、求和再除以变量算术平均数就是各个变量值相加求和再除以变量的总次数的总次数。xXXXXXNn12 XNXX=算术平均数的计算方法算术平均数的计算方法l1 1、用原始数据计算平均数、用原始数据计算平均数 。当一组数据。当一组数据个数不多时,可直接用原始数据来计算。个数不多时,可直接用原始数据来计算。l如某实验小组如某实验小组1010人的实验成绩为人的实验成绩为1111,1313,1515,1616,1616,1616,1717,1818,1818,2020。其平。其平均数为:均数为:11 13 15201016010X=1616l2 2、用频数分布表求平均数、用频数分布表求平均数 。如果样本的。如
13、果样本的数据很多,达到数十个或数百个,则需编数据很多,达到数十个或数百个,则需编制频数分布表,用频数分布表求平均数。制频数分布表,用频数分布表求平均数。fXNcX=X Xc c 为各组的组中值,为各组的组中值,f f 为各组的频数,为各组的频数,N N 为总次数(为总次数()Xcff某中学初三甲班某中学初三甲班6060人英语期中考试成绩人英语期中考试成绩平均数、标准差计算表平均数、标准差计算表 组组 别别(1)组组 中中 值值Xc(2)频频 数数f(3)fXc(4)fXc2(5)90 100 94.5 8 756 71442 80 90 84.5 16 1352 114244 70 80 74
14、.5 13 968.5 72153.25 60 70 64.5 11 709.5 45762.75 50 60 54.5 9 490.5 26732.25 40 50 44.5 3 133.5 5940.75 合合 计计 60 4410 336275 4 4 1 06 0X=73.5 73.5 73.5 73.5 73.573.5中位术与平均数的比较(1)平均数要求计算所有的数值,而中位数只用到数值的相对位置,一般说来平均数利用了更多的信息,更全面和准确.(2)平均数容易受到极端值的影响,中位数则不会受到这种影响.平均数是一种比中位数更为稳定的量度,它随样本的变化比较少.(3)当资料是定序,定
15、类测量或者是有开口组的定居测量时,中位数能够拟补不足.三.离散量数分析 l离散(中)量数分析 指的是用一个特别的数值来反映一组数据相互之间的离散(中)程度.即各组数据相对于平均数的差异程度(离中程度)。差异程度小,平均数的代表性高;差异程度大,代表性低。l它与集中量数一起分别从两个不同的侧面描述和揭示一组数据的分布情况.共同反映出资料分布的全面特征,同时它还对现各集中量数的代表性做出补充说明.l常见的离散量数统计量有全距,标准差,异众比率,和四分位差.示例:某三个班各选5名同学参加测试.他们的成绩分别如下中文系:78,79,80,81.82 X=80数学系:65,72,80,88,95 X=8
16、0外语系:35,78,89,98,100 X=80 如果仅以集中量数来衡量,这三个队的水平一样高,但是很明显.这80分对中文系队的同学代表性最高,而对外语系的同学代表性最低.1.全距(R)l全距也叫极差,它是一组数据中,最大值与最小值之差.l它是表示数据分布离散程度最简单的方式,即一组数据中最大数与最小数差,故称两极差。R=Xmax-Xmin当数据较多时,应用频数分布表求全距。其方法为:最大组与最小组的组中值之差或最大组上限与最小组下限之差。R=Xcmax-XcminR=Umax-LminlR=98R=98(最大值)(最大值)43 43(最小值)(最小值)l =55=55 1.求全距求全距 步
17、步 骤骤l视数据资料的性质和数据多少而定。视数据资料的性质和数据多少而定。组数不宜太多,如太多不能明显表示组数不宜太多,如太多不能明显表示出分布的主要趋势。但也不宜太少,出分布的主要趋势。但也不宜太少,太少则把很多不同事实归于一组,其太少则把很多不同事实归于一组,其分配的主要特征将因此而被蒙蔽。分配的主要特征将因此而被蒙蔽。2.2.定定组组数数n 分组参考表分组参考表 n50 80100150200300500100020005000分组数9111214161822303956l组距就是每一组的间距,即每组组距就是每一组的间距,即每组所包含的单位。组距以所包含的单位。组距以“i i”表示。表示
18、。3、求求组组距距 全 距组 数R 1组距i=i=9.3 i5516i=i=本例组数为本例组数为6,组距,组距一般地,为计算方便,组距取一般地,为计算方便,组距取10为宜为宜 l组限是分组的界限,其底数为下限组限是分组的界限,其底数为下限(L L),其顶数为上限其顶数为上限(U U)。组限的写法有很多,。组限的写法有很多,有的用上下限表示,有的用组中值表示。如有的用上下限表示,有的用组中值表示。如以以“10”10”为组距,一般多用首尾相接,间隔为组距,一般多用首尾相接,间隔为为1010的形式表示。即的形式表示。即60706070,70807080,80908090。其中每组上限即为下一组的下限
19、,通常将组其中每组上限即为下一组的下限,通常将组下限包含在本组中,而不包含在上限所在的下限包含在本组中,而不包含在上限所在的组。因为分组的实际界限应是这一组的精确组。因为分组的实际界限应是这一组的精确界限,如界限,如“8090”8090”这一组的精确界限为这一组的精确界限为“79.589.4999”79.589.4999”。4.定组限定组限组中值组中值XC=精确下限精确下限L+组距i2如以如以10为组距,则为组距,则”8090”一组的组中值为:一组的组中值为:组中值组中值 =79.5+=84.5 Xc1 02 某中学初三甲班某中学初三甲班60人英语期中考试成绩频数分布表人英语期中考试成绩频数分
20、布表 组组 别别(1)组组 中中 值值Xc(2)划划 记记(3)频频 数数 f(4)9 0 1 0 0 9 4.5 8 8 0 9 0 8 4.5 1 6 7 0 8 0 7 4.5 1 3 6 0 7 0 6 4.5 11 5 0 6 0 5 4.5 9 4 0 5 0 4 4.5 3 合合 计计 6 0 2.标准差l标准差:一组数据对其平均数的偏差平方的算术平均数的平方根。一般以S(或 来表示)l式中S(样本统计值)为标准差,X为各学生的成绩分数,为学生成绩的平均数,x为各学生成绩分数的离差,n为学生(数据)数。XXn2xn2SXl例例1:某校三个系各选:某校三个系各选5名同学,参加智力竞
21、赛,他们名同学,参加智力竞赛,他们的成绩分别如下:的成绩分别如下:l中文系:中文系:78 79 80 81 82l数学系:数学系:65 72 80 88 95l英语系:英语系:35 78 89 98 100l平均成绩平均成绩 =80 l标准差:一组数据对其平均数的偏差平方的算术平均标准差:一组数据对其平均数的偏差平方的算术平均数的平方根。数的平方根。lS(中文系)(中文系)=1.414(分)(分)lS(数学系)(数学系)=10.8(分)(分)lS(英语系)(英语系)=23.8(分)(分)XXn2SX例2.l例:有某生三次数学考试的成绩分别为例:有某生三次数学考试的成绩分别为70、57、45,三
22、次考试的班平均为三次考试的班平均为70、55、42,标准差分别为,标准差分别为8、4、5。如何看待该生的三次考试成绩的地位。如何看待该生的三次考试成绩的地位?l(如果仅从原始分数看,肯定认为第一次最好,其如果仅从原始分数看,肯定认为第一次最好,其实不然,要计算出各次的标准分数,才能说明问实不然,要计算出各次的标准分数,才能说明问题。)题。)l Z1=(7070)/8=0 Z2=(5755)/4=0.5 Z3=(4542)/5=0.6 l这说明,原始分数为这说明,原始分数为70,其位置正在平均线上,而,其位置正在平均线上,而原始分数为原始分数为57的,其位置在平均线上的,其位置在平均线上0.5处
23、,而原始处,而原始分数为分数为45的,其位置在平均线上的,其位置在平均线上0.6处。处。3.异从比率 是指非众数的次数与总体内全部总体单位的比率。异众比率越小,众数的代表性越大。4.四分位差把一组数据按大小排列成序列,然后分成四个数据数目相等的段落,各段落分界点上的数,叫四分位数。(即每组占25)舍去资料中数值最高的25和最低的25,仅就中间50数据求其量数作为离中量数,就是四分位差。四分位差之间的间距越小,中位数的代表性越大。(1)对定序类资料计算四分位差。Q=Q3-Q1(2)对定距类资料计算四分位差。l使用说明使用说明:众数与异众比率配合;中位数与四分位差配合;平均数与标准差配合。四、相对
24、差异(离散或离中)量数 1.离散系数 离散系数是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数进行比较,或者对两个不同总体中的同一离散量数进行比较。离散系数的定义是:标准差与平均数的比值,用百分比表示。CV=S/XCV=100 100 CV=100100 SXl例例1:一项调查得到下列结果,某市人均平均收入为:一项调查得到下列结果,某市人均平均收入为92元,元,标准差为标准差为17元,人均住房面积元,人均住房面积7.5平方米,标准差为平方米,标准差为1.8平方平方米。试比较该市人均收入和人均住房情况哪一个差异程度比米。试比较该市人均收入和人均住房情况哪一个差异程度比较大
25、。较大。l解解人均收入的离散系数为人均收入的离散系数为lCV=S/100%=18.5%l人均住房面积的离散系数为lCV=1.8/7.5 100%=24%l例2:对广州和武汉两地居民生活质量调查发现,广州居民平均收入为680元,标准差为120元;武汉居民平均收入为360元,标准差为80元。问广州居民相互之间的差异程度,与武汉居民相互之间在收入上的差异程度哪一个更大一些?l解广州居民收入的离散系数为CV=120/680 100%=17.6%l武汉居民收入的离散系数为CV=80/360 100%=22.2%X五、标准分数 l是用来描述变量分布中某一分数在整个分是用来描述变量分布中某一分数在整个分布中
26、所处的位置,它是以标准差为单位的布中所处的位置,它是以标准差为单位的相对量数。其计算公式为:相对量数。其计算公式为:l z z =l从公式可以得知标准分数是一个分数与其从公式可以得知标准分数是一个分数与其平均数之差除以标准差所得的商。平均数平均数之差除以标准差所得的商。平均数以上各点的分数为正值,平均数以下各点以上各点的分数为正值,平均数以下各点的分数为负值,平均数的分数为零。的分数为负值,平均数的分数为零。XXSxSl例如:某班语文平均考试成绩为例如:某班语文平均考试成绩为7575分,标准分,标准差为差为8.58.5分。甲生得分。甲生得9292分,乙生得分,乙生得7070分,问分,问甲乙二生
27、的分数各为多少?甲乙二生的分数各为多少?lZ甲=Z乙=927585.=2707585.=-.59据正态分布理论可知的取值范围在据正态分布理论可知的取值范围在-3-3到到+3+3之间。为了使标准分数变成正值并减少小之间。为了使标准分数变成正值并减少小数位数,以便于比较,我们可将标准分数数位数,以便于比较,我们可将标准分数进一步经线性转换成标准分数。其计算公进一步经线性转换成标准分数。其计算公式为:式为:T T=10Z+50=10Z+50 Z Z ZTTZl 目前,我国各类学校招考新生和对学生进行学习目前,我国各类学校招考新生和对学生进行学习成绩考查评定的主要手段是考试。而对考试成绩的评成绩考查评
28、定的主要手段是考试。而对考试成绩的评分一般是用百分制来表示,并用各科成绩相加按总分分一般是用百分制来表示,并用各科成绩相加按总分来决定被试者的优劣取舍。这种做法开来似乎公平,来决定被试者的优劣取舍。这种做法开来似乎公平,实际上很不合理。因为各科试题的难易程度不同,造实际上很不合理。因为各科试题的难易程度不同,造成评分标准的宽严不一,因此各科考试成绩的统计量成评分标准的宽严不一,因此各科考试成绩的统计量数,数,如平均数、标准差也不相等。我们不能说语文的如平均数、标准差也不相等。我们不能说语文的考分考分8080分等价于数学的考分的分等价于数学的考分的8080分,也不能说英语考分,也不能说英语考分分
29、7575分等价于物理的考分分等价于物理的考分7575分,分,在这种情况下,把考在这种情况下,把考生的各科考分等量齐观地相加起来,凭个考生的总分生的各科考分等量齐观地相加起来,凭个考生的总分来决定优劣取舍,显然是十分不合理的。科学的方法,来决定优劣取舍,显然是十分不合理的。科学的方法,就是把考生是各科分数,经过一个标准化的转化过程,就是把考生是各科分数,经过一个标准化的转化过程,把每个考生的各科分数变成标准分数,然后再进行相把每个考生的各科分数变成标准分数,然后再进行相加和比较。加和比较。甲乙两位考生七科分数的标准化表甲乙两位考生七科分数的标准化表 科科 目目 原原始始 分分数数 总总体体 参参
30、数数 标标准准 分分数数 甲甲 乙乙 Z甲 Z乙 T甲 T乙 政政 治治 81 71 61.93 11.27 1.692.805 66.92 58.05 语语 文文 58 66 53.13 12.50.390 1.030 53.90 60.30 数数 学学 60 65 57.45 19.98.128.378 51.28 53.78 物物 理理 61 75 52.08 16.14.553 1.420 55.53 64.20 化化 学学 75 79 48.84 15.63 1.694 1.930 66.94 69.30 生生 物物 21 21 18.13 5.35.536.536 55.36 55
31、.36 外外 语语 51 29 33.81 17.69.977-.273 59.77 47.27 总总 分分 382 392 5.95 5.826 409.7 408.26 练习l1.根据各小组调查的问卷,先进行数据清理根据各小组调查的问卷,先进行数据清理工作,然后对某些问题进行单变量的统计工作,然后对某些问题进行单变量的统计描述,绘制频数分布表。描述,绘制频数分布表。l2.在一个社区诊所,在一个社区诊所,10天内来排队看病的天内来排队看病的人数分别是人数分别是52,68,39,47,57,32,75,25,31和和93,求算术平均数和中位数,以,求算术平均数和中位数,以及标准差及标准差 第二
32、节 单变量统计推论 l 统计推断,是指根据样本所提供的详细,运用概率的理论进行分析、论证,在一定的可靠程度上,对总体分布的特征进行估计、推测。l 具体内容包括:l (一)总体参数的估计l (二)假设检验一、区间估计 l以样本统计量的抽样分布为理论依据,按一定概率要求,由样本统计量的值来估计总体参数的值所在的范围,叫做总体参数的区间估计。1、平均数抽样分布与总体均数的区间估计、平均数抽样分布与总体均数的区间估计 l从正态分布中随机抽取容量为的一切可能样本从正态分布中随机抽取容量为的一切可能样本的平均数抽样分布是以总体平均数为中心的正的平均数抽样分布是以总体平均数为中心的正态分布。当总体标准差已知
33、时,一切可能样本态分布。当总体标准差已知时,一切可能样本平均数与总体平均数的离差统计量呈标准正态平均数与总体平均数的离差统计量呈标准正态分布。分布。l区间估计区间估计:区间估计的实质就是在一定的可信:区间估计的实质就是在一定的可信度(置信度)下,用样本统计值的某个范围度(置信度)下,用样本统计值的某个范围(置信区间)来估价总体的参数值。范围的大(置信区间)来估价总体的参数值。范围的大小反映的是这种估计的精确性问题,而可信度小反映的是这种估计的精确性问题,而可信度高低反映的则是这种估计的可靠性或把握性的高低反映的则是这种估计的可靠性或把握性的问题。问题。l ZXSEXnX其中,其中,表示样本平均
34、数的标准分数,表示样本平均数的标准分数,表示样本平均数,表示样本平均数,表示总体平表示总体平均数,均数,表示平均数标准误。表示平均数标准误。ZXSEX此时若以样本平均数对总体平均数进行估计,要求达到此时若以样本平均数对总体平均数进行估计,要求达到95%的可靠程度,则令样本平均数与总体平均数离差统计量的可靠程度,则令样本平均数与总体平均数离差统计量Z在在-1.96 与与+1.96 之间变动,因为在标准正态分布上之间变动,因为在标准正态分布上-1.96 与与+1.96之间的面积为之间的面积为 0.95,占总体面积的,占总体面积的 95%。P(-1.96 XSEX 1.96)=.95 经移项后得经移
35、项后得 P(XSEX196.1.96=6.671.96l所以拒绝虚无假设,接受研究假设,即从总体所以拒绝虚无假设,接受研究假设,即从总体上来说,该单位职工月平均收入与上月相比有上来说,该单位职工月平均收入与上月相比有变化。变化。XDSEXz0Z 检验检验 lZ检验是用正态分布的理论差异发生的概率检验是用正态分布的理论差异发生的概率(误差发生的概率),从而比较两个平均(误差发生的概率),从而比较两个平均数(样本平均数与总体平均数或两个样本数(样本平均数与总体平均数或两个样本平均数)的差异是否显著。平均数)的差异是否显著。Z检验适用于大检验适用于大样本(样本(n30)lZ检验可分为单总体检验和双总
36、体检验。检验可分为单总体检验和双总体检验。单总体的检验单总体的检验 单单 总总 体体 的的Z检检 验验 是是 检检 验验 一一 个个 样样 本本 平平 均均 数数 与与 一一 个个 已已 知知的的 总总 体体 平平 均均 数数 的的 差差 异异 是是 否否 显显 著著。其其 检检 验验 统统 计计 量量 的的 计计 算算 公公式式 为为:ZXS EX 公公 式式 中中:Z为为 检检 验验 的的 样样 本本 平平 均均 数数 与与 已已 知知 总总 体体 平平 均均 数数的的 标标 准准 离离 差差 分分 数数,X为为 检检 验验 的的 样样 本本 平平 均均 数数,为为 已已 知知 总总体体
37、平平 均均 数数,为为 已已 知知 的的 总总 体体 标标 准准 差差,n为为 样样 本本 容容 量量,S EX为为 样样 本本 平平 均均 数数 的的 标标 准准 误误(当当 总总 体体 标标 准准 差差已已 知知 时时,S EnX,当当 总总 体体 标标 准准 差差未未 知知 时时,S ESnX)t 检验检验 l单总体的检验单总体的检验 l 单总体的检验是检验一个样本平均单总体的检验是检验一个样本平均数与一已知的总体平均数的差异是否显数与一已知的总体平均数的差异是否显著。其检验统计量的计算公式为:著。其检验统计量的计算公式为:l 式中式中t 为检验的样本平均数与已知总为检验的样本平均数与已
38、知总体平均数的标准离差分数,体平均数的标准离差分数,df 为为t 分布分布的自由度。的自由度。tXSEDX0dfn1例如:某校初中三年级学生期中英语考试成绩平均数为例如:某校初中三年级学生期中英语考试成绩平均数为7373分,标准差为分,标准差为1717分。期终考分。期终考试后,从该年级学生中随机抽取试后,从该年级学生中随机抽取2020人的英语成绩,其平均数为人的英语成绩,其平均数为79.479.4分,问该年级学生分,问该年级学生的英语成绩是否真有进步?的英语成绩是否真有进步?检检 验验 步步 骤骤:1 1、建建 立立 假假 设设H0:X 0,即即 假假 设设X与与0的的 差差 异异 是是 由由
39、 抽抽 样样 误误 差差造造 成成 的的。2 2、以以.0 0 5 5 为为 差差 异异 的的 显显 著著 性性 水水 平平。3 3、计计 算算t值值:已已 知知073,X 79 4.,17,n 20,将将 其其 代代入入 公公 式式 9 9-4 4 2 2,得得:t 79 47317201 68.4 4、判判 断断 结结 果果:查查t值值 表表,df 20119,.0 0 5 5 显显 著著 水水 平平 的的 理理 论论 临临界界 值值t19052 093.。而而 本本 例例t值值 1 1.6 6 8 8 .0 05 5,即即差差 异异 不不 显显 著著。所所 以以 接接 受受 假假 设设,
40、该该 年年 级级 学学 生生 英英 语语 成成 绩绩 没没 有有 显显 著著 进进 步步。第三节 相关与回归分析 l对两变量间关系进行描述,最常用的是相关量。相关就是指二列变量之间的相互关系。如身高和体重、学习成绩与思想品德等的相互关系。l类型:单相关、一元回归与多元相关、多元回归;回归又分为线性与非线性回归。l 一种是两列变量的变动方向相同,即一种变一种是两列变量的变动方向相同,即一种变量变动时,另一种变量也发生或大或小的相同方量变动时,另一种变量也发生或大或小的相同方向的变动,如身高与体重的关系,一般来说,身向的变动,如身高与体重的关系,一般来说,身高越高,体重越重,这叫正相关;高越高,体
41、重越重,这叫正相关;l 另一种相关情况是当一种变量变动时另一种另一种相关情况是当一种变量变动时另一种变量是或大或小地向相反方向变动,如身体健康变量是或大或小地向相反方向变动,如身体健康状况与患病率的关系,身体越好,患病率越小,状况与患病率的关系,身体越好,患病率越小,这叫负相关。这叫负相关。l 第三种是零相关,即两列变量变化方向无一第三种是零相关,即两列变量变化方向无一定规律,一个变量变动时,另一变量的变动方向定规律,一个变量变动时,另一变量的变动方向可能与其相同,也可能与其相反,且相同与相反可能与其相同,也可能与其相反,且相同与相反的机会趋于相等,如人的相貌与其思想品德之间的机会趋于相等,如
42、人的相貌与其思想品德之间是毫无关系的零相关。是毫无关系的零相关。第三节 相关与回归分析l相关系数l回归分析及测定方法一、相关系数一、相关系数l相关系数是用来表示相关程度的量的指标,用相关系数是用来表示相关程度的量的指标,用r表表示。其数值范围在示。其数值范围在-1-1至至+1+1之间,之间,l r的正负号表示变化的方向,的正负号表示变化的方向,l 正号表示变化的方向相同,是正相关;正号表示变化的方向相同,是正相关;l 负号表示变化的方向相反,是负相关。负号表示变化的方向相反,是负相关。l r的绝对值表示两变量之间的密切程度(强度),的绝对值表示两变量之间的密切程度(强度),l 绝对值越接近绝对
43、值越接近1 1,表示两变量之间的关系越密切;,表示两变量之间的关系越密切;l 越接近越接近0 0,表示两变量之间的关系越不密切,表示两变量之间的关系越不密切。l如如r=1=1表示完全正相关;表示完全正相关;r=-1=-1表示完全负相关;表示完全负相关;r=0=0表示零相关。表示零相关。l计算相关系数时,要求二列变量必须成对,而计算相关系数时,要求二列变量必须成对,而且变量的性质不同亦应计算不同的相关系数,且变量的性质不同亦应计算不同的相关系数,即不同的相关系数适用于不同的变量类型。即不同的相关系数适用于不同的变量类型。l如皮尔逊积差相关系数适用于两列等距变量;如皮尔逊积差相关系数适用于两列等距
44、变量;l斯皮尔曼等级相关系数适用于两列等级变量;斯皮尔曼等级相关系数适用于两列等级变量;l点二列相关系数适用于反映一等距变量与另点二列相关系数适用于反映一等距变量与另一真正二分变量间相关程度;一真正二分变量间相关程度;l二列相关系数适用于反映一等距变量与另一二列相关系数适用于反映一等距变量与另一人为二分变量间相关程度,人为二分变量间相关程度,积差相关系数积差相关系数 l式中:式中:,n n为为成对变量的数目,成对变量的数目,S SX X为为X X变量的标变量的标准差,准差,S SY Y为为Y Y变量的标准差。变量的标准差。rx yn SSXYxXXyYYl若用原始分数直接求若用原始分数直接求r
45、,其计算公式,其计算公式为:为:rnXYXYnXXnYY 2222rZZnXY若用标准分数计算若用标准分数计算r,其公式为:,其公式为:r5名大学生身高提高相关系数计算表名大学生身高提高相关系数计算表学学生生 身身高高X 体体重重 Y x y xy x2 y2 A 183 76 7 5 35 49 25 B 176 72 0 1 0 0 1 C 168 63-8-8 64 64 64 D 179 74 3 3 9 9 9 E 174 70-2 1 2 4 1 -110 126 100 rxynSSXY11055 024 4798.SX502.SY447.l 不同层次变量的相关测量与检验不同层次
46、变量的相关测量与检验l1.定类变量与定类变量定类变量与定类变量l消减误差比例,指的就是知道消减误差比例,指的就是知道X的值时所减少的误差的值时所减少的误差(E1-E2)与总误差的比。)与总误差的比。l2.定序变量与定序变量定序变量与定序变量l3.定类变量(或定序变量)与定距变量定类变量(或定序变量)与定距变量l4.定距变量和定距变量定距变量和定距变量两变量层次相关系数取值范围是否对称有无消减误差的比例意义检验方法SPSS有无该系数定类-定类定类-定序 0,1对称有x2有定序-定序G-1,1对称有Z有定类-定距定序-定距EE2 0,1不对称无有F有定距-定距rr2-1,10,1对称无有F(t检验
47、)有二、回归分析及测定方法 l 相关系数是一种广泛使用的描述统计量,用以描述两个相关系数是一种广泛使用的描述统计量,用以描述两个变量间的关系,除此以外,它还具有预测功能,即根据一个变量间的关系,除此以外,它还具有预测功能,即根据一个变量的情况去预测另一个变量。变量的情况去预测另一个变量。l 如果我们把存在相关的两个变量中的一个作为自变量如果我们把存在相关的两个变量中的一个作为自变量(预测变量),另一个作为因变量(标准变量),并且把两(预测变量),另一个作为因变量(标准变量),并且把两者之间并不十分准确、稳定的关系用数学方程式表达出来,者之间并不十分准确、稳定的关系用数学方程式表达出来,则可以利
48、用该方程自变量来估计预测因变量的估计值。这一则可以利用该方程自变量来估计预测因变量的估计值。这一过程称为回归分析。过程称为回归分析。l 相关分析的目的在于了解两个变量间的关系强度,即用相关分析的目的在于了解两个变量间的关系强度,即用相关系数来描述相关系数来描述X X和和Y Y两个变量之间的共变特征。回归分析则两个变量之间的共变特征。回归分析则是对相关关系的现象,根据其关系的形态找出一个合适的数是对相关关系的现象,根据其关系的形态找出一个合适的数学模型,即建立回归方程,来近似地表达变量间的平均变化学模型,即建立回归方程,来近似地表达变量间的平均变化关系,以便依据回归方程对未知的情况进行估计和预测
49、。建关系,以便依据回归方程对未知的情况进行估计和预测。建立回归方程的基础是最小二乘法。立回归方程的基础是最小二乘法。l l两个变量(预测变量X与标准变量Y)间的回归分析,是只有一个自变量的线性回归,也叫一元线性回归。其回归方程为:Yab X其中其中a,ba,b、对一对特定数据来说是常数:、对一对特定数据来说是常数:abbrSSYXaYb X第四节第四节 双变量统计分析双变量统计分析l例:以前例数据计算由(身高)预测例:以前例数据计算由(身高)预测(体重)的回归方程。(体重)的回归方程。X 176Y 71SX 502.SY 4 47.r.98有了这一回归方程后,我们就可以由预测变量的值有了这一回
50、归方程后,我们就可以由预测变量的值经回归方程计算出标准变量的预测值。如另一名大学生经回归方程计算出标准变量的预测值。如另一名大学生的身高为的身高为170170厘米,则其体重的预测值为厘米,则其体重的预测值为65.7865.78公斤。公斤。b.9 844 750 28 7a71 87 1768212.YX 82 1287.第五节第五节 多变量统计分析多变量统计分析l一、阐释模式(一、阐释模式(elaboration)l所关心的是两个变量之间的关系,它是通过引进所关心的是两个变量之间的关系,它是通过引进并控制第三变量,来进一步了解和探讨原来两个并控制第三变量,来进一步了解和探讨原来两个变量之间关系