1、第十一章 定量资料分析第一节 资料的整理与录入第二节 单变量统计分析第三节 双变量统计分析第四节多变量统计分析第一节 资料整理的整理与录入l一、资料的审核l指研究者对所收集到的原始资料进行初步的审阅,校正错误、剔出乱填、空白和严重缺答的废卷。目的是使原始资料具有较高的准确性、完整性和真实性,为数据录入和分析打下基础。l在资料审核中,如发现问题,可以分别不同情况予以处理:l(1)调查中已发现并经认真核实后确认的错误,可由调查者代为更正。l(2)资料中的可疑之处或明确有错误与出入的地方,应设法进行补充调查。l(3)无法进行或无需进行补充调查的情况下,剔除那些明显错误的或无把握的资料,保证真实性和准
2、确性。l资料审核的方法主要有两种,即逻辑审核与计算审核。l逻辑审核,即核查资料的内容是否合乎逻辑和常识,项目之间有无互相矛盾之处,与其他有关资料进行对照是否有明显出入等等。l计算审核,是针对数字资料进行的审查。要检查计算有无错误。度量单位有没有错,前后数字之间有无相互矛盾之处等等。数据的审核(原始数据)l 审核的内容审核的内容1.完整性审核 检查应调查的单位或个体是否有遗漏 所有的调查项目或指标是否填写齐全2. 准确性审核 检查数据是否真实反映客观实际情况,内容是否符合实际 检查数据是否有错误,计算是否正确等数据的审核(原始数据)l 审核数据准确性的方法审核数据准确性的方法1.逻辑检查 从定性
3、角度,审核数据是否符合逻辑,内容是否合理,各项目或数字之间有无相互矛盾的现象 主要用于对定类数据和定序数据的审核2. 计算检查 检查调查表中的各项数据在计算结果和计算方法上有无错误 主要用于对定距和定比数据的审核数据的审核(第二手数据)1. 适用性审核 弄清楚数据的来源、数据的口径以及有关的背景材料 确定这些数据是否符合自己分析研究的需要2. 时效性审核 应尽可能使用最新的统计数据3. 确认是否必要做进一步的加工整理数据的筛选1.对审核过程中发现的错误应尽可能予以纠正2.当发现数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选3.数据筛选的内容包括:将某些
4、不符合要求的数据或有明显错误的数据予以剔除将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔出l 资料审核的方式:l 实地审核:收集资料的过程中进行的审核,即边收集边审核。一旦发现填答错误,或漏填误填,或其他可疑现象,就及时进行询问核实。其优点是及时、效果好;困难在于资料收集时组织安排特别周密,调查员个人处理能力较强。l 系统审核(集中审核):先将资料全部收回,然后集中时间进行审核。其优点是便于统一安排和管理,检查标准统一。但整个周期拉长,且有些核实工作往往那个难以落实。l二、资料转换l将被调查者对问卷中问题的回答转换成供计算机识别和统计的数字 。l三、数据录入l数据录入的方式主要
5、有两种:一是直接从问卷上将编好码的数据输入计算机;另一种是先将问卷上编好码的数据转录到专门的登录表上,然后再从登录表上将数据输入计算机。l四、数据清理l1 有效范围清理l问卷中任何一个变量的编码值都有一定的范围,当数据中数字超出这一范围时,肯定是错误的。l2 逻辑一致性清理l依据问卷中问题相互之间存在的某种内在的逻辑联系,检查前后数据之间的合理性。l3 数据质量抽查统计分析概述l 统计分析就是运用统计学的方法对调查得到的数据资料进行定量分析,以揭示事物内在的数量关系、规律和发展的一种资料分析方法。其主要作用:l 1 为研究提供一种清晰准确的形式化语言,对资料进行简化和描述。l 如对人们在一胎化
6、政策实行前的行为进行研究,可以发现生育行为受文化程度的影响。从总体上看,文化程度高的妇女其子女数量少于文化程度低的妇女。用定性分析的方法只能得出这样一个概略的认识。采用定量方法进行分析就可以将这种关系提炼成一个数学方程式:Y=4.380.16X。Y代表任何一个妇女生育子女的数量,X代表文化程度。从这个方程中可以看出,每提高一组文化程度,就可以少生0.16个孩子。2 统计分析时进行科学预测、探索未来的重要方法统计分析可以使人发现直觉所不能悟察到的规律,进行科学的预测。3 对变量关系进行深入分析,通过样本推论总体统计分析提供参数估计、假设检验等手段将样本推论到总体的方法。 l 统计分析的特点l 1
7、 统计分析要以定性分析为基础l 首先,统计分析是根据数据资料进行的,但这些数据本身不是抽象的数字而是反映了事物属性的统计指标。定性分析要为定量分析规定方向,划分范畴。l 其次,统计分析是依据一定公式计算的,公式的选择依赖于一定的理论知识、专业知识和必要的经验。l 事实上在定量分析之前已经通过定性分析,从理论和经验上判明了事物之间的联系,决定了要采用的公式。l2 统计分析方法必须和其他分析方法结合运用l数量关系只是客观事物存在的诸种关系中的一种,而不是全部。统计分析方法不是万能的,它有自身独特的长处。也有无法克服的局限性,它不能代替其他分析方法。l其次,统计分析方法能够帮助发现社会现象中不易察觉
8、的规律,但对规律的揭示要借助于有关学科的理论。l3 统计分析有一套专门的方法和技术l统计学是对社会现象作定量研究和分析的科学武器;计算机技术是进行统计研究的技术工具;统计分析的数字成果是运用数字模型来描述、解释、预测社会现象。第二节 单变量统计分析主要分为两个大的方面,即描述统计和推论主要分为两个大的方面,即描述统计和推论统计。统计。l描述统计描述统计的主要目的在于用最简单的概括的主要目的在于用最简单的概括形式反映出大量数据资料所容纳的基本信形式反映出大量数据资料所容纳的基本信息。包括息。包括集中趋势分析集中趋势分析、离散趋势分析离散趋势分析等。等。l推论统计推论统计的主要目的,是从样本中所得
9、到的主要目的,是从样本中所得到的数据资料来的数据资料来推断总体推断总体的情况,它主要包的情况,它主要包括括区间估计区间估计和和假设检验假设检验等。等。描述统计1. 1. 内容内容 搜集数据 整理数据 展示数据2. 目的目的 描述数据特征 找出数据的基本规律推断统计1. 内容内容参数估计假设检验2. 目的目的对总体特征作出推断描述统计与推断统计的关系l一、单变量描述统计一、单变量描述统计l1 1 集中趋势分析集中趋势分析l集中趋势分析指的是集中趋势分析指的是用一个典型值用一个典型值来来反映一组数据的反映一组数据的一般水平一般水平,或者是反,或者是反映这组数据向这个典型值集中的情况。映这组数据向这
10、个典型值集中的情况。l这样一个典型值就被称为集中统计量。这样一个典型值就被称为集中统计量。l 按照处理方式不同集中统量可分为几类,按照处理方式不同集中统量可分为几类,两最常见的集中趋势有两最常见的集中趋势有算术平均值算术平均值、众数众数和中位数和中位数三种。用得最多的是平均数。三种。用得最多的是平均数。l1 1 定类层次:众值(众数定类层次:众值(众数) )l其意义为,在众多数值中,出现次数最多其意义为,在众多数值中,出现次数最多的一个数值。的一个数值。l(1 1)原始资料,求众值)原始资料,求众值l例如:例如:2 2,3 3,5 5,5 5,5 5,6 6,6 6,7 7,8 8l出现次数最
11、多的是出现次数最多的是5 5,其,其M M0=50=5l(2)次数资料,求众值l例如:江村女青年找对象的标准标准相貌人品文化健康职业能力经济条件政治条件家庭背景感情人数55122 5110413291613682其次数最多的为人品其次数最多的为人品122122人次,所以人次,所以M0=M0=人品人品l(3)分组的频数表中,频数最大的区间的组中值就是众值区间组中值频数75-7977170-7472365-6967560-64621055-5957450-54522表中频数最大的为表中频数最大的为1010,对应的区间是对应的区间是60-6460-64,其组中值是其组中值是6262,所以众,所以众值
12、值=62=62。 如果在一个次数中出现如果在一个次数中出现两个邻近的次数较多者,两个邻近的次数较多者,众数是二次数多的组中众数是二次数多的组中值的平均值值的平均值l2 定序层次:中位值(中位数)(单选)l其意义为按大小顺序排列,处在一群数据中央位置的数值。l(1)原始资料,求中位值l例如:有9个人,他们的月工资分别如下:l47,42,50,51,92,112,71,83,108l首先作排列处理,从小到大排列l42,47,50,51,71,83,92,108,112l其次求中央位置lMd的位置=(N+1)2=(9+1)2=5l最后求中位置Md=71(3 3)定距层次:算术平均数)定距层次:算术平
13、均数l 通常称平均数,又称均数或均值。英文为通常称平均数,又称均数或均值。英文为MeanMean,故以故以MM表示。如果是由变量表示。如果是由变量X X计算得来的就记为计算得来的就记为 (读(读X X杠),现在一般都以杠),现在一般都以 表示样本的平均数,表示样本的平均数,以以U U 表示总体的平均数。表示总体的平均数。l 算术平均数就是各个变量值相加求和再除以变量算术平均数就是各个变量值相加求和再除以变量的总次数。的总次数。xXXXXXNn12 XNXX= = =算术平均数的计算方法算术平均数的计算方法l1 1、用原始数据计算平均数、用原始数据计算平均数 。当一组数据。当一组数据个数不多时,
14、可直接用原始数据来计算。个数不多时,可直接用原始数据来计算。l如某实验小组如某实验小组1010人的实验成绩为人的实验成绩为11 11,1313,1515,1616,1616,1616,1717,1818,1818,2020。其平。其平均数为:均数为: 11 13 15201016010X= = = =1616l2 2、用频数分布表求平均数、用频数分布表求平均数 。如果样本的。如果样本的数据很多,达到数十个或数百个,则需编数据很多,达到数十个或数百个,则需编制频数分布表,用频数分布表求平均数。制频数分布表,用频数分布表求平均数。 fXNcX= =X Xc c 为各组的组中值,为各组的组中值,f
15、f 为各组的频数,为各组的频数,N N 为总次数(为总次数( ) Xcffl例 调查某企业100名职工的收入,得到表中资料,计算他们的平均收入。收入(元)职工数(人)组中值xf100-199101501500200-299102502500300-3994035014000400-499204509000500-5992055011000合计10038000平均收入=xf/n=38000/100=380(元)2.离散量数分析 l离散趋势指的是测量值围绕中心值比如平均值的分布。极差就是个简单例子。如我们可以报告说平均年龄是37.9,范围是从12到89岁。l离散(中)量数分析 指的是用一个特别的数
16、值来反映一组数据相互之间的离散(中)程度.即各组数据相对于平均数的差异程度(离中程度)。差异程度小,平均数的代表性高;差异程度大,代表性低。l 它与集中量数一起分别从两个不同的侧面描述和揭示一组数据的分布情况。共同反映出资料分布的全面特征,同时它还对现各集中量数的代表性做出补充说明。 示例:某三个班各选5名同学参加测试.他们的成绩分别如下中文系:78, 79, 80, 81. 82 X = 80数学系:65, 72, 80, 88, 95 X = 80外语系:35, 78, 89, 98, 100 X = 80 如果仅以集中量数来衡量,这三个队的水平一样高,但是很明显.这80分对中文系队的同学
17、代表性最高,而对外语系的同学代表性最低. l离散程度表示一组数值的差异情况,测量的是分配的离中趋势。反映数据对于集中趋势的偏离程度的量称为离散程度统计量。l常见的离散量数统计量有全距,标准差,异众比率,和四分位差。全距(R)l 全距也叫极差,它是一组数据中,最大值与最小值之差. l 它是表示数据分布离散程度最简单的方式,即一组数据中最大数与最小数差,故称两极差。R=Xmax-Xmin当数据较多时,应用频数分布表求全距。其方法为:最大组与最小组的组中值之差或最大组上限与最小组下限之差。R=Xcmax-XcminR=Umax-Lmin标准差对于定距定比变量,可以采用标准差的测量法l 标准差:一组数
18、据对其平均数的偏差平方的算术平均数的平方根。一般以S(或 来表示 )l 式中S(样本统计值)为标准差,X为各学生的成绩分数, 为学生成绩的平均数,x为各学生成绩分数的离差,n为学生(数据)数。 XXn2xn2SXl 例:某校三个系各选例:某校三个系各选5 5名同学,参加智力竞赛,他们的名同学,参加智力竞赛,他们的成绩分别如下:成绩分别如下:l 中文系:中文系:78 79 80 81 8278 79 80 81 82l 数学系:数学系:65 72 80 88 9565 72 80 88 95l 英语系:英语系:35 78 89 98 10035 78 89 98 100l 平均成绩平均成绩 =8
19、0=80 l 标准差:一组数据对其平均数的偏差平方的算术平均标准差:一组数据对其平均数的偏差平方的算术平均数的平方根。数的平方根。l S S(中文系)(中文系)=1.414=1.414(分)(分)l S S(数学系)(数学系)=10.8=10.8(分)(分)l S S(英语系)(英语系)=23.8=23.8(分)(分)XXn2SXl l 由10个家庭每个月比前两年增加开支的情况是:85,63,50,46,37,34,28,25,22,20。l (1)先计算10个家庭平均每月开支多少?用集中趋势表示X/n=41元l (2)对这10个家庭讲,对这个平均值(41元)的偏差程度如何?往往用标准差表示。
20、l S19.5l 这表示,这10个人家,每个月增长消费支出的标准差是19.5。l 假如有另10户人家,其标准差是7.8,在这种情况下,说明前10户人家支出的分布比较分散,用的多得很多,用得少的人家则十分节俭。而后10户人家则指出比较平均。因此,标准差越大,表示分布越分散;而标准差越小,表示分布越集中。相对差异(离散或离中)量数 1.离散系数 离散系数是一种相对的离散量数统计量,它使我们能够对同一总体中的两种不同的离散量数进行比较,或者对两个不同总体中的同一离散量数进行比较。 离散系数的定义是:标准差与平均数的比值,用百分比表示。 CV= 100% (CV为离散系数)SXl 例例1 1:一项调查
21、得到下列结果,某市人均平均收入为:一项调查得到下列结果,某市人均平均收入为9292元,元,标准差为标准差为1717元,人均住房面积元,人均住房面积7.57.5平方米,标准差为平方米,标准差为1.81.8平方平方米。试比较该市人均收入和人均住房情况哪一个差异程度比米。试比较该市人均收入和人均住房情况哪一个差异程度比较大。较大。l 解解 人均收入的离散系数为人均收入的离散系数为l CV=S/ 100%=18.5%l 人均住房面积的离散系数为l CV=1.8/7.5 100%=24%l 例2:对广州和武汉两地居民生活质量调查发现,广州居民平均收入为680元,标准差为120元;武汉居民平均收入为360
22、元,标准差为80元。问广州居民相互之间的差异程度,与武汉居民相互之间在收入上的差异程度哪一个更大一些?(应用题)l 解广州居民收入的离散系数为CV=120/680 100%=17.6%l 武汉居民收入的离散系数为CV=80/360 100%=22.2%X标准分数 l是用来描述变量分布中某一分数在整个分是用来描述变量分布中某一分数在整个分布中所处的位置,它是以标准差为单位的布中所处的位置,它是以标准差为单位的相对量数。其计算公式为:相对量数。其计算公式为:l z z = = =l从公式可以得知标准分数是一个分数与其从公式可以得知标准分数是一个分数与其平均数之差除以标准差所得的商。平均数平均数之差
23、除以标准差所得的商。平均数以上各点的分数为正值,平均数以下各点以上各点的分数为正值,平均数以下各点的分数为负值,平均数的分数为零。的分数为负值,平均数的分数为零。 XXSxSl例如:某班语文平均考试成绩为例如:某班语文平均考试成绩为7575分,标准分,标准差为差为8.58.5分。甲生得分。甲生得9292分,乙生得分,乙生得7070分,问分,问甲乙二生的分数各为多少?甲乙二生的分数各为多少? lZ甲=Z乙= 927585.=2707585.=-.59据正态分布理论可知的取值范围在据正态分布理论可知的取值范围在-3-3到到+3+3之间。为了使标准分数变成正值并减少小之间。为了使标准分数变成正值并减
24、少小数位数,以便于比较,我们可将标准分数数位数,以便于比较,我们可将标准分数进一步经线性转换成标准分数。其计算公进一步经线性转换成标准分数。其计算公式为:式为: T T= 10Z + 50= 10Z + 50 Z Z ZTTZl 例:有某生三次数学考试的成绩分别为例:有某生三次数学考试的成绩分别为7070、5757、4545,三次考试的班平均为三次考试的班平均为7070、5555、4242,标准差分别为,标准差分别为8 8、4 4、5 5。如何看待该生的三次考试成绩的地位。如何看待该生的三次考试成绩的地位? ?l (如果仅从原始分数看,肯定认为第一次最好,其如果仅从原始分数看,肯定认为第一次最
25、好,其实不然,要计算出各次的标准分数,才能说明问实不然,要计算出各次的标准分数,才能说明问题。)题。)l Z1=(70Z1=(7070)/8=0 Z2=70)/8=0 Z2=(57575555)/4=0.5 /4=0.5 Z3=Z3=(45454242)/5=0.6 /5=0.6 l 这说明,原始分数为这说明,原始分数为7070,其位置正在平均线上,而,其位置正在平均线上,而原始分数为原始分数为5757的,其位置在平均线上的,其位置在平均线上0.50.5处,而原始处,而原始分数为分数为4545的,其位置在平均线上的,其位置在平均线上0.60.6处。处。 l 目前,我国各类学校招考新生和对学生进
26、行学习目前,我国各类学校招考新生和对学生进行学习成绩考查评定的主要手段是考试。而对考试成绩的评成绩考查评定的主要手段是考试。而对考试成绩的评分一般是用百分制来表示,并用各科成绩相加按总分分一般是用百分制来表示,并用各科成绩相加按总分来决定被试者的优劣取舍。这种做法开来似乎公平,来决定被试者的优劣取舍。这种做法开来似乎公平,实际上很不合理。因为各科试题的难易程度不同,造实际上很不合理。因为各科试题的难易程度不同,造成评分标准的宽严不一,因此各科考试成绩的统计量成评分标准的宽严不一,因此各科考试成绩的统计量数,数,如平均数、标准差也不相等。我们不能说语文的如平均数、标准差也不相等。我们不能说语文的
27、考分考分8080分等价于数学的考分的分等价于数学的考分的8080分,也不能说英语考分,也不能说英语考分分7575分等价于物理的考分分等价于物理的考分7575分,分,在这种情况下,把考在这种情况下,把考生的各科考分等量齐观地相加起来,凭个考生的总分生的各科考分等量齐观地相加起来,凭个考生的总分来决定优劣取舍,显然是十分不合理的。科学的方法,来决定优劣取舍,显然是十分不合理的。科学的方法,就是把考生是各科分数,经过一个标准化的转化过程,就是把考生是各科分数,经过一个标准化的转化过程,把每个考生的各科分数变成标准分数,然后再进行相把每个考生的各科分数变成标准分数,然后再进行相加和比较。加和比较。 练
28、习l在一个社区诊所,在一个社区诊所,1010天内来排队看病的人天内来排队看病的人数分别是数分别是5252,6868,3939,4747,5757,3232,7575,2525,3131和和9393,求算术平均数和中位数,以,求算术平均数和中位数,以及标准差及标准差二二 单变量推论统计l 推论统计,是指根据样本所提供的统计值,运用概率的理论进行分析、论证,在一定的可靠程度上,对总体分布的特征进行估计、推测。 具体内容包括:(一)区间估计(二)假设检验(一) 区间估计 l以样本统计量的抽样分布为理论依据,按一定概率要求,由样本统计量的值来估计总体参数的值所在的范围,叫做总体参数的区间估计。l区间估
29、计的实质就是在一定的可信度(置信度)下,用样本统计值的某个范围来估价总体的参数值 。范围的大小反映的是这种估计。范围的大小反映的是这种估计的精确性问题,而可信度高低反映的是这种的精确性问题,而可信度高低反映的是这种估计的可靠性或和握性问题。估计的可靠性或和握性问题。l 间估计的可靠性或把握性是指用某个区间去估计总体参数时,成功的可能性有多大。可以解释为:如果从总体中重复抽取100次,约有95%次所抽取样本的统计值的某个区间中都将包含总体的参数值,那么就说这个区间估计的可靠性为95%。l 区间估计的结果通常可以用下述方式来表述:“我们有95%的把握认为,全市职工的月工资收入在182元至218元之
30、间。”或者“全省人口中,女性占50%-52%的可能性为99%”。l社会统计分析中,常用的置信度a分别为90%、95%和99%,与他们所对应的允许误差分别为10%、5%和1%。在计算中,置信度常用1-a 来表示。l总体均值的区间估计l总体均值的区间估计公式为:l -Zl + Zl其中, 为样本平均数;S为样本标准差;Z( 1-a)为置信度为1-a的Z值;n为样本规模。XnSXnSXl(2)总体百分数的区间估计l公式为p+课堂练习题课堂练习题例:调查某厂职工的工资状况,随机抽取例:调查某厂职工的工资状况,随机抽取900900名工人做样本,调名工人做样本,调查得到他们的月平均工资为查得到他们的月平均
31、工资为186186元,标准差为元,标准差为4242元。求元。求95%95%的置信度下,全厂职工的月平均工资的置信区间是多少?的置信度下,全厂职工的月平均工资的置信区间是多少? 解解 将调查资料代入总体均值的区间估计公式得将调查资料代入总体均值的区间估计公式得总体均值的置信区间为总体均值的置信区间为183.26-188.74183.26-188.74当将置信度提高到当将置信度提高到99%99%,总体的置信区间为,总体的置信区间为182.39-189.61182.39-189.61元元(随着可靠性的提高,所估计的区间扩大了,但估计的精确性(随着可靠性的提高,所估计的区间扩大了,但估计的精确性就相应
32、地降低了。就相应地降低了。例:从某工厂随机抽取例:从某工厂随机抽取400400名工人进行调查,结果表明女工的比名工人进行调查,结果表明女工的比例为例为20%20%。现在要求在。现在要求在90%90%的置信度下,估计全厂工人中女的置信度下,估计全厂工人中女工比例的置信区间。工比例的置信区间。 解解 带入总体百分数的区间估计公式带入总体百分数的区间估计公式得得16.7%-23.%16.7%-23.%l小结:要对总体均数进行区间估计,即在一小结:要对总体均数进行区间估计,即在一定的可靠程度上求出总体均数的置信区间的定的可靠程度上求出总体均数的置信区间的上下限,上下限,首先,首先,要知道与所要估计的参
33、数相要知道与所要估计的参数相对应的样本统计量的值,以及样本统计量的对应的样本统计量的值,以及样本统计量的抽样分布;抽样分布;其次,其次,要求出该统计量的标准误;要求出该统计量的标准误;最后,最后,要明确在多大的可靠度上对总体均数要明确在多大的可靠度上对总体均数作估计,再通过查抽样分布概率分布表,找作估计,再通过查抽样分布概率分布表,找出与该可靠度所对应的该分布在横轴上记分出与该可靠度所对应的该分布在横轴上记分的临界值,从而计算出总体均数的置信区间。的临界值,从而计算出总体均数的置信区间。 (二)(二) 假设检验假设检验 l利用样本信息,根利用样本信息,根据一定的概率,对据一定的概率,对总体参数
34、或分布的总体参数或分布的某一假设作出拒绝某一假设作出拒绝或保留的决断,称或保留的决断,称为假设检验。为假设检验。 l假设是对总体参数的一种看法总体参数包括总体总体均值均值、比例比例、方差方差等分析之前之前必需陈述假设检验的基本思想m m = 50假设检验的过程(提出假设抽取样本作出决策)我认为人口的平我认为人口的平均年龄是均年龄是5050岁岁 拒绝假设拒绝假设! 别无选择别无选择.l 当对某一总体参数进行假设检验时,首先从该总体中当对某一总体参数进行假设检验时,首先从该总体中随机抽取一个样本,然后计算统计量的值,并根据经随机抽取一个样本,然后计算统计量的值,并根据经验对相应的总体参数提出一个假
35、设值,这个假设是说验对相应的总体参数提出一个假设值,这个假设是说这个样本统计量的值是由这个假设总体参数值的一个这个样本统计量的值是由这个假设总体参数值的一个随机样本,即这个样本来源于这个总体,而样本统计随机样本,即这个样本来源于这个总体,而样本统计量的值与总体参数值之间的差异是由抽样误差所致。量的值与总体参数值之间的差异是由抽样误差所致。根据这一假设,可以认为像这样的一切可能样本统计根据这一假设,可以认为像这样的一切可能样本统计量的值应当以总体参数值(假设的)为中心形成该统量的值应当以总体参数值(假设的)为中心形成该统计量的一个抽样分布。如果这个随机样本统计量的值计量的一个抽样分布。如果这个随
36、机样本统计量的值在其抽样分布上出现的概率较大时,就得保留这个假在其抽样分布上出现的概率较大时,就得保留这个假设,即承认这个样本来自这个总体,而样本统计量的设,即承认这个样本来自这个总体,而样本统计量的值与总体参数值之间的差异是由抽样误差所致。此时值与总体参数值之间的差异是由抽样误差所致。此时称样本统计量的总体参数与假设的总体参数差异不显称样本统计量的总体参数与假设的总体参数差异不显著。否则就拒绝这个假设,否认这个样本来自这个总著。否则就拒绝这个假设,否认这个样本来自这个总体,样本统计量的总体参数与总体参数值之间有显著体,样本统计量的总体参数与总体参数值之间有显著差异。差异。 l假设检验假设检验
37、l先对总体的某一参数作出假设,然先对总体的某一参数作出假设,然后用样本的统计量去进行验证,以后用样本的统计量去进行验证,以决定假设是否为总体做接受。依据决定假设是否为总体做接受。依据的概率论中的小概率原理,即的概率论中的小概率原理,即“小小概率事件在一次观察中不可能出现概率事件在一次观察中不可能出现”的原理。的原理。l 步骤:步骤:l (1 1)建立虚无假设和研究假设,通常是将原假设)建立虚无假设和研究假设,通常是将原假设作为虚无假设;作为虚无假设;l (2 2)根据需要选择适当的显著性水平)根据需要选择适当的显著性水平 (即概(即概率的大小),通常有率的大小),通常有 =0.01 =0.01
38、等;等;l (3 3)根据样本数据计算出统计值,并根据显著性)根据样本数据计算出统计值,并根据显著性水平查出对应的临界值;水平查出对应的临界值;l (4 4)将临界值与统计值进行比较,若临界值大于)将临界值与统计值进行比较,若临界值大于统计值的绝对值,则接受虚无假设;反之,则接统计值的绝对值,则接受虚无假设;反之,则接受研究假设。受研究假设。l 什么是原(虚无)假设?什么是原(虚无)假设?(Null Hypothesis)(Null Hypothesis)l1.待检验的假设,又称“0假设”l2. 如果错误地作出决策会导致一系列后果l3. 总是有等号 =, 或l4. 表示为 H0H0:m 某一数
39、值 指定为 = 号,即 或 例如, H0: m = 3190(克)l 什么是备择(研究)假设?什么是备择(研究)假设?l1.与原假设对立的假设l2. 总是有不等号: ,或 。l3. 表示为 H1H1: m 某一数值,或 某一数值例如, H1: m 1.96=6.671.96l 所以拒绝虚无假设,接受研究假设,即从总体所以拒绝虚无假设,接受研究假设,即从总体上来说,该单位职工月平均收入与上月相比有上来说,该单位职工月平均收入与上月相比有变化。变化。XDSEXz0ml 【例【例】某批发商欲从生产厂家购进一批灯泡,根据合同规定,灯泡的使用寿命平均不能低于1000小时。已知灯泡使用寿命服从正态分布,标
40、准差为20小时。在总体中随机抽取100只灯泡,测得样本均值为960小时。批发商是否应该购买这批灯泡? (0.05)l H0: m m 1000l H1: m m 1000l = 0.05l n = 100l 临界值临界值(s):第三节 双变量统计分析l 一、相关的意义及类型l 对两变量间关系进行描述,最常用的是相关量。相关就是指二列变量之间的相互关系。如身高和体重、学习成绩与思想品德等的相互关系。l 统计相关分析的目的就是要l (1)确定现象的变化之间是否存在相关关系,并且找出合适的数学表达式。l (2)测定现象之间相关的密切关系l (3)研究相关关系中哪些是主要因素,哪些是次要因素,这些因素
41、之间的关系是如何。l 一种是两列变量的一种是两列变量的变动方向相同变动方向相同,即一种变量,即一种变量变动时,另一种变量也发生或大或小的相同方向变动时,另一种变量也发生或大或小的相同方向的变动,如身高与体重的关系,一般来说,身高的变动,如身高与体重的关系,一般来说,身高越高,体重越重,这叫越高,体重越重,这叫正相关正相关;l 另一种相关情况是当一种变量变动时另一种变另一种相关情况是当一种变量变动时另一种变量是或大或小地向量是或大或小地向相反方向变动相反方向变动,如身体健康状,如身体健康状况与患病率的关系,身体越好,患病率越小,这况与患病率的关系,身体越好,患病率越小,这叫叫负相关负相关。l 第
42、三种是第三种是零相关零相关,即两列变量变化方向,即两列变量变化方向无一定无一定规律规律,一个变量变动时,另一变量的变动方向可,一个变量变动时,另一变量的变动方向可能与其相同,也可能与其相反,且相同与相反的能与其相同,也可能与其相反,且相同与相反的机会趋于相等,如人的相貌与其思想品德之间是机会趋于相等,如人的相貌与其思想品德之间是毫无关系的零相关。毫无关系的零相关。 l二、交互分类l 交互分类是一种专门用来分析两个定类变量(或一个定类变量,一个定序变量)之间关系的统计分析方法。它是同时依据两个变项的值,将所研究的个案分类,其结果通常以交互分类表的形式反映出来。某次调查样况的构成情况统计表性别年
43、龄青年中年老年合计男706050180女504030120合计12010080300 上表是对总数为300人的调查样本按年龄和性别两个变量进行交互分类的结果。通过这种交互分类表,不仅可以知道样本中男性、女性各有多少,或者青年、中年、老年各有多少,同时还可以知道男性青年、男性中年 等等各有多少。因此,交互分类可以较为深入地描述样本资料的分布状况和内在结构,进而对变量之间的关系进行分析和解释。X X2 2检验Z 检验检验 lZ检验是用正态分布的理论差异发生的概率检验是用正态分布的理论差异发生的概率(误差发生的概率),从而比较两个平均(误差发生的概率),从而比较两个平均数(样本平均数与总体平均数或两
44、个样本数(样本平均数与总体平均数或两个样本平均数)的差异是否显著。平均数)的差异是否显著。Z检验适用于大检验适用于大样本(样本(n30)lZ检验可分为单总体检验和双总体检验。检验可分为单总体检验和双总体检验。 t 检验检验 l单总体的检验单总体的检验 l 单总体的检验是检验一个样本平均单总体的检验是检验一个样本平均数与一已知的总体平均数的差异是否显数与一已知的总体平均数的差异是否显著。其检验统计量的计算公式为:著。其检验统计量的计算公式为: l 式中式中t 为检验的样本平均数与已知总为检验的样本平均数与已知总体平均数的标准离差分数,体平均数的标准离差分数,df 为为t 分布分布的自由度。的自由
45、度。 tXSEDXm0dfn1例如:某校初中三年级学生期中英语考试成绩平均数为例如:某校初中三年级学生期中英语考试成绩平均数为7373分,标准差为分,标准差为1717分。期终考分。期终考试后,从该年级学生中随机抽取试后,从该年级学生中随机抽取2020人的英语成绩,其平均数为人的英语成绩,其平均数为79.479.4分,问该年级学生分,问该年级学生的英语成绩是否真有进步?的英语成绩是否真有进步? 检检 验验 步步 骤骤 : 1 1 、建建 立立 假假 设设H0:X m0,即即 假假 设设X与与m0的的 差差 异异 是是 由由 抽抽 样样 误误 差差造造 成成 的的 。 2 2 、 以以 . .0
46、0 5 5 为为 差差 异异 的的 显显 著著 性性 水水 平平 。 3 3 、 计计 算算t值值 : 已已 知知m073,X 79 4 ., 17,n 20, 将将 其其 代代入入 公公 式式 9 9 - -4 4 2 2 , 得得 :t 79 47317201 68. 4 4 、 判判 断断 结结 果果 : 查查t值值 表表 ,df 20119, . .0 0 5 5 显显 著著 水水 平平 的的 理理 论论 临临界界 值值t19052 093.。 而而 本本 例例t值值 1 1 . .6 6 8 8 . .0 05 5 , 即即差差 异异 不不 显显 著著 。所所 以以 接接 受受 假假
47、 设设 ,该该 年年 级级 学学 生生 英英 语语 成成 绩绩 没没 有有 显显 著著 进进 步步 。 一、相关系数一、相关系数l 相关系数是用来表示相关程度的量的指标,用相关系数是用来表示相关程度的量的指标,用r表表示。其数值范围在示。其数值范围在-1-1至至+1+1之间,之间,l r的正负号表示变化的方向,的正负号表示变化的方向,l 正号表示变化的方向相同,是正相关;正号表示变化的方向相同,是正相关;l 负号表示变化的方向相反,是负相关。负号表示变化的方向相反,是负相关。 l r的绝对值表示两变量之间的密切程度(强度),的绝对值表示两变量之间的密切程度(强度),l 绝对值越接近绝对值越接近
48、1 1,表示两变量之间的关系越密切;,表示两变量之间的关系越密切;l 越接近越接近0 0,表示两变量之间的关系越不密切,表示两变量之间的关系越不密切。l 如如r =1 =1表示完全正相关;表示完全正相关; r =-1 =-1表示完全负相关;表示完全负相关; r =0 =0表示零相关。表示零相关。 l计算相关系数时,要求二列变量必须成对,而计算相关系数时,要求二列变量必须成对,而且变量的性质不同亦应计算不同的相关系数,且变量的性质不同亦应计算不同的相关系数,即不同的相关系数适用于不同的变量类型。即不同的相关系数适用于不同的变量类型。l 如皮尔逊积差相关系数适用于两列等距变量;如皮尔逊积差相关系数
49、适用于两列等距变量;l 斯皮尔曼等级相关系数适用于两列等级变量;斯皮尔曼等级相关系数适用于两列等级变量;l 点二列相关系数适用于反映一等距变量与另点二列相关系数适用于反映一等距变量与另一真正二分变量间相关程度;一真正二分变量间相关程度;l 二列相关系数适用于反映一等距变量与另一二列相关系数适用于反映一等距变量与另一人为二分变量间相关程度,人为二分变量间相关程度, 积差相关系数积差相关系数 l式中:式中: , ,n n为为成对变量的数目,成对变量的数目,S SX X为为X X变量的标变量的标准差,准差,S SY Y为为Y Y变量的标准差。变量的标准差。 rx yn SSXYxXXyYYl若用原始
50、分数直接求若用原始分数直接求r,其计算公式,其计算公式为:为: rnXYXYnXXnYY 2222rZZnXY若用标准分数计算若用标准分数计算r ,其公式为:,其公式为: r5名大学生身高提高相关系数计算表名大学生身高提高相关系数计算表学学生生 身身高高X 体体重重 Y x y xy x2 y2 A 183 76 7 5 35 49 25 B 176 72 0 1 0 0 1 C 168 63 -8 -8 64 64 64 D 179 74 3 3 9 9 9 E 174 70 -2 1 2 4 1 - - - - 110 126 100 rxynSSXY11055 024 4798.SX50