1、 经过调查收集上来的资料虽然是大量的,却很可能是杂乱无章的,用它来直接做分析往往有困难。统计整理是对调查数据资料的条理化、系统化和有序化,通过它,社会调查研究才能进入统计分析阶段。60名男性青年的身高表名男性青年的身高表(原始资料)(原始资料)单位:厘米单位:厘米 161 179 173 162 161 169 166 155 177 165 165 171 165 168 176 174 163 173 159 170 170 169 169 170 174 169 171 167 164 169 178 160 168 166 163 158 169 172 178 171 152 176
2、 167 171 161 176 168 181 175 159 162 165 168 164 179 157 173 166 172 167 现在我们用现在我们用从某大学大一男从某大学大一男同学中抽取出来同学中抽取出来的的6060人的身高资人的身高资料来编制频数分料来编制频数分布表,布表,6060名男同名男同学身高(以厘米学身高(以厘米计)的原始资料计)的原始资料如右:如右:60名男性青年的身高表名男性青年的身高表 (序列资料)(序列资料)单位:厘米单位:厘米 152 160 163 165 167 169 170 171 174 177 155 161 163 165 167 169 1
3、70 172 174 178 157 161 164 166 168 169 170 172 175 178 158 161 164 166 168 169 171 173 176 179 159 162 165 166 168 169 171 173 176 179 159 162 165 167 168 169 171 173 176 181 很显然,面很显然,面对这一堆原始数对这一堆原始数据,如果我们不据,如果我们不作简化处理,是作简化处理,是不容易从中看出不容易从中看出什么规律性的。什么规律性的。为此,我们先将为此,我们先将它们由低到高排它们由低到高排成序列资料:成序列资料:ifif
4、某校大一某校大一60名男生身高频数分布表名男生身高频数分布表 if 频率就是各组人数占总体人数的比重,即PfN。比重都小于1,经常用百分数来表达,它反映了对象总体的内部结构。某校大一某校大一60名男生身高频率分布表名男生身高频率分布表 1 1矩形图矩形图2 2方条图方条图4 4曲线图曲线图主要内容算术平均数中位数众数NXXNXX769748791698574XPXffXX人)(4.450220ffXXf X fX 算术平均数的性质算术平均数的性质各变量值与算术平均数的离差之和等于各变量值与算术平均数的离差之和等于0。各变量值对算术平均数的平方和,小于它们对任各变量值对算术平均数的平方和,小于它
5、们对任何他数偏差的平方和何他数偏差的平方和算术平均数受抽样变动影响较小。算术平均数受抽样变动影响较小。分组资料如遇有开放组距时,不经特殊处理分组资料如遇有开放组距时,不经特殊处理不能进行算术平均数的计算。不能进行算术平均数的计算。受极端值影响较大。受极端值影响较大。可用于定序、定距、定比资料。你会吗?例 求72、81、86、69、57这些数字的中位数。解 先将这几个数字由小到大排序:57、69、72、81、86,然后把居中那个数拿出来,于是 Md72(1)单项数列单项数列 根据根据N/2在累计频数分布中找到中位数所在组,在累计频数分布中找到中位数所在组,该组变量值就是该组变量值就是。中位数对于
6、分组资料对于分组资料hfNFUMmmd2/hfFNLMmmd12/25372/10025372/10016202/60请你用第二种方法来做一下hfFNLMmmd12/中位数的性质中位数的性质 (1)各变量值对中位数之差的绝对值总和,各变量值对中位数之差的绝对值总和,小于它们对任何其他数的绝对值总和。小于它们对任何其他数的绝对值总和。(2)中位数不受极端值的影响。中位数不受极端值的影响。(3)分组资料有不确定组距时,仍可求得分组资料有不确定组距时,仍可求得中位数。中位数。(4)中位数受抽样变动的影响较算术平均中位数受抽样变动的影响较算术平均数略大。数略大。众数只与次数有关,可以用于定类、定序、众
7、数只与次数有关,可以用于定类、定序、定距、定比资料。定距、定比资料。Lo为众数组下限;为众数组频数与前一组频数之差;为众数组频数与后一组频数之差;ho为众数组组距。oohLM211)(4.1684466166211cmhLMoo 为什么众数有时不存在,有时有两个以上?所谓离中趋势,是指数列中各变量值之间的差距和离散程度。离势小,平均数的代表性高;离势大,平均数代表性低。NfVVoMRoMfN%0.68501650NfVVoMRNXX2)(NXXSS22)(XNXXS22)(一个数据与该组数据的算术平均数 的差叫离差。当一个数据大于 时,离差是正值,反之则为负值。为了消除离差正负号的影响,可求所
8、有离差平方的算术平均,这是所谓的均方差,简称方差()。将方差开平方后所得的值就是标准差。方差方差:标准差标准差:X2S22)(NXNX06.105506)(2NXXS0.735365NXX06.105365527151)(222NXNXSNXXfS2)(22)(NfXNfX 计算左边数列的标准差)(5.6602499)(2cmNXXfSXX 2)(XX 2)(XXf22)(PXPXS2)(XXPS 值得注意的是,计算分组资料的标准差,也可以依据值得注意的是,计算分组资料的标准差,也可以依据频率分布来进行计算式由此可以写成:频率分布来进行计算式由此可以写成:或者或者 随机现象具有一定随机现象具有
9、一定条件呈现多种可能结条件呈现多种可能结果的特性。果的特性。人们把随机现象的结人们把随机现象的结果以及这些结果的集合体果以及这些结果的集合体称作随机事件。称作随机事件。3611P 推而论之,在随机变量的取值满足“穷举”和“互斥”这两个原则的前提下,概率分布的一般形式如下表所示。现在我们把这里所讲的概率分布与前面所讲的频数分布、频率分布作一比较,就会发现它们(特别是频率分布与概率分布)非常相象。当然概率分布与频率分布也有重要区别:频率分布是经资料整理而来的,概率分布却是先验的;频率分布随样本不同而有所不同,概率分布却是唯一的;频率分布有对应的频数分布,概率分布则没有。因此频率分布被称为随机变量的
10、统计分布或经验分布,而概率分布则被称为随机变量的理论分布。iiPxXP)(xnxxniqpCxXP)(xxxXxxPxX)(lim)(0)(x)(x(x)(x21)()(21xxdxxxXxP0)(x1)(dxx1)()(PXP)(x)(xFxxXdxxXPxF)()()()()(xXPxF)()()(1221xFxFxXxP3611P36103623613633613643653663615362636213633363036363635362363365364363366)(xF)(ixXP)(x)(xFdxxxPxXEniii)()(1xPXE)(200)500000(015.0985.
11、011xxX和和 都是为都是为服务的,服务的,E(X)是是“期望期望”XX数学期望的几个基本性质:数学期望的几个基本性质:(1)常数)常数c的期望等于该常数,即的期望等于该常数,即 E(c)c(2)常数)常数c与随机变量与随机变量X之积的期望等于之积的期望等于X的期望与的期望与c的积,的积,即即 E(cX)cE(X)(3)两个随机变量之和的期望等于它们的期望之和,)两个随机变量之和的期望等于它们的期望之和,即即 E(X+Y)E(X)+E(Y)(4)两个独立随机变量乘积的期望等于它们的期望之积,)两个独立随机变量乘积的期望等于它们的期望之积,即即E(XY)E(X)E(Y)dxxXExPXExXD
12、niii)()()()(212)(2xD)(xD)()(22XEXD22)()()(XEXEXD试求两颗骰子点数试求两颗骰子点数的变异数的变异数D(X)(1)常数常数c的方差等于的方差等于0,即,即D(c)0 (2)常数常数c与随机变量与随机变量X之积的方差,等于随机变量之积的方差,等于随机变量X的方差的方差c2倍,即倍,即D(cX)c2D(X)(3)随机变量与常数之和的方差等于随机变量的方差,随机变量与常数之和的方差等于随机变量的方差,即即D(X+c)D(X)(4)两个独立随机变量之和的方差等于它们的方差和,两个独立随机变量之和的方差等于它们的方差和,即即D(X+Y)D(X)+D(Y)(1)
13、建立假设建立假设(2)求抽样分布求抽样分布(4)计算检验统计量计算检验统计量(3)选择显著性选择显著性水平和否定域水平和否定域(5)判定判定所所包有含统的计步检骤验 概率分布不是一种研究者从资料中看到的分布,我们讨论它,不是出于对数学的爱好,而是因为统计推论的有关工作需要它。现在,我们要进入系统讨论统计假设检验的实际步骤的阶段。所有的统计检验都包含某些特定的步骤,这里先列示如下:零假设与备择假设零假设与备择假设否定域否定域两类错误及其关系两类错误及其关系显著性水平显著性水平 在统计中,在统计中,必须把否定域必须把否定域分配到抽样分分配到抽样分布的两端的检布的两端的检验,被称为双验,被称为双侧检
14、验。侧检验。在统计中,可以事先能在统计中,可以事先能预测偏差方向,因而可以预测偏差方向,因而可以把否定域集中到抽样分布把否定域集中到抽样分布更合适的一端的检验,被更合适的一端的检验,被称为单侧检验。称为单侧检验。双侧检验和单侧检验双侧检验和单侧检验222/)(21)(xexXXZ2/221)(ZeZ),(,10)(2NN21)()(21xxdxxxXxPZdzzzZPzF0)()0()(XZ08.212168143xz 抽样分布特指样本统计量作为随机变量的概率分布。用数学语言来说,抽样分布是运用数理统计的方法,把具体概率赋予样本的所有可能结果的一种理论分布。XSX 在一个总体中可以产生无数个样
15、本,所以样本统计量(比如均值 )必定是随机变量。这样就提出一个问题:如果样本统计量作为随机变量,它的概率分布是什么样呢?Xn2nXXZXnXZ/nXXX实际上是要检验“随机抽样”这个零假设 实际上是要检验“随机抽样”这个零假设 7500:7500:10HH)1,010015007500 N(X Z65.167.2100150075007900 Z65.1ZXXnX/nSX/81/15023302350此乃“总体均值”零假设的检验1 区间估计的任务是,在点估计值的两侧设置区间估计的任务是,在点估计值的两侧设置一个区间,使得总体参数被估计到的概率大大增一个区间,使得总体参数被估计到的概率大大增加。可靠性和精确性加。可靠性和精确性(即信度和效度即信度和效度)在区间估计中在区间估计中是相互矛盾的两个方面。是相互矛盾的两个方面。1XXX111XXZXZXZZ2/Z1005.7nSZX2/1nXS