1、第一章 基础统计学回顾(3)2第七节第七节 假设检验假设检验z一、假设的层次一、假设的层次z理论假设理论假设由若干抽象概念所组成的命题z(其中的抽象概念又往往是用其它有关的抽象概念加以定义的)z一般是无法加以直接验证的。z为了能从理论上证实这些假设,必须将概念概念操作化操作化将概念和命题变为可以测量的指将概念和命题变为可以测量的指标、变量以及变量与变量间的关系。标、变量以及变量与变量间的关系。3z为了证实这些指标、变量以及变量之间的关系,又必须通过经验层次的调查和实验实证主义的社会研究方法z如果调查是用的随机抽样数据,那么这种和抽样手段联系在一起,并且依靠抽样数据进行检验的假设,就称为统计假设
2、统计假设4z原假设H0:虚无假设或消解假设,一般根据已知的资料,或根据周密考虑后确定z备择假设H1:研究假设z单边或双边(可省略)检验5二、基本原理二、基本原理z(一)小概率原理(一)小概率原理z由于社会现象的随机性随机性或非确定性,检验并非一目了然。z但是大数定理大数定理告诉我们,就大量观察而言,事件的发生具有规律性在大量观察中频频出现的事件具有较大的概率,出现次数较少的事件具有较小的概率。6z在日常生活中,人们习惯于把概率很小的事件,当作在一次观察中是不可能出现的事件小概率原理假设检验的基本原理。z小概率原理小概率原理分为两个方面:z1、小概率事件在一次观察中是不可能出现的z2、如果出现了
3、小概率事件,那么,合理的想法是,否定原有事件具有小概率的说法(或称假设)7假设检验的统计学描述假设检验的统计学描述:z经过抽样获得一组数据,即一个来自总体的(随机)样本,如果根据样本计算的某个统计量(或几个统计量)表明在原假设H0成立的条件下几乎是不可能发生的,就拒绝或否定这个原假设,并继而接受它的对立面被择假设。z反之,如果在原假设H0成立的情况下,根据样本所计算的某个统计量,发生的可能性不是很小的话,那么就接受原假设。8三、基本概念z1、统计检验中的假定z假定假定是被确认和接受的事实,是进行检验的前提或要求。z对于统计推论,有一个基本的而且不言而喻的假定,那就是抽样必须是随机的抽样必须是随
4、机的。9z2、统计检验中的统计量z假设检验是通过样本计算某个统计量来进行的。z所谓小概率事件小概率事件,就是指所用统计量,在原假设情况下,是否是小概率事件,因此确定统计量是很重要的10z对于样本的观察值,统计量的值应该是确定的。z当统计量确定后,根据原假设H0成立的条件,可以画出统计量的分布所选用的统计量,它的分布,应该是已知的,其值是有表可查的统计学家所做常用分布11z3、显著性水平(临界水平),记作z在原假设成立的条件下,统计检验中所规定的小概率的标准,即规定小概率的数量界线。z通常规定概率小于0.05或0.01的事件叫小概率事件12z4、临界值、接受域和否定域z在概率分布图中,由显著性水
5、平所确定的末端区域称为否定域 否定域与显著性水平是同一问题的两种不同表述方法,否定域是否定或推翻虚无假设的区域,显著性水平是推翻虚无假设的标准,否定域的概率就是显著性水平13四、假设检验的步骤和两类错误z(一)假设检验的步骤:z1、根据实际情况作出假设(原假设必须写出)z2、根据样本构成合适的、能反映H0的统计量,并在H0成立的条件下确立统计量的分布z3、根据问题的需要给出小概率的大小z4、根据具体检验标准,用样本统计量的观测值进行判断14z(二)两类错误(关于虚无假设)z1、甲种误差(弃真小概率事件发生)z犯第一类错误的大小就是显著性水平z2、乙种误差(纳伪)z在样本容量n固定的情况下,如果
6、同时减小两类错误,是不可能的,因此一般采取增加样本容量的办法来解决。15五、常用分布z(一)卡方分布z设随机变量1、2 k相互独立,且都服从正态分布,则它们的平方和服从自由度为k的卡方分布z随着自由度增加,卡方分布图形渐趋对称 16z自由度:自由的程度z例:现有100元,购买5件商品,那么你最多只能有四种商品的价值是自由的(当然是一定范围内),第五种只能是用剩下的钱了,这时候,我可以说,你的自由度是4.当然,如果更严谨一点,你有购买五件商品的权力,要求是五件商品平均价格是100,那你其中的四件随意购买,第五个就只能是根据计算得到的数值进行购买了这就是自由度17z用数据解释:z1、一组数据中可以
7、自由取值的数据的个数2、当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值z例:样本有3个数值,即x1=2,x2=4,x3=9,则均值=5z当 均值=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值z比如x1=6,x2=7,那么x3则必然取2,而不能取其他值18z(二)t分布z1、什么是t分布z进行均值抽样分布的标准化转换的时候进行均值抽样分布的标准化转换的时候,如果总体服从正态分布,但总体标准差却未知z样本均值是总体均值的无偏估计,但标准差却不是z因此统计量就发生了变化,不再是z,而是t19z设随机变量 和
8、独立,且服从标准正态分布,服从自由度为k的卡方分布z则随机变量 服从自由度为k的t分布tk20z2、t 分布的特征z类似正态分布z可以证明,当自由度无限增大时,t分布将趋近于标准正态分布。z事实上,当自由度大于30时,它们的分布就差不多了。z实际运用无差别,均可用t检验21z(三)F分布z设随机变量 和 独立,且都服从卡方分布,自由度分别为k1和k2,z则随机变量 服从自由度为z(k1和k2)的F分布12kFk22六、z检验和t检验z(一)基本用途z几点说明:z1、检验的结论是相对的(否定域可自定义)z2、假设检验与区间估计一致(区间估计可代替假设检验)z3、假设的提法决定采取单边还是双边检验
9、z4、两种检验的关系 23zZ检验基于正态分布,要求大样本,后者则基于t值抽样分布,可用于小样本。z因为当样本增大时,t值会逐渐接近正态分布,这时,二者区别不大。z因此,不论样本大小如何,皆可用t检验zZ检验可以说是t检验的一种特殊(大样本)情况。z在近代社会研究中,t检验应用更为广泛。24z(二)几种扩展的参数检验z1、均值差异z2、比例二分变量(虚拟变量的思路,成数即为均值)25七、卡方检验七、卡方检验z非参数检验,针对的不是总体的某个参数,而是总体的(次数)分布形式z原理:以理论次数为基准考察实际次数与理论次数之间的偏离程度zdf=(r-1)(c-1)z理论次数计算依据:同比关系z根据计
10、算发现:各个单元格次数之间具有相互制约的关系22()eoeffxf26八、F检验(方差分析)z(一)原理:通过对方差的分解和比较,以确定主要变异来源z(二)主要用途:比较几个均值之间是否存在显著差异27z(三)分解z总平方和组内平方和(误差平方和)组间平方和(系统误差和)z组内平方和与组间平方和分别除以对应的自由度,即得到组内和组间的平均变异,称为均方差(均方)zF组间均方/组内均方z从数学上可证明,F服从自由度为(k1,Nk)的F分布,由此可进行假设检验28z(四)说明zF检验,如果推翻虚无假设,只能说明“至少有一对均值之间存在明显差异”z如果要了解具体情况,可以通过z或t作进一步检验29z
11、(五)方差分析与E系数z相关比率(E平方系数)实际上就是方差分析中的组间平方和与总平方和的比值30总结总结两变量的测量层次相关测量法(PRE)假设检验定类-定类,tau-y卡方检验定类-定序定序-定序Gamma,dyZ或t检验定类-定距EtaF检验或t检验定序-定距定距-定距r,b31例题z某统计报表显示人均收入为880元。50人的随机抽样调查显示,人均收入为871元,标准差为21元。试评估报表。32用excel取得统计检验临界值的方法z1、打开execel,选择一个空单元以备存放值的计算结果z2、用鼠标点击fx键,打开弹出“插入函数”窗口,在“选择类别”窗口选择“统计”,在“选择函数”窗口选择相应的检验类别,点击“确定”z3、输入相应数值z4、点击“确定”,即得到计算出的值33上机操作zCompare Means(t检验和 F检验)z卡方检验