1、社会统计学第一讲:导论社会学与社会统计学一、社会统计学的发展统计学的两大流派:数理统计学派和社会统计学派数理统计学派的原创始人是比利时的A 凯特靳,其最大的贡献就是将法国的古典概率引入统计学,用纯数学的方法对社会现象进行研究;社会统计学派的首倡者是德国的K 克尼斯,他认为统计研究的对象是社会现象,研究方法为大量观察法。凯特勒比利时物理学家、统计学家。论人类、概率论书简、社会物理学概率论引入统计学;大数定律分析社会复杂现象偶然性中的规律性;误差理论解决统计的准确性问题;平均人:模特:平均身高、体重、智力、道德品质。社会所有人与平均人没有差异时,社会矛盾趋于缓和。统计学的任务就是关于平均人的比较研
2、究。社会统计学社会统计学以德国为中心;克里斯首创认为社会统计学是一门社会科学,研究社会变动与规律性研究对象是社会总体而不是个体,大量观察、研究内在联系,才能揭示其规律性。社会统计学的两大流派社会指标学派描述统计学派社会指标用来测定某一社会要素状态的统计量。社会指标举例:恩格尔系数基尼系数痛苦指数社会指标体系洛伦兹曲线(1)洛伦茨曲线(2)市场总发货值的百分比与市场中由小到大厂商的累积百分比之间的关系。洛伦茨曲线的弧度越小,基尼系数也越小。收入分配越是趋向平等,劳伦茨曲线的弧度越小,基尼系数也越小,反之,收入分配越是趋向不平等,劳伦茨曲线的弧度越大,那么基尼系数也越大。如果个人所得税能使收入均等
3、化,那么,基尼系数即会变小。联合国有关组织规定:若低于0.2表示收入绝对平均;0.2-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收入差距较大;0.6以上表示收入差距悬殊。二、社会学不社会统计学1、社会学研究的重要环节课题-了解课题-假设-术语-问卷-调查-校核-统计分析(例:对中学升学率的调查研究)统计分析的目标2、在社会研究中的运用统计分析要注意的问题1)要把握社会调查资料的特点:随机性、规律性2)要把握社会统计分析自身的特点:操作化定义、收集资料的对象3)要把握统计分析的前提是否满足:资料的信度和效度;资料收集的科学性;资料在总体中的分布。统计分析中常见的错误1、混
4、淆统计联系与因果关系根据观测数据得到的统计联系(如相关关系)只是因果关系存在的必要条件,而不是充分条件。2、事后解释错误将探测性研究或描述性研究得到的理论假设反过来作为假设检验来看待。统计分析中常见的错误3、生态学错误混淆宏观模式与微观模式。如:教育、经济水平越高的地区生育水平越低,不能引申为个人教育水平与生育水平的关系。4、还原论错误根据较低层次研究单位的分析结果推断较高层次单位的运行规律。统计分析中常见的错误5、混淆统计检验显著与实际意义显著统计检验是否显著相对于以下三个条件:实际差异幅度、置信度、抽样规模。如果样本规模很大,在降低置信度要求的情况下,统计检验会很显著,但实际意义不大。三、
5、统计分析方法的选择全面调查与抽样调查的分析方法不同全面调查统计描述抽样调查统计推论单变量与多变量的分析方法不同单变量集中与分散特征多变量相关性(有时需要将多个指标合并。合并方法)不同层次变量的分析方法不同定类变量定序变量定距变量定比变量(思考与练习:大学生校外租房现状调查。方法?变量?)例:中学升学率调查课题确定:升学率差异较大;学生择校初探:收集文献,前人研究;咨询相关人员;典型个案观察(好坏各2-3所中学)假设:构思影响因素:1、师资专业水平,2、学生入学水平,3、父母教育水平;师资水平高入学成绩好父母教育水平高升学率高升学率高升学率高续例操作化定义:如,师资:学历、职称、获奖等;学生水平
6、:考分、地域、性别等;父母水平:学历、职业、教育子女的时间等(注意:每一个定义就是一个变量,要注意变量的各种可能取值) 设计问卷:依操作化定义而定。三个方面:基本资料;态度;原因。(课外练习:设计一份问卷调查表)续例实施调查:地点、抽样对象、样本量、组织与培训、实施。(要注意地域的代表性和抽样的随机性)校核与登录统计分析与检验:资料统计由计算机完成统计分析:1、假设检验;2、相关分析;3、结论对策与建议;或提出新的假设几种主要的指标合幵法1、类型法:将指标交互分类如:代际职业地位流动:两个指标2、指数构成法:用简明的公式来综合各项指标如:失业率;人均住房占有率;3、尺度法:依据指标之间的关系来
7、计算总值,是研究对象高低有序。如:传统生育态度评分定类变量按某一个品质特征将总体单位划分若干个类型;有属性之分,无大小、程度之分两个原则:互斥原则;穷尽原则。如:性别;婚姻。定类-定类:列联表;定类-定序:非参数检验;定类-定距:方差分析;定序变量初级定量测定除类别、属性之分外,还有等级、秩序之分如:教育程度;社会经济地位定序-定序:等级相关定距变量除定类、定序外,取值之间有标准化的量度可进行加减运算,但不能进行乘除运算典型例子:智商测定定距-定距:回归与相关定比变量除定类、定序、定距之特征外,取值可构成一个有意义的比例有一个绝对固定的、非任意的零点可进行乘除运算绝大多数经济变量可进行定比测定
8、如:年龄;收入;第二讲单变量统计描述一、分布(xi ni) x的要求:(1)完整性(2)互斥性n:频次分布P:概率分布%:百分比分布如: 性别 xi男女人数ni56例:某校学生的父亲职业职业干部工人农民总数n110152228550p0.2000.2760.5241.000%20.027.652.4100.0二、统计表统计表的制作要注意的问题:1、标题、内容简明2、统计栏数多时,要加编号3、数字填写要求:位数对准,同栏数字、小数位要一致,相同数字不可以写“同上”,无数字栏用“”,缺资料“”4、表中数字用同一单位时,标在右上角5、表的左右两端不封闭判断练习:分别制作定类、定序、定距变量统计表注意
9、:统计表的分组科学性问题项目名称人数百分比球类田径游泳赛车150100607060302020判断:学校对最喜爱体育项目调查:判断:学生成绩变化调查开学初期末成绩好中差%108010提高608075下降101010不变301015三、统计图圆瓣图。反映所占比例;使用于定类;条形图。定类:离散长条;定序:紧挨长条或离散长条;宽度无意义;直方图。紧挨长条;宽度有意义;适用于定距;高度:频次密度=频次/组距折线图。直方图顶点中心相连;要计算组中心值。50403020100看一看,这是一个什么东东?90807060第一季度 第二季度 第三季度 第四季度东部西部北部四、频数统计cf:向上累计。小于某一数
10、字的频数cf:向下累计。大于某一数字的频数年龄151618人数369cf3918cf18159计量资料频数表的编制计量资料频数表的编制一般情况下,样本含量小于30的统计资料无须编制频数表,但对于大样本含量的资料,编制频数表有利于进一步的统计分析、且频数表本身也具有统计描述的作用.求出极差确定组段数确定组距列出各个组段确定每一组段频数选极差即最大值与最小值之差一般 815 之间其他组段只标出下限。根据变量值大小把各观察单位归入各个组段编制频数表的步骤编制频数表的步骤第一组段包括极小值,最后一组段包括极大值,除最后一组段可同时标出上下限,组距=R/组段数,但一般取一方便计算的数字编制频数表步骤流程
11、图160.8129.4丼例举例说明计量资料频数表的编制过程某地 13 岁女孩 118 人的身高(cm)资料143.3147.2135.4138.1138.1137.9*148.6149.8135.5147.5156.3144.8148.5147.1148.1148.1143.5145.0143.1149.8136.1151.3142.0144.5139.1143.8143.9135.4142.1136.5143.3135.4141.2134.1141.3139.8144.5140.5141.5147.8149.8145.0157.6149.8146.4143.7142.5145.7138.51
12、38.5*139.9154.6144.6143.7138.9143.8144.9145.5139.3146.2145.2155.2148.7148.7137.5146.7152.3149.5152.2149.5144.8146.8146.8138.9139.5153.2143.5139.2141.8147.5145.0141.1147.5142.3148.9140.9140.6146.5150.0142.6150.8140.3146.4150.6140.5150.9151.8150.7144.5132.5143.5143.5146.3138.5141.2140.9139.9145.5145.6
13、148.6142.9146.8146.5131.5142.5142.5续例步骤如下:R=160.8-129.4=31.4。组段数=10;组距=R/10=3.1430(cm);按要求确定每一组段上下限。分组统计每一组段的频数,编制频数表。续例身高组段(1)129132135138141144147150153156159162合计频数(2)228202625209321118组中值(3)130.5133.5136.5139.5142.5145.5148.5151.5154.5157.5160.5计量资料频数分布表118 例 13 岁女孩身高(cm)资料频数表。频数分布表的用途频数分布表的用途揭示
14、数值变量频数分布的类型和特征作为陈述资料的形式便于发现一些特大或特小的可疑值便于进一步的统计分析计量资料频数分布的类型和特征分布特征集中趋势:指频数表中频数分布表现为频数向某一位置集中的趋势离散趋势:指频数虽然向某一位置集中,但频数分布表现为各组段都有频数分布,而不是所有频数分布在集中位置的趋势。分布类型对称分布:各组段的频数以中间组段为中心,左右两侧基本对称偏态分布:各组段的频数不以中间组段为中心,而是一侧偏多或偏少计量资料频数分布的类型和特征五、集中值三种方法找集中值:频次;居中;平均;想一想:社会经济生活中有哪些集中值?1、众值M0频数最多的变量值,适合于单峰对称。2、中位值Md数据序列
15、中央位置之值。未分组数据:1)根据原始资料求中位值奇数时:中位值=(N+1)/2偶数时:中位值=中间位置左右两位数的平均值为中位值。2)根据频次分布求中位值未分组资料:首先确定中位值的位置(利用cf ),第二步找中位值。分组资料:四步求值方法1、找50%区间2、找上界U、下界L;U%L%3、求累计50%的变量值X4、中位值=L+X50%L%U%L%XU L例:某农村妇女初婚年龄求中位值注意:真实组界的问题年龄16-1818-2020-22频次305020频率30%50%20%cf30%80%100%3、均值适用于定距变量,能综合反映频次、次序、数值大小变化未分组数据1)直接累加:算术平均 例2
16、)根据频次:加权平均均值=分组数据:以中心值来代替变量值,但有误差例。inixN例:调查某地6户农民家庭和5户干部家庭,每户人数如下:农民家庭:6;4;4;8;6;3;干部家庭; 4;2;3;3;5;求均值。例:青年人每年阅读书本数调查,求均值。书数2-45-78-1011-1314-1617-19总数人数245321171)根据原始资料 六、标志变异指标测定离散趋势,考察资料的分散特征1、异众比率非众值的比例越小,则众值的代表性越大。例2、极差 R=观察最大值-观察最小值 例3、四分互差 Q=Q75Q25例1 例24、方差、 与标准差未分组m0N fN 2(xi x)2 标准差 =N 2iN
17、ni x2 (ni xi)21N2)根据频次分布: 例:第三讲概率论概率论的产生和发展概率论产生于十七世纪,本来是随保险事业的发展而产生的,但是来自于赌博者的请求,却是数学家们思考概率论中问题的源泉。早在1654年,有一个赌徒梅累向当时的数学家帕斯卡提出一个使他苦恼了很久的问题:“两个赌徒相约赌若干局,谁先赢 m局就算赢,全部赌本就归谁。但是当其中一个人赢了 a (am)局,另一个人赢了 b(b0P(=1) 0 p2)P(=0)+ P(=1)=q+p=13)二点分布的期望与方差E()=0 q+1 p=pD()= E(2) ( E)2=02 q+12 p2= p p27、二分变量中取值0和1只表
18、示定类变量的编码,这种变量又称虚拟变量。变量的取值只有两类 ;x 0代码:0、1 ;1pqpRn nnn nPn nn1nm1P第二节 排列不组合一、排列1、重复排列:2、非重复排列:3、全排列mmmn!nm!nn n!例:任选5个数字,可组成多个编号?30人的班级,任意安排2人担任正副班长,有多少种排法?5种户型的住房,分给5人,有多少种分配方案?二、组合:例:家庭成员共8人,问有多少对人际关系?(2人形成一对人际关系,且与方向无关)PPCmnmmmnn!m!nm!nn1 nm1m!第三节 二项分布一、二项分布(n:实验次数 P:A在每次实验中出现的概率)P x1、与二点分布的区别将同样的实
19、验或观察,独立的重复n次例:连续投掷硬币四次2、推广: xCn Px 1Pnx3、二次分布的定义:n次实验中事件A出现次 数的概率分布。简写为:Bn, pP0 mCnp qPm nCnp qPa bCnp q二、变量在某一取值区间的概率1)A至多出现m次的概率2)A至少出现m次的概率3)A出现次数不少于a不大于b的概率nxxxmx0nxmnxxxbxanxxx例:教师中吸烟的比例为50%,随机抽查教师10人,求概率:1、全不吸烟2、1人吸烟3、至少2人吸烟4、2-4人吸烟ExP xxCnp qD E E npq三、二项分布的数学期望nxxx n pn nx0 x05、二项分布的方差等于2 26
20、、查表方法例:根据生命表,年龄为60岁的人,可望活到下年的概率P=0.95。设某单位年龄为60岁的人共有10人,问:(1)其中有9人活到下年的概率为多少(2)至少有9人活到下年的概率为多少(3)至多有9人活到下年的概率为多少Px Px PxP 1x1P 2x21P 1 P 2 1 2第四节 多项分布以三项分布作为研究对象,依此类推1 2 31 2 3n!x1!x2!x3!三项分布: Px1,x2,x31 2 3因为:x1 x2 x3 nP P P 1所以,三项分布也可写成:nx xn!x1!x2!n x1 x2Px1,x2例:1、某班有学员30名,其中兄弟民族13 名。任抽5名,求其中兄弟民族
21、人数的概率分布。2、一批产品共20件,其中6件不合格。任抽3件,求不合格产品的概率分布。第五节 超几何分布1、适用条件:小群体研究2、例:设小组共有10名成员,7男3女。从中任抽3名,求其中男性人数的概率分布。C CC超几何分布的概念及公式设总体性质共分为两类:A类和非A类。总体总数N。A类共有m个,从中任抽n个(nN-m),则n中含有A类个数“”的概率分布为(x=0,1,)当N很大,n较小时,超几何分布近似二项分布。nNxmnxNmP x第六节 泊松分布一、公式:它是二项分布(n,p)的极限分布,只有一个参数 。ePxx!D E E x x! e 泊松分布参数的实际内容为它是其分布的数学期望
22、 或方差。应用:设在填写居民身份证1000张卡片中,共发现错字300个,问每张居民身份证出现错字数的概率分布如何?二、泊松分布的性质1、泊松分布为离散型随机变量分布,取值为0和一切正整数。X=0,1,2,2、泊松分布的数学期望和方差xx0 x! 22 2 2x0 x续前3、当P0.1,甚至在n不必很大的情况下,这种近似也存在,当n10时,这种近似程度就很好了例题已知某校有5%的学生是贫困生,随机抽出50人,求下列情况的概率:1、至多2位贫困生2、至少1位贫困生解设贫困生数为X,则Xb(50,0.05),n很大,p很小,近似服从泊松分布。 =50*0.05=2.51、查累积泊松分布表,p(x2)
23、=0.54382、p(x1)=1-p(x=0)=0.9179续泊松分布的性质4、泊松分布适合稀少事件的研究,也就是P值都很小的情况。对于事件流,如果满足以下三个条件:1)稳定性:概率规律在时间上是不变的2)独立性:在不相交的时间间隔内,发生两个以上事件是 相互独立的3)普遍性:在同一瞬间内,发生两个以上事件是不可能的。则:随机事件发生次数的概率分布满足泊松发分布。如:同一地点的交通事故。例某城市一交叉路口每年平均发生交通事故5起,如果交通事故的发生服从泊松分布,在指定的一年内以下交通事故发生的概率是多少?1、8次或以上 2、不多于2次 3、3-11之间第五讲正态分布、常用统计分布和极限定理第一
24、节 正态分布一、中心极限定理对于任何变量,不管其分布如何,如果把它们几个加在一起,当n大于一定数之后,那么其和的分布必然接近正态分布。二、正态分布(常态分布、高斯分布)1、分布密度曲线特征:1)曲线是单峰,有一个最高点2)曲线在高峰处有一个对称轴。在轴的左右两边是对称的。(对称轴x= )3)曲线无论是向左或向右延伸,都会愈来愈接近横轴,但不会和横轴相交,以横轴为渐进线。2、正态分布的众值、中位值和均值三者是重叠的。x3、正态分布的概率密度22 212xe(和为两个变量) 一定: 增大,图形右移; 减小,图形左 不变, 值改变: 越小,图形越尖瘦。4、两个参数 不 对曲线形态的影响2移。但形状不
25、变。2的影响增大,图形右移; 减小,图形左移。但形状不变。的影响越小,图形越尖瘦E xxdx (数学期望)D5、 不的含义x2xdx (标准差)三、正态曲线下的面积我们把正太曲线看做是一种极限的直方图。它的组距甚小,以至中心值顶点的连线已是一条平滑的曲线。而正太曲线下的面积,实际就是由这无数个小直方形拼接而成的。每小块面积=长宽= xixi Pxi xi 面积的概率分析2 xi2 xi 因此任意两点 x1 x2 曲线下的概率,就是把从x1到x2点所有这些小块面积加起来: x2ix1当 xi 0 ,任意两点之间的概率为x2x1Px1 x2 xdx取值区间的概率值任意两点x1x2间的概率为:x2x
26、1正态分布的几个典型取值区间的概率值:, 之间:0.6827 2, 2 之间:0.9545 3, 3 之间:0.9973(为组距)zzxex第二节 标准正态分布 x z一、标准分Z值:Z x2概率密度: 122当 0 , 1 时 e22212因此,标准正态分布可以看作一般正态分布的一个特例。当 0 , 1时,记做 N0,1一般正态分布记做 N, 2 ,标准分以均值基点,以标准差为度量例某地家庭平均娱乐费支出为120元,标准差为5元,如果某家庭的娱乐费支出为130元,标准分为多少?二、正态分布 N, 2和标准正态分布N0,1面积乊间的对应关系二者分布图的区别只在于对称轴不同,前者以 为轴,后者以
27、0为轴。几个典型取值区间P1 z 10.6827P2 z 20.9546P3 z 30.9973例:例1:相同而 不同。学习成绩:甲位于一班,乙位于二班。一班平均成绩80分,二班平均成绩60分,甲成绩80分,乙成绩80分。相同,为10,比较二者在班上的成绩。例二: 相同而不同:如果 12 601 10 ,2 20,比较甲、乙的成绩。zt d第三节 标准正态分布表的使用一、查表方法:附表4,1、3、5、7列z的不同取值,2、4、6、8列给出的是对应式的面积zet2212图示例:1、已知 服从标准正态分布 N0,1 ,求1)P 1.32) P 1.3 3) P1.3 2.32、 满足N0,1, P
28、 0.05,求 值。3、 满足 N50,52 ,求 P 61 2将其称为自由度为K的X2分布,记做X2(k)k第四节 常用统计分布一、X2分布(卡方分布)1、设随机变量1,2, k 相互独立,且都服从N(0,1),其平方和:x2 12 2 2的分布密度为:22 k 20k xk 21 ek1k 2x当 x 0当 x 0卡方分布图分布图形:偏左侧分布,随自由度的增加,图形渐趋对称。xi1 k量:仍然服从自由度为k的X2 的平方分布。卡方分布性质性质1如果随机变量 1, 2 , k相互独立,2i1222性质2:从自由度为K1与K2的X2 分布,则其和服从自由度为K1 + K2的X2分布。如果随机变
29、量 和 独立,并且分别服例题已知:k=10,a=0.05,求X2 0.05( 10)=?已知:k=9,a=0.025,求满足p(X2 X2 1-a)=a中的X2 1-a 1k k12 2z k 的分布密度为:称之为:自由度为k的t分布二、t分布(学生分布)1、设随机变量 与 独立,且 服从标准正态分布, 服从自由度为K的X2的分布,则随机变 k量 t k 1 2 k 2tzt分布图2、性质:t分布的分布曲线是关于z=0对称的,当k= 时,t分布将趋于标准正态分布(当k30时,分布曲线就差不多相同了)。正态分布是其极限分布。3、查表,对不同自由度k及不同的数(0 1)给出满足等式t的t值例题已知
30、:k=10,a=0.05,求t0.05(10)=则随机变量 F k 的分布密度为: k1 k2 k1 k2k1 k2 2 2 zk1zk2zk2,k1为第一自由度(分子), k2为第二自由度(分母)。三:F分布1、设随机变量 与 独立,且都服从X2分布,自由度分别为k1及k2。 k12Fzk12k1122 k1 k22 2 0当 Z 0当z 0Fk1,k2 dx x F F p F2、F分布的性质:为非对称分布。3、查附表,对不同自由度(k1 ,k2 )及不同的数(01),给出了满足等式F的F值另一性质已知:a=0.05,求:F0.95(1015)1Fk2,k1F 1k1,k2第五节 大数定理
31、不中心极限定理1、大数定理:研究在什么条件下,随机事件可以转化为不可能事件或必然事件,即阐明大量随机现象平均结果稳定性的一系列定理。2、中心极限定理:研究在什么条件下,随机变量之和的分布可以近似为正态分布,称中心极限定理。一、切贝谢夫丌等式:定义:如果随机变量 ,有数学期望 E和 D方差,则不论 的分布如何,对于任何数 ,都可以断言, 和 E 的绝对离差大于等于 的概率,不超过 D 2 ,即D2P E D2或 P E 1limp p 1二、贝努里大数定理1、定义:设m是n次独立观察中事件A出现的次数,而p是事件A在每次观察中出现的概率。那么,对于任何一个正数 ,有 m nn2、含义:在相同条件
32、下进行多次观察时,随机事件的频率 m n 有接近其概率的趋势。意义:为用抽样成数来估计总体成数p奠定了理论基础。p 1有:lim n 3、实际:意义可以用抽样的均值 做为总体均n三、切贝谢夫大数定理1、定义:设随机变量 1 , 2 是相互独立服从同一分布,并且有数学期望 Ei 及方差 Di 2 ,那么对于任何一个正数 ,n n 为 1 , 2 n个随即变量的平均值2、含义:当实验次数n足够大时,n个随机变量的平均值 n 与单个随机变量的数学期望的差可以任意的小,这个事实以接近于1的很大概率来说是正确的,即 n 趋近于数学期望 量,不管其分布如何,只要 Dlim P n x 2t e d 四、中
33、心极限定理1、表述方式:设 1, 2, k为独立同分布的随机变2i i存在,则对x有xtn22 n 12、中心极限定理的意义1)对随机变量 的原有分布不做要求,因此,从理论上说明了正态分布的重要性2)它为样本容量的确定和大样本(n大于等于50)情况下的统计推论提供了理论依据。3)在社会调查中使用价值广。4)在抽样调查中有着重要意义。第六章 参数估计第一节 统计推论一、统计推论:根据局部资料对总体特征进行推断特点:1、局部资料的特性在某种程度上能反映总体的特征2、抽样结果不能恰好等于总体的结果二、理论基础:概率论三、内容:1、通过样本对总体的未知参数进行估计(参数估计)2、通过样本对总体的某种假
34、设进行检验(假设检验)第二节 名词解释1、总体:研究的全体2、样本与简单随机样本:从总体中按一定方式抽出的一部分叫样本。要求抽样的数据不但是随机变量而且相互独立,遵从同一分布,那么,这种样本就叫简单随机样本。简单随机样本有3种情况3、统计量:根据样本数据计算的统计指标称统计量。 i 13)样本成数1 nn i1nxi x22)样本方差 S 2 1n1P mn用样本均值:x xi用样本方差: 1作为 的点估计值第三节 参数的点估计一、总体参数(均值与方差)的点估计公式1、总体均值的点估计值1 nn i12、总体方差的点估计值xi x22nn1 i1S 2用标准差: S x3、总体成数的点估计值用
35、样本成数:表示在样本n次观测中,A类共出现m次。i mni1mnp 1 nn i1 xi例:5位被调查者的月收入:A 500B 510C 490D 520E 480求总体均值、方差的点估计值 x 的方差:Dx 2样本方差 S 2的方差 :DS n2 1二、评价估计值的标准 1、无偏性:x 的均值等于待估参数如果 Q 是总体参数Q的估计值,且Q 分布的均值有 E Q Q,则称 Q 是Q的无偏估计。2、有效性:1)方法:如果两个估计值Q 1x1x2xn 及 Q2x1x2xn ,它们都满足无偏性,那么当Q1 的方差比 Q2的方差小时,则Q1 较 Q2 更有效。2)增加样本容量可以有效的增加一次抽样接
36、近待估参数的概率。样本均值n2 43、一致性:一个数的估计值要求随样本容量n的增大而以较大的概率去接近被估计参数的值。把样本容量为n时的估计值记作 Qn ,如果 n时,Qn 按概率收敛于总体参数Q,即对于任何正数 ,有:lim PQ Q 1n则称Qn 是Q的一致估计值。2、总体为正态分布 N, ,但方差为未知,统计量 s已不再服从正态分布,而是服从自由度k=n-1的t分布。第四节 抽样分布一、例二、样本均值的分布1、总体分布为正态分布N, 2,且方差已知,样本均值自然服从正态分布。x 2n3、任意总体,大样本情况,根据中心极限定理,在大样本情况下,x 的分布接近于正态分布。结论:在社会现象的研
37、究中,只要n足够大,x 的分布将确定它为一个近似的正态分布。一般情况下 S 分布很复杂,它的精确分布22不一定能求出来。要知道它的大致形状,可通过计算机模拟的方法,从总体中随机抽取相当数目的样本,并作出样本方差的频率直方图。置信区间(反映估计的准确性) ,Q第五节 正态总体的区间估计一、置信度、置信区间如果用Qx1x2xn 作为未知参数Q的估计值,那么区间包含参数Q之概率为1 的关系表达式为Q1 置信度(置信概率)(置信区间估计的可靠性) 显著性水平(置信区间不可靠的概率)置信区间与置信度的关系:在样本容量一定的情况下,置信区间和置信度是相互制约的。置信度愈大,则相应的置信区间也愈宽。1、 为
38、已知Px 1即:二、正态总体均值的区间估计2x nN0,1以下统计量满足正态分布 Z 对于的双侧置信区间有PZ 2 Z Z 2122 n x nzz练习例:某地月收入状况服从正态分布,根据64人的抽样,其平均收入为800元,求置信度为0.95时的 的双侧置信区间。2、 为未知时当总体满足正态分布,但 未知的情况Px t 2 122下,以下统计量满足自由度k=n-1的t分布。x s nt tn1t 21 的双侧置信区间有:pt代入:s n x t 2sn如果 未知, x 800接上例抽样人数为20,求置信区间。2s 10 0.05x n1由度k=n-1的x 分布:S对于给定置信度1,双侧区间x
39、的临界px1 x x 1x x三、正态总体方差的区间估计对于正态总体 N, 2,以下统计量满足自2 n1 2 222值应满足: 2 2 2 2 2 1222n1s212n1s22整理: p求 的置信区间。( 0.05)接上例:抽样10户,收入状况如下:790 800 810 820 780760 840 800 750 8502 x z 1px z第六节 大样本区间估计一、大样本总体均值 的区间估计2 s s 2 n 2 n 为总体标准差,当 为未知情况下,可用样本标准差代替总体标准差。n为样本容量 n 50z 为正态分布双侧区间的分位点。二、总体成数(二项总体参数)的估计为总体中A成数P的点
40、估计值。(一)总体成数P的点估计如果在样本容量为n的简单随机抽样中,对于所要研究的A共出现m次,则样本成数Pmnp Ep ppqnDpp pz p p pz p 1z 为正态分布双侧区间的分位点(二)大样本总体成数p的区间估计区间估计公式: 2 2 p pp1 pn总体成数p的点估计值 当p未知情况下,用 p 代替 p p2 x x s1 1 s2 2 2222nn区间: x x z x x x x x x z , 为正态分布双侧区间的分位点 zx2 2三、大样本二总体均值差的区间估计1、样本均值差为: 1x2 12作为总体均值差 12 的点估计值。2、区间估计:px1x2zx1x212 x1
41、x2zx1x212 21 21 21 21 2 1 2 1 2 1 22 221、样本成数差 p p 为总体成数差p p 的p p1 p2 p1 p2 1 2 p p 12 p1 p2 z 为正态分布双侧区间的分位点2四、大样本二总体成数差的区间估计 1 2 1 2点估计值。2、区间估计 122 p p p p2 1zz p1 1 p1 p2 1 p2n1 n2 p1 p12p2 p第七章 假设检验的基本概念一、统计假设1、统计假设: 收集资料的范围仅是全体的一部分,是一个随机样本,那么,这种和抽样手段联系在一起,并且依靠抽样数据进行验证的假设,即统计假设。2、原假设和备择假设 根据已有资料周
42、密考虑后确定原假设的逻辑对立假设 三种形式:单边(左、右) 双边H1)原假设(虚无假设或解消假设) 0 :2)备择假设(研究假设) H 1:3、假设检验的基本原理:小概率原理:1)小概率事件是在一次观察中是不可能出现的事件。2)如果在一次观察中出现了小概率事件,那么,合理的想法是否定原有事件具有小概率的说法。假设检验思想在统计学中的描述:经过抽样获得一组数据(即样本):根据样本计算的统计量,如果:原假设成立的条件下几乎不可能发生的,就拒绝或否定原假设;如果在原假设成立的条件下,根据样本计算的统计量发生的可能性不是小,则接受。二、统计检验中的名词1、假定:被确定和接受的事实,是进行检验的前提或要
43、求。抽样必须是随机抽样,不能是偶遇调查或滚雪球式的调查。2、统计量1)作为统计检验中的统计量,在原假设成立的条件下,统计量应该是确定的2)所选用的统计量,其分布应该是已知的,其值才有表可查。 在原假设成立的条件下,统计检验中所规定的小概率的标准,即规定小概率的数量界限。4、临界值、接受域和拒绝域3、显著水平 正态分布5、双边检验和单边检验1)双边检验如果选择:拒绝域在统计量分布的两侧,显著水平为 ,统计量分布以原点为对称,则 pz z 2如果根据样本计算的统计量 z z 2拒绝H 0;反之接受H 02)单边检验 右侧:只有当样本计算统计量的值过大:z z 才会落入拒绝域;如果z z 接受。 左
44、侧: pz z三、假设检验的步骤不两类错误(一)步骤(四步)1、作出假设 H 0和 H 12、确定统计量及其分布3、给出小概率 4、用样本统计量的观测值进行判断例:某地收入水平调查状况如下:x 870 s 21n 50 问:该地上报的平均收入为880元是否可信?(显著性水平为 0.05)(二)两类错误1、弃真错误:把一次观测中出现在拒绝域的小概率事件当作对原假设的拒绝,此时会发生。犯错误的大小为2、纳伪错误:在接受原假设时犯的错误,犯错误的概率为 。 0 越小, 数值越大x n , 第八章 单总体假设检验第一节 大样本假设检验一、大样本总体均值检验1、大样本情况下样本均值趋向于正态分布:2、大
45、样本总体均值检验所用的统计量 2 n x 0 xx 0 nz 3)统计量4)拒绝域2)备择假设H13、大样本均值检验的主要内容1)原假设 H 0: 0单边: 0 或 0双边: 0 x 0 nz 单边: 右 z z左 z z双边:z z 2 或 z z 2a0.100.050.010.001常用a的对应值ZaZa1.301.652.333.09Za/21.651.962.583.301、在定类二分变量 0二、大样本总体成数检验下,总体成数P就是二1分变量的总体均值 p ,样本成数 P 就是二 2 i分变量的样本均值: P x ni1n2、在大样本情况下样本成数P趋向于正态分布。 P NP, p0
46、3、大样本成数检验的主要内容1)原假设 H 0:P P02)备择假设 H单边:P P 或01P P0P P双边:3)统计量4)拒绝域单边: 右 z z左 z z双边: z z 2 或 z z 20 0 0P PP1 P nz 双边:第二节 小样本假设检验一、单正态总体均值检验(一)方差已知:1)原假设H 0 : 02)备择假设H 1单边: 0 或 0双边: 0 x 0 n3)统计量 z 4)拒绝域单边:右z z左z z2z z2或 z z3)统计量(二)方差未知1)原假设H 0 : 02)备择假设 H1单边: 0 或 0双边: 0 tn1t x 0s nx 0 x4)拒绝域单边: 右 t t左
47、 t t双边: t t 2 或 t t 21)原假设 H : 0 0 或 0双边: 0 x n1单边: 右x xx xx x 或 x x 4)拒绝域左双边:二、单正态总体方差检验检验步骤:2 202)备择假设 H1单边:222n1S 2202 22 2 22 23)统计量 x2 212 22 2 2 21例:某村在水稻全面收割前,随机抽取10块地进行实测,亩产量分别为(公斤):540 632 674 694 695705 680 780 845 736若水稻亩产量服从正态分布,可否认为该村水稻亩产标准差不超过去年数值75公斤?第九章 二总体假设检验第一节 概论一、社会现象研究更多的是两个或两个
48、以上概念间的关系1、代际职业流动中,父辈与子辈职业关系2、文化程度与收入3、年龄与娱乐的爱好4、个人品格与文化成就等二、根据变量的丌同层次有丌同的研究方法两变量的二维矩阵yx二分变量定类定序定距(定比)二分本章本章定类定序定距(定比)10章(列联)14(非参数) 11(等级相关)13(方差分析)12(回归与相关)三、独立样本不配对样本1、独立:从两个总体中各抽取一个随机样本进行比较和研究2、配对:在一个样本中,每个样本先后观测两次。先观测的为第一总体,后观测的为第二总体。 第二节 大样本二总体假设检验一、样本总体均值差检验两个总体:A与B 参数为A:B:样本容量足够大(50),大样本均值差检验
49、的步骤:3、统计量:4、拒绝域:2A, ABD0 xA xBD02 2A BnA nBZ 2B, BxA ,xB 趋向正态分布。1、原假设 H 0 : A2、备择假设: H1BD0单边: ABD0或 A双边: A B D0单右:z z ; 单左:z z ; 双边:z z 2二、大样本总体成数差检验二项总体A与B,其总体成数分别为:A:PA;B:PB。PAB nA、nB足够大,PA 、 B 趋向正态分布。 PAPBDop q p q3、统计量:4、拒绝域:大样本成数差检验的步骤1、原假设 H 0 : PAPB D02、备择假设: H 10单边:PAPB D0 或 PAPB D双边:PAPB D0
50、BA A BnA nB z 单右:z z ; 单左:z z ; 双边:z z 21、 A B 为已知,xA xBuA uB N0, 2、 A B 为未知,但 A B从两总体中分别独立抽取随机样本A: xA ,SA ; B:xB ,SB 2 。其余检验步骤与前同统计量:检验步骤与前相同2 222xA xBuA uB1 1snA nBt tnA nB 22 2第三节 小样本二总体假设检验(正态分布状况下)一、小样本总体均值差检验两总体A、B分别满足正态分布: A NuA, A B NuB, B2 2z 统计量: A B 1nA nB2 2 2总体A: NA, A 2 总体B:NB, BSB 2 2