社会统计学SocialStatistics参考培训课件.ppt

上传人(卖家):林田 文档编号:3317718 上传时间:2022-08-19 格式:PPT 页数:149 大小:3.07MB
下载 相关 举报
社会统计学SocialStatistics参考培训课件.ppt_第1页
第1页 / 共149页
社会统计学SocialStatistics参考培训课件.ppt_第2页
第2页 / 共149页
社会统计学SocialStatistics参考培训课件.ppt_第3页
第3页 / 共149页
社会统计学SocialStatistics参考培训课件.ppt_第4页
第4页 / 共149页
社会统计学SocialStatistics参考培训课件.ppt_第5页
第5页 / 共149页
点击查看更多>>
资源描述

1、社会统计学社会统计学Social Statistics1 绪论 单变量的描述统计分析 两个类别变量关系的描述统计 两个尺度变量关系的描述统计 类别变量与尺度变量关系的描述统计 概率与随机变量的概率分布 大数定律、中心极限定理与抽样分布 参数估计 假设检验的基本原理 总体均值与方差的假设检验 两个类别变量关系的假设检验 两个尺度变量关系的假设检验 类别变量与尺度变量关系的假设检验 非参数检验 抽样 时间序列目录目录23456798101112131415161.W.J.Conover著,崔恒建译,实用非参数统计(第三版),人民邮电出版社,2006年4月。2.卢淑华,社会统计学(第三版),北京大学

2、出版社,2005年5月。3.戴维.K.希尔德布兰德、加德曼.R.爱沃森、约翰.H.奥尔德里奇等著,社会统计方法与技术,社会科学文献出版社,2005年6月。4.浙江大学数学系高等数学教研组编,概率论与数理统计,人民教育出版社1979年3月5.尹海洁、刘耳著,社会统计软件SPSS15.0 for Windows 简明教程,2008年12月。6.何书元,概率论与数理统计,高等教育出版社,2006年6月。7.贾俊平 何晓群 金勇进编著,统计学(第五版),中国人民大学出版社,2012年6月。8.同济大学概率统计教研组编著,概率统计(第二版),同济大学出版社,2000年5月。9.易丹辉编著,时间序列分析:

3、方法与应用,中国人民大学出版社,2011年3月。10.美James D.Hamilton著,刘明志译,时间序列分析,中国社会科学出版社,1999年。11.中国统计年鉴http:/参考文献参考文献第一章绪论第一章绪论1社会学研究的过程及统计学的应用2统计分析方法在社会学研究中的作用3抽样方法与统计分析方法的选择4变量的层次及统计分析方法的选择Exe本章习题第一章 绪论第一节 社会学研究的过程及统计学的应用研究开始研究开始确定确定研究课题研究课题探索性探索性调查调查理论假设与理论假设与概念操作化概念操作化测量工具测量工具设计设计调查的调查的实施实施审核、录入审核、录入与录入误差与录入误差的消除的消

4、除统计分析统计分析与理论假设的与理论假设的检验检验研究结束研究结束第一章 绪论第二节 统计分析方法在社会学研究中的作用一、统计分析方法应用水平是社会学研究科学性的重要标志一、统计分析方法应用水平是社会学研究科学性的重要标志保尔拉法格在忆马克思中谈到,马克思认为:“一种科学只有在成功地运用数学时,才算达到了真正完善的地步。”二、统计分析方法应用的目的是要发现和描述社会现象的统计规律二、统计分析方法应用的目的是要发现和描述社会现象的统计规律(一)社会调查资料的特点1、随机性客观现象可分为确定性现象和非确定性现象(随机现象)2、统计规律性:通过对大量个体特征的统计分析来描述和分析社会现象的统计规律。

5、(二)统计学是发现和彰显统计规律的有效工具三、统计学在社会学研究中的地位三、统计学在社会学研究中的地位第一章 绪论第三节 抽样方法与统计分析方法的选择社会调查从研究的范围来分类可以分为全面调查与非全面调查,抽样调查是非全面调查的重要方式。一、总体、个体与样本一、总体、个体与样本(一)总体(population)与个体(case)总体是研究对象的全体。个体也称个案,是构成总体的最小单位,是具体调查分析对象。(二)样本(Sample)是从总体中抽出的用于实施调查研究的对象集合。二、抽样方法与统计分析方法的选择二、抽样方法与统计分析方法的选择应用随机原则获得的样本称为随机样本,否则是非随机样本。社会

6、统计学的内容可分为两大部分:描述统计与推论统计。全面调查,只使用描述统计即可。应用推论统计的必要前提是样本必须是随机样本。第一章 绪论第四节 变量的层次及统计分析方法的选择一、变量的层次一、变量的层次按照变量的取值特征和统计分析时方法应用的特征,变量的层次可以划分为类别变量和尺度变量等两大类。(一)类别变量1、无序类别变量(、无序类别变量(Nominal Variable)也称为定类变量,是测量层次最低的变量。如职业、家庭类型、婚姻状况、专业、人际关系类型、地区类别等等。2、有序类别变量(、有序类别变量(Ordinal Variable)也称为定序变量或序列变量。如职称、职务级别、学生的年级等

7、等。如用1、2、3、4、5、6、7分别表示文盲、小学、初中、高中、大专、大学、研究生。第一章 绪论第四节 变量的层次及统计分析方法的选择(二)尺度变量(Scale Variable)若测量工具有单位,则测量结果就不仅能够比较大小,而且能够比较出大多少或小多少。此种测量就是尺度测量,得到的变量就是尺度变量。尺度变量根据测量工具是否具有绝对零分为定距变量和定比变量。1、定距变量、定距变量无绝对零,若存在零,则这个零是个相对零。如使用摄氏温度计测量的温度便是定距变量。2、定比变量、定比变量定比测量是最高层次的测量,它不仅有相等的单位可以比较被测事物间的数量差异。而且有了绝对0,这样就可以对被测事物间

8、的倍数进行比较。在社会学研究中,常用的有年龄、收入、住房面积等等属于定比变量。第一章 绪论第四节 变量的层次及统计分析方法的选择(三)不同层次变量的功能及转换l 由于对某一事物进行测量时可以使用不同层次的测量工具,因此对同一事物进行测量可能出现多种测量结果。l 设计问卷时,要尽可能多地设计测量层次高的变量。第一章 绪论第四节 变量的层次及统计分析方法的选择二、变量层次与统计分析方法的选择二、变量层次与统计分析方法的选择(一)不同层次单变量统计分析方法的选择对于类别变量,可以使用频次分布表、条形图、圆形图、线形图等来描述变量的分布状态;可以用众数和异众比率描述其集中趋势和离散趋势。对于有序类别变

9、量,还可以用中位数和四分位差或全距描述其集中趋势和离散趋势。对于尺度变量,可以使用频次分布表、直方图、线形图等来描述变量的分布状态,用算术平均数和方差或标准差描述变量的集中趋势和离散趋势。(二)不同层次两个变量关系的统计分析方法的选择分析两个变量间的关系:明确两个变量是否有关系。如果有关系,相关的强度如何?相关的方向怎样等等。两个变量的测量层次不同,应用的统计分析方法也不同。第一章 绪论本章习题 1-1 结合社会学研究的过程谈谈统计学在其中所起的作用是什么?1-2 社会调查资料具有哪些特点?1-3 解释总体、个体、样本这几个概念。1-4 变量可以分为哪些类型?1-5 类别变量与尺度变量的区别是

10、什么?1-6 简要陈述不同层次变量的功能。1-7 举例说明统计学在社会学研究中的应用。第二章单变量的描述统计分析第二章单变量的描述统计分析1单变量的分布及其描述方法2集中趋势3离散趋势Exe本章习题第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法单变量的描述统计就是用统计表、统计图和统计特征值将变量单变量的描述统计就是用统计表、统计图和统计特征值将变量的状态、水平和分布特征表现出来的方法。的状态、水平和分布特征表现出来的方法。一、变量及其分布一、变量及其分布(一)变量的特征 1、变量的含义:、变量的含义:研究对象的每个个体都具有很多属性和特征。比如每个人都有身高、体重、年龄、学历等

11、特征。这些在不同个体上具有不同表现的特征就称为变量。统计学中的变量在个体上是相对稳定的,在不同个体上表现出变化。这类变量也称为随机变量。2、变量取值的两个特征、变量取值的两个特征 完备性。完备性是指变量的取值必须涵盖全部的个案。互斥性。互斥性是指变量的取值之间不能互相包容。第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法一、变量及其分布(二)变量的分布变量分布指个体在变量取值上的分布。对一组观察值,一般用频次分布、频率分布和累积频率分布三种方法描述变量分布。1、频次分布:、频次分布:变量取值与取值上拥有的个体数的集合称为频次分布。若变量有m个取值,则该变量的频次分布可表示为:例如例

12、如:调查1000户家庭,7种家庭类型户数的频次分布为:(核心家庭,707户)(直系家庭,182户)(大家庭,7户)(断代家庭,9户)(单亲家庭,37户)(单身家庭,15户)第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法一、变量及其分布一、变量及其分布(二)变量的分布2、频率分布:、频率分布:变量取值与取值上拥有的个体数的频率的集合称为频率分布。将频率分布的频率乘以100%,即是百分比。频率分布可以表示为:例如例如:调查1000户家庭,7种家庭类型户数的频率分布为:(核心家庭,0.707)(直系家庭,0.182)(大家庭,0.007)(断代家庭,0.009)(单亲家庭,0.037)

13、(单身家庭,0.015)(其它家庭,0.043)第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法一、变量及其分布一、变量及其分布(二)变量的分布3、累计频率分布:、累计频率分布:将上述频率分布中的频率按变量的取值排列顺序逐项累加就形成累积频率分布。分布可以表示为:例如例如:调查1000户家庭,7种家庭类型户数的累计频率分布为:(核心家庭,0.707)(直系家庭,0.889)(大家庭,0.896)(断代家庭,0.905)(单亲家庭,0.942)(单身家庭,0.957)(其它家庭,1)第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法一、变量及其分布一、变量及其分布(二)变量

14、的分布关于关于频次分布、频率分布和累计频率分布频次分布、频率分布和累计频率分布的总结的总结可以清楚地表现数据的分布特征和统计规律,但只适用于类别变量。例如文化程度、职业、职称等。对取值很多的尺度变量,通常将变量的取值划分成段,如年龄段、收入段,再累计该段中的人数,来表示变量的分布。尺度变量取值的数据有两种:离散性数据离散性数据,如年龄。通常取整数,在相邻的两个数之间不存在其它的数据。连续性数据连续性数据,如身高。如果测量的单位可以达到无穷小的话,理论上,任何两个数之间都有无穷多个数。尺度变量的分布在统计表中予以详细说明。第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法二、统计表 表

15、现数据分布的最常用方法是统计表。将数据按照一定的顺序排列在由横行、纵列交叉结合而成的表格上。(一)统计表的结构 统计表可分为横表与竖表横表与竖表,应用较多的是竖表(教材表2-1)。表号表号标题标题表头表头表身表身主词主词宾词宾词第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法(二)描述类别变量分布特征的统计表简单表 简单表简单表:主词按变量的取值一一列出,适用于表现类别变量的分布。主词是类别变量的取值,宾词是各个取值出现的频次、频率或百分比及累计频率或累计百分比等。(教材表2-2)。(1)表的正上方须有标题,简明、扼要、准确地说明表的内容。(2)表的左上方应有表的编号。(3)数字部

16、分横行间不必标划线条,两侧不画纵线,呈开口式。(4)数字书写要工整,小数点上下对位。(5)当某项数字缺少时用“”表示。(6)如有对表的其它说明可在表的下面写出表注。制作原则制作原则第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法二、统计表二、统计表(三)描述尺度变量分布特征的统计表分组表 1、分组表的特点:、分组表的特点:尺度变量取值很多,可以采用分组表来表现尺度变量的分布特征。分组表的主词是将变量的取值按一定的标准分组或分段的统计表。主词中每个组的最大值称为组上限,最小值称为组下限。(教材表2-3)第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法二、统计表二、统计表(

17、三)描述尺度变量分布特征的统计表分组表 1、分组表的制作步骤:、分组表的制作步骤:(1)确定全距。全距就是变量观察值的最大值与最小值之差。(2)确定组距与组数。一般是2、3、5、10或它们的倍数。(3)确定各组的上下限。最低组的下限要小于最小的观察值,最高组的上限要大于最大的观察值。连续型数据的一组的下限与下一组的上限为同一值,习惯上以组的上限为实,下限为虚。(即“下组限不包括在内”的原则)(4)登记各组中个案的频次,计算频率。将个案按照变量取值大小划分到各组中,按需要统计出频次、频率及累计频率等,并将统计出的数据置于相应单元格内,绘制成分组表。二、统计表二、统计表(三)描述尺度变量分布特征的

18、统计表分组表 1、分组表的制作步骤、分组表的制作步骤:确定全距;确定组距与组数;确定各组的上下限。;登记各组中个案的频次,计算频率。第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法二、统计图二、统计图 统计图就是用图的形式来表示变量的分布特征。比统计表更直观、生动、易记忆,缺点是不如统计表精确。变量的测量层次不同,使用的图形也不尽相同。不同类型的图形表示数据大小的方式不同。用图形表现数据的分布特征时有一定的规范和要求。每个图的左下方都要有图的编号,图的正下方要有图的名称,用以简明扼要地说明图的内容。如有其它的说明可以在图的下面写出图注。如果图中有多种绘图元素,可以用图例的形式予以说

19、明。第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法二、统计图二、统计图(一)描述类别变量分布特征的统计图1、简单条形图、简单条形图:条形的长短或高低来表示数据大小。以类别变量的取值为横轴的分类标志,以纵轴表示频次或频率。(教材图2-1)二、统计图二、统计图(一)描述类别变量分布特征的统计图2、圆形图、圆形图:也称饼图。一般用于描述类别变量中各类别所占的比例。是以一个圆为整体,以每一部分所占的比例来分割圆心角,圆心角所对应的扇形即表示每一部分所占的比例。第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法二、统计图二、统计图(一)描述类别变量分布特征的统计图3、线形图、线形

20、图:线形图是在坐标系内用折线或连续曲线表示事物的分布或变化的图。第二章 单变量的描述统计分析第一节 单变量的分布及其描述方法图图2-3 2000年全国家庭户主受教育程度分布年全国家庭户主受教育程度分布二、统计图二、统计图(二)描述尺度变量分布特征的统计图 1、直方图:、直方图:描述尺度变量分布,用条形长短或高低来表现数据大小。与简单条形图不同的是,条的宽度表示分组的组距,条与条之间不分离。直方图以尺度变量为横轴,以分组的组限为横轴的数据标志,以纵轴表示频次或频率。分组表的数据就可以用直方图来表示。用表2-4的频率分布数据制作的直方图如图2-4所示。第二章 单变量的描述统计分析第一节 单变量的分

21、布及其描述方法20406080100120140160住住 房房 使使 用用 面面 积积10%20%30%40%50%百百分分比比图2-4 住房使用面积分布直方图简单条形图简单条形图用于描述用于描述类别类别变量的分布变量的分布直方图直方图用于描述用于描述尺度尺度变量的分布变量的分布直方图的典型应用是人口金字塔人口金字塔。是一种横的直方图,纵轴是以5岁为组距的分段的年龄,横轴是人数。由男性年龄分布和女性年龄分布两个直方图合并而成。图2-5是中国2008年的人口金字塔。图图2-5 2008年中国人口金字塔年中国人口金字塔资料来源:根据中国人口与就业统计年鉴2009 相关数据绘制二、统计图二、统计图

22、(二)描述尺度变量分布特征的统计图2、累积频率直方图:、累积频率直方图:以尺度变量为横轴,以分组的组限为横轴的数据标志,以纵轴表示累积频率,制作的直方图就是累积频率直方图。用表2-4的累积频率分布数据制作的累积频率直方图如图2-6所示。20406080100120140160住住 房房 使使 用用 面面 积积0%25%50%75%100%百百分分比比图图2-6 住房使用面积累积频率直方图住房使用面积累积频率直方图二、统计图二、统计图(二)描述尺度变量分布特征的统计图3、线形图:、线形图:将直方图或累计频率直方图每条顶部的中点用直线连接即构成描述尺度变量分布的线形图。图图2-8 住房使用面积累积

23、频率线形图住房使用面积累积频率线形图图图2-7 住房使用面积分布线形图住房使用面积分布线形图(二)描述尺度变量分布特征的统计图4、点状分布图:、点状分布图:直方图虽能较好表现尺度变量的分布特征。但它通过分组将尺度变量转化成了顺序变量,组内数据值无法表现。若数据量足够大,可用点状分布图来详细地表现变量的分布特征。点状分布图以尺度变量为横轴,用点的累积表现变量取值上的个体数。图图2-9 居民住房使用面积的点状分布图居民住房使用面积的点状分布图第二章 单变量的描述统计分析第二节 集中趋势 用图和表的形式虽然能够很好地表现变量的分布状况,但是不够简洁,尤其是将不同的总体或样本进行比较时,使用表或图难以

24、得出清晰的结论。很多情况下,我们不需要对所有的数据都有详尽的了解。在对不同总体进行比较时,也不可能一一地使用每一个数据,这就需要对变量的全部取值进行概括,找出一个典型的统计特征值来代表全体数据。集中趋势(和离散趋势)就是概括地说明变量的状态或水平的统计特征值。由于测量层次不同,变量取值的数据特征不同,用于概括变量状态的集中趋势也不同。常用的集中趋势统计量集中趋势统计量:众数;中位数;算数平均数。常用的离散趋势统计量离散趋势统计量:异众比率;极差(全距);四分位差;方差与标准差。第二章 单变量的描述统计分析第二节 集中趋势 一、众数一、众数M M0 0 众数(众数(mode)根据频次来确定的集中

25、趋势量值。在一个变量的取值中,出现频次最多频次最多的变量值就是众数。表2-1中,“初中”是我国家庭户主文化程度的众数。第二章 单变量的描述统计分析第二节 集中趋势 一、众数一、众数M M0 0 关于众数的几点注意事项关于众数的几点注意事项(1)众数适用于任何层次的变量,只要是知道了频次分布就可以找到众数。但主要用于概括和描述类别变量。(2)对于分组的尺度变量,出现频次最高的组称为众数组,可以用众数组的组中值(组上限和组下限的平均值)近似地代替众数。分组数据的众数可以精确计算(可进一步参见李金昌、苏为华,统计学,机械工业出版社,2007年2月出版,72页)。但计算出来的众数只是理论众数,并非实际

26、上取值最多的数据。)(3)众数较适用于单峰分布的情况。多峰分布的众数可能不唯一,所以通常不使用众数来概括变量分布的状态。第二章 单变量的描述统计分析第二节 集中趋势 二、中位数二、中位数MdMd 中位数(中位数(median)是位于数列中点的数值,它恰好把全部数据分为两半,比它大的数据个数与比它小的数据个数正好相等。因为确定中位数需要比较数据的大小,因此定序以上的变量才可以使用。但如果一个序列变量的取值很少,也不适合用中位数作为集中趋势来概括全部数据。实际上,中位数适用于取值很多的序列变量和尺度变量。二、中位数二、中位数MdMd(一)未分组数据中位数的计算 对于原始的数据,只要将数据按大小顺序

27、排成数列即可以找到中位数。()(1)222NNdxxM如在2、4、6、8、10、12、14、16这个数列中,中位数是9。当数据总数为奇数个时当数据总数为奇数个时中位数是第(N+1)/2 个数。如数列2、4、6、8、10、12、14有7个数,(7+1)/2=4第4个数是8,即中位数。当数据总数为偶数个时在(N+1)/2的地方没有数值,则中位数为:(式2-1)二、中位数二、中位数MdMd(二)分组数据中位数的计算 在分组数据中,因为没有了数据的原始值,无法直接寻找中位数,需要先找到中位数组,第N/2 个数据所在的组为中位数组。确定中位数组以后利用式(2-2)计算中位数:()2dNCfMLhn(式2

28、-2)式中,L是中位数组的下限,h是组距,n是中位数组的频次;N为数据总个数;Cf是L以下的累积频次第二章 单变量的描述统计分析第二节 集中趋势分分组组数数据据的的中中位位数数计计算算举举例例()2dNCfMLhn883/2=441.5中位数所在组中位数所在组即:住房面积的中位数为54.3平方米。三、算数平均数三、算数平均数 算术平均值简称平均值,是全部数据的平均水平。算术平均值主要适用于尺度变量。(一)未分组数据算数平均值的计算1、根据原始数据计算 对于变量的一组观察值,可以用原始数据来直接计算算数平均值。计算公式为:第二章 单变量的描述统计分析第二节 集中趋势1niixxn(式(式2-3)

29、三、算数平均数三、算数平均数(一)未分组数据算数平均值的计算1、根据原始数据计算1niixxn【例【例2-2】已知5名女性身高分别为:1.58 1.60 1.64 1.56 1.52(单位:米);5名男性身高分别为:1.68 1.72 1.76 1.64 1.60(单位:米)。分别计算他们的平均身高。511.58 1.60 1.64 1.56 1.521.58()55iixxm女511.68 1.72 1.76 1.64 1.601.68()55iixxm男 三、算数平均数三、算数平均数(一)未分组数据算数平均值的计算2、根据频次数据计算(式(式2-4)11 122121kiiikkkkiin

30、 xn xn xn xxnnnn计算得平均年龄为18岁。三、算数平均数三、算数平均数(二)分组数据的算数平均数计算 如果数据存在于分组表中,则以组中值来代替原始值计算分组数据的平均值。设数据被分为k组,每组的组中值(组上限和组下限的平均值)为bi,每组的频次为ni。则分组数据的平均值的计算公式为:式(2-5)请根据表2-4的数据,计算被调查者住房面积的平均值。第二章 单变量的描述统计分析第二节 集中趋势11kiiikiinbxn该统计表中的最低组没有组下限,为计算方便可以设最低组下限为0。11kiiikiinbxn91912 10 132 302 1504 1705163058.47()2 1

31、32430 1987630924883iiiiinbxn 平方米 四、众数、中位数和平均值的比较四、众数、中位数和平均值的比较(二)分组数据的算数平均数计算第二章 单变量的描述统计分析第二节 集中趋势相同点:相同点:都通过一个数值来描述数据的整体特征以便简化资料。不同点:不同点:一般地说来,均值适用于尺度变量,中位数适用于定序以上变量,而众数适用于所有的变量。注意:注意:对于测量层次一定的变量应选择代表性最好的特征值。例如,对于尺度变量,有众数、中位数和算术平均数三个集中趋势量值可以使用。由于众数和中位数都是用变量的一个值来概括全部数据,其代表性要差。而求平均值时所有数据的值都参与了计算,所以

32、平均值是概括性最好、代表性最强的集中趋势量值。而且,由于尺度变量大都取值很多,有时可能呈现多峰分布,一般不用众数,也很少用中位数来描述尺度变量。对于定序变量,有众数和中位数两个集中趋势量值可以使用,由于中位数体现了数据能够比较大小的功能,一般情况下,认为中位数的代表性要好于众数。而无序类别变量只能使用众数来描述。第二章 单变量的描述统计分析第三节 离散趋势 仅描述观察值的集中趋势远远不够,还需要找到一些表示数据分散程度的统计特征值。主要原因主要原因有二:有二:原因原因1:变量的取值范围不同,集中趋势的代表性不同。例如:例如:中国职工年平均工资,1978年为615元,2009年则是29229元。

33、1978年职工年工资的分布是在216元到3600元之间。2009年职工年工资的分布是在6900元到数万元之间。因此,有理由认为:因此,有理由认为:1978年的615元对当年职工工资总体的代表性高于2009年的29229元。第二章 单变量的描述统计分析第三节 离散趋势 仅描述观察值的集中趋势远远不够,主要原因有二:仅描述观察值的集中趋势远远不够,主要原因有二:原因原因1:变量的取值范围不同,集中趋势的代表性不同。原因原因2:变量取值范围即便相同,但变量分布特征不同时,集中趋势的代表性也不同。例如:例如:两个班级的数学成绩均值均为82.64分。变量值的分布范围均为从60分到100分(取值分布见教材

34、图20-10)。数学数学10090807060一班一班二班 二班 由图2-10可见,二班的均值更有代表性。第二章 单变量的描述统计分析第三节 离散趋势 一、异众比率一、异众比率 (一)含义:非众数在数据总数N中所占的比例。(二)作用:衡量众值的代表性。非众数的频次占的比例越小,众数的代表性就越好。(三)算例:见教材例2-5。第二章 单变量的描述统计分析第三节 离散趋势 二、极差(全距)二、极差(全距)(一)含义:极差是变量取值的范围。极差一般用R(Range)来表示。R=最大值最小值(二)作用:主要配合中位数或平均值说明数据的离散程度的统计特征值。极差小表示数据分布集中,极差大表示数据分布的分

35、散。(三)缺点:极差的值是由两个端点决定的,因此个别远离群体的奇异值会极大地改变极差。以至于有时极差不能真正反映全布数据的离散程度。第二章 单变量的描述统计分析第三节 离散趋势 三、四分位差三、四分位差 (一)含义:对于定序以上变量,将数据按大小排成数列以后,从下向上数第25%的数据所在位置的值称为下四分位数,用Q25表示。从下向上数第75%的数据所在位置的值称为上四分位数,用Q75表示。上下四分位数之差即为四分位差,一般用Q(quartiles)来表示。Q=Q75-Q25 式(2-7)(二)作用:四分位差反映了中间50%数据的分散程度,它既比较好地说明了数据的离散状况,又减少了极端数据所造成

36、的影响。由于中位数处于中间位置,四分位差在一定程度上说明了中位数的代表性。第二章 单变量的描述统计分析第三节 离散趋势 三、四分位差三、四分位差 (三)未分组数据四分位差的计算:计算四分位差要先计算上下四分位数,为此,需要先确定上下两个四分位数的位置,找到两个分位值后相减即得四分位差。根据四分位数的定义可得:如果四分位数所在位置是整数,四分位数就是该位置对应的值。如果是小数,且小数位是0.5,则取该位置两侧值的平均数。如果是在0.25或0.75的位置上,则四分位数等于该位置下侧值加上按比例分摊位置两侧数值的差值。具体计算方法见【例2-6】【例2-6】一组数据是某单位49名职工的住房面积。计算住

37、房面积分布的四分位差。某单位职工的住房面积(单位:平方米)33、42、42、48、48、52、55、58、62、65、65、65、66、66、66、66、68、68、68、68、68、70、70、70、72、72、72、72、75、75、75、76、76、78、85、87、90、92、95、98、103、109、110、112、118、125、130、178、179 解:n=49 Q25 的位置=n/4=49/4=12.25,第12.25个数据两侧的数据是65和66。因此,下四分位数为:Q25=65+0.25(66-65)=65.25 同理,Q75 的位置=3n/4=3*49/4=36.75,

38、第36.75个数据两侧的数据是87和90。因此,上四分位数为:Q75=87+0.75(90-87)=89.25 因此,四分位差为:Q=Q75-Q25=89.25-65.25=25 即:员工住房使用面积中间50%的数据的离散范围为25平方米。第二章 单变量的描述统计分析第三节 离散趋势四、方差与标准差四、方差与标准差 极差和四分位差能较好地表明数据离散情况,但只给出了数据的分布范围,只利用了数据的部分信息。极差和四分位差相等的两组数据其分布情况可能差异很大。对于尺度变量概括其离散程度最好的特征值是方差和标准差。(一)平均差1、离差:变量的一个观察值与变量平均值之间的差。idxx2、平均离差:把所

39、有离差加在一起再平均,能反映平均离散情况。平均差则是离差绝对值的平均值,也称平均离差。1niixxDn第二章 单变量的描述统计分析第三节 离散趋势四、方差与标准差四、方差与标准差 (二)方差、标准差 方差和标准差是用平方的方法消除了离差中的绝对值后形成的统计特征值。方差是离差平方的平均值,标准差是方差的平方根。221()niixxn21()niixxn方差方差:式(2-13)标准差标准差:式(2-14)四、方差与标准差(二)方差、标准差 1、用原始数据计算方差、标准差 直接使用式(2-13)和(2-14)。【例2-8】五名学生数学成绩分别为72、81、86、69、57,计算这五名学生数学成绩分

40、布的方差和标准差。12345522222217281 8669577357273181 73886731369734577316()(1)813(4)(16)506iixxxxxxxxxxxxx 221()niixxn2506101.25506101.210.065四、方差与标准差四、方差与标准差 (二)方差、标准差 2、用频次分布数据计算方差和标准差 设变量有k个取值,每个取值出现的频次为ni,则利用频次分布数据计算方差和标准差的公式为:方差方差:式(2-15)标准差标准差:式(2-16)2211()kiiikiixxnn211()kiiikiixxnn【例2-9】计算【例2-3】中志愿者年

41、龄分布的方差和标准差。四、方差与标准差四、方差与标准差 (二)方差、标准差 3、用分组数据计算方差和标准差 用每一组的组中值来代替该组的变量值计算方差和标准差,用分组数据计算方差和标准差的公式为:方差方差:式(2-17)标准差标准差:式(2-18)【例2-10】根据表2-4数据,计算居民住房面积的方差与标准差。2211()kiiikiibxnn211()kiiikiibxnn922191()436636.01494.49883iiiiibxnn222.242211()kiiikiibxnn第二章 单变量的描述统计分析本章习题 参见教材习题2-1到2-8。第三章两个类别变量关系的描述统计第三章两

42、个类别变量关系的描述统计1列联表分析2分类图3列联相关系数4等级相关系数Exe本章习题第三章 两个类别变量关系的描述统计 社会学研究中不仅要对单个变量的分布进行描述,更多的是要分析变量之间的关系。比如,分析性别与体育爱好的关系、职业与政治参与的关系、文化程度与生育子女数量的关系、收入与住房面积的关系等等。对测量层次不同的变量之间的关系,其分析方法也不同。分析两个类别变量类别变量的关系,如性别与职业的关系、性别与文化程度的关系、文化程度与生活满意度之间的关系等等,可采用三种方法三种方法:交叉列表交叉列表:从两个变量的交叉分布来分析两者关系。分类图分类图:直观地表现变量间的关系。相关系数相关系数:

43、精确地描述变量之间关系的强度。第三章 两个类别变量关系的描述统计第一节 列联表分析一、两个类别变量相关的概念一、两个类别变量相关的概念 如果有两个类别变量,在一个变量取不同类别时,另一个变量的分布有显著差异。则认为两个类别变量相关。如果一个变量取不同类别时,另一个变量的分布没有显著差异,就认为这两个变量不相关。两个类别变量之间的关系要通过两个变量的交叉分布来描述。这种分析方法称为交叉列表分析,构成的表格称为交叉表或列联表。两个类别变量之间的相关也称为列联相关。第三章 两个类别变量关系的描述统计第一节 列联表分析二、列联表的结构二、列联表的结构 列联表也是统计表的一种,它与简单表和分组表不同的是

44、,在一个表中表现了两个不同变量的分布,因此也被称为复合表。表的主词和表头分别是两个变量的取值。表身中单元格的数据是两个变量交叉后的频次或频率分布。三、列联表的种类三、列联表的种类 设 x与y是两个类别变量,x分为x1,x2xr共r 类,y分为y1,y2yc共c 类,数据总个数为n。根据列联表中单元格数据的不同,列联表可分为频次分频次分布的列联表布的列联表和频率分布的列联表频率分布的列联表。第三章 两个类别变量关系的描述统计第一节 列联表分析 三、列联表的种类三、列联表的种类(一)频次分布的列联表第三章 两个类别变量关系的描述统计第一节 列联表分析三、列联表的种类(一)频率分布的列联表四、列联表

45、中的分布四、列联表中的分布(一)联合分布:(一)联合分布:即列联表中间部分的数据 nij或 pij,它们都是由两个变量共同决定的。(二)边缘分布:(二)边缘分布:列联表中最下面一行nj或 pj是变量y的分布,最右面一列ni或pi是变量x的分布。(三)条件分布:(三)条件分布:如果将一个变量取固定值,另一个变量的分布就是条件分布。使用条件分布的目的是要看当一个变量取不同类别时另一个变量的分布是否有差异。这种差异通过频次分布难以表现,所以条件分布大都是采用频率分布。用单元格的频次除以对应列的总频次,即nij/nj构成的分布称为关于关于x x的条件分布的条件分布,也就是当y取固定值时x的分布。同理,

46、nij/ni*构成的分布称为关于关于y y条件分布条件分布。五、列联表中变量的相互独立性五、列联表中变量的相互独立性 在列联表中,可以通过比较条件分布来研究类别变量之间的关系。当一个变量取不同类别时,另一个变量的分布有差异,即说明两个变量是相关的。从频率分布看,两个变量相互独立的表现形式是条件分布等于边缘分布。(推导见教材式3-1到3-4)一般化一般化等号左侧等号左侧分子分母分子分母同乘于同乘于n n移项移项 一、分类条形图一、分类条形图 以一个变量的取值作为横轴的标记,用另一个变量的取值来分类。以不同标志点上分类变量的频次或频率作为条的长度绘制条形图。如果在每个标志点上分类变量各个条长基本相

47、等,则说明两个变量基本不相关。第三章 两个类别变量关系的描述统计第二节 分类图文化程度文化程度大学专科及以上中专高中初中小学未上过学百百分分比比50.0%40.0%30.0%20.0%10.0%0.0%女男性别图图3-1 不同性别的残疾人文化程度分布的条形图 二、分类圆形图二、分类圆形图 描述变量各取值上的个案数在总数中所占的比例。多个圆形可以分开画,也可以从大到小叠在一起。如果在不同的圆形中各个扇形所占的比例基本相同,就可以认为两个变量不相关。第三章 两个类别变量关系的描述统计第二节 分类图图图3-2 不同性别的残疾人文化程度分布的圆形图未上过学小学初中高中中专大学专科文化程度文化程度男男女

48、女 三、多线图三、多线图 在坐标系内绘制分类变量取不同值时,另一个变量分布的多条折线。如果这些折线基本重合,或者相差不大,则认为两个变量不相关。第三章 两个类别变量关系的描述统计第二节 分类图图图3-3 不同性别的残疾人文化程度分布的线形图 图表法只能粗略说明两个变量间是否相关,为精确度量变量之间关系的强度和方向,统计学家根据不同测量层次的变量建构了一系列的统计指标,这就是相关系数。两个无序类别变量之间的关系可以用列联相关系数来描述。在多年的统计实践过程中,统计学家建构了多个列联相关系数。概括起来,基于两种方法基于两种方法,一是基于消减误差比例的方法来建构,二是基于卡方值来建构。后者将在卡方检

49、验中予以介绍,本节只介绍基于消减误差比例的方法建构的列联相关系数。列联相关系数是描述两个类别变量关系的特征值。由于有更好的特征值来描述两个有序类别变量之间的关系强度。因此,列联相关系数主要用于描述两个无序类别变量,或是一个无序类别变量与一个有序类别变量之间的关系。第三章 两个类别变量关系的描述统计第三节 列联相关系数一、消减误差比例的统计思想一、消减误差比例的统计思想(一)引例 比如有4名学生,某次考试成绩的平均分是80分。如果猜测每名学生的考分,唯一可以参考的信息就是平均成绩。只能猜测每人都得80分。实际上,这4名学生的成绩是90、85、75、70。猜测所产生的总误差是:第三章 两个类别变量

50、关系的描述统计第三节 列联相关系数假设前两名学生是女性,知道两名女生的平均成绩是87.5,后两名学生是男性,知道两名男生的平均成绩是72.5。现在再来猜测这4名学生的成绩时就可以以性别为参考。女生的成绩都猜测为87.5分,男生的成绩都猜测为72.5分。猜测所产生的总误差是:1908085 808075807030E 29087.587.5 857572.572.57010E 一、消减误差比例的统计思想一、消减误差比例的统计思想(一)引例知道性别与考试分数之间的关系后,预测减少的误差比例是:第三章 两个类别变量关系的描述统计第三节 列联相关系数可见可见:借助性别来猜测学生的成绩可以消减掉67%的

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 常用办公文档
版权提示 | 免责声明

1,本文(社会统计学SocialStatistics参考培训课件.ppt)为本站会员(林田)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|