1、基础统计学简介基础统计学简介2023-2-82第一节第一节 概述概述一、统计学一、统计学统计学是应用数学的一个分支统计学是应用数学的一个分支描述、组织和解释描述、组织和解释数据或信息的一套工具和技数据或信息的一套工具和技术术利用概率论建立数学模型,收集所观察系统的利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考断和预测,为相关决策提供依据和参考2023-2-83二、两个概念两个概念 描述性统计(Descriptive Statistics)推论性统计(Inferential Statist
2、ics)2023-2-841、描述性统计、描述性统计组织、描述和总结所收集到的一组数据的组织、描述和总结所收集到的一组数据的特征特征它所描述的是这组它所描述的是这组数据本身的分布特征数据本身的分布特征 测量层次测量层次(适用于较低测量层次的统计法,可以适用(适用于较低测量层次的统计法,可以适用于较高层次,反之则不成立)于较高层次,反之则不成立)2023-2-852、推论统计、推论统计从一个较小的群体中了解的信息并得出从一个较小的群体中了解的信息并得出相关结论,推广到更大的一个群体相关结论,推广到更大的一个群体我们把较小的这个群体,也就是我们收集了数我们把较小的这个群体,也就是我们收集了数据的群
3、体称之为据的群体称之为样本样本(sample),把更大的),把更大的那个群体,也就是我们所感兴趣的、要研究的那个群体,也就是我们所感兴趣的、要研究的对象群体称之为对象群体称之为总体总体(population)。)。统计值统计值参数值参数值2023-2-86三、变量的层次三、变量的层次定类变量:按事物性质划分,是一种分类体系。定类变量:按事物性质划分,是一种分类体系。比如:性别,婚姻状况等。比如:性别,婚姻状况等。定序变量:数据具有某种逻辑顺序,有高低、定序变量:数据具有某种逻辑顺序,有高低、大小、强弱差异。比如等级评定、学历、喜爱大小、强弱差异。比如等级评定、学历、喜爱程度等。程度等。定距变量
4、定距变量:反映事物在数量方面的差异,具有:反映事物在数量方面的差异,具有相等的单位。比如智商、温度等。相等的单位。比如智商、温度等。定比变量定比变量:不仅具有相当单位,还具有实际意:不仅具有相当单位,还具有实际意义的绝对零点。比如年龄、收入等。义的绝对零点。比如年龄、收入等。2023-2-87适用的运算形式适用的运算形式、定类变量定类变量定序变量定序变量定距变量定距变量定比变量定比变量2023-2-88第二节第二节 单变量描述统计单变量描述统计一、基本技术一、基本技术(一)定类层次(一)定类层次1、次数分布、次数分布2、比例、比例3、比率、比率4、对比值、对比值5、图示法、图示法2023-2-
5、891、次数分布、次数分布(frequency distribution)原理与做法:原理与做法:思考:从右边思考:从右边两个表格可以两个表格可以说明什么?不说明什么?不可以说明什么?可以说明什么?职业职业次数次数干部干部110工人工人152农民农民288总数总数550职业职业次数次数干部干部50工人工人135农民农民295总数总数4802023-2-8102、比例(、比例(proportions)每类的次数除以总数每类的次数除以总数原理:使不同样本的总数变成同一个基数,原理:使不同样本的总数变成同一个基数,即都以即都以1为基数,就可以比较了为基数,就可以比较了nfp/2023-2-811职业
6、职业次数次数比例(比例(p)干部干部1100.200工人工人1520.276农民农民2880.524总数总数5501.000职业职业次数次数比例(比例(p)干部干部500.104工人工人1350.281农民农民2950.615总数总数4801.0002023-2-8123、比率(、比率(rates)原理:把计算比例时所用的基数扩大原理:把计算比例时所用的基数扩大百分率百分率(f/n)*100千分率千分率 f/n*1000万分率万分率 f/n*100002023-2-813职业职业次数次数比例(比例(p)百分比百分比干部干部1100.20020.0工人工人1520.27627.6农民农民2880
7、.52452.4总数总数5501.000100.0职业职业次数次数比例(比例(p)百分比百分比干部干部500.10410.4工人工人1350.28128.1农民农民2950.61561.5总数总数4801.000100.02023-2-8144、对比值(、对比值(ratios)A数值与数值与B数值的对比值,就是数值的对比值,就是A除以除以B全校学生全校学生43285人,教师人,教师6118人人生师比为:生师比为:43285/61187.1:12023-2-8155、图示法、图示法长条图:长条图:bar chart图图3 3-2 2 不不同同年年龄龄段段领领导导干干部部具具备备基基本本科科学学素
8、素养养的的比比率率(%)20.51610.111.1012345678910111213141516171819202122比率(%)20.51610.111.118-2930-3940-4950-592023-2-816圆瓣图:圆瓣图:pie chart图4:调查对象年龄分组图示37%43%20%1834岁3549岁5064岁2023-2-817(二)定序层次(二)定序层次1、累加次数、累加次数2、累加百分比、累加百分比2023-2-8182023-2-819(三)定距层次(三)定距层次1、分组、分组组限:上限、下限组限:上限、下限组距:组距:示例示例2023-2-8202、图示、图示(1)
9、矩形图(直方图)矩形图(直方图)histogram2023-2-821(2)线形图()线形图(Line Chart)2007年2007年2006年2006年2005年2005年2004年2004年2003年2003年150100501701287140282023-2-822二、二、集中趋势测量法集中趋势测量法集中趋势的量度(集中趋势的量度(measures of central tendency):共性:共性找出找出一个数值来代表变项的资料分布,以来代表变项的资料分布,以反映资料的集结情况反映资料的集结情况可以根据这个代表值来估计或预测每个研可以根据这个代表值来估计或预测每个研究对象的数值究
10、对象的数值2023-2-823(一)定类变项:众数(一)定类变项:众数(mode)次数最多之值次数最多之值2023-2-824(二)定序变项:(二)定序变项:中位数(中位数(median)一个序列的中央位置之值,即高于此值也一个序列的中央位置之值,即高于此值也有有50%50%的个案,低于此值也有的个案,低于此值也有50%50%按照某种顺序排列,之后寻找位于频次中按照某种顺序排列,之后寻找位于频次中间的值间的值2023-2-825求中位值求中位值 MdMd位置位置=(n+1n+1)/2/2有男女两组成绩的定序数据有男女两组成绩的定序数据男:优,优,良,良,男:优,优,良,良,中中,中,中,中,差
11、,中,中,中,差女:女:优,优,优,良,优,优,优,良,良,良,中中,中,中,中,差,中,中,中,差2023-2-826(三)定距变项:(三)定距变项:平均值(平均值(mean)nxx2023-2-827报纸上报道有个人在一条河中淹死了,这条河的平均深度仅2 尺。怎么回事?平均数怎么回事?平均数怎么回事?2023-2-828答案:这个人是在一个10多尺深的陷坑处沉下去的。2023-2-829吉斯莫先生的企业招新员工,他承诺所有员工的平均薪金是每周300 元。萨姆十分乐意地接受了这份工作,但没过多久就发现没有一个普通员工的工资超过每周100 元。怎么回事?2023-2-830答案答案原来吉斯莫的
12、企业中有少数高薪管理者是他的亲戚,由于存在极端值的影响,平均工资虽然很高,但考虑一下众数,你就会发现大多数人的工资都很低。2023-2-831骗人的平均数骗人的平均数不宜使用均值的情况:不宜使用均值的情况:极端值非常特殊,代表性有问题极端值非常特殊,代表性有问题2023-2-832三、离散趋势测量法三、离散趋势测量法(measures of variability):异质性):异质性求出一个值表示个案与个案之间的差异求出一个值表示个案与个案之间的差异情况情况2023-2-833(一)定类变项(一)定类变项n为全部个案数目,为全部个案数目,fmo是众值的次数是众值的次数 离异离异/异众比率异众比
13、率,简写简写v nfmonv2023-2-834某院系对大四学生的就某院系对大四学生的就业意愿进行了调查,请业意愿进行了调查,请根据右表进行有关阐述。根据右表进行有关阐述。想就业的想就业的类型类型男生男生女生女生自主创业自主创业123外企员工外企员工3120中学教师中学教师2652公务员公务员510总数总数74852023-2-835(二)定序变项(二)定序变项四分位差四分位差:将一组数据按顺序排列,将数据:将一组数据按顺序排列,将数据的个数分为四个相等的部分的个数分为四个相等的部分除去两端的两个除去两端的两个25%25%的数据,以中间的数据,以中间50%50%的数的数据所占的范围作为数据分散
14、程度的指标据所占的范围作为数据分散程度的指标41n341nQ31)(位置位置Q2023-2-836(三)定距变项(三)定距变项全距(全距(range)、标准差()、标准差(standard deviation)、方差()、方差(variance)全距全距=最大数最大数-最小数最小数简单但粗糙简单但粗糙2023-2-8372 2、标准差反映的是每一个个案的分值与平、标准差反映的是每一个个案的分值与平均的分值之间的差距,简单来说,就是平均均的分值之间的差距,简单来说,就是平均差异有多大。差异有多大。标准差越大表示差异越大。标准差越大表示差异越大。nxxS2)(2023-2-8383、方差、方差标准
15、差的平方标准差的平方2023-2-839五、单变量描述统计的作用五、单变量描述统计的作用样本情况报告样本情况报告了解数据的基本情况(判断数据质量)了解数据的基本情况(判断数据质量)2023-2-840众数众数中位数中位数平均值平均值集集中中趋趋势势值值离离散散趋趋势势值值异众比率异众比率四分位差四分位差全距全距标准差标准差2023-2-841六、单变量描述的操作六、单变量描述的操作1、次数、百分数等、次数、百分数等Frequencies2、中位数等、中位数等Frequencies+statistics3、均值与标准差、均值与标准差Descriptive2023-2-842第三节第三节 双变量描
16、述性统计双变量描述性统计事物之间的关系确定性关系(函数关系)非确定性关系(相关关系)线性关系非线性关系必然现象不可能事件2023-2-843相关:一个变项的值与另一个变项的值有相关:一个变项的值与另一个变项的值有连带性相关的三种情况:相关的三种情况:正相关、负相关、零相关正相关、负相关、零相关相关程度(相关程度(01)相关的方向(相关的方向(+-)2023-2-844交互分类与百分表交互分类与百分表交互分类:同时依据两个变项的值,将所交互分类:同时依据两个变项的值,将所研究的个案分类研究的个案分类列联表(交互分类表)列联表(交互分类表)表的大小表的大小=行行*列列自变量、因变量自变量、因变量2
17、023-2-845志愿志愿性别性别男男女女总数总数快乐家庭快乐家庭103040理想工作理想工作401050增广见闻增广见闻10010总数总数60401002023-2-846制作条件百分表的准则制作条件百分表的准则信息清楚、表格信息清楚、表格简洁简洁社会学研究的常规做法:以自变项为计算百社会学研究的常规做法:以自变项为计算百分率的方向分率的方向根据自己的研究需要根据自己的研究需要三线表的制作三线表的制作(表格简明型(表格简明型1,去掉末行),去掉末行)2023-2-847第四节第四节 相关测量法相关测量法相关测量法相关测量法 以一个统计值表示变项之间的相关以一个统计值表示变项之间的相关程度程度
18、 这个值,通常称为相关系数这个值,通常称为相关系数2023-2-848定类和定类变量定类和定类变量定类和定序变量定类和定序变量Lambda相关测量法相关测量法tau-y相关测量法相关测量法基本逻辑:以一个定类变项的值来预基本逻辑:以一个定类变项的值来预测另一个定类变项的值时,可以减少测另一个定类变项的值时,可以减少多少误差多少误差其值介于其值介于01之间之间2023-2-849例题:例题:考察性别(考察性别(v2)与政治面貌()与政治面貌(d11a)之)之间的关系间的关系2023-2-850定序和定序变量定序和定序变量Gamma系数系数Gamma系数按照同序对和异序对系数按照同序对和异序对个数
19、来计算两定序变量的相关程度个数来计算两定序变量的相关程度和方向;同序对和异序对相差越大,和方向;同序对和异序对相差越大,说明相关越强说明相关越强2023-2-851例题:例题:考察受教育程度考察受教育程度b4_a与对自己社会地位与对自己社会地位满意程度满意程度i5_a之间的关系之间的关系2023-2-852定类和定距变量定类和定距变量定序和定距变量定序和定距变量相关比率(相关比率(eta平方系数)平方系数)原理:根据自变量取值来原理:根据自变量取值来预测或估计因变量的预测或估计因变量的均值2023-2-853例题:例题:考察性别(考察性别(v2)与家务劳动时间之间的关)与家务劳动时间之间的关系
20、系2023-2-854定距和定距变量定距和定距变量相关系数相关系数r即皮尔逊相关系数即皮尔逊相关系数原理:两个变量以平均数为原理:两个变量以平均数为基准的平均共变程度基准的平均共变程度 r本身不具有消减误差比率本身不具有消减误差比率的性质,但的性质,但r2具有这一性质具有这一性质2023-2-855例题:例题:考察读书年数(考察读书年数(b2)与收入之间()与收入之间(c18_a)的关系的关系2023-2-856消减误差比例(消减误差比例(PRE/proportionate reduction in error)PRE数值的意义为,用一个变项来解释另一数值的意义为,用一个变项来解释另一个变项时
21、能够减少的错误比率个变项时能够减少的错误比率 X与与Y的关系越强,所能减少的预测误差就会的关系越强,所能减少的预测误差就会越多越多2023-2-857第五节第五节 假设检验假设检验假设检验是根据样本调查结果证实或推翻假设检验是根据样本调查结果证实或推翻总体有关假设的一种总体有关假设的一种推论统计推论统计方法。方法。2023-2-858最终目的最终目的总体参数值总体参数值样本统计值样本统计值估算估算验证验证统计推论逻辑思路统计推论逻辑思路2023-2-859思路思路常用分布常用分布(统计理论确定)(统计理论确定)根据样本计算特定统计量,判断此统计量在理论分布中出现的概率情况此过程称为“统计推论”
22、2023-2-860统计推论:用于抽样调查资料的处理统计推论:用于抽样调查资料的处理根据局部资料(样本资料)对总体的根据局部资料(样本资料)对总体的特征进行推断,属于归纳推理的范畴,不特征进行推断,属于归纳推理的范畴,不可能保证可能保证100%正确。正确。1、由于局部资料源于总体,因此局部资料的、由于局部资料源于总体,因此局部资料的特性在某种程度上能反映总体的特性。特性在某种程度上能反映总体的特性。2、由于社会资料的随机性,即抽样结果不是、由于社会资料的随机性,即抽样结果不是唯一的,又使得一次抽样结果不能恰好就等唯一的,又使得一次抽样结果不能恰好就等于总体的结果。于总体的结果。2023-2-8
23、61(一)卡方检验(一)卡方检验常用的几种检验方法常用的几种检验方法适用于定类、定序变量适用于定类、定序变量原理:以理论次数为基准考察实际次数与理论次数原理:以理论次数为基准考察实际次数与理论次数之间的偏离程度之间的偏离程度通常结果要汇报卡方值通常结果要汇报卡方值2、自由度、自由度df、显著度、显著度p。22()eoeffxf2023-2-862(二)(二)z检验和检验和t检验检验主要用于总体参数的检验,包括平均数、百分主要用于总体参数的检验,包括平均数、百分比等的检验。比等的检验。2023-2-863Z检验检验基于正态分布,要求基于正态分布,要求大样本大样本,t检验检验则基则基于于t值抽样分
24、布,可用于值抽样分布,可用于小样本小样本。因为当样本增大时,因为当样本增大时,t值会逐渐接近正态分布,值会逐渐接近正态分布,这时,二者区别不大。这时,二者区别不大。因此,不论样本大小如何,皆可用因此,不论样本大小如何,皆可用t检验。检验。Z检验检验可以说是可以说是t检验的一种特殊(大样本)情况。检验的一种特殊(大样本)情况。在近代社会研究中,在近代社会研究中,t检验应用更为广泛。检验应用更为广泛。2023-2-864t检验的几种类型检验的几种类型 One-sample t test 与已有的某一参照值进行比较与已有的某一参照值进行比较 Independent-samples t test 用于
25、比较同一变量内两组数据之间的差异,而该两用于比较同一变量内两组数据之间的差异,而该两组数据是按照某一定类变量或定序变量划分的。组数据是按照某一定类变量或定序变量划分的。Paired-sample t test 配对样本配对样本t检验,用于同一批个案在两种不同情况下检验,用于同一批个案在两种不同情况下或两个变量中的差异或两个变量中的差异 分别举例演示分别举例演示2023-2-865(三)(三)F检验(方差分析检验(方差分析ANOVA)原理:通过对方差的分解和比较,以确定原理:通过对方差的分解和比较,以确定主要变异来源主要变异来源主要用途:比较几个均值之间是否存在显主要用途:比较几个均值之间是否存
26、在显著差异著差异适用于定距变量间的相关检验适用于定距变量间的相关检验计算:计算:F组间均方组间均方/组内均方组内均方演示演示2023-2-866两变量的测量层次两变量的测量层次相关测量法相关测量法(PRE)假设检验假设检验定类定类-定类定类,tau-y卡方检验卡方检验定类定类-定序定序定序定序-定序定序Gamma,dyZ或或t检验检验定类定类-定距定距EtaF检验或检验或t检验检验定序定序-定距定距定距定距-定距定距r,b总总 结结2023-2-867演示习题演示习题分别对性别与政治面貌、受教育程度、读分别对性别与政治面貌、受教育程度、读书年数等的关系进行探索,将结果撰写成书年数等的关系进行探索,将结果撰写成简要报告。简要报告。