1、第十章第十章 定量资料分析定量资料分析 第一节资料的整理与录入第一节资料的整理与录入 第二节单变量统计分析第二节单变量统计分析 第三节双变量统计分析第三节双变量统计分析 第四节多变量统计分析第四节多变量统计分析 第一节第一节 资料的整理与录入资料的整理与录入研究者对调查所收集回的原始资料进行初步的审查和核实,校正错填、误填的答案,剔除乱填、空白和严重缺答的废卷。一、资料的审核一、资料的审核审核的方法:实地审核系统审核(集中审核)随机抽取5%-15%重新进行调查审核的内容:检查出问卷资料中存在的问题;重新向被调查者核实。二、资料的转换将问卷中问题的回答转换成供计算机识别和统计的数字。三、数据录入
2、统计软件(SPSS)直接录入数据库软件(FoxPro)录入挑选和培训输入人员统一规定数据输入格式和数据文件名录入员各自录入数据合并四、数据清理有效范围清理数据值超过有效范围错误来源:原始填答、编码、录入过程SPSSFrequencies命令命令四、数据清理逻辑一致性清理逻辑关系数据变量间的合理性相倚问题为主Select 过滤问题过滤问题=1Select 过滤问题过滤问题=2SPSSSelect Cases命令命令四、数据清理数据质量抽查随机抽取数据结果对照原始问卷填答评估和评价数据资料的质量第二节第二节 单变量统计分析单变量统计分析一、单变量描述统计二、单变量推论统计 一、单变量描述统计集中趋
3、势分析 用一个典型值或代表值来反映一组数据的一般水平,或者说反映这组数据向这个典型值集中的情况。平均数 众数 中位数 根据单值分组资料求平均数 x f/f 根据组距分组资料求平均数 f xm/f 根据原始数据求平均数 x/n平均数:总体各单位数值之和除以总体单位数目所得之商。XXX离散趋势分析用一个特别的数值来反映一组数据相互之间的离散情况。全距(Range)标准差(Standard Deviation)异众比率(Variation Ratio)四分位差(Interquartile Range)离散系数(Coefficient of Variation)离散趋势分析 全距(全距(Range)标
4、准差(标准差(Standard Deviation)异众比率(异众比率(Variation Ratio)四分位差(四分位差(Interquartile Range)离散系数(离散系数(Coefficient of Variation)1)(2nXXsnfnVmor13QQQ%100XsCVMinMaxR二、单变量推论统计 在一定的可信度(置信水平)下,用样本统计值的某个范围(置信区间)来“框”住总体的参数值。范围的大小反映的是这种估计的精确性问题,而可信度高低反映的则是这种估计的可靠性或把握性问题。区间估计区间估计 总体均值的区间估计 总体百分比的区间估计nSZX)1(95%nSX96.1np
5、pZp)1()1(95%nppp)1(96.1例1 调查农大学生生活费状况,随机抽取900名学生作为样本,统计得到他们的月均生活费为186元,标准差是42元。在 95%的置信度下,试估计全校学生的月均生活费是多少?把数据代入总体均值的区间估计公式 186 Z(1-a)429001.96计算得出总体均值的置信区间为183.26188.74元元例2 调查农大学生对“吸烟行为”的态度,随机抽取400名学生作为样本,统计结果表明“赞成”的比例为20%。在 90%的置信度下,试估计全校学生中赞成“吸烟行为”的学生比例的置信区间?把数据代入总体比例的区间估计公式 20%Z(1-a)40020%(1-20%
6、)计算得出总体均值的置信区间为16.7%23.3%1.65一、交互分类与2检验工资收入文化水平合计小学及以下中学大专及以上低78.020.011.040.0中19.073.031.050.0高3.07.058.010.0(n)(360)(550)(90)(1000)表表1 文化水平与工资水平的交互分类表(文化水平与工资水平的交互分类表(%)深入描述样本资料分布和内在结构深入描述样本资料分布和内在结构 分组比较,揭示变量间关系分组比较,揭示变量间关系将调查所得的一组数据按照两个不同的变量进行综合分类。第三节第三节 双变量统计分析双变量统计分析交互分类表的形式要求 每个表的顶端要有表号和标题 表格
7、中的线条一定要规范简洁 表格中百分比符号统一标注 表格下端应有每列对应频数 表中百分比形式一致,保留足够位小数 根据变量关系安排变量行列 变量取值应有所限制2检验)1)(1(,)(22crdffffeea观察频数所对应的期望频数期望频数=行总数*列总数/全部个案数要保证从样本中得出的结果具有统计意义,保证样本中所体现的变量关系也反映总体的情况,就必须进2检验。二、不同层次变量的相关测量与检验两个定类变量Lambda系数两个定序变量Gamma系数两个定距变量 r系数定类与定距变量E系数 Lambda相关测量 计算公式y=f0-Fy n-FyX变量每个类别下Y变量的众值频数Y变量的众值频数n=全部
8、个案数具体计算过程 100名青年的性别与志愿统计表性别志愿合计男女快乐家庭理想工作增长见闻合计1040103010 04050106040100=0.40(40+30)50100 50 结论:青年的性别与志愿两个变量之间呈中等程度的相关。定序变量与定序变量 Gamma系数dSdSNNNNG检验:检验:Z Z检验检验)1(2GnNNGzdS 同序对数目 异序对数目具体计算过程 工人文化程度与收入水平交互分类表收入水平文化程度大学以上中学小学以下合计合计高中低1210325830 5434161232245620100Nd=3(30+8+16+4)+10(8+4)+5(16+4)+30(4)=51
9、4Ns=12(30+5+16+12)+10(5+12)+8(16+12)+30(12)=1510G=(1510-514)/(1510+514)=0.49结论:文化程度与收入水平呈中等程度相关。如果用前者去预测后者,可以减少49%的误差用任何两个个案在某变量上的等级次序去预测它们在另一个变量上的等级次序时,看能减少多少误差,消减的误差在全部误差中所占比例越大,表示这两个变量的相关关系越强Gamma 相关测量的基本逻辑:2.定类/定序变量与定距变量 相关比率:eta平方系数2222)()()(YyYyYyEi检验:F检验kndfkdfkknEEF2122,1),1(1 因变量的数值 因变量的均值自
10、变量X的每个类 别上的因变量数值的均值定距变量与定距变量22)()()(YYXXYYXXr检验:检验:F F检验检验221)2(rnrF 皮尔逊相关系数 X与Y对等,位置互换,r值不变 r取值,有方向性r本身不具有意义,但r有三、回归分析最小二乘法最小二乘法2)()()(XXYYXXbbaXY第四节多变量统计分析第四节多变量统计分析 多变量统计分析的方法种类较多,比如阐释模式、复相关分析、多元线性回归分析、路径分析、因子分析、聚类分析、判别分析、对数线性模型等等。一、阐释模式 所关心的是两个变量之间的关系,它是通过引进并控制第三变量,来进一步了解和探讨原来两个变量之间关系性质的统计分析方法。因果分析 阐明分析 条件分析 因果分析因果分析的目标是检定是否确实存在因果关系。的目标是检定是否确实存在因果关系。阐明分析阐明分析的目标则是探讨因果关系的作用方式与的目标则是探讨因果关系的作用方式与作用途径。作用途径。条件分析条件分析所关注的则是原关系在不同条件下是否所关注的则是原关系在不同条件下是否会有所不同。会有所不同。二、复相关分析 复相关分析是一种以一个统计值来简化多个自变量与一个因变量之间关系的统计分析方法。它要求所有的变量都是定距以上层次的变量。三、多元回归分析 Y=b1x1+b2x2+bkxk+a b值称为净回归系数,它表示的是在控制了其他自变量以后,某一变量对因变量的单独效果。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。