1、基于PSPP软件的数据分析概述杨炯杨炯浙江外国语学院浙江外国语学院第一讲研究问题和变量数据分析流程数据分析类型数据分析软件数据录入或导入一、研究问题和变量(一)明确研究问题和变量调查研究的目的一般可分为两类:一类是以了解分析现状为目的,主要采用描述统计分析(如频数,百分比,平均数,中位数,标准差等)。另一类是相关研究,主要是探讨各变量之间的关系,检验研究假设,根据样本数据对总体进行推断,需要综合运用描述和推断统计。假设你要研究如下课题:杭州市小学教师的性别、教龄、工作压力对职业倦怠感的影响三个自变量:性别、教龄、工作压力一个因变量:职业倦怠感研究总体:所有杭州市小学的教师(二)如何定义和测量各
2、个变量 性别 教龄:分类别还是直接填数字?为了得到更精确的信息,建议直接填数字。工作压力:阅读相关学术论文或书籍后,有没有比较流行的高质量问卷(可在知网或其他学术数据库搜索“工作压力问卷”或者“工作压力量表”试试)?如果有发表在专业期刊或著作上的成熟问卷可以直接引用(有些独立出版的问卷可能需要购买使用权),如果没有合适的问卷需要自行编制。职业倦怠感:同上(三)变量的类别 称名变量(Nominal Variable):属于类别变量,各个类别选项没有顺序之分,只有分类的含义,比如性别、地区、还有简单调查问题的分类选项等。次序变量(Ordinal Variable):也属于类别变量,但各个类别的数字
3、有程度或者顺序之分,比如年级、排名、单个的量表题等。连续(等距和比例)变量(Scale Variable):通常可取值是连续的无限多的,如具体的年龄、测验分数、多个同类量表题的平均分或总分等。思考:性别、教龄、工作压力、职业倦怠感分别是什么类型的变量?称名和次序变量(统称类别变量)一般用频数和百分比来描述其数据分布情况。连续变量一般用平均分和标准差来描述数据分布情况。单纯的类别变量采取的统计方法比较有限(一般为描述统计、卡方检验、等级相关等),而连续变量可以进行更多的统计分析(如皮尔逊相关分析、t检验、方差分析、回归分析、结构方程模型等)。二、数据分析流程 数据录入与核对(电子提交的不用)准备
4、好完整的数据文件(如果有多个的话需合并)数据检查(检查是否有明显错误,缺失数据,极端数据等)数据整理(反向计分,计算总分或平均分等)统计分析(根据研究问题选择):描述统计,相关分析,t检验,F检验,回归分析等 撰写结果注:最好保存每一步的分析过程,以便出现问题时检查核对。保存统计软件的命令语句(syntax)是很好的方法。三、数据分析类型(一)描述统计(descriptive statistics)对样本统计量的描述平均数(M),标准差(SD),百分比,频数,百分等级,数值分布情况,相关系数,效应量等(二)推断统计(inferential statistics)基于样本统计量对总体参数进行估计
5、,涉及显著性检验。常用假设检验的方法H0(Null Hypothesis):虚无假设(无关联,无差别,无效应等)H1(Alternative Hypothesis):备择假设(有关联,有差别,有效应等)假设检验例如H0:M1=M2H1:M1 M2通常,我们的研究假设是H1。也就是说,我们通常希望拒绝虚无假设。统计显著性(statistical significance)p:如果H0正确,获得当前样本数据的可能性 通常p .05 时拒绝H0 有些研究者对p .05,p .01,p .001进行区分,以此显示不同程序的统计显著性,有些反对做区分。实际显著性(practical significan
6、ce)样本大小对统计显著性有很大影响统计学上的显著不一定有很大实际意义效应量(effect size)和置信区间可以作为统计显著性很好的补充数据(三)一些常见的推断统计方法 卡方检验(2 test):两个类别变量 之间是否显著相关 皮尔逊相关(Pearson correlation):两个连续变量之间是否显著相关 t检验:两个小组的平均数是否有显著性差异 F检验(方差分析):三个或以上小组的平均数是否有显著性差异 回归分析(regression):一个或多个自变量对因变量的影响(四)一些高级统计方法探索性和验证性因素分析(exploratory and confirmatory factor
7、analysis)中间变量与调节变量(mediation&moderation)结构方程模型(structural equation modeling)多层模型(multi-level modeling)成长曲线分析(growth curve modeling)四、统计分析软件 商业专有软件:MS Excel,IBM SPSS,SAS,STATA,AMOS,LISREL,Mplus等 免费开源软件:R,GNU PSPP等 更多免费统计软件可参考http:/statpages.org/javasta2.html 专有统计软件往往界面精美、操作方便、功能丰富,但价格昂贵使用限制多。自由开源软件一般
8、可以免费获得并且自由使用,有些软件功能和界面比较简单,但有些软件功能甚至超越商业软件(比如R软件)。(一)统计软件SPSS 可能是社会科学领域中最知名的专业统计软件 优点:功能强大;操作简单;方便数据管理 缺点:软件占用空间大;限制多;价格高 网址:http:/ R被很多人认为是最强大、最灵活、最专业的统计软件,而且它是开源软件,意味着可以免费获得、自由使用!但是,R没有简单的菜单式操作界面,需要学习一门新的语言,入门需要花一定时间和精力,但一旦熟悉了也许就会爱上它!网址:https:/www.r-project.org/(三)GNU PSPP软件 PSPP软件与SPSS在数据格式和命令语句格
9、式等方面兼容,用户图形界面、菜单操作等方面基本一致。目前菜单功能比SPSS少一些,但对于基本分析够用,而且新的版本在不断加入新功能。其创立的理念与SPSS完全不同,它基于自由分享传播的理念而创立。容量比SPSS小很多,安装使用灵活方便是其优势。国内已有人对此软件进行了翻译。官网:http:/www.gnu.org/software/pspp/Windows系统下载地址https:/ Linux系统(例如Ubuntu系统):见官网说明(一般系统自带软件库也可以搜到)。注意PSPP的主界面有两个部分:数据视图(Data View)和变量视图(Variable View),别忘了在变量界面设置变量的
10、各种属性,尤其是变量的类别可能对分析有影响。PSPP还有两个界面,一个是输出界面(Output)界面用来显示结果,还有一个是语法编辑(Syntax)界面用来书写语句指令进行数据分析(菜单操作也可以把相应语句指令“粘贴”到语法编辑框)。初期可先熟悉菜单操作,较为熟练后建议用语法编辑框管理数据分析流程,这样比较清晰明了,也有利于检查核对。PSPP常见问题可参见FAQ http:/www.gnu.org/software/pspp/faq.html 若要知晓PSPP的完整功能、更好利用此软件进行数据分析,可参阅“PSPP Users Guide”,最新版本参见http:/www.gnu.org/so
11、ftware/pspp/manual/使用PSPP软件进行数据分析时,在写文章时最好注明版本号,可以通过“帮助About”获取。因为很多人对此软件不熟悉,可以在参考文献中给出官方网址http:/www.gnu.org/software/pspp/五、数据录入或导入假设你的总问卷主要数据结构如下 一、以下是关于您工作体验的问题 二、以下是另外一些关于您职业感受的问题(3题;计分方法同上)三、基本信息 性别:(1)男 (2)女 教龄:年序号序号描述描述完全不同完全不同意意基本不同基本不同意意介于同意介于同意和不同意和不同意之间之间基本同意基本同意完全同意完全同意112345212345312345
12、(一)表格软件输入数据(本演示中数据为假想数据,所得结论并不具有现实意义)MS Excel或类似数据表格软件:变量名为第一行,以字母或中文开头,不要有空格。给每份问卷编号并作为一个变量,便于有问题时查找。多选题需要对每个选项分别设置一个变量。除第一行外,每一行为一个个体对应的所有变量的数据。如实输入数据,无数据可维持空白。对缺失数据进行处理(如作无效问卷处理或用平均值代替等)需要在文章中说明。如果是人工输入最好有一个核对过程。保存原始数据文件,进行备份。数据分析时使用原始数据文件的复制件,而不要在未经备份的原始数据上面进行。数据表格文件(二)PSPP软件输入数据首先在“变量视图”创建变量并定义各变量属性,重点关注“变量视图”里面的类型,值标签和衡量。然后在“数据视图”里逐行输入数据。(三)导入数据到PSPP PSPP目前不能识别中文文件名。如果Excel文件要导入到PSPP,文件名和其所在的文件夹的名字需为英文(可保存在桌面),然后需另存为需另存为.csv.csv(逗号分隔符)格式(逗号分隔符)格式。在PSPP中选择文件 导入数据,根据提示进行。注意选中第一个数据行并勾选“选中行之上的行含有变量名称”。PSPP数据文件导入后重点检查“变量视图”里面的类型,值标签和衡量
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。