SPSS基础教程讲解.doc_163文库

资源描述

1、SPSS基础目录第一章 SPSS简介1.1 SPSS概述1.2 SPSS窗口1、数据编辑窗口（data editor)2、输出窗口(Viewer)3程序编辑窗口1.3 SPSS系统参数的设置1.3.1 Options选择对话框1.3.2通用参数设置1.3.3结果输出窗口参数设置1.3.4 Currency窗口参数设置第二章数据文件的编辑与管理2.1建立与保存数据文件2.1.1 定义新变量1变量名(Name)：2.变量类型(Type) 3变量长度(Width):4变量小数点占位(Decimal):5变量标签(Lable):6变量值标签(Values)：7缺失值的定义方式(Missing):8变

2、量的显示宽度(Columns):9变量显示的对齐方式(Align)10变量的度量方式(Measure): 2.1.2数据的输入2.1.3数据的保存2.2读如其他格式的数据文件例2.2.1读入EXCEL数据文件student.xls,并保存为同名的SPSS数据集student.sav2.3 File菜单中的其他条目2.4数据文件的编辑2.4.1单元值的查找2.4.2增加或删除一个观测2.4.3分析数据的排序2.4.4分析数据集的转置2.4.5选取数据的观测子集2.4.6分析数据归类分组汇总 2.4.7缺失值的替代 2.5数据变量的操作2.5.1增加或删除一个变量2.5.2从原有变量构造新变量2.

3、5.3数据排秩2.5.4产生计数变量2.5.5数据重新编码2.5.6产生自动分组变量2.5.7变量集的定义和使用2.6 数据文件的合并与拆分2.6.1数据文件的纵向合并2.6.2数据文件的横向合并2.6.3数据文件的拆分第一章SPSS简介1.1 SPSS概述Statistical package for Social Science，社会科学统计软件包是一个组合式软件包，它集数据整理、分析过程、结果输出等功能于一身，是世界上著名的统计分析软件之一。但是随着SPSS产品服务领域的扩大和服务深度的增加，SPSS公司已于2000年正式将英文全称更改为“Statistical Product and

4、Service Solutions”，意为“统计产品与服务解决方案”，标志着SPSS 软件的应用领域有了重大拓展。SPSS解决方案广泛应用于市场研究、电讯、卫生保健、银行、财务金融、保险、制造业、零售等领域。SPSS的5大特色l 智能操作，易学易用l 一般情况下无须编写程序l 数据转换接口有很好的兼容性l 具有丰富的统计分析功能和完善的分析报告功能l Complex Samples模块增加了统计建模的功能SPSS公司的历史 1968年：美国斯坦福大学的三位专业背景截然不同的研究生Norman H. Nie、C. Hadlai (Tex) Hull 和 Dale H. Bent开发了最早的统计软

5、件系统，他们称呼这个软件系统为“社会科学统计软件包”，简称“SPSS”。他们的出发点是使用统计方法来将原始数据转变为决策所必需的信息。Nie是一位社会科学家、斯坦福大学的博士生，承担了用户的角色，提出应用需求；Bent是斯坦福大学的运筹学博士生，拥有着数据分析方面的专业知识，设计出了SPSS系统文件结构；Hull刚从斯坦福大学获得MBA学位，由他来负责编程。1975年：在芝加哥成立SPSS总部 1984年：推出用于个人电脑的SPSS/PC+ 1992年：推出Windows版本，同时在纳斯达克上市，股票代码为SPSS。目前在全球100多个国家和地区有分支机构或合作伙伴，直系员工超过2000人。S

6、PSS软件家族广泛应用于自然科学、技术科学、社会科学的各个领域，世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。SPSS是世界上应用最广泛的专业统计软件，全球约有25万家SPSS公司产品的用户，它们分布于通讯、医疗、银行、证券、保险、制造、商业、市场研究、科研教育等多个领域和行业，全球500强中有80%的公司使用SPSS，而在市场研究和市场调查领域有超过80%的市场占有率。在国际学术界有条不成文的规定，即在国际学术交流中，凡是用SPSS软件完成的计算和统计分析，可以不必说明算法，由此可见其影响之大和信誉之高。 1.2 SP

7、SS 窗口1、数据编辑窗口（data editor)基本功能建立SPSS数据文件主要构件l 标题栏和系统状态栏l 菜单栏l 工具栏文件以.sav为扩展名2输出窗口(Viewer) 以.spo为扩展名3程序编辑窗口编辑SPSS程序，通过运行主菜单的RUN命令将编辑好的程序一次性地提交给计算机执行。也可以将编好的程序保存为一个后缀为.sps的文件供以后需要的时候调用。1.3 SPSS系统参数的设置1.3.1 Options选择对话框 Edit=Options1.3.2通用参数设置1.3.3结果输出窗口参数设置1.3.4 Currency窗口参数设置第二章数据文件的编辑与管理2.1建立与保存数据

8、文件2.1.1定义新变量大多数情况下我们需要从头定义变量，在SPSS 10.0中，定义变量的操作界面和FoxPro等数据库非常相似，只需单击左下方的Variable View标签就可以切换到变量定义界面开始定义新变量。1变量名(Name)：变量名必须以字母、汉字或开头,剩下的字符可以是字母,数字,句点,#,_,$等变量名不能以句点结尾名字长度不能超过8个字符空格和特殊字符不能被用,如?,!,* 每一个变量名必须是唯一的,重复的变量名是不被允许的变量名无大小写之分下列关键词不能用作变量名 all NE EQ TO le lt by or gt and not ge with 举例:

9、location loc#5 x.1 over$5002.变量类型(Type): 变量类型可由变量类型对话框确定在SPSS数据集中，变量分为8种类型,主要有字符型变量（String）和数值型变量(numeric)。Numeric 数值型Comma 加有逗号的数值型Dot 加有圆点的数值型Scientific notation 科学计数型Date 日期型Dollar 货币型Custom currency 用户自定义型String 字符型3变量长度(Width):4变量小数点占位(Decimal):5变量标签(Lable):6变量值标签(Values)：变量值标签则在它右侧的Value框定义。以性

10、别为例，单击Value框右半部的省略号，会弹出变量值标签对话框如下：上部的两个文本框分别为变量值输入框和变量值标签输入框，分别在其中输入“f”和“女生”，此时下方的Add钮变黑，单击它，该变量值标签就会被加入下方的标签框内。与此类似定义变量值“m”为“男生”，最后按OK，变量值标签就设置完成。切换回Data View界面，然后选择菜单View=Value Labels.7缺失值的定义方式(Missing):定义缺失值的作用：凡是在定义的缺失值范围内的数据不参与统计分析。SPSS有两类缺失值：系统缺失值和用户缺失值。数据长方形中任何空的数字单元都被认为是系统缺失值，用点“”表示。由特殊原因造成的

11、信息缺失值被认为是用户缺失值，例如调查问卷中，被调查者不愿意回答的项目可定义为用户缺失值。单击missing框下相应变量右侧的省略号，会弹出缺失值对话框如下：no missing values:无缺失值,系统默认选项；discrete missing values:定义离散缺失值，选择该选项后，激活下面3个输入框，可以在其中指定3个数值作为缺失值，也可以少于3个。例如对于性别变量，值2，3，4都被认为是非法的，在输入数据过程中有可能输入了这几个数，则可以把这3个值分别输入到3个矩形框中；range puls one optional discrete miss:定义一个缺失值的范围，选择该选项

12、后，激活下面3个输入框。在low和hight输入框中分别输入缺失值的下限和上限。可以在最下方的discrete框中输入范围之外的一个离散值。8变量的显示宽度(Columns):9变量显示的对齐方式(Align)选择变量值显示时的对齐方式，系统默认是右对齐。备选方式： l Left 左对齐l Right 右对齐l Center 居中对齐10变量的度量方式(Measure): 为了区分变量在分析中的不同作用，又按变量的度量方式分为三类：选择变量的度量方式，系统默认是定距变量。备选方式： l Scale 定距变量必须是数值型变量，可以对其观测值进行四则运算。l Ordinal 顺序变量，可以是数值

13、型的，也可以是字符型的，可以对其观测值进行排序。l Nominal 名义变量可以是数值型的，也可以是字符型的，常起分类作用。使用该窗口，我们可以一次定义许多新变量，不会象老版本那样一个一个的定义了。2.1.2 数据的输入2.1.3 数据的保存在对数据做了修改后，保存数据文件是必不可少的工作之一。选择菜单File=Save，如果数据文件曾经存储过，则系统会自动按原文件名保存数据；否则，就会弹出和选择Save as 菜单时相同的Save as对话框。里面可以保存的数据类型和可以打开的几乎一样多，选择合适的类型，确定就是了。2.2 读如其他格式的数据文件SPSS可以直接读入许多格式的数据文件，选择

14、菜单File=Open=Data或直接单击快捷工具栏上的“”按钮，系统就会弹出Open File对话框，单击“文件类型”列表框，在里面能看到直接打开的数据文件格式，分别是：SPSS(*.sav)SPSS数据文件（6.010.0版）SPSS/PC+(*.sys)SPSS 4.0版数据文件Systat(*.syd)*.syd格式的Systat数据文件Systat(*.sys)*.sys格式的Systat数据文件SPSS portable(*.por)SPSS便携格式的数据文件EXCEL(*.xls)EXCEL数据文件（从5.0版2000版）Lotus(*.w*)Lotus数据文件SYLK(*.sl

15、k)SYLK数据文件dBase(*.dbf)dBase系列数据文件，（从dBase IIIV）Text(*.txt)纯文本格式的数据文件data(*.dat)纯文本格式的数据文件选择所需的文件类型，然后选中需要打开的文件，SPSS就会按你的要求打开你要使用的数据文件，并自动转换为数据SPSS格式。例2.2.1读入EXCEL数据文件student.xls,并保存为同名的SPSS数据集student.sav2.3File菜单中的其他条目【Disp Data Info】该菜单项用于显示数据的基本信息，选择它后会弹出非常类似于打开文件的一个对话框用于选择数据文件，选择好后按OK，系统就会在结果窗口中列

16、出所选数据的基本情况，如建立时间、标签设置、记录数、变量设置等。【Apply Data Dictionary】即使用数据字典，该功能使你可以直接在新数据集中套用以前定义好的变量设置（格式、标签等，但不包括数据类型），例：打开Li1_1.sav文件，将变量x的长度从8改为4，标签删掉，然后选择菜单File=Apply Data Dictionary，在文件对话框中选择Li1_1.sav并按OK（即将Li1_1.sav的变量设置按相同变量名一一套用在现在的数据集上）。【Cache Data】建立数据缓冲区。以前SPSS每执行一条命令都会重新读取所需的数据，如果是从远程用SQL调用数据库，这会非常的

17、费时。现在使用Cache Data，可以将数据全部读入暂存盘，建立活动数据的缓冲区。大大加快处理速度。如果是处理本机数据的话，该命令对速度的提升不是非常明显。【Print和Print Preview】这两个菜单项用于将数据管理窗口中的数据以表格的形式打印出来，其中Print Preview是新增加的，使用上和WPS2000的打印预览非常相似（其实用的是同样的程序），不过和SPSS结果的打印程序一样，用SPSS直接打印数据非常的浪费纸张。【Stop Processor】用于停止执行当前的SPSS命令。由于SPSS处理速度非常的慢，如果你正在对一个大型的数据执行统计命令，等了半天都没有结束，可是你

18、的结果还没有存，执行命令时又存不了，怎么办呢？试试这个命令吧。但并非所有的命令都可以喊停的，许多数据库操作命令（计算变量，合并等）好象就停不了。2.4数据文件的编辑在SPSS中，数据文件的编辑、整理等功能被集中在了Edit,Data和Transform三个菜单项中。Data：Insert Variable:在选中的单元格之前的一列插入一个新变量。Insert Cases: 在选中的单元格之前的一行插入一个新观测。Goto Case:定位到指定的观测值Sort Case:按某变量的取值对观测值进行排序。Transpose:对数据文件进行转置。Merge Files:合并数据文件。Aggregat

19、e: 对数据进行分类和不分类的汇总。Orthogonal Design:正交设计。Split File:按照某个分组变量对数据文件进行拆分。Select Cases:选择观测值。Weight Cases:对观测值加权。下面我们将根据其功能来分别讲述。2.4.1观测与变量的查找编辑（Edit）转至个案（Go to Case）打开转至（G）(Go to Case)对话框 2.4.2增加或删除一个观测l 增加一个新的行激活需要添加行的下一行的任意单元，选择EditInsert Casel 删除一个行单击要删除行的行头，将该行全部选中，按Delete键2.4.3分析数据的排序观测数据的排序，特

20、别是逐级排序，可以从统计角度了解整体数据的取值情况。例将数据集补钙产品.sav按“性别”降序，再按“问卷编号”升序排序操作：选择菜单数据（Data）=排序个案（Sort Cases），系统弹出排序个案（Sort Cases）对话框下方的排列顺序（Sort Order）单选钮，有升序和降序两种选择。请注意，该单选钮是和上方的Sort By框一起使用的，具体方法如下：确认降序单选钮被选择，将“性别”选入Sort By框；选择升序单选钮，将“问卷编号”选入Sort By框。2.4.4分析数据集的转置将观测(行)和变量(列)位置互换，特别适用于实现存/取Excel文件进行数据共享功能前/后

21、的预操作。例将数据集“补钙产品.sav”中的变量“性别”，“年龄”和“居住时间”进行转置操作选择菜单数据（Data）=Transpose，打开 Transpose对话框；将需要转置的变量移入Variable列表框；如果在数据文件中有一个变量是代表转置后各变量的变量名，则将该变量移入Name Variable列表框中；否则转置后数据集的变量将被分别命名为“Var001”, “Var002”“Var003”；单击OK2.4.5选取观测的子集在统计分析时，有时并不需要对所有的观测进行分析，只需要对某些观测进行分析，例如在补钙产品的市场调查中，我们只对女性被调查者的情况感兴趣，或者只有在本市居

22、住时间超过3年的被调查者才具有统计分析价值。另一种情况是在全部样品中抽取一小部分样品进行分析，SPSS的Select Cases可以实现这种样本筛选的功能。仍以补钙产品数据为例来说明。操作选择菜单数据（Data）=选择个案（Select Cases）打开选择个案（Select Cases）对话框；制定样本筛选方式：Select Cases对话框右上Select下共有5种筛选方式 All cases：不进行筛选，选中它则分析所有的记录； If condition is satisfied：按指定条件筛选，单击下面的If按钮在弹出的Select Cases If对话框可以设置筛选条件。在右上方的

23、输入框中输入条件表达式。条件表达式可以用键盘直接输入，也可以左侧的变量列表中选择变量，从下面的计算器中选择数字和运算符号。在右下方的Functions列表中有SPSS的常用函数供用户选择。在本例中如果只相对居住时间超过3年的被调查者进行分析，则在输入框中输入表达式time3 Random sample of cases：随机抽取观测，单击下面的sample按钮, 在弹出的Select Cases Random sample对话框中设定随机抽取的观测数，有两种选择：按百分比抽取记录，在本例中如果想从所有的观测中抽取30%进行分析，则在Approximately后的框中输入30；或者精确设定从前n

24、个观测中随机精确抽取一定量的观测，在本例中如果想从前10个观测中随机抽取5个，则按下表填写。 Based on time or case range：按顺序抽样。单击Range按钮，在弹出的Select Cases：range子对话框中设定被筛选的观测的起止序号。 Use filter variable：使用指定的过滤变量进行观测筛选。选择这一项的前提是数据文件中已经存在一个过滤变量。所谓过滤变量即只取“0”“1”两个值的变量。该变量取值为“1”的观测将被选中，取值为“0”的观测将被删除。确定未被选中的观测的处理办法在Select Cases对话框的左下output下有3种选择 Filter

25、out unselect Cases：则在数据文件中根据用户定义的选择条件自动生成一个变量名为filter_&的新筛选变量，同时未被选择的观测左端的观测序号上将被打上一个斜杠，以后的分析将把这些观测排除在外，但这些观测并没有从数据文件中删除。 Copy select Cases to a new dataset: 建立一个新数据集，仅包含选中的观测，将新数据集的名输入 dataset name 后的框中。 Deleted：未被选中的观测将被删除，一般不要使用。注意：当对数据集做出筛选后，所做的筛选将在以后的分析中一直有效，直到再次改变选择条件为止。2.4.6分析数据归类分组汇总用于对数据进行

26、分类汇总，所谓分类汇总就是按指定的一个或多个分类变量（一般为离散型变量）对观测值进行分组，对每组观测的其余变量（一般为连续型变量）值进行指定的描述统计分析，结果可以存入新数据文件，也可以替换当前数据文件。例如在补钙产品的市场调查中，我们想要知道按性别分类后，男性和女性被调查者的平均年龄、平均年收入以及收入差距的大小。操作：选择菜单(Data) =分类汇总（Aggregate），打开分类汇总（Aggregate）对话框选择分类变量：把分类变量移入分组变量（Break Variables）框，这里把变量gender移入选择汇总变量：即想要对其计算描述性统计量的变量，这里把变量age和inco

27、me 移入Aggregate of Variable(s)列表框中。由于收入要计算均值和标准差两个统计量，所以这里要将变量income移入两次选择要计算的统计量系统默认计算的统计量是均值（mean）,要想改变计算的统计量，单击Aggregate Variable列表框中的某个变量，在单击Functions,打开Aggregate Function子对话框共有5组函数 Summary:为最常用的均值、中位数、标准差等统计量； Specific Value: 同组的第一个观测值、最后一个观测值、最小值和最大值 Number of cases: 分组后各组的观测数； Percentages和Fun

28、ctions：分别给出处于某个取值区间的观测占各组观测总数的百分比和比率。例如，可以计算男性和女性被调查者分别有多少人的年龄超过40岁。单击Name & Lable 对产生的新变量重新命名。选中 save number of cases in break group as variable 将各组的观测数作为新变量保存。选择新生成的数据文件的保存方式，有两个选项： Create new data file：定义一个新文件以存储汇总的结果，右侧的File钮用于具体文件名的定义，默认文件名为AGGR.sav； Replace working data file单选钮：用汇总的结果替换原来的数

29、据。单击OK.2.4.7缺失值的替代 SPSS有两类缺失值：系统缺失值和用户缺失值。数据长方形中任何空的数字单元都被认为是系统缺失值，用点“”表示。由特殊原因造成的信息缺失值被认为是用户缺失值，例如调查问卷中，被调查者不愿意回答的项目可定义为用户缺失值。SPSS统对用户缺失值有较好的替代方法操作：选择菜单转换（Transform） = 替换缺失值（Replace missing values），打开替换缺失值（Replace missing values）对话框选择左侧的变量名列表框中选择有缺失值的变量，将其添加到New Variable(s)框中，这时系统自动产生一个新变量，变量名默

30、认为在原变量名后加上“_1”，用于替代含有缺失值的变量，用户也可以在Name框中自己定义替代的新变量名。在method的下拉列表中选择缺失值的替代方法，有5种方法Series mean 用该变量所有非缺失值的均值代替缺失值；Mean of near by points用缺失值相邻点的非缺失值的均值作替代，对缺失值有多个相邻点时，替代方式没有限制；Median of near by points 用缺失值相邻点的非缺失值的中位数作替代，对缺失值有多个相邻点时，替代方式没有限制；Linear interpolation 用缺失值相邻两点的非缺失值的均值作替代；Linear trend at po

31、int 利用回归分析，用线性预测值替代缺失值。 2.5数据变量的操作2.5.1增加或删除一个变量在SPSS数据文件中，每一列对应一个变量，增加或删除一个变量其实就是增加一个新的列或删除一个已有的列。（1）增加一个变量有3种方法：我们只介绍其中的2种例如要在第4列前增加一个新的列，先单击第4列的列头，这是整个第4列被选中。单击鼠标右键，在弹出的菜单中选择Insert Variables选项，这时系统自动在第4列前插入一个新的变量列，原第4列自动右移一列成为第5列。打开变量定义窗口，单击鼠标右键，在弹出的菜单中选择Insert Variables选项,这时系统自动在第4行前插入一个新的行，原第

32、4行自动下移一行成为第5行。（2）删除一个变量删除一个变量就是删除一个已有的列。例如要删除第4列，先单击第4列的列头，这是整个第4列被选中，这时按Delete键。 2.5.2从原有变量构造新变量从头定义变量的情况多数在建立数据集时出现。但是，当数据集已经建立，需要整理、转换变量时，碰到的更多情况是需要根据某种条件从数据集中的原有变量构造出新变量。例如在studendf.sav中建立新变量w/h2，令其值为体重/身高的平方。菜单Transform =Compute Variabl打开Compute Variable对话框选择ok软键盘上几个符号的含义如下：=&|*不等号，等价于逻辑符号AND

33、逻辑符号OR乘方，相当于函数EXP()逻辑符号NOT在函数窗口中选中某个函数并单击右键，系统就会弹出该函数的用法说明。函数主要是和变量名组合起来使用的，比如说ABS(x)就是取变量x的绝对值。2.5.3数据排秩所谓“秩”，是指对变量排序之后观测的顺序号。在很多非参数检验的方法中都要用到变量的秩，并形成新的秩变量，下面以补钙产品的市场调查数据为例来介绍数据排秩的操作步骤操作：选择菜单转换（Transform） =个案排秩（Rank Cases）打开个案排秩（Rank Cases）对话框选择排秩变量将排秩变量选入变量（Variables）列表框, 这里选择居住时间（time）的秩；选

34、择排秩方式：Assign Rank 1 to (把秩值1分配给) 后有两个选项 Smallest value 将秩值1分配给最小的值，即按升序排秩； Largest value 将秩值1分配给最大的值，即按降序排秩。这里按居住时间的升序排秩选择秩变量的类型:单击RankType 按钮，弹出Types子对话框。该对话框用于指定生成的新变量的计算方式，默认选项为Rank，即生成的新变量就是排秩变量的秩，变量名为排秩变量名前加“s”,其余的选项并不常用 ; 选择相同值的秩的取值方法：单击Ties按钮，弹出Ties子对话框，各选项的意义如下：l Mean 相同值的秩取平均值，系统默认值；l Low

35、相同值的秩取最小值的秩；l High相同值的秩取最大值的秩；l Sequential ranks to unique values: 相同值的秩取第一个出现的秩值。2.5.4产生计数变量在数据统计中，常常需要进行一些计数工作，主要是针对所有观测或满足一定条件的观测实现计数，计算出若干个变量中有几个变量的值落在指定区间内，并将计算结果存入一个新变量即计数变量。例如在补钙产品的市场调查数据中要统计居住时间在3到8年之间，年龄在50岁以上被调查者人数。操作：选择菜单转换（Transform）=对个案内的值计数（Count Values within Cases）打开计算个案内值的出现次数（Co

36、unt Occurrences of Values within Cases）对话框首先在Target Variable框中指定一个变量，可以是变量列表中已有的变量，也可以是将要生成的新变量。然后将需要计数的变量添加到Numeric Variables框中，这里选择居住时间（time）和年龄（age）；确定需要计数的数值范围，单击Define Values,打开Values to Count对话框其选项有 Value：输入某个指定值作为计数值； System -missing ：表示以系统指定的缺失值作为计数值； System or user -missing ：表示以系统或用户指定的缺失

37、值作为计数值； Range 指定数值范围为计数区间。第2个Range指定为只需要输入最大值，不需要输入最小值的半闭区间（Lowest through n），即小于等于n的区间。第3个Range指定为只需要输入最小值，不需要输入最大值的半闭区间（n through highest），即大于等于n的区间。这里选择第3个Range输入50，再选择第一个Range输入3 through 8单击Continue指定条件来选择参与计数的观测：单击if 按钮,打开Count Occurrences:if Cases对话框。一般用系统默认的全部观测参与统计2.5.5数据重新编码（产生分组变量）有时候搜集到的数

38、据不太适合直接做统计分析,例如对补钙产品数据按居住时间(time)分析，但变量time取值过于分散，不利于分析，希望对居住不同时间段的被调查者进行分析。可以利用SPSS提供的重新编码对变量time分组，根据原始数据，我们希望将time分为3组，3年，46年，7年。操作：重新编码变量覆盖原变量Transeform=Into Same Variables打开Recode Into Same Variables重新编码变量为新变量Transeform=Into Different Variables打开Recode Into Different Variables单击old and new valu

39、es 在原数据文件中增加变量nem_time。2.5.6产生自动分组变量在2.5.5中的重新编码可以按用户要求对数据分组，本节提供一种按分位数对变量分组的工具，例如对补钙产品数据希望对居住时间(time) 按分位数分组。操作：选择Transeform=Categorize Variables打开Categorize Variables对话框；将分组变量time移入Create Variables列表框；在Number of categories输入框中输入分组数目3；单及ok。在原数据文件中增加新变量n+time。2.5.8变量集的定义和使用2.6 数据文件的合并与拆分纵向合并（Ad

40、d Cases）横向合并（Add Variables）2.6.1数据文件的纵向合并纵向合并要求合并的两个或多个数据文件有相同变量和不同的观测。例合并studendf.sav和studendm.sav打开其中一个数据文件studendf.sav；选择菜单DataMerge FilesAdd Cases，打开Read File对话框，选择另一被合并的数据集studendm.sav，单击“打开”，系统才弹出Add Cases对话框Add Cases对话框，左侧显示的是新、老数据文件中不匹配的变量名，右侧显示的是已经匹配的变量名。可以用Rename按钮对不匹配变量改名（先选中）或用鼠标强行匹配（即先

41、按Ctrl键选中匹配的两个变量再单击Pair钮）。右下方的Indicate case source as variable复选框用于定义一个新变量以区分哪些记录是后来添加的。单击OK。实际上右侧显示的是将要包括在合并后数据集中的变量，如果有哪个不需要，将它移到左侧框中即可。2.6.2数据文件的横向合并横向合并是指把两个或多个数据文件实现左右对接，要求相互合并的数据文件中应包含同样的观测和不同的变量,但至少要有一共同的变量。合并前每个数据文件要先按此变量排序例合并数据集studend.sav和fenshu.sav打开数据文件studend.sav；选择菜单DataMerge FilesAdd

42、Variable对话框，系统同样先弹出打开数据文件对话框，单击OK后弹出和前面相似的Add Variable对话框。按需选择即可。2.6.3数据文件的拆分在进行统计分析时，经常要对文件中的观测进行分组，然后按组分别进行分析，比如按不同性别分别计算人均身高；按不同地区分别计算人均年收入等。注意：这里的数据拆分，并不是真把原数据集拆成两个数据集，只是在进行统计分析前作形式上的拆分。操作：打开被拆分数据文件；选择菜单DataSplit File，打开Split File对话框 Analyze all cases单选框：和下面的两个单选框为一组，选中本框不拆分文件，选择此项可恢复到未拆分的状况； C

43、ompare groups单选框：按所选变量拆分文件，各组分析结果紧挨在一起便于相互比较； Organize output by groups单选框：按所选变量拆分文件，各组分析结果单独放置；选择分组变量：只需将分组变量从左边变量列表移至Groups based on框：选择数据的排序方式 Sort the file by grouping variables单选框：将数据按所用的拆分变量排序； File is already sorted单选框：数据已经按所用的拆分变量排好序，系统不需要再重新排序。单击 ok例补钙产品市场调查数据以性别为分组变量，分别按Compare groups和Organize output by groups方式对数据进行拆分，作基本统计分析。

展开阅读全文