1、第第3 3章章 变量级别的数据管理变量级别的数据管理2012013 3. .9 9 数据管理:对数据进行加工处理。对同一数据管理:对数据进行加工处理。对同一个数据需进行不同侧面的研究,可采取多种统个数据需进行不同侧面的研究,可采取多种统计方法,不同的统计方法对数据文件结构的要计方法,不同的统计方法对数据文件结构的要求不同,这需要对数据文件的结构进行重新调求不同,这需要对数据文件的结构进行重新调整或转换,以便适用于相应的统计方法。数据整或转换,以便适用于相应的统计方法。数据管理直接关系到数据分析的结果。管理直接关系到数据分析的结果。 数据文件的管理功能集中于:数据文件的管理功能集中于:l “转换
2、转换”(Transform)菜单)菜单变量级别管变量级别管理理l “数据数据”(Data)菜单)菜单文件级别管理文件级别管理 “转换转换”(Transform)菜单的项目分)菜单的项目分为几类:为几类:l计算新变量:计算新变量:“计算计算变量变量”(Compute)过程;过程;l变量转换:变量转换: “重新编码重新编码”(Recode) “离散化离散化”(Visual Bander) “计数计数”(Count) “个案排秩个案排秩”(Rank Cases) “自动重新编码自动重新编码”(Automatic Recode) l专用过程:专用过程: 日期日期/时间(时间(Date/ Time )
3、创建时间序列(创建时间序列(Create Time Series) 替换缺失值(替换缺失值(Replace Missing Values) 随机数字生成器(随机数字生成器(Random Number Seed)l运行挂起的转换(运行挂起的转换(Run Pending Transforms) 3.1 3.1 变量赋值变量赋值l所谓变量赋值是指在原有数据的基础上,所谓变量赋值是指在原有数据的基础上,根据用户的要求,使用根据用户的要求,使用SPSSSPSS算术表达式及算术表达式及函数,对所有记录或满足条件表达式的某函数,对所有记录或满足条件表达式的某些记录进行四则运算,并将结果存入一个些记录进行四则
4、运算,并将结果存入一个用户指定的变量中。该变量可以是一个新用户指定的变量中。该变量可以是一个新变量,也可以是一个已经存在的变量。变量,也可以是一个已经存在的变量。3.1.13.1.1常用基本概念常用基本概念1.算术表达式(算术表达式(Numeric Expression),用于),用于进行变量转换,是由常量、变量名、算术运算进行变量转换,是由常量、变量名、算术运算符、圆括号等组成的式子。符、圆括号等组成的式子。2.函数,有函数,有70余种系统函数,分为余种系统函数,分为8类,包括算类,包括算术函数、统计函数、分布函数、逻辑函数、字术函数、统计函数、分布函数、逻辑函数、字符串函数、日期时间函数、
5、缺失值函数和其他符串函数、日期时间函数、缺失值函数和其他函数。函数名(参数)是函数具体的书写形式,函数。函数名(参数)是函数具体的书写形式,系统已经规定好的;圆括号中的参数可是一个系统已经规定好的;圆括号中的参数可是一个或多个(多个参数之间用单字符逗号隔开);或多个(多个参数之间用单字符逗号隔开);参数类型:常量、变量、算术表达式。参数类型:常量、变量、算术表达式。3.条件表达式和逻辑表达式,是对指定部分记录条件表达式和逻辑表达式,是对指定部分记录进行计算和逻辑运算。进行计算和逻辑运算。如果上述三者同时出现,要先满足条件后计算。如果上述三者同时出现,要先满足条件后计算。3.1.23.1.2 “
6、计算变量计算变量”过程过程l “计算变量计算变量” (Compute)l 利用算术符号和函数生成新结果,利用算术符号和函数生成新结果,结果保存到指定变量中,指定变量可结果保存到指定变量中,指定变量可以是新变量,也可以是一个已存在的以是新变量,也可以是一个已存在的变量。变量。例例3.1 3.1 将年龄分为将年龄分为3 3组。组。 又例又例1 1 数据数据transform.savtransform.savl平均成绩平均成绩= =(语文成绩(语文成绩+ +数学成绩数学成绩+ +英语英语成绩)成绩)/3/3l英语成绩在英语成绩在6060分以上的学生语文和数学分以上的学生语文和数学的平均成绩的平均成绩
7、l又例又例2 调整后工资计算调整后工资计算“个人个人”所得税。调整所得税。调整后工资额小于后工资额小于1200元,税为元,税为0;工资额在;工资额在1200-1700之间,税为(调整后工资额之间,税为(调整后工资额-1200)0.05;工资额在工资额在1700-3200元之间,税为元之间,税为(调整后工资额(调整后工资额-1200) 0.1-25;工资额在工资额在3200-6200元之间,税为(调整后工资额元之间,税为(调整后工资额-1200) 0.15-125。l又例又例3 辽宁样本家暴课题数据(部分)中,辽宁样本家暴课题数据(部分)中,“出生年出生年”变量计算为新变量变量计算为新变量“年龄
8、年龄”。3. 2 对已有变量值的分组合并对已有变量值的分组合并l重新编码重新编码( (Recode) )l连续变量转换为等级变量(分类变量或离散连续变量转换为等级变量(分类变量或离散变量)变量), ,如年龄、收入;如年龄、收入;l将数值型变量转换为字符型变量将数值型变量转换为字符型变量, ,将字符型变将字符型变量转换为数值型变量;量转换为数值型变量;l将分类变量不同的变量等级进行合并,如教将分类变量不同的变量等级进行合并,如教育程度;育程度;l重新编码为相同变量(重新编码为相同变量(Recode into Same Variable)和重新编码为不同变量()和重新编码为不同变量(Recode
9、into Different Variable )。)。3.2.1 对连续变量进行分组合并对连续变量进行分组合并 连续变量转换为离散变量(等级或定序变连续变量转换为离散变量(等级或定序变量),生成新变量值,新值可赋给原变量,量),生成新变量值,新值可赋给原变量,可生成新变量。可生成新变量。l通过两个过程实现:通过两个过程实现:“重新编码重新编码”(Recode)和和 “离散化分段离散化分段”(Visual Bander)例例3.2 以例以例3.1运用运用“重新编码重新编码”过程操作。过程操作。 又例又例 数据数据transform.sav 生成新变量生成新变量grade。当英语成绩小于当英语成
10、绩小于60分取值为分取值为“不及格不及格”,60-70分为分为“及格及格”,70-80分为分为“良好良好”,大于等于大于等于80分为分为“优秀优秀”。3.2.2分类变量类别的合并分类变量类别的合并 还以例还以例3.1运用运用“重新编码重新编码”过程操作。过程操作。 又例又例 数据数据transform.sav 生成新变量生成新变量grade2,将,将grade中的优秀、良好和及格合中的优秀、良好和及格合并为并为“PASS”等级,将等级,将“不及格不及格”转化为转化为“NOPASS”。3.3 3.3 连续变量的离散化连续变量的离散化3.3.1 3.3.1 可视离散化过程可视离散化过程l“可视离散
11、化可视离散化” (Visual Bander)lSPSS12.0中新增的功能;中新增的功能;l可以进行等距分组,或等样本量分组;可以进行等距分组,或等样本量分组;l采用图形化的操作方式。采用图形化的操作方式。l例例3.2 3.2 将将S3S3年龄变量等间距分为年龄变量等间距分为1010组。组。3.3.2 3.3.2 最优离散化过程最优离散化过程l“最优离散化最优离散化”过程是根据某些作为过程是根据某些作为“关键指示关键指示变量变量”的分类变量,将原有的一个或多个连续变的分类变量,将原有的一个或多个连续变量按照该分类变量间差异最大化的优化原则离散量按照该分类变量间差异最大化的优化原则离散化为分类
12、变量,即可用离散化变量而非原始数据化为分类变量,即可用离散化变量而非原始数据值进行后续分析。值进行后续分析。l用于建模分析。当模型中的因变量为分类变量时,用于建模分析。当模型中的因变量为分类变量时,要对自变量进行离散化(分类化)。要对自变量进行离散化(分类化)。l例例3.3 3.3 利用利用S3S3年龄变量对年龄变量对S4S4学历进行预测建模,学历进行预测建模,要求基于此构思对要求基于此构思对S3S3进行最优离散化。进行最优离散化。3.4 3.4 变量的自动重编码与数值移动变量的自动重编码与数值移动3.4.1 3.4.1 变量的自动重编码变量的自动重编码l“重新编码重新编码”(RecodeRe
13、code)l“自动重新编码自动重新编码”(Automatic RecodeAutomatic Recode)例例3.4 S03.4 S0城市的数值分别为城市的数值分别为100100、200200、300300,自动编,自动编码为码为S0newS0new又例又例 在在transform.savtransform.sav数据中,将字符型变量数据中,将字符型变量citycity转转化为数值型变量化为数值型变量newcitynewcity。3.4.2 3.4.2 变量值的移动变量值的移动 3.53.5 “转换转换” (Transform)菜单中的其菜单中的其他功能他功能3.5.1 3.5.1 指定数值
14、的查找与计数指定数值的查找与计数 “计数计数”(Count)过程:表示某个变)过程:表示某个变量的取值中是否出现某个值,该值可是单量的取值中是否出现某个值,该值可是单个数值,可是指定区间,可给出条件,对个数值,可是指定区间,可给出条件,对部分数据进行操作。部分数据进行操作。例例3.5 3.5 生成新变量生成新变量S3OldS3Old,用于标识出,用于标识出S355S355的个案。的个案。S2S2性别为性别为“条件条件”3.5.2 3.5.2 变量的编秩变量的编秩l“个案排秩个案排秩” ” (Rank CasesRank Cases) 编秩是对记录按照某个变量值的大小来排序。编秩是对记录按照某个变量值的大小来排序。l新变量代表名次新变量代表名次 举例:对按平均成绩排名,分数最高的第一名举例:对按平均成绩排名,分数最高的第一名l相同分数的名次处理相同分数的名次处理l与与“对个案排序对个案排序” ” (Sort CasesSort Cases)的区别,)的区别, “ “对对个案排序个案排序” ” :升降序、多个变量排序。:升降序、多个变量排序。例例3.6 3.6 根据根据S2S2性别分组计算性别分组计算S3S3年龄的秩次年龄的秩次又例又例 在在transform.savtransform.sav数据中,根据性别分组计算数数据中,根据性别分组计算数学成绩的秩次。学成绩的秩次。