1、社会统计分析与SAS应用习题及答案及程序数据附录A:1-17章习题及答案习题1答案1.社会调查的方法主要有哪些? 答:社会调查的方法有多种,但最主要的有以下几种方法: 问卷调查法、文献追踪法、内部资料调研法、访谈调查法、亲自实践法等。2.市场预测的主要内容是什么? 答:所谓市场预测,是根据市场营销的状况以及供需趋势,总结现在,测算未来。预测的主要内容有:消费者的需求、国内市场动向、国外市场动向等。 3.请仿照本章表1-3,自行设计出一份民意测验方面的问卷。 答案:略 4.问卷调查方式有哪几种? 答:问卷调查至少有三种形式: (1)普查某个企业、某个群体的情况。(2)抽样调查(即抽查)某地区某几
2、家企业的市场营销情况。(3)典型调查。 5.问卷的基本结构有哪几大部分?答:在一般情况下,问卷的基本结构有以下三部分:(1)封面致敬信(2)正文问答题(3)封底指导语 或(1)封面致敬信(2)扉页指导语(3)正文问答题 上述两种结构形式,可任选其一。6.致敬信的内容主要是什么?答:致敬信的内容是给被访者看的一封求助信,其内容亲切诚恳与否,直接影响到被访者填表的态度认真与否,因此务必要语气亲切、求贤若渴,让人一看便能责无旁贷地、认真地填答。因此致敬信应是一封简短亲切的求助信。 7.致敬信的正文应如何写? 答:正文的内容要中心突出,简明扼要。 正文内容要突出保密性。一定要向被访者指明填答的方法。
3、8.问卷编码时必须注意哪些事项? 答:(1)一个编码格“”只能填入一个数字(或一个字母),之后,每一份问卷都要如此编码。 (2)一个变量的数值类型要保持一致,不能数字与字母混编。比如数字“1”表示男性,“2”表示女性时,那么,下一份问卷就不能改用“M”表示男性,“F”表示女性。 (3)数据超范围的处理。如对年龄等变量,设计的是两个编码格“”,但偶尔遇到100岁以上的被访者,则属于数据超范围,最好应该统一增加一个编码格,这时,26岁应编码为026。 (4)编码格“”是为了清晰可见,对于熟练的研究人员,可以省略不用编码格“”,而像第1章表1-4那样直接在问题的右端编码。 9.写指导语要注意什么?答
4、:指导语主要用来告诉填答者如何填好问卷中的答案,比如: (1)问卷中画横线“_”处,请您填入符合自己情况的数字和答案。 (2)问卷中的多项选择题,请在符合您自己情况的该项前面的序号上,画一个“”;如: 性别:-男 2-女 (3)如果某些问题比较复杂,则应该逐一在题后用括号加以说明。比如:“(此题有5个答案,请选择最重要的1个)”,“(此题填法与上面相同)”,“(居住面积不包括阳台)”等。 总之,问卷中模糊不清的地方一定要加以详细说明。 10.问卷设计有何原则? 答:(1)要便于回答。(2)要消除被访者的顾虑。(3)要按定量分析或定性分析分别设计问卷。(4)根据计算机处理或手工处理分别设计问卷。
5、(5)根据自填式或他填式分别设计问卷。 11.问卷中的问题有哪几类? 答:(1)填答式:在问题的后面划出一道横线,答案要填在横线上,(2)是非题:在问题的后面列出两种判断(是与否、好与坏、对与错)。(3)多项选一:在一个问题的后面列举出两个以上的答案,供被访者选答其中最符合自己实际情况的一个答案。(4)矩阵式:把问题排成行,而把各种答案排成列。(5)表格式:是上述矩阵式的特殊形式。 12.问卷中问题的答案有几大类? 答:问卷中的问题有两大类:封闭式问题和开放式的问题。封闭式问题的答案可以由调查单位规定具体的答案。开放式的问题往往有五花八门的答案,一般难于硬性规定其答案(收入、身高、体重等区间(
6、定距)以上变量除外)。 13.封闭式答案必须注意哪些问题? 答:封闭式问题的答案:设计时必须注意到“互斥性”、“穷尽性”。 14.什么是区间(定距)以上的变量?宜用什么样的答案? 答:所谓区间变量,国内俗称定距变量。它的变量值可以测量出一个区间的距离,比如:个人月收入、家庭的人均收入、年龄、身高、体重、分数,以及购买电视机有多少年等。区间(定距)以上的变量宜用开放性的答案。 15.为什么说区间(定距)以上变量的答案不宜分组? 答:对区间(定距)以上的变量值分组貌似有理,但是统计分析时就会犯难了。因为不能真正统计出本批问卷中人均月收入为多少。错误之处是很明显的:收入被分组后,原来的区间(定距)以
7、上的数据就成了次序(定序)型数据,而次序型的数据只能计算它们的中位数,计算其平均收入则失去了原有的意义。 16.问卷设计中常见的错误有哪些? 答:问卷设计超出了计算机实际处理的能力,区间(定距)以上的变量错划了范围,问题的答案犯了嵌套的错误等。17.在社会调查和市场调查时为什么要采用量表法?答:此类调查需要了解消费者对某种商品的认可程度、购物意向,以及对某种商品价格的看法等深层次的问题。如果只是简单地采用“是”与“否”或“好”与“坏”的问法,甚至分为几个阶段,这样做固然可以,但是统计时往往无法预测出内在的结果;而且,遇到政策性较强或带有某种政治色彩的问题时,如果简单而直接地采用“是”与“否”或
8、“好”与“坏”的问法,被访者因出于各种考虑而往往难于道出内心深处的真实看法。因此有必要采用量表法。 18.什么是利克特的量表法? 答:利克特是美国的一位社会心理学家,在20世纪30年代,他和一些科学家对上述量表中的“是”与“否”(或“赞成”与“不赞成”)两种答案进行了改进,分别增加了“头”、“尾”和“中间”三种答案,例如:“非常不赞成不赞成无所谓赞成非常赞成”; 根据这5 种回答,然后依次记为:1分2分3分4分5分。 某人如果赞成什么事则记为4分,不赞成则记为2分,依此类推。从中可以计算出每人的得分以及群体总分是多少,以此可以判断某人对某事所持的态度。因此,利克特量表也被称为“累加量表”。习题
9、2答案1.什么是观察值OBS?什么是变量及变量值?答:一份问卷或一个被访对象就是一个观察值。一份问卷中的每一个问题都是变量。每一个变量所对应的数据(如sex=1或sex=2)就叫做变量值VALUE。2.有哪几种变量类型? 答:有2种变量类型。变量值是用阿拉伯数字表示时,该变量被称为“数值型”变量(或数字型变量)。变量值若用字母(或字母与数字的混合型)表示时,该变量则称作“字符串型”变量;此时,该变量名的后面必须附加一个美元符号“$”。同一个变量必须赋于同一类型的数据(变量值)。习题3答案1.变量值的栏目位置(栏位) 有哪几种?答:自由格式和固定格式两种。2.如何定义“一行多个观察值数据的挖掘方
10、法?答:用符号定义。比如:INPUT EDC ocu1 sal1 ;3.SAS用什么命令调用外部数据文件? 答:用INFILE命令调用外部数据文件。比如:INFILE Older.Dat;(调用当前目录中的Older.Dat数据文件)4.SAS用什么命令定义变量标签?变量标签处于程序的第几行? 答:用LABEL命令定义变量标签。变量标签必须处于程序的DATA行后面。比如:DATA older;LABEL ID1=地区名称 CASEID=观察值编号 EDC=老年人的文化程度 ocu1=退休前的职业; INFILE older.DAT;5.SAS如何创造新变量?答:创建一个新变量,它等于老变量(在
11、INPUT中已定义的变量)之间的数学运算。可使用的数学运算符及其书写方法见表A.1。 表A.1 SAS的数学运算符及其写法运算符功能及其公式SAS程序中通用写法相加:Z=XYZ=XY相减:Z=XYZ=XY*相乘:Z=X*YZ=X*Y/相除:Z=X/YZ=X/Y*乘方:Z=X*2Z=X*X例:Z=XY ;6.SAS如何进行数据重新编码?答:举个年龄的例子,年龄可分为:20岁以下,2040岁,4060岁,60岁以上等年龄组, 重新编码的命令如下:PROC FORMAT;VALUE ageF LOW20=1 2040=2 4060=3 60High=4; FORMAT age ageF.;习题4答案
12、1.熟练掌握“在Work工作区中直接输入数据”的技巧。(答案略)2.请比较ASSIST视窗与“分析”(Analysis)对话框在统计中的用法。(答案略) 3.为什么说用2.2节和4.4节介绍的数据输入法是最佳的方法?答:对于样本量只有几十个OBS的数据,在Work工作区中直接输入数据目前是SAS系统的一种简易的数据输入法。而图2.1这种数据输入法也叫命令编程法,是最切实可行又多快好省的数据输入法。习题5答案1.总体与样本有何本质区别?答:总体(population)是样本测量值的集合。对于感兴趣的整个组中,每个成员都对应一个这样的值。具体说来是某省的人口(总体)或工业产值(总体)中的某个指标测
13、量值的集合,而不是那些人或物的集合。样本(sample)虽然也是一些值的集合,但不代表整个感兴趣的组。比如,一个样本可以是某省中某县的人口的集合或某县工业产值的集合。2.参数与统计量有何本质区别?答: 由于总体与样本的不同,由此派生出参数与统计量的差别。(1)参数:参数(parameters)是总体的测量值,用希腊字母表示。(2)统计量:统计量(statistics)则是样本的测量值,用一般的英文字母表示见第5章表5.1。3.在SAS统计分析软件中,均值、标准偏差、方差这三种测量值是什么含义?答:(1)均值:用以描述数据(变量值)分布的中心位置。定距以上的数据计算均值才有意义。比如,对于一个总
14、体(某省)的人口,其平均值称为总体均值(populationg mean),记为。对于某样本(某县)的人口,其平均人口则称为样本均值(sample average),记为-X。总体均值和样本均值的计算公式是相同的。但是其他测量值不一定相同。此外,还有方差、标准偏差等概念。(2)标准偏差:也称为标准差。表示某人的身高或收入等测量值偏离均值多少。比如甲班语文成绩的标准偏差为20,乙班语文成绩的标准偏差为30,那么,乙班语文成绩比甲班的语文成绩变化(波动)大。(3)方差:标准偏差的平方则是方差。方差表示数据内部的变异性。4.什么是正态分布?它有什么特征?答:统计学上,一般都是假设被统计的样本是来自正
15、态分布(Normal distribution)的总体。正态分布是关于总体的一种理论分布,是有严格的数学定义的。从正态分布的总体中抽取的样本一般是服从正态分布的。正态分布的重要特征有:(1)均值:均值是观察值的平均值(Mean value)。定距(Interval)以上的变量值的均值才有意义。 (2)众数:众数是最经常发生的频数。众数是对定类变量(Nominal)而言的。比如某班有男生25名、女生15名,那么,该班男生的人数是众数。(3)中位数:中位数是对次序(Ordinal)变量值而言的。中位数是比取值的一半大、同时又比取值的一半小的值。或者说,中位数的一半落在均值之上,同时,另一半则落在均
16、值之下。中位数的取值方法有两种:单数情况下的观察值的中位数;双数情况下的观察值的中位数。 (4)正态分布的均值、众数、中位数重叠:将正态分布的图形沿着中心位置对半折叠时,均值、众数、中位数三者重叠在一起。5.经验规则有哪些?答:如果数据来自服从正态分布的总体,可用下面的经验规则很快地概括出我们的数据。经验规则有: 68%的观察值是落在离均值一个标准偏差(1)的范围内。 95%的观察值是落在离均值两个标准偏差(2)的范围内。 99%的观察值是落在离均值三个标准偏差(3)的范围内。 6.检验数据正态性的主要统计量有哪些?答:正态性检验的重要统计量是取决于概率P值(参阅第5章图5.2中PrW后面的值
17、)。PrW:这是概率值,此值在0 1之间,表示对于正态性的可拒绝程度。当此值小于给定的5%(值)时,说明数据不是来自正态分布的总体。比如概率值为0.05,由于不小于值0.05,所以没有理由拒绝H0;说明该样本数据服从正态分布。如果样本规模太小(一般不少于200个OBS),则要观察附加的统计量(比如条形图、正态概率图、茎叶图、框图或偏度、峰度)。在附加的统计量中茎叶图和正态概率图比较直观;但在只有几十个观察值的情况下观察偏度、峰度值大有益处。 7.检验正态性的其他附加方法有哪些?答:检验正态性的统计量除了第5章图5.2 的PrW后面的概率值以外,还有以下几种附加的方法及其统计量。条形图:应该呈现
18、正规的“钟型”分布。观察描述性统计量中的偏度(skewness)和峰度(kurtosis),二者应该很接近于0。正态概率图:图形的散点应该呈现一直线。详见图5.3。但在只有几十个观察值的情况下观察偏度、峰度值大有益处。 8.理论的显著性水平(值)是什么?有几种水平选择?答:理论的显著性水平值是检验零假设(H0)的参考概率。值一般有 3种取值:0.10、0.05和0.01,分别表示“中等显著”、“显著”、“高度显著”。对于=0.10来说,意味着参考概率为0.10。如果拒绝原假设的后果不是十分严重,建议取=0.10。如果原假设是关系到前人所发现的一种理论,拒绝后其后果十分严重,建议取=0.01(或
19、=0.001)。一般情况下取=0.05。9.什么是实际的显著性水平答:实际的显著性水平是统计分析时得到的概率P值,SAS 6.12以前版本输出标志为Prob,SAS 8.0以后版本输出标志为Pr。如果Pr的值值0.05则拒绝原假设,表明在显著性水平0.05下,检验的结果是显著的。10.什么是“第一类错误(Type error)”?答:当备择假设不正确却认为正确,这就称为“错误”。统计学上称之为“第一类错误(Type error)”,有人称之为“弃真的错误”。11.什么是“第二类错误(Type error)”?答:本该拒绝原假设H0但未能拒绝。统计学上称之为“第二类错误(Type error)”
20、。也称“纳伪的错误“。若能控制好样本量,则能避免第二类错误(Type error)。习题6答案1.SAS至少有哪几条命令语句可以书写汉字标签(汉化)?答:至少有5条命令可以书写汉字标签:TITLE、LABEL、VALUE、TABLE、KEYLABEL。如:PROC FORMAT; VALUE SEXF 1=男 2=女;FORMAT SEX SEXF.;KEYLABEL N=频率 ALL=累计;2.什么是SAS的数据集?如何复制数据集?答:SAS的数据集是SAS源程序运行之后所生成的目标数据,即SAS系统内部能识别的数据集,它相当于SPSS的*.sav数据。可用SET命令复制SAS数据集。比如:
21、DATA one;INPUT a b c;cards; 数据行DATA two; /*预先为one的复制品起名为two*/set one; /*数据集two是从数据集one中复制的。*/3.请根据程序6.5中的数据分别用编程法和对话框法绘制BLOCK图,然后进行比较。(答案略)习题7答案1.试用“分析家”(Analyst)对话框及命令法分别计算程序7.4中的sex变量的频数分布。答:对话框见第7章的7.2节。命令法见程序7.1。2.答案略,可参阅图7.8的分析。 习题8答案1.试用“分析家”对话框进行双变量的交叉汇总分析。答:见第8章的8.1节。2.试用TABLE命令进行双变量的交叉汇总分析。
22、答:设命令为TABLE id1*sex*edc;将产生两个sex*edc的交叉汇总子表。这是因为id1=11,12两个水平值。一种水平数值产生一个子表。3.试说命令TABLE id1*sex*edc中3个变量的作用。答:这3个变量的作用分别是“控制变量*行变量*列变量”。4.试分析图A.1中的卡方分布。H0:sex(性别)与edc(文化程度)互为独立。 图A.1 卡方检验答:皮尔逊卡方(Chi-Square)为9.2684,自由度(DF)为4,其概率值(Prob)为0.0547。 又0.0547理论值0.05。没有理由拒绝原假设,从总体说sex(性别)与edc(文化程度)互为独立。 习题9答案
23、1.试用“分析家”(Analyst)中的对话框进行均值比较。答:参阅第9章9.1节。2.答:从正文图9.11的Pr|t|值小于0.0001看,两组的差异是显著的,1991年该地区男性老人的退休后的平均月收入,同比高于女性老人的平均月收入约88.20元(158.6570.45)。3.试写出产生图9.11结果的MEANS过程命令。答:参阅第9章程序9.4。其中主要的MEANS过程命令如下:PROC MEANS DATA=m1 MAXDEC=6 VARDEF=DF N NMISS MEAN STD CV RANGE USS T PRT; VAR sal2;BY sex;习题10答案 1.独立样本T检
24、验的假设检验是什么?答:独立组样本T检验要求数据符合以下3个条件:(1)观察值之间是独立的。(2)每组观察值是来自正态分布的总体(此点决定了数据必须来自定距以上的变量)。(3)两个独立组的方差相等。H0:两个子总体的方差相等。 H0:1=2(两个子总体的均值相等)2.什么是两独立组样本的Wilcoxon秩和检验?答:参阅10.2节。命令为:PROC NPAR1WAY DATA=work1 WILCOXON; CLASS sex; VAR score; TITLE Wilcoxon秩和检验; 3.配对样本T检验的假设检验是什么? 答:它只有以下两种假定。(1)每对观察值与其他对观察值互为独立。(
25、2)配对差值来自正态总体。4.配对差值T检验的过程是什么?答:过程如下:H0 :配对差值与0的差别不显著。dif=T1-T2;proc Univariate DATA=work1;var dif;TITLE1 配对差值T检验;5.什么是配对差值的Wilcoxon秩和检验?答:应用PROC Univariate过程可以同时进行配对差值T检验以及配对差值的Wilcoxon秩和检验。PROC Univariate过程见表A.2所示的主要语句。表A.2 命令语句PROC Univariate DATA=work1;BY 分组变量;(BY语句慎用)VAR dif;TITLE1 Wilcoxon配对差值T
26、检验;6.独立组与配对组T检验的语句有何不同?答:参阅第10章的表10.3。7.答:可用下面命令检验。PROC Univariate DATA=DT;VAR tt;8.答:参阅第10章的10.2.2节。习题11答案1.什么是结合分析?答:见第11章11.1节。2.如果国内微电脑主流产品之一是方正(内存容量512MB,硬盘容量40G,每台5000元)产品。问:当价格为6000元时,应该推出何种配置的华硕微电脑,才能“既战胜方正该主流产品?又赢过联想(内存容量512MB,硬盘容量60G,每台5000元)产品”?答:参阅第11章11.6节的市场预测与决策。习题12答案1.变量有哪4种类型?答:(1)
27、标称变量(Nominal Variable):国内称之为“定类”变量或“名义”变量。(2)次序变量(Ordinal Variable):国内称之为“定序”变量。 (3)区间变量(Internal Variable):国内称之为“定距”变量。(4)比例变量(Ratio Variable):国内称之为“定比”变量,其变量值既具有次序变量和区间变量的性质,还存在一个有意义的“零点”。比如甲高2米,乙高1米,甲则是乙的两倍高度。2.“比例比例”(定比-定比)型的变量要用哪一种相关测量?答:见第12章12.2节的皮尔逊积差相关。3.“二分变量-区间以上变量”要用哪一种相关测量?答:用第12章12.3节的
28、皮尔逊二分“点距”相关。4.“次序次序”(定序-定序)型的等级变量要用哪一种相关测量?答:用第12章“12.4 节的肯氏(Kendall)等级相关”b。5.“次序次序”型的等级变量还可以用哪一种相关测量?答:还可以用12.6节的斯皮尔曼等级相关。6.“次序比率”(定序-定比)型的数据要用哪一种相关测量?答:用12.5的肯氏相关系数。7.“标称-标称”(定类定类)型的变量要用哪一种相关测量? 答:用12.7的Phi()系数或V系数。8.哪一个相关系数的值要乘以30倍? 答:计算出的Hoeffding 的D统计量应乘以30倍。其D值范围为:0.5 1。当D值为较大的正值时,才表明变量间存在相关。见
29、12.9。9.试写出计算身高(height)与体重(Weight)的Spearman相关系数。 答:PROC CORR Spearman;VAR Height Weight;(此句Weight指体重变量)10.答:从正文的图12.30可以看出,sal2与sal1的相关系数为0.6795,且概率值小于0.0001(很显著),表明当前工资与初始工资有较强的相关。习题13答案1.GLM过程有哪些功能?答: GLM过程不仅可处理连续形变量的数据,而且可分析非连续形的数据,比如:(1)简单回归(Simple Regression);(2)多元(自变量)回归(Multiple Regression);(3
30、)方差分析(ANOVA):尤其适用于非均衡、非对称的数据的方差分析(Unbalanced DATA);(4)加权回归(Weighted Regression);(5)偏相关(Partial Correlation);(6)复方差分析(MANOVA);(7)多项式回归(Polynomial Regression),或称高次回归; (8)协方差分析。 2.答:没有必要创建x*x项。习题14答案1.什么是协方差分析(Analysis of Covariance ANOVA)?答:参阅第29章开头叙述。2.答:从输出结果(略)看,A=1一组的均值为135.28,其显著性水平 理论值0.05,显著。A=
31、2一组的均值为123.72,其显著性水平 |t|为0.0001 理论值0.05,所以有理由拒绝H0假设,即两组均值差异显著。表明修整后,常饮酒与不饮酒两组男士的平均血压(收缩压)的差异显著。习题15答案1.方差分析的假设是什么?答:方差分析的假设检验旨在排除随机误差的干扰,它和一切假设检验一样,首先假设总体均值没有显著差异,若有差异,则有理由拒绝原假设认为总体中至少有一对(两个)均值不相等。因此: H0(原假设):1=2=p H1(备择假设):至少有一对(两个)均值不等。当F的显著性水平 理论值0.05时,则有理由拒绝原假设。详见第15章15.1节的方差分析的假设检验。2.答:解得,组1和组3
32、的血糖含量不同。3.答:解得,不同的工厂之间职工的月均工资有显著差异。习题16答案1.在第16章Factor中,Eigenvalue有何意义?答:图16.1关于Factor分析中,Eigenvalue是特征值,它标志着每个变量的方差值的大小。而且特征值还决定着Factor的抽取个数。SAS默认为:抽取特征值1的主成分作为Factor(因子)。2.答:第1 个因子可概括为死亡内因。第2 个因子可概括为死亡外因。3.Factor(因素分析)过程与PRINCOM(主成分分析)过程有何异同之处?答:主成分分析是从多变量的样本中提炼出少数几个综合变量(指标)来解释原来较多的变量(指标)。Factor(因
33、素分析)正是采用主成分分析的这个原理。但是Factor(因素分析)又比主成分分析要求更高。Factor(因素分析)不仅要求变量个数最小化,而且要求Factor个数也最小化。4.答:主成分分析法见程序A.1。程序A.1:DATA zcf;INPUT vxy age n; CARDS;14545 70 135 35 78 120 30 6511035 60 120 33 78 130 50 80;PROC PRINCOMP;VAR vxy age n;RUN;程序运行后产生的结果略。习题17答案1.判别分析的原理是什么?答:参阅第17章的17.1节。判别分析是在获得分组规则的基础上,再把各个观察值
34、(OBS)按此规则分配到对应的组里。例如给文科组和理科组的学生施以英语、政治和体育课教学,然后根据这3门功课的分数就可求出差别规则,以后对新生分组时,均按这种规则,把学生分配到适当的组里。但聚类分析中,事先并不知道组群和组数。2.主要的判别分析法有哪几种?答:主要的判别分析法有如下3种:(1)一般判别分析法(PROC DISCRIM):不对变量进行筛选。它细分为两种:Normal(参数法),NPAR(非参数法)。详见第17章17.3。(2)典型判别法(Candisc)。详见17.5。(3)回归判别分析法(Regression for Discriminant):对变量进行回归筛选。它细分为3种
35、:Forward法:变量前进法;Backward法:变量退出法;Stepwise法:逐步回归判别法,是两种的先后结合。详见17.4。3.(答案略)-附录B:如何快速入门学好SAS和SPSS1.凡是我们主编和写作的教材(如本书及SAS统计分析实用大全等),从第1章到最后一章的内容基本上是由浅入深、顺序渐进地介绍的。阅读时至少应该从第1章起依次阅读到第5章,以便掌握基本的统计知识和统计方法。2.每一章的程序(含数据)都有一个名称,比如书中的程序1.1是表示第1章的第1个SAS程序,其扩展名一律默认为“.SAS”。3.对这些实用程序和数据,笔者特地象征性地提供其中的20例防入一张盘中,以便上机时变通
36、和模仿之用,不能扩散。特别声明的是,由于数据都是统计局或课题组的,版权所有,违者会被追究。未尽事宜可发电子邮件向rghai联系。4.由于篇幅所限,许多内容未能写进书中,所以欢迎读者带着问题或课题参加每年的五一节、国庆节和每年暑假中的SPSS及SAS培训(电子邮箱rghai,电话010-82719568)。 5. 培训计划(见【SPSS、SAS培训班简章】)。 【SPSS、SAS培训班简章】我系是国内SPSS与SAS洋为中用的发祥地。为纠正社会上使用SPSS及SAS的偏差或谬误,提高统计分析的准确性和先进性,除了以下固定的研讨日期外,我系随时欢迎统计学界的同仁朋友参加我系举办的SPSS和SAS新
37、技术研讨或进行课题协作。其他研学时间可由您来定并将复印件寄回敲定。(一)研讨内容 1.初级研讨:数据的快速输入法、描述性统计、均值比较、T检验、相关分析、预测分析和线性回归等。收效:由入门到基本掌握SPSS或SAS的统计分析和市场调研法。2.高级研讨: 方差分析、Factor分析、对应分析、聚类分析、生存分析、非线性回归分析等。收效:能胜任复杂的统计分析和课题研究。 3.名额:10人。(二)SPSS研讨时间及收费标准 1.初级研讨:月30日至月3日。听课费、资料费、会务费、上机费共2200元,开发票。路费、食宿费自理,安排校内住宿。2.高级研讨:月 4 日至月6 日。听课费、资料费、会务费、上
38、机费共2200元,开发票。路费、食宿费自理,安排校内住宿。(三)SAS研讨时间及收费标准 1.初级研讨:月7 日至月 10日。听课费、资料费、会务费、上机费每位2200元,开发票。路费、食宿费自理,安排校内住宿就餐。2.高级研讨:月11日至月13 日止。听课费、资料费、会务费、上机费每位2200元,开发票。路费、食宿费自理,安排校内住宿就餐。(四)考试合格发结业证。注:社会上的班34天每人学费高达3200元,可用“百度”搜索了解和比较。(五)全额学费提前一个月寄:100871 北京大学社会学系阮桂海。(电话:010-82719568。E-mail:rghai)以确认名额及预定床位。(六)乘车路
39、线:(方位:北京市海淀区中关村北大街“中关园”站)1. 北京人士坐320、827路、706路,或坐特6、特4、105运通,在“中关园”站下车,从北京大学东门进,请找逸夫一楼(法学楼)二层5206。2. 京外人士坐北京站地铁 西直门下车375(或722或749)路公共汽车“中关园北站”下车,回走约100米,进北大东门,找“法学楼二层5206”。 3. 京外人士在首都“西客站” 320公共汽车在“中关园”站下车,从北京大学东门进,请找逸夫一楼(法学楼)二层5206。 4.或下飞机 坐往“中关村”的机场大巴“中关村”终点站下打的约10元北京大学东南门,找“法学楼二层5206”。 说明:每年的国庆长假
40、(9月30日10月7日)也将举办SPSS和SAS的新技术培训。学费根据参加培训的人数可以上浮或下调。(四)联系方式:100871 北京大学社会学系阮老师。(电话:010-82719568)(五)乘车路线:(方向位于:北京市海淀区中关村北大街“中关园”站)1. 北京人士坐320专线、827路、706路,或坐特6、特4、105运通,在“中关园”站下车,从东门进,请找“逸夫苑” 南侧的逸夫一楼(法学楼)二层5206。2. 京外人士从北京站坐地铁 西直门下车375(或722或749)路公共汽车“中关园北站”下车,回走约100米,进北京大学东门,找“法学楼二层5206”。 3北京“西客站”坐320公共汽
41、车或特6公共汽车“中关园站”下车,前走约60米,进北京大学东门,找“法学楼二层5206”。 4.乘坐北京市地铁10号线,到“成府”(即北京大学东门)下车也到。 北京大学社会学系 二九 年 四月 日-附录C:1-17章部分程序数据(放在网站或制成数据光盘)/*程序2.1*/;TITLE 北京市东城区社区服务调研;DATA L1;INPUT id 1-2 sex $ 4 age 5-6 height 8-10 weight 12-14 .1; CARDS;01 m19 173 67202 m20 175 57503 f19 160 54004 m21 176 70005 f20 158 585;P
42、ROC FREQ; TABLE Age*sex;RUN;/*程序2.2*/DATA OLDER; /*注:读到的数据存入OLDER文件中,文件名长度为1至8个字符;若缺省,SAS则自动给一个文件名,但不显示*/ INPUT id1 1-2 caseid 3-5 name 6 sex age 8-9 edc 10 ocu1 11 ocu2 12 sal1 13-15 sal2 16-18 v1 19 v2 20 v3 21 v4 22 v5 23;LIST; /*显示每行的数据,以便核对。可省之*/CARD; /*告诉SAS,数据行从下一行开始读之*/1100111603101501202121
43、411002116542218018011210/*其他数据行*/; 11030227023013012021310 PROC PRINT; /*若写,则显示观察值。可省。*/TITLE 老龄人社会保障抽样调查; /*TITLE 中的内容是标题名称*/PROC PLOT; /*绘制散点图*/PLOT edc*ocu1=sex;/*以每人的性别为图点,画出其教育年限(纵轴)与职业(横轴)交点图*/ PROC CHART; /*调用直方图、条形图程序*/VBAR ocu1; /*画出退休前职业的垂直条形图*/HBAR sex; /*画出性别的水平条形图*/PROC FREQ; /*调用频次统计过程*/TABLES edc; /*计算edc的频次*/TABLES edc*sal1;/* 制作交互分类表*/PROC MEANS; /*调用MEANS过程,计算上述edc、ocu1和sal1各个变量的均值、观察