1、2022-7-2212022-7-2222022-7-2232022-7-224 由于建立数据文件是由于建立数据文件是SPSS分析分析的基础,所以本讲首先简要介绍数据的基础,所以本讲首先简要介绍数据的录入与管理。的录入与管理。SPSS具有很强的数据处理和分具有很强的数据处理和分析能力,它可以读取析能力,它可以读取11种不同类型的种不同类型的外部文件,存储外部文件,存储30种不同类型的数据种不同类型的数据文件。文件。利用利用SPSS对数据进行分析对数据进行分析,首先首先2022-7-225要建立数据文件。另外,有时还需要要建立数据文件。另外,有时还需要对已有数据文件进行编辑、管理,如对已有数据文
2、件进行编辑、管理,如变量、属性和文件的管理等。变量、属性和文件的管理等。1.数据的录入与调用数据的录入与调用 下面用一个实例介绍建立数据文下面用一个实例介绍建立数据文件和录入数据的方法。件和录入数据的方法。例例1 现有现有15人的体检资料,试建人的体检资料,试建立立SPSS数据文件,并存为数据文件,并存为1_1.sav。2022-7-226 体检资料包含的信息有编号、姓体检资料包含的信息有编号、姓名、文化程度、出生日期、体检日期、名、文化程度、出生日期、体检日期、身高、体重、疾病名称。身高、体重、疾病名称。在在SPSS中,录入数据时,首先中,录入数据时,首先要根据数据特征确定变量的名称、类要根
3、据数据特征确定变量的名称、类型型(宽度,小数宽度,小数)、标签、值等。、标签、值等。本例中的变量特征如下:本例中的变量特征如下:2022-7-227名称名称类型类型宽度宽度小数小数标签标签说明说明编号编号数值数值20校体检校体检姓名姓名字符字符80*8ASCII 4汉汉文化文化数值数值401-6 小学小学-博士博士出生日出生日 日期日期100*mm/dd/yyyy体检日体检日 日期日期100*普查普查mm/dd/yyyy身高身高数值数值52cm体重体重数值数值42kg疾病疾病数值数值40代码表示疾病代码表示疾病2022-7-228 数据录入过程与方法:数据录入过程与方法:(1)启动启动SPSS
4、,选择,选择“输入数输入数据据”,进入数据编辑器;进入数据编辑器;(2)选择变量视图;选择变量视图;(3)依次录入各变量的名称、类依次录入各变量的名称、类型型(宽度宽度,小数小数)、标签、值;、标签、值;(4)选择数据视图;选择数据视图;(5)依次录入相应数据。依次录入相应数据。2022-7-229 保存后即生成保存后即生成.sav文件。文件。如果如果SPSS需调用需调用Excel文件,当文件,当数据较少时,可直接复制;当数据较数据较少时,可直接复制;当数据较多时,可通过多时,可通过:文件文件打开数据库打开数据库新建查询新建查询Excel files流程调入流程调入Excel 数据。数据。调入
5、数据后,可按照前述方式对调入数据后,可按照前述方式对其分别定义变量各属性。其分别定义变量各属性。2022-7-2210 调入调入Excel数据要特别注意第数据要特别注意第1行行数据的变化。数据的变化。2.数据的管理数据的管理 数据文件建立后,有时需要对变数据文件建立后,有时需要对变量进行管理,如插入变量、定义变量量进行管理,如插入变量、定义变量属性、复制变量属性等。属性、复制变量属性等。数据管理主要通过数据管理主要通过“数据数据”菜单菜单进行,请各位自行练习。进行,请各位自行练习。2022-7-22112022-7-22121.引言引言 在科学实验中常常要研究不同实在科学实验中常常要研究不同实
6、验条件或方法对实验结果的影响。比验条件或方法对实验结果的影响。比如,几种不同药物对某种疾病的疗效如,几种不同药物对某种疾病的疗效;不同饲料对牲畜体重增长的效果等。不同饲料对牲畜体重增长的效果等。研究上述问题的基本思路是比较研究上述问题的基本思路是比较不同实验条件或方法下样本均值间的不同实验条件或方法下样本均值间的差异。差异。2022-7-2213 比较样本均值间的差异是否具有比较样本均值间的差异是否具有统计学意义的常用方法有均值比较和统计学意义的常用方法有均值比较和方差分析。方差分析。均值比较仅用于单因素两水平设均值比较仅用于单因素两水平设计和单组设计中均值的检验,而方差计和单组设计中均值的检
7、验,而方差分析可用于单因素多水平设计和多因分析可用于单因素多水平设计和多因素设计中均值的检验。素设计中均值的检验。简单地说,均值比较仅适用于两简单地说,均值比较仅适用于两2022-7-2214个样本均值的比较,而方差分析适用个样本均值的比较,而方差分析适用三个及以上样本均值的比较。三个及以上样本均值的比较。2.均值比较的原理与步骤均值比较的原理与步骤 均值比较采用假设检验原理,并均值比较采用假设检验原理,并设总体均为正态分布设总体均为正态分布,比较步骤为:,比较步骤为:(1)提出假设提出假设 通常假设差异不显著。通常假设差异不显著。(2)构造检验统计量构造检验统计量 2022-7-2215 总
8、体方差已知时,构造的统计量总体方差已知时,构造的统计量服从正态分析,称为服从正态分析,称为Z检验。大多数检验。大多数情况下,总体方差未知,此时构造的情况下,总体方差未知,此时构造的统计量服从统计量服从t分布,称为分布,称为t检验检验。(3)确定显著性水平确定显著性水平(拒真概率拒真概率)显著性水平显著性水平 即为检验时犯拒真即为检验时犯拒真 错误概率的最大允许值错误概率的最大允许值,也就是说接,也就是说接受假设的正确率至少为受假设的正确率至少为 。1 2022-7-2216 通常取通常取 。(4)计算检验统计量计算检验统计量t0(5)作出推断作出推断(两种方法两种方法)用统计量用统计量若若 ,
9、则拒绝假设,即差异显著。则拒绝假设,即差异显著。用显著性概率用显著性概率P值值(sig.)若若显著性概率显著性概率 ,则拒绝假,则拒绝假设,即差异显著。设,即差异显著。.,.0 05 0 01()021ttn 0P tt 2022-7-2217 ()21tn 2022-7-22183.单一样本均值的单一样本均值的t检验检验 单一样本均值的检验,即只对单单一样本均值的检验,即只对单一变量的均值进行检验,用于检验一变量的均值进行检验,用于检验样样本均值本均值是否与给定的是否与给定的总体均值总体均值之间存之间存在显著差异。在显著差异。例例1 已知某年级已知某年级15个学生身高数个学生身高数据如下,检
10、验其平均身高是否与全年据如下,检验其平均身高是否与全年级平均身高级平均身高165相同。相同。2022-7-2219 解解 分析分析-比较均值比较均值-单样本单样本t检检验。验。选身高入检验变量,检验值设为选身高入检验变量,检验值设为165;选项中置信区间百分比默认为;选项中置信区间百分比默认为0.95,即,即 。.0 05 2022-7-2220 显然,在显然,在0.05水平下应接受假设水平下应接受假设,即即15个学生的平均身高与年级平均身个学生的平均身高与年级平均身高无显著差异。高无显著差异。.()().020 0250 0361142 14ttnt.00 9720 05P tt2022-7
11、-22214.独立样本均值的独立样本均值的t检验检验 独立样本均值的检验用于检验独立样本均值的检验用于检验两两个来自独立正态总体的样本均值个来自独立正态总体的样本均值之间之间是否存在显著差异。是否存在显著差异。例例2 根据下列数据比较男生和女根据下列数据比较男生和女生的平均身高是否相等。生的平均身高是否相等。解解 本题首先要注意数据格式。本题首先要注意数据格式。可以设置三列数据。第一列为序可以设置三列数据。第一列为序2022-7-2222号号(字符型或数据型字符型或数据型),第二列为身高,第二列为身高(数值型数值型),第三列为性别,第三列为性别(字符型字符型,字字符符1表示男生,字符表示男生,
12、字符0表示女生表示女生)。此时一定要在数据视图的此时一定要在数据视图的“值值”中进行值标签定义,如中进行值标签定义,如1=“男生男生”,0=“女生女生”。分析分析-比较均值比较均值-独立样本独立样本t检检验。验。2022-7-2223 选身高入检验变量,选性别入分选身高入检验变量,选性别入分组变量,并在定义组中定义组组变量,并在定义组中定义组1,组组2的值分别为的值分别为1,0。其余默认,确定。其余默认,确定。2022-7-2224 F=0.843,P=0.3750.01,按,按0.01水平可认为男女生总体方差相等,应水平可认为男女生总体方差相等,应选择方差相等的结果。选择方差相等的结果。.(
13、)().02120 0054 3152133 01ttnnt 2022-7-2225 显然,在显然,在0.01水平下应拒绝假设水平下应拒绝假设,即男女生的平均身高有显著差异。即男女生的平均身高有显著差异。.00 0010 01P tt2022-7-22265.配对样本均值的配对样本均值的t检验检验 配对样本均值的检验用于检验配对样本均值的检验用于检验两两个具有配对关系的正态总体的样本均个具有配对关系的正态总体的样本均值值之间是否存在显著差异。之间是否存在显著差异。配对的两个样本值是一一对应的配对的两个样本值是一一对应的,且容量相同。例如,一组病人治疗前且容量相同。例如,一组病人治疗前后身体的指
14、标;一个年级学生的期中后身体的指标;一个年级学生的期中和期末成绩。和期末成绩。2022-7-2227 例例3 根据下列数据比较期中和期根据下列数据比较期中和期末成绩是否相等。末成绩是否相等。解解 本题数据格式与例本题数据格式与例2不同。不同。分析分析-比较均值比较均值-配对样本配对样本t检检验。验。2022-7-2228 期中期末成绩高度相关且显著。期中期末成绩高度相关且显著。拒绝假设,期中期末成绩差异明显。拒绝假设,期中期末成绩差异明显。.()().020 0053 061142 98ttnt.00 0080 01P tt2022-7-22292022-7-22301.方差分析及基本概念方差
15、分析及基本概念 在科学研究中,经常要分析在科学研究中,经常要分析多种多种因素因素对研究对象某些特征值的影响。对研究对象某些特征值的影响。例如,医学界研究几种药物对某种疾例如,医学界研究几种药物对某种疾病的疗效;体育科研中研究训练方法病的疗效;体育科研中研究训练方法训练时间和运动量对提高运动成绩的训练时间和运动量对提高运动成绩的效果。方差分析就是研究各种因素对效果。方差分析就是研究各种因素对研究对象某种特征值影响大小的一种研究对象某种特征值影响大小的一种 2022-7-2231统计方法。统计方法。下面通过一个例子简要介绍方差下面通过一个例子简要介绍方差分析中的相关概念。分析中的相关概念。引例引例
16、 一家超市要研究竞争者的一家超市要研究竞争者的数量对销售额是否有显著影响。抽取数量对销售额是否有显著影响。抽取3家超市,竞争者数量按家超市,竞争者数量按0个个,1个个,2个个,3个以上分为个以上分为4类,获得的年销售额如类,获得的年销售额如下表。试研究竞争者的数量对销售额下表。试研究竞争者的数量对销售额2022-7-2232是否有显著影响。是否有显著影响。研究对象即试验结果称为试验指研究对象即试验结果称为试验指标,简称标,简称指标指标,常用,常用y表示,如本例表示,如本例中的销售额。中的销售额。2022-7-2233 在试验中要通过改变状态加以考在试验中要通过改变状态加以考察的因素称为察的因素
17、称为因子因子,常用,常用A,B,C,表表示,如本例中的竞争者。示,如本例中的竞争者。因子在试验中所取的不同状态称因子在试验中所取的不同状态称为因子的为因子的水平水平,常用,常用A1,A2,Ar表表示示,r称为因子称为因子A的的水平数水平数。本例中显。本例中显然有然有4个水平。个水平。从平均销售额来看,好像竞争者从平均销售额来看,好像竞争者2022-7-2234个数对销售额有一定影响,但仔细分个数对销售额有一定影响,但仔细分析一下数据,问题就不那么简单。析一下数据,问题就不那么简单。可以看到,在竞争者个数相同的可以看到,在竞争者个数相同的条件下,不同超市的销售额也不完全条件下,不同超市的销售额也
18、不完全一样。由于试验时已考虑超市的其它一样。由于试验时已考虑超市的其它条件基本相同,产生这种差异的原因条件基本相同,产生这种差异的原因主要是试验过程中各种偶然因素,称主要是试验过程中各种偶然因素,称之为试验误差。之为试验误差。2022-7-2235 因此对不同竞争者个数超市平均因此对不同竞争者个数超市平均销售额的差异应作仔细分析,以确定销售额的差异应作仔细分析,以确定差异究竟是由试验误差引起的,还是差异究竟是由试验误差引起的,还是由于竞争者个数不同引起的。由于竞争者个数不同引起的。如果差异是由试验误差引起的,如果差异是由试验误差引起的,则认为竞争者个数对销售额没有显著则认为竞争者个数对销售额没
19、有显著影响,简称影响,简称因子不显著因子不显著。如果不同水平下销售额的不同,如果不同水平下销售额的不同,2022-7-2236除了误差影响外,主要是由水平不同除了误差影响外,主要是由水平不同造成的,则认为竞争者个数对销售额造成的,则认为竞争者个数对销售额有显著影响,简称有显著影响,简称因子显著因子显著。2.方差分析基本思想方差分析基本思想 方差分析的基本思想是:假设待方差分析的基本思想是:假设待比较的均值都相等,然后将总偏差平比较的均值都相等,然后将总偏差平方和分解为效应平方和方和分解为效应平方和SA与误差平方与误差平方和和Se两部分,再利用两部分,再利用SA 和和Se 构造构造F 统统202
20、2-7-2237计量进行假设检验,从而判定均值之计量进行假设检验,从而判定均值之间是否存在差异。间是否存在差异。由于检验统计量是根据组间方差由于检验统计量是根据组间方差和组内方差构造的,所以称此方法为和组内方差构造的,所以称此方法为方差分析。方差分析。3.单因子方差分析单因子方差分析 单因子方差分析研究单因子方差分析研究一个因子一个因子的的不同水平对指标是否有显著影响。不同水平对指标是否有显著影响。2022-7-2238 单因子方差分析的步骤为:单因子方差分析的步骤为:(1)提出假设提出假设 通常假设影响不显著。通常假设影响不显著。(2)构造检验统计量构造检验统计量 方差分析构造的检验统计量服
21、从方差分析构造的检验统计量服从F分布。分布。(3)确定显著性水平确定显著性水平 显著性水平显著性水平 即为检验时犯错误即为检验时犯错误 2022-7-2239的概率,也就是说接受假设的正确率的概率,也就是说接受假设的正确率为为 。通常取通常取 。(4)计算检验统计量计算检验统计量F0(5)作出推断作出推断 可以根据下列两种方法推断:可以根据下列两种方法推断:用统计量用统计量若若 ,则拒则拒绝假设,即影响显著。绝假设,即影响显著。1.,.0 05 0 01 0FF 2022-7-2240 用用P值值若若 ,则拒绝假设,即影响显著。则拒绝假设,即影响显著。显著性水平显著性水平 越小,显著性越高越小
22、,显著性越高,且有如下规则:且有如下规则:0P FF .:()00 010 0500 010 100 05FFFFFFFF高度显著显著一般显著2022-7-22412022-7-2242 例例4 对引例进行方差分析。对引例进行方差分析。解解(1)建立数据文件,格式为:建立数据文件,格式为:数据为数据为2列,第列,第1列为因子的水平,第列为因子的水平,第2列为对应的销售额。列为对应的销售额。(2)分析分析-比较均值比较均值-单因素单因素ANOVA。(3)选销售额为因变量,竞争者选销售额为因变量,竞争者为因子。为因子。2022-7-2243 (4)在对比栏中选择在对比栏中选择“多项式多项式(线线性
23、性)”;在两两比较栏中选择;在两两比较栏中选择“LSD”,其它默认其它默认;(5)在选项中可选择在选项中可选择“方差同质方差同质性检验性检验”和和“均值图均值图”。2022-7-2244 因子分析要求各水平下总体方差因子分析要求各水平下总体方差相等,即方差齐性。相等,即方差齐性。本题中方差齐性检验统计量等于本题中方差齐性检验统计量等于0.746,P=0.5540.1,通过检验,即,通过检验,即可认为满足方差齐性。可认为满足方差齐性。2022-7-2245 竞争者个数对销售额影响显著。竞争者个数对销售额影响显著。.,.,.0 050 013 84 073 87 59FF.00 010 05P F
24、F.,0 0500 013 83 8FFF2022-7-22462022-7-2247 同时比较多个水平间指标差异是同时比较多个水平间指标差异是否显著称为多重比较。否显著称为多重比较。表中数据显示,表中数据显示,0和和1,0和和3,1和和3,2和和3差异不显著,而差异不显著,而0和和2,1和和2差异显著。差异显著。均值图显示了均值的变化趋势,均值图显示了均值的变化趋势,也从一定程度上验证了多重比较的结也从一定程度上验证了多重比较的结论。论。2022-7-22482022-7-22494.多因子方差分析多因子方差分析 多因子方差分析研究多因子方差分析研究两个及以上两个及以上因素因素是否对指标产生
25、显著影响。是否对指标产生显著影响。多因子方差分析不仅能分析多个多因子方差分析不仅能分析多个因素对指标的独立影响,更能分析多因素对指标的独立影响,更能分析多个因素的个因素的交互作用交互作用能否对指标产生显能否对指标产生显著影响,进而找到有利于指标的最优著影响,进而找到有利于指标的最优组合。组合。2022-7-2250 下面以两因子为例介绍多因子方下面以两因子为例介绍多因子方差分析。差分析。在两因子分析中,不仅要通过试在两因子分析中,不仅要通过试验数据分析因子验数据分析因子A的的r水平及因子水平及因子B的的s个水平对指标个水平对指标y是否有显著影响,有是否有显著影响,有时还要考虑两个因子联合起来对
26、指标时还要考虑两个因子联合起来对指标y是否有显著影响,这种联合作用称是否有显著影响,这种联合作用称为因子的交互作用,记为为因子的交互作用,记为AB。2022-7-2251 若一个因子水平下的指标不受另若一个因子水平下的指标不受另一个因子不同水平的影响,则称这两一个因子不同水平的影响,则称这两个因子无交互作用。否则,称这两个个因子无交互作用。否则,称这两个因子有交互作用。因子有交互作用。无交互作用无交互作用A1A2B1B2y2022-7-2252有交互作用有交互作用 无交互作用时双因子方差分析的无交互作用时双因子方差分析的步骤为:步骤为:(1)提出假设提出假设 通常假设影响不显著。通常假设影响不
27、显著。1A 2A 1B 10 20 2B 15 5 A1A2B1B2y2022-7-2253(2)构造检验统计量构造检验统计量 构造的检验统计量服从构造的检验统计量服从F分布。分布。(3)确定显著性水平确定显著性水平(4)计算检验统计量计算检验统计量(5)作出推断作出推断 有交互作用时双因子方差分析的有交互作用时双因子方差分析的步骤为:步骤为:(1)提出假设提出假设2022-7-2254 通常假设影响不显著。通常假设影响不显著。(2)构造检验统计量构造检验统计量 构造的检验统计量服从构造的检验统计量服从F分布。分布。(3)确定显著性水平确定显著性水平(4)计算检验统计量计算检验统计量(5)作出
28、推断作出推断 若若 ,则在,则在 水平下因子水平下因子A显著;显著;AFF 2022-7-2255 若若 ,则在,则在 水平下因子水平下因子B显著;显著;若若 ,则在,则在 水平下因子水平下因子AB显著。显著。例例5 有有4个品牌的电脑在个品牌的电脑在5个地区个地区销售,销售量见下表。试分析电脑品销售,销售量见下表。试分析电脑品牌和销售地区对销售量的影响。牌和销售地区对销售量的影响。解解(1)建立数据文件,格式为:建立数据文件,格式为:BFF A BFF 2022-7-2256数据为数据为3列,第列,第1列为销售量,第列为销售量,第2,3列分别为地区和品牌。列分别为地区和品牌。(2)分析分析-
29、一般线性模型一般线性模型-单变单变量。量。注:这里的变量是指因变量注:这里的变量是指因变量。(3)选销售量为因变量,地区和选销售量为因变量,地区和品牌为固定因子。品牌为固定因子。(4)模型选项中选模型选项中选“设定设定”,并,并将地区和品牌选入模型。将地区和品牌选入模型。2022-7-2257 (5)对比和绘制选项可以默认。对比和绘制选项可以默认。(6)在两两比较选项中选地区或在两两比较选项中选地区或品牌进比较框,并选择品牌进比较框,并选择LSD方法。方法。(7)在选项栏中可选择输出在选项栏中可选择输出“方方差齐性检验差齐性检验”。2022-7-2258 有时,由于数据原因,有时,由于数据原因
30、,SPSS无无法进行方差齐性检验法进行方差齐性检验(如本例如本例)。不过。不过,一般认为,方差齐性检验不太重要,一般认为,方差齐性检验不太重要,只要各组样本数量相等即可。只要各组样本数量相等即可。2022-7-2259 地区不显著,而品牌高度显著。地区不显著,而品牌高度显著。.0 1440 05P 地区.0 0000 01P 品牌2022-7-22602022-7-2261 多重比较的解释同前。多重比较的解释同前。例例5中并未考虑交互作用。若要中并未考虑交互作用。若要考虑交互作用,则应选择全因子分析考虑交互作用,则应选择全因子分析模型,但并不是任何数据都可以进行模型,但并不是任何数据都可以进行
31、全因子分析,如例全因子分析,如例5。下面用例下面用例6说明如何进行交互作说明如何进行交互作用分析。用分析。例例6 将超市位置按商业区、居民将超市位置按商业区、居民2022-7-2262区和写字楼分成区和写字楼分成3类,并在不同位置类,并在不同位置分别随机抽取分别随机抽取3家超市,竞争者数量家超市,竞争者数量按按0个个,1个个,2个个,3个分为个分为4类。试分析类。试分析竞争者和超市位置对销售额的影响。竞争者和超市位置对销售额的影响。解解 在模型选项中默认全因子在模型选项中默认全因子,在在绘制选项中选竞争者数量为水平轴,绘制选项中选竞争者数量为水平轴,选超市位置为单图,然后添加。选超市位置为单图
32、,然后添加。2022-7-2263 本题中方差齐性检验统计量等于本题中方差齐性检验统计量等于1.282,P=0.2920.1,通过检验,即,通过检验,即可认为满足方差齐性。可认为满足方差齐性。2022-7-2264 .0 0000 01P 竞争者数量.0 0000 01P 超市位置.0 0170 05A BP 2022-7-2265 竞争者数量和超市位置与销售额竞争者数量和超市位置与销售额高度显著,但两者的交互作用与销售高度显著,但两者的交互作用与销售额一般显著。额一般显著。2022-7-22662022-7-2267 从竞争者数量和超市位置交互影从竞争者数量和超市位置交互影响折线图即轮廓图中可以看出,竞争响折线图即轮廓图中可以看出,竞争者数量和超市位置的交互作用对销售者数量和超市位置的交互作用对销售额有一定的影响。额有一定的影响。