1、SPSS统计软件课程作业要求:数据计算题要求注明选用的统计分析模块和输出结果;并解释结果的意义。 完成后将作业电子稿发送至 1. 某单位对100名女生测定血清总蛋白含量,数据如下:74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8
2、 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 73.5 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4计算样本均值、中位数、方差、标准差、最大
3、值、最小值、极差、偏度和峰度,并给出均值的置信水平为95%的置信区间。解:描述统计量标准误血清总蛋白含量均值73.6680.39389均值的 95% 置信区间下限72.8864上限74.44965% 修整均值73.6533中值73.5000方差15.515标准差3.93892极小值64.30极大值84.30范围20.00四分位距4.60偏度.054.241峰度.037.478样本均值为:73.6680;中位数为:73.5000;方差为:15.515;标准差为:3.93892;最大值为:84.30;最小值为:64.30;极差为:20.00;偏度为:0.054;峰度为:0.037;均值的置信水平为
4、95%的置信区间为:【72.8864,74.4496】。2. 绘出习题1所给数据的直方图、盒形图和QQ图,并判断该数据是否服从正态分布。解:正态性检验Kolmogorov-SmirnovaShapiro-Wilk统计量dfSig.统计量dfSig.血清总蛋白含量.073100.200*.990100.671a. Lilliefors 显著水平修正*. 这是真实显著水平的下限。表中显示了正态性检验结果,包括统计量、自由度及显著性水平,以K-S方法的自由度sig.=0.671,明显大于0.05,故应接受原假设,认为数据服从正态分布。3. 正常男子血小板计数均值为, 今测得20名男性油漆工作者的血小
5、板计数值(单位:)如下: 220 188 162 230 145 160 238 188 247 113 126 245 164 231 256 183 190 158 224 175问油漆工人的血小板计数与正常成年男子有无异常? 解:下表给出了单样本T检验的描述性统计量,包括样本数(N)、均值、标准差、均值的标准误差:单个样本统计量N均值标准差均值的标准误血小板计数值20192.150042.236529.44437单个样本检验检验值 = 225 tdfSig.(双侧)均值差值差分的 95% 置信区间下限上限血小板计数值-3.47819.003-32.85000-52.6173-13.082
6、7本例置信水平为95%,显著性水平为0.05,从上表中可以看出,双尾检测概率P值为0.003,小于0.05,故原假设不成立,也就是说,油漆工人的血小板计数与正常成年男子有异常。 4. 在某次考试中,随机抽取男女学生的成绩各10名,数据如下: 男:99 79 59 89 79 89 99 82 80 85 女:88 54 56 23 75 65 73 50 80 65假设总体服从正态分布,比较男女得分是否有显著性差异。解:组统计量性别N均值标准差均值的标准误成绩a1084.000011.527743.64539b1062.900018.453855.83562上表给出了本例独立样本T检验的基本描
7、述统计量,包括两个样本的均值、标准差和均值的标准误差。 独立样本检验方差方程的 Levene 检验均值方程的 t 检验差分的 95% 置信区间FSig.tdfSig.(双侧)均值差值标准误差值下限上限成绩假设方差相等1.607.2213.06718.00721.100006.880656.6442935.55571假设方差不相等3.06715.096.00821.100006.880656.4423535.75765 根据上表“方差方程的 Levene 检验”中的sig.为0.221,远大于设定的显著性水平0.05,故本例两组数据方差相等。在方差相等的情况下,独立样本T检验的结果应该看上表中的
8、“假设方差相等”一行,第5列为相应的双尾检测概率(Sig.(双侧)为0.007,在显著性水平为0.05的情况下,T统计量的概率p值小于0.05,故应拒绝零假设,,即认为两样本的均值不是相等的,在本例中,能认为男女得分有显著性差异。 5. 设有5种治疗荨麻疹的药,要比较它们的疗效。假设将30个病人分成5组,每组6人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录:药物类别治愈所需天数15,8,7,7,10,824,6,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,6问所有药物的效果是否一样?解:ANOVA治愈所需天数平方和df均
9、方F显著性组间36.46749.1173.896.014组内58.500252.340总数94.96729上表是几种药物分析的结果,组间(Between Groups)平方和(Sum of Squares)为36.467,自由度(df)为4,均方为9.117;组内(Within Groups)平方和为58.500,自由度为25,均方为2.340;F统计量为3.896。由于组间比较的相伴概率Sig.(p值)=0.0140,说明呈正相关相关性人数X1人均收入X2人数X1Pearson 相关性1.569*显著性(双侧).027平方与叉积的和191088.933679452.467协方差13649.2
10、1048532.319N1515人均收入X2Pearson 相关性.569*1显著性(双侧).027平方与叉积的和679452.4677473615.733协方差48532.319533829.695N1515*. 在 0.05 水平(双侧)上显著相关。其中包括了叉积离差矩阵、协方差矩阵、Pearson相关系数及相伴概率p值。从表中可看出,相关系数为0.5690,说明呈正相关相关性销售Y人数X1销售YPearson 相关性1.995*显著性(双侧).000平方与叉积的和53901.600101031.400协方差3850.1147216.529N1515人数X1Pearson 相关性.995*
11、1显著性(双侧).000平方与叉积的和101031.400191088.933协方差7216.52913649.210N1515*. 在 .01 水平(双侧)上显著相关。表格中包括了叉积离差矩阵、协方差矩阵、Pearson相关系数及相伴概率p值。从表中可看出,相关系数为0.9950,说明呈正相关(2) 同时预测适合购买此化妆品的人数为220千人,人均收入为2500元的某城市对该化妆品的销量。输入移去的变量模型输入的变量移去的变量方法1人均收入X2, 人数X1a.输入a. 已输入所有请求的变量。表中显示回归模型编号、进入模型的变量、移出模型的变量和变量的筛选方法。可以看出,进入模型的自变量为“人
12、均收入X2和人数X1” 。 模型汇总模型RR 方调整 R 方标准 估计的误差更改统计量R 方更改F 更改df1df2Sig. F 更改1.999a.999.9992.17722.9995679.466212.000a. 预测变量: (常量), 人均收入X2, 人数X1。R=0.999,说明自变量与因变量之间的相关性很强。R方(R2) =0.999,说明自变量“人均收入和人数”可以解释因变量“销售量”的99.9%的差异性。 Anovab模型平方和df均方FSig.1回归53844.716226922.3585679.466.000a残差56.884124.740总计53901.60014a. 预
13、测变量: (常量), 人均收入X2, 人数X1。b. 因变量: 销售Y表中显示因变量的方差来源、方差平方和、自由度、均方、F检验统计量的观测值和显著性水平。方差来源有回归、残差。从表中可以看出,F统计量的观测值为5679.466,显著性概率为0.000,即检验假设“H0:回归系数B = 0”成立的概率为0.000,从而应拒绝原假设,说明因变量和自变量的线性关系是非常显著的,可建立线性模型系数a模型非标准化系数标准系数tSig.B 的 95.0% 置信区间相关性B标准 误差试用版下限上限零阶偏部分1(常量)3.4532.4311.420.181-1.8438.749人数X1.496.006.93
14、481.924.000.483.509.995.999.768人均收入X2.009.001.1089.502.000.007.011.639.940.089a. 因变量: 销售Y表中显示回归模型的常数项、非标准化的回归系数B值及其标准误差、标准化的回归系数值、统计量t值以及显著性水平(Sig.)因此可以得到回归方程:Y=0.496*X1+0.009*X2 即,销售量=0.496*人数+0.009*人均收入。回归系数的显著性水平为0.000,明显小于0.05,故应拒绝T检验的原假设,这也说明了回归系数的显著性,说明建立线性模型是恰当的。那么当化妆品的人数为220千人,人均收入为2500元,代入到
15、上面公式可以得到Y=0.496*220000+0.009*2500=109142.5元。7. 研究青春发育阶段的年龄和远视率的变化关系,测得数据如下年龄6789101112131415161718远视率63.6461.0638.8413.7514.58.074.412.272.091.022.513.122.98请对年龄与远视率的关系进行曲线估计。解:线性模型汇总RR 方调整 R 方估计值的标准误.821.674.64413.498对数模型汇总RR 方调整 R 方估计值的标准误.939.882.8718.128倒数模型汇总RR 方调整 R 方估计值的标准误.908.825.8099.896二次
16、模型汇总RR 方调整 R 方估计值的标准误.971.943.9315.937三次模型汇总RR 方调整 R 方估计值的标准误.979.959.9455.313复合模型汇总RR 方调整 R 方估计值的标准误.891.794.775.650幂模型汇总RR 方调整 R 方估计值的标准误.923.851.838.553增长模型汇总RR 方调整 R 方估计值的标准误.891.794.775.650指数模型汇总RR 方调整 R 方估计值的标准误.891.794.775.650Logistic模型汇总RR 方调整 R 方估计值的标准误.891.794.775.650S模型汇总RR 方调整 R 方估计值的标准误
17、.891.794.775.650三次曲线的方差分析图:ANOVA平方和df均方FSig.回归5887.85031962.61769.538.000残差254.013928.224总计6141.86312从决定系数(R方即R2)来看,三次曲线效果最好(因为其R2值最大),并且方差分析的显著性水平(Sig.)为0。故重新进行上面的过程,只选“三次曲线(Cubic)”一种模型。 系数未标准化系数标准化系数tSig.B标准误Beta个案顺序-25.9224.829-4.462-5.368.000个案序列 * 22.361.7865.8473.002.015个案序列 * 3-.069.037-2.213
18、-1.868.095(常数)93.5768.10711.543.000从表中可知因变量与自变量的三次回归模型为:y=-93.576-25.922*x+2.361*x2-0.069*x3拟合效果图:从图形上看,拟合效果很好。8. 谈谈你对数理统计和统计软件课程的学习心得和想法,有何收获,有何建议等。关于SPSS软件的学习已经有一段时间了,初次接触这个软件是在上次数学建模比赛,因为统计的需要,所以我就大概的了解了一下,这次通过系统的学习,发现自己对以前利用SPSS统计的数据已经有了更深的认识,知道了一些统计数据的具体涵义。提到SPSS,我们初步学习了怎么分析一些数据;怎样利用图表来显示数据,使我们更加直观的通过图表来显示数据之间的关系;怎样通过探索分析,寻求数据之间的交错关系;知道了几种常见的统计方法:假设检验,方差分析,回归分析;有些情况下还要用到非参数检验总之,对SPSS的学习,感觉自己的知识又有了增加,而且通过这次学习,深刻的了解到了要学好数理统计的重要性,明白了数理统计也是学好这个软件,分析数据的基础;知道了理论与实践相结合的内涵,一定要在学好理论的基础上也要学会利用软件来处理一些问题,做到学有所用,融会贯通!