第三讲SPSS的主要窗口和菜单-课件.ppt

上传人(卖家):三亚风情 文档编号:3526736 上传时间:2022-09-11 格式:PPT 页数:114 大小:695.02KB
下载 相关 举报
第三讲SPSS的主要窗口和菜单-课件.ppt_第1页
第1页 / 共114页
第三讲SPSS的主要窗口和菜单-课件.ppt_第2页
第2页 / 共114页
第三讲SPSS的主要窗口和菜单-课件.ppt_第3页
第3页 / 共114页
第三讲SPSS的主要窗口和菜单-课件.ppt_第4页
第4页 / 共114页
第三讲SPSS的主要窗口和菜单-课件.ppt_第5页
第5页 / 共114页
点击查看更多>>
资源描述

1、*1 SPSS的的3个主要窗口个主要窗口1-1 数据编辑器窗口(数据编辑器窗口(SPSS Data Editor):用来编辑和):用来编辑和显示数据;在此窗口中的文件名称为显示数据;在此窗口中的文件名称为*.sav。1-2 程序语句编辑器窗口(程序语句编辑器窗口(SPSS Syntax Editor):用来):用来编写各种程序;在此窗口中的文件名称为编写各种程序;在此窗口中的文件名称为*.sps。1-3 结果观看窗口(结果观看窗口(SPSS Viewer):显示统计运算结果;):显示统计运算结果;在此窗口中的文件名称为在此窗口中的文件名称为*.spo。*2 SPSS 数据编辑器的主要菜单数据编

2、辑器的主要菜单2-1 File 菜单:文件管理菜单:文件管理 New;Open;Save;Save as;Exit。2-2 Edit 菜单:编辑菜单:编辑 Undo;Cut;Copy;Paste;Clear;Find;2-3 View菜单:视图菜单:视图 Fonts;Grid lines;Value labels。*2-4 Data菜单:数据整理菜单:数据整理define variables;Insert variables;Insert case;go to case;sort case;select case。2-5 Transform菜单:数据转换菜单:数据转换recode;comput

3、e;count。2-6 Statistics菜单:统计菜单:统计2-7 Graphs菜单:统计图菜单:统计图2-8 Utilities菜单:工具附件菜单:工具附件2-9 Windows菜单:窗口菜单:窗口2-10 Help菜单:帮助菜单:帮助*1 单变量描述统计介绍单变量描述统计介绍A变量的尺度:a 定类 Category Scale:只能计次b 定序 Ordinal Scale:计次、排序c 定距 Interval Scale:计次、排序、加减d 定比 Ratio Scale:计次、排序、加减、乘除*B变量的统计描述:分布 Distribution集中趋势 Central tendency离

4、散趋势 Dispersion*AGE8378747066625854504642383430262218Count6050403020100分布平均数中位数众数离散程度离散程度*C分尺度的集中趋势和离散趋势集中趋势离散趋势SPSS命令定类 众数Mode(出现最多的数值)异众比定序 中位数Median(数值依序排列时居中的数值)级差Range四分位数QuartilesFrequencies定距及定比平均数Mean标准差Std.Deviation方差 varianceDescriptivesnxXinxxDSi2*2 SPSS的单变量描述统计命令的单变量描述统计命令 A Frequencies:频

5、数统计频数统计StatisticsSummarizeFrequencies*婚姻状况14911.911.911.9102681.881.893.7151.21.294.94.3.395.2544.34.399.56.5.5100.01254100.0100.0未婚已婚离婚后未再婚离婚后再婚丧偶后未再婚丧偶后再婚TotalFrequency PercentValidPercentCumulativePercent变量值频数百分比有效百分比累计百分比*文化程度473.73.73.7695.55.59.3655.25.214.430724.524.538.939331.331.370.318214.

6、514.584.817213.713.798.5161.31.399.83.2.2100.01254100.0100.0不识字或识字很少初小高小初中高中中专或中技大专大学本科研究生以上未回答TotalValidFrequencyPercentValid PercentCumulativePercent中位数中位数*文化程度473.73.83.8695.55.59.3655.25.214.530724.524.539.039331.331.470.418214.514.585.017213.713.798.7161.31.3100.0125199.8100.03.21254100.0不识字或识字

7、很少初小高小初中高中中专或中技大专大学本科研究生以上TotalValidSystemMissingTotalFrequencyPercentValid PercentCumulativePercent百分比和有效百分比百分比和有效百分比*B Descriptives:定距变量描述统计定距变量描述统计StatisticsSummarizeDescriptives*Descriptive Statistics12541888 44.5715.001254AGEValid N(listwise)NMinimum Maximum MeanStd.Deviation变量名平均数标准差最小值最大值*1、变

8、量关系概述、变量关系概述寻找变量间的关系是科学研究的首要目的。变量寻找变量间的关系是科学研究的首要目的。变量间的关系最简单的划分即是有关与无关。间的关系最简单的划分即是有关与无关。在统计学上,我们通常这样判断变量之间是否有在统计学上,我们通常这样判断变量之间是否有关:如果一个变量的取值发生变化,另外一个变关:如果一个变量的取值发生变化,另外一个变量的取值也相应发生变化,则这两个变量有关。量的取值也相应发生变化,则这两个变量有关。如果一个变量的变化不引起另一个变量的变化则如果一个变量的变化不引起另一个变量的变化则二者无关。二者无关。*1 通通过过考考试试2 未未通通过过考考试试1 男男性性40%

9、60%2 女女性性40%60%总总计计40%60%性别与四级英语考试通过率的相关统计性别与四级英语考试通过率的相关统计表述:统计结果显示,当性别取值不同时,通过率表述:统计结果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率变量的取值并未发生变化,因此性别与考试通过率无关。无关。自变量的不同取值在因变量上无差异,两变量无关。自变量的不同取值在因变量上无差异,两变量无关。自变量的不同取值在因变量上有差异,两变量有关。自变量的不同取值在因变量上有差异,两变量有关。因变量自变量*每月工资平均数N1 男性752.404522 女性601.97409总计680.95861表述:

10、统计结果显示,当性别取值不同时,收入变表述:统计结果显示,当性别取值不同时,收入变量的取值发生了变化,因此性别与月收入有关。量的取值发生了变化,因此性别与月收入有关。自变量因变量*2、双变量关系的统计类型、双变量关系的统计类型定类定序定距定类列联cross-tabulate列联cross-tabulate方差分析(分组平均数)compare means定序列联cross-tabulate积差相关spearman correlation积差相关spearman correlation积矩相关pearson correlation定距积矩相关pearson correlation回归regress

11、ion*3、列联统计、列联统计3-1 列联表的格式列联表的格式性别*文化程度 Crosstabulation7116320219463011.3%25.9%32.1%30.8%100.0%39.2%53.1%51.4%52.4%50.4%5.7%13.0%16.1%15.5%50.4%11014419117662117.7%23.2%30.8%28.3%100.0%60.8%46.9%48.6%47.6%49.6%8.8%11.5%15.3%14.1%49.6%181307393370125114.5%24.5%31.4%29.6%100.0%100.0%100.0%100.0%100.0%1

12、00.0%14.5%24.5%31.4%29.6%100.0%Count%within 性别%within 文化程度%of TotalCount%within 性别%within 文化程度%of TotalCount%within 性别%within 文化程度%of Total男女Total高小以下初中高中中专或中技大专以上文化程度Total自变量因变量人数行百分比列百分比总百分比边缘百分比边缘百分比条件百分比*3-2 列联分析的原理:列联分析的原理:自变量发生变化,因变量取值是否也发生变化。自变量发生变化,因变量取值是否也发生变化。比较边缘百分比和条件百分比的差别比较边缘百分比和条件百分比的

13、差别。*4-1)变量关系强度的含义变量关系强度的含义:指两个变量相关程度的高低。统计学中是以准实指两个变量相关程度的高低。统计学中是以准实验的思想来分析变量相关的。通常从以下的角度验的思想来分析变量相关的。通常从以下的角度分析:分析:A)两变量是否相互独立。)两变量是否相互独立。B)两变量是否有共变趋势。)两变量是否有共变趋势。C)一变量的变化多大程度上能由另一变量的变)一变量的变化多大程度上能由另一变量的变化来解释。化来解释。4 列联变量的关系强度测量列联变量的关系强度测量*4-2)双变量关系强度测量的主要指标双变量关系强度测量的主要指标定类定序定距定类卡方类测量卡方类测量Eta 系数定序

14、Spearman相关系数 同 序-异 序对测量Spearman 相关系数定距Pearson 相关系数*4-3)卡方测量的原理:)卡方测量的原理:卡方测量用来考察两变量是否独立(无关)。其原理是根据这一概率定理:若两变量无关,则其原理是根据这一概率定理:若两变量无关,则两变量中联合事件发生的概率应等于各自独立发两变量中联合事件发生的概率应等于各自独立发生的概率乘积。生的概率乘积。jiijPPP.在列联表中,这一定理就具体转化为:在列联表中,这一定理就具体转化为:若两变量无若两变量无关,则两变量中条件概率应等于各自边缘的概率乘关,则两变量中条件概率应等于各自边缘的概率乘积。反之,则两变量有关,或,

15、两变量不独立。积。反之,则两变量有关,或,两变量不独立。*示例示例患肺癌未患肺癌吸烟62430%不吸烟145670%20%80%100%151565 5观察值边缘概率边缘概率边缘概率期望条件概率 9 9-9-9残差*由此可见,期望值(独立模型)与观察值期望值(独立模型)与观察值的差距越大,说明两变量越不独立,也就的差距越大,说明两变量越不独立,也就越有相关。越有相关。因此,卡方的表达式如下:卡方的取值在0之间。卡方值越大,关联性越强。在SPSS中,有Pearson X2和相似比卡方(Likelihood Ratio X2)两种。jiijijijEEOX22)(*4-4)的改进标准化系数的改进标

16、准化系数:为使 值有一固定的区间,便于比较,采用了以下几个修正:2X2XA、系数(Phi):(01),适用于22表。B、列联系数(Contingency Coefficient):(01),适用任意表。C、Cramer V系数:(01),适用任意表。D、系数(Lambda):(01),适用任意表。E、Goodman&Kruskal-tau系数:(01),适用任 意表。*5 列联统计命令:列联统计命令:StatisticsSummarizeCrosstabs*1、分组平均数比较的含义、分组平均数比较的含义当一个变量为定类变量,另一变量为定距变量时,当一个变量为定类变量,另一变量为定距变量时,两变

17、量间是否有关,通常以分组平均数比较的方两变量间是否有关,通常以分组平均数比较的方法来考察。即按照定类变量的不同水平来分组,法来考察。即按照定类变量的不同水平来分组,看每个分组的定距变量的平均数是否有差异。不看每个分组的定距变量的平均数是否有差异。不同组间的平均数差异越小,两个变量间的关系越同组间的平均数差异越小,两个变量间的关系越弱;相反,平均数差异越大,变量间关系越强。弱;相反,平均数差异越大,变量间关系越强。*2、分组平均数比较的格式、分组平均数比较的格式不同性别的分组平均数比较现在每月工资752.40452573.13601.97409413.16680.95861508.82性别男女T

18、otalMeanNStd.Deviation*不同文化程度的分组平均数比较现在每月工资302.867137.93460.2818176.64773.50221386.82546.95213326.58676.57312470.18793.66146460.91828.86125618.19666.0015325.00603.333194.44680.95861508.82文化程度不识字或识字很少初小高小初中高中中专或中技大专大学本科研究生以上未回答TotalMeanNStd.Deviation*3、定类、定类定距变量的关系强度测量定距变量的关系强度测量定类变量和定距变量的关系强度测量采用定类变

19、量和定距变量的关系强度测量采用F统计的统计的方法,即方差分析。方法,即方差分析。3-1 F统计的原理统计的原理F统计的目的是分析分组的平均数是否相等。如果统计的目的是分析分组的平均数是否相等。如果相等,说明组间没有差别;如果不相等,说明组间相等,说明组间没有差别;如果不相等,说明组间平均数有差异,这时分组是有效的。但平均数有差异,这时分组是有效的。但F统计独特统计独特的地方是,它并不直接利用平均数来比较,而是利的地方是,它并不直接利用平均数来比较,而是利用与方差有关的统计指标总变差(用与方差有关的统计指标总变差(SST)、组间变)、组间变差(差(SSB)、组内变差()、组内变差(SSW)的关系

20、来进行判别。)的关系来进行判别。*男男女女收入收入Y总总=800元元Y女女=800元元Y男男=800元元*男男女女收入收入Y总总=800元元Y女女=600元元Y男男=1000元元*收入收入y女y男yYiyYi男y男男女女男yy女yy2)()(yySSTij总变差2)()(jijyySSW组内变差2)()(yySSBj组间变差SST=SSB+SSW*三者的关系是三者的关系是:SST是总变差,即未分组的数据的变差,总方差的分子是总变差,即未分组的数据的变差,总方差的分子。SSTSSB+SSW2)(yySSTijSSB是组间变差,各组平均数与总平均数的离差平方和是组间变差,各组平均数与总平均数的离差

21、平方和SSW是组内变差,每组数据和该组平均数的离差平方和。是组内变差,每组数据和该组平均数的离差平方和。2)(yySSBj2)(jijyySSW*工业社区 商业社区 农业社区组间总计国家14.35.112.5国家22.86.23.1国家312.31.81.6国家416.39.86.2国家55.94.13.8国家67.73.67.1国家79.111.211.4国家810.23.31.9平均数8.585.645.956.72方差变差样本量88824凶杀率*工业社区 商业社区 农业社区组间总计国家14.35.112.5国家22.86.23.1国家312.31.81.6国家416.39.86.2国家5

22、5.94.13.8国家67.73.67.1国家79.111.211.4国家810.23.31.9平均数8.585.645.956.72方差19.4310.8017.4416.32变差155.4586.38139.5010.30391.62样本量88824组内变差和SSW381.32组间变差和SSB10.3凶杀率*由于方差和变差标志着每一数据对其平均数的偏离(即由于方差和变差标志着每一数据对其平均数的偏离(即异质性),因此,异质性),因此,F值(值(F=SSB/SSW)含义就可理解为)含义就可理解为组间异质性和组内异质性的比较。组间异质性和组内异质性的比较。F值的范围在值的范围在 0到正无到正无

23、穷大之间。当穷大之间。当F值值1,则说明组与组间的差别大于组内,则说明组与组间的差别大于组内的差别,也就说明这时组间平均数的差异是存在的。的差别,也就说明这时组间平均数的差异是存在的。*工业社区 商业社区 农业社区组间总计国家14.35.112.5国家22.86.23.1国家312.31.81.6国家416.39.86.2国家55.94.13.8国家67.73.67.1国家79.111.211.4国家810.23.31.9平均数8.585.645.956.72方差19.4310.8017.4416.32变差155.4586.38139.5010.30391.62样本量88824组内变差和SSW

24、381.32组间变差和SSB10.3F值(SSB/df)/(SSW/df)3.53凶杀率*3-2定类定类定距变量的关系强度系数定距变量的关系强度系数Eta2F值和列联统计中的值和列联统计中的X2一样,取值范围在一样,取值范围在0到正无到正无穷大之间。因此,也需要对穷大之间。因此,也需要对F值加以修正,形成一值加以修正,形成一个标准化的关系系数。个标准化的关系系数。Eta2就是这样的一个系数。就是这样的一个系数。Eta2=SSB/SST即在总变差中,组间变差所占的比例。即在总变差中,组间变差所占的比例。Eta2的取值的取值范围在范围在0+之间,越接近之间,越接近1,就表明组间差异越大;,就表明组

25、间差异越大;越接近越接近0,就表明组间平均数趋于一致。,就表明组间平均数趋于一致。*工业社区 商业社区 农业社区组间总计国家14.35.112.5国家22.86.23.1国家312.31.81.6国家416.39.86.2国家55.94.13.8国家67.73.67.1国家79.111.211.4国家810.23.31.9平均数8.585.645.956.72方差19.4310.8017.4416.32变差155.4586.38139.5010.30391.62样本量88824组内变差和SSW381.32组间变差和SSB10.3F值(SSB/df)/(SSW/df)3.53 凶杀率Eta2=0

26、.026*不同性别的分组平均数比较现在每月工资752.40452573.13601.97409413.16680.95861508.82性别男女TotalMeanNStd.Deviation性别与工资的方差分析表(ANOVA)a4858896.82114858896.819.164217789827.6859253538.798222648724.4860Between GroupsWithin GroupsTotal现 在 每 月工 资 *性别Sum ofSquaresdfMeanSquareFa.*关系强度的测量(Measures of Association).148.022现在每月工资

27、*性别EtaEta Squared*4 SPSS中分组平均数和方差分析的统计命令中分组平均数和方差分析的统计命令StatisticsCompare MeansMeans*1 定距定距定距尺度定距尺度 (Pearson Cor.)1)相关的含义)相关的含义:相关相关(Correlation)是用来作两个定距变量关系的是用来作两个定距变量关系的统计分析,考察两变量是否存在共同变化的趋势。统计分析,考察两变量是否存在共同变化的趋势。如年龄与收入。如年龄与收入。2)积矩相关的统计原理:)积矩相关的统计原理:两变量共同变化的趋势在统计中用两变量共同变化的趋势在统计中用共变异数共变异数(Covarianc

28、e)来表示。即来表示。即A变量的取值从低到变量的取值从低到高(或从高到低)变化时,高(或从高到低)变化时,B变量是否也同样发变量是否也同样发生变化。生变化。*当两变量在同一方向上变化,称为有正相关;相反当两变量在同一方向上变化,称为有正相关;相反方向变化,称为负相关;无变化即无相关。相关系方向变化,称为负相关;无变化即无相关。相关系数即用来表示相关的程度。数即用来表示相关的程度。丈夫收入妻子收入600580750600770620810750810650如:*X(丈夫收入丈夫收入);Y(妻子收入妻子收入)YXP(xi,yi)Y=kk*XYP(xi,yi)(xxi)(yyi+-+共变异数共变异数

29、(协方差协方差)=)(yyxxii*XY+-+散点越集中于散点越集中于1、3象限,共变异数的和正值约大;象限,共变异数的和正值约大;散点越集中于散点越集中于2、4象限,共变异数的和负值约大;象限,共变异数的和负值约大;散点越均匀分布于各象限,共变异数的和越趋近于散点越均匀分布于各象限,共变异数的和越趋近于0。)(yyxxii*3)相关系数的计算公式:)相关系数的计算公式:22)()()()(yyxxyyxxriiii由此公式可看出:由此公式可看出:1 相关就是共变异数的标准化。相关就是共变异数的标准化。2 相关系数相关系数r的取值范围在(的取值范围在(-1,+1)之间。)之间。+1代表完全正相

30、关;代表完全正相关;-1表示完全负相关;表示完全负相关;0 表示无相关。表示无相关。*示例:通过此题来演算相关系数示例:通过此题来演算相关系数。丈夫收入x妻子收入yxxiyyi)()(yyxxii2)(xxi2)(yyi1600580-148-60888021904360027506002-40-8041600r=0.683377062022-20-4404844004810750621106820384412100581065062106203844100平均:748640总计:15800300801780023139.23*2 定序定序定序尺度定序尺度 (Spearman Cor.)积差相

31、关的公式:积差相关的公式:积差相关又称等级相关,用来考察两个定序变量间积差相关又称等级相关,用来考察两个定序变量间的相关关系。它的公式是由积矩相关转变而来,的相关关系。它的公式是由积矩相关转变而来,)1(6122NNDr其中,D是每一对因变量和自变量的序数的差值;N是总的排序的序数。*示例:示例:丈夫文化程度妻子文化程度DD26D2N(N2-1)r第 1 对1211第 2 对2111第 3 对3300第 4 对4400第 5 对5500第 6 对6600总计2182100.91*3 SPSS中的相关统计命令中的相关统计命令Statistics-Correlate-Bivariate*4 相关统

32、计的输出格式相关统计的输出格式Correlations1.000-.079*.0201254861-.079*1.000.020.861861PearsonCorrelationSig.(2-tailed)NPearsonCorrelationSig.(2-tailed)NAGE现在每月工资AGE现在每月工资Correlation is significant at the 0.05 level(2-tailed).*.相关系数人数*1 回归的含义:回归的含义:回归(回归(Regression,或,或Linear Regression)和相)和相关同样都用来分析两个定距变量间的关系,但回关同样

33、都用来分析两个定距变量间的关系,但回归有明确的因果关系假设。即要假设一个变量为归有明确的因果关系假设。即要假设一个变量为自变量,一个为因变量,自变量对因变量的影响自变量,一个为因变量,自变量对因变量的影响就用回归表示。如年龄对收入的影响。由于回归就用回归表示。如年龄对收入的影响。由于回归构建了变量间因果关系的数学表达,它具有统计构建了变量间因果关系的数学表达,它具有统计预测功能。预测功能。*2 回归的统计原理:回归的统计原理:两个定距变量的回归是用函数两个定距变量的回归是用函数y=f(x)来分析的。我们最常用的是一元回归方程来分析的。我们最常用的是一元回归方程bxay其中其中x为自变量;为自变

34、量;y为因变量;为因变量;a为截距,即常量;为截距,即常量;b为回归系数,表明自变量对因变量的影响程度。为回归系数,表明自变量对因变量的影响程度。*360370380390400410420430440012345工龄工资Y=350+20 x*在统计学中,这一方程中的系数是靠在统计学中,这一方程中的系数是靠x与与y变量的变量的大量数据拟合出来的。大量数据拟合出来的。XYY=a+bx(x,y)*由图中可以看出,回归直线应该是到所有数据点最由图中可以看出,回归直线应该是到所有数据点最短距离的直线。该直线的求得即使用短距离的直线。该直线的求得即使用“最小二乘方最小二乘方法法”,使,使:02iiyy在

35、拟合的回归直线方程中,回归系数:在拟合的回归直线方程中,回归系数:2)()(xxyyxxiiib表示表示x每变化一个单位时,每变化一个单位时,x与与y共同变化的程度共同变化的程度(共变异数)。(共变异数)。xbya常数常数*上学年数上学年数X工资工资Y)(xxi)(xxi2)(yyi)(xxi)(yyi6480-5.126.01-157800.76620-5.126.01-1786.79600-2.14.41-3777.79620-2.14.41-1735.79630-2.14.41-714.7126000.90.81-37-33.3127000.90.816356.7166504.924.0

36、11363.7167204.924.0183406.7167504.924.01113553.7平均11.1637总计138.92063b14.85241a472.1382*比如通过上学年数和工资的关系计算得出下列的比如通过上学年数和工资的关系计算得出下列的回归公式:回归公式:y=472+14.8x就可知上学年数每增长就可知上学年数每增长1年,工资会增加年,工资会增加14.8元;元;也可推测,上学年数为也可推测,上学年数为15年的人,工资收入应为年的人,工资收入应为472+14.8*15=694元。元。*3 SPSS线性回归的统计命令线性回归的统计命令StatisticsRegressionL

37、inear*自变量因变量回归方式*4 SPSS线性回归的输出格式:线性回归的输出格式:Coefficientsa823.363.54012.958.000-3.4871.497-.079-2.329.020(Constant)年龄Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable:现在每月工资a.常数自变量回归系数标准化回归系数每月工资每月工资=823.3-3.487年龄年龄*1 推断统计的一般概念推断统计的一般概念1.1 推断统计的含义及类型:推断统计的含义

38、及类型:(1)含义:推断统计是指用概率分布的方法,)含义:推断统计是指用概率分布的方法,由由样本的统计量样本的统计量推断推断总体参数总体参数的统计方式。的统计方式。*样本统计量样本统计量:样本中某个变量的统计值。如此次调:样本中某个变量的统计值。如此次调查中高中文化程度的人占查中高中文化程度的人占32%。样本样本 32%总体参数总体参数:与样本中某个变量的统计值相对应的:与样本中某个变量的统计值相对应的总体中的统计值。如全市人口中高中比例为总体中的统计值。如全市人口中高中比例为38%。总体总体38*样本统计量有可能等于总体参数,也有可能不等样本统计量有可能等于总体参数,也有可能不等于总体参数,

39、但二者之间有着某种概率关系。于总体参数,但二者之间有着某种概率关系。推推断统计就是教会我们如何利用这种概率关系来由断统计就是教会我们如何利用这种概率关系来由样本统计量推估总体参数。样本统计量推估总体参数。为了区别样本和总体的不同,样本的平均数用为了区别样本和总体的不同,样本的平均数用x来表示,标准差用来表示,标准差用S表示;总体的平均数用表示;总体的平均数用表表示,标准差用示,标准差用表示。因此,推断统计往往表示。因此,推断统计往往可以看作是由可以看作是由x推断推断。*样本样本 32%总体总体=?(2)类型:推断统计分为)类型:推断统计分为参数估计参数估计和和假设检验假设检验两大类。两大类。参

40、数估计参数估计:根据一个随机样本的统计值来估计总:根据一个随机样本的统计值来估计总体参数。即已知样本,估计总体。体参数。即已知样本,估计总体。x*假设检验假设检验:先假定总体参数为:先假定总体参数为,用一个随机样,用一个随机样总体总体=38%样本样本 32%x来检验总体参数为来检验总体参数为的假设是否成立。的假设是否成立。本的统计量本的统计量x?*1.2推断统计的原理:推断统计的原理:参数估计和假设检验都是利用参数估计和假设检验都是利用正态分布正态分布的概率特的概率特征来进行的。征来进行的。(1)正态分布正态分布(,):正态分布是一种统计分布,它有如下几个特征:正态分布是一种统计分布,它有如下

41、几个特征:A 单峰对称;单峰对称;B 平均数、中位数、众数合一,都在峰点;平均数、中位数、众数合一,都在峰点;C 1.96包含了包含了95的面积;的面积;1.65包含了包含了90的面积;的面积;即面积和标准即面积和标准差之间有一个固定换算。差之间有一个固定换算。*正态分布正态分布 N(,)1.96 平均数*170 1.96*10(170,10)例:某校同学的身高为正态分布,平均值为170cm,标准差为10cm。问:1)高于平均数1.5个标准差的同学身高是多少?2)162cm身高的同学距平均数有几个标准差?3)95%的同学身高会在什么范围内?*解1:Xi=+Z*=170+1.5*10=185cm

42、;解2:Z=(Xi-)/=(162-170)/10=-0.8;解3:Xi=-Z*=170-1.96*10=150.4 Xi=+Z*=170+1.96*10=189.6 (150.4189.6)由上可得出:由上可得出:ixZ其中其中Xi为分布中任何一个值,为分布中任何一个值,是平均数;是平均数;是标准差。是标准差。Z是是Xi距离平均数距离平均数的标准差单位,的标准差单位,又称又称Z分数,同时也表示分数,同时也表示Xi与平均数与平均数之间的面之间的面积。积。*(2)标准正态分标准正态分(Z分布):分布):N(0,1)标准化了的正态分布。即平均数标准化了的正态分布。即平均数=0,标准差,标准差=1的

43、正态分布。的正态分布。(0,1)=1*(3)总体分布总体分布:D(,)总体中某变量的几)总体中某变量的几何分布。有可能是正态分布,也可能不是正态分何分布。有可能是正态分布,也可能不是正态分布。布。AGE9383736353433323AGEFrequency5004003002001000Std.Dev=15.00Mean=45N=1254.00*(4)样本分布样本分布:D(x,S)样本中某变量的统计分布,和总体分布一样,样本中某变量的统计分布,和总体分布一样,它有可能是正态分布,也可能不是正态分布。它有可能是正态分布,也可能不是正态分布。AGE9383736353433323AGEFrequ

44、ency5004003002001000*nx(5)样本平均数的抽样分布:)样本平均数的抽样分布:N(,)从总体中多次重复抽取容量为从总体中多次重复抽取容量为n的样本,每个样本平的样本,每个样本平均数的所形成的统计分布。是由多个均数的所形成的统计分布。是由多个组成的。组成的。总体分布样本平均数的抽样分布D(,)N(,n)*样本平均数的抽样分布的特点样本平均数的抽样分布的特点:xixnB 正态分布。正态分布。C 它的平均数就等于总体的平均数它的平均数就等于总体的平均数,标准差则是标准差则是A 是由多个是由多个组成,组成,因此,我们所作的任何一次抽样的平均数因此,我们所作的任何一次抽样的平均数都可

45、看作是样本平均数的抽样分布中的一个点。都可看作是样本平均数的抽样分布中的一个点。它会有它会有95的概率落在的概率落在 1.96总体标准差总体标准差的的n1倍。即倍。即的范围内。的范围内。n,又被称作又被称作标准误(标准误(Standard Error,S.E)*总体分布总体分布(,)样本分布(,s)x样本平均数的抽样分布(,)n三种分布的关系三种分布的关系*推断统计的原理就是推断统计的原理就是:利用样本平均数的抽样分布的正态特征,以及利用样本平均数的抽样分布的正态特征,以及 与与的包含关系,来从样本统计量推估总体参数的包含关系,来从样本统计量推估总体参数(即参数估计),或用样本统计量检验有关总

46、体(即参数估计),或用样本统计量检验有关总体参数的假设(假设检验)。参数的假设(假设检验)。由此可见,参数估计和假设检验实际是相同的。由此可见,参数估计和假设检验实际是相同的。ix在实际调查中,我们便是利用这一原理,用一次在实际调查中,我们便是利用这一原理,用一次调查的结果来推断总体的参数。我们把某一次调调查的结果来推断总体的参数。我们把某一次调查的结果看作是同样样本规模的无数次调查中的查的结果看作是同样样本规模的无数次调查中的一次,它是样本平均数的抽样分布中的一个点一次,它是样本平均数的抽样分布中的一个点,可用来估计总体参数,可用来估计总体参数。ix*2 参数估计的步骤参数估计的步骤1)求出

47、样本的平均数、标准差;)求出样本的平均数、标准差;2)求出总体的标准差(如未知,可用样本的)求出总体的标准差(如未知,可用样本的标准差代替)标准差代替)3)设定参数估计的)设定参数估计的置信区间置信区间即参数估计的把即参数估计的把握性握性(90%?95%?)的?)的Z值(值(1.65?1.96?)4)根据根据ESZxi.计算出计算出的所在范围。的所在范围。*例:已知某学校的学生每天课外活动时间的标准差为例:已知某学校的学生每天课外活动时间的标准差为15分钟。现从学生中随机抽取分钟。现从学生中随机抽取25人,得知他们的课外人,得知他们的课外活动时间平均为活动时间平均为60分钟,问该校学生总体平均

48、每天的分钟,问该校学生总体平均每天的课外活动时间会是多少?(选择课外活动时间会是多少?(选择95%的置信区间)的置信区间)解:x=60S.E=15/25 1/2Z=1.96ESZxi.=605.886065466*例:在此次调查中,男性共例:在此次调查中,男性共630人,平均年龄人,平均年龄为为45岁,标准差为岁,标准差为15;女性共;女性共620人,平均年人,平均年龄为龄为44岁,标准差为岁,标准差为14。问:。问:1)男性与女性各自平均年龄的总体参数是多)男性与女性各自平均年龄的总体参数是多少?(少?(95%的置信区间)的置信区间)解:解:男性男性63015*96.145.ESZxi=45

49、 1.17643.82446.176*女性女性:62014*96.144.ESZxi=44 1.142.945.12)从总体上看,男女年龄是否有差异?从总体上看,男女年龄是否有差异?解:比较男女平均年龄的总体参数的区间,解:比较男女平均年龄的总体参数的区间,男男(43.8,46.1)女女(42.9,45.1)二者有交集,故总体年龄在二者有交集,故总体年龄在95%的置信度上的置信度上没有差异没有差异。*答案:1 611.2895.68086182.50865.195.680(652.339,709.561)98.3395.68086182.50896.195.680(646.97,714.93)

50、21036.094.5121184.196.194.5(5.8364,6.0436)096.067.6122473.196.167.6(6.574,6.766)113.094.7111993.196.194.7(7.827,8.053)*3 比例数的参数估计:比例数的参数估计:当样本的统计量不是平均数,而是以比例的形式当样本的统计量不是平均数,而是以比例的形式出现时,比如,共青团员在调查中占出现时,比如,共青团员在调查中占9.4%,也可,也可以用以用=XiZ*S.E公式的变形:公式的变形:P总总=Pi Z*S.E来推断总体参数。来推断总体参数。其中,其中,Pi为比例数形式的样本统计量,为比例数

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第三讲SPSS的主要窗口和菜单-课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|