1、主要内容2.5 单个单个名义变量统计描述名义变量统计描述2.6 多指标统计描述多指标统计描述2.5 单个名义变量的描述分析单个名义变量的描述分析例例2-6 2-6 对数据文件对数据文件data2-1data2-1中的性别和学校两个中的性别和学校两个变量计算其构成比,并绘制直条图变量计算其构成比,并绘制直条图 。单击单击Analyze/Descriptive Statistics/Analyze/Descriptive Statistics/Frequencies Frequencies打开频率分析对话框,选择分析。打开频率分析对话框,选择分析。单击单击StatisticsStatistics取
2、消所有基本统计量。取消所有基本统计量。单击单击ChartsCharts设置选项。设置选项。2.6 多指标的描述分析多指标的描述分析例例2-7 2-7 对对data2-1data2-1中的数据分别计算各学校参与中的数据分别计算各学校参与调查学生的性别构成比调查学生的性别构成比 。单击单击Analyze/Descriptive Statistics/Analyze/Descriptive Statistics/Crosstabs Crosstabs打开相关分析对话框,选择分析。打开相关分析对话框,选择分析。绘制分组直条图绘制分组直条图取消统计表输出取消统计表输出相关分析对话框设置:相关分析对话框设
3、置:选择行变量选择行变量选择列变量选择列变量层变量层变量表内统计量表内统计量输出格式输出格式前一层前一层后一层后一层练习练习2-9 2-9 某药厂观察某药厂观察9 9只小鼠口服高山红景天醇提物(只小鼠口服高山红景天醇提物(RSAERSAE)后在乏氧条件下的生存时间)后在乏氧条件下的生存时间(分钟)(分钟)如下:如下:49.149.1,60.860.8,63.363.3,63.663.6,63.663.6,65.665.6,65.865.8,68.668.6,69.069.0求其均值、中位数和众数。求其均值、中位数和众数。中位数(中位数(n n为奇数,为奇数,M=63.6M=63.6)计算常用统
4、计指标:极差、四分位数间距、方差、标准差和变异系数。计算常用统计指标:极差、四分位数间距、方差、标准差和变异系数。练习练习2-10 2-10 设甲、乙、丙三人,采每人的耳垂血,设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数然后红细胞计数,每人数5 5个计数盘,得结果如下个计数盘,得结果如下(万(万/mm/mm3 3)盘编号盘编号甲甲乙乙丙丙1 14404804902 24604904953 35005005004 45405105055 5560520510练习练习2-11 82-11 8名新生儿的身高(名新生儿的身高(cmcm)为)为5555,5858,5454,5050,5353
5、,5151,5454,5252,求中位数。,求中位数。5050,5151,5252,5353,5454,5454,5555,585845()(1)2211()22nnMxxxx 8n 535453.52 主要内容3.1 P-P图法图法3.2 Q-Q图法图法3.3 直方图、箱式图与茎叶直方图、箱式图与茎叶图法图法3.4 计算法计算法3.1 P-P图法图法 正态正态P-P图是以样本的累计频率作为横坐标,图是以样本的累计频率作为横坐标,以按照正态分布计算的相应累计概率作为纵坐以按照正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系的散点,所描绘标,把样本值表现为直角坐标系的散点,所描绘的
6、图形。的图形。如果资料服从正态分布,则样本点应呈一条围如果资料服从正态分布,则样本点应呈一条围绕第一象限对角线的直线。绕第一象限对角线的直线。两种两种P-P图:正态图:正态P-P图和正态去势图和正态去势P-P图(累图(累计概率残差图)计概率残差图)正态正态去势去势P-P图(累计概率残差图)是以样本图(累计概率残差图)是以样本的实际累计频率作为横坐标,以样本的实际累计的实际累计频率作为横坐标,以样本的实际累计频率与按照正态分布计算的相应累计概率差(称频率与按照正态分布计算的相应累计概率差(称为累计概率的残差)作为纵坐标,把样本表现为为累计概率的残差)作为纵坐标,把样本表现为直角坐标系的散点,所描
7、绘的图形。直角坐标系的散点,所描绘的图形。如果资料服从正态分布,残差散点基本在如果资料服从正态分布,残差散点基本在Y=0Y=0上下均匀分布。上下均匀分布。3.1 P-P图法图法P-PP-P图法图法检验分布类型检验分布类型选择计算比例的计算公式选择计算比例的计算公式数值相同编秩方法数值相同编秩方法Normal P-P Plot of 血清总胆固醇Observed Cum Prob1.00.75.50.250.00Expected Cum Prob1.00.75.50.250.00Detrended Normal P-P Plot of 血清总胆固醇Observed Cum Prob1.0.8.6
8、.4.20.0Deviation from Normal.08.06.04.020.00-.02-.04P-P图法图法3.2 Q-Q图法图法 正态正态Q-Q 概率概率图:是以样本的分位数图:是以样本的分位数(Px)为为横坐标,以按照正态分布计算的相应理论分位数横坐标,以按照正态分布计算的相应理论分位数为纵坐标,把样本表现为直角坐标系的散点,所为纵坐标,把样本表现为直角坐标系的散点,所描绘的图形。描绘的图形。如果资料服从正态分布,则样本点应呈一条围如果资料服从正态分布,则样本点应呈一条围绕第一象限对角线的直线。绕第一象限对角线的直线。3.2 Q-Q图法图法 正态正态去势去势Q-Q图(分位数的残差
9、图)图(分位数的残差图):是以样:是以样本的实际分位数作为横坐标,以样本的实际分位数本的实际分位数作为横坐标,以样本的实际分位数与按照正态分布计算的相应理论分布分位数的差与按照正态分布计算的相应理论分布分位数的差(称为分位数的残差)作为纵坐标,把样本表现为(称为分位数的残差)作为纵坐标,把样本表现为直角坐标系的散点,所描绘的图形。直角坐标系的散点,所描绘的图形。如果资料服从正态分布,残差散点基本在如果资料服从正态分布,残差散点基本在Y=0Y=0上下均匀分布。上下均匀分布。Q-QQ-Q图法图法检验分布类型检验分布类型Normal Q-Q Plot of 血清总胆固醇Observed Value8
10、765432Expected Normal Value765432Detrended Normal Q-Q Plot of 血清总胆固醇Observed Value876543Deviation from Normal.6.5.4.3.2.10.0-.1-.2Q-QQ-Q图图3.3 直方图、箱式图与茎叶图法直方图、箱式图与茎叶图法直方图直方图直方图法直方图法图形模板文件图形模板文件图形模板文件路径图形模板文件路径在直方图上在直方图上显示正态曲线显示正态曲线给图形添加标题、给图形添加标题、副标题、脚注副标题、脚注标题标题副标题副标题脚注脚注血清总胆固醇7.257.006.756.506.256.
11、005.755.505.255.004.754.504.254.003.753.503.256543210Std.Dev=.87 Mean=4.80N=40.00箱式图箱式图箱式图箱式图:用以描述定量变量:用以描述定量变量5 5个百分位点,个百分位点,P2.5、P25、P50、P75、P97.5。5 5条线表示条线表示5 5个百分位点,个百分位点,由由P25至至P75构成构成“箱箱”,它代表中间,它代表中间50%的数据。的数据。由由P2.5至至P25及及P75至至P97.5构成两条构成两条“丝丝”,它代表两,它代表两端端45%的数据。的数据。箱式图箱式图40N=血清总胆固醇1098765432
12、154040N=血清总胆固醇1098765432154040N=血清总胆固醇10987654321540P2.5 P25 P50 P75 P97.5 极端值:超出距箱上缘极端值:超出距箱上缘或下缘或下缘3 倍四分位数间倍四分位数间距的值。距的值。离群点:距箱上缘或下离群点:距箱上缘或下缘缘1.5 倍至倍至3倍四分位数倍四分位数间距的值为离群值。间距的值为离群值。箱式图法箱式图法单式箱图单式箱图复式箱图复式箱图观察单位标记观察单位标记(标记极端值、离群值)(标记极端值、离群值)分类变量分类变量观察单位标记观察单位标记(标记极端值、离群离)(标记极端值、离群离)显示含显示含缺失值组缺失值组显示标识
13、的观显示标识的观察单位的图形察单位的图形40N=血清总胆固醇87654315茎叶图茎叶图茎叶图茎叶图:它是将频数表的组段用实际数值取代,数:它是将频数表的组段用实际数值取代,数值用值用“茎茎”和和“叶叶”组成。是将数据按基本不变或变化组成。是将数据按基本不变或变化不大那一位的数值作为一个主杆(茎),将变化大不大那一位的数值作为一个主杆(茎),将变化大的位的数值作为分支(叶的位的数值作为分支(叶),),列在主杆后面。茎叶图列在主杆后面。茎叶图有三列数,左边一列是频数,它是每个主杆上的叶有三列数,左边一列是频数,它是每个主杆上的叶子数;中间是茎;右边一列是叶。可以把茎叶图看子数;中间是茎;右边一列
14、是叶。可以把茎叶图看作是用数字组成的直方图。作是用数字组成的直方图。茎叶图法茎叶图法Descriptive Statistics ExploreExplore描述图描述图Descriptive Statistics ExploreExplore3.4 计算法计算法Descriptive Statistics DescriptivesDescriptive Statistics DescriptivesDescriptive Statistics40.476.374.275.73340血清总胆固醇Valid N(listwise)StatisticStatisticStd.ErrorStatis
15、ticStd.ErrorNSkewnessKurtosis 检验是一种非参数检验方法,可以对样本检验是一种非参数检验方法,可以对样本的拟合优度进行检验。的拟合优度进行检验。检验是用检验是用 统计量进行正态性检验。该方法统计量进行正态性检验。该方法适用样本量在适用样本量在350350之间的数据。之间的数据。检验步骤是:提出原假设,总体服从正态分布,检验步骤是:提出原假设,总体服从正态分布,计算统计量和计算统计量和P P值,给出统计推断。值,给出统计推断。SPSS SPSS软件可实现统计量和软件可实现统计量和P P值的计算值的计算Descriptive Statistics ExploreExpl
16、oreTests of Normality.08440.200*.97640.538血清总胆固醇StatisticdfSig.StatisticdfSig.Kolmogorov-SmirnovaShapiro-WilkThis is a lower bound of the true significance.*.Lilliefors Significance Correctiona.Nonparametric Tests 1-Sample1-SampleNonparametric Tests 1-Sample 1-Sample One-Sample Kolmogorov-Smirnov Test404.7995.87050.084.084-.047.531.941NMeanStd.DeviationNormal Parametersa,bAbsolutePositiveNegativeMost ExtremeDifferencesKolmogorov-Smirnov ZAsymp.Sig.(2-tailed)血清总胆固醇Test distribution is Normal.a.Calculated from data.b.作业操作练习谢谢