1、第2章 单变量描述统计分析第1节 统计分组单项式分组组距式分组统计分组按数量标志分组等距、不等距重合、不重合按品质标志分组5/15/2022统计学1一、分布(distribution) 变量各种可能取值及其出现的次数或频次,又称频次分布。频数、频次、次数(frequency)5/15/2022统计学2二、统计表表2.5 家庭结构的频次分布家庭结构频次百分比(%)核心家庭105049.30 直系家庭72033.80 联合家庭1105.16 其他25011.74 总数2130100.00 5/15/2022统计学3多选项二分法abcde样本1样本2样本3样本4样本55/15/2022统计学4多选项
2、二分法abcde样本111101样本200111样本310011样本411001样本511001合计432255/15/2022统计学5多选项分类法 P26 例2 P27 例35/15/2022统计学63、加权平均法P28 例45/15/2022统计学7(二)定序变量 表2-7 单位对武打片的反映统计喜爱程度频次百分比(%)很反感37.69 不爱看1025.64 一般1025.64 爱看923.08 非常爱看717.95 总数39100.00 5/15/2022统计学8(三) 定距变量统计分组的步骤(等距、重合、组距式分组)第一:确定组数。 经验公式 k=1+lgn/lg2k =1+lg100
3、/lg2=7.64第二:确定组距。组距 =(最大值-最小值)/组数 =(1.56-1.27)/10=0.029原则:以5或10的倍数作为组距。本例选择:0.03第三:确定组限。要求:第一组下限要小于所有数据的最小值,最后一组上限要大于所有数据的最大值原则:以5或10的倍数作为组限。5/15/2022统计学9(三) 定距变量统计分组的步骤(等距、重合、组距式分组)第四:计数。以0.03作为组距的分组情况。1.265-1.295;1.295-1.325,1.255-1.285;1.285-1.315,1.245-1.275;1.275-1.305,5/15/2022统计学10(三) 定距变量身高组
4、中值人数频率向上累计向下累计人数频率人数频率1.2651.2951.2811111001001.2951.3251.31445599991.3251.3551.3477121295951.3551.3851.372222343488881.3851.4151.402424585866661.4151.4451.432424828242421.4451.4751.461010929218181.4751.5051.49669898881.5051.5351.52119999221.5351.5651.551110010011合计100100表2.11 100名儿童身高统计分组表5/15/2022
5、统计学11向上累计:由低到高,上限以下向下累计:由高到低,下限以上思考:360体您本次开机共用时1分10秒,击败了全国12%的电脑5/15/2022统计学12关于统计分组的个人认识原则:统计分组没有对错,只有好坏。开口组实际中应用更广。极端值,extreme value判断依据:发生概率非常小,后果很严重911事件2004印度洋海啸飞机失事、英法核潜艇相撞、美、俄卫星相撞,股灾,亚洲金融危机5/15/2022统计学13图2.1 家庭结构分布图饼图(Pie)5/15/2022统计学14条形图 bar 按年龄和分人口数 (2012年,0.83%人口抽样调查)5/15/2022统计学15100名儿童
6、身高向上累计直方图5/15/2022统计学16 100名儿童身高向下累计直方图5/15/2022统计学17 父亲身高(800名)5/15/2022统计学18母亲身高(800名)5/15/2022统计学19父亲体重(800名)5/15/2022统计学20母亲体重(800名)5/15/2022统计学21分年龄别的死亡率5/15/2022统计学22三次产业构成比5/15/2022统计学235/15/2022统计学24数据描述的数值方法数据描述的数值方法数据描述的数值方法分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众 数数中位数中位数均均 值值离散系数离散系数方差和标准差方差和标准差峰峰 度
7、度四分位距四分位距极差极差偏偏 态态第第2节节第第3节节5/15/2022统计学25一、众数(Mode)概念 :出现次数最多的标志值计算(一)定类数据 表2.5 P24 第二节:集中趋势的测量5/15/2022统计学26表2.5 家庭结构的频次分布家庭结构频次百分比(%)核心家庭105049.30 直系家庭72033.80 联合家庭1105.16 其他25011.74 总数2130100.00 Mo=“核心家庭”5/15/2022统计学27(二)定序 表2.7 P29 表2-7 单位对武打片的反映统计喜爱程度频次百分比很反感37.69 不爱看1025.64 一般1025.64 爱看923.08
8、 非常爱看717.95 总数39100.00 Mo=“不爱看”Mo=“一般”5/15/2022统计学28(三)定距1.未分组资料 表2.102.单项式 表2.143.组距式 表2.11Mo=1.38,1.39,1.40,1.41,1.42,1.43,1.44Mo=1,2Mo=1.40,1.435/15/2022统计学29二、中位数Median(一)定序 表2.7 找中位数组:向上累计次数首次超过N/2的组即为中位数组;该组的标志值即为中位数值Me=“一般”5/15/2022统计学30(二)定距1.未分组资料 表2.10方法:中位数位置=(N+1)/21()2()(1)22 odd even2N
9、NNxNMexxN为奇数()为偶数()5/15/2022统计学31 概念解释:次序统计量概念解释:次序统计量 (order statisticsorder statistics)x1x2x3x4x59.229.659.209.259.309.209.229.259.309.65(1)x(2)x(3)x(4)x(5)x5/15/2022统计学32表2.10()(1)22(50)(51)21.4 1.411.40522NNxxMexx5/15/2022统计学332.分组资料(1)单项式分组 表2.18向上累计次数首次超过N/2的组即为中位数组;该组的标志值即为中位数Me=“乙”5/15/2022统
10、计学34(三)组距式分组(三)组距式分组 首先确定中位数组;首先确定中位数组;使用公式使用公式 下限公式:下限公式: 上限公式:上限公式:12memfSMLif12memfSMUif5/15/2022统计学35公式中各字母含义公式中各字母含义 U:中位数组的上限; L:中位数组的下限; fm:中位数组的频数; Sm-1:向上累计时中位数组前一组的累计频数, 即中位数前一组所对应的向上累计频数; Sm+1:向下累计时中位数组后一组的累计频数 即中位数后一组所对应的向下累计频数; i:中位数组的组距。5/15/2022统计学36f2x向上累计Sm-1SmLUMeAb中位数组中位数组前一组前一组中位
11、数组中位数组BCaED下限公式Me=L+a上限公式Me=U-b下限公式推下限公式推导导5/15/2022统计学37身高组中值人数频率向上累计人数频率1.2651.2951.2811111.2951.3251.3144551.3251.3551.347712121.3551.3851.37222234341.3851.4151.40242458581.4151.4451.43242482821.4451.4751.46101092921.4751.5051.496698981.5051.5351.521199991.5351.5651.5511100100合计100100表2.11 100名儿童
12、身高统计分组表f中位中位数组数组次数次数中位中位数组数组上限上限首次大于首次大于50%首次大于首次大于50中位数组中位数组前一组所前一组所对应向上对应向上累计次数累计次数中位中位数组数组中位中位数组数组下限下限5/15/2022统计学38150341.3850.03241.4052memsMLiffL=1.385U=1.415fm=24Sm-1=34i=0.035/15/2022统计学392022-5-1540西西藏藏辽宁辽宁天津天津上海上海图1 我国分地区人口年龄中位数(2000年)北京北京河南河南5/15/2022统计学41三、四分位数(quartile)概念:数据排序后处在25%,50%
13、和75%位置上的数。25%25%25%25%Q1Q2Q3Q2=Me5/15/2022统计学42(一)定序 表2.7 找Q1、 Q2、 Q3所在组 Q1所在组:向上累计次数首次超过f/4的组; Q2所在组:向上累计次数首次超过f/2的组; Q3所在组:向上累计次数首次超过3f/4的组;Q1 = Q1所在组标志值;Q2 = Q2所在组标志值; Q 3= Q3所在组标志值;5/15/2022统计学43喜爱程度频次百分比向上累计很反感37.69 3不爱看1025.64 13一般1025.64 23爱看923.08 32非常爱看717.95 39总数39100.00 19.59.75Q1所在所在组组Q1
14、=“不爱看不爱看”Q2所在所在组组Q2=“一般”29.25Q3所在所在组组Q3=“爱爱看”5/15/2022统计学44(二)定距数据1、未分组资料(spss版本)Q1位置=(n+1)/4;Q2位置=(n+1)/2;Q3位置=3(n+1)/4表2.10Q1位置=(n+1)/4=25.25;Q2位置=(n+1)/2=50.5;Q3位置=3(n+1)/4=75.75Q1=x(25)+0.25 x(26)-x(25)=1.37+0.25 1.37-1.37=1.37Q2=x(50)+0.5 x(51)-x(50)=1.4+0. 5 1.41-1.4=1.405Q3=x(75)+0.75 x(76)-x
15、(75)=1.44+0.75 1.44-1.44=1.445/15/2022统计学45(二)定距数据1、未分组资料(excel版本)Q1位置=(n+3)/4;Q2位置=(n+1)/2;Q3位置=(3n+1)/4表2.10Q1位置=(n+3)/4=25.75;Q2位置=(n+1)/2=50.5;Q3位置=(3n+1)/4=75.25Q1=x(25)+0.75 x(26)-x(25)=1.37+0.75 1.37-1.37=1.37Q2=x(50)+0.5 x(51)-x(50)=1.4+0. 5 1.41-1.4=1.405Q3=x(75)+0.25 x(76)-x(75)=1.44+0.25
16、1.44-1.44=1.445/15/2022统计学46Excel 操作 :quartile5/15/2022统计学472.分组资料(1)单项式分组 找Q1、 Q2、 Q3所在组 Q1所在组:向上累计次数首次超过f/4的组; Q2所在组:向上累计次数首次超过f/2的组; Q3所在组:向上累计次数首次超过3f/4的组;Q1 = Q1所在组标志值;Q2 = Q2所在组标志值; Q 3= Q3所在组标志值;5/15/2022统计学48(2)组距式分组使用公式 找Q1、 Q2、 Q3所在组 Q1所在组:向上累计次数首次超过f/4的组; Q2所在组:向上累计次数首次超过f/2的组; Q3所在组:向上累计
17、次数首次超过3f/4的组;5/15/2022统计学495/15/2022统计学505/15/2022统计学51身高组中值人数频率向上累计人数频率1.2651.2951.2811111.2951.3251.3144551.3251.3551.347712121.3551.3851.37222234341.3851.4151.40242458581.4151.4451.43242482821.4451.4751.46101092921.4751.5051.496698981.5051.5351.521199991.5351.5651.5511100100合计100100表2.11 100名儿童身高
18、统计分组表f首次大于首次大于50首次大于首次大于25Q3所在组所在组首次大于首次大于75Q1所在组所在组Q2所在组所在组L1=1.355U1=1.3855/15/2022统计学52身高人数向上累计人数频率1.2651.2951111.2951.3254551.3251.355712121.3551.3852234341.3851.4152458581.4151.4452482821.4451.4751092921.4751.505698981.5051.535199991.5351.5651100100合计100表2.11 100名儿童身高统计分组表L1=1.355U1=1.385Sm1-1=
19、12f1=22L2=1.385U2=1.415Sm2-1=34f2=24L3=1.415U3=1.445Sm3-1=58f3=245/15/2022统计学531 1111125 1241.3550.031.372722mQfSQLif2 12222503421.3850.031.40524mQfSQLif3 133333755841.4150.031.4362524mQfSQLif5/15/2022统计学54三、均值(一)未分组资料(简单算术平均数)(二)分组资料(加权算术平均数)5/15/2022统计学55三、均值(一)未分组资料(简单算术平均数)121ninixxxxxxnnn(二)分组资
20、料(加权算术平均数) 12221121kiikkikkiix fxfx fx fx fxfffff5/15/2022统计学56例 2.101.43 1.391.4140.541.4054( )100100 xxmnExcel 内置函数 =average()5/15/2022统计学57例 2.111.28 1 1.31 41.55 1140.571.4057( )141100 xfxmf Excel 内置函数 sumproduct(),sum()5/15/2022统计学58众数、中位数和算术平均数的关系_23xMMeo0_MMxe对称分布对称分布 均值均值 = 中位数中位数= 众数众数分配为钟形
21、、轻微不对称的经验公式:分配为钟形、轻微不对称的经验公式:)( 2_xMMMeeo左偏分布左偏分布均值均值 中位数中位数 众数众数0_MMxe右偏分布右偏分布众数众数 中位数中位数均值均值_0 xMMe5/15/2022统计学59第三节:离散趋势测量法 数据集中趋势的测度指标确实能反映某种事物的一般水平,在比较不同空间和时间上的情况是能消除规模大小的影响,是衡量其差距的重要指标。但只依据平均指标来评价事物的优劣远远不够。因为总体内部各单位标志值具有差异,有高低、大小、多少之别。就总体而言,平均数背后隐藏最大值与最小值之间的差距,有的差距不大,有的则非常悬殊。总体内部各单位标志值差距悬殊的平均数
22、就掩盖着尖锐的矛盾,让人们感到不真实。所以,在反映具体问题时,除了从集中趋势角度分析外,还应把总体内部各单位标志值中最大值、最小值及其差距摆出来,要列出平均差异大小和差异的相对程度,即要对待研究现象进行离散程度的测度。 5/15/2022统计学60一、异众比率5/15/2022统计学61表2.5 家庭结构的频次分布家庭结构频次百分比(%)核心家庭105049.30 直系家庭72033.80 联合家庭1105.16 其他25011.74 总数2130100.00 异众比率=1-1050/2130=50.70%一、异众比率 (定类数据)5/15/2022统计学622.全距(Range) 全距也称极
23、差,是一组数据的最大值与最小值之差。 R=最大值-最小值 组距分组数据可根据最高组上限 -最低组下限计算。 受极端值的影响。 5/15/2022统计学631.未分组资料 表2.10R=1.56-1.27=0.29Excel操作最大值 =max(),=large(data,1)最大值 =min(),=large(data,1)5/15/2022统计学642. 分组资料 表2.11R=1.565-1.265=0.35/15/2022统计学65 等于上四分位数与下四分位数之差 反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。 不受极端值的影响。 可以用于衡量中位数的代表性。 2 四分位
24、距(Inter-Quartile Range, IQR)13QQIQR2,2,3,4,4,4,5,5,6,6,7Q1=3, Q2=6, Q3=65/15/2022统计学66 方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。 总体方差和样本方差的符号不同,计算公式也不一样。 是反映定量数据离散程度的最常用的指标。3 方差和标准差5/15/2022统计学67方差的计算公式总体方差 样本方差 未分组数据分组数据 NXXNii122)(KiiKiiiffXX1122)(1)(122nxxsniikiikiiiffxxs11221)(样本方差用(样本方差用(n-1)去除,)
25、去除,从数学角度看是从数学角度看是因为它是总体方差因为它是总体方差2的无偏估计量。的无偏估计量。5/15/2022统计学68P56.表2-26(一)未分组资料Excel操作总体方差 =varp(data)总体标准差 =stdevp(data)样本方差 =var (data)样本标准差 =stdev(data)(二)分组资料表2.115/15/2022统计学694 离散系数(Coefficient of Variation)标准差与其相应的均值之比,表示为百分数。特点:反映了相对于均值的相对离散程度;可用于比较计量单位不同的数据的离散程度;计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能
26、比标准差等绝对指标更有意义。(样本)或(总体)xscvXCV5/15/2022统计学70离散系数:例子 对30名经理人员的调查表明年平均收入=$500,000,标准差 = $50,000。 对30名工人的调查表明平均收入= $32,000,标准差 = $5,000。 离散系数: 经理人员: 工人: 虽然经理人员收入的绝对离散程度远远大于工人,但经理人员收入的相对离散程度小于工人。%10%10050000050000cv%625.15%100320005000cv5/15/2022统计学711 偏态及其测定(Skewness) 数据分布的不对称性称作偏态。偏态系数就是对数据分布的不对称性(即偏斜
27、程度)的测度。偏态系数有多种计算方法,在统计软件中(如Excel等)通常采用以下公式: 3)()2)(1(sxxnnnSKiExcel操作:=skew(data)5/15/2022统计学72偏态系数的含义左偏分布左偏分布(也称负偏分布也称负偏分布):偏态系数偏态系数 SK 0;偏态系数的;偏态系数的绝对值越大,偏斜越严重。绝对值越大,偏斜越严重。数据向右边数据向右边延伸得更多延伸得更多对称分布:偏态系数对称分布:偏态系数=0。5/15/2022统计学732 峰度及峰度系数(Kurtosis) 峰度:数据分布的扁平或尖峰程度。 峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般
28、用K表示。 统计软件(如Excel等)中常用以下公式计算:)3)(2()1(3)()3)(2)(1()1(24 nnnsxxnnnnnKiExcel操作:=kurt(data)5/15/2022统计学74峰度系数的含义扁平分布扁平分布尖峰分布尖峰分布峰度系数峰度系数K0,与正,与正态分布相比该分布一态分布相比该分布一般为尖峰、肥尾,肩般为尖峰、肥尾,肩部较瘦。部较瘦。均值和方差均值和方差相同的正态相同的正态分布分布5/15/2022统计学75Excel 描述统计分析结果5/15/2022统计学76SPSS描述统计结果全距全距最小值最小值最大值最大值求和求和均值均值统计量统计量标准误差标准误差5/15/2022统计学77SPSS描述统计结果(样本)标准差(样本)标准差(样本)方差(样本)方差偏度系数偏度系数峰度系数峰度系数5/15/2022统计学782022-5-1579