1、第四章 统计数据的描述第一节 分布集中趋势的描述一、众数一、众数(mode)(mode)一组数据中出现次数最多的变量值一组数据中出现次数最多的变量值适合于数据量较多时使用适合于数据量较多时使用不受极端值的影响不受极端值的影响一组数据可能没有众数或有几个众数一组数据可能没有众数或有几个众数众数(不惟一性)无众数无众数原始数据原始数据:10 5 9 12 6 8:10 5 9 12 6 8一个众数一个众数原始数据原始数据:6 5 9 8 5 5多于一个众数多于一个众数原始数据原始数据:25 28 28 36 42 421.排序后处于中间位置上的值排序后处于中间位置上的值中位数的求法(9个数据的算例
2、)【例例】9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9中位数的求法(10个数据的算例)【例例】:10个家庭的人均月收入数据个家庭的人均月收入数据排排 序序:660 750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9 10 三、四分位数(三、四分位数(quartilequartile)(
3、一)四分位数的概念(一)四分位数的概念1.1.将一组数据(排序后)四等分的数据将一组数据(排序后)四等分的数据2.2.不受极端值的影响不受极端值的影响四分位数的求法(9个数据的算例)【例例】:9个家庭的人均月收入数据个家庭的人均月收入数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 1630排排 序序:750 780 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9四分位数的求法(10个数据的算例)【例例】:10个家庭的人均月收入数据个家庭的人均月收入数据排排 序序:660 750 780
4、 850 960 1080 1250 1500 1630 2000位位 置置:1 2 3 4 5 6 7 8 9 10 四、均值(四、均值(meanmean)(一)均值的概念(一)均值的概念集中趋势的最常用测度值集中趋势的最常用测度值一组数据的均衡点所在(重心)一组数据的均衡点所在(重心)易受极端值的影响易受极端值的影响单变量分组单变量分组组距式分组组距式分组niikiiikkkffMffffMfMfMx11212211KiiKiiiKKKffxffffxfxfxx11212211加权均值计算表零件数零件数 工人数工人数 组中值组中值80-9080-903 3858525525590-1009
5、0-1007 79595665665100-110100-110131310510513651365110-120110-1205 5115115575575120-130120-1302 2125125250250合计合计3030 31103110加权均值(例题分析)(三)均值的数学性质(三)均值的数学性质1.1.各变量值与均值的离差之和等于零各变量值与均值的离差之和等于零五、几何平均数(五、几何平均数(geometric meangeometric mean)1.1.n n 个变量值乘积的个变量值乘积的 n n 次方根次方根2.2.适用于对比率数据的平均适用于对比率数据的平均3.3.主要用
6、于计算平均增长率主要用于计算平均增长率4.4.计算公式为计算公式为几何平均数的求法(例题分析)【例例】一位投资者购持有一种股票,在一位投资者购持有一种股票,在2000年、年、2001年、年、2002年和年和2003年收益率分别为年收益率分别为4.5%、2.1%、25.5%、1.9%。计算该投资者在这四年内计算该投资者在这四年内的平均收益率的平均收益率 六、切尾均值(六、切尾均值(trimed meantrimed mean)1.1.去掉大小两端的若干数值后计算中间数去掉大小两端的若干数值后计算中间数据的均值据的均值2.2.在电视大奖赛、体育比赛及需要人们进在电视大奖赛、体育比赛及需要人们进行综
7、合评价的比赛项目中已得到广泛应用行综合评价的比赛项目中已得到广泛应用3.3.计算公式为计算公式为切尾均值切尾均值(例题分析)【例例】某次比赛共有某次比赛共有11名评委,对某位歌手的给分名评委,对某位歌手的给分分别是:分别是:123456,9.22,9.25,9.20,9.30,9.65,9.30,xxxxxx7891011,9.27,9.20,9.28,9.25,9.24xxxxx(1)(2)(3)(4)(5)(6),9.20,9.20,9.22,9.24,9.25,9.25,xxxxxx(7)(8)(9)(10)(11),9.27,9.28,9.30,9.30,9.65xxxxx众数、中位数
8、和均值的关系众数、中位数、均值的特点和应用1.1.众数众数 不受极端值影响不受极端值影响 具有不惟一性具有不惟一性 数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用2.2.中位数中位数 不受极端值影响不受极端值影响 数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用3.3.均值均值 易受极端值影响易受极端值影响 数学性质优良数学性质优良 数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用第二节第二节 分布离散程度的测度分布离散程度的测度一、极差(一、极差(rangerange)一组数据的最大值与最小值之差一组数据的最大值与最小值之差离散程度的最简单测度值离散程度的最简单测度
9、值极差越大,说明离散程度越大极差越大,说明离散程度越大易受极端值影响易受极端值影响未考虑数据的分布未考虑数据的分布二、内距二、内距(Inter-Quartile Range,IQR)1.1.也称四分位差也称四分位差2.2.上四分位数与下四分位数之差上四分位数与下四分位数之差内内 距距=Q QU U Q QL L3.3.反映了中间反映了中间50%50%数据的离散程度数据的离散程度4.4.不受极端值的影响不受极端值的影响5.5.可用于衡量中位数的代表性可用于衡量中位数的代表性三、方差与标准差三、方差与标准差(Variance and Standard deviation)(一)方差与标准差的概念(
10、一)方差与标准差的概念1.1.离散程度的测度值之一离散程度的测度值之一2.2.最常用的测度值最常用的测度值3.3.反映了数据的分布反映了数据的分布4.4.反映了各变量值与均值的平均差异反映了各变量值与均值的平均差异5.5.根据总体数据计算的,称为总体方差或标准根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或差;根据样本数据计算的,称为样本方差或标准差标准差6.6.可用于衡量均值的代表性大小可用于衡量均值的代表性大小x=8.3(二)总体方差和标准差的计算公式(二)总体方差和标准差的计算公式未分组数据:未分组数据:(三)样本方差和标准差的计算公式未分组数据:未分组数据:
11、组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:1 1、样本方差的计算公式、样本方差的计算公式 单变量分组的样本方差和标准差单变量分组的样本方差和标准差1)(122nfxxskiii1)(12nfxxskiii注:在分注:在分组数据里组数据里n=fi注解:样本方差自由度注解:样本方差自由度(degree of freedom)1.1.一组数据中可以自由取值的数据的个数一组数据中可以自由取值的数据的个数 当样本数据的个数为当样本数据的个数为 n n 时,若样本均值时,若样本均值 x x 确定后确定后,只有只有n n-1-1个数据可以自由取值,其个数据可以自由取值,
12、其中必有一个数据则不能自由取值中必有一个数据则不能自由取值(举例)2.2.样本方差用自由度去除,其原因可从多方样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计面解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差中,当用样本方差去估计总体方差2 2时,时,它是它是2 2的无偏估计量的无偏估计量104010010400011kiikiiiffxx91.69090110010)10401500(15)1040700(5)1040500(1)(2221122kiikiiiffxxs四、离散系数四、离散系数(coefficient of variation)(coe
13、fficient of variation)1.1.标准差与其相应的均值之比标准差与其相应的均值之比2.2.对数据相对离散程度的测度对数据相对离散程度的测度3.3.消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响4.4.用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较5.5.计算公式为计算公式为离散系数离散系数 (例题分析例题分析)离散系数(例题分析)第三节第三节 偏态与峰度的度量偏态与峰度的度量 一、一、偏态及其测度偏态及其测度 二、峰度及其测度二、峰度及其测度一、偏态及其测度一、偏态及其测度二、二、峰度及其测度峰度及其测度iifxM3)(iifxM4)(
14、第四节第四节 茎叶图与箱线图茎叶图与箱线图一、茎叶图一、茎叶图二、箱线图二、箱线图1.用于显示未分组的原始数值型数据的分布用于显示未分组的原始数值型数据的分布2.由由“茎茎”和和“叶叶”两部分构成,其图形是由数两部分构成,其图形是由数字组成的字组成的3.以该组数据的高位数值作树茎,低位数字作树以该组数据的高位数值作树茎,低位数字作树叶叶4.树叶上只保留一位数字树叶上只保留一位数字5.茎叶图类似于横置的直方图,但又有区别茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有直方图可观察一组数据的分布状况,但没有给出具体的数值给出具体的数值茎叶图既能给出数据的分布状况,又能给出
15、茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息每一个原始数值,保留了原始数据的信息一、茎叶图一、茎叶图(stem-and-leaf display)(stem-and-leaf display)茎叶图茎叶图(例题分析例题分析)茎叶图(扩展的茎叶图)二、箱线图(box plot)1.用于显示未分组的原始数值型数据的分布用于显示未分组的原始数值型数据的分布2.箱线图由一组数据的箱线图由一组数据的5个特征值绘制而成,个特征值绘制而成,它由一个箱子和两条线段组成它由一个箱子和两条线段组成3.箱线图的绘制方法箱线图的绘制方法首先找出一组数据的首先找出一组数据的5个特征值,即个
16、特征值,即最大值、最最大值、最小值、中位数小值、中位数Me和两个和两个四分位数四分位数(下四分位数下四分位数QL和上四分位数和上四分位数QU)连接两个四分(位)数画出箱子,再将两个极连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接值点与箱子相连接 箱线图箱线图(箱线图的构成箱线图的构成)箱线图箱线图(例题分析例题分析)分布的形状与箱线图分布的形状与箱线图未分组数据未分组数据多批数据箱线图多批数据箱线图 (例题分析例题分析)未分组数据未分组数据多批数据箱线图多批数据箱线图(例题分析例题分析)min-max25%-75%median value455565758595105学生1学生2学生
17、3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据未分组数据多批数据箱线图多批数据箱线图 (例题分析例题分析)人有了知识,就会具备各种分析能力,人有了知识,就会具备各种分析能力,明辨是非的能力。明辨是非的能力。所以我们要勤恳读书,广泛阅读,所以我们要勤恳读书,广泛阅读,古人说古人说“书中自有黄金屋。书中自有黄金屋。”通过阅读科技书籍,我们能丰富知识,通过阅读科技书籍,我们能丰富知识,培养逻辑思维能力;培养逻辑思维能力;通过阅读文学作品,我们能提高文学鉴赏水平,通过阅读文学作品,我们能提高文学鉴赏水平,培养文学情趣;培养文学情趣;通过阅读报刊,我们能增长见识,扩大自己的知识面。通过阅读报刊,我们能增长见识,扩大自己的知识面。有许多书籍还能培养我们的道德情操,有许多书籍还能培养我们的道德情操,给我们巨大的精神力量,给我们巨大的精神力量,鼓舞我们前进鼓舞我们前进。