1、4 4 数据的数字特征数据的数字特征Datas characteristic复习回顾利用统计图表可以显示样本数据的特征利用统计图表可以显示样本数据的特征统计图统计图条形统计图条形统计图折线统计图折线统计图扇形统计图扇形统计图茎叶图茎叶图 数据的特征除了利用统计图表外,还可数据的特征除了利用统计图表外,还可以利用一些统计量(多个数据以利用一些统计量(多个数据“加工加工”为一为一个数值)来表述,使这个数值能反映这组数个数值)来表述,使这个数值能反映这组数据的某些重要的整体特征。前面我们在表示据的某些重要的整体特征。前面我们在表示数据的集中趋势和离散程度时,我们利用平数据的集中趋势和离散程度时,我们
2、利用平均数、中位数,众数、极差、方差等来表示。均数、中位数,众数、极差、方差等来表示。就是一组数据的就是一组数据的平均平均,设有,设有n个数据,个数据,x1,x2,xn,这组数据的平均数为:这组数据的平均数为:nxxxxn21nnnkkkkxkxkxx212211特别地,如果上面特别地,如果上面n个数据中不同数据个数据中不同数据x1,x2,xn的个的个数分别为数分别为k1,k2,kn,那么它们的平均数为,那么它们的平均数为 常用的特征数常用的特征数一、复习:一、复习:1、平均数:、平均数:就是一组数据按照就是一组数据按照从小到大从小到大或或从大到小从大到小的顺序进的顺序进行排列时,处于行排列时
3、,处于中间位置中间位置的数的数(或中间两数的平均数或中间两数的平均数)称称为这组数据的中位数为这组数据的中位数 奇数奇数个数时,中间那个数时,中间那1个个偶数偶数个数时,中间那两个的平均个数时,中间那两个的平均数数就是一组数据中出现次数最多的数就是一组数据中出现次数最多的数 2、中位数:、中位数:3、众数:、众数:平均数、中位数或众数平均数、中位数或众数反映数据的反映数据的集中趋势集中趋势就是一组数据中最大数与最小数之间的差就是一组数据中最大数与最小数之间的差 就是一组数据中所有数与平均数的就是一组数据中所有数与平均数的差的平方和差的平方和的的平均数平均数设有设有n个数据个数据x1,x2,xn
4、,这组数据的这组数据的方差为:方差为:nxxxxxxsn222212)()()(4、极差:、极差:5、方差:、方差:极差极差和和方差方差反映数据的反映数据的离散程度离散程度月工资/元80005000400020001000800700600500员工数/人12461282052(1)分别计算该公司员工月工资的平均数、中位数和众数。分别计算该公司员工月工资的平均数、中位数和众数。(2)公司经理会选取上面哪个来代表该公司员工的月工资情公司经理会选取上面哪个来代表该公司员工的月工资情况,税务官呢?工会领导呢?况,税务官呢?工会领导呢?分析:分析:1.根据平均数、中位数的计算公式,可以算出平均数根据平
5、均数、中位数的计算公式,可以算出平均数为:为:1373元,中位数为:元,中位数为:800元,众数为:元,众数为:700元元2.不同身份的人代表不同阶层人的利益,对公司领导平均数不同身份的人代表不同阶层人的利益,对公司领导平均数好,对税务官中位数比较好,对工会领导众数即使他的选择好,对税务官中位数比较好,对工会领导众数即使他的选择例例1 某公司员工的月工资情况如表:某公司员工的月工资情况如表:如果你应聘该公司,你怎样看待公司员工的收入情况?如果你应聘该公司,你怎样看待公司员工的收入情况?平均数平均数是将是将所有所有的数据都考虑进去得到的度的数据都考虑进去得到的度量,它是反映数据量,它是反映数据集
6、中趋势集中趋势最常用的统计量;最常用的统计量;中位数中位数将观测数据将观测数据分成分成相同数目的相同数目的两部分两部分,其中一部分都比这个数小而另一部分都比这其中一部分都比这个数小而另一部分都比这个数大,对于非对称的数据集,中位数更实个数大,对于非对称的数据集,中位数更实际地描述了数据的中心;当变量是际地描述了数据的中心;当变量是分类分类变量变量时,时,众数众数往往经常被使用往往经常被使用 例例2、在上一节中,从甲乙两个城市随机抽取的在上一节中,从甲乙两个城市随机抽取的16台自动售货机的销售额可以用茎叶图表示如下台自动售货机的销售额可以用茎叶图表示如下8 6 5 8 8 4 0 0 7 5 2
7、 0 0 3 1 8 0123450 2 8 0 2 3 3 71 2 4 4 8 2 3 8甲甲 乙乙1甲乙两组数据的中位数众数甲乙两组数据的中位数众数极差分别是多少?极差分别是多少?2你能从上图中分别比较甲你能从上图中分别比较甲乙两组数据的平均数和方差乙两组数据的平均数和方差的大小吗?的大小吗?甲的中位数:甲的中位数:20 众数:众数:10 18 30极差:极差:53乙的中位数:乙的中位数:29 众数:众数:23 34极差:极差:38甲的平均数:甲的平均数:22.8 方差:方差:210.9乙的平均数:乙的平均数:28.6方差:方差:115.2例例3、甲乙两台机床同时生产直径为甲乙两台机床同
8、时生产直径为40mm的零件,的零件,为了检验产品的质量,从两台机床生产的产品中个为了检验产品的质量,从两台机床生产的产品中个抽取抽取10件进行测量,结果如下:件进行测量,结果如下:甲/mm40.039.840.140.239.940.040.239.840.239.8乙/mm40.040.039.940.039.940.140.140.140.039.9你能选择适当的数分别表示这两组数据吗?你能选择适当的数分别表示这两组数据吗?方法方法1(极差极差)甲:甲:40.2-39.80.4 乙:乙:40.1-39.90.2方法方法2(方差方差)甲:甲:408.39408.39)4040(1012222
9、甲s0.026(m)乙乙409.394040)4040(1012222甲s0.006(m)它们的平均数都是它们的平均数都是40,因此仅用平均水平还,因此仅用平均水平还难以准确地刻画一组数据难以准确地刻画一组数据 方法方法3甲甲14.0408.39408.394040101乙乙06.0409.3940404040101方法方法4甲甲)(0006.0409.39404040401012333mm)(005.0408.39408.3940401012333mm乙乙用不同的方式刻画数据离散程度,其理想的形式满用不同的方式刻画数据离散程度,其理想的形式满足一下三条足一下三条:1应充分利用数据,以便提供更
10、确却的信息应充分利用数据,以便提供更确却的信息2仅用一个数据来刻画数据的离散程度仅用一个数据来刻画数据的离散程度3对于不同的数据,当离散程度大时,对于不同的数据,当离散程度大时,该数亦大该数亦大问题这么多方式都可以表达,那么什么方式表达最好呢?问题这么多方式都可以表达,那么什么方式表达最好呢?方法方法1(即极差即极差)因为极差对极值过于敏感,显然不满足第一条原则。因为极差对极值过于敏感,显然不满足第一条原则。方法方法4、满足理想形式的三条原则,它也是刻画数据离散程度的一种方法。、满足理想形式的三条原则,它也是刻画数据离散程度的一种方法。但运算量大。但运算量大。方法方法2(即方差)满足理想形式的
11、三条原则,它是刻画数据离散程度的一(即方差)满足理想形式的三条原则,它是刻画数据离散程度的一种方法,但是它的单位是原观测数据的单位的平方。种方法,但是它的单位是原观测数据的单位的平方。所以在实际中,人们更多使用的是所以在实际中,人们更多使用的是标准差标准差 方法方法3(即绝对差)满足理想形式的三条原则,它也是刻画数据离散程度(即绝对差)满足理想形式的三条原则,它也是刻画数据离散程度的一种方法。的一种方法。二、标准差二、标准差1、方差的正的平方根、方差的正的平方根 nxxxxxxssn222212)()()(L2、公式:、公式:3、优点:、优点:(1)、从数学上来说,二次函数的性质比绝对值函数要
12、好;)、从数学上来说,二次函数的性质比绝对值函数要好;(2)、单位一致;)、单位一致;(3)、比较方便运算)、比较方便运算。问题问题3 分别计算上题中的甲乙车床的标准差?分别计算上题中的甲乙车床的标准差?nxxxxxxsn22221)()()(根据标准差计算公式根据标准差计算公式甲:甲:s0.16(mm)乙:乙:s0.077(mm)因为甲的标准差比乙大,因此乙更稳定因为甲的标准差比乙大,因此乙更稳定 对数据数字特征内容的评价对数据数字特征内容的评价,应当更多地应当更多地关注对其本身意义的理解和在新情境中的应关注对其本身意义的理解和在新情境中的应用,而不是记忆和使用的熟练程度因此,用,而不是记忆和使用的熟练程度因此,在分析数据的过程中,要理解数据的平均值在分析数据的过程中,要理解数据的平均值和标准差在此处的意义和标准差在此处的意义,再对估计结果作出客再对估计结果作出客观的评判观的评判 小结:小结:v1.1.众数、中位数、平均数的概念众数、中位数、平均数的概念v2.2.三种数字特征的优缺点三种数字特征的优缺点v3.3.极差、方差、标准差的概念极差、方差、标准差的概念v4.4.如何利用标准差刻画数据的离散程度如何利用标准差刻画数据的离散程度?1、练习:P31-练习2、作业:P31习题14第1题