1、2.2.2 用样本的数字特征估用样本的数字特征估计总体的数字特征(计总体的数字特征(1)如果要求我们根据上面的数据,估计、如果要求我们根据上面的数据,估计、比较甲,乙两名运动员哪一位发挥得比较甲,乙两名运动员哪一位发挥得比较稳定,就得有相应的数据作为比比较稳定,就得有相应的数据作为比较依据,即通过样本数据对总体的数较依据,即通过样本数据对总体的数字特征进行研究,用样本的数字特征字特征进行研究,用样本的数字特征估计总体的数字特征估计总体的数字特征.甲运动员得分:甲运动员得分:1212,1515,2020,2525,3131,3131,3636,3636,3737,3939,4444,49.49.
2、乙运动员得分:乙运动员得分:8 8,1313,1414,1616,2323,2626,2828,3838,3939,5151,3131,29.29.一一 众数、中位数、平均数的概念众数、中位数、平均数的概念1 1、众数:众数:在一组数据中,在一组数据中,出现次数最多的数出现次数最多的数据据叫做这一组数据的众数。叫做这一组数据的众数。2 2、中位数中位数 :将一组数据按大小依次排列,把:将一组数据按大小依次排列,把处处在最中间位置的一个数据在最中间位置的一个数据(或两个数据的平均数)(或两个数据的平均数)叫做这组数据的中位数。叫做这组数据的中位数。3 3、平均数:平均数:一组数据的算术平均数一组
3、数据的算术平均数,即即 x=(xx=(x1 1+x+x2 2+x xn n)/n)/n例例1、某工厂人员及工资构成如下:、某工厂人员及工资构成如下:人员人员经理经理 管理人员管理人员 高级技工高级技工 工人工人学徒学徒 合计合计周工资周工资2200250220200100人数人数16510123合计合计2200150011002000100 6900(1)指出这个问题中周工资的众数、中位数、平均数)指出这个问题中周工资的众数、中位数、平均数(2)这个问题中,工资的平均数能客观地反)这个问题中,工资的平均数能客观地反映该厂的工资水平吗?为什么?映该厂的工资水平吗?为什么?分析分析:众数为:众数为
4、200,中位数为,中位数为220,平均数为,平均数为300。因平均数为因平均数为300,由表格中所列出的数据可见,只,由表格中所列出的数据可见,只有经理在平均数以上,其余的人都在平均数以下,有经理在平均数以上,其余的人都在平均数以下,故用平均数不能客观真实地反映该工厂的工资水平。故用平均数不能客观真实地反映该工厂的工资水平。练习练习:在一次中学生田径运动会上,参加男在一次中学生田径运动会上,参加男子跳高的子跳高的17名运动员的成绩如下表所示:名运动员的成绩如下表所示:成绩成绩(单单位:位:米米)150160165170175180 185190人数人数23234111分别求这些运动员成绩的众数
5、,中位数与分别求这些运动员成绩的众数,中位数与平均数平均数 解:在解:在17个数据中,个数据中,1.75出现了出现了4次,出现的次,出现的次数最多,即这组数据的众数是次数最多,即这组数据的众数是1.75上面表里的上面表里的17个数据可看成是按从小到大个数据可看成是按从小到大的顺序排列的,其中第的顺序排列的,其中第9个数据个数据1.70是最中间的是最中间的一个数据,即这组数据的中位数是一个数据,即这组数据的中位数是1.70;这组数据的平均数是这组数据的平均数是答:答:17名运动员成绩的众数、中位数、平均数名运动员成绩的众数、中位数、平均数依次是依次是1.75(米)、(米)、1.70(米)、(米)
6、、1.69(米)(米).思考:如何从频率分布直方图中估计众数、思考:如何从频率分布直方图中估计众数、中位数、平均数?中位数、平均数?频率频率组距组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量月平均用水量(t)例如,在上一节调查的例如,在上一节调查的100位居民的月均用水量的问题位居民的月均用水量的问题中,从这些样本数据的频率分布直方图中月均用水量的中,从这些样本数据的频率分布直方图中月均用水量的众数是众数是频率频率组距组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量月平均用水量
7、(t)2.25t.(一)、频率分布直方图中众数的获得(一)、频率分布直方图中众数的获得1、众数在样本数据的频率分布直方图、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。中,就是最高矩形的中点的横坐标。1 1、众数在样本数据的频率分布直方图、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。中,就是最高矩形的中点的横坐标。众数通常用来表示分类变量的中心值,容易计众数通常用来表示分类变量的中心值,容易计算,并不受极端数据的影响。算,并不受极端数据的影响。如果我将如果我将4.34.3不小心写成了不小心写成了43 43,对众数有影响吗?,对众数有影响吗?(二)、频率分布直方
8、图中中位数的获得(二)、频率分布直方图中中位数的获得 中位数是样本数据所占频率的等分线,即在中位数是样本数据所占频率的等分线,即在样本中,有样本中,有5050的个体小于或等于中位数,也有的个体小于或等于中位数,也有5050的个体大于或等于中位数,的个体大于或等于中位数,因此,在频率分布直方图中,中位数左因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由边和右边的直方图的面积应该相等,由此可以估计中位数的值。此可以估计中位数的值。频率频率组距组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量月平均用水量(t)2 2、中位数
9、是样本数据所占频率的等分线,即在样本中,、中位数是样本数据所占频率的等分线,即在样本中,有有5050的个体小于或等于中位数,也有的个体小于或等于中位数,也有5050的个体大于的个体大于或等于中位数,或等于中位数,因此,在频率分布直方图中,中位数左因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位边和右边的直方图的面积应该相等,由此可以估计中位数的值。数的值。说明说明:中位数不受几个中位数不受几个极端值(即排序靠前极端值(即排序靠前或靠后的数据)的影或靠后的数据)的影响。响。你高中毕业后招聘会上一家单位打你高中毕业后招聘会上一家单位打出月工资出月工资3000元。元
10、。频率频率组距组距0.10.20.30.40.5O 0.5 1 1.5 2 2.5 3 3.5 4 4.5 月平均用水量月平均用水量(t)(三)、频率分布直方图中平均数的获得(三)、频率分布直方图中平均数的获得3 3、平均数:平均数:一组数据的算术平均数一组数据的算术平均数,即即 x=(xx=(x1 1+x+x2 2+x xn n)/n)/n直方图中没有原始数据该怎么处理?直方图中没有原始数据该怎么处理?从居民月均用水量样本数据可知,该样本的众数是从居民月均用水量样本数据可知,该样本的众数是2.3,中位数是中位数是2.0,平均数是,平均数是1.971,这与我们从样本频率分布,这与我们从样本频率
11、分布直方图得出的结论有偏差,你能解释一下原因吗?直方图得出的结论有偏差,你能解释一下原因吗?众数众数2.25t.2.25t.中位数是中位数是2.02.2.02.平均数是平均数是2.02.2.02.频率分布直方图损失了一些样本数据,得到的是频率分布直方图损失了一些样本数据,得到的是一个估计值,且所得估值与数据分组有关一个估计值,且所得估值与数据分组有关,由频率由频率分布直方图得到的众数、中位数、平均数估计值分布直方图得到的众数、中位数、平均数估计值往往与样本的实际中位数值不一致往往与样本的实际中位数值不一致.注注:在只有样本频率分布直方图的情况下,我们可在只有样本频率分布直方图的情况下,我们可以
12、按上述方法估计众数、中位数和平均数,并由以按上述方法估计众数、中位数和平均数,并由此估计总体特征此估计总体特征.三三 三种数字特征的优缺点:三种数字特征的优缺点:1 1、众数体现了样本数据的最大集中点,但它对其它数据信、众数体现了样本数据的最大集中点,但它对其它数据信息的忽视使得无法客观地反映总体特征息的忽视使得无法客观地反映总体特征.如上例中众数是如上例中众数是2.25t,2.25t,它告诉我们它告诉我们,月均用水量为月均用水量为2.25t2.25t的居民数比月均用的居民数比月均用水量为其它数值的居民数多水量为其它数值的居民数多,但它并没有告诉我们多多少但它并没有告诉我们多多少.2 2、中位
13、数是样本数据所占频率的等分线,它不受少数几、中位数是样本数据所占频率的等分线,它不受少数几个极端值的影响,这在某些情况下是优点,但它对极端值个极端值的影响,这在某些情况下是优点,但它对极端值的不敏感有时也会成为缺点。的不敏感有时也会成为缺点。如上例中假设有某一用户月均用如上例中假设有某一用户月均用水量为水量为10t,那么它所占频率为,那么它所占频率为0.01,几乎不影响中位数几乎不影响中位数,但显然这一但显然这一极端值是不能忽视的。极端值是不能忽视的。3 3、由于平均数与每一个样本的数据有关,所以任何一个、由于平均数与每一个样本的数据有关,所以任何一个样本数据的改变都会引起平均数的改变,这是众
14、数、中样本数据的改变都会引起平均数的改变,这是众数、中位数都不具有的性质。也正因如此位数都不具有的性质。也正因如此 ,与众数、中位数比,与众数、中位数比较起来,平均数可以反映出更多的关于样本数据全体的较起来,平均数可以反映出更多的关于样本数据全体的信息,但平均数受数据中的极端值的影响较大,使平均信息,但平均数受数据中的极端值的影响较大,使平均数在估计时可靠性降低。数在估计时可靠性降低。练习练习1应该采用平均数来表示每一个国家项目的平均金额,因应该采用平均数来表示每一个国家项目的平均金额,因为它能反映所有项目的信息。但平均数会受到极端数据为它能反映所有项目的信息。但平均数会受到极端数据22002
15、200万元的影响,所以大多数项目投资金额都和平均数万元的影响,所以大多数项目投资金额都和平均数相差比较大。相差比较大。练习练习2、在某校初中学生的一次体检中,随机抽取在某校初中学生的一次体检中,随机抽取50名女学生的体重(单位:千克),分组及各组名女学生的体重(单位:千克),分组及各组的频数如下的频数如下30,35,1;35,40 ,4;40,45 ,10;45,50 ,22;50,55),),11;55,60 ,2试估计该校女生试估计该校女生平均体重平均体重、中位数中位数及及众数众数。解解:平均体重平均体重 X=32.5I/50+37.54/50+42.510/50+47.522/50+52
16、.511/50+57.52/50=46.9中位数中位数为为45+510/22=47.3 (或或 50-512/22=47.3)众数众数为为(45+50)/2=47.5答答:该校女生的平均体重为该校女生的平均体重为46.9千克千克,中位数为中位数为47.3,众数众数为为47.5小结:一、众数、中位数、平均数的概念小结:一、众数、中位数、平均数的概念1 1、众数:众数:在一组数据中,在一组数据中,出现次数最多的数出现次数最多的数据据叫做这一组数据的众数。叫做这一组数据的众数。2 2、中位数中位数 :将一组数据按大小依次排列,把:将一组数据按大小依次排列,把处处在最中间位置的一个数据在最中间位置的一
17、个数据(或两个数据的平均数)(或两个数据的平均数)叫做这组数据的中位数。叫做这组数据的中位数。3 3、平均数:平均数:一组数据的算术平均数一组数据的算术平均数,即即 x=(xx=(x1 1+x+x2 2+x xn n)/n)/n2 2、中位数是样本数据所占频率的等分线,即在样本中,、中位数是样本数据所占频率的等分线,即在样本中,有有5050的个体小于或等于中位数,也有的个体小于或等于中位数,也有5050的个体大于的个体大于或等于中位数,或等于中位数,因此,在频率分布直方图中,中位数左因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位边和右边的直方图的面积应该相等
18、,由此可以估计中位数的值。数的值。1 1、众数在样本数据的频率分布直方图中,就、众数在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。是最高矩形的中点的横坐标。3、平均数是频率分布直方图的平均数是频率分布直方图的“重心重心”.是直方图的平衡是直方图的平衡点点.n 个样本数据的平均数由公式个样本数据的平均数由公式:X=每个小矩形的面积乘以对应底边中点的横坐标之和每个小矩形的面积乘以对应底边中点的横坐标之和二二 、众数、中位数、平均数与频率分布直方图的关系:、众数、中位数、平均数与频率分布直方图的关系:2.2.2 用样本的数字特征估用样本的数字特征估计总体的数字特征(计总体的数字特征(2)
19、如:有两位射击运动员在一次射击测试中各射靶如:有两位射击运动员在一次射击测试中各射靶10次,每次命中的环数如下:次,每次命中的环数如下:甲:甲:乙:乙:如果你是教练如果你是教练,你应当如何对这次射击作出评价你应当如何对这次射击作出评价?如果看两人本次射击的平均成绩如果看两人本次射击的平均成绩,由于由于77乙甲x,x思考:两人射击的平均成绩是一样的思考:两人射击的平均成绩是一样的.那么两个那么两个人的水平就没有什么差异吗人的水平就没有什么差异吗?若有差异你能说明若有差异你能说明其水平差异在那里吗?其水平差异在那里吗?甲、乙两人射击的平均成绩相等,观察两人成绩的频率分甲、乙两人射击的平均成绩相等,
20、观察两人成绩的频率分布条形图,你能说明其水平差异在那里吗?布条形图,你能说明其水平差异在那里吗?环数环数频率频率0.40.40.30.30.20.20.10.14 5 6 7 8 9 10 4 5 6 7 8 9 10 O O(甲)(甲)环数环数频率频率0.40.40.30.30.20.20.10.14 5 6 7 8 9 10 4 5 6 7 8 9 10 O O(乙)(乙)甲的成绩比较分散,乙的成绩相对集中,比较稳定甲的成绩比较分散,乙的成绩相对集中,比较稳定.一组数据的最大值与最小值的差称为一组数据的最大值与最小值的差称为极差极差;极差越大,数据越分散,极差越小,数据越集中极差越大,数据
21、越分散,极差越小,数据越集中 甲的环数极差甲的环数极差=10-4=6 乙的环数极差乙的环数极差=9-5=4.因此我们可以得到一种因此我们可以得到一种“去掉一个最高分去掉一个最高分,去掉一个最低分去掉一个最低分”的的统计策略统计策略.1、标准差、标准差是样本数据到平均数的一种平均距离。是样本数据到平均数的一种平均距离。一般用一般用s表示。表示。它用来描述样本数据的离散程度。它用来描述样本数据的离散程度。在实际应用中,标准差常被理解为稳定性。在实际应用中,标准差常被理解为稳定性。考察样本数据的分散程度的大小,最常用的统计量是标准差考察样本数据的分散程度的大小,最常用的统计量是标准差22212()(
22、)()nxxxxxxsn-+-+-=L12,.,nix xxxxx假设样本数据是表示这组数据的平均数。到 的距离是).,2,1(nixxi:xxxx,n是平均距离的到样本数据于是”“,2112nxxxxxxSn由于上式含有绝对值,运算不太方便,因由于上式含有绝对值,运算不太方便,因此,通常改用如下公式来计算标准差此,通常改用如下公式来计算标准差 1、标准差标准差是样本数据到平均数的一种平均距离。是样本数据到平均数的一种平均距离。一般用一般用s表示。表示。它用来描述样本数据的离散程度。它用来描述样本数据的离散程度。在实际应用中,标准差常被理解为稳定性。在实际应用中,标准差常被理解为稳定性。222
23、12()()()nxxxxxxsn-+-+-=L思考:思考:1、标准差的取值范围是什么?、标准差的取值范围是什么?2、当标准差为、当标准差为0时,样本数据都是相等的。时,样本数据都是相等的。思考:思考:2、标准差为、标准差为0的样本数据有什么特点?的样本数据有什么特点?1、标准差的值必是大于等于、标准差的值必是大于等于0的;的;思考思考3 3:对于一个容量为:对于一个容量为2 2的样本:的样本:x x1 1,x x2 2(x(x1 1 x x2 2),则则 ,在数轴上,这两个统计数据有什么几何意义?由此说明标在数轴上,这两个统计数据有什么几何意义?由此说明标准差的大小对数据的离散程度有何影响?
24、准差的大小对数据的离散程度有何影响?122xxx+=212xxs-=221xx 1x2xa3 3、标准差越大、标准差越大,数据的离散程度越大,数据较分散数据的离散程度越大,数据较分散;标准差越小标准差越小,数据的离散程度越小,数据较集中在平数据的离散程度越小,数据较集中在平均数周围均数周围.用计算器可算出甲用计算器可算出甲,乙两人的的成绩的标准差乙两人的的成绩的标准差09512乙甲,ss由由 可以知道可以知道,甲的成绩离散程度大甲的成绩离散程度大,乙的成乙的成绩离散程度小绩离散程度小.由此可以估计由此可以估计,乙比甲的射击成绩稳定乙比甲的射击成绩稳定.乙甲ss45678910甲s乙s上面两组数
25、据的离散程度与标准差之间的关系可用图上面两组数据的离散程度与标准差之间的关系可用图直观地表示出来直观地表示出来.例题例题1:画出下列四组样本数据的条形图画出下列四组样本数据的条形图,说明它们的异说明它们的异同点同点.(1)5,5,5,5,5,5,5,5,5;(2)4,4,4,5,5,5,6,6,6;(3)3,3,4,4,5,6,6,7,7;(4)2,2,2,2,5,8,8,8,8;解解:四组样本数据的条形图是四组样本数据的条形图是:O O频率频率1.00.80.60.40.21 2 3 4 5 6 7 81 2 3 4 5 6 7 8 (1)50 xsO O频率频率1.00.80.60.40.
26、21 2 3 4 5 6 7 81 2 3 4 5 6 7 8 (2)50.82xsO O频率频率1.00.80.60.40.21 2 3 4 5 6 7 81 2 3 4 5 6 7 8 (1)50 xsO O频率频率1.00.80.60.40.21 2 3 4 5 6 7 81 2 3 4 5 6 7 8 (2)50.82xs频率频率1.01.00.80.80.60.60.40.40.20.21 2 3 4 5 6 7 81 2 3 4 5 6 7 8 O O(3 3)频率频率1.01.00.80.80.60.60.40.40.20.21 2 3 4 5 6 7 81 2 3 4 5 6
27、7 8 O O(4 4)51.49xs52.83xs标准差还可以用于对样本数据的另外一种解释标准差还可以用于对样本数据的另外一种解释.例如例如对于对于城市居民月均用水量样本数据,其平均数城市居民月均用水量样本数据,其平均数 ,标准差标准差s=0.868.s=0.868.在这在这100100个数据中,个数据中,落在区间(落在区间(-s-s,+s+s)=1.105=1.105,2.8412.841外的有外的有2828个;个;落在区间(落在区间(-2s-2s,+2s+2s)=0.237=0.237,3.7093.709外的只有外的只有4 4个;个;落在区间(落在区间(-3s-3s,+3s+3s)=-
28、0.631=-0.631,4.5774.577外的有外的有0 0个个.1.973x=xxxxxx。sxsx,据几乎包含了所有样本数也就是说2,2 一般地,对于一个正态总体,数据落在区间一般地,对于一个正态总体,数据落在区间(-s-s,+s+s)、()、(-2s-2s,+2s+2s)、()、(-3s-3s,+3s+3s)内的百分比分别为内的百分比分别为68.3%68.3%、95.4%95.4%、99.7%99.7%,这个原理在产,这个原理在产品质量控制中有着广泛的应用(参考教材品质量控制中有着广泛的应用(参考教材P79“P79“阅读与思阅读与思考考”).xxxxxx2.方差方差 1、标准差:标准
29、差:22212()()()nxxxxxxsn-+-+-=L在刻画样本数据的分散程度上在刻画样本数据的分散程度上,方差与标准差是方差与标准差是一样的一样的,但在解决实际问题时但在解决实际问题时,一般采用一般采用标准差标准差 从数学角度考虑从数学角度考虑,有时也可以用标准差的有时也可以用标准差的平方平方 方差来替代标准差作为测量数据分散方差来替代标准差作为测量数据分散程度的工具。程度的工具。222212)(.)()(1xxxxxxnsn2s现实中的总体所包含的个体数往往是很多的现实中的总体所包含的个体数往往是很多的,总体的平均总体的平均数与标准差是不知道的数与标准差是不知道的,如何求总体的标准差和
30、平均数如何求总体的标准差和平均数?-?-通常采用通常采用样本的平均数和标准差去估计总体的平样本的平均数和标准差去估计总体的平均数与标准差均数与标准差,只要样本的代表性好只要样本的代表性好,这样做就是合理的这样做就是合理的.例例2 2、甲乙两人同时生产内径为、甲乙两人同时生产内径为25.40mm25.40mm的一种零件的一种零件.为了为了对两人的生产质量进行评比对两人的生产质量进行评比,从他们生产的零件中各抽出从他们生产的零件中各抽出2020件件,量得其内径尺寸如下量得其内径尺寸如下(单位单位:mm):mm)甲:甲:25.46,25.32,25.45,25.39,25.36 25.46,25.3
31、2,25.45,25.39,25.36 25.34,25.42,25.45,25.38,25.42 25.34,25.42,25.45,25.38,25.42 25.39,25.43,25.39,25.40,25.44 25.39,25.43,25.39,25.40,25.44 25.40,25.42,25.35,25.41,25.39 25.40,25.42,25.35,25.41,25.39乙:乙:25.40,25.43,25.44,25.48,25.4825.40,25.43,25.44,25.48,25.48 25.47,25.49,25.49,25.36,25.34 25.47,25
32、.49,25.49,25.36,25.34 25.33,25.43,25.43,25.32,25.47 25.33,25.43,25.43,25.32,25.47 25.31,25.32,25.32,25.32,25.48 25.31,25.32,25.32,25.32,25.48 从生产的零件内径的尺寸看从生产的零件内径的尺寸看,谁生产的质量较高谁生产的质量较高?解解:用计算器计算可得用计算器计算可得:074.0,038.0;4008,25,4005.25乙甲乙甲ssxx例例2 2、甲乙两人同时生产内径为、甲乙两人同时生产内径为25.40mm25.40mm的一种零件的一种零件.为了为了对两人
33、的生产质量进行评比对两人的生产质量进行评比,从他们生产的零件中各抽出从他们生产的零件中各抽出2020件件,量得其内径尺寸如下量得其内径尺寸如下(单位单位:mm):mm),.,.ss乙甲因此甲生产的零件内径比乙的稳定程度高得多于是可以作出判断甲生产的零件的质量比乙的高一些例例3:为了保护学生的视力,教室内的日光灯在使用一段时间后:为了保护学生的视力,教室内的日光灯在使用一段时间后必须更换已知某校使用的必须更换已知某校使用的100只日光灯在必须换掉前的使用天只日光灯在必须换掉前的使用天数如下,试估计这种日光灯的平均使用寿命和标准差数如下,试估计这种日光灯的平均使用寿命和标准差天数天数151 118
34、0180181 1210210211 1240240241 1270270271 1300300301 1330330331 1360360361 1390390灯泡灯泡数数1111820251672解:解:各组组中值依次为各组组中值依次为165165,195195,225225,255255,285285,315315,345345,375375,由此算得平均数为,由此算得平均数为(165 1 195 11 225 18 255 20 285 25 315 16 345 7 375 2)/100267.9 268x )天天22222(60.2128)268375(2)268195(11)26
35、8165(1 1001 s天天)(4660.21282 ss从上述例子我们可以看到从上述例子我们可以看到,对一名工人生产的零件内径对一名工人生产的零件内径(总体总体)的质量判断的质量判断,与我们抽取的内径与我们抽取的内径(样本数据样本数据)直接相直接相关关.显然显然,我们可以从这名工人生产的零件中获取许多样我们可以从这名工人生产的零件中获取许多样本。本。这样这样,尽管总体是同一个尽管总体是同一个,但由于样本不同但由于样本不同,相应的样相应的样本频率分布与平均数本频率分布与平均数,标准差等都会发生改变标准差等都会发生改变,这就会影这就会影响到我们对总体情况的估计响到我们对总体情况的估计.如果样本
36、的的代表性差如果样本的的代表性差,那那么对总体所作出的估计就会产生偏差么对总体所作出的估计就会产生偏差;样本没有代表性时样本没有代表性时,对总体作出错误估计的可能性就非常大对总体作出错误估计的可能性就非常大.这也正是我们在这也正是我们在前面讲随机抽样时反复强调样本代表性的理由前面讲随机抽样时反复强调样本代表性的理由.在实际操在实际操作中作中,为了减少错误的发生为了减少错误的发生,条件许可时条件许可时,通常采取适当增通常采取适当增加样本容量的方法加样本容量的方法.当然当然,关键还是要改进抽样方法关键还是要改进抽样方法,提高提高样本的代表性样本的代表性.练习:若甲、乙两队比赛情况如下练习:若甲、乙
37、两队比赛情况如下,下列说法哪些下列说法哪些 说法是不正确的:说法是不正确的:甲甲乙乙平均失球数平均失球数平均失球个数的标准差平均失球个数的标准差1.52.11.10.41、平均来说,甲的技术比乙的技术好;、平均来说,甲的技术比乙的技术好;2、乙比甲技术更稳定;、乙比甲技术更稳定;3、甲队有时表现差,有时表现好;、甲队有时表现差,有时表现好;4、乙队失球较多。、乙队失球较多。推论:如果数据推论:如果数据 的平均数为的平均数为 ,方差为,方差为 ,那么那么nxxx,2,1x2s22222121(1)()nsxxxxn212(2)nxaxaxas数据,的平均数为x+a,方差仍为2212(3).nkx
38、kxkxkk s数据,的平均数为 x,方差为三、标准差与方差:三、标准差与方差:22112()niisxxn、2111()niisxxn、1222(4)nkxbkxbkxbkk s数据,的平均数为 x+b,方差为例例4:(2)如果数据)如果数据 的平均数为的平均数为 ,方差,方差为为 ,中位数为,中位数为a,求数据,求数据3x1+5,3x2+5,3xn+5的平均数、标准差、方差、中位数。的平均数、标准差、方差、中位数。nxxx,2,1x2s(1)求数据)求数据2,1,0,-1,1的方差。的方差。(3)已知)已知40个数据中的前个数据中的前20个数据的平均数和方个数据的平均数和方差分别为差分别为
39、60、20,后,后20个数据的平均数和方差分别个数据的平均数和方差分别为为80、40,求这,求这40个数据的平均数和方差。个数据的平均数和方差。22222121(1)()nsxxxxn1222(4)nkxbkxbkxbkk s数据,的平均数为 x+b,方差为练习:练习:4 4、若、若k k1 1,k,k2 2,.k.k8 8的方差为的方差为3 3,则,则2 2(k k1 1-3),-3),2(k2(k2 2-3),-3),.2.2(k k8 8-3)-3)的方差为的方差为_12122,43,3,3_nnx xxxxx、若的方差为,那么的方差为123,24_nx xx、若的方差为,那么这组数据均
40、乘以 后的方差为1.A.B.C.D.在数据统计中,能反映一组数据变化范围大小的指标是()极差方差标准差以上都不对A5.1 3 2 5X3_.已知一个样本,若它的平均数是,则这个样本的标准差是2B7、在一次歌手大奖赛上,七位评委为歌手打出、在一次歌手大奖赛上,七位评委为歌手打出的分数如下:的分数如下:9.4,8.4,9.4,9.9,9.6,9.4,9.7,去掉一个最高分和一个最低分后,所剩数据,去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为的平均值和方差分别为_9.5,0.01612n12n12n6.x,x,x0A.x0B.xxxC.xxx0 D.0若样本,的方差为,则表示()总体方
41、差一定是回顾小结:回顾小结:1 1用样本的数字特征估计总体的数字特征分用样本的数字特征估计总体的数字特征分两类:两类:用样本平均数估计总体平均数。用样本平均数估计总体平均数。用样本方差、标准差估计总体方差、标准差。用样本方差、标准差估计总体方差、标准差。样本容量越大,估计就越精确。样本容量越大,估计就越精确。2 2方差、标准差描述一组数据围绕平均数波方差、标准差描述一组数据围绕平均数波动的大小,反映了一组数据变化的幅度动的大小,反映了一组数据变化的幅度方差越小,数据的波动越小。方差越小,数据的波动越小。知识探究:标准差知识探究:标准差 样本的众数、中位数和平均数常用来表示样本样本的众数、中位数
42、和平均数常用来表示样本数据的数据的“中心值中心值”,其中众数和中位数容易计算,其中众数和中位数容易计算,不受少数几个极端值的影响,但只能表达样本数不受少数几个极端值的影响,但只能表达样本数据中的少量信息据中的少量信息.平均数代表了数据更多的信息,平均数代表了数据更多的信息,但受样本中每个数据的影响,越极端的数据对平但受样本中每个数据的影响,越极端的数据对平均数的影响也越大均数的影响也越大.当样本数据质量比较差时,使当样本数据质量比较差时,使用众数、中位数或平均数描述数据的中心位置,用众数、中位数或平均数描述数据的中心位置,可能与实际情况产生较大的误差,难以反映样本可能与实际情况产生较大的误差,难以反映样本数据的实际状况,因此,我们需要一个统计数字数据的实际状况,因此,我们需要一个统计数字刻画样本数据的离散程度刻画样本数据的离散程度.