1、第三章第三章 样本数据特样本数据特征的初步分析征的初步分析数据的预处理数据的预处理频次与频率频次与频率观察数据的图形方法观察数据的图形方法数据特征的度量数据特征的度量3.1 数据的预处理数据的预处理v数据审核数据审核检查数据中的错误检查数据中的错误v数据筛选数据筛选找出符合条件的数据找出符合条件的数据v数据排序数据排序升序和降序升序和降序寻找数据的基本特征寻找数据的基本特征数据审核数据审核v原始数据原始数据应调查的单位或个体是否有遗漏应调查的单位或个体是否有遗漏所有的调查项目或变量是否填写齐全所有的调查项目或变量是否填写齐全数据是否真实反映实际情况,内容是否符合数据是否真实反映实际情况,内容是
2、否符合实际实际数据是否有错误,计算是否正确等数据是否有错误,计算是否正确等v间接数据间接数据弄清楚数据的来源、数据的口径以及有关的弄清楚数据的来源、数据的口径以及有关的背景材料背景材料确定数据是否符合自己分析研究的需要确定数据是否符合自己分析研究的需要尽可能使用最新的数据尽可能使用最新的数据确认是否有必要做进一步的加工整理确认是否有必要做进一步的加工整理 当数据中的错误不能予以纠正,或者有些数据当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数不符合调查的要求而又无法弥补时,需要对数据进行筛选据进行筛选数据筛选的内容数据筛选的内容将某些不符合要求的数据或有明显错误
3、的数据予以将某些不符合要求的数据或有明显错误的数据予以剔除剔除将符合某种特定条件的数据筛选出来,而不符合特将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除定条件的数据予以剔除数据筛选数据筛选数据排序数据排序按一定顺序将数据排列,以发现一些明显的特按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索征或趋势,找到解决问题的线索排序有助于对数据检查纠错,以及为重新归类排序有助于对数据检查纠错,以及为重新归类或分组等提供依据或分组等提供依据在某些场合,排序本身就是分析的目的之一在某些场合,排序本身就是分析的目的之一排序可借助于计算机完成排序可借助于计算机完成3.2 频
4、次与频率频次与频率v频次频次(Frequence) 在同一个数据集合中,同一个数据在同一个数据集合中,同一个数据(样本值)出现的次数(样本值)出现的次数v频率频率(Percentage) 某样本值的频率某样本值的频率=该样本值出现的频次该样本值出现的频次/nv从某城市抽出来的从某城市抽出来的30个商店中,某商品的价个商店中,某商品的价格数据格数据v某单位某单位16人受教育程度人受教育程度 表表3.1 某单位职工受教育的结构某单位职工受教育的结构受教育程度受教育程度各个受教育程度出现的人数各个受教育程度出现的人数各受教育程度出现的频率各受教育程度出现的频率(%)小学小学16.25初中初中212.
5、5高中高中212.5大学大学956.25硕士硕士212.5合计合计16100v家庭家具的基色调的抽样调查结果家庭家具的基色调的抽样调查结果 表表3.2 家庭家具的基色调的抽样调查结果家庭家具的基色调的抽样调查结果家具的基色调家具的基色调各基色调出现的次数各基色调出现的次数各基色调出现的频率各基色调出现的频率(%)黑色黑色13.33浅绿色浅绿色620暗红暗红826.67白色白色516.67淡黄褐淡黄褐1033.33合计合计30100统计表的设计统计表的设计v4个主要部分:表头、行标题、列标题和数字资料个主要部分:表头、行标题、列标题和数字资料v表中的上下两条横线一般用粗线,其他线用细线表中的上下
6、两条横线一般用粗线,其他线用细线v通常情况下,统计表的左右两边不封口通常情况下,统计表的左右两边不封口v表中的数据一般是右对齐,有小数点时应以小数表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一点对齐,而且小数点的位数应统一v对于没有数字的表格单元,一般用对于没有数字的表格单元,一般用“”表示表示v必要时可在表的下方加上注释必要时可在表的下方加上注释3.3 观察数据的图形方法观察数据的图形方法v条形图条形图v饼图饼图v面积图面积图v线图线图v直方图直方图v茎叶图茎叶图v箱形图、散点图、正态概率分布图箱形图、散点图、正态概率分布图条形图(条形图(Bar Chart)v用直
7、条的长短来表示数据的频次或频率用直条的长短来表示数据的频次或频率简单条形图简单条形图纵轴为频率纵轴为频率 纵轴为累计百分比纵轴为累计百分比例例分组条形图分组条形图例例分段条形图分段条形图例例饼图饼图v用一个圆来表现百分比构成,可根据圆中各个扇用一个圆来表现百分比构成,可根据圆中各个扇形面积的大小,来判断某一部分在全部中所占比形面积的大小,来判断某一部分在全部中所占比例的多少例的多少面积图面积图v用面积来表现连续型数据的频数分布资料,面积越用面积来表现连续型数据的频数分布资料,面积越大,频数越多,反之亦然大,频数越多,反之亦然线图线图J a nF e bM a rA p rM a yJ u nJ
8、 u lA u gS e pO c tN o vD e cM o n th0 .01 0 .02 0 .03 0 .0M e a n W u h a nY e a r8 58 68 78 88 99 09 19 29 39 4-18. 80. 022. 4H arbin M eansH arbin M eansBar s show M eans直方图直方图用于展示分组数据分布的一种图形用于展示分组数据分布的一种图形用矩形的宽度和高度来表示频数分布用矩形的宽度和高度来表示频数分布 本质上是用矩形的本质上是用矩形的面积来表示频数分布来表示频数分布在直角坐标系中,用横轴表示数据分组,纵轴表在直角坐标
9、系中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个示频数或频率,各组与相应的频数就形成了一个矩形,即直方图矩形,即直方图直方图下的总面积等于直方图下的总面积等于1组距分组组距分组v将变量值的一个区间作为一组将变量值的一个区间作为一组v适合于连续变量适合于连续变量v适合于变量值较多的情况适合于变量值较多的情况v需要遵循需要遵循“不重不漏不重不漏”的原则的原则v可采用等距分组,也可采用不等距分组可采用等距分组,也可采用不等距分组分组方法等距分组等距分组异距分组异距分组单变量值分组单变量值分组组距分组组距分组v1. 下限(low limit) :一个组的最小值一个组的最小值v
10、2. 上限(upper limit) :一个组的最大值一个组的最大值v3. 组距(class width) :上限与下限之差,区间长度上限与下限之差,区间长度v4. 组中值(class midpoint) :下限与上限之间的中点值下限与上限之间的中点值 某班级男生的身高数据某班级男生的身高数据例例1.确定区间长度确定区间长度2.确定组数确定组数3.制作频数分布表制作频数分布表4.确定最左端分组区确定最左端分组区间位置的准则:组间位置的准则:组中值为最小值中值为最小值直方图与条形图的区别直方图与条形图的区别条形图是用条形的长度条形图是用条形的长度(横置时横置时)表示各类别频数的表示各类别频数的多
11、少,其宽度多少,其宽度(表示类别表示类别)则是固定的则是固定的直方图是用面积表示各组频数的多少,矩形的高直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义的组距,其高度与宽度均有意义直方图的各矩形通常是连续排列,条形图则是分直方图的各矩形通常是连续排列,条形图则是分开排列开排列条形图主要用于展示分类数据,直方图则主要用条形图主要用于展示分类数据,直方图则主要用于展示数值型数据于展示数值型数据茎叶图(茎叶图(Stem&Leaf)v定义定义 按照某种规则,把所有的样本值分成按照某种规则,把所有的
12、样本值分成“茎节茎节”和和“叶叶”两个部分,表达为两个部分,表达为“茎节茎节.叶叶”的形式的形式 如规定如规定“茎节茎节”的宽度为的宽度为100, 则样本数据则样本数据123的的“茎节茎节.叶叶”表达方式就是表达方式就是1.23 “茎节茎节”末位上的末位上的1所代表的实际值,就是所代表的实际值,就是“茎节茎节”的宽度的宽度v原则原则 确定宽度的原则:样本数据集合中的确定宽度的原则:样本数据集合中的“茎节茎节”必必须是有变化的须是有变化的v茎叶图的作法茎叶图的作法 某班级男生的身高某班级男生的身高(cm) 频数频数茎茎 叶叶 416 . 0358 1117 . 01255667788 618 .
13、 012356 119 . 0 1.由由“茎茎”和和“叶叶”两部分构成,其图形是由数字组成的两部分构成,其图形是由数字组成的2.以该组数据的高位数值作树茎,低位数字作树叶以该组数据的高位数值作树茎,低位数字作树叶3.茎叶图类似于横置的直方图,但又有区别茎叶图类似于横置的直方图,但又有区别直方图可观察一组数据的分布状况,但没有给出具体的数值直方图可观察一组数据的分布状况,但没有给出具体的数值茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息留了原始数据的信息直方图适用于大批量数据,茎叶图适用于小批量数据直方图适用于大
14、批量数据,茎叶图适用于小批量数据例例3.4 数据特征的度量数据特征的度量 v集中趋势集中趋势(Central Tendency) v离散程度离散程度 (Dispersion)v偏态与峰态偏态与峰态(Distribution)3.4 数据特征的度量数据特征的度量 3.4.1 集中趋势集中趋势(Central Tendency)v一组数据向其中心值靠拢的倾向和程度一组数据向其中心值靠拢的倾向和程度v测度集中趋势就是寻找数据水平的代表值或中测度集中趋势就是寻找数据水平的代表值或中心值心值v不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值v低层次数据的测度值适用于高层次的测量数
15、据,低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测但高层次数据的测度值并不适用于低层次的测量数据量数据众数众数中位数、分位数中位数、分位数均值均值众数(众数(mode)概念:一组数据中出现次概念:一组数据中出现次数最多的变量值,记作数最多的变量值,记作M0说明:说明:适合于数据量较多时使用适合于数据量较多时使用不受极端值的影响不受极端值的影响一组数据可能没有众数或一组数据可能没有众数或有几个众数有几个众数从条形图或者频率表、频从条形图或者频率表、频次表来判断次表来判断v主要用于定类数据和定序数据,也可用于定距数据主要用于定类数据和定序数据,也可用于定距数据v
16、等区间分组的直方图中,最高矩形所表示的数据区等区间分组的直方图中,最高矩形所表示的数据区间称为该数据集合的众数区间,简称为众数,也有间称为该数据集合的众数区间,简称为众数,也有单一众数与复众数之分单一众数与复众数之分中位数(中位数(Median)v概念概念:排序后处于中间位置上的值排序后处于中间位置上的值,记作记作Mev说明:说明:1 1、不受极端值的影响、不受极端值的影响2 2、主要用于定距数据,也可用定序数据,但不、主要用于定距数据,也可用定序数据,但不能用于定类数据能用于定类数据3 3、计算的话要注意先算、计算的话要注意先算“正中间的位置正中间的位置”,再,再算算“正中间位置上的值正中间
17、位置上的值”v计算方法计算方法 求各个样本的中位数求各个样本的中位数 1.样本: 24 22 21 26 20解:共有奇数个数据解:共有奇数个数据例例故故 Me=22将原样本数据排序:将原样本数据排序:20 21 22 24 26v 求各个样本的中位数求各个样本的中位数 1.样本: 10 5 9 12 6 8解:共有偶数个数据解:共有偶数个数据例例故故 Me=(8+9)/2=8.5将原样本数据排序:将原样本数据排序: 5 6 8 9 10 12 中位数中位数(median)是分位数的一种,除此之外还是分位数的一种,除此之外还有四分位数有四分位数(quartiles)、十分位数、十分位数(dec
18、iles)和百分位和百分位数数(percentile) 某班级男生的身高数据的中位数某班级男生的身高数据的中位数练习练习故故 Me=(176+177)/2=176.5均值(均值(Mean)v概念:概念: 一组数据相加后除以数据的个数而得到的结果一组数据相加后除以数据的个数而得到的结果v性质:集中趋势的最常用测度值性质:集中趋势的最常用测度值v说明:说明:仅适用于定距级的数据仅适用于定距级的数据一组数据的均衡点所在,体现了数据的必然性特征一组数据的均衡点所在,体现了数据的必然性特征易受极端值的影响易受极端值的影响v根据总体数据计算的,称为平均数,记为根据总体数据计算的,称为平均数,记为 ;根据;
19、根据样本数据计算的,称为样本平均数,记为样本数据计算的,称为样本平均数,记为 x均值的计算均值的计算v简单平均数简单平均数(Simple Mean)v加权平均数加权平均数(Weighted Mean)设一组数据为:设一组数据为:x1 ,x2 , ,xn (总体数据总体数据xN) 样本平均数样本平均数设各组的组中值为:设各组的组中值为:M1 ,M2 , ,Mk 相应的频数为:相应的频数为: f1 , f2 , ,fk样本加权平均样本加权平均S St ta at ti is st ti ic cs s身高(厘米)220175.8182ValidMissingNMeanStatisticsStati
20、stics身高(cm)220175.68ValidMissingNMean众数、中位数和平均数的比较众数、中位数和平均数的比较v众数是一组数据分布的最高峰值众数是一组数据分布的最高峰值v中位数是处于一组数据中间位置上的值中位数是处于一组数据中间位置上的值v平均数是全部数据的算术平均平均数是全部数据的算术平均集中趋势特征的特点和应用集中趋势特征的特点和应用v众数(众数(mode)不受极端值影响不受极端值影响具有不惟一性具有不惟一性数据分布偏斜程度较大且有明显峰值时应用数据分布偏斜程度较大且有明显峰值时应用v中位数(中位数(median)不受极端值影响不受极端值影响数据分布偏斜程度较大时应用数据分
21、布偏斜程度较大时应用v平均数(平均数(mean)易受极端值影响易受极端值影响数学性质优良数学性质优良数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用3.4.2 离散程度的度量离散程度的度量v数据分布的另一个重要特征数据分布的另一个重要特征v反映各变量值远离其中心值的程度反映各变量值远离其中心值的程度(离散程离散程度度)v从另一个侧面说明了集中趋势测度值的代从另一个侧面说明了集中趋势测度值的代表程度表程度v不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值离散特征的度量离散特征的度量v极值与极差(极值与极差(Range)v四分位差(四分位差(Interqua
22、rtile Range)v离差(离差(Deviations)v方差(方差(Variance)v离散系数(离散系数(coefficient of Variance)v均值标准误差(均值标准误差(S. E. mean,Standard Error of Mean)四分位差(四分位差(Interquartile Range)v四分位数(四分位数(quartile) 一组数据排序后处于一组数据排序后处于25%和和75%位置上的值,称位置上的值,称为四分位数为四分位数 下四分位数为下四分位数为QL,上四分位数为,上四分位数为QUv四分位差四分位差QU QL离差(离差(Deviations)v定义定义每个
23、样本与样本均值之差(又称为样本中心化数据)每个样本与样本均值之差(又称为样本中心化数据)如样本数据为如样本数据为99.8,99.9,100.1,100.2则均值为则均值为100,则样本离差分别为,则样本离差分别为-0.2,-0.1,0.1,0.2v说明说明 存在正负相互抵消的问题,不能反映整个样本存在正负相互抵消的问题,不能反映整个样本数据对样本均值的偏离情况,所以采用离差平方和数据对样本均值的偏离情况,所以采用离差平方和的方式的方式(Sum of Squared Deviations)方差(方差(Variance)v定义定义 离差平方和的均值,反映了各变量值与均值的离差平方和的均值,反映了各
24、变量值与均值的平均差异平均差异v说明:根据总体数据计算的,称为总体方差,根据说明:根据总体数据计算的,称为总体方差,根据样本数据计算的,称为样本方差样本数据计算的,称为样本方差标准差标准差(Standard Deviation)v定义定义 方差的平方根方差的平方根v说明:说明: 标准差与变量值的计量单位相同,其实际意标准差与变量值的计量单位相同,其实际意义要比方差清楚义要比方差清楚v自由度自由度一组数据中可以自由取值的个数一组数据中可以自由取值的个数 按着这一逻辑,如果对按着这一逻辑,如果对n个观测值附加的约束个数个观测值附加的约束个数为为k个,自由度则为个,自由度则为n-k 标准化值标准化值
25、v用于对变量的标准化处理用于对变量的标准化处理v计算公式为计算公式为v标准化后的变量均值等于标准化后的变量均值等于0,方差等于,方差等于1经验法则经验法则经验法则表明:当一组数据服从正态分布时经验法则表明:当一组数据服从正态分布时v约有约有68%的数据在平均数加减的数据在平均数加减1个标准差的范围之内个标准差的范围之内v约有约有95%的数据在平均数加减的数据在平均数加减2个标准差的范围之内个标准差的范围之内v约有约有99%的数据在平均数加减的数据在平均数加减3个标准差的范围之内个标准差的范围之内经验法则(经验法则(Chebyshev不等式)不等式) 对于任一随机变量对于任一随机变量X,如,如E
26、X=与与DX=2均存在均存在则对任意则对任意0,恒有,恒有 是指随机变量的是指随机变量的“几乎所有几乎所有”值都会接近值都会接近“均均值值”,该不等式以数量化方式给出了上界,该不等式以数量化方式给出了上界v与平均值相差与平均值相差2个标准差的值,数目不多于个标准差的值,数目不多于1/4v与平均值相差与平均值相差3个标准差的值,数目不多于个标准差的值,数目不多于1/9v与平均值相差与平均值相差4个标准差的值,数目不多于个标准差的值,数目不多于1/1622XP变异系数(变异系数(Coefficient of Variation)v定义定义标准差与其相应的均值之比标准差与其相应的均值之比v说明说明1
27、.对数据相对离散程度的测度对数据相对离散程度的测度2.消除了数据水平高低和计量单位的影响消除了数据水平高低和计量单位的影响3.用于对不同组别数据离散程度的比较用于对不同组别数据离散程度的比较 某旅游局抽查了所属的某旅游局抽查了所属的8家旅行社,其产品销售数家旅行社,其产品销售数据如表。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度例例某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)x1销售利润(万元)x212345678170220390430480650950 1000 8.112.518.022.026.540.064.069.0结论:结论:
28、计算结果表明,计算结果表明,v1 0为右偏分布为右偏分布SK 0为左偏分布为左偏分布v偏态系数大于偏态系数大于1或小于或小于-1,被称为高度偏态分,被称为高度偏态分布;偏态系数在布;偏态系数在0.51或或0.51之间,被之间,被认为是中等偏态分布;偏态系数越接近认为是中等偏态分布;偏态系数越接近0,偏,偏斜程度就越低斜程度就越低 峰态(峰态(kurtosis)v数据分布的平峰或尖数据分布的平峰或尖峰程度称为峰态,其峰程度称为峰态,其度量值称为峰态系数,度量值称为峰态系数,记作记作Kv计算计算K=0扁平峰度适中扁平峰度适中K0为尖峰分布为尖峰分布 某电脑公司销售量偏态及峰度计算表 按销售量份组(
29、台) 组中值(Mi)频数 fi140 150150 160160 170170 180180 190190 200200 210210 220220 230230 240145155165175185195205215225235 4 91627201710 8 4 5-256000-243000-128000 -27000 0 17000 80000 216000 256000 62500010240000 7290000 2560000 270000 0 170000 1600000 64800001024000031250000合计120540000 70100000 例例SK=0.44
30、8,K=0.306,结论:,结论:偏态系数为正值,但与偏态系数为正值,但与0的的差异不大,说明电脑销售量为轻微右偏分布,即销售量较差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数;偏态少的天数占据多数,而销售量较多的天数则占少数;偏态系数为负值,但与系数为负值,但与0的差异不大,说明销售量略呈扁平分布的差异不大,说明销售量略呈扁平分布箱线图(箱线图(Boxplot)v由一组数据的由一组数据的5个特征值绘制而成,由一个矩形和个特征值绘制而成,由一个矩形和向两侧延伸的线段(向两侧延伸的线段(Whisker)组成)组成v用于显示未分组的用于显示未分组的
31、原始数据的分布原始数据的分布v绘制方法绘制方法首先找出一组数据的首先找出一组数据的5个特征值,即个特征值,即最大值、最小值、中位数Me和两和两个个四分位数QL、QU连接两个四分位数画连接两个四分位数画出箱子,再将两个极值出箱子,再将两个极值点与箱子相连接点与箱子相连接箱线图的构成箱线图的构成v分布的形状与箱线图分布的形状与箱线图中位数中位数QUQLX最大值最大值X最小值最小值修正的箱图修正的箱图多批数据箱线图多批数据箱线图【例】【例】 从某大从某大学经济管理专学经济管理专业二年级学生业二年级学生中随机抽取中随机抽取11人,对人,对8门主门主要课程的考试要课程的考试成绩进行调查成绩进行调查,所得
32、结果如,所得结果如右表。试绘制右表。试绘制各科考试成绩各科考试成绩的批比较箱线的批比较箱线图,并分析各图,并分析各科考试成绩的科考试成绩的分布特征分布特征11名学生各科的考试成绩数据名学生各科的考试成绩数据课程名称课程名称学生编号学生编号1234567891011英语英语经济数学经济数学西方经济学西方经济学市场营销学市场营销学财务管理财务管理基础会计学基础会计学统计学统计学计算机应用基础计算机应用基础76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786
33、918377769070828382928481706972787578918866948085718674687962818155787075687177练习练习1v一家汽车零售店的一家汽车零售店的10名销售人员名销售人员5月份销售的汽车月份销售的汽车数量(单位:台)如下:数量(单位:台)如下: 7,4,2,12,10,14,10,10,12,15 1)计算销售量的众数、中位数和平均数)计算销售量的众数、中位数和平均数 2)计算销售量的方差和标准差)计算销售量的方差和标准差 3)说明汽车销量量分布的特征)说明汽车销量量分布的特征练习练习2v某银行为缩短顾客到银行办理业务等待的时间,准备某银行
34、为缩短顾客到银行办理业务等待的时间,准备采用两种排队方式进行试验,一种是所有顾客都进入采用两种排队方式进行试验,一种是所有顾客都进入一个等待队列;另一种是顾客在一个等待队列;另一种是顾客在3个业务窗口处列队个业务窗口处列队3排等待,两种排队方式各随机抽取排等待,两种排队方式各随机抽取9名顾客,得到第名顾客,得到第一种排队方式的平均等待时间(单位:分钟)为一种排队方式的平均等待时间(单位:分钟)为7.2,标准差为标准差为1.97,第二种排队方式的等待时间如下:,第二种排队方式的等待时间如下:5.5,6.6,6.7,6.8,7.1,7.3,7.4,7.8,7.8v1)画出第二种排队方式等待时间的茎
35、叶图)画出第二种排队方式等待时间的茎叶图v2)计算第二种排队时间的平均数和标准差)计算第二种排队时间的平均数和标准差v3)比较两种排队方式等待时间的离散程度)比较两种排队方式等待时间的离散程度v4)如果让你来选择一种排队方式,会选择哪一种,)如果让你来选择一种排队方式,会选择哪一种,试说明理由试说明理由练习练习3v为研究少年儿童的成长发育状况,某研究所的一为研究少年儿童的成长发育状况,某研究所的一位调查人员位调查人员A在某城市抽取在某城市抽取100名名717岁的少年儿童岁的少年儿童作为样本,另一位调查人员作为样本,另一位调查人员B则抽取了则抽取了1000名城名城717岁的少年儿童作为样本,请回
36、答:岁的少年儿童作为样本,请回答:v1)哪位调查人员在其所抽取的样本中得到的少年)哪位调查人员在其所抽取的样本中得到的少年 儿童的平均身高较大?或者这两组样本的平均身高儿童的平均身高较大?或者这两组样本的平均身高相同?相同?v2)哪位调查人员在其所抽到的少年儿童身高的标)哪位调查人员在其所抽到的少年儿童身高的标准差较大?或者这两组样本的标准差相同?准差较大?或者这两组样本的标准差相同?v3)哪位调查人员有可能得到这)哪位调查人员有可能得到这1100名少年儿童身名少年儿童身高的最高者或最低者?或者对两位调查人员来说,高的最高者或最低者?或者对两位调查人员来说,机会均等机会均等练习练习基本概念题基
37、本概念题1.哪些测度等级的数据集合,适合于做频次与频率的哪些测度等级的数据集合,适合于做频次与频率的饼图饼图2.哪些测度等级的数据集合,适合于做频次与频率的哪些测度等级的数据集合,适合于做频次与频率的条形图条形图3.是否能用饼图来表示一个数据集合的累积频率?可是否能用饼图来表示一个数据集合的累积频率?可以用以用_图来表示一个数据集合的累积频率分布状况图来表示一个数据集合的累积频率分布状况4.哪些测度等级的数据集合才能计算累计频率哪些测度等级的数据集合才能计算累计频率5.什么测度级别的数据适宜作直方图什么测度级别的数据适宜作直方图6.作直方图时如何确定最左端区间的中心位置作直方图时如何确定最左端
38、区间的中心位置7.作直方图时,区间长度确定后,如何确定区间个数作直方图时,区间长度确定后,如何确定区间个数v8.依据如下直方图,判断斜度的正负号依据如下直方图,判断斜度的正负号9.什么测度级别的数据集合,可以求众数什么测度级别的数据集合,可以求众数10.什么测度级别的数据集合适合于确定中位数什么测度级别的数据集合适合于确定中位数11.什么测度级别的数据集合适合于计算样本均值什么测度级别的数据集合适合于计算样本均值11.依据下图,判断该数据集合的众数与中位数依据下图,判断该数据集合的众数与中位数v12.一项关于大学生体重状况的研究发现,男一项关于大学生体重状况的研究发现,男生的平均体重为生的平均体重为60kg,标准差为,标准差为5kg;女生的;女生的平均体重为平均体重为50kg,标准差为,标准差为5kg,请回答下列,请回答下列问题:问题:1)男生和女生谁的体重差异大,为什)男生和女生谁的体重差异大,为什么么2)初略地估计一下,男生中有百分之几的)初略地估计一下,男生中有百分之几的人体重在人体重在55kg到到65kg之间?之间?3)初略地估计一)初略地估计一下,女生中有百分之几的人体重在下,女生中有百分之几的人体重在40kg到到60kg之间之间