1、长沙民政职业技术学院教案课程名称数学应用基础课题描述性统计分析授课课时2课型新授课教案编号 3-1 教学目标(知识、技能、素质):1、知识目标:掌握统计的基本概念及用图描述数据;掌握基本统计量的含义及用EXCEL求解统计量2、技能目标:分析解决问题的能力和严谨的逻辑思维能力3、素质目标:培养学生理性的思维方式和数学应用意识教学重点: 用图描述数据;掌握基本统计量的含义及用EXCEL求解统计量教学难点:随机变量的分布形状;用EXCEL求常用统计量主要教学方法:启发引导式、讲授法教学环节与内容一、问题引入统计在日常生活和各类职业中有着广泛的应用,例如,在社会学领域,需要调查青年对婚姻家庭、经济收入
2、、相貌等因素的态度以便进行正确引导;在康复医疗领域,需要对患有抑郁症的病人,按照测量得到的指标,进行恰当地归类以便进行有针对性的治疗;在经济活动中,需要考虑商品的市场反应与价格、消费者收入和广告等因素之间的相互关系,以及建立数学模型进行预测等问题。二、新课讲授(1)重要统计概念在一个描述性统计问题中,往往涉及到三个主要概念:总体、样本以及描述性统计。定义1:总体是指研究对象的某一个指标(或多个)全体,组成总体的每一个单元称为个体,总体中所包含个体的总数称为总体容量。定义2:在总体中随机地抽取n 个个体,记其指标值为X1 , X2 , , Xn,则X1 , X2 , , Xn称为总体的一个样本,
3、n称为样本容量,样本中的个体称为样品。注意:从总体中抽取样本可以有不同的方法,为了能由样本对总体做出比较可靠的推断,我们希望样本能很好地代表总体,这就需要对抽样方法提出一些要求,最常用的“简单随机抽样”有如下两个要求: 样本具有随机性,即要求总体中每一个个体都有同等机会被选入样本,这便意味着每一个样品xi与总体X有相同的分布。 样本要有独立性,即要求样本中每一个样品的取值不影响其他样品的取值,这意味着X1 , X2 , , Xn相互独立。定义3:用简单随机抽样方法得到的样本称为简单随机样本。定义4:描述性统计分析是通过图表或者数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随
4、机变量之间的关系进行估计和描述的方法。(2)用图描述数据在统计中,对数据的描述往往可通过把样本数据转化为对应的统计图,通过统计图直观地描述数据的分布。统计图的类型很多,这里仅介绍用直方图描述区间数据、用条形图和饼图描述名目数据、用散点图描述两变量的关系和用折线图描述时间序列数据等四种形式的统计图。 用直方图描述区间数据所谓区间数据,是指数据对象是实数的数据,如身高、体重、收入、距离和时间等。直方图是用于区间数据描述的最常用的图示法,又可以分为频数分布直方图和频率分布直方图两种。用直方图描述区间数据的目的主要有: 可以把握总体分布形状、分布的中心位置和总体分布的离散程度; 可以调查分布的中心和规
5、格中心位置的偏差程度,了解工程能力,调查不良品来源等,便于和规格或标准值进行比较。案例1 某车间加工装配一种金属制品,产品在装配线上的一道关键工序所需要的时间是该装配线工作效率的一个重要指标,为了了解具体情况,从中抽取了100个样品,其测量数据(单位:秒)见表3-1。试绘制频数分布直方图和频率分布直方图,并描述该直方图。表3-1 关键工序所需时间表51.756.954.553.953.753.953.153.154.553.950.651.955.353.553.153.152.953.354.355.757.952.154.953.354.553.353.155.155.555.956.95
6、5.154.353.953.955.354.354.755.753.756.754.953.753.556.755.753.154.955.553.556.754.753.553.554.556.152.754.354.953.155.355.353.752.554.354.753.153.955.352.356.155.353.153.355.153.153.353.755.552.753.754.554.553.554.153.353.153.953.752.954.554.953.153.354.552.753.353.554.153.3解 绘制频数分布和频率分布直方图一般分为以下四个步
7、骤。第一步 计算极差,即样本数据最大值与最小值的差在表3-1的数据中,最小值是50.6秒,最大值为57.9秒,极差为7.3秒,说明关键工序的装配时间变化范围是7.3秒。第二步 决定组距和组数把所有的数据分成若干组,每一组的两个端点之间的距离称为组距。根据问题的需要,各组的组距可以相同或不同。本问题中我们作等距分组,即令各组的组距相等。本问题从最小值开始每隔1.5秒作为一组,因为.所以将数据分成5组:,。即组数和组距分别为5和1.5。第三步 列频数分布和频率分布表对落在各小组内的数据进行统计,得到各小组内数据的频数和频率,如表3-2所示。表3-2 频数分布和频率分布表时间分组频数频率40.043
8、50.35400.40150.1560.06第四步 绘制频数分布直方图和频率分布直方图根据表3-2,画出频数分布直方图(如图3-1)和频率分布直方图(如图3-2)。 图3-1 频数分布直方图 图3-2 频率分布直方图基于下列特征来描述直方图的轮廓:对称性当我们由直方图的中心画一条垂直于横轴的直线,两边的形状和大小相同时,则其直方图被称为是对称的。如图3-3(1)所示。偏态一个偏态的直方图是指具有一延伸向右或向左的长尾。前者称为正偏态,后者称为负偏态。图3-3(2)为正偏态,图3-3(3)为负偏态 图3-3(1) 图3-3(2) 图3-3(3)众数组个数众数是指发生最多次数的观测值,而众数组则为
9、一具有最多观测值个数的小组。具有单一高峰者(众数组只有1个)称为单峰直方图。如图3-4(1)所示。钟形对称单峰直方图称为钟形。第3章的知识告诉我们,钟形直方图对应的数据一般服从正态分布,而正态分布是概率与统计中最重要的一种分布。如图3-4(2)所示。 图3-4(1) 图3-4(2)案例2 某电缆厂有两台生产设备(A、B),最近,经常有不符合规格值(135210g)的异常产品发生,现就A、B两台设备分别测量了50个产品,数据如表3-3所示。试分别画出它们的频数分布直方图并分析由直方图所得的结论。表3-3 两台设备生产的产品规格值A设备B设备1201791681651831561481651521
10、61168188184170172167150150136123169182177186150161162170139162179160185180163132119157157163187169194178176157158165164173173177167166179150166144157162176183163175161172170137169153167174172184188177155160152156154173171162167160151163158146165169176155170153142169148155解 分别就A、B两台设备绘制出它们的产品规格值频数分布直
11、方图,如图3-5所示。 图3-5(1) A设备 图3-5(2) B设备比较这两个直方图,不难得到以下信息:(1) A设备的产品规格值直方图的中心高于B设备的产品规格值直方图的中心;(2) 两个直方图都呈现稍微的负偏态。若产品规格值低于135g为不合格产品,则B设备产品异常的可能性更大;如果产品规格值越高,产品质量越好,则A设备的产品的质量会高于B设备。 用条形图和饼图描述名目数据对名目数据唯一被允许的计算是统计随机变量的每一个可能值出现的次数,进一步借助条形图或者饼图来描述统计结果。案例3 一所大学的学生就业指导中心对去年商学院的毕业生进行一项调查以了解其找到的工作的一般领域。就业的领域有会计
12、、财务、一般管理、销售和其他,资料被分别以数字1、2、3、4和5来表示,已整理好的数据如表3-4所示。试绘制相应的条形图和饼图以描述这一组名目数据。表3-4 学生就业领域统计表领域毕业生数毕业生比例会计7328.9%财务5220.6%一般管理3614.2%销售6425.3%其他2811.1%合计253100%解 条形图由绘制出代表每一个类别的长方形构成,长方形的高代表次数,底则为任意决定的。图3-6为表3-4对应的条形图。 图3-6 毕业生就业领域条形图 图3-7 毕业生就业领域饼图如果我们想强调相对次数而不要条形图,我们可以绘制饼图。一个饼图仅仅是一个被分割成若干切片的圆圈,每一块切片代表一
13、种类别的名目数据,它被绘制成能使得每块切片的面积等比例于该类别对应的百分比。例如,一个包含25%观测值的类别由包含360 o的25%的一块切片表示,其圆心角等于90o。图3-7为表3-4对应的饼图。 用散点图描述两变数的关系一种描述两个随机变量间关系的方法称为散点图。案例4 某大型牙膏制造企业为了更好地拓展产品市场,公司董事会要求销售部门根据市场调查,找出公司生产的牙膏销售量与广告投人之间的关系,从而预测出不同广告费用下的销售量。为此,销售部的研究人员收集了过去30个销售周期(每个销售周期为4周)公司生产的牙膏的销售量和投人的广告费用,见表3-5。试根据这些数据,用统计图的方法描述牙膏销售量与
14、广告投入之间的关系。表3-5牙膏销售量与广告费用数据销售周期广告费用(百万元)销售量(百万支)销售周期广告费用(百万元)销售量(百万支)销售周期广告费用(百万元)销售量(百万支)15.57.38116.57.89216.257.6526.758.51126.258.152267.2737.259.521379.1236.5845.57.5146.98.862478.5579.33156.88.9256.88.7566.58.28166.88.87266.89.2176.758.75177.19.26276.58.2785.257.871879286.757.6795.257.1196.88.7
15、5295.87.931068206.57.95306.89.26解 设纵坐标Y表示牙膏的销售量,横坐标X表示广告费用,绘制散点图如图3-8所示。图3-8 销售量相对于广告费用散点图散点图显示,一般而言,广告费用越高,其销售量也就越高,并且销售量可近似地看成随着广告费用的增加而成线性增加趋势。 用折线图描述时间序列数据时间序列数据常用折线图来描述,即以横轴为时间轴,纵轴为对应时间点随机变量的观测值,将统计数据用对应于平面内的点表示,相邻两点用一条线段连接,形成点划线。案例5 已知某商场19781998年的年销售额如表3-6所示,试绘制这些数据的折线图并描述其所包含的信息。表3-6 某商场1978
16、-1998销售额年份销售额(万元)年份销售额(万元)年份销售额(万元)19783219856419928419794119866919938619804819876719948719815319886919959219825119897619969519835819907319971011984571991791998107解 19781998年销售额对着年份的变化折线图如图3-10所示。图3-10 商场销售额时间序列图结合图3-9,不难发现,该商场的销售额保持基本一致的增长趋势,统计的前四年保持一个较快的增长速度,然后出现10年的小幅波动中增长,90年以后保持一个平稳的增长趋势。这可能跟公司
17、的发展与经营政策的改变有密切联系。(3)常用统计量定义5 统计量是统计理论中用来对数据进行分析、检验的变量。i) 中心趋势中心趋势又称为定位度量或者平均数,是一组数据典型的或者有代表意义的值。由于这些典型值趋向于落在根据数值大小排列的数据的中心,因此被称为中心趋势度量。可以定义中心趋势的统计量包括:算数平均数、几何平均数、中位数和众数等。算数平均数(简称为样本均值):设一个样本的观测值为,样本算数平均数记为,则有.其中,符号“”表示将记作的意思,读成“记作”。几何平均数:度量平均值的另一种方法,特别是在计算平均增长率、平均收益率时被经常使用。中位数:把所有观测值依序排列(递增或递减),位于最中
18、间的观测值就是中位数。当观测值个数为偶数时,则中位数是位于中间的两个观测值的平均数。众数:样本观测值中发生次数最多的观测值。使用众数作为中心趋势统计量,会有两个问题:第一,在一个小样本内,它可能不是一个很好的观测值;第二,它可能不唯一。ii)离散趋势除了知道中心趋势外,对数据进行统计描述还需要知道数据围绕中心点是如何分散的,称之为离散趋势。常用的统计量有:极差、样本方差、样本标准差和方差系数等。极差:样本最大观测值和最小观测值之间的差。样本方差:一个样本的观测值为,样本算数平均数记为,样本方差记为,则有.需要注意的是,样本方差的计算公式中,是使用偏差平方和除以,而不是除以,这是因为我们在用样本
19、估计总体时,除以所建立起的统计量是对总体方差更好的估计。样本标准差:样本方差的算术平方根,即。样本方差在比较两组或者更多组数据的离散程度时,是一个很好的统计量。通常,样本方差越大,代表数据本身的离散程度越大。而样本标准差则可以帮助我们了解数据大致集中在哪个区域。方差系数:样本观测值的标准差除以样本均值的结果,即.案例6 表3-7给出了东风汽车和上海机场两种股票在12个交易日的价格,试比较两种股票价格在这12个交易日内的活跃程度。表3-7 两只股票12个交易日的价格表日期东风汽车上海机场日期东风汽车上海机场200503103.1716.06200503182.9716.52200503113.1
20、616.55200503212.9416.65200503143.1017.27200503222.7117.17200503153.1016.82200503232.7416.90200503163.0916.60200503242.7616.86200503173.0216.65200503252.7516.79解 分别计算两组样本均值,样本标准差和方差系数,得东风汽车:均值为2.96,标准差为0.176,方差系数为0.059;上海机场:均值为16.74,标准差为0.316,方差系数为0.019。如果从标准差来看,上海机场的股票活跃程度要大于东风汽车,但从方差系数来看,上海机场的方差系数仅
21、为0.019,远小于东风汽车的0.059。两者存在矛盾是因为上海机场的股价要高于东风汽车,因此含有量纲的标准差就会偏高,而采用方差系数考虑了股价的均值,因此能更好地反映股价的活跃程度,因此可以从方差系数做出判断,东风汽车股价的活跃度高于上海机场。iii) 分布形状随机变量的分布形状主要包括偏度和峰度。偏度:反映以平均值为中心的分布的不对称程度的量,其计算公式为.其中,为样本均值,为样本标准差,为样本容量。若sk0,则分布具有正偏态,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长;而sk接近0则可认为分布是对称的。如图
22、3-11所示。图3-11 三种偏态示意图如果偏度表示的是数据分布的对称程度,则峰度用来表述分布的尖锐度或者平坦度,用与正态分布的比较值来度量。峰度:反映与正态分布相比某一分布的尖锐度或平坦度,其计算公式为.其中,为样本均值,为样本标准差,为样本容量。若bk 0,则表示峰度比正态分布陡峭;若bk =0,则表示峰度跟正态分布相同。如图3-12所示。图3-11 三种峰度示意图案例7 表3-8给出某股票在18个交易日的价格,试求该股票价格的偏度和峰度。表3-8 某股票18个交易日的价格表日期价格日期价格日期价格200503106.4200503186.29200503285.97200503116.3
23、8200503216.16200503295.93200503146.44200503226.12200503305.94200503156.36200503236.08200503315.54200503166.24200503245.99200504015.36200503176.35200503255.93200504045.4解 数据的偏度和峰度的计算公式较为复杂,我们可以借助EXCEL辅助计算。其中,偏度的EXCEL指令是“=SKEW(数据对象)”,峰度的EXCEL指令是“= KURT (数据对象)”。借助EXCEL求解,可得该股票价格的偏度,峰度为。说明股票价格成负偏态;峰度值接近于0,其陡峭程度与正态分布接近。事实上,由于上述统计量的应用十分广泛,EXCEL在分析工具中专门编写了“描述统计”指令来实现快速和智能化的计算,其调用步骤为:单击【数据】中的【数据分析】命令,在弹出的数据分析对话框中,选中【描述统计】。注意:如果在【数据】中没有见到【数据分析】选项,则要依次通过【文件】【选项】【加载项】【转到】,在出现的【加载宏】对话框中选定【分析工具库】。课后小记