1、1管理统计学2授课教师n杨宝臣 博士n天津大学管理学院教授、博士生导师n技术经济研究所所长n美国密西根大学富布莱特高级研究学者n新加坡南洋理工大学、德国康斯坦茨大学 博士后n电话:nEmail:3第一章 统计概述4第二章统计数据整理与显示18第一节 数据的计量与类型 第二节 统计数据的来源第三节 定性数据的整理与显示第四节 数值型数据的整理与显示第三章 数据分布特征的测度83第一节 集中趋势的测度 第二节 离散程度的测度第三节 偏态与峰度的测度第四章 概率与概率分布153第一节 概率基础第二节 随机变量及其分布第五章 抽样与参数估计273第一节 抽样与抽样分布 第二节 参数估计基本方法第三节
2、总体均值和总体比例的区间估计第六章 假设检验340第一节 假设检验的一般问题 第二节 一个正态总体的参数检验第三节 统计过程控制第七章 相关与回归分析412第一节 变量间的相关关系 第二节 一元线性回归第三节 多元线性回归目录4什么是统计?n1.统计工作n收集数据的活动n2.统计数据对现象计量的结果 n3.统计学n分析数据的方法与技术5什么是统计学?n1.数据搜集:例如,调查与试验n2.数据整理:例如,分组 n3.数据展示:例如,图和表n4.数据分析:例如,回归分析6Statistics的定义(不列颠百科全书)nStatistics:the science of collecting,anal
3、yzing,presenting,and interpreting data.nCopyright 1994-2000 Encyclopaedia Britannica,Inc.(不列颠百科全书)7统计数据的内在规律(一些例子)n正常条件下新生婴儿的性别比为107:100n投掷一枚均匀的硬币,出现正面和反面的频率各为1/2;投掷一枚骰子出现16点的频率各为1/6n农作物的产量与施肥量之间存在相关关系8统计学的分科n统计学的分科统计学的分科9统计方法统计方法统计方法描述统计描述统计推断统计推断统计参数估计参数估计假设检验假设检验10描述统计描述统计n内容内容n搜集数据n整理数据n展示数据n 目的
4、目的n描述数据特征n找出数据的基本规律11推断统计推断统计n内容内容参数估计假设检验n目的目的对总体特征作出推断12描述统计与推断统计的关系反映客观反映客观现象的数现象的数据据总体内在的总体内在的数量规律性数量规律性推断统计推断统计(利用样本信息和概率(利用样本信息和概率论对总体的数量特征进论对总体的数量特征进行估计和检验等)行估计和检验等)概率论概率论(包括分布理论、大数定律(包括分布理论、大数定律和中心极限定理等)和中心极限定理等)描述统计描述统计(统计数据的搜集、整(统计数据的搜集、整理、显示和分析等)理、显示和分析等)统计学探索现象数量规律性的过程统计学探索现象数量规律性的过程13理论
5、统计与应用统计n理论统计理论统计研究统计学的一般理论研究统计方法的数学原理n应用统计应用统计研究统计学在各领域的具体应用14参数估计参数估计假设检验假设检验方差分析方差分析回归分析回归分析时间序列分析时间序列分析推推断断性性统统计计学学15统计学的应用领域16统计学中的几个主要术语1.总体总体(Population)所关心的所有元素的集合所关心的所有元素的集合2.样本样本(Sample)总体的一部分总体的一部分3.参数参数(Parameter)总体的数字特征总体的数字特征4.统计量统计量(Statistic)样本的概括性测度值样本的概括性测度值17几种常用的统计软件(Software)典型的统
6、计软件nSPSS nSASnMINITABnSTATISTICAnExcel18第二章 统计数据整理与显示第一节 数据的计量与类型 第二节 统计数据的来源第三节 定性数据的整理与显示第四节 数值型数据的整理与显示19定义:统计数据统计数据(Statistical data)是指可用以推导出某项结论的一些事实或数字。它有三个基本的构成要素:元素、变量、观测值 20基基本本构构成成要要素素元素元素(ElementElement)变量(变量(VariableVariable)观测(观测(ObservationObservation)关于元素的一关于元素的一种属性或特征种属性或特征研究对象由各研究对象
7、由各元素组成元素组成数据中关于某数据中关于某一元素所有各一元素所有各变量的信息变量的信息 统计数据21变量(变量(Variable)定量变量(定量变量(Quantitative variable)结果可用数字表示结果可用数字表示定性变量(定性变量(Qualitative Variable)结果不可用数字表示结果不可用数字表示统计数据22姓名性别年龄身高(m)体重(kg)民族公司服务年限受教育年限甲男331.8565汉318乙女251.6555回216丙男261.7260满115丁女351.6053回416戊男321.8368汉219表表1-1 1-1 员工个人数据表员工个人数据表统计数据23数
8、据的计量尺度24四种计量尺度数据的计量尺度25定类尺度n计量层次最低n对事物进行平行的分类n各类别可以指定数字代码表示n使用时必须符合类别穷尽和互斥的要求n数据表现为“类别”n具有=或的数学特性n比如:性别分男女26定序尺度n对事物分类的同时给出各类别的顺序n比定类尺度精确n未测量出类别之间的准确差值n数据表现为“类别”,但有序n具有或的数学特性n比如:成绩为优良中差27定距尺度1.对事物的准确测度2.比定序尺度精确3.数据表现为“数值”4.没有绝对零点5.具有+或-的数学特性例如:张三的张三的SAT成绩为成绩为1205,而李四的,而李四的SAT成绩为成绩为1090。所以张三的成绩比李四高。所
9、以张三的成绩比李四高115个点个点28定比尺度1.对事物的准确测度2.与定距尺度处于同一层次3.数据表现为“数值”4.有绝对零点5.具有 或 的数学特性例如:M的在大学期间修满了36个学分,而K在大学期间修满了72个学分。所以K所修的学分是M的2倍。29四种计量尺度的比较四种计量尺度的比较定类尺度 定序尺度 定距尺度 定比尺度 分类(,)排序()间距(+,-)比值(,)计量尺度计量尺度数学特性数学特性“”30数据类型和分析方法31数据类型与统计方法n数据类型与统计方法定类数据定类数据定序数据定序数据定性数据定性数据非参数方法非参数方法32F.W.TaylorF.W.Taylor的科学管理的科学
10、管理理论中的工作定额原理,理论中的工作定额原理,用实验式的方法获得工用实验式的方法获得工人合理的日工作量数据。人合理的日工作量数据。气象数据收集,商气象数据收集,商品价格的变化对商品价格的变化对商品需求量的影响。品需求量的影响。统统计计资资料料的的收收集集间接引用间接引用直接收集直接收集实验式收集实验式收集 统计数据统计数据非实验式收非实验式收集集 统计数据统计数据第二节 统计数据的收集33一.定类数据的整理与显示二.定序数据的整理与显示34定类数据的整理与显示(基本问题)n要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的n对定类数据和定序数据主要是做分类整理n对定距
11、数据和定比数据则主要是做分组整理n适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据35定类数据的整理(基本过程)36定类数据的整理(可计算的指标)1.频 数:落在各类别中的数据个数2.比 例:某一类别数据占全部数据的比值3.百分比:将对比的基数作为100而计算的比值4.比 率:不同类别数值的比值37定类数据整理频数分布表(实例)表3-1 某城市居民关注广告类型的频数分布 广告类型人数(人)比例频率(%)商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告112519161020.5600.2550.0450.0800.0
12、500.01056.025.54.58.05.01.0合计200110038定类数据的图示条形图(条形图的制作)n条形图是用宽度相同的条形的高度或长短来表示数据变动的图形n条形图有单式、复式等形式n在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率n绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图39定类数据的图示条形图人数(人)人数(人)5191610211204080120 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告广广告告类类型型 图图3-1 3-1 某城市居民关注不同类型广告的人数分布某城市居民关注不同类型广告的人数分布40定类
13、数据的图示圆形图(圆形图的制作)n也称饼图,是用圆形及园内扇形的面积来表示数值大小的图形n主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用n在绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形面积表示,这些扇形的中心角度,是按各部分百分比占3600的相应比例确定的n例如,关注服务广告的人数占总人数的百分比为2 5.5%,那 么 其 扇 形 的 中 心 角 度 就 应 为360025.5%91.80,其余类推41定类数据的图示圆形图 其他广告1.0%房地产广告8.0%商品广告56.0%金融广告4.5%服务广告25.5%招生招聘广告5.8%图图3-2 3-2 某城市居民关注不
14、同类型广告的人数构成某城市居民关注不同类型广告的人数构成42定序数据的整理(可计算的指标)1.累计频数:将各类别的频数逐级累加2.累计频率:将各类别的频率(百分比)逐级累加43定序数据频数分布表(实例)表3-2 甲城市家庭对住房状况评价的频数分布回答类别甲城市户数(户)百分比(%)向上累积 向下累积 户数(户)百分比(%)户数(户)百分比(%)非常不满意 不满意 一般 满意 非常满意24108934530836311510241322252703008.044.075.090.0100.03002761687530100.092562510合计300100.044定序数据频数分布表(实例)表3
15、-3 乙城市家庭对住房状况评价的频数分布回答类别乙城市户数(户)百分比(%)向上累积 向下累积 户数(户)百分比(%)户数(户)百分比(%)非常不满意 不满意 一般 满意 非常满意21997864387.033.026.021.312.7211201982623007.040.066.087.3100.030027918010238100.093.060.034.012.7合计300100.045定序数据的图示累计频数分布图243001322252700100200300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(a)向下累积向下累积27616830300750100200
16、300400 非常不满意 不满意 一般 满意 非常满意累积户数(户)(b)向上累积向上累积46定类数据的图示环形图(环形图的制作)n环形图中间有一个“空洞”,总体中的每一部分数据用环中的一段表示n环形图与圆形图类似,但又有区别n圆形图只能显示一个总体各部分所占的比例n环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环n环形图可用于进行比较研究 n环形图可用于展示定类和定序的数据47品质数据的图示环形图8%36%31%15%7%33%26%21%13%10%非常不满意 不满意 一般 满意 非常满意 图图3-4 3-4 甲乙两城市家庭对住房状况的评价甲乙两城市家庭对住房状况的评价
17、48一.数据的分组二.定量数据的图示三.频数分布的类型49频数分布表的编制确确定定组组数数确确定定组组距距计计算算频频数数编编制制表表格格50频数分布表的编制(实例)117 122 124 129 139 107 117 130 122 125108 131 125 117 122 133 126 122 118 108110 118 123 126 133 134 127 123 118 112112 134 127 123 119 113 120 123 127 135137 114 120 128 124 115 139 128 124 12151分组方法分组方法等距分组等距分组异距分组
18、异距分组单变量值分组单变量值分组组距分组组距分组52单变量值分组(要点)1.将一个变量值作为一组2.适合于离散变量3.适合于变量值较少的情况53单变量值分组表(实例)表3-4 某车间50名工人日加工零件数分组表零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数(人)10710811011211311411511711812121113311912012112212312412512612712144322312812913013113313413513713921112211254组距分组(要点)n将变量值的一个区间作为一组n适合于连续变量n适合于变量值较多的情况n必须遵循“不重不漏
19、”的原则n可采用等距分组,也可采用不等距分组55组距分组(步骤)n确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按 Sturges 提出的经验公式来确定组数K确定各组的组距:组距确定各组的组距:组距(Class Width)(Class Width)是一个组的上是一个组的上限与下限之差,可根据全部数据的最大值和最小值限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即及所分的组数来确定,即 组距组距(最大值最大值 -最小值)最小值)组数组数 根据分组整理成频数分布表根据分组整理成频数分布表 lg()1lg(2)nK 56组距分组(几个概念)1.下
20、限:一个组的最小值2.上 限:一个组的最大值3.组 距:上限与下限之差4.组中值:下限与上限之间的中点值57等距分组表(上下组限重叠)表3-5 某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105110110115115120120125125130130135135140358141064610162820128合计5010058等距分组表(上下组限间断)表3-6 某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)105109110114115119120124125129130134135139358141064610162820128合计5010059
21、等距分组表(使用开口组)表3-7 某车间50名工人日加工零件数分组表按零件数分组频数(人)频率(%)110以下110114115119120124125129130134135以上358141064610162820128合计5010060组距分组与不等距分组(在表现频数分布上的差异)n等距分组n各组频数的分布不受组距大小的影响n可直接根据绝对频数来观察频数分布的特征和规律n不等距分组n各组频数的分布受组距大小不同的影响n各组绝对频数的多少不能反映频数分布的实际状况n需要用频数密度(频数密度频数/组距)反映频数分布的实际状况61定量数据的图示定量数据的图示62分组数据直方图(直方图的制作)n用
22、矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布n在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图(Histogram)n直方图下的总面积等于163分组数据直方图(直方图的绘制)日加工零件数日加工零件数(个个)64分组数据直方图(直方图与条形图的区别)n条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的n直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义n直方图的各矩形通常是连续排列,条形图则是分开排列65分组数据折线图(折线
23、图的制作)n折线图也称频数多边形图(Frequency polygon)n是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉n折线图的两个终点要与横轴相交,具体的做法是n第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴n折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的66折线图下的面积与直方图的面积相等!分组数据折线图(折线图的绘制)67未分组数据箱线图(箱线图的制作)n用于显示未分组的原始数据或分组数据的分布n箱线图由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成n其
24、绘制方法是:n首先找出一组数据的5个特征值,即最大值最大值、最最小值小值、中位数中位数Me 和两个四分位数四分位数(下四分位数QL和上四分位数QU)n连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接 68未分组数据单批数据箱线图(箱线图的构成)中位数4681012QUQLX最大值X最小值图图3-9 简单箱线图简单箱线图69未分组数据单批数据箱线图(实例)70未分组数据多批数据箱线图(实例)【例例2.4】从某大学经济管理专业二年级学生中随机抽取11人,对8门主要课程的考试成绩进行调查,所得结果如表3-8。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征表3-8 11名学生各
25、科的考试成绩数据课程名称学生编号1234567891011英语经济数学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础7665937468705585909581877573917897517685709268817174886984657395707866907378847093637980608781678691837776907082838292848170697278757891886694808571867468796281815578707568717771未分组数据多批数据箱线图Min-Max25%-75%Median value455565758595105英语经济数
26、学西方经济学市场营销学财务管理基础会计学统计学计算机应用基础72Min-Max25%-75%Median value455565758595105学生1学生2学生3学生4学生5学生6学生7学生8学生9学生10学生11未分组数据箱线图73时间序列数据线图(线图的制作)绘制线图时应注意以下几点n时间一般绘在横轴,指标数据绘在纵轴n图形的长宽比例要适当,其长宽比例大致为10:71.一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断74时间序列数据线图(实例)表3-11 19911998年城乡居民家庭人均收入年份城镇居民农村居民1991199
27、21993199419951996199719981700.62026.62577.43496.24283.04838.95160.35425.1708.6 784.0 921.61221.01577.71926.12091.12162.075时间序列数据020004000600019911992199319941995199619971998城镇居民农村居民收收入入(元)(元)图图3-14 3-14 城乡居民家庭人均收入城乡居民家庭人均收入76n雷达图(Radar Chart)是显示多个变量的常用图示方法n在显示或对比各变量的数值总和时十分有用n假定各变量的取值具有相同的正负号,总的绝对值与
28、图形所围成的区域成正比n可用于研究多个样本之间的相似程度多变量数据雷达图(要点)77 设有n组样本S1,S2,Sn,每个样本测得P个变量X1,X2,Xp,要绘制这P个变量的雷达图,其具体做法是多变量数据雷达图(雷达图的制作)n 先做一个圆,然后将圆先做一个圆,然后将圆P等分,得到等分,得到P个点,令个点,令这这P个点分别对应个点分别对应P个变量,在将这个变量,在将这P个点与圆心个点与圆心连线,得到连线,得到P个幅射状的半径,这个幅射状的半径,这P个半径分别作个半径分别作为为P个变量的坐标轴,每个变量值的大小由半径个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示上的点到圆心的距离表示
29、n 再将同一样本的值在再将同一样本的值在P个坐标上的点连线。这样个坐标上的点连线。这样,n个样本形成的个样本形成的n个多边形就是一个雷达图个多边形就是一个雷达图78多变量数据雷达图(实例)【例例2.6】1997年我国城乡居民家庭平均每人各项生活消费支出数据如表3-12。试绘制雷达图。表3-12 1997年城乡居民家庭平均每人生活消费支出项 目城镇居民农村居民 食品 衣着 家庭设备用品及服务 医疗保健 交通通讯 娱乐教育文化服务 居住 杂项商品与服务1942.59520.91316.89179.68232.90448.38358.64185.65 890.28 109.41 85.41 62.4
30、5 53.92 148.18 233.23 34.27合 计4185.641617.15790500100015002000 食品食品 衣着衣着 家庭设备用家庭设备用 品及服务品及服务 医疗保健医疗保健 交通通讯交通通讯 娱乐教育娱乐教育 文化服务文化服务 居住居住 杂项商品杂项商品 与服务与服务城镇居民农村居民 图图3-15 1997年城镇居民家庭消费支出年城镇居民家庭消费支出 (元)(元)多变量数据雷达图(由 Excel 绘制的雷达图)80多变量数据雷达图(实例)表3-13 不同样本点的化验指标指标1指标2指标3指标4指标5上游中游下游4.520.342.175.01.46.8483 36
31、208196 4111214 63581多变量数据雷达图0.11101001000指标指标1指标指标2指标指标3指标指标4指标指标5上游中游下游图图3-16 河流污染指标雷达图河流污染指标雷达图 82数据类型及图示(小结)数据类型与显示数据类型与显示数值型数据数值型数据品质数据品质数据分组数据分组数据总计表总计表茎茎叶叶图图条条形形图图圆圆形形图图环环形形图图直直方方图图箱箱线线图图折折线线图图原始数据原始数据时序数据时序数据线线图图雷雷达达图图多元数据多元数据83第三章 数据分布特征的测度第一节 集中趋势的测度 第二节 离散程度的测度第三节 偏态与峰度的测度84数据分布的特征85数据分布的特
32、征和测度86第一节第一节 集中趋势的测度集中趋势的测度一.众数二.中位数和分位数三.均值四.众数、中位数和均值的比较87数据特征分布的和测度88集中趋势(Central tendency)一组数据向其中心值靠拢的倾向和程度一组数据向其中心值靠拢的倾向和程度测度集中趋势就是寻找数据一般水平的代表值或中心值测度集中趋势就是寻找数据一般水平的代表值或中心值不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值低层次数据的集中趋势测度值适用于高层次的测量数据,低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次反过来,高层次数据的集中趋
33、势测度值并不适用于低层次的测量数据的测量数据选用哪一个测度值来反映数据的集中趋势,要根据所掌握选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定的数据的类型来确定89众数n集中趋势的测度值之一n一组数据中出现次数最多的变量值n不受极端值的影响n可能没有众数或有几个众数n主要用于定类数据,也可用于定序数据和数值型数据90众数(众数的不唯一性)n无众数原始数据:10 5 9 12 6 891定类数据的众数(算例)表3-1 某城市居民关注广告类型的频数分布 广告类型人数(人)比例频率(%)商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告112519161020.56
34、00.2550.0450.0800.0500.01056.025.54.58.05.01.0合计200110092定序数据的众数(算例)表3-2 甲城市家庭对住房状况评价的频数分布回答类别甲城市户数 (户)百分比 (%)非常不满意 不满意 一般 满意 非常满意24108934530836311510合计300100.0定量分组数据的众数(要点及计算公式)n1.众数的值与相邻两组频数的分布有关4.该公式假定众数组的频数在众数组内均匀分布该公式假定众数组的频数在众数组内均匀分布2.相邻两组的频数相等时,众数组的组中值相邻两组的频数相等时,众数组的组中值即为众数即为众数3.相邻两组的频数不相等时,众
35、数采用下列近似公式计算iffffffLM)()(1110L为众数的下限值为众数的下限值,i 为组距为组距定量分组数据的众数(算例)表3-5 某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105110110115115120120125125130130135135140358141064381630404650合计50)(1235)1014()814(8141200个 M95中位数和分位数96中位数n集中趋势的测度值之一n排序后处于中间位置上的值min1nieiMX97中位数(位置的确定)21N中位数位置2N中位数位置未分组数据的中位数(计算公式)为偶数时当为奇数时当NXXN
36、XMNNNe122212199定序数据的中位数(算例)【例例3.2】根据第三章表3-2中的数据,计算甲城市家庭对住房满意状况评价的中位数表3-2 甲城市家庭对住房状况评价的频数分布回答类别甲城市户数 (户)累计频数 非常不满意 不满意 一般 满意 非常满意2410893453024132225270300合计300100定量数据的中位数(5个数据的算例)n原始数据:24 22 21 26 20n排 序:20 21 22 24 26n位 置:1 2 4 5321521N位置101定量组数据的中位数(6个数据的算例)n原始数据:10 5 9 12 6 8n排 序:5 6 8 9 10 12n位 置
37、:1 5 6n根据位置公式确定中位数所在的组n采用下列近似公式计算:4.该公式假定中位数组的频数在该组内均匀分布定量分组数据的中位数(要点及计算公式)ifSNLMmme12L为中位数所在组的下限值为中位数所在组的下限值,S为上一组累积频数为上一组累积频数,f 为为 所在组的频数所在组的频数,i 为组距为组距定量分组数据的中位数(算例)表3-5 某车间50名工人日加工零件数分组表按零件数分组频数(人)累积频数105110110115115120120125125130130135135140358141064381630404650合计50)(21.12351416250120个 eM104四分
38、位数n1.集中趋势的测度值之一n2.排序后处于25%和75%位置上的值105四分位数(位置的确定)106定序数据的四分位数(算例)表3-2 甲城市家庭对住房状况评价的频数分布回答类别甲城市户数 (户)累计频数 非常不满意 不满意 一般 满意 非常满意2410893453024132225270300合计300107定量数据的四分位数(7个数据的算例)n原始数据:23 21 30 32 28 25 26n排 序:21 23 25 26 28 30 32n位 置:1 2 3 4 5 6 7 108定量数据的四分位数(6个数据的算例)n原始数据:23 21 30 28 25 26n排 序:21 23
39、 25 26 28 30n位 置:1 2 34 5 6109均值n1.集中趋势的测度值之一n2.最常用的测度值n3.一组数据的均衡点所在n4.易受极端值的影响n5.用于数值型数据,不能用于定类数据和定序数据均值(计算公式)设一组数据为:设一组数据为:X1,X2,XN 简单均值的计算公式为简单均值的计算公式为设分组后的数据为:设分组后的数据为:X1,X2,XK 相应的频数为:相应的频数为:F1,F2,FK加权均值的计算公式为加权均值的计算公式为NXNXXXXNiiN121KiiKiiiNNNFFXFFFFXFXFXX11212211111简单均值(算例)n原始数据:105913685.86861
40、3951066543211XXXXXXNXXNii112加权均值(算例)表3-1 某车间50名工人日加工零件均值计算表按零件数分组组中值(Xi)频数(Fi)XiFi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计506160.0【例例3.7】根据第三章表根据第三章表3-5中的数据,计算中的数据,计算50 名工人日加工零件数的均值名工人日加工零件数的均值(个)2.12350616011KiiKii
41、iFFXX113加权均值(权数对均值的影响)n 甲乙两组各有10名学生,他们的考试成绩及其分布数据如下n 甲组:考试成绩(X):0 20 100n 人数分布(F):1 1 8n 乙组:考试成绩(X):0 20 100n 人数分布(F):8 1 1114均值(数学性质)n1.各变量值与均值的离差之和等于零 2.2.各变量值与均值的离差平方和最小各变量值与均值的离差平方和最小niiXX12min)(niiXX10)(115几何平均数n1.集中趋势的测度值之一n2.N 个变量值乘积的 N 次方根n3.适用于特殊的数据n4.主要用于计算平均发展速度n5.计算公式为6.6.可看作是均值的一种变可看作是均
42、值的一种变形形NNiiNNMXXXXG121NXXXXNGNiiNM121log)loglog(log1log116几何平均数(算例)%84.103%4.105%5.103%0.102%5.104421NNMXXXG平均收益率平均收益率103.84%-1=3.84%103.84%-1=3.84%117众数、中位数和均值的比较众数、中位数和均值的关系119数据类型与集中趋势测度值表3-4 数据类型和所适用的集中趋势测度值数据类型定类数据 定序数据定距数据定比数据适用的测度值众数中位数均值均值四分位数众数调和平均数众数中位数几何平均数四分位数 中位数四分位数众数120第二节第二节 离散程度的测度离
43、散程度的测度一.四分位差二.方差及标准差三.相对离散程度:离散系数121离中趋势数据分布的另一个重要特征数据分布的另一个重要特征离中趋势的各测度值是对数据离散程度所作的描述离中趋势的各测度值是对数据离散程度所作的描述反映各变量值远离其中心值的程度,因此也称为离中趋势反映各变量值远离其中心值的程度,因此也称为离中趋势从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值122数据的特征和测度数据的特征和测度数据的特征和测度分布的形状分布的形状离散程度离散程度集中趋势集中趋势123四分位差124四
44、分位差n1.离散程度的测度值之一n2.也称为内距或四分间距n3.上四分位数与下四分位数之差n QD=QU-QLn4.反映了中间50%数据的离散程度n不受极端值的影响5.用于衡量中位数的代表性125四分位差(定序数据的算例)表3-2 甲城市家庭对住房状况评价的频数分布回答类别甲城市户数 (户)累计频数 非常不满意 不满意 一般 满意 非常满意2410893453024132225270300合计300126方差和标准差127极差n1.一组数据的最大值与最小值之差n2.离散程度的最简单测度值n3.易受极端值影响n4.未考虑数据的分布R=max(Xi)-min(Xi).=组距分组数据组距分组数据 R
45、 R 最高组上限最高组上限 -最低组下限最低组下限128方差和标准差n1.离散程度的测度值之一n2.最常用的测度值n3.反映了数据的分布n反映了各变量值与均值的平均差异4.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差总体方差和标准差(计算公式)NXXNii122)(KiiKiiiFFXX1122)(NXXNii12)(KiiKiiiFFXX112)(130总体标准差(计算过程及结果)表3-6 某车间50名工人日加工零件标准差计算表按零件数分组组中值(Xi)频数(Fi)(Xi-X)2(Xi-X)2Fi10511011011511512012012512513
46、0130135135140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计503100.5(个)87.7505.3100)(112KiiKiiiFFXX样本方差和标准差(计算公式)未分组数据:组距分组数据:组距分组数据:未分组数据未分组数据:组距分组数据组距分组数据注意:样本方差用自由度n-1去除!1)(1221nxxSniinkiikiiinffxxS112211)(1)(121nxxSniink
47、iikiiinffxxS11211)(132样本方差自由度(degree of freedom)n一组数据中可以自由取值的数据的个数n当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值n例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值n样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量133样本方差(算
48、例)n原始数据:10 5 9 13 6 83.816)5.88()5.85()5.810(1)(2221221nxxSniin134样本标准差(算例)88.23.81)(121nxxSniin方差(简化计算公式)1(11)(21121221nnxnxnxxSniiniiniin 212122)(XNXNXXNiiNii136标准化值(概念要点和计算公式)n1.也称标准分数n2.给出某一个值在一组数据中的相对位置n3.可用于判断一组数据是否有离群点n4.用于对变量的标准化处理n5.计算公式为1niiiiSxxZXXZ或137相对离散程度:变异系数138变异系数(概念要点和计算公式)n1.标准差与
49、其相应的均值之比n2.消除了数据水平高低和计量单位的影响n3.测度了数据的相对离散程度n4.用于对不同组别数据离散程度的比较n5.计算公式为xSVXVs或139变异系数(实例和计算过程)表3-7 某管理局所属8家企业的产品销售数据企业编号产品销售额(万元)X1销售利润(万元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.0某管理局抽查了所属的某管理局抽查了所属的8家企业,其产品销售数据家企业,其产品销售数据如表如表3.7。试比较产品销售额与销售利润的离散程度。试比较产品销售额与销售利润的离散程度140变异系数(
50、计算结果)V1536.25309.19141数据类型与离散程度测度值表3-8 数据类型和所适用的离散程度测度值数据类型定类数据 定序数据定距数据或定比数据适用的测度值异众比率四分位差 方差或标准差 异众比率 离散系数(比较时用)平均差 极差 四分位差 异众比率142第三节第三节 偏态与峰度的测度偏态与峰度的测度一.偏态及其测度二.峰度及其测度143数据的特征和测度数据的特征和测度数据的特征和测度分布的形状分布的形状离散程度离散程度集中趋势集中趋势144偏态与峰度分布的形状145偏态(概念要点)n1.数据分布偏斜程度的测度n2.偏态系数=0为对称分布n3.偏态系数 0为右偏分布n4.偏态系数 0
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。