1、统计学预习课件完整教学课件 统 计 学 参考书 1.统计学原理 专著 上册,描述性统计学与概率(美)S.伯恩 斯坦,(美)R.伯恩斯坦著;史道济译, 2002.1,C8/0201T/:1 2.统计学原理 专著 下册,推断性统计学(美)S.伯恩斯 坦,(美)R.伯恩斯坦著;史道济译, 2002.1,C8/0201T/:2 3.初等统计学(美)旺纳科特(Wonnacott,Ronald J.),(美)旺纳科特 (Wonnacott,Thomas H.)原著;方世荣译著,C8/9210CH 4.商务与经济统计学精要/(美)安得森等著;陆成来等译,东 北财经大学出版社,2000.6 5.商务与经济统计
2、 专著(美)戴维 R 安德森(David R. Anderson)等著;张建华等译, 2000.4,F222-43/0004SH 6.Statistics for business and economics /David R. Anderson, Dennis J. Sweeney, Thomas A. Williams., 1998., F712.3/A546/E6 7.统计学应用指南美特纽尔(Tanur,Judith M.)等主编;陈湛 匀译, 1990.2,C8-43/9002T 8.统计学/贾俊平,何晓群等编著,2000.9,中国人民大学出版社 参考书 1.统计学导论/詹世煌,方世荣
3、编著,1995.5,世界图 书出版社 2.统计学/钱伯海,黄良文主编,1992,四川人民出版社 3.基本统计方法教程傅权,胡蓓华编著, 1989.1, O212.1/8901J 4.概率统计题解耿素云,张立昂编著, 1999.5,O211- 44/9905G 5.当代市场调研 专著(美)小卡尔 迈克丹尼尔(Carl McDaniel,Jr.),(美)罗杰 盖兹(Roger Gates)著;范秀 成等译, 2000.6,F713.52/0006D 6.成功的市场调研 专著:市场调研领域成功实践者 与资深教授的真知与经验张梦霞,郭抒编著, 2000.11,F713.52/ 统计学的课程结构 描述统
4、计学 表格和图形方法 数量方法 统计推断 概率论初步 离散型概率分布 连续型随机变量 抽样和抽样分布 区间估计 假设检验 均值的比较 比例的比较 回归分析 数据与统计学 统计方法在质量控制中的应用 市场调研专题 第一章 数据与统计学 商业周刊商业周刊 纽约州,纽约市纽约州,纽约市(New York, New York) 麦格劳麦格劳希尔公司每周出版的希尔公司每周出版的商业周刊商业周刊是一份是一份 很著名的杂志,它提供一系列商务和经济团体感兴趣的文很著名的杂志,它提供一系列商务和经济团体感兴趣的文 章。除了刊登有关当前热门话题的特写文章以外,该杂志章。除了刊登有关当前热门话题的特写文章以外,该杂
5、志 还包括一些有关国际商务、经济分析、信息处理和科学与还包括一些有关国际商务、经济分析、信息处理和科学与 技术等方面的固定栏目。特写文章和固定栏目有助于读者技术等方面的固定栏目。特写文章和固定栏目有助于读者 紧跟形势,评价当前形势对于未来商务和经济的影响紧跟形势,评价当前形势对于未来商务和经济的影响 。 商业周刊商业周刊对当前的热门话题会作比较全面的报对当前的热门话题会作比较全面的报 道。例如,道。例如,19941994年年9 9月月5 5日它刊登了一篇关于数据库销日它刊登了一篇关于数据库销 售的特别报道,售的特别报道,19941994年年1010月月2424日刊登了一篇最好的商日刊登了一篇最
6、好的商 案 例 业类院校方面的研究文章,业类院校方面的研究文章,1995年年3月月27日刊登了有关美日刊登了有关美 国最有价值公司以及这些公司根据市场价值排名等方面的国最有价值公司以及这些公司根据市场价值排名等方面的 数据。其他一些能够吸引读者兴趣的特写文章是关于每年数据。其他一些能够吸引读者兴趣的特写文章是关于每年 董事红利调查和每周董事红利调查和每周商业周刊商业周刊指数,包括经济状况的指数,包括经济状况的 统计指数,如生产指数、股价指数、不动产放款价值和利统计指数,如生产指数、股价指数、不动产放款价值和利 率等。率等。 商业周刊商业周刊除了在文章中运用统计资料和统计信息除了在文章中运用统计
7、资料和统计信息 外,还收集和利用统计信息帮助管理自己的业务。例如,外,还收集和利用统计信息帮助管理自己的业务。例如, 商业周刊商业周刊对它的订户进行了一项调查以便了解订户个对它的订户进行了一项调查以便了解订户个 人形象、读书习惯、购物习惯和生活方式等等。经理们运人形象、读书习惯、购物习惯和生活方式等等。经理们运 用从调查中得到的统计汇总数据向其订户和广告客户提供用从调查中得到的统计汇总数据向其订户和广告客户提供 更优质的服务。例如,更优质的服务。例如,1993年的年的美国订户研究美国订户研究指出:指出: 87的的商业周刊商业周刊订户拥有个人计算机,订户拥有个人计算机,44的订户正的订户正 打算
8、在下一年内购买一台个人计算机。这些统计信息提醒打算在下一年内购买一台个人计算机。这些统计信息提醒 经理们注意这样的一个事实:即订户应该会对介绍关于个经理们注意这样的一个事实:即订户应该会对介绍关于个 人计算机方面的文章感兴趣。另外,潜在的广告客户也可人计算机方面的文章感兴趣。另外,潜在的广告客户也可 以利用这些调查结果。打算在未来一年内购买一台个人计以利用这些调查结果。打算在未来一年内购买一台个人计 算机的订户所占的比例如此之高,也激发个人计算机生产算机的订户所占的比例如此之高,也激发个人计算机生产 厂商考虑在厂商考虑在商业周刊商业周刊上登广告。上登广告。 在这一章里,我们首先讨论统计分析的数
9、据类型以及 如何收集数据,然后介绍描述统计学和统计推断这两 种方法可以将数据转化成富有意义的、易于解释的统计信 息。 Q iQ i 第一章 数据与统计学 1.1 统计与统计学的含义 1.2 统计在商务和经济中的应用 1.3 数据 1.4 数据来源 1.5 描述统计 1.6 统计推断 1.7 小结 1.1 统计与统计学的含义 1.1.1 统计 很难给出一个简单的定义。在不同 的场合有不同的含义,可以指统计数据的搜集 活动,即统计工作;也可以指统计活动的结果, 即统计数据;还可以是指分析统计数据的方法 和技术,即统计学。 1.1.2 统计学 统计学是一门收集、整理和分析 统计数据的方法科学,其目的
10、是探索数据的内 在数量规律性,以达到对客观事物的科学认识。 1.2 统计在商务和经济中的应 用 会计 金融 营销 生产 经济 9595 8484 8181 8585 7575 5050 45454545 9090 4040 8585 3535 0 0 2020 4040 6060 8080 100100 广告代理广告代理 汽车/家财保险汽车/家财保险 汽车修理服务汽车修理服务 储蓄银行储蓄银行 信用卡信用卡 工业经纪工业经纪 商品分销商品分销 专业洗衣业专业洗衣业 人寿保险人寿保险 写字楼管理写字楼管理 出版业出版业 软件开发软件开发 顾客净现值增长率顾客净现值增长率 行业行业 图图2-1 客
11、户保持率增长客户保持率增长5%与顾客净值的作用与顾客净值的作用 % 1.3 数据 数据 是经过收集、分析、概括后用以表达和说明 的事实和数字。因某项特定研究所收集的数 据合在一起就称为数据集。 单位、变量和观察值 数据是通过收集研究中每个单位的各个 变量的测度值而获取的。为某个单位而 收集的测度值的集合称为观察值。 25只影子股票的数据集 股票 交易所 股票代号 年销售额 每股收益 市盈率 Alcide Corp 柜台交易 ALCD 7.4 0.52 22.1 ARX Inc. 纽约证券交易所 ARX 54.7 0.32 14.1 Bowmar 美国股票交易所 BOM 20.7 0.10 32
12、.5 . Western Beef 柜台交易 BEEF 273.7 0.78 12.2 Zygo Corp. 柜台交易 ZIGO 23.5 0.27 28.7 资料来源:American Association of Individual Investors Journal,April 1994. 单位:是收集数据所依赖的对象 变量:是单位中所感兴趣的特征 质量数据和数量数据 定性数据 品质数据 定性变量 定类尺度、定序尺度 定量数据 数量数据 定量变量 定距尺度、定比尺度 质量数据是用来识别单位某一特征的标记或名称。 数量数据是表示多少或多少个的数据。 数据的计量尺度 定类尺度(Nomina
13、l scale) 按照事物的某种属性 对其进行平行的分类或分组。 须符合穷尽和互斥的要求。 定序尺度(Ordinal scale) 对事物之间等级差或 顺序差别的一种测度 定距尺度(Interval scale) 能将事物区分为不同 类型并进行排序,且可以准确地指出类别之间 的差距是多少。 定比尺度(Ratio scale) 有一个绝对固定的“零 点”。 数据的计量尺度 计量尺度 数学特性 定类尺 度 定序 尺度 定距 尺度 定比尺 度 分类(,) 排序() 间距(,) 比值(,) 1.3.3 横截面数据和时间系列数 据 在同一时刻或几乎同一时点所收集到的 数据称为横截面数据 在若干个时期内所
14、收集到的数据称为时 间系列数据 1.4 数据来源 1.4.1现有数据来源 可以从公司内部记录中获取的资料举例 来源 可获取的典型数据 雇员纪录 姓名、地址、社会保险号码、工资、假期天数、病假天数和奖金 生产记录 部件或产品数量、产成品数量、直接人工成本和材料成本 存货记录 部件或产品数量、现有产品件数、再订购水平、经济订货 数量和折扣时间表 销售记录 产量、销售量、分地区销售量和分客户类型销售量 信用记录 客户姓名、地址、电话号码、信用期限和应收账款余额 客户形象 年龄、性别、收入水平、家庭人数、地址和个人爱好 也有相当多的商业和经济数据需要从专门收集和保存数据 的机构那里获取。如邓恩布拉斯特
15、里特公司(Dun ; 练习练习 22、26 3.5 双变量相关关系测度双变量相关关系测度 协方差协方差 相关系数相关系数 协方差是对两个变量之间相关关系进行的一种描 述性测度。 相关系数是两个变量x和y之间线性关系强弱的一 种描述性测度。 先来了解协方差。 举例:举例:某立体声音响设备商店在过去3个月在10 种场合通过周末电视广告来增加商店的销售额。 商店经理对调查每周末电视广告次数与下一周商 店的销售量之间的关系感兴趣,下表提供了销售 量的样本数据。 立体声音响设备商店的样本数据立体声音响设备商店的样本数据 周次周次 广告次数广告次数x 销售量(销售量(100$)y 1 2 50 2 5 5
16、7 3 1 41 4 3 54 5 4 54 6 1 38 7 5 63 8 3 48 9 4 59 10 2 46 0 1 2 3 4 5 x 65 60 55 50 45 40 35 y 广告次数 立体声音响设备商店数据的散点图立体声音响设备商店数据的散点图 销 售 额 ( 百 美 元 ) 样本协方差的计算表样本协方差的计算表 xi yi 2 50 -1 -1 1 5 57 2 6 12 1 41 -2 -10 20 3 54 0 3 0 4 54 1 3 3 1 38 -2 -13 26 5 63 2 12 24 3 48 0 -3 0 4 49 1 8 8 2 46 -1 -5 5 合
17、计 30 510 0 0 99 协方差:协方差: 0 1 2 3 4 5 x 65 60 55 50 45 40 35 y 广告次数 立体声音响设备商店分部散点图立体声音响设备商店分部散点图 销 售 额 ( 百 美 元 ) x y Sxy为正值: (x和y是正线性相关) 样 本 协 方 差 的 解 释 样 本 协 方 差 的 解 释 a x y Sxy近似为0: (x和y不线性相关) 样 本 协 方 差 的 解 释 样 本 协 方 差 的 解 释 b x y Sxy为负值: (x和y是负线性相关) 样 本 协 方 差 的 解 释 样 本 协 方 差 的 解 释 c 样本相关系数样本相关系数 r
18、xy样本相关系数样本相关系数 Sxy样本协方差样本协方差 Sx变量变量x的样本标准差的样本标准差 Sy变量变量y的样本标准差的样本标准差 现在来计算该音响设备店的样本相关系数。现在来计算该音响设备店的样本相关系数。 总体相关系数总体相关系数( “row” ) 总体相关系数总体相关系数 总体协方差总体协方差 变量变量x的总体标准差的总体标准差 变量变量y的总体标准差的总体标准差 样本相关系数样本相关系数 rxy 是总体相关系数是总体相关系数 的一个估计值。看一个完的一个估计值。看一个完 全正线性相关的例子:全正线性相关的例子: Xi 1 2 3 Yi 10 30 50 1 2 3 x y 50
19、40 30 20 10 描述完全相关关系的散点图描述完全相关关系的散点图 相关系数的值总在 1和1之间。 4.美国个人投资者协会对贴现经纪人进行了一项年度调查。下面美国个人投资者协会对贴现经纪人进行了一项年度调查。下面 列出的样本数据是列出的样本数据是20个贴现经纪人代理交易个贴现经纪人代理交易500股股票,每股价股股票,每股价 格格50美元收取的佣金(美元收取的佣金(美国个人投资者杂志美国个人投资者杂志,1994年年1月)。月)。 经纪人经纪人 佣金佣金(美元美元) 经纪人经纪人 佣金佣金(美元美元) Peck 100 Pace 75 Aufhauser 32 Peoples 131 Bro
20、kers Ex 160 Pro Value 173 Burke 120 Royal Grimm 75 Schwab 155 Seaport 50 Downstate 90 St.Louis 64 Freeman 145 T.Rowe 134 Kennedy 33 Unified 154 Max Ule 195 White 42 Mongerson 95 Your 55 计算所付佣金的平均数、中位数、众数。计算所付佣金的平均数、中位数、众数。 5.(自测题)自测题)美国人中统计美国人中统计(1988年年12月)报告指出月)报告指出 有有2500万美国人早晨起床后在他们的家里办公。个人计万美国人早
21、晨起床后在他们的家里办公。个人计 算机的不断普及是越来越多的人在家里工作的原因之一。算机的不断普及是越来越多的人在家里工作的原因之一。 文章公布了在家里上班的人士有关年龄方面的资料。下文章公布了在家里上班的人士有关年龄方面的资料。下 面是这些个有年龄资料的一个样本:面是这些个有年龄资料的一个样本: 22 58 24 50 29 52 57 31 30 41 44 40 46 29 31 37 32 44 49 29 a. 计算样本的平均数和众数。计算样本的平均数和众数。 b. 所有成年人总体的年龄中位数是所有成年人总体的年龄中位数是40.5岁。问:根据岁。问:根据 上面样本数据的中位数来判断家
22、庭工人比所有成年上面样本数据的中位数来判断家庭工人比所有成年 人总体年轻还是年长?人总体年轻还是年长? 返回返回 18.请用下面数据绘制道森供应公司和请用下面数据绘制道森供应公司和J.C.克拉克批发商克拉克批发商 公司两家公司交付订货天数的直方图。公司两家公司交付订货天数的直方图。 道森供应公司交货天数:道森供应公司交货天数:11 10 9 10 11 11 10 11 10 10 克拉克批发公司交货天数:克拉克批发公司交货天数:8 10 13 7 10 11 10 7 15 13 用全距和标准关差支持前面的结论:道森供应公司交货用全距和标准关差支持前面的结论:道森供应公司交货 时间更稳定、更
23、可信赖。时间更稳定、更可信赖。 19.(自测题)(自测题)一个投球手一个投球手6局比赛的得分为:局比赛的得分为:182,168, 184,190,170,和,和174。以这些数据作为样本计算下列。以这些数据作为样本计算下列 描述统计指标:全距、方差、标准差、变异系数。描述统计指标:全距、方差、标准差、变异系数。 返回返回 22.某一样本平均数是某一样本平均数是500,标准差是,标准差是100.5,数据,数据 520,650,500, 450,280的的z分数各是多少?分数各是多少? 26.下面样本下面样本是是10个男子大学篮球队获胜队,其得分数据如下:个男子大学篮球队获胜队,其得分数据如下:
24、获胜队获胜队 得分得分 获胜队获胜队 得分得分 波士顿大学波士顿大学 55 埃默里大学埃默里大学 56 东北大学东北大学 87 昆斯大学昆斯大学 77 弗拉格勒大学弗拉格勒大学 89 米尔萨普斯大学米尔萨普斯大学 89 马凯特大学马凯特大学 70 沃特堡大学沃特堡大学 64 佩珀丁大学佩珀丁大学 61 旧金山大学旧金山大学 84 a. 计算数据的平均数和标准差。计算数据的平均数和标准差。 b. 在另一场比赛中,约克大学队以在另一场比赛中,约克大学队以108比比75战胜了纽约大学队。战胜了纽约大学队。 应用应用z分数确定该得分是否为异常值。试解释之。分数确定该得分是否为异常值。试解释之。 c.
25、假定获胜队的得分是丘形分布。试估计所有男子大学篮球队假定获胜队的得分是丘形分布。试估计所有男子大学篮球队 比赛获胜队得比赛获胜队得87分或更高的百分比是多少?试估计比赛获胜分或更高的百分比是多少?试估计比赛获胜 队得队得46分或更少的百分比是多少?分或更少的百分比是多少? 返回返回 28.在美国销售的一种新型节能汽车每加仑平均行驶里程在美国销售的一种新型节能汽车每加仑平均行驶里程 是是27.5英里(英里(华尔街日报华尔街日报,1992年年4月月8日)。假日)。假 定标准差是每加仑定标准差是每加仑3.5公里。公里。 a. 利用切贝尔夫定理计算每加仑行驶里程在利用切贝尔夫定理计算每加仑行驶里程在2
26、0.534.5 英里、英里、18.7536.25英里、英里、1738英里的新型汽车所英里的新型汽车所 占的百分比。占的百分比。 b. 如果假定新型汽车每加仑行驶里程服从钟形分布是如果假定新型汽车每加仑行驶里程服从钟形分布是 合理的话,那么每加仑行驶里程在合理的话,那么每加仑行驶里程在20.534.5英里的英里的 新型汽车所占的百分比是多少?新型汽车所占的百分比是多少?1738英里呢?英里呢? 4(自测题)下面的数据是获得商业管理学士学位学生 的每月首次任职薪水和平均等级分数(GPA) GPA 2.6 3.4 3.6 3.2 3.5 2.9 每月首次 1800 2100 2500 2000 24
27、00 2100 任责薪水($) a. 根据这些数据,用GPA作为自变量绘制散点图。 b. a.所绘制的散点图说明了两个变量之间是什么关系。 c.计算并解释数据的样本协方差、样本相关系数。 d. 试画出一条穿过这些数据的直线来近似说明GPA和薪 水之间的线性关系。 练习题答案 4、平均数103.9 中位数97.5 众数75.00 5、a、平均数38.75 众数29 b、样本中位数38.5,比总体稍微年轻 18、道森:全距2 标准差0.67 克拉克:全距8 标准差2.58 19、全距22 方差75.2 标准差8.67 变异系数 4.87 平均数178 22、Z1=0.20 Z2=1.50 Z3=0
28、 Z4=-0.50 Z5=-2.20 26、a、平均数73.2,标准差13.71 b、Z=2.54 C、16 2.5 28、a、75 84 89 b、 95% 近100 描述统计学描述统计学2 2:数量方法:数量方法 本章学习内容:本章学习内容: 1。平均数。平均数 2。中位数。中位数 3。众数。众数 4。全距。全距 5。方差。方差 6。标准差。标准差 7。百分位数。百分位数 8。相关系数。相关系数 样本统计量:样本统计量:如果是根据样本数据计算的测度值,如果是根据样本数据计算的测度值, 就称为样本统计量。就称为样本统计量。 总体参数:总体参数:如果是根据总体数据计算的测度值,就如果是根据总体
29、数据计算的测度值,就 称为总体参数。称为总体参数。 . 彭斯医院彭斯医院 密苏里州,圣路易斯市密苏里州,圣路易斯市 位于华盛顿大学医疗中心的彭斯医院位于华盛顿大学医疗中心的彭斯医院(Barnes Hospital) 建于建于1914年,它主要给圣路易斯及其邻近地区的人们提供健年,它主要给圣路易斯及其邻近地区的人们提供健 康报警服务。该医院被公认为是美国最好的医院之一。彭斯康报警服务。该医院被公认为是美国最好的医院之一。彭斯 医院的济病计划大大提高里病人盒家属的生活质量。济病队医院的济病计划大大提高里病人盒家属的生活质量。济病队 由下列人员组成:医务主任、协调者、注册护理人员、家庭由下列人员组成
30、:医务主任、协调者、注册护理人员、家庭 和住院病人注册护士、家庭健康护理人员、社会工作人员、和住院病人注册护士、家庭健康护理人员、社会工作人员、 牧师、营养学家、训练有素的志愿者以及其他辅助服务的专牧师、营养学家、训练有素的志愿者以及其他辅助服务的专 业人员。通过济病队的协作和努力,病人及其家属得到了战业人员。通过济病队的协作和努力,病人及其家属得到了战 胜疾病、孤独和死亡的压力所必需的指导和支持。胜疾病、孤独和死亡的压力所必需的指导和支持。 在济病计划的协调和执行过程中,月报和季报汇总报告在济病计划的协调和执行过程中,月报和季报汇总报告 帮助济病人员监察不断发展中的服务水平。成绩数据的概括帮
31、助济病人员监察不断发展中的服务水平。成绩数据的概括 案 例 统计可以作为计划和贯彻政策变化的基础。统计可以作为计划和贯彻政策变化的基础。 例如,该院收集有关病人接受济病计划服务时间长短的例如,该院收集有关病人接受济病计划服务时间长短的 数据。数据。67个病人的样本记录显示病人接受服务时间在个病人的样本记录显示病人接受服务时间在1185 天之间。频数分布对于概括和交流服务时间数据是很有帮助天之间。频数分布对于概括和交流服务时间数据是很有帮助 的。另外,下面的数量描述统计方法也提供了关于病人接受的。另外,下面的数量描述统计方法也提供了关于病人接受 济病服务时间的有价值的信息。济病服务时间的有价值的
32、信息。 平均数:平均数:37.5天天 中位数:中位数:17天天 众众 数:数:1天天 这些统计指标的解释是:病人接受济病计划服务的平均这些统计指标的解释是:病人接受济病计划服务的平均 数或均值时间是数或均值时间是37.5天,即一个多月时间。然而,中位数却天,即一个多月时间。然而,中位数却 显示:一半病人接受济病计划服务是显示:一半病人接受济病计划服务是17天或更短时间,众数天或更短时间,众数 1天是发生频率最高的数据值,它表明大多数病人接受济病天是发生频率最高的数据值,它表明大多数病人接受济病 计划服务的时间都很短。计划服务的时间都很短。 其他关于济病计划的统计概括指标包括:允许接受服务其他关
33、于济病计划的统计概括指标包括:允许接受服务 的病人数、病人在家的天数与住院时间、出院病人数、病人的病人数、病人在家的天数与住院时间、出院病人数、病人 在家和在医院的死亡数目。这些概括指标需根据病人年龄和在家和在医院的死亡数目。这些概括指标需根据病人年龄和 医疗范围进行分析。总之,描述统计方法提供了关于济病计医疗范围进行分析。总之,描述统计方法提供了关于济病计 划服务方面有价值的信息。划服务方面有价值的信息。 S J bS J b 1.集中趋势测度集中趋势测度 集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中 趋势也就是寻找数据一般水平的代
34、表值或中心值。趋势也就是寻找数据一般水平的代表值或中心值。 1.1众数众数(M0):是一组数据中出现次数最多的变量值。众数是一个:是一组数据中出现次数最多的变量值。众数是一个 位置代表值,它不受数据中极端值的影响。位置代表值,它不受数据中极端值的影响。 表表22 购买计算机数据的频数分布表购买计算机数据的频数分布表 公司公司 发生频数发生频数 苹果机苹果机 13 康柏机康柏机 12 盖特威盖特威-2000 5 IBM 9 帕科特帕科特 贝尔贝尔 11 合计合计 50 1.2 中位数中位数(Me) 是一组数据按大小排序后,处于正中间位置上的变量值。是一组数据按大小排序后,处于正中间位置上的变量值
35、。 中位数也是一个位置代表值。中位数也是一个位置代表值。 当当N为奇数时。为奇数时。 当当N为偶数时。为偶数时。 例例1. 下面是下面是5个大学班级样本的班级人数数据:个大学班级样本的班级人数数据:46,54,42, 46,32, n5 Me46 1.3 均值:均值:是全部数据的算术平均值,也称为算术平均数。是全部数据的算术平均值,也称为算术平均数。 简单算术平均数:简单算术平均数: 举例:举例:5个班级人数数据个班级人数数据 46,54,42,46,32 加权算术平均数加权算术平均数或加权均值(频数即权数)或加权均值(频数即权数) 举例:在过去举例:在过去3个月里,个月里,5次购买某种原材料
36、次购买某种原材料 购买购买 每磅成本(美元)每磅成本(美元) 购买数量(磅)购买数量(磅) 1 3.00 1200 2 3.40 500 3 2.80 2500 4 2.90 1000 5 3.25 800 现在假定现在假定:某经理想知道每磅原材料的平均成本,那么,某经理想知道每磅原材料的平均成本,那么, 如何计算?如何计算? 错误算法错误算法:(3.00+3.40+2.80+2.90+3.25)53.07(美元)(美元) 均值是一组数据的重心所在,是数据误差相互抵消后的均值是一组数据的重心所在,是数据误差相互抵消后的 结果。结果。 表表2-5 审计时间数据频数分布审计时间数据频数分布 审计时
37、间审计时间(天天) 组中值组中值(xi) 频数频数(fi) Xi fi 10-14 12 4 48 15-19 17 8 136 20-24 22 5 110 25-29 27 2 54 30-34 32 1 32 合计合计 20 380 样本均值样本均值 百分位数 第p百分位数是这样一个值,它使得至少有p 的数据项小于或等于这个值,且至少有(100 p)%的数据项大于或等于这个值。 步骤 1.从小到大排序 2.计算指数i p是所求的百分位数的位置,n是项数。 3. i不为整数,将i向上取整,该整数为第 p百 分位数的位置; 若i为整数,则第百分位数是第 i 项与(i+1) 项 数据的平均值。
38、 例子:12名商学院毕业生的起始月薪数 据样本。计算第85百分位数 2210 2225 2350 2380 2380 2390 2420 2440 2450 2550 2630 2825 四分位数 人们经常会将数据划分为4个部分,每一 个部分大约包含有1/4 的数据项。划分的 临界点即为四分位数 中位数是一组数据中间位置上的代表值。不受数据中位数是一组数据中间位置上的代表值。不受数据 中极端值影响。中极端值影响。 对于偏态分布,众数和中位数的代表性都比均值要对于偏态分布,众数和中位数的代表性都比均值要 好。好。 均值是就全部数据计算的,具有优良的数学性质,均值是就全部数据计算的,具有优良的数学
39、性质, 是实际中应用最广泛的集中趋势测度值。缺点是易受数是实际中应用最广泛的集中趋势测度值。缺点是易受数 据极端值的影响,对于偏态分布,代表性较差。据极端值的影响,对于偏态分布,代表性较差。 当数据呈对称分布或接近对称分布时,应选用均值当数据呈对称分布或接近对称分布时,应选用均值 作为集中趋势的代表值。作为集中趋势的代表值。 均值只适用于数量数据,而不适用于质量数据。而均值只适用于数量数据,而不适用于质量数据。而 众数和中位数却适用于两种类型数据。众数和中位数却适用于两种类型数据。 练习练习5 5 2.离中趋势的测度离中趋势的测度 离中趋势:数据的分散程度是数据分布的另一个重离中趋势:数据的分
40、散程度是数据分布的另一个重 要特征,它所反映的是各变量值远离中心值的程度。要特征,它所反映的是各变量值远离中心值的程度。 描述数据离散程度的测度值主要有极差、异众比率、四描述数据离散程度的测度值主要有极差、异众比率、四 分位差、平均差、方差和标准差、离散系数等。分位差、平均差、方差和标准差、离散系数等。 先看一个例子:假定你是一家大生产公司的购货代先看一个例子:假定你是一家大生产公司的购货代 理商,你定期向两个不同的供货商订货。两个供货商理商,你定期向两个不同的供货商订货。两个供货商 都表示大约需要都表示大约需要10个工作日交付订货。若干个月的交个工作日交付订货。若干个月的交 易后,你发现两家
41、供货商交付订货的平均数确定都是易后,你发现两家供货商交付订货的平均数确定都是 10天。天。 讨论:你要选择哪个供货商?(离散度或变异性是选择讨论:你要选择哪个供货商?(离散度或变异性是选择 供货商最重要的因素)。供货商最重要的因素)。 0 0 0.10.1 0.20.2 0.30.3 0.40.4 0.50.5 0.60.6 9 910101111 交付订货的天数交付订货的天数 相对频数相对频数 0 0 0.10.1 0.20.2 0.30.3 0.40.4 0.50.5 7 78 89 91010 1111 1212 1313 1414 1515 交付订货的天数交付订货的天数 相对频数相对频
42、数 图图3.2 显示交付订货所需天数的历史数据显示交付订货所需天数的历史数据 2.1 全距(极差)全距(极差) 全距最大数据值最小数据值全距最大数据值最小数据值 对于组距分组数据:全距最高组上限最低组下对于组距分组数据:全距最高组上限最低组下 限限 全距是描述数据离散程度的最简单测度值,其计算全距是描述数据离散程度的最简单测度值,其计算 简单,易于理解,但它容易受极端值的影响。简单,易于理解,但它容易受极端值的影响。 2.2 方差方差 方差是各变量值与其均值离差平方的平均数。方差是各变量值与其均值离差平方的平均数。 (1)总体方差和标准差)总体方差和标准差 (2) 样本方差和标准差样本方差和标
43、准差 简便运算:简便运算: 举例:举例:p79 表表32 班级人数离差和离差平方计算表班级人数离差和离差平方计算表 学生数学生数 xi 样本均值样本均值 均值偏差均值偏差(xi ) 均值偏差平方均值偏差平方 46 44 2 4 54 44 10 100 42 44 -2 4 46 44 2 4 32 44 120 144256 表表313 审计时间分组数据样本方差计算表审计时间分组数据样本方差计算表 审计时 间(天) 组中值 Mi 频数fi 离差 离差平方 10-14 12 4 -7 49 196 15-19 17 8 -2 4 32 20-24 22 5 3 9 45 25-29 27 2
44、8 64 128 30-34 32 1 13 169 169 20 570 2.3 离散系数(变异系数离散系数(变异系数/标准差系数)标准差系数) 例子:对于班级人数资料例子:对于班级人数资料 44,S8 则:则: 它表示样本的标它表示样本的标 准差是样本均值的准差是样本均值的18.2%。 离散系数消除变量值水平高低和计量单位不同对离散程离散系数消除变量值水平高低和计量单位不同对离散程 度测度值的影响。度测度值的影响。 2.4 四分位数间距四分位数间距 注释与评论 1.在计算方差和标准差的时,对样本均值和离差的平方在计算方差和标准差的时,对样本均值和离差的平方 四舍五入可能会引起舍入误差。为了
45、减少舍入误差,我们建议在四舍五入可能会引起舍入误差。为了减少舍入误差,我们建议在 中间计算时,至少应保留中间计算时,至少应保留6位有效数字。而方差和标准差的计算位有效数字。而方差和标准差的计算 结果可根据结果需要四舍五入至相对少一些的有效数字。结果可根据结果需要四舍五入至相对少一些的有效数字。 2.计算样本方差还可以选用下面的计算公式:计算样本方差还可以选用下面的计算公式: 这里这里 。利用这个公式可以稍微减少。利用这个公式可以稍微减少 一点计算量,且可减少舍入误差。习题一点计算量,且可减少舍入误差。习题17要求用这个公式来计算要求用这个公式来计算 样本方差。样本方差。 注释与评论注释与评论
46、1.下面公式可供计算分组数据样本方差时选用:下面公式可供计算分组数据样本方差时选用: 式中:式中: ,k是分组数据的组是分组数据的组 数。运用这个公式可以使计算稍微容易一些。数。运用这个公式可以使计算稍微容易一些。 2.在计算分组数据的描述统计指标时,组中值被用作每组数据值的在计算分组数据的描述统计指标时,组中值被用作每组数据值的 近似值。因此,根据分组数据所计算出来的描述统计指标就是直接近似值。因此,根据分组数据所计算出来的描述统计指标就是直接 根据原始数据计算出来的描述统计指标的近似值。所以,我们建议根据原始数据计算出来的描述统计指标的近似值。所以,我们建议 尽可能根据原始数据而不要用分组
47、数据来计算描述统计指标。尽可能根据原始数据而不要用分组数据来计算描述统计指标。 练习练习18、19 到到18 3.平均数和标准差的一些应用平均数和标准差的一些应用 3.1 标准化值(标准化值(z分数)分数) Z分数通常称为标准化数值。标准化数值或分数通常称为标准化数值。标准化数值或z分数可被解释为分数可被解释为 数据值数据值xi偏离平均数偏离平均数 标准差的个数。例如,标准差的个数。例如,z11.2意思是:意思是: x1比样本平均数大比样本平均数大1.2标准差。标准差。z20.5,意思是:,意思是:x2比样本比样本 平均数小平均数小0.5或或1/2个标准差。个标准差。 表表34 班级大小数据的
48、班级大小数据的z分数计算表分数计算表 学生数学生数(xi) 关于均值的偏差关于均值的偏差 Z分数分数 46 2 2/8=0.25 54 10 10/8=1.25 42 -2 -2/8= -0.25 46 2 2/8=0.25 32 -12 -12/8= -1.50 44 S8 3.2 切贝晓夫定理切贝晓夫定理 至少至少 个数据落在平均数个数据落在平均数k倍标准差范围内,其倍标准差范围内,其 中:中:k是大于是大于1的任何数值。的任何数值。 当当k2,3,4时,切贝晓夫定理有如下一些应用:时,切贝晓夫定理有如下一些应用: 至少至少0.75或或75%的数据落在平均数的的数据落在平均数的k2标准差范
49、围内。标准差范围内。 至少至少0.89或或89%的数据落在平均数的的数据落在平均数的k3标准差范围内。标准差范围内。 至少至少0.94或或94%的数据落在平均数的的数据落在平均数的k4标准差范围内。标准差范围内。 作为运用切贝晓夫定理的一个作为运用切贝晓夫定理的一个例子例子,假定,假定100个大学生个大学生 商务统计课程期中考试成绩数据是:平均值是商务统计课程期中考试成绩数据是:平均值是70分,标准差分,标准差 是是5分。那么有多少学生的考试成绩在分。那么有多少学生的考试成绩在60分分80分之间呢?分之间呢? 又有多少学生的考试成绩在又有多少学生的考试成绩在58分分82分之间呢?分之间呢? 6
50、0分分80分,分,k2 58分分82分,分,k2.4 至少有至少有82.6%的学生考试成绩在的学生考试成绩在58 82分之间。分之间。 大约大约68%的数据落在平均数的数据落在平均数1倍标准差范围内。倍标准差范围内。 大约大约95%的数据落在平均数的数据落在平均数2倍标准差范围内。倍标准差范围内。 几乎所有的数据落在平均数几乎所有的数据落在平均数3倍标准差范围内。倍标准差范围内。 例如,液体清洁剂纸板盒在生产线上可自动填满。填入例如,液体清洁剂纸板盒在生产线上可自动填满。填入 液体的重量是钟形分布。如果填入液体的重量的平均值是液体的重量是钟形分布。如果填入液体的重量的平均值是16 盎司,标准差