1、结论决策执行结果管理者信息提供模型反馈数据、模型与决策的目的数据、模型与决策的目的 是在科学、符合是在科学、符合逻辑和合理的基础上制定决策逻辑和合理的基础上制定决策n潘得罗索工业公司生产胶合板,根据厚度和所用木材的质量而有所不同。因为产品在一个竞争的环境中进行销售,产品的价格由市场决定。所以每个月管理层面临的一个关键问题是选择产品组合以获取尽可能多的利润。需要考虑当前生产产品必须的各种资源的可得数量。六项最重要的资源为(1)四种类型的原木(根据原木的质量区分)和(2)生产胶合板的两项关键作业的生产能力(模压作业和刨光作业)。 你们公司有这样的经历吗?你们公司有这样的经历吗?n某食品公司生产各种
2、系列的冷饮食品,冷饮食品生产是季节性,需要提前组织生产。一般是每年四月就要制订接下去的五个月生产计划,包括生产的冷饮品种、等级、规格与原料组合。因此要制订采购计划和工厂生产能力计划,以满足市场的需要。如何来预测客户的需求量呢?n 预测对生产计划有多重要?预测对生产计划有多重要?有兄弟姐妹的人得病少“坐立不安”让人苗条n数据收集好了,那我们就来看看从数据中能挖到什么宝藏了!3.1 类别数据的表格表示n例例3.1 交通事故的驾驶因素分析交通事故的驾驶因素分析n造成交通事故的驾驶因素有判断失误、察觉得晚、驾驶错误、偏离规定的行驶路线和酒后或疲劳驾驶等。某地区交通管理部门对某段时间中的50起交通事故进
3、行驾驶因素分析,得到的原始数据如下: 驾驶错误察觉得晚察觉得晚判断失误驾驶错误察觉得晚判断失误察觉得晚判断失误察觉得晚判断失误酒后或疲劳驾驶察觉得晚判断失误察觉得晚驾驶错误判断失误驾驶错误察觉得晚判断失误酒 后 或 疲 劳驾驶察觉得晚察觉得晚察觉得晚察觉得晚察觉得晚偏离规定的行驶路线判断失误驾驶错误察觉得晚判断失误判断失误判断失误察觉得晚驾驶错误察觉得晚察觉得晚驾驶错误察觉得晚判断失误判断失误驾驶错误驾驶错误判断失误驾驶错误驾驶错误酒后或疲劳驾驶察觉得晚察觉得晚察觉得晚n从例3.1的数据,你能看出些什么?n也许你看出了“察觉得晚”、“判断失误”等因素比较多,“偏离规定的行驶路线”、“酒后或疲劳
4、驾驶”等因素比较少。很好!n其实,只要借助一些简单的图表,就能对数据加以整理并进行初步的定量分析。n一些常用的软件如Excel,几乎能完美地为你完成这些图表!n我们从表1很容易看出:n哪些因素是比较主要的因素?n各因素之间频率的差异有多大? 等等。n有时,累积频率也需要在频数频率分布表中列出。n每一类的累积频率每一类的累积频率是指,从第一类开始累积到该类的频率总和,即将该类及其之前的所有类的频率相加。n譬如,为了分析驾驶因素中的主要因素,我们可以进一步改进表1,按照频数或频率从大到小的顺序,将各因素排序后列出来,并加上累积频率一项,结果列于表2中。表2 分析驾驶因素中主要因素的频数频率分布表驾
5、驶因素频数频率()累积频率察觉得晚214242判断失误142870驾驶错误112292酒后或疲劳驾驶 3 698偏离规定的行驶路线 1 2100合计50100用Excel制作定性数据频数频率分布表n累积频率更常用于有序数据的分析中。我们来看一个例子。n例例3.2 博客调查博客调查 n(http:/ Development 公司在其网页上发布了一项关于博客的调查报告。该调查根据8个博客服务商提供的博客用户资料,得到了各年龄段的人创建的博客数,频数频率分布表3显示了调查结果。 表表3 各年龄段的博客创建情况各年龄段的博客创建情况1012 55,500 1.35 1.351319 2,120,000
6、 51.45 52.802029 1,630,000 39.56 92.353039 241,000 5.85 98.203049 41,700 1.01 99.215059 18,500 0.45 99.66年龄段创建的博客数 频率()累积频率()6069 13,9000.34100.00合计4,120,600100.00数据的图形表示n用于数据描述的图形比较多,譬如常用的饼状图、柱状图、直方图,以及在统计学中常用的茎叶图、排列图等等。n当我们在考虑各种图的时候,把变量稍加分类会有帮助。n有的变量具备有意义的数值尺度,如身高几厘米、考试成绩几分等;而有的变量只是把个体分到不同类别而已,如性别
7、、职业或教育程度。n类别变量只记录所属类别,譬如,例1的变量就是类别变量,它包含5个类,个体的数据就是指个体属于其中某个类。n要表示类别变量的分布,可以用饼图,也可用柱状图或条形图,等等。以下是例3.1的图形表示。n柱形图与条形图作法 垂直柱状组成的图形称为柱形图,水平条状组成的图形称为条形图。 例:创建我国20012004年第一、第二和第三产业产值数量的变化的柱形图。1.打开Excel表,单击“插入图标”工具图标,选择图表类型柱形图和子图标类型,点击“下一步”。 2. 选择目标数据,用鼠标选定B4:D8 ,单击“系列”卡片,点击“下一步”。3. 输入系列名称,用鼠标选定“分类(X)轴标志”
8、A5:A8 ,单击“下一步”n4. 输入或修改“标题”、“坐标轴”、“网格线”、“图例”、“数据标志”、“数据表”等属性,单击“下一步”。 5. 选择图表位置,单击“完成”。6. 图表完成。如果需要,可以双击图表中任何一部分进行修改。 图表区分类轴分类轴标题数值轴图例图表标题系列“第一产业”绘图区数值轴主要网格线数值轴标题系列“第二产业”系列“第三产业”n因为类别变量的可能值相对来说不多,所以我们可以用饼状图或柱状图来呈现类别变量的分布。那么像月收入这种数量变量要如何呈现呢?因为数量变量的可能值太多,所以不太可能用饼状图或柱状图来呈现。若将数量变量的数据进行适当的分组,再画出分布图,那么将会比
9、较清楚。这就是本节中我们将重点介绍的图形直方图直方图(histogram),它是描述数量变量分布最常用的图。n在平面直角坐标系中,用横轴表示各类观察值,纵轴表示频数或频率,所绘制的由若干个长方形所组成的图形,就叫做频数分布直方图,简称直直方图方图。通过直方图,我们可以比较快速、直观地把握整体的分布情况。用Excel制作定量数据频数频率分布表和直方图见例1.14n描述数据的分布属性是描述统计的主要内容,数据的分布属性包括:n数据的频数分布和直方图n数据集中属性的指标(平均数、中位数、众数、比例)n数据离散属性的指标(极差、方差、标准差)n数据分布形态的指标(偏度、峰度)n数据的计数和求和n数据之
10、间的相关程度的指标(相关系数)nExcel中的统计功能有以下三种实现方法n使用Excel的菜单统计工具n使用Excel统计函数n使用Excel统计插件(例如PHStat等)nxxxxn.21不同年龄段每周上网时间的平均值=AVERAGE(B23:B158)=AVERAGE(C23:C279)=AVERAGE(D23:D186)=AVERAGE(E23:E133)=AVERAGE(F23:F86)n一组数据按大小顺序排列以后,处于中间一组数据按大小顺序排列以后,处于中间位置的数据。对于奇数组,中位数是中间位置的数据。对于奇数组,中位数是中间的一个,对于偶数组,中位数是中间的两的一个,对于偶数组,
11、中位数是中间的两个的平均值。个的平均值。=MEDIAN(B23:B158)=MEDIAN(C23:C279)=MEDIAN(D23:D186)=MEDIAN(E23:E133)=MEDIAN(F23:F86)n众数是一组数据出现次数最多的数值。如果一组数据各不相同,则这组数据不存在众数。“不同年龄段上网时间均值的区间估计.xls”数据的如下:=MODE(B23:B158)=MODE(C23:C279)=MODE(D23:D186)=MODE(E23:E133)=MODE(F23:F86)niixxn12)(111)(12nxxsnii1)(12nxxsnii1)(12nxxsnii标准差的重要
12、性切比雪夫定理:任何一组数据,设它的平均数为,标准差为,这组数据落在 范围内的数据个数占数据总数的比例,至少是 。这个定理说明了标准差是数据分散程度的一个普遍性的指标。(,),1kkk 211k3223%7543%.898898在工业生产中,产品的指标总会出现波动,一般都把产品指标的变动控制在指标平均值加减3个标准差的范围内,认为这是生产正常的标志。96624.002953.929543.如果产品指标波动超出这个范围,说明生产系统不正常。n在投资风险分析中,评价投资收益有两个指标,一个是收益期望值(平均值),另一个是收益的标准差。投资收益的标准差表示投资风险的大小,标准差越大,风险越大。低收益
13、低风险低收益高风险高收益低风险高收益高风险收益期望值收益标准差标准差是测定数据离散程度的标志,但由于不同的数据数值大小不同,相同的离散程度,数值比较大的标准差也会比较大。以下是不同年龄组每周上网时间的统计数据:为了比较大小不同的几组数据的离散程度,定义如下的变异系数(Coefficient of Variation ):均值标准差)变异系数(CV)3)(2() 1(3)()3)(2)(1() 1(2414NNNxNNNNNCKNii313)2)(1()(NNxNCSNii)(),(,YVarXVaryx和)()(),(YVarXVarYXCovR )(),(yxYXEYXCov22()()()
14、()XYXX YYXXYYlrllXXYY 相关系数没有单位,其值为相关系数没有单位,其值为-1 r 1。r值为正值为正表示正相关,表示正相关,r值为负表示负相关,值为负表示负相关, r绝对绝对值反应两变量间相关关系的密切程度值反应两变量间相关关系的密切程度,绝,绝对值越大说明相关关系越密切,对值越大说明相关关系越密切, r的绝对值的绝对值等于等于1为完全相关,为完全相关,r=0为零相关。为零相关。随机事件的交(Intersection):事件A和事件B同时发生的事件称为事件A和事件B的交。记为AB或A and B随机事件的并(Union):事件A和事件B至少一个发生的事件称为事件A和事件B的
15、并。记为AB或A or B。如果两个事件不可能同时发生,则这两个事件是互斥(Mutually exclusive)的。 随机事件的差:事件A发生而事件B不发生,则称这个事件是A与B的差事件。A-Bmxxx,21ix)(ixXFNxXFmii)(1NxXFxXfii)()(1)(1miixXf几个概率法则几个概率法则n法则法则1:概率值都在01之间。n法则法则2:所有可能性的概率之和等于1n法则3:如果事件A和事件B互斥,那么两个事件的并发生的概率等于两事件发生的概率之和。即 P(AB)=P(A)+P(B)(ixXPix)(lim)(inixXfxXP法则法则4 4:如果两事件不是互斥的,那么两
16、个事件的并发生的概率等于两事件发生的概率之和,减去两事件的交发生的概率。即:P(AB)=P(A)+P(B)-P(AB)。)()()(xxiixXPxXPxF0,11,)(xpxpxf其他, 0, 2 , 1 , 0,)1 ()(nxppCxfxnxxn),(pnxB!)(kekpk1212 ,()x xaxxb2112()()xxPxX xf t dt( )()( )xaF xP Xxf t dt1221()()()P xXxF xF x( )0,( )1F aF b22()21( )2xf xe, 22()21( )()2txF xP Xxedt222)(21)(xexf),(2Nx0,12
17、21( )2zxzf ze( )()xx( )()1xx 2( ,)XN xxF)( ),0 xf xex( )XE0( )()xtF xP Xxedtn离散随机变量的期望值 对于离散随机变量X,期望值是这个随机变量的所有可能结果,用每一个结果发生的概率作为权重的加权平均。 设随机变量X有n个取值,第i个取值等于xi的概率为f(xi),则随机变量X的期望值EX等于离散随机变量的方差(Variance))x(fxXEinii1njjj)x(f)XEx()X(Var12方差度量随机变量的不确定性,方差越大,结果的不确定越大。由于方差的单位和变量的单位不同,因此常用标准差(Standard devi
18、ation)表示随机变量的波动的大小。由于标准差的单位和变量相同,因此它比方差更有意义。标准差是对风险的一种测度,因此它在金融模型中是一个关键的概念。n1ii2ix)x(f)XEx(n例: 风险投资问题 有一项风险投资,每次投资成功和失败的概率都是50。投入1元资本,如果成功,连本带利资本增值为2.2元,如果失败,投入的资金全部损失,资本变为0。为了避免所有的资本全部损失,每次只投入当前资本的一半。假设最初的资本为100万元,而这项投资的次数没有限制。问题:这项投资的前景如何?是一本万利,还是血本无归?解1 设初始资本A=100万元,投资成功的资本增值率为K2.2第一次投资成功后的资本为:A/
19、2+KA/2=(K+1)A/2第一次投资失败后的资本为:A/2第一次投资后的资本的期望值为:0.5 (K+1)A/2+0.5A/2=0.5 (K+2) A/2=0.5(K/2+1)A第二次投资成功后的资本为:0.5 (K+2) A/4+0.5 (K+2)KA/4=0.5 (K+2)(K+1) A/4第二次投资失败后的资本为:0.5 (K+2) A/4第二次投资以后的资本期望值为:0.5*0.5 (K+2)(K+1) A/4+0.5*0.5 (K+2) A/4=0.52(K+2)2A/4=0.5(K/2+1)2A第n次投资以后的资本期望值为: 0.5(K/2+1)nA=0.5*(1.1+1)nA
20、=(1.05)nA当n无限增大时,资本会无限增加,即投资是一本万利的。n解2 设投资2n次,当n很大时,其中大约有n次成功,n次失败。其中对投资者最有利的是前n次都成功,后n次全失败。第1次成功后的资本为A/2+KA/2=(K+1)A/2第2次成功后的资本为(K+1)A/4+K(K+1)A/4=(K+1)2A/4=(K/2+1/2)2A第n次成功后的资本为(K/2+1/2)nA第1次失败后的资本为(K/2+1/2)nA/2第2次失败后的资本为 (K/2+1/2)nA/22第n次失败后的资本为(K/2+1/2)nA/2n=(K/4+1/4)nA=(0.8)nA当n无限增大时,2n次投资以后的资本
21、趋向于0。即投资将会血本无归。解法1和解法2的结果显然是矛盾的,至少有一个是错的,哪一个是错的?错在哪里?连续随机变量的期望值设连续随机变量X的概率分布密度函数为f(x),它的期望值为a, b是随机变量所在的变化范围,a可以是-,b可以是+。随机变量X的方差为随机变量X的标准差为badxxxfXE)(badxxfXExXD)()(2)(XDxn在描述一些事物的运行规律,比如蚂蚁爬行所处的位置,飞机在空中的位置这样一些随机事件,就必须考虑多个随机变量构成的变量组。 设 是一随机变量组,则X的分布称为联合分布。设其密度函数为则分布函数为12(,)nXXXX12( ,)nf x xx1112121(
22、 ,)( , ,)nnxxxnnnF x xxf t tt dtdt 将表中的统计人数除以总人数1898人,得到患病人数关于年龄和化验指标的联合概率分布:n由表中的数据可以看出,如果某个患者的年龄在55-64岁之间,化验指标在6.0-7.9之间,他患病的概率为11.2。n设年龄为随机变量X,化验指标为随机变量Y,表中的数值记为f(x,y),称为随机变量X和Y的联合概率分布。 第一行数值表示不考虑年龄(x)时,化验指标(y)的概率函数,第一列数值表示不考虑化验指标(y)时,年龄(x)的概率函数。第一行和第一列称为边际概率(Marginal probability)( )( , ),yf xf x
23、 y( )( , )xf yf x y( )( , )f xf x y dy( )( , )f yf x y dx(,)() ()ijijP Xx YyP Xx P Yy( , )( ) ( )f x yf x f yn在一个随机事件(Y)已经发生的条件下,某一个随机事件(X)发生的概率,称为条件概率。记为f( x | y )。由下表看出,55-64岁的患者人数为606人,其中化验指标的6.0-7.9之间的患者人数为213人,所求的条件概率为:213/606=0.351。年龄在5564岁之间的人数为606人化验指标在6.0-7.9之间、年龄在55-64岁之间的人数为213人n以上的计算表明,条
24、件概率f(x|y)等于联合分布概率f(x,y)除以边际概率f(y)由此得到,联合分布概率等于条件概率乘以边际概率:联合分布概率f(x,y)边际概率f(y)351. 0319. 0112. 0)(),()|(yfyxfyxf)()|(),(yfyxfyxf统计学是处理统计数据的科学。统计学在科学研究、社会经济分析、商业决策和日常生活中有广泛的应用。根据处理统计数据的目的和方法的不同,统计学可以分为描述统计、推断统计和预测统计。下面简要介绍这三类统计的主要内容。描述统计统计数据有不同的特征。例如,哈尔滨市和三亚市的年气温变化显然有很大差别。哈尔滨的年温差(一年中最高气温和最低气温之差)较大而三亚的
25、年温差较小,两地的年平均气温(全年每小时气温的平均值)也相差很大。描述统计就是计算和分析统计数据的一些统计指标,用来表示统计数据的特点。这些统计指标包括前面介绍过的均值、方差、标准差、中位数、极差以及峰度、偏度、相关系数等。研究分析和表示统计数据的统计特征,就是描述统计的主要内容。n 推断统计我们经常需要通过数据的研究,来确定某一个统计结论有效的范围,或者用统计数据证实或否定一些统计结论。例如,通过抽样检测得出“某件产品的合格率为97”,通过市场调查确定“某商品的市场份额为12”,根据民意调查得知“某候选人在未来的选举中得票的比例为59”。由于这些统计数据是根据抽样得到的,重复进行抽样,这些数
26、据会有所不同。因此,在得出这些统计数据的同时,还需要了解它们在多大范围内,在多大程度上是可信的。这些例子都是为了确定统计结论的有效范围。n 预测统计在日常生活和经济活动中,经常需要对已经观察到的统计数据进行分析研究,以便估计将要发生的数据。例如:l通过对某一城市历年气温的分析,预测明年夏季这个城市的最高气温;l通过对以往股市行情的分析,预测股市今后的走势;l根据一些父母的身高统计数据,来预测未成年子女未来的身高等等。p什么是抽样 为什么要抽样商业调查中需要研究的总体,由于数量太大,或者调查具有破坏性,往往无法进行。例如l要调查全部电视观众每天看电视的频道和收看时间,显然是不可能的。l要测定生产
27、的每一个灯泡的寿命,由于是破坏性的,也不可能全部进行测试。抽样是商业调查的一个必要和可行的方法。抽样的目的是从样本得到尽可能充足的信息,用来有效推断总体的状况。n抽样方法n抽样方法可以从不同的角度来划分。n从样本是否随机获取分,可以分为:n 主观抽样n判断抽样:根据专家的判断选取样本,例如选择特征典型的顾客n方便抽样:用容易获得的方法获取样本,例如选取某一天到达的顾客n 概率抽样n简单随机抽样:每个样本都有相同的机会被抽中n分群抽样:具有相同统计属性的群,随机抽取若干群进行统计,例如,在杭州市重点中学中随机抽取两所,统计高考平均成绩。n 其他抽样方式l系统抽样:从总体中按照一定的规律间隔性抽取
28、样本,例如根据电话号码顺序每间隔100个抽取1个。l分层抽样:具有不同统计属性的层,根据各层总体的比例,进行抽样。例如,根据发达、欠发达、不发达地区人数,按比例抽样统计农民人均收入。l整群抽样:将不同生产批号的产品作为一群,抽取其中某一个批号的产品作为样本l连续过程的抽样:例如连续生产线上每间隔一定时间或间隔一定数量的产品作为样本谁先动手谁先动手?n有人调查研究酒吧里的打架致死事件,发现其中90都是死掉的那个人先动手。真是这样吗?n如果你跟人打架把对方给揍死了,警察问你谁先动手的时候你怎么回答?n例例2 2 美国的种族效应美国的种族效应 1989年,纽约市选出第一位黑人市长,维吉尼亚选出第一位
29、黑人州长。这两个事件,在投票所访问投完票的选民后所预测到的胜负差距,都比实际开票的差距大。 因此,调查机构相当确定,有些受访选民因为不愿承认没投票给黑人候选人而说了谎。n例例3 3 权威人物的意见权威人物的意见 有两个内容相同的问题: 问题A:陆军部和海军部应当合并为统一的作战部,您同意么? 问题B:艾森豪威尔将军说,陆军部和海军部应当合并为统一的作战部,您同意么? 结果对问题A表示同意的比例为29%,而对问题B表示同意的比例为49%,两者相距甚远。无疑,权威人物艾森豪威尔将军的意见影响了被调查者的意见。n例例4 4 总统选举预测总统选举预测n1936年民主党人罗斯福任美国总统第一任满,共和党
30、人兰登与他竞选总统。 文学摘要杂志根据有约二百四十万人参加的民意测验,预测兰登会以57%对43%的优势获胜。自1916年以来的五届总统选举中,文学摘要杂志都正确地预测出获胜的一方,其影响力很大。 那时盖洛普刚刚设立起他的调查机构,他根据一个约五万人的样本,预测罗斯福会以56%对44%的优势获胜。 实际结果是,罗斯福以62%对38%的优势胜出。当时有人说,这次选举的最大赢家不是罗斯福,而是盖洛普。自这之后,盖洛普的调查机构得到迅速的发展,国内外闻名,而文学摘要杂志不久就垮了。 文学摘要杂志的调查方法有什么问题?n实际的抽样调查是很复杂的,即使采用了好的随机抽样方法、准确地计算了误差界限,调查结果
31、也不一定可靠。就拿例3.1来说,本来应该是对打架双方都进行调查,但已经死去的被调查者无法回答,而剩下的被调查者又可能为保全自己而不如实地回答。那么,这样的调查结果会可靠吗? 下面,我们来看看抽样调查中的基本概念、抽样的误差来源,以及抽样调查者应如何与之奋斗。n统计调查的目的是取得能准确反映客观状况的统计数据。 在许多时候,调查结果并不能准确地表现事实,总会有误差出现。在调查的各个阶段,误差都有可能出现。 如果其中一个阶段出现了较大误差,可能会把其他阶段都进行得很好的一次调查毁掉,因此必须认真细致地实施调查的每一个阶每一个阶段段、严格控制误差。 为了保证统计数据的质量,了解误差的来源与减小误差的
32、措施很有必要。继续例继续例4n从常理来看,应该调查数据越多,结论越可靠。 罗斯福的实际得票率为62%,文学摘要杂志的预测为43%,误差达到19%。误差之大令人惊异。这样大的误差是怎么得来的呢? 经过研究发现,原因在于文学摘要杂志选取样本有偏性。杂志是根据电话簿和俱乐部会员的名册,将问卷邮寄给一千万人。当时美国四个家庭中仅有一家装电话。他选取的样本有排斥穷人的选择偏性。这样的民意测验非常不利于民主党人罗斯福。n此外,文学摘要杂志调查的一千万人中只有二百四十万人回答了问卷,不回答者可能非常有别于回答者,这二百四十万人代表不了被邮寄问卷的一千万人。 譬如,1936年文学摘要杂志的一次专门的调查,给在
33、芝加哥的选民每三人寄去一张问卷。约20%的被调查者作了回答,其中支持兰登的超过半数。但是在选举中,兰登在芝加哥的得票率只有三分之一。所以当出现高不回答率时,谨防不回答偏性。 心理研究表明,低收入和高收入的人倾向于不回答问卷,因此中等收入的人在回答者中的比例过高。为此现代调查机构更喜欢采用亲自询问来代替邮寄问卷n即使亲自询问,也有不回答偏性的问题。 访问员来访时,不在家的人与在家接受访问的人可能在工作时间、家庭关系和社会背景等方面有比较大的差异,从而看法也不一样。 例如有一项关于快餐的市场调查。抽取500户家庭进行调查。白天访问时,有150户家庭没人。能不能仅用白天有人的350户家庭的数据?不能
34、。这里有不回答偏性。白天不在家的150户可能是吃快餐比较多的家庭。n误差按其性质可以分为两类,一类是抽样误差抽样误差,它是由于抽选样本的随机性而产生的误差。只有采用概率抽样的方式才可能估计抽样误差。另一类是非抽样误差非抽样误差,它是指除抽样误差以外的、由于各种原因而引起的误差。 在概率抽样、非概率抽样和全面调查中,非抽样误差都有可能存在。 若采用了概率抽样方法,那么我们可以估计出抽样误差的大小,还可以通过选择样本量的大小来控制抽样误差。在谨慎执行的抽样调查中,抽样误差通常不大。而非抽样误差相对比较难以估计和控制。222tn22222tNNtnn 样本均值、方差、标准差和标准误抽样是随机进行的,
35、因此样本数据的属性,如样本数据的均值、方差、标准差、标准误等也是随机变量。这些随机变量具有怎样的统计特性,是我们关注的问题。首先来研究样本均值、方差、标准差与样本数n的关系。用函数RAND产生1000个随机变量作为总体,样本数分别为50、100和200。三个样本的均值、方差和标准差如图3.7所示。n 样本均值、方差、标准差和标准误抽样是随机进行的,因此样本数据的属性,如样本数据的均值、方差、标准差、标准误等也是随机变量。这些随机变量具有怎样的统计特性,是我们关注的问题。首先来研究样本均值、方差、标准差与样本数n的关系。用函数RAND产生1000个随机变量作为总体,样本数分别为50、100和20
36、0。三个样本的均值、方差和标准差如下表所示。n从上表可以看出,样本数量越大,样本的均值、方差、标准差越接近总体相应的数值。 如果抽样是随机的,样本的均值也是一个随机变量。下面我们来研究,样本均值这个随机变量服从什么样的分布。概率论中有一个非常重要的定理称为中心极限定理,该定理的内容是:无论总体服从何种分布,只要样本数越来越大,样本均值 就会逐渐接近正态分布。这个正态分布的均值为总体均值,标准差为 其中为总体标准差。因此,当样本数n很大时,样本均值的标准差将会逐步接近零。也就是说,当样本数量足够大时,样本均值 和总体均值将会非常接近npExcel 抽样工具Excel “工具/数据分析/抽样”提供
37、了周期抽样和随机抽样两种功能。Excel表“研究所员工资料.xls”提供了115名员工的信息。如果希望从该数据中每间隔7个样本抽取1个员工,操作如下:打开“工具/数据分析/抽样”l “输入区域”选择A1:A116,“抽样方法”选择“周期”,“周期”输入7,“输出选项”选择“输出区域”,并选择M2。n得到M2:M17共16个员工的样本。由于周期抽是按样本编号从小到大抽取的,无论抽到的样本放回还是不放回,任何样本不可能被重复抽中。n如果“抽样方法”选择“随机”,就需要输入“样本数”,例如样本数为15。 估计(Estimation)是运用样本的数据来测量总体参数的值。估计有点估计和区间估计。点估计(
38、Point estimation)是用样本测定总体的单一参数。区间估计(Interval estimation)给出总体参数的取值范围,同时给出一个计算标准误的方法。不同的样本对总体参数的估计是不相同的。如果所有可能的点估计的均值等于总体参数,这样的估计称为“无偏的”,否则是“有偏的”。无偏估计的图解无偏估计并不能根据一次抽样的样本就能得到总体参数的精确值。理论上说,只有当抽样次数越来越多,这些抽样估计的均值,才会逐步靠近总体参数。估计1、2、3、4的均值估计2估计1估计3估计4样本1样本2样本3样本4p 点估计点估计就是用抽样得到的一个样本的统计参数(样本均值、样本方差、样本标准差等)来估计
39、总体相应的统计参数(总体均值、总体方差、总体标准差等)。点估计包括:统计学理论可以证明,以上四个点估计都是无偏的x统计学理论可以证明,数量为n的样本,它们的方差s2和标准差s的分母为n-1时,它们对总体方差和总体标准差的估计才是无偏的。如果分母是n,对总体方差和标准差的估计会偏小。nxxnii1 样本均值 总体均值Nxnii1 样本方差 总体方差1)(122nxxsniiNxNii122)(运用无偏的点估计,只有在样本数据足够大时,点估计才有把握可以代表总体的统计指标。但是,点估计无法了解估计值和真实总体参数之间的误差。即样本数量要大到什么程度,有多大的把握,可以保证所估计的总体参数落在事先确
40、定的范围内。要解决这个问题,需要用区间估计。区间估计(Interval estimates)解决真实的总体参数以什么概率,落入哪一个区间范围的问题。这个概率称为置信水平(Level of confidence),这个区间称为置信区间(Confidence interval,CI)。例如“在90的置信水平下,总体参数的置信区间是102”,其中10是根据样本计算得到的点估计,2是边际误差。即这个区间为8,12。这个区间8, 12可能包括也可能不包括总体均值。置信水平为90,表示如果进行100次抽样,得到到100个不同的区间估计,那么其中90的区间估计包括真实的总体均值。n置信区间的宽度(即总体参数
41、估计的精确性)和两个因素有关:样本数量n和置信水平。n在一定的置信水平下(例如90),样本数量越多,置信区间宽度越小,也就是对总体参数的估计越精确。n样本数量n不变的情况下,置信水平要求越高(例如90,95,99等),置信区间宽度越大,即对总体参数的估计范围越大。n在一般情况下,置信水平为90就可以了,在要求比较高的情况下,置信水平可以提高到95,在极少数要求非常高的情况下,置信水平可以设为99。n均值的置信区间为了用样本的均值求出总体均值的置信区间,首先需要研究样本均值的分布。设总体均值为,标准差为。反复抽取样本数为n的样本。由于抽样的随机性,每次抽取的样本都不相同,样本的均值也不相同。因此
42、,样本的均值是一个随机变量。统计学的理论分析可以证明,无论总体服从什么分布,当样本数n很大时,样本的均值这个随机变量服从正态分布,它的均值等于总体均值,标准差等于总体标准差除以n的平方根,即:nx 称为样本的标准误。nxnx总体均值的抽样分布x/z2x/z22/2/1x/zx2x/zx2x包含总体均值的一个置信区间计算总体均值置信区间的三种方法n1. 先计算标准正态分布的置信区间,再进行区间变换的一个样本抽取样本数为n作为总体均值的点估计,并将计算样本均值xx计作为总体标准差的点估,并将计算样本的标准差ssnsx/计算样本的标准误置信区间)计算标准正态分布的根据置信水平(1置信区间区间换算成正
43、态分布的将标准正态分布的置信2/z2/z01- zxxnszx/2/x1- nszx/2/=NORMSINV($B$4)=B8/SQRT(B19)=B11*B12=B7-B13=B7+B132. 用NORMINV函数直接计算正态分布的置信区间l抽取样本数为n的一个样本l计算样本均值 ,并将 作为总体均值的点估计l计算样本的标准差s,并将s作为总体标准差的点估计l计算样本的标准误l用NORMINV(/2, , ) 和NORMINV(1- /2, , )分别计算正态分布的置信区间的左端点和右端点1- /2/2累积概率为/2累积概率为1-/2)n/s , x, 2/(NORMINVx)n/s , x
44、, 2/1 (NORMINVxxnsx/ns/xxns/=NORMINV($B$4,B7,B8/SQRT(B16)=NORMINV($B$3,B7,B8/SQRT(B16)n3. 用函数CONFIDENCE计算区间值(置信区间的半径)n抽取样本数为n的一个样本n计算样本均值 ,并将 作为总体均值的点估计n计算样本的标准差s,并将s作为总体标准差的点估计n用CONFIDENCE(, s, n)计算正态分布的置信区间的区间值(区间半径)n用 -CONFIDENCE(, s, n)作为置信区间的左端点n用 +CONFIDENCE(, s, n)作为置信区间的右端点xx注意:用函数CONFIDENCE
45、构造置信区间时,不需要计算 /2、(1- /2)和标准误 ,函数会根据、样本标准差s和样本数n自动计算。n/xx)n, s ,(CONFIDENCE)n, s ,(CONFIDENCExn例3.5 计算“不同年龄段上网时间统计.xls”中6个年龄组看电视时间均值的95置信区间。=CONFIDENCE($B$2,B7,B14)=B6-B8=B6+B8)n/s(zx2/)n/s(zx2/x影响置信区间宽度的因素分析数据量最大数据标准差最小置信区间宽度最小数据量最小数据标准差最大置信区间宽度最大由此可见,用样本估计总体均值时,样本数量越大,样本标准差越小,区间估计精度就越高比例的置信区间在很多情况下
46、,抽样是为了估计总体中具有两种不同性质的个体的比例。例如n人口统计抽样中男性和女性分别占总人口的比例;n选举调查中投某位候选人票和不投他票的选民比例;n商品市场占有率调查中某种商品市场份额和其他商品的市场份额。设x是具有某种特征样本的数量,n为样本量,p=x/n为样本比例。比例的100(1 - )置信区间是:nppzp)1 (2/n市场份额调查中,样本为2000件商品抽样中,A商品为95件,样本中A商品的份额为p=95/2000=4.75%。要求计算99置信水平A商品的市场份额置信区间。575. 2)995. 0(NORMSINV)995. 0(z995. 02/1005. 02/01. 09
47、9. 0)1 (99置信区间为0598. 0 ,0352. 00123. 00475. 000475. 0575. 20475. 02000)0475. 01 (0475. 0575. 20475. 0即有99的把握,A商品的市场份额在3.52%到5.98之间。n样本为500人的抽样中,男性人数为253人,样本中男性的比例为p=253/500=50.6%。要求计算95置信水平男性比例的置信区间。096. 1)975. 0(NORMSINV)975. 0( z975. 02/1025. 02/05. 095. 0)1 (95置信区间为:550. 0,462. 0044. 0506. 0022.
48、0960. 1506. 0500)506. 01 (506. 096. 1506. 0即有95的把握,男性人数的比例在46.2%到55.0之间。n选举中只有A、B两位候选人。对10000名选民的民意调查结果显示,明确支持候选人A的选民为4939人,明确支持候选人B的选民为4863人,还没有决定是否参加投票和支持哪一位候选人的选民为198人。要求在95的置信水平下,分别计算赞成选民和反对选民比例的置信区间。n在以前的例子中,调查的对象都具有非此即彼的特点。例如性别比的调查中,关注的对象为总体中的男性,总体中其他的对象就是非男性,即女性。又如市场占有率调查中,关注的对象是此类商品中品牌为A的商品,
49、总体中其他的对象就是这类商品中品牌不是A的商品。比例区间估计中的对象必须满足这样的特性。n而在选举民意调查中,出现了支持选民、反对选民和还没有决定的选民三种类型。如果对支持选民比例进行区间估计时,必须假定还没有决定的选民全部是反对选民;如果对反对选民比例进行区间估计时,必须假定还没有决定的选民全部是支持选民。这样才符合总体比例区间估计的要求。总体1总体2112121x2x1n2n1212xx2212,ss221212/2,12()dfssxxtnn/2,dft122211222222112212(/)(/)(/)11snsndfsnsnnn22112212(1)(1)1pnsnssnn1212
50、/2,(2)1211()nnpxxtsnn112,n n12,x x111222/,/pxn pxn12pp1112212/212(1)(1)()ppppppznn/2z/ 2140n 275n 126/40 0.15,11/75 0.147pp0.025(1 0.025)1.960zNORMSINV1122120.02512(1)(1)()0.15(1 0.15)0.147(1 0.147)(0.1500.147) 1.96040750.0030.137ppppppznn212,nx xx11niixxn2211()1niisxxn212222/2,11/2,1(1)(1),nnnsns置信