1、14.1 仿真输入数据收集仿真输入数据收集第第4 4章章 仿真输入与输出数据分析仿真输入与输出数据分析4.2 仿真输入数据分析仿真输入数据分析4.34.3随机数与随机变量随机数与随机变量4.44.4仿真输出数据分析仿真输出数据分析4.1 仿真输入数据收集仿真输入数据收集4.2 仿真输入数据分析仿真输入数据分析23456模型的输入数据哪里来?模型的输入数据哪里来? 输入数据分析输入数据分析7生产仿真结果的准确性生产仿真结果的准确性生产模型的准确建立仿真数据的准确性仿真数据的准确性输入数据是仿真模型的动力输入数据是仿真模型的动力8系统名称系统名称典型的输入数据典型的输入数据排队系统排队系统 顾客到
2、达的间隔时间顾客到达的间隔时间 顾客被服务时间的分布顾客被服务时间的分布自动化物流自动化物流系统系统 货物到达间隔时间货物到达间隔时间 装载时间装载时间 卸载时间卸载时间生产系统生产系统 作业到达的间隔时间作业到达的间隔时间 作业类型的概率作业类型的概率 每种作业每道工序服务时间的分布每种作业每道工序服务时间的分布可靠性系统可靠性系统 生产无故障作业时间生产无故障作业时间 系统的仿真依靠这些原型系统的运行数据,缺乏这系统的仿真依靠这些原型系统的运行数据,缺乏这些数据的实验和实验值的提取,仿真也就毫无意义。些数据的实验和实验值的提取,仿真也就毫无意义。9 对系统进行认真的调查和分析后,可初步确对
3、系统进行认真的调查和分析后,可初步确定输入数据的种类和大致特性,接下来便定输入数据的种类和大致特性,接下来便是数据的采集。数据的采集可以在是数据的采集。数据的采集可以在所模拟所模拟的现实系统的现实系统中进行,也可以在中进行,也可以在所模拟系统所模拟系统的相近系统的相近系统中进行。当然,采集数据的环中进行。当然,采集数据的环境与所模拟的系统环境越相似越好。境与所模拟的系统环境越相似越好。104.1 仿真输入数据收集仿真输入数据收集 什么是数据收集?什么是数据收集? 数据收集的意义?数据收集的意义? 数据收集的基本态度?数据收集的基本态度?数据收集是针对实际问题,经过系统分析或经验的总结,以系统的
4、特征为目标,收集与此有关的资料、数据、信息等反映特征的相关数据。数据的收集是一项工作量很大的工作,也是在仿真中最重要、最困难的问题。即使一个模型结构是正确的,但若收集的输入数据数据不正确,或数据分析不对,或这些数据不能代表实际情况,那么利用这样的数据作为决策的依据必将导致错误,造成损失和浪费。数据收集工作应该具有科学的态度、忠于现实的工作作风。应该将数据收集工作、仿真工作的意义让参与者明确,得到参与者的支持和理解。114.1 仿真输入数据收集仿真输入数据收集收集输入数据的主要方法:收集输入数据的主要方法: 1.通过实际观测获得系统的输入数据。通过实际观测获得系统的输入数据。 2.由系统管理人员
5、提供实际系统的运行数据。由系统管理人员提供实际系统的运行数据。 3.从公开发表的研究成果、论文中收集类似系统从公开发表的研究成果、论文中收集类似系统的输入数据模型。的输入数据模型。124.1 仿真输入数据收集仿真输入数据收集 1. 按系统研究的目的和模型确定输入数据项目按系统研究的目的和模型确定输入数据项目 譬如: 对于单窗口排队系统对于单窗口排队系统 顾客到达间隔时间顾客到达间隔时间 顾客服务时间顾客服务时间 对于汽车转运站系统对于汽车转运站系统 汽车到达间隔时间汽车到达间隔时间 调度等待时间调度等待时间 装车时间装车时间 汽车故障间隔时间及处理时间汽车故障间隔时间及处理时间数据的收集的内容
6、和步骤数据的收集的内容和步骤: :12136. 粗略地分析粗略地分析, 对不规范的数据要进行处理或重对不规范的数据要进行处理或重 新收集新收集 2. 分析每个输入数据的特性分析每个输入数据的特性,环境环境, 研究采集方法研究采集方法, 编制采集计划编制采集计划3. 设计设计和绘制和绘制数据采集表格数据采集表格4. 确定采集地点和时间确定采集地点和时间5. 按计划分组采集按计划分组采集, 整理整理例:某银行汽车顾客到达间隔时间数据例:某银行汽车顾客到达间隔时间数据7.7.采集的数据经整理后要认真存档采集的数据经整理后要认真存档134.1 仿真输入数据收集仿真输入数据收集1414154.1 仿真输
7、入数据收集仿真输入数据收集 做好仿真计划,详细规划仿真所需要收集的数据做好仿真计划,详细规划仿真所需要收集的数据在收集数据过程中要注意分析数据在收集数据过程中要注意分析数据数据的均匀组合数据的均匀组合收集的数据要满足独立性的要求收集的数据要满足独立性的要求数据自相关性的检验数据自相关性的检验 根据问题的特征,进行仿真的前期研究。分析影根据问题的特征,进行仿真的前期研究。分析影响系统的关键因素。从相关事物的观察入手,尽响系统的关键因素。从相关事物的观察入手,尽量收集相关的数据。为此可以事先设计好调研表量收集相关的数据。为此可以事先设计好调研表格,并注意不断完善和修改调研方式,使收集的格,并注意不
8、断完善和修改调研方式,使收集的数据更符合仿真对象的数据需要。数据更符合仿真对象的数据需要。数据的收集与仿真的试运行是密切相关的,应当是边收集数数据的收集与仿真的试运行是密切相关的,应当是边收集数据、边进行仿真的试运行。然而系统仿真是一项专业性很强据、边进行仿真的试运行。然而系统仿真是一项专业性很强的工作,要正确认识的工作,要正确认识“仿真仿真”的含义,抓住仿真研究的关键,的含义,抓住仿真研究的关键,避免求全、求精。确信所收集的数据足以确定仿真中的输入避免求全、求精。确信所收集的数据足以确定仿真中的输入分量,而对仿真无用或影响不显著的数据就没有必要去多加分量,而对仿真无用或影响不显著的数据就没有
9、必要去多加收集。收集。针对仿真所收集的各个数据需要进行相关性检验。为针对仿真所收集的各个数据需要进行相关性检验。为了确定在两个变量之间是否存在相关。通过统计方法了确定在两个变量之间是否存在相关。通过统计方法确定相关的显著性。确定相关的显著性。尽量把均匀数据组合在一组里。校核在相继的时间周期尽量把均匀数据组合在一组里。校核在相继的时间周期里以及在相继日子内的一时间周期里的数据的均匀性。里以及在相继日子内的一时间周期里的数据的均匀性。当校核均匀性时,初步的检验是看一下分布的均值是相当校核均匀性时,初步的检验是看一下分布的均值是相同。同。考察一个似乎是独立的观察序列数据存在自相关的可能性。考察一个似
10、乎是独立的观察序列数据存在自相关的可能性。自相关可能存在于相继的时间周期或相继的顾客中。例如,自相关可能存在于相继的时间周期或相继的顾客中。例如,第第i个顾客的服务时间与个顾客的服务时间与(i+n)个顾客的服务时间相关。个顾客的服务时间相关。 数据收集过程中的注意事项数据收集过程中的注意事项16 收集数据收集数据, , 目的是分析数据的规律性目的是分析数据的规律性( (即分布即分布) )。如何了解数据的规律呢?如何了解数据的规律呢?1. 1. 看看数据是否符合某个理论分布。为此,可看看数据是否符合某个理论分布。为此,可 先按科学的方法假设一个先按科学的方法假设一个理论分布理论分布,再利用,再利
11、用 统计检验的手段来判断其是否符合这一分布。统计检验的手段来判断其是否符合这一分布。2. 2. 如果找不到一个合适的理论分布,可以如果找不到一个合适的理论分布,可以 利用已有的数据建立一个利用已有的数据建立一个经验分布经验分布。基本原则基本原则164.2 仿真输入数据分析仿真输入数据分析17n采用理论分布的优点采用理论分布的优点不仅可以表现已知数据的基本特性,更重要的不仅可以表现已知数据的基本特性,更重要的是可以表现没有采集到的所有数据的特性是可以表现没有采集到的所有数据的特性现实世界中大多数管理系统内的各类随机过程现实世界中大多数管理系统内的各类随机过程都有一定的概率分布规律都有一定的概率分
12、布规律几乎可以产生无限量的数据,从而满足长时间几乎可以产生无限量的数据,从而满足长时间模拟的需要模拟的需要4.2 仿真输入数据分析仿真输入数据分析18对具有随机变量的系统进行仿真,首先对具有随机变量的系统进行仿真,首先必须确定其随机变量的概率分布,以便在必须确定其随机变量的概率分布,以便在仿真模型中对这些不确定性进行模拟取样,仿真模型中对这些不确定性进行模拟取样,以得到需要的随机变量。以得到需要的随机变量。4.2 仿真输入数据分析仿真输入数据分析19)(x为X 的分布函数分布函数。设 X 是一个随机变量,定义定义1 1x的函数值的含义:上的概率. xF,(x分布函数分布函数的概念分布函数的概念
13、是任意实数,则称函数x)(xXPxF表示 X 落在20可以使用分布函数值描述随机变量落在区间里的概率。(1)21xXxP12xXPxXP)()(12xFxF21xXxP(2)1xXP21xXxP)()(12xFxF1xXP同理,还可以写出,21xXxP21xXxP21X,1, 2, 3,kkP Xxpk kkxxF xP XxpkkxxP Xx一般地一般地,设离散型随机变量,设离散型随机变量的分布律为的分布律为X由概率的可列可加性得由概率的可列可加性得的分布函数为的分布函数为22( )f x定义定义1. 设 F(x) 是随机变量 X的分布函数,若存在非负,使对任意实数 ,xxf则称 X为连续型
14、随机变量连续型随机变量,称为 X 的概率密度函概率密度函数数,简称概率密度概率密度或密度函数密度函数。x 有函数概率密度概率密度xdttfxF,)()(.)(必是连续函数分布函数对于连续型随机变量的xF232.概率密度的性质概率密度的性质 非负性 ( )1f x dx()( )1Ffx dx 由于0)(xf(3) f (x)在点x 处连续,则)()(xFxf243、连续性随机变量的特点、连续性随机变量的特点(1); 00 xXP(2)bXaPbXaPbXaP;)(badxxf(3) F(x)连续。1f (x)x0ab25只能采取匹配法,来选取最佳匹配的概率分布函数。只能采取匹配法,来选取最佳匹
15、配的概率分布函数。262.72.7 均匀分布均匀分布 指数分布指数分布设连续随机变量 的一切可能值充满某一X且在该区间内任一点概率密度相同,即密度函数 在区间 上为常量,)(xf,ba).,(baUX,ba个有限区间 称此分布为均匀分布均匀分布(或等概率分布等概率分布).).,(:baU记作时,上服从分布在当),(,baUbaX:记为理论分布一:理论分布一:均匀分布均匀分布(Uniform distribution) 27均匀分布的意义均匀分布的意义 ,),(Xba变量上服从均匀分布的随机在区间.),(性是相同的内的可能中任意等长度的子区间落在区间baxo)(xf a bab 1 lablp
16、l2.72.7 均匀分布均匀分布 指数分布指数分布282.72.7 均匀分布均匀分布 指数分布指数分布29.1 abC 均匀分布的概率密度与分布函数均匀分布的概率密度与分布函数于是1)(abCxdCba., 0;,1)(其它bxaabxf所以于是概率密度为(1) 概率密度2.72.7 均匀分布均匀分布 指数分布指数分布30 , 时当ax , 时当bxaxadxxf)(2) 分布函数; 0)()( xdxxfxFxaadxxfdxxfxF)()()( xadxab1;abax, 时当bx . 11badxabxbbaadxxfdxxfdxxfxF)()()()( badxxf)(2.72.7 均
17、匀分布均匀分布 指数分布指数分布31 ,均匀分布的分布函数为于是., 1;,;, 0)(bxbxaabaxaxxF2.72.7 均匀分布均匀分布 指数分布指数分布xo)(xF a b 132X. 0, 0;0,e)(xxxfx)(eX. 1ee)(00 xxdxdxxf 易知2.72.7 均匀分布均匀分布 指数分布指数分布理论分布三:理论分布三:指数分布(指数分布(Exponential distribution) 33:)(的图形密度函数xf2.72.7 均匀分布均匀分布 指数分布指数分布O)(xfx34.)(2, 1,31的的图图形形时时下下图图为为xf 2.72.7 均匀分布均匀分布 指
18、数分布指数分布1 35. 0, 0;0,e1)(xxxFx2.72.7 均匀分布均匀分布 指数分布指数分布xO)(xF11 36一、正态分布的定义及其特征一、正态分布的定义及其特征(一)定义(一)定义 若连续性随机变量若连续性随机变量X X的概率分布密度函数为:的概率分布密度函数为: 其中,其中,为平均数,为平均数,2 2 为方差,则称随机变量为方差,则称随机变量服从服从正态分布正态分布, ,记为记为N(N(, ,2 2).).相应的概率分布函数为相应的概率分布函数为理论分布三:理论分布三: 正态分布正态分布normal distribution0,21)(222)(xexfxxxexF222
19、)(21)(37(二)特征(二)特征正态分布密度曲线是以正态分布密度曲线是以= 为为对称轴的单峰、对称的悬钟形;对称轴的单峰、对称的悬钟形;f(x)f(x)在在=处达到极大值处达到极大值, ,极大极大值为值为f(x)f(x)是非负数,以是非负数,以x x轴为渐进线;轴为渐进线;曲线在曲线在 处各有一个拐点;处各有一个拐点;正态分布正态分布密度函数曲线密度函数曲线 21)(f38正态分布有两个参数,即平正态分布有两个参数,即平均数均数和标准差和标准差。是位置参是位置参数,数,是变异度参数。是变异度参数。分布密度曲线与横轴所夹的分布密度曲线与横轴所夹的面积为面积为1 1,即:,即:正态分布正态分布
20、密度函数曲线密度函数曲线 121)(222)(dxexPx39 相同而相同而不同的三个正态总体不同的三个正态总体 相同而相同而不同的三个正态总体不同的三个正态总体40二、标准正态分布二、标准正态分布standard normal distribution(一)定义一)定义 由于正态分布是依赖于参数由于正态分布是依赖于参数 和(或和(或)的的一簇分布,造成研究具体正态总体时的不便。因此将一般的一簇分布,造成研究具体正态总体时的不便。因此将一般的( (,2 2) )转换为转换为=0, =0, 2 2=1=1的正态分布,则称的正态分布,则称=0, =0, 2 2=1=1的正态分布为标准正态分布。标准
21、正态分布的概率密度函数的正态分布为标准正态分布。标准正态分布的概率密度函数及分布函数如下:及分布函数如下:若随机变量若随机变量U U服从标准正态分布,记作服从标准正态分布,记作U U(0, 1)(0, 1)dee222221)(,21)(41标准正态分布概率密度函数标准正态分布概率密度函数 42理论分布四:泊松分布理论分布四:泊松分布Possion distribution 泊松分布是一种可以用来描述和分析随机地发生在单位泊松分布是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的分布。所谓稀有事件即为小概率空间或时间里的稀有事件的分布。所谓稀有事件即为小概率事件。要观察到这类事件
22、,样本含量事件。要观察到这类事件,样本含量n n必须很大必须很大 。在生物、。在生物、医学研究中,服从医学研究中,服从泊泊松分布的随机变量是常见的。松分布的随机变量是常见的。 由于由于泊松分布泊松分布是描述小概率事件的,二项分布中是描述小概率事件的,二项分布中p p很小,很小,n n很大时,可使用很大时,可使用泊松分布泊松分布43 泊松分布常用于描述在某一指定时间泊松分布常用于描述在某一指定时间内或在某一指定范围内,源源不断出现的内或在某一指定范围内,源源不断出现的稀有事件个数的分布。稀有事件个数的分布。 例如,例如,120急救中心每天接到要求服务急救中心每天接到要求服务的呼叫次数;每天到达机
23、场的飞机数;在的呼叫次数;每天到达机场的飞机数;在早上(早上(7:00 8:00)交通高峰期间通过)交通高峰期间通过某一道口的机动车数;纺织品在单位面积某一道口的机动车数;纺织品在单位面积上的疵点数等等。上的疵点数等等。 44一、泊松分布的意义一、泊松分布的意义(一)定义(一)定义 若随机变量若随机变量X(X=x)X(X=x)只取零和正整数值,且其概率分布为只取零和正整数值,且其概率分布为 其中其中x=0 x=0,1 1,;0;e=2.71820;e=2.7182是自然对数的底数,是自然对数的底数,则称则称X X服从参数为服从参数为的的泊松分布泊松分布记为记为X XP(P() )。(二)特征二
24、)特征 泊松分布泊松分布作为一种离散型随机变量的概率分布有一个重作为一种离散型随机变量的概率分布有一个重要的特征。这就是它的平均数和方差相等,都等于常数要的特征。这就是它的平均数和方差相等,都等于常数 ,即即=2 2= = 。利用这一特征,利用这一特征, 可以初步判断一个随机变量是否服从泊松分布可以初步判断一个随机变量是否服从泊松分布()!xP Xxex45泊松分布泊松分布 = 4 46二、泊松分布的概率计算二、泊松分布的概率计算 是是泊松分布泊松分布所依赖的唯一参数。泊松分布的概率所依赖的唯一参数。泊松分布的概率计算,只要参数计算,只要参数确定了,问题就解决了。把确定了,问题就解决了。把x=
25、0,1,2,x=0,1,2,代入公式即可求得各项的概率。代入公式即可求得各项的概率。但是在大多数服从泊松分布的实例中,分布参数但是在大多数服从泊松分布的实例中,分布参数往往是未知的,只能从所观察的随机样本中计算出相应往往是未知的,只能从所观察的随机样本中计算出相应的样本平均数作为的样本平均数作为的估计值。的估计值。47 除理论概率分布理论概率分布外,还有一种由已知数据建立已知数据建立的经验分布的经验分布。其公式如下: 这是一条非减、右连续函数这是一条非减、右连续函数. . 110,1,2,.,1,1nkknxxkFxxxxknnxx当当当4748收集原始数据收集原始数据 基本统计分布基本统计分
26、布的辨识的辨识 参参 数数 估估 计计 拟合度检验拟合度检验 可信否?可信否?否是是输入数据分析的基础,需要分析的经验,是输入数据分析的基础,需要分析的经验,对收集的方法、数据需要做预先的设计和估对收集的方法、数据需要做预先的设计和估算。因此这是一个关键的、细致的工作。算。因此这是一个关键的、细致的工作。通过统计的数学手段(计数统计、频率分析、通过统计的数学手段(计数统计、频率分析、直方图制作等),得出统计分布的假设函数直方图制作等),得出统计分布的假设函数(如:正态分布、指数分布等)(如:正态分布、指数分布等)根据根据(样本的已知)统计特征(样本的已知)统计特征,计算确定,计算确定(总体未知
27、的)系统的假设分布参数(总体未知的)系统的假设分布参数。拟合优度检验的基本思路是将得到的拟合拟合优度检验的基本思路是将得到的拟合分布函数用原始数据进行统计假设检验。分布函数用原始数据进行统计假设检验。运用统计分布的检验方法,对假设的分布函运用统计分布的检验方法,对假设的分布函数进行可信度检验。通常采用的是数进行可信度检验。通常采用的是 2检验。检验。正确输入数据正确输入数据 输入数据模型确定的 基本过程4.2 仿真输入数据分析仿真输入数据分析49第4章4.2.1随机变量分布类型的辩识随机变量分布类型的辩识1.连续随机变量分布类型的辩识连续随机变量分布类型的辩识1 1)点统计法)点统计法 基本原
28、理是:基于连续随机变量的基本原理是:基于连续随机变量的偏差系数偏差系数,根据偏差系统,根据偏差系统的特征寻求与其相近的理论分布,并假设随机变量的分布为这一的特征寻求与其相近的理论分布,并假设随机变量的分布为这一理论分布。理论分布。偏差系数是均方差与均值的比,即偏差系数是均方差与均值的比,即 ,其中,其中 为随机变量分布的方差;为随机变量分布的方差; 为随机变量的均值(在点统计法中为随机变量的均值(在点统计法中计算的似然估计,即用样本均值和方差代替随机变量的总体计算的似然估计,即用样本均值和方差代替随机变量的总体期望和方差计算偏差系数的估计值)。期望和方差计算偏差系数的估计值)。根据连续随机变量
29、分布的偏差系数表根据连续随机变量分布的偏差系数表4 41 1,如果能够找到与,如果能够找到与的似然估计的值相同的偏差系数,则可以近似假设所收集的数据的似然估计的值相同的偏差系数,则可以近似假设所收集的数据服从该种理论分布。服从该种理论分布。var( )( )xE xvar( ) x( )E x50第4章4.2.1随机变量分布类型的辩识随机变量分布类型的辩识1.连续随机变量分布类型的辩识连续随机变量分布类型的辩识51 特点特点 简单,但不能唯一确定分布的类型。简单,但不能唯一确定分布的类型。4.2.1随机变量分布类型的辩识随机变量分布类型的辩识1.连续随机变量分布类型的辩识连续随机变量分布类型的
30、辩识52第4章4.2.1随机变量分布类型的辩识随机变量分布类型的辩识2)直方图法)直方图法直方图法的基本思路是:首先用观测到的样本数值建立随机变量的直方图法的基本思路是:首先用观测到的样本数值建立随机变量的概率密度直方图,然后将得到的直方图与理论分布的密度函数曲线图进概率密度直方图,然后将得到的直方图与理论分布的密度函数曲线图进行比较,从图形上直观的判断该随机变量是否满足某种理论分布。具体行比较,从图形上直观的判断该随机变量是否满足某种理论分布。具体步骤如下:步骤如下:(1)将观测的数据)将观测的数据 的取值范围分成的取值范围分成 个断开的相邻区间个断开的相邻区间 ,每个区间的宽度相等;记。,
31、每个区间的宽度相等;记。(2)对任意区间,设)对任意区间,设 为第为第 个区间上观测点的个数,记个区间上观测点的个数,记(3)定义函数)定义函数 (4)做出函数)做出函数 的直方图。的直方图。 (5)将直方图与理论分布的密度函数曲线图进行比较,确定被测函数)将直方图与理论分布的密度函数曲线图进行比较,确定被测函数服从哪种理论分布。只要找到与其直方图相近似的密度函数图,就可以服从哪种理论分布。只要找到与其直方图相近似的密度函数图,就可以假设随机变量服从该理论分布。假设随机变量服从该理论分布。1.连续随机变量分布类型的辩识连续随机变量分布类型的辩识12,nxxx01121,),),)kkbbbbb
32、b1iibbb ini(1, 2,)iignnik010,( ),kiiixbxbh xgbxb或( )h x534.2 仿真输入数据分析仿真输入数据分析1 1直方图的构造方法如下:直方图的构造方法如下:取取值值区区间间划划分分水水平平 区区坐坐 间间标标 标标轴轴 注注的的计计 区区算算 间间确确 内内定定 的的每每 发发一一 生生 数数垂垂直直 标标坐坐 注注标标 频频轴轴 数数上上绘绘 上上制制 的的各各 发发个个 生生区区 频频间间 数数绘绘制制直直方方图图541 1F分组区间的组数依赖于观察次数以及数据的分散或散分组区间的组数依赖于观察次数以及数据的分散或散布的程度。布的程度。F一般
33、分组区间组数近似等于样本量的平方根。即:一般分组区间组数近似等于样本量的平方根。即: Nm 如果区间太宽(如果区间太宽(m太小),则直方图太粗或呈短粗状,这样,它的太小),则直方图太粗或呈短粗状,这样,它的形状不能良好地显示出来。形状不能良好地显示出来。如果区间太窄,则直方图显得凹凸不平不好平滑如果区间太窄,则直方图显得凹凸不平不好平滑 合适的区间选择(合适的区间选择(m值)是直方图制作,分布函数分析的基础。值)是直方图制作,分布函数分析的基础。 0 05 51010151520202525012345678频率13579 11 13 15 17 19 21 23 254.2 仿真输入数据分析
34、仿真输入数据分析55024681012频率1357911 13 15 17 19 21 23 25x4.2 仿真输入数据分析仿真输入数据分析565758 例例4-2 注意选择适当的分段区间注意选择适当的分段区间4.2 仿真输入数据分析仿真输入数据分析59第4章4.2.1随机变量分布类型的辩识随机变量分布类型的辩识2. 离散型随机变量分布类型的辩识离散型随机变量分布类型的辩识1)点统计法)点统计法离散情况下的点统计法与连续的情况下的点统计方法相同,即同离散情况下的点统计法与连续的情况下的点统计方法相同,即同样采用计算偏差系数的方法,先得到偏差系数样采用计算偏差系数的方法,先得到偏差系数 的似然估
35、计,再寻找的似然估计,再寻找偏差系数相近的理论分布。偏差系数相近的理论分布。2)线图法)线图法线图法是把采集到的数据进行统计并与假设的理论分布的质量函线图法是把采集到的数据进行统计并与假设的理论分布的质量函数曲线进行比较,如果存在相近的理论分布,则可以假设其为该理论数曲线进行比较,如果存在相近的理论分布,则可以假设其为该理论分布。其具体做法为:分布。其具体做法为:采集数据为采集数据为 ,将其按递增顺序排列,由于可能有,将其按递增顺序排列,由于可能有相同的值的数据,设共有相同的值的数据,设共有 个取值(个取值( ),分别记为),分别记为 ; 是取值是取值 的数据个数占到总采集数据个数的比例数。以
36、的数据个数占到总采集数据个数的比例数。以 作为自变量,以作为自变量,以 的值作为函数的值;由函数值向相应的变量作垂的值作为函数的值;由函数值向相应的变量作垂线,所得到的图称为线图;再将得到的线图与假设的理论分布的质量线,所得到的图称为线图;再将得到的线图与假设的理论分布的质量函数进行比较,确定随机变量的分布。函数进行比较,确定随机变量的分布。12,nxxxmmn(1)(2)(),mxxxih( ) ix( ) ixih60第4章4.2.1随机变量分布类型的辩识随机变量分布类型的辩识3.实验分布实验分布61总体均值、比总体均值、比例、方差等例、方差等4.2.2 参数估计参数估计样本统计量样本统计
37、量例如:样本均例如:样本均值、比例、方值、比例、方差差624.2.2 参数估计参数估计63 设某一个随机过程设某一个随机过程X,其,其n个抽样样本为个抽样样本为x1,x2,xn,该样本的均值为,该样本的均值为 该样本的方差为该样本的方差为 如果离散数据已按频数分组,则如果离散数据已按频数分组,则niixnX1121221211)(11XnxnXXnSniiniikiiixfnX11212211XnxfnSkiiik是是X中不相同数中不相同数值的个数即分组数,值的个数即分组数,fi是是X中数值中数值Xj的观的观察频数察频数 4.2.2 参数估计参数估计64第4章4.2.2 参数估计参数估计用直方
38、图或线图确定所收集的样本数据服从某种理论分布之后,用直方图或线图确定所收集的样本数据服从某种理论分布之后,还要由观测到的样本值计算出理论分布的参数。还要由观测到的样本值计算出理论分布的参数。在数理统计中有许多参数估计的方法,如矩估计法、极大似然估在数理统计中有许多参数估计的方法,如矩估计法、极大似然估计法等。因本书的重点在于参数估计的应用,故仅给出常用的理论分计法等。因本书的重点在于参数估计的应用,故仅给出常用的理论分布参数及其估计值,如表布参数及其估计值,如表47所示:所示:65检验选定的分布是否与观测的数据相吻合检验选定的分布是否与观测的数据相吻合66理论分布和实际分布的差异程度?理论分布
39、和实际分布的差异程度? 拟合度检验拟合度检验67什么是假设检验?1. 事先对总体参数或分布形式作出某种事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假假设,然后利用样本信息来判断原假设是否成立设是否成立2. 采用逻辑上的反证法,依据统计上的采用逻辑上的反证法,依据统计上的小概率原理小概率原理68 什么小概率?什么小概率? 1. 在一次试验中,一个几乎不可能发生的在一次试验中,一个几乎不可能发生的事件发生的概率事件发生的概率 2. 在一次试验中小概率事件一旦发生,我在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设们就有理由拒绝原假设 3. 小概率由研究者事先确定小概率由研究
40、者事先确定69H0,H170 1LUP 1(01)设总体参数为设总体参数为 , L和U为由样本确定的两个统为由样本确定的两个统计量,对于给定的计量,对于给定的 ,有,有则称则称( L, U)为参数的为参数的置信水平置信水平为为 的的置信区间置信区间。该区间的两个端点该区间的两个端点 L, U分别称为分别称为置信下限置信下限和和置信上置信上限限,通称为置信限。,通称为置信限。 为为显著性水平显著性水平, 则称为则称为置信水平置信水平。1显著性水平显著性水平711. 将构造置信区间的步骤重复很多次,置将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的信区间包含总体参数真值的次数所
41、占的比例称为置信水平比例称为置信水平 2. 表示为表示为 (1 - 为是总体参数为是总体参数未在未在区间内的比例区间内的比例 3. 常用的置信水平值有常用的置信水平值有 99%, 95%, 90%相应的相应的 为为0.01,0.05,0.10置信水平 721.由样本统计量所构造的总体参数的估计区间称由样本统计量所构造的总体参数的估计区间称为置信区间为置信区间2.统计学家在某种程度上确信这个区间会包含真统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间正的总体参数,所以给它取名为置信区间 3.用用一个具体的样本所构造的区间是一个特定的一个具体的样本所构造的区间是一个特定
42、的区间,我们无法知道这个样本所产生的区间是区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个含参数真值的区间中的一个置信区间 73置信区间与置信水平 74用统计量用统计量决策决策 /2 1 - 置信水平75761.由阿贝由阿贝(Abbe) 于于1863年首先给出,后来由海尔墨特年首先给出,后来由海尔墨特(Hermert)和卡和卡皮尔逊皮尔逊(KPearson) 分别于分别于1
43、875年和年和1900年推导出来年推导出来2.设设 ,则,则3.令令 ,则,则 y 服从自由度为服从自由度为1的的 2分布,即分布,即4.对于对于n个正态随机变量个正态随机变量y1 ,y2 ,yn,则随机变量,则随机变量4. 称为具有称为具有n个自由度的个自由度的 2分布,记为分布,记为2-分布77 2-分布分布(性质和特点性质和特点)1. 期望为:期望为:E( 2)=n, 方差为:方差为:D( 2)=2n(n为自由度为自由度) 2. 可加性:可加性: 若若U和和V为两个独立的为两个独立的 2分布随机变量,分布随机变量,U 2(n1),V 2(n2),则则U+V这一随机变量服从这一随机变量服从
44、自由度为自由度为n1+n2的的 2分布分布 3. 当当 时,时, 2分布的极限分布是正态分布的极限分布是正态分布分布78不同自由度的2-分布794.2.3 拟合优度检验拟合优度检验1.拟合优度检验的目的拟合优度检验的目的 检验选定的分布是否与观测的数据相吻合检验选定的分布是否与观测的数据相吻合2. 拟合优度检验的原则拟合优度检验的原则 H H0 0假设假设: : 观测数据观测数据 X Xi i 是以是以 F F 为分布的为分布的 随随机变量。机变量。 通过通过 H H0 0 假设检验假设检验, , 说明不能拒绝该假设说明不能拒绝该假设. . 不拒绝不拒绝假设假设, , 并不等于并不等于接受接受
45、假设假设. . 7980 拟合优度检验的方法拟合优度检验的方法: 1. 直观评估检验 (密度函数的直观比较密度函数的直观比较) 2. 检验 (密度函数的统计比较密度函数的统计比较) 3. K - S 检验 (分布函数的统计比较分布函数的统计比较)24.2.3拟合优度检验拟合优度检验8081 1 直观评估检验直观评估检验: : 将所选分布的密度函数曲线与数据的柱状图绘制在一起,用眼睛眼睛进行比较,直观评估. 例: 某银行汽车服务窗口顾客到达间隔时间所选分布 (指数分布)的检验 1.绘制柱状图 2.绘制所选分布的密度曲线 3.将两张图放在一起比较 4.观察拟合情况4.2.3 拟合优度检验拟合优度检
46、验8182 某银行汽车服务窗口顾客到达间隔时间柱状图某银行汽车服务窗口顾客到达间隔时间柱状图1 直观评估检验直观评估检验8283 某银行汽车服务窗口顾客到达间隔时间某银行汽车服务窗口顾客到达间隔时间所选指数分布的密度曲线所选指数分布的密度曲线f xxe( )./ .1039903991 直观评估检验直观评估检验8384柱状图与密度曲线的直观比较柱状图与密度曲线的直观比较1 直观评估检验直观评估检验8485 2 检验检验 检验是对观测数据的柱状图与拟合分布的密检验是对观测数据的柱状图与拟合分布的密度函数的统计比较度函数的统计比较. 检验的步骤检验的步骤: n个数据,个数据, X1,X2,X3,.
47、,Xn 1. 1. 设定区间数设定区间数 K,K,计算理论上每个数落入每个区间计算理论上每个数落入每个区间的概率的概率 P Pj j=1/k=1/k,则理论上落入每个区间的点数为,则理论上落入每个区间的点数为 nPnPj j. . 2. 2. 将观测数据排序(从小到大)将观测数据排序(从小到大). . 3. 3. 分区间分区间, , 计算各区间的端点计算各区间的端点 a a0 0,a,a1 1,a,a2 2,.,.a ak k 4. 4. 计算实际上落入每个区间数据的点数计算实际上落入每个区间数据的点数 N Nj j 5. 5. 计算计算22224.2.3 拟合优度检验拟合优度检验85862(
48、)21NnPKjjnPjj 6.查查 分布表分布表27. 比较和判断比较和判断2 检验检验28687 用观测数据的用观测数据的经验分布经验分布函数函数. .与与所选拟合分布的所选拟合分布的分布函数分布函数相比较相比较DnDn3 K-S 检验检验4.2.3拟合优度检验拟合优度检验8788拟合优度的拟合优度的K-S K-S 检验检验原理原理,方法方法 进行进行K-S检验首先必须给所分析的数据确定一检验首先必须给所分析的数据确定一个先验分布,可以从已知数据中确定其分布函数如个先验分布,可以从已知数据中确定其分布函数如下:下:8889拟合优度的拟合优度的K-S K-S 检验检验( )F x( )( )
49、nnixDSUP F xF x( )nF x 若若 为拟合分布函数,则为拟合分布函数,则 与与 的相的相似程度就表示拟合优度,似程度就表示拟合优度,K-S检验统计值定义为两检验统计值定义为两者在所有者在所有X值上的最大垂直距离,即值上的最大垂直距离,即max ()11max ()1max,iDF xnininiDF xnininDDDnnn ( )F x8990拟合优度的拟合优度的K-S 检验检验 若若Dn的值很大,则拟合的情情况不好,检验的的值很大,则拟合的情情况不好,检验的结论是:结论是: 临界点的数值与拟合分布确定方法有关,查表临界点的数值与拟合分布确定方法有关,查表即可得到。即可得到。n0Dd,Hn,1-如果超过某个常数则应该拒绝假设90