1、1一、输入数据的收集一、输入数据的收集二、分布的识别二、分布的识别三、参数估计三、参数估计四、拟合度检验四、拟合度检验五、相关性分析五、相关性分析2?模型的输入数据哪里来?模型的输入数据哪里来? 输入数据分析输入数据分析3生产仿真结果的准确性生产仿真结果的准确性生产模型的准确建立仿真数据的准确性仿真数据的准确性输入数据是仿真模型的动力输入数据是仿真模型的动力GIGO(garbage in garbage out)4系统名称系统名称典型的输入数据典型的输入数据排队系统排队系统 顾客到达的间隔时间顾客到达的间隔时间 顾客被服务时间的分布顾客被服务时间的分布自动化物流自动化物流系统系统 货物到达间隔
2、时间货物到达间隔时间 装载时间装载时间 卸载时间卸载时间生产系统生产系统 作业到达的间隔时间作业到达的间隔时间 作业类型的概率作业类型的概率 每种作业每道工序服务时间的分布每种作业每道工序服务时间的分布可靠性系统可靠性系统 生产无故障作业时间生产无故障作业时间 系统的仿真依靠这些原型系统的运行数据,缺乏这系统的仿真依靠这些原型系统的运行数据,缺乏这些数据的实验和实验值的提取,仿真也就毫无意义。些数据的实验和实验值的提取,仿真也就毫无意义。5收集原始数据收集原始数据 基本统计分布基本统计分布的辨识的辨识 参参 数数 估估 计计 拟合度检验拟合度检验 可信否?可信否?否是是输入数据分析的基础,需要
3、分析的经验,是输入数据分析的基础,需要分析的经验,对收集的方法、数据需要做预先的设计和估对收集的方法、数据需要做预先的设计和估算。因此这是一个关键的、细致的工作。算。因此这是一个关键的、细致的工作。通过统计的数学手段(计数统计、频率分析、通过统计的数学手段(计数统计、频率分析、直方图制作等),得出统计分布的假设函数直方图制作等),得出统计分布的假设函数(如:正态分布、负指数分布、(如:正态分布、负指数分布、Erlang分布分布等)等)根据统计特征,计算确定系统的假设分布参根据统计特征,计算确定系统的假设分布参数。数。运用统计分布的检验方法,对假设的分布函运用统计分布的检验方法,对假设的分布函数
4、进行可信度检验。通常采用的是数进行可信度检验。通常采用的是 2检验。检验。正确输入数据正确输入数据 6 做好仿真计划,详细规划仿真所需要收集的数据做好仿真计划,详细规划仿真所需要收集的数据在收集数据过程中要注意分析数据在收集数据过程中要注意分析数据数据的均匀组合数据的均匀组合收集的数据要满足独立性的要求收集的数据要满足独立性的要求数据自相关性的检验数据自相关性的检验 根据问题的特征,进行仿真的前期研究。分析影根据问题的特征,进行仿真的前期研究。分析影响系统的关键因素。从相关事物的观察入手,尽响系统的关键因素。从相关事物的观察入手,尽量收集相关的数据。为此可以事先设计好调研表量收集相关的数据。为
5、此可以事先设计好调研表格,并注意不断完善和修改调研方式,使收集的格,并注意不断完善和修改调研方式,使收集的数据更符合仿真对象的数据需要。数据更符合仿真对象的数据需要。数据的收集与仿真的试运行是密切相关的,应当是边收集数数据的收集与仿真的试运行是密切相关的,应当是边收集数据、边进行仿真的试运行。然而系统仿真是一项专业性很强据、边进行仿真的试运行。然而系统仿真是一项专业性很强的工作,要正确认识的工作,要正确认识“仿真仿真”的含义,抓住仿真研究的关键,的含义,抓住仿真研究的关键,避免求全、求精。确信所收集的数据足以确定仿真中的输入避免求全、求精。确信所收集的数据足以确定仿真中的输入分量,而对仿真无用
6、或影响不显著的数据就没有必要去多加分量,而对仿真无用或影响不显著的数据就没有必要去多加收集。收集。针对仿真所收集的各个数据需要进行相关性检验。为针对仿真所收集的各个数据需要进行相关性检验。为了确定在两个变量之间是否存在相关。要建立两个变了确定在两个变量之间是否存在相关。要建立两个变量的散布图。通过统计方法确定相关的显著性。量的散布图。通过统计方法确定相关的显著性。尽量把均匀数据组合在一组里。校核在相继的时间周期尽量把均匀数据组合在一组里。校核在相继的时间周期里以及在相继日子内的一时间周期里的数据的均匀性。里以及在相继日子内的一时间周期里的数据的均匀性。当校核均匀性时,初步的检验是看一下分布的均
7、值是相当校核均匀性时,初步的检验是看一下分布的均值是相同。同。考察一个似乎是独立的观察序列数据存在自相关的可能性。考察一个似乎是独立的观察序列数据存在自相关的可能性。自相关可能存在于相继的时间周期或相继的顾客中。例如,自相关可能存在于相继的时间周期或相继的顾客中。例如,第第i个顾客的服务时间与个顾客的服务时间与(i+n)个顾客的服务时间相关。个顾客的服务时间相关。 数据收集过程中的注意事项数据收集过程中的注意事项71 1直方图的构造方法如下:直方图的构造方法如下:取取值值区区间间划划分分水水平平 区区坐坐 间间标标 标标轴轴 注注的的计计 区区算算 间间确确 内内定定 的的每每 发发一一 生生
8、 数数垂垂直直 标标坐坐 注注标标 频频轴轴 数数上上绘绘 上上制制 的的各各 发发个个 生生区区 频频间间 数数绘绘制制直直方方图图81 1F分组区间的组数依赖于观察次数以及数据的分散或散分组区间的组数依赖于观察次数以及数据的分散或散布的程度。布的程度。F一般分组区间组数近似等于样本量的平方根。即:一般分组区间组数近似等于样本量的平方根。即: Nm 如果区间太宽(如果区间太宽(m太小),则直方图太粗或呈短粗状,这样,它的太小),则直方图太粗或呈短粗状,这样,它的形状不能良好地显示出来。形状不能良好地显示出来。如果区间太窄,则直方图显得凹凸不平不好平滑如果区间太窄,则直方图显得凹凸不平不好平滑
9、 合适的区间选择(合适的区间选择(m值)是直方图制作,分布函数分析的基础。值)是直方图制作,分布函数分析的基础。 0 05 51010151520202525012345678频率13579 11 13 15 17 19 21 23 259024681012频率1357911 13 15 17 19 21 23 25x1011121 1 设某一个随机过程设某一个随机过程X,其,其n个抽样样本为个抽样样本为x1,x2,xn,该样本的均值为,该样本的均值为 该样本的方差为该样本的方差为 如果离散数据已按频数分组,则如果离散数据已按频数分组,则niixnX1121221211)(11XnxnXXnS
10、niiniikiiixfnX11212211XnxfnSkiiik是是X中不相同数中不相同数值的个数即分组数,值的个数即分组数,fi是是X中数值中数值Xj的观的观察频数察频数 132 2XX1bmax1xnnb2,X22S分分 布布参参 数数建议使用的估计量建议使用的估计量泊松泊松指数指数在(在(0,b)上)上的均匀分布的均匀分布正态正态,仿真中常用的一些分布参数建议值仿真中常用的一些分布参数建议值 14?理论分布和实际分布的差异程度?理论分布和实际分布的差异程度? 拟合度检验拟合度检验150 02 24 46 68 8101012121 12 23 34 45 56 67 78 89 910
11、10 1111 1212 1313 1414 1515 1616 1717 1818 1919 2020 2121 2222 2323 2424 2525k=6iiiEEO220 Ei 是在该分组区间的期望频数。每一分组区间的期是在该分组区间的期望频数。每一分组区间的期望频数是望频数是 Ei = n pi, 这里这里pi是理论值,是对应第是理论值,是对应第i个分组区间的假设概率。个分组区间的假设概率。 2拟合度检验拟合度检验式中,式中,Oi是在第是在第i个个分组区间的观察频数。分组区间的观察频数。 Oi = ni /n 16可以证明:可以证明: 02近似服从具有自由度近似服从具有自由度 f =
12、 k- -s- -1的的 2分布。分布。这里这里 s 表示由采样统计量所估计的假设分布的参数个数。表示由采样统计量所估计的假设分布的参数个数。假设检验:假设检验:H0:随机变量:随机变量X服从参数是由参数估计给出的分布假设服从参数是由参数估计给出的分布假设。H1: 随机变量随机变量X不确认不确认若若 2太大则拒绝太大则拒绝H0,若拟合是好的,则期望值,若拟合是好的,则期望值 2很小。很小。拟拟合合程程度度的的判判定定首先划分区间,定义首先划分区间,定义k值值计算各组的观察频数计算各组的观察频数计算计算 0查阅查阅 2表,得到表,得到如果如果 ,则拒绝,则拒绝H0的值2, f拟拟合合度度检检验验
13、步步骤骤2,20f17指定拟合度的检验指定拟合度的检验 我们可以根据拟合度检验的要求,设定一个拟合度的我们可以根据拟合度检验的要求,设定一个拟合度的显著性指数显著性指数 ,根据设定的,根据设定的显著性指数显著性指数 以及以及 2分布的分布的自由度数自由度数f = k- -s- -1,可以查,可以查 2表得到表得到 ,f2 。 如果 则检验未通过,H0不成立。 如果 则检验通过, H0成立。2,20f2,20f在应用这个检验时,如果期望的频数太小,将对检验的有效性有在应用这个检验时,如果期望的频数太小,将对检验的有效性有所影响。一般情况下区间的个数所影响。一般情况下区间的个数k宜在宜在3040以
14、下,并能使最小期以下,并能使最小期望频数望频数Ei5。如果。如果Ei值太小,可以把它和相邻分组区间的期望频值太小,可以把它和相邻分组区间的期望频数相合并,对应的数相合并,对应的Oi值也应该合并起来,同时每当合并一个单元,值也应该合并起来,同时每当合并一个单元,k值应该减去值应该减去1。 18注意:(1)被检验的分布离散)被检验的分布离散 除非必须合并相邻分组区间以满足最小期望频数的除非必须合并相邻分组区间以满足最小期望频数的需要,否则随机变量的每个值应该是一个分组区间需要,否则随机变量的每个值应该是一个分组区间)()(iiixXPxpp(2)被检验的分布连续被检验的分布连续)()()(11ii
15、aaiaFaFdxxfpii连续分布分组区间数量的推荐值连续分布分组区间数量的推荐值样本容量样本容量2050100100分组区间个数分组区间个数k不使用不使用 2检验检验5101020n/5n19在在5分钟周期内的到达数分钟周期内的到达数每个周期的到达数每个周期的到达数频度频度每个周期的到达数每个周期的到达数频度频度01267110752198531793410103581111 120121019171087553310246810121416182001234567891011每个周期的到达数每个周期的到达数频度频度2 2212 2223 3kiiixfnX11212211XnxfnSki
16、ii64.3 X63.72s234 4假设:假设:分布。:随机变量不服从泊松布。:随机变量服从泊松分10HH泊松分布的概率质量函数:泊松分布的概率质量函数: 其他02 , 1 , 0)(!xxpxex24对于对于=3.64,不同,不同x值的概率从概率质量函数得到:值的概率从概率质量函数得到:140. 0)5(192. 0)4(211. 0) 3(174. 0)2(096. 0) 1 (026. 0)0(pppppp001. 0)11(003. 0)10(008. 0)9(020. 0)8(044. 0)7(085. 0)6(pppppp6 .2026.010000pnE25xi观测频度观测频度
17、Oi期望频度期望频度Ei0122.67.871109.621917.40.1531721.10.8041019.24.415814.02.57678.50.26754.411.62852.0930.81030.310.1合计合计10010027.6811拟合优良度检验2iiiEEO2)(2212.2177.626计算出:计算出:68.2720511712skf的自由度为:在显著性水平在显著性水平=0.05下,查表得出下,查表得出(p409):1.1125,05.0被拒绝。,025,05.020H27电子元件寿命记录电子元件寿命记录79.91979.9196.7696.769144.695144
18、.6950.6240.6247.0047.0043.0813.08159.89959.8992.6332.6335.385.3831.76431.7646.20E-026.20E-021.1921.19217.96717.9673.1483.1481.0051.0051.9611.96134.7634.769.10E-029.10E-027.0787.0781.1471.1475.8455.8455.0095.0099.0039.00323.9623.960.2190.2193.0273.02718.38718.3870.9410.9410.590.593.2173.2176.5056.505
19、0.1410.1410.8780.8781.9281.92814.38214.3822.10E-022.10E-0243.56543.5653.3713.3710.30.31.0081.0081.30E-021.30E-0224.4224.422.1572.1572.00E-032.00E-032.3362.3360.1230.1230.4330.4337.5797.5790.5430.5434.5624.56228假设:假设:分布。:随机变量不服从指数布。:随机变量服从指数分10HH令令k=8,则每个区间,则每个区间p=0.125 2ipeaFiai1)(kiipai, 2 , 1 , 0)
20、1ln(129,计算得出:,已知8084. 0/1kX876543210755.24503.16,677.11252. 8,595. 5425. 3,590. 10aaaaaaaaa30分组区间分组区间观测频度观测频度Oi期望频度期望频度Ei0,1.590)196.2526.011.590,3.425)106.252.253.425,5.595)36.250.815.595,8.252)66.250.018.252,11.677)16.254.4111.677,16.503)16.254.4116.503,24.755)46.250.8124.755,)66.250.01合计合计505039.
21、6拟合优良度检验2iiiEEO2)(31计算出:计算出:6.3920611812skf的自由度为:在显著性水平在显著性水平=0.05下,查表得出:下,查表得出:6.1226,05.0被拒绝。,025,05.020H32 系统运行过程中,随机变量有多个,如激励存在多种系统运行过程中,随机变量有多个,如激励存在多种因素的影响;系统参数的变化等。这些随机变量之间因素的影响;系统参数的变化等。这些随机变量之间可能是独立的,也有可能是相互有牵连的,牵连程度可能是独立的,也有可能是相互有牵连的,牵连程度的强弱有所不同。需要进行相关性分析。的强弱有所不同。需要进行相关性分析。 相关性分析的目的相关性分析的目
22、的:更好地了解系统以及系统随机变:更好地了解系统以及系统随机变量的关联性,更正确地把握问题的关键。量的关联性,更正确地把握问题的关键。331 1协方差和相关系数是X1和X2之间线性相关程度的度量)()(2211XX设X1和X2是两个随机变量,令)(),(2iiiiXVXE分别是Xi的均值和方差。2121221121)()(),cov(XXEXXEXXX1和X2的协方差的定义为34)0(0),0(0),cov(0, 0),cov(2121意味着;意味着XXXX相关系数212121),cov(),(XXXXcorr越接近于-1或1,X1和X2之间的线性关系就越强35样本协方差2121),(covX
23、X)(11)( )(11),(cov211212211121XXnXXnXXXXnXXnjjjjnjj相关系数36提前期提前期 6.5 4.3 6.9 6.0 6.9 6.9 5.8 7.3 4.5 6.3需求量需求量 103 83 116 97 112 104 106 109 9296例题9.20:令X1表示工业机器人交货的平均提前期,X2表示年需求量。下面的数据是过去10年的需求量和提前期:计算得到:93.9,80.101,02.1,14.62211XX5 .632821011jjjXX37因此66.8)110/(8 .10114.6105 .6328cov86.093.902.166.8
24、提前期和需求量有很强的依赖性382 2 假设要估计在自变量x与一个因变量y之间的相关性。设在y与x之间真实相关是线性关系,这里观察值y是随机变量。而x是数学变量。那么在给定x的值之下,y的期望值假设是式中:0为一未知常数,是x取零时y的值;1为斜率,即x变化一个单位所引起的y的变化,也是一个待定的未知常数。 xxyE1039假设 y 的每一个观察值可用下式表示y = 0 + 1 x + 式中 是均值为0,方差为2的随机误差。假设存在n对观察值(xi ,yi),i=1,2,n,通常采用最小二乘法来估计上式中的yi 。设 yi = 0 + 1 xi + i i=1,2,n,则 i = yi - 0
25、 - 1 xi 假设是不相关的随机变量。 40随机变量偏差 的平方和为(最小二乘法函数形式)为了使L(偏差)极小,可求出 和 ,并置它们为0,从而可以得到0 、1的线性代数方程,既有: niiL12niiixy12100L1L021100niiixyL021101iniiixxyLniiniixyn1110niiniiiniixyxx101121niiniiixxxxyxy121110niiniiynyxnx111,1412 2 检验统计量的构造方法 1的均方误差: 在xi处观测值yi与回归值yi之间的误差为均方误差值为也称为回归的剩余方差,它是误差方差的无偏估计量。iiiyyeyxxiyiy
26、ieiniiiiniiEyynenMS1212111142 构造检验统计量 服从自由度为n-2的t分布。设定一个显著性水平,当 时,x、y是显著相关。xxESMSt102,20ntt211221niiniiixxxxxnxXxESxS的自相关函数。是43提前期提前期 6.5 4.3 6.966.9 6.9 5.8 7.3 4.5 6.3需求量需求量 103 83 116 97 112 104 106 109 9296niiniiixxxxyxy121110niiniiynyxnx111,144计算出:计算出:8.25709451.10144121110niiniiixxxxyxy8 .101,14. 6yxxxy257094. 810144.51106070809010011012045678需求量提前期