1、主要内容主要内容n数理统计模型概述数理统计模型概述n描述性统计描述性统计n推论性统计模型推论性统计模型n统计模型中常见的错误统计模型中常见的错误n统计模型建立程式统计模型建立程式n举例举例第一节 数理统计模型概述一、统计分析概述一、统计分析概述 统计分析通过计算研究对象的特征的样本平均值、方差,或者所占百分比,研究样本特征值与母体特征值的关系,研究变量之间的关系,特别是因果关系,从而发现被研究对象的发展规律,或者验证有关假想、结论是否成立,验证有关理论在新的时空中是否成立。进而可以针对深层原因,引出改变客观世界的策略。二、统计的两种功能二、统计的两种功能描述与推理描述与推理n描述性统计(des
2、criptive statistics) 描述性统计是概括所取得数据的共有性质。n推论性统计(inferential statistics)。 推论性统计帮助研究人员对数据做出判断。三、管理研究中统计分析的功能三、管理研究中统计分析的功能n统计分析的方法可以为管理研究提供一种清晰精确的形式化语言;n统计分析是进行科学预测、探索未来的重要方法;n统计分析技术是处理调查研究资料的必要工具。第二节第二节 描述性统计模型描述性统计模型一、集中趋势分析一、集中趋势分析(一)含义:(一)含义: 集中量数也称集中趋势量数,是用一个数值去代表一组数据的一般水平。常用的集中量数有平均数、中位数和众数平均数、中位
3、数和众数。平均数平均数是所有测量数据的算术平均值,中位数中位数是将测量数据按大小顺序一分为二的变量属性值,即位于排列顺序中间位置的数值,众数众数是测量数据中出现频率最高的数值。 例n有一组数据是9位工人本月的产量:96、96、97、99、100、101、102、104、155。n则:平均数为1055,中位数为100,众数为96。(二)集中趋势分析的作用(二)集中趋势分析的作用n集中量数说明某一管理现象在一定条件下,其数量的一般水平。n集中量数可以对于在不同空间的同类现象进行比较。n集中量数可以对一定管理现象在不同时间中的变化进行比较,以说明这些现象的发展趋势和规律。n集中量数可以用来分析某些管
4、理现象之间的依存关系。二、离散趋势分析(一)含义 离散趋势分析是反映测量数据的分散程度,其常用指标有:极差(range)与标准差(standard deviation)。极差是测量数据中的最大值与最小值之间的差异,由两个极端值来决定,只适用于定距与定比数据。标准差综合反映所有数据的分散程度,与平均数配套使用,适用于定距于定比数据, 其计算式为: 其中,为标准差 ,x为样本值,X为平均数,N为样本总数。Nx(xi2)三、 频数与频率分析 为直观地反映一组测量数据的分布状况,经常用频数与频率分析。频数分布描述测量值中各属性值出现的次数,频率分布则是用比率的形式来表示,各属性值除以样本总数即可得到该
5、属性值的频率。n频数分布也可转化为可视化的表达方式,如长条图、直方图、饼图。n在SPSS统计软件中,具体操作是:在统计菜单(statiatics)中单击摘要(summarize)、频数(frequencies),并在频数对话框中选择所要的图表(charts),即可获得这些图表。 第三节 推论性统计模型统计推断的功能统计推断的功能 从随机样本中推断总体参数特征、以统计为基础验证假设。一、双变量的回归分析与相关分析一、双变量的回归分析与相关分析n回归分析模型收入X居民储蓄量Y(一)回归模型XY1、回归模型的概念 强的正相关强的正相关 弱的正相关弱的正相关中间程度的正相关中间程度的正相关 | r |
6、 = 0.936 | r | = 0.560 | r | = 0.3390 强的负相关强的负相关 弱的负相关弱的负相关中间程度的负相关中间程度的负相关 确立确立X X与与Y Y的关联性的关联性回归回归寻找寻找“Y”“Y”与与“X”“X”关系的方法关系的方法什么是回归?什么是回归?描述“ Y”与“X”关系的数学方法 创建过程的“模型”。回归分析回归分析 相关是告诉关系的程度相关是告诉关系的程度, ,回归分析是找出回归分析是找出Y=F(X)Y=F(X)的函数关系式的函数关系式 单纯线性回归单纯线性回归回归分析的阶段回归分析的阶段此章的因子为一个此章的因子为一个, ,因子和输出值因子和输出值(Y)(
7、Y)的关系为直线关系的单纯线性回归的关系为直线关系的单纯线性回归( (Simple Simple LinearLinear Regression) Regression)Data Data 收集收集用散点图确认关系用散点图确认关系用最小二乘法用最小二乘法推断总体推断总体进行方差分析进行方差分析画直线画直线( (Line Fitting)Line Fitting)分析残差分析残差通过样本推测的直线未知的真实直线 Yi = + xi + i (i = 1,., n) i 是相互独立的 遵守N(0, 2) 的概率变量单纯线性回归模型bxayxxy/iei(xi, yi)xy在这里, i iid N(
8、0,2)Model定义 一个独立变量(x)与 一个从属变量(Y)间的关系方程式化后显示的方法将误差平方和最小化的推断方法,找出将残差平方最小化的直线. 420 410 400 390 380 370 360 350 340 330 320 350 400 450 独立变量独立变量 从属变量最小平方和的单纯回归最小平方和的单纯回归单纯回归直线单纯回归直线与回归直线的与回归直线的差异差异直线是以直线是以“最小平方和推断法最小平方和推断法( (least square estimation)least square estimation)”的的原则画出的原则画出的. .从资料的点到直线从资料的点到直
9、线的距离的平方和最小化的距离的平方和最小化. .e eb bScatter Plot Y vs.X with Fitted LineY = a + bX直线的方程式是直线的方程式是 Y = a +bXY = a +bX a a是是 常数常数, b, b是斜率是斜率. . “ “拟合线拟合线”是包括实际点和直线的平是包括实际点和直线的平 方差的和最小化后形成的直线方差的和最小化后形成的直线. . 实际资料的点和直线的差异称为实际资料的点和直线的差异称为 残差残差( (residuals(e).residuals(e).拟合线拟合线, ,回归方程式构造回归方程式构造1.回归模型 的参数确定ny=a
10、+bxn由历史数据得一组x、y值,可求出参数a、b n由最小二乘法得:xbya22 xxyxxyb例n某企业年投入资本(十万元)x与销售量(万台)y的历史数据如下:yx101.920.912.440.46.451.27.060.37.078例yxx2xy101.93.61020.912.4153.711.140.46.440.962.5651.27.0498.460.37.0492.12.834.7296.3324.2平均0.566.9459.264.843.88648.16yx2x计算结果n某企业年投入资本(十万元)x与销售量(万台)y的历史数据如下:xyabxxyxyxiii086. 00
11、38. 0038. 0086. 01636.4833.2968864. 322.24163.48 33.2968864. 3 22.24222、用软件进行回归分析的运算(1)一元回归模型的软件运算 a.图象分析 b.回归运算二、二元回归模型的软件运算n 运算步骤1、统计值说明n各统计值在计算机参数输出中的位置:mnmn-1m2m1bSenSen-1Se2Se1Sebr2SeyFdfSSregSSresid1、统计值说明(1)解释变量、被解释变量: y=m1x1+m2x2+b(2)系数 m1,m2,.,mn 系数是解释变量对预测值的贡献解释变量被解释变量1、统计值说明(3)系数的标准误差值 Se
12、1,Se2,.,Sen 系数 m1,m2,.,mn 的标准误差值。 sqrt()/()/sqrt(x)2) 其中,为自变量,为因变量观测值,为线形拟合值,平均值计为x真值在系数估值正负1倍的标准差区间概率是2/3 Seb 常数项 b 的标准误差值1、统计值说明(4)判定系数r2 Y 的估计值与实际值之比 范围在 0 到 1 之间。如果为 1,则样本有很好的相关性,Y 的估计值与实际值之间没有差别。而在另一方面,如果判定系数为 0,则回归方程不能用来预测 Y 值。1、统计值说明(5)Y 估计值的标准误差Sey 真值在Y估值正负1的标准差区间概率是2/3(6) F 统计值或 F 观察值F 使用 F
13、 统计可以判断因变量和自变量之间是否偶尔发生过观察到的关系。(7)置信度df 用于在统计表上查找 F 临界值。所查得的值和函数 LINEST 返回的F统计值的比值可用来判断模型的置信度。1、统计值说明(8)回归平方和SSreg(9)残差平方和SSresid作业4n某企业的资金投入X与销售收入Y如下表:试用一元回归方法求出回归线,说明两者的相关关系并对X=57万元企业销售额进行预测。X(万元)Y(万元)110130218180323200435250542310例2n 某市国内生产总值y与固定资产投入X1、劳动力投入X2的历史数据如下表,试用线性回归方法确定其参数值。序号yX1X21539112
14、64191438221154923417512043196160562071807229例2n-2.08797n2.651822n48.34758nY=2.65X1-2.09X2+48.35n预测:x1=82, X2=35 y=?nY=192.71作业n2000年某企业产品销售量Y与企业销售投入量X1、销售点增加量X2历史数据如下表,试用回归方法求其参数值。说明两者的相关关系并对(X1=140,X2=41)的Y值进行预测。作业序号YX1X2142205262237383509480701259977156120891871609920819011030923012031三、参数估计(一)含义
15、参数估计是从样本的统计值来估计总体的参数值,其逻辑程序是先有样本分布,再推测总体。当样本对总体参数进行估计时,有两种估计方法:点估计(poim estimation)与区间估计(interval estimation)。 1、点估计 点估计是将样本中某统计量的值作为相应总体参数值的单一估计。 例: 想了解某种新产品在各省会城市的销售量,我们可抽去一些省会城市调查其销售量,然后求其平均值,即为平均销售量估计。当然,如果另外抽取几个城市,就会发现其平均销售量不完全一致,这说明点估计值本身就是一个随机变量。2、区间估计 区间估计不是采用通常度量准确性的方法,如允许估计值与真实值有百分之几的误差,而要
16、判断真实值有多大可能落在样本统计值分布的某一范围、(置馈区间)之内。这一范围越大,估计值的准确性就越低。统计值落在允许偏差的范围的概率越大,故计值的可靠性就越高。一般来说,在管理研究中,置信水平选择95或99,即O95或099的概率,真实值落在偏差范围之内,允许不超过005或O01的概率超出此范围。四、假设检验(一)含义 假设检验是先对总体参数作出假设,然后从样本统计值去检验它是否与假设参数值一致。(二)假设检验中两类错误n在假设检验中存在两类错误:样本是随机抽取的,但也有意外,例如样本没有反映典型特征。当我们错误地将偶然发生的事件当作非偶然发生的,进而错误地将虚无假设否定,则就犯了第一类错误
17、;n如果将原本错误的事件认为是正确的,没有否定本该否定的虚无假设,则就犯了第二类错误。(三)t检验n(t-test)是检验定距或定类变量的相关性,即在定距或定类尺度上,两群体之间是否存在差异。nT检验是未知正态总体 X 的方差 ,对数学期望作假设检验; 检验是未知正态总体X的数学期望,对方差 作假设检验。 222例: 有MBA资格的人员是否比企业管理专业的本科毕业生表现要好?男性与女性对激励的反映是否相同?此类问题可通过t检验来分析研究变量中不同群体的平均数是否有显著差异,亦即针对具有两个子类别的定类变量(男性与女性、MBA与本科生)进行检验,看这两个群体在定距或定比尺度上(反映程度、表现程度
18、等)的平均数是否存在显著差异。T检验方法选择分析平均值比较独立样本t检验选择分组变量选择置信水平选择置信水平输出结果(四)方差分析1、含义: 方差分析(ANOVA)是检验因变量是定距或定比尺度时,两个以上群体之间的平均的显著差异。例: 4组促销人员之间是否存在显著差异:一组被送到学校系统学习营销课程;一组通过实地考察在职训练,一组由经验丰富的销售经理进行指导,一组没有接受上述训练。利用方差分析来确定不同群体之间是否存在显著差异可通过F统计量获得。 2、具体方法选择分析平均值比较单因素方差分析选择两变量输出结果(五)2检验1、含义 2检验(chi:square test)是用于检验两个定类变量发
19、生频次之间是否存在差异 。例: 在超市随机选择90位顾客征求他们对三种饮料的偏好,如果40位选择甲,30位选择乙,20位选择丙,即观测频次为(40,30,20),如果虚无假设(三种饮料的顾客偏好不存在差异)成立,其期望频次应为(30,30,30),x检验就是要判断观测频次(40,30,20)与期望频次(30,30,30)之间的差异是否显著。2、方法选择分析描述统计建立交叉表统计选择2输出结果第四节 统计分析中的常见错误一、样本平均值当作母体平均值对待 样本平均值当作母体平均值对待,不做显著性检验,是常见错误之一例: 在营销研究中针对某产品设计了两种邮购广告,分别用随机抽样的方法对居民邮寄广告,
20、甲广告寄出200份,有44位居民订购了相应的产品,乙广告寄出400,有1oo位居民订购了该产品。此时很容易算出,甲广告的订购率为22,己广告的订购率是25。我们是否可以依此就得出结论:乙广告设计比甲广告设计的好(乙广告的订购率高于甲广告)? 常见的错误就是直接依据两组样本的比例值常见的错误就是直接依据两组样本的比例值( (甲广告甲广告的订购率为的订购率为2222,乙广告的订购率是,乙广告的订购率是2525) )来做结论,认来做结论,认为乙广告优于甲广告为乙广告优于甲广告( (乙广告的订购率高于甲厂告乙广告的订购率高于甲厂告) )。结论: 事实上,乙广告未必优于甲广告,因为两个比例值是分别基于2
21、00个样本和400个样本得出的。如果继续扩大样本容量,甲乙两个广告的订购率就可能发生变化。我们要做的事情,就是依据这两组样本数据(甲组200个,乙组400个)来推断甲乙两种广告设计的优劣。这是显著性的检验的问题。显著性检验的结果是,不能认为两者具有显著性差异。二、做相关分析时不做显著性检验 n做相关分析时不做显著性检验,用简单相关分析替代偏相关分析,是又一常见错误。n偏相关表示在消除其他变量的影响之后,自变量与因变量之间的关联程度。 例: 分析工人的劳动生产率与文化水平之间的关联时,要受到年龄因素的影响。偏相关分析首先用一元回归分析年龄与文化水平之间的关系,回归方程的残差(多项说明不能由文化水
22、平来解释年龄的偏差;然后求劳动生产率与年龄之间的回归方程及残差,反映不能由年龄来解释劳动生产率的偏差;最后第三个回归方程来分析第一、第二个回归方程残差之间的关联,它表示消除年龄对其他两个变量的影响后文化水平与劳动生产率之间的关联,由此算出相关系数即为偏相关系数。同样,偏相关系数的计算公式无需记忆,多数统计软件都可以输出该系数值。 结论: 偏相关系数与简单相关系数在意义上是不同的,简单相关系数将其他因素作为剩余因素,任其变化而忽略不计。偏相关系数是在其他变量的关系保持不变的情况下,分析与另一变量之间的关系。值得注意的是,偏相关系数可以表示两变量之间的关联强度,但不能反映二者之间变化的定量关系 三
23、、在获得数据之后,没有能力与知识、运用恰当的统计方法,引出科学的结论 (一)引出科学结论的基本方法: (1) 对对象系所处状况的统计,如收入的均值、方差,各种态度的百分比,某个特征量的分布等; (2) 两组人群的某特征量的均值的比较,检验有无显著性差异,如培训前后业务水平、两种激励政策的效果差异、两种管理方法的效果有无显著差异。进一步检验两个随机变量构分布是否相同。 (3)方差分析,用以解决多组的平均值有无显著性差异,找出哪些因素有交叉作用;还可以从多个因素中(每个因素有多个水平),找出对效果有显著作用的因素,俗称找出关键原因。 (4)相关研究 用于研究变量之间是否存在相关关系,包括简单相关关
24、系、等级相关关系、品质相关关系(如抽烟与癌症的相关关系、包装偏爱与文化程度的相关关系等),及偏相关关系(即两个变量之间的“纯”相关关系)。回归模型是用统计分析方法建立的最常用的一类模型回归模型是用统计分析方法建立的最常用的一类模型 数学建模的基本方法数学建模的基本方法机理分析机理分析测试分析测试分析通过对数据的统计分析,找出与数据拟合最好的模型通过对数据的统计分析,找出与数据拟合最好的模型 不涉及回归分析的数学原理和方法不涉及回归分析的数学原理和方法 通过实例讨论如何选择不同类型的模型通过实例讨论如何选择不同类型的模型 对软件得到的结果进行分析,对模型进行改进对软件得到的结果进行分析,对模型进
25、行改进 由于客观事物内部规律的复杂及人们认识程度的限制由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型。律的数学模型。 10.1 牙膏的销售量牙膏的销售量 问问题题建立牙膏销售量与价格、广告投入之间的模型建立牙膏销售量与价格、广告投入之间的模型 预测在不同价格和广告费用下的牙膏销售量预测在不同价格和广告费用下的牙膏销售量 收集了收集了30个销售周期本公司牙膏销售量、价格、个销售周期本公司牙膏销售量、价格、广告费用,及同期其它厂家同类牙膏的平均售价广告费用,及同期其它厂家同类牙膏的平均售价 9
26、.260.556.804.253.70307.930.055.803.853.80298.510.256.754.003.7527.38-0.055.503.803.851销售量销售量(百万支百万支)价格差价格差(元)(元)广告费用广告费用(百万元百万元)其它厂家其它厂家价格价格(元元)本公司价本公司价格格(元元)销售销售周期周期基本模型基本模型y 公司牙膏销售量公司牙膏销售量x1其它厂家与本公司其它厂家与本公司价格差价格差x2公司广告费用公司广告费用110 xy222210 xxy55.566.577.577.588.599.510 x2y-0.200.20.40.677.588.599.5
27、10 x1y22322110 xxxyx1, x2解释变量解释变量(回归变量回归变量, 自变量自变量) y被解释变量(因变量)被解释变量(因变量) 0, 1 , 2 , 3 回归系数回归系数 随机随机误差(误差(均值为零的均值为零的正态分布随机变量)正态分布随机变量)MATLAB 统计工具箱统计工具箱 模型求解模型求解b,bint,r,rint,stats=regress(y,x,alpha) 输入输入 x= n 4数数据矩阵据矩阵, 第第1列为全列为全1向量向量1 2221xxxalpha(置信置信水平水平,0.05) 22322110 xxxyb 的的估计值估计值 bintb的置信区间的置
28、信区间 r 残差向量残差向量y-xb rintr的置信区间的置信区间 Stats检验统计量检验统计量 R2,F, p yn维数据向量维数据向量输出输出 由数据由数据 y,x1,x2估计估计 参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000 0 1 2 3结果分析结果分析y的的90.54%可由模型确定可由模型确定 参数参数参数估计值参数估计值置信区间置信区间17.32445.728
29、2 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000 0 1 2 322322110 xxxyF远超过远超过F检验的临界值检验的临界值 p远小于远小于 =0.05 2的置信区间包含零点的置信区间包含零点(右端点距零点很近右端点距零点很近) x2对因变量对因变量y 的的影响不太显著影响不太显著x22项显著项显著 可将可将x2保留在模型中保留在模型中 模型从整体上看成立模型从整体上看成立22322110 xxxy销售量预测销售量预测 价格差价格差x1=其
30、它厂家其它厂家价格价格x3-本公司本公司价格价格x4估计估计x3调整调整x4控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=650万元万元销售量预测区间为销售量预测区间为 7.8230,8.7636(置信度(置信度95%)上限用作库存管理的目标值上限用作库存管理的目标值 下限用来把握公司的现金流下限用来把握公司的现金流 若估计若估计x3=3.9,设定,设定x4=3.7,则可以,则可以95%的把握的把握知道销售额在知道销售额在 7.8320 3.7 29(百万元)以上(百万元)以上控制控制x1通过通过x1, x2预测预测y2933.822322110 xxxy(百万支百万支)模
31、型改进模型改进x1和和x2对对y的的影响独立影响独立 22322110 xxxy21422322110 xxxxxy参数参数参数估计值参数估计值置信区间置信区间17.32445.7282 28.92061.30700.6829 1.9311 -3.6956-7.4989 0.1077 0.34860.0379 0.6594 R2=0.9054 F=82.9409 p=0.0000 0 1 2 3参数参数参数估计值参数估计值置信区间置信区间29.113313.7013 44.525211.13421.9778 20.2906 -7.6080-12.6932 -2.5228 0.67120.253
32、8 1.0887 -1.4777-2.8518 -0.1037 R2=0.9209 F=72.7771 p=0.0000 3 0 1 2 4x1和和x2对对y的影响有的影响有交互作用交互作用两模型销售量预测两模型销售量预测比较比较21422322110 xxxxxy22322110 xxxy2933. 8 y(百万支百万支)区间区间 7.8230,8.7636区间区间 7.8953,8.7592 3272. 8 y(百万支百万支)控制价格差控制价格差x1=0.2元,投入广告费元,投入广告费x2=6.5百万元百万元预测区间长度更短预测区间长度更短 略有增加略有增加 y x2=6.5x1=0.2
33、-0.200.20.40.67.588.59x1y -0.200.20.40.67.588.59x1y 56787.588.599.510 x2y 567888.599.51010.5x2y 22322110 xxxy21422322110 xxxxxy两模型两模型 与与x1, ,x2关系的关系的比较比较y 交互作用影响的讨论交互作用影响的讨论2221 . 06712. 07558. 72267.301xxyx价格差价格差 x1=0.1 价格差价格差 x1=0.32223 . 06712. 00513. 84535.321xxyx21422322110 xxxxxy5357. 72x加大广告投
34、入使销售量增加加大广告投入使销售量增加 ( x2大于大于6百万元)百万元)价格差较小时增加价格差较小时增加的速率更大的速率更大 56787.588.599.51010.5x1=0.1x1=0.3x2y 1 . 03 . 011xxyy价格优势会使销售量增加价格优势会使销售量增加 价格差较小时更需要靠广告价格差较小时更需要靠广告来吸引顾客的眼球来吸引顾客的眼球 完全二次多项式模型完全二次多项式模型 22521421322110 xxxxxxyMATLAB中有命令中有命令rstool直接求解直接求解00.20.47.588.599.5105.566.57x1x2y ),(543210从输出从输出
35、Export 可得可得10.2 软件开发人员的薪金软件开发人员的薪金资历资历 从事专业工作的年数;管理从事专业工作的年数;管理 1= =管理人员,管理人员,0= =非管理人非管理人员;教育员;教育 1= =中学,中学,2= =大学,大学,3= =更高程度更高程度建立模型研究薪金与资历、管理责任、教育程度的关系建立模型研究薪金与资历、管理责任、教育程度的关系分析人事策略的合理性,作为新聘用人员薪金的参考分析人事策略的合理性,作为新聘用人员薪金的参考 编编号号薪金薪金资资历历管管理理教教育育0113876111021160810303187011130411283102编编号号薪金薪金资资历历管管
36、理理教教育育422783716124318838160244174831601451920717024619346200146名软件开发人员的档案资料名软件开发人员的档案资料 分析与假设分析与假设 y 薪金,薪金,x1 资历(年)资历(年)x2 = = 1 管理人员,管理人员,x2 = = 0 非管理人员非管理人员1= =中学中学2= =大学大学3= =更高更高其它中学,x013其它大学,x014资历每加一年薪金的增长是常数;资历每加一年薪金的增长是常数;管理、教育、资历之间无交互作用管理、教育、资历之间无交互作用 教教育育443322110 xaxaxaxaay线性回归模型线性回归模型 a0
37、, a1, , a4是待估计的回归系数,是待估计的回归系数, 是随机误差是随机误差 中学:中学:x3=1, x4=0 ;大学:大学:x3=0, x4=1; 更高:更高:x3=0, x4=0 模型求解模型求解443322110 xaxaxaxaay参数参数参数估计值参数估计值置信区间置信区间a011032 10258 11807 a1546 484 608 a26883 6248 7517 a3-2994 -3826 -2162 a4148 -636 931 R2=0.957 F=226 p=0.000R2,F, p 模型整体上可用模型整体上可用资历增加资历增加1年薪年薪金增长金增长546 管理
38、人员薪金多管理人员薪金多6883 中学程度薪金比更中学程度薪金比更高的少高的少2994 大学程度薪金比更大学程度薪金比更高的多高的多148 a4置信区间包含零点,置信区间包含零点,解释不可靠解释不可靠! !中学:中学:x3=1, x4=0;大大学:学:x3=0, x4=1; 更高:更高:x3=0, x4=0. x2 = = 1 管理,管理,x2 = = 0 非管理非管理x1资历资历( (年年) )残差分析方法残差分析方法 结果分析结果分析443322110 xaxaxaxaay残差残差yyee 与资历与资历x1的关系的关系 05101520-2000-1000010002000e与管理与管理教
39、育组合的关系教育组合的关系 123456-2000-1000010002000残差全为正,或全为负,管残差全为正,或全为负,管理理教育组合处理不当教育组合处理不当 残差大概分成残差大概分成3个水平,个水平, 6种管理种管理教育组合混在教育组合混在一起,未正确反映一起,未正确反映 。应在模型中增加管理应在模型中增加管理x2与教育与教育x3, x4的交互项的交互项 组合组合123456管理管理010101教育教育112233管理与教育的组合管理与教育的组合426325443322110 xxaxxaxaxaxaxaay进一步的模型进一步的模型增加管理增加管理x2与教育与教育x3, x4的交互项的交
40、互项参数参数参数估计值参数估计值置信区间置信区间a01120411044 11363a1497486 508a270486841 7255a3-1727-1939 -1514a4-348-545 152a5-3071-3372 -2769a618361571 2101R2=0.999 F=554 p=0.000R2, ,F有改进,所有回归系数置信有改进,所有回归系数置信区间都不含零点,模型完全可用区间都不含零点,模型完全可用 消除了不正常现象消除了不正常现象 异常数据异常数据( (33号号) )应去掉应去掉 05101520-1000-5000500e x1 123456-1000-50005
41、00e 组合组合去掉异常数据后去掉异常数据后的结果的结果参数参数参数估计值参数估计值置信区间置信区间a01120011139 11261a1498494 503a270416962 7120a3-1737-1818 -1656a4-356-431 281a5-3056-3171 2942a619971894 2100R2= 0.9998 F=36701 p=0.000005101520-200-1000100200e x1 123456-200-1000100200e 组合组合R2: 0.957 0.999 0.9998F: 226 554 36701 置信区间长度更短置信区间长度更短残差残差
42、图十分正常图十分正常最终模型的结果可以应最终模型的结果可以应用用模型应用模型应用 制订制订6种管理种管理教育组合人员的教育组合人员的“基础基础”薪金薪金( (资历为资历为0)组合组合管理管理教育教育系数系数“基础基础”薪金薪金101a0+a39463211a0+a2+a3+a513448302a0+a410844412a0+a2+a4+a619882503a011200613a0+a218241426325443322110 xxaxxaxaxaxaxaay中学:中学:x3=1, x4=0 ;大学:;大学:x3=0, x4=1; 更高:更高:x3=0, x4=0 x1= = 0; x2 = =
43、 1 管理,管理,x2 = = 0 非管理非管理大学程度管理人员比更高程度管理人员的薪金高大学程度管理人员比更高程度管理人员的薪金高 大学程度非管理人员比更高程度非管理人员的薪金略低大学程度非管理人员比更高程度非管理人员的薪金略低 对定性因素对定性因素( (如管理、教育如管理、教育) ),可以,可以引入引入0- -1变量变量处理,处理,0- -1变量的个数应比定性因素的水平少变量的个数应比定性因素的水平少1 软件开发人员的薪金软件开发人员的薪金残差分析方法残差分析方法可以发现模型的缺陷,可以发现模型的缺陷,引入交互作用项引入交互作用项常常能够改善模型常常能够改善模型 剔除异常数据剔除异常数据,
44、有助于得到更好的结果,有助于得到更好的结果注:可以直接对注:可以直接对6种管理种管理教育组合引入教育组合引入5个个0- -1变量变量 10.3 酶促反应酶促反应 问问题题研究酶促反应(研究酶促反应(酶催化反应)酶催化反应)中嘌呤霉素对反中嘌呤霉素对反应速度与底物应速度与底物(反应物)(反应物)浓度之间关系的影响浓度之间关系的影响 建立数学模型,反映该酶促反应的速度与底建立数学模型,反映该酶促反应的速度与底物浓度以及经嘌呤霉素处理与否之间的关系物浓度以及经嘌呤霉素处理与否之间的关系 设计了两个实验设计了两个实验 :酶经过嘌呤霉素处理;酶未:酶经过嘌呤霉素处理;酶未经嘌呤霉素处理。实验数据见下表经
45、嘌呤霉素处理。实验数据见下表: 方方案案底物浓度底物浓度(ppm)0.020.060.110.220.561.10反应反应速度速度处理处理764797107123139159152191201207200未处理未处理6751848698115131124144158160/线性化模型线性化模型 经嘌呤霉素处理后实验数据的估计结果经嘌呤霉素处理后实验数据的估计结果 参数参数参数估计值(参数估计值(10-3)置信区间(置信区间(10-3) 15.1073.539 6.676 20.2470.176 0.319R2=0.8557 F=59.2975 p=0.00008027.195/11104841
46、. 0/122xxy21xy111121对对 1 , 2非线性非线性 对对 1, 2线性线性 x121线性化模型结果分析线性化模型结果分析 x较大时,较大时,y有较大偏差有较大偏差 1/x较小时有很好的较小时有很好的线性趋势,线性趋势,1/x较大较大时出现很大的起落时出现很大的起落 参数估计时,参数估计时,x较小较小(1/x很大)的数据控很大)的数据控制了回归参数的确定制了回归参数的确定 0102030405000.0050.010.0150.020.0251/y1/xxy112100.511.5050100150200250 xxy21xybeta,R,J = nlinfit (x,y,mo
47、del,beta0) beta的置信区间的置信区间MATLAB 统计工具箱统计工具箱 输入输入 x自变量自变量数据矩阵数据矩阵y 因变量数据向量因变量数据向量beta 参数的估计值参数的估计值R 残差,残差,J 估计预估计预测误差的测误差的Jacobi矩阵矩阵 model 模型的函数模型的函数M文件名文件名beta0 给定的参数初值给定的参数初值 输出输出 betaci =nlparci(beta,R,J) 非线性模型参数估计非线性模型参数估计function y=f1(beta, x)y=beta(1)*x./(beta(2)+x);xxy21x= ; y= ;beta0=195.8027
48、0.04841;beta,R,J=nlinfit(x,y,f1,beta0);betaci=nlparci(beta,R,J);beta, betaci beta0线性化线性化模型估计结果模型估计结果 非线性模型结果分析非线性模型结果分析参数参数参数估计值参数估计值置信区间置信区间 1212.6819197.2029 228.1609 20.06410.0457 0.0826 画面左下方的画面左下方的Export 输出其它统计结果。输出其它统计结果。拖动画面的十字线,得拖动画面的十字线,得y的预测值和预测区间的预测值和预测区间剩余标准差剩余标准差s= 10.9337xxy21最终反应速度为最终
49、反应速度为半速度点半速度点(达到最终速度一半达到最终速度一半时的时的x值值 )为为6831.21210641. 02其它输出其它输出命令命令nlintool 给出交互画面给出交互画面00.511.5050100150200250o 原始数据原始数据+ 拟合结果拟合结果 00.20.40.60.81-50050100150200250混合反应模型混合反应模型 x1为底物浓度,为底物浓度, x2为一示性变量为一示性变量 x2=1表示经过处理,表示经过处理,x2=0表示未经处理表示未经处理 1是未经处理的最终反应速度是未经处理的最终反应速度 1是经处理后最终反应速度的增长值是经处理后最终反应速度的增
50、长值 2是未经处理的反应的半速度点是未经处理的反应的半速度点 2是经处理后反应的半速度点的增长值是经处理后反应的半速度点的增长值 在同一模型中考虑嘌呤霉素处理的影响在同一模型中考虑嘌呤霉素处理的影响xxy2112221211)(xxxxy)(o 原始数据原始数据+ 拟合结果拟合结果 混合模型求解混合模型求解用用nlinfit 和和 nlintool命令命令,17001,6001,05. 00201. 002估计结果和预测估计结果和预测剩余标准差剩余标准差s= 10.4000 参数参数参数估计值参数估计值置信区间置信区间 1160.2802145.8466 174.7137 20.04770.0