1、回归模型回归模型是用是用统计方法统计方法建立的最常用的一类模型建立的最常用的一类模型.机理分析和机理分析和统计分析统计分析是数学建模的两种基本方法是数学建模的两种基本方法通过对数据的通过对数据的统计分析找出统计分析找出与数据拟合最好与数据拟合最好的模型的模型. 不涉及回归分析的数学原理和方法不涉及回归分析的数学原理和方法 . 通过通过实例实例讨论如何讨论如何选择选择不同类型不同类型的的回归回归模型模型 . 对软件得到的结果进行对软件得到的结果进行分析分析,对模型进行,对模型进行改进改进. 第九章 统计模型通过实例介绍通过实例介绍判别分析、主成分分析判别分析、主成分分析等模型等模型. 第九章 统
2、计模型9.1 孕妇孕妇吸烟与胎儿吸烟与胎儿健康健康9.2 软件开发人员的薪金软件开发人员的薪金9.3 酶促反应酶促反应9.4 投资额投资额与生产总值和与生产总值和物价指数物价指数9.5 冠心病冠心病与年龄与年龄9.6 蠓虫蠓虫分类分类判别判别9.7 学生学生考试成绩综合评价考试成绩综合评价9.8 艾滋病艾滋病疗法的评价和疗效的疗法的评价和疗效的预测预测9.1 孕妇吸烟与胎儿健康孕妇吸烟与胎儿健康吸烟有害健康!孕妇吸烟是否会伤害到腹中的胎儿?吸烟有害健康!孕妇吸烟是否会伤害到腹中的胎儿?对于对于新生儿新生儿体重,体重,吸烟吸烟比妇女怀孕前身高、体重、受孕比妇女怀孕前身高、体重、受孕历史等因素的影
3、响更为历史等因素的影响更为显著显著美国公共卫生总署美国公共卫生总署警告警告1.新生儿体重新生儿体重(oz)1201131281231082.孕妇怀孕期(天)孕妇怀孕期(天)2842822799992823.新生儿胎新生儿胎次次(1第第1胎胎,0非第非第1胎胎)101014.孕妇怀孕时年龄孕妇怀孕时年龄27332836235.孕妇怀孕前身孕妇怀孕前身高高(in)62646469676.孕妇怀孕前孕妇怀孕前体重体重(lb)1001351151901257.孕妇吸烟孕妇吸烟状况状况(1吸烟吸烟,0 不不吸烟吸烟)00111美国儿童保健和发展美国儿童保健和发展项目项目(CHDS)提供的数据提供的数据(
4、1236个出生个出生后至少存活后至少存活28天男性天男性单胞胎单胞胎新生儿体重新生儿体重及其母亲及其母亲的资料的资料)data 0901.m研究目的研究目的利用利用CHDS的数据建立新生儿体重与孕妇怀孕期、的数据建立新生儿体重与孕妇怀孕期、吸烟状况等因素的数学模型,定量地讨论:吸烟状况等因素的数学模型,定量地讨论:孕妇吸烟是否会使孕妇吸烟是否会使早产率增加早产率增加,怀孕期长短对,怀孕期长短对新生儿体重有影响吗;新生儿体重有影响吗;对于新生儿体重来说,对于新生儿体重来说,孕妇吸烟孕妇吸烟是否是比孕妇是否是比孕妇年龄、身高、体重等年龄、身高、体重等更为显著的决定因素更为显著的决定因素;对对每个年
5、龄段每个年龄段来说,孕妇吸烟对新生儿体重和来说,孕妇吸烟对新生儿体重和早产率的影响是怎样的。早产率的影响是怎样的。问题背景及分析问题背景及分析美国公共卫生总署的美国公共卫生总署的警告警告容易容易受到受到人们的人们的质疑质疑:按照按照是否吸烟划分人群所做是否吸烟划分人群所做的研究,只能的研究,只能依赖于依赖于观测数据,观测数据,而而无法无法做人为的实验做人为的实验,很难,很难确定新生确定新生儿体重的差别儿体重的差别是是因为因为吸烟,还是其它因素吸烟,还是其它因素(如如怀孕怀孕期期长短长短、吸烟孕妇吸烟孕妇多是多是体重体重较较轻轻的的年青年青人等人等).“孕妇吸烟可能导致胎儿受损、早产及新生儿低体
6、孕妇吸烟可能导致胎儿受损、早产及新生儿低体重重”的的警告不如警告不如“吸烟导致肺癌吸烟导致肺癌”来得强来得强,是,是由于由于对孕妇吸烟与胎儿对孕妇吸烟与胎儿健康间的生理学关系健康间的生理学关系研究得研究得不够不够.参数估计参数估计 吸烟比不吸烟孕妇新生儿吸烟比不吸烟孕妇新生儿体重体重平均低平均低9 oz (250g ), 新生儿新生儿体重低的体重低的比例明显高比例明显高. 吸烟比不吸烟孕妇怀孕期吸烟比不吸烟孕妇怀孕期平均短平均短2天天,早产率差不多早产率差不多.参数估计参数估计不吸烟孕妇(不吸烟孕妇(n=742)吸烟孕妇(吸烟孕妇(n=484)新生儿新生儿体重均值体重均值的点估计的点估计 y0
7、=123.0472 y1=114.1095新生儿体重均值的区间估计新生儿体重均值的区间估计 121.7932 124.3011112.4930 115.7260新生儿体重低比例的点估计新生儿体重低比例的点估计 r0=0.0310r1=0.0826怀孕期均值怀孕期均值的点估计的点估计 x0=280.1869(n=733) x1= 277.9792怀孕期均值的区间估计怀孕期均值的区间估计278.9812 281.3926276.6273 279.3311早产率的点估计早产率的点估计q0=0.0764q1=0.0854新生儿体重和怀孕期的差别在统计学上是否显著?新生儿体重和怀孕期的差别在统计学上是否
8、显著?prog0901a.m假设检验假设检验 吸烟吸烟孕妇的新生儿体重比不吸烟孕妇的低、孕妇的新生儿体重比不吸烟孕妇的低、且且 新生儿新生儿体重低的比例高体重低的比例高,在,在统计学统计学上有上有显著显著意义意义.假设检验假设检验假设假设检验结果检验结果(=0.05)新生儿体重新生儿体重均值均值H0: y0 y1, H1: y0 y1拒绝拒绝H0, 接受接受H1新生儿体重低新生儿体重低比例比例 H0: r0r1, H1: r0 x1拒绝拒绝H0, 接受接受H1 早早产率产率H0: q0= =q1, H1: q0q1接受接受H0, 拒绝拒绝H1(t=0.5663)吸烟与不吸烟吸烟与不吸烟孕妇孕期
9、孕妇孕期和早产率的和早产率的差别差别难以难以肯定肯定是显著是显著的的(若若=0.01将接受将接受怀孕期均值怀孕期均值相等的假设相等的假设)prog0901a.m一元线性回归分析一元线性回归分析假设检验假设检验结果:结果:孕妇孕妇吸烟状况对吸烟状况对新生儿体重大小有新生儿体重大小有显著影响显著影响,但是对怀孕期长短的影响难以确定,但是对怀孕期长短的影响难以确定。新生儿新生儿体重与体重与怀孕期怀孕期的的关系关系如何?如何?直线直线y=b0+b1x描述描述了了数据的数据的变化趋势,但是变化趋势,但是拟合拟合得不好得不好.怎样怎样衡量由拟合得到的衡量由拟合得到的模型的模型的有效性有效性?模型模型系数精
10、确度系数精确度和模型和模型预测的数值预测的数值范围多范围多大?大?480位吸烟孕妇的位吸烟孕妇的怀孕怀孕期期x和和新生儿体重新生儿体重y220240260280300320340406080100120140160180 xy拟合直线拟合直线 y=b0+b1x一元线性一元线性回归回归模型模型 y=b0+b1x+ 随机随机变量变量 除除x外外, 影响影响y的随机因素的的随机因素的总和总和,对于不同的对于不同的x,相互独立相互独立且且服从服从N(0,2)分布分布.系数系数 系数估计值系数估计值系数置信区间系数置信区间b0-51.2983-77.5110 -25.0856b10.59490.5008
11、 0.6891R2=0.2438, F=154 , pF(1,n-2)= 3.8610 ( =0.05),应,应拒绝拒绝H0: b1=0的假设,模型有效的假设,模型有效。b1置信区间置信区间较长,决定系数较长,决定系数R2较小较小(y的的24.38%由由x决定决定),剩余方差剩余方差s2较大较大,模型模型的精度不的精度不高高.480位位吸吸烟烟孕妇孕妇数数据据 x,y模型模型求解求解怀孕期怀孕期x, 新生儿新生儿体重体重y模模型型检检验验prog0901b.m 吸烟孕妇怀孕期增加吸烟孕妇怀孕期增加一天,一天,新生儿体重平均增加约新生儿体重平均增加约0.6 oz. 不不是是x=0时时y的的估计估
12、计, 只能只能在数在数据据范围范围内内(x=220340天天) 估计估计.一元线性一元线性回归回归模型模型 y=b0+b1x+ 怀孕期怀孕期x, 新生儿新生儿体重体重y模模型型解解释释模模型型预预测测模型精度不模型精度不高导致预测区间高导致预测区间如此之如此之大!大!一元线性一元线性回归回归模型模型 y=b0+b1x+ 怀孕期怀孕期x, 新生儿新生儿体重体重y误差误差的的估计值估计值(均值均值为为0的的正态分布正态分布)50100150200250300350400450-60-40-200204060Residual Case Order PlotResidualsCase Number若若
13、数据残差数据残差的置信区间不含的置信区间不含零点零点,称为称为异常异常点点(偏离偏离整体整体数据的变化数据的变化趋势趋势),应剔除应剔除。系数系数 系数估计值系数估计值系数置信区间系数置信区间b0-53.6126-77.0606 -30.1645b10.60070.5164 0.6850 R2= 0.3040 F=196 p0.0001 s2 = 182虽然虽然b0和和b1的估计值变化不大,但置信区间变短,的估计值变化不大,但置信区间变短,且且R2 和和F变大,变大,s2减小,说明减小,说明模型精度得到模型精度得到提高提高.prog0901b.m一元线性一元线性回归回归模型模型 y=b0+b1
14、x+ 怀孕期怀孕期x, 新生儿新生儿体重体重y系数系数 系数估计值系数估计值系数置信区间系数置信区间b033.533014.9989 52.0671b10.32010.2541 0.3860 R2= 0.1165 F=90 p0.0001 s2 = 181690位位不吸烟孕不吸烟孕妇妇数据数据x,y (剔除剔除异常点异常点后后)不不吸烟孕妇怀孕期增加吸烟孕妇怀孕期增加一天,一天,新生儿体重新生儿体重平均平均只只增加增加0.32oz. 对对吸烟孕妇吸烟孕妇是是增加增加约约0.6oz,二者相差很大!二者相差很大!将将吸烟吸烟状况作为状况作为另另一自变量一自变量,建立新生儿体重建立新生儿体重与与2个
15、自变量的回归模型个自变量的回归模型,利用,利用全体全体孕妇数据进行孕妇数据进行分析分析. prog0901c.m多多元元线性回归分析线性回归分析y新生儿体重新生儿体重, x1孕妇怀孕期孕妇怀孕期, x2=0,1 不吸烟不吸烟, 吸烟吸烟.模型模型 y=b0+b1x1+b2x2+ x1相同相同时时,吸烟比不吸烟比不吸烟吸烟孕妇孕妇的的新生儿体重平均约低新生儿体重平均约低8.8oz. 对于吸烟状况对于吸烟状况x2相同的孕妇相同的孕妇,x1增加一天增加一天y平均增加平均增加0.44oz. 在在吸烟孕妇吸烟孕妇的的0.6与不与不吸烟孕妇吸烟孕妇的的0.32oz之间之间.与参数估计与参数估计的的数值数值
16、相同相同,但增加但增加了了x1相同相同的的条件条件.1145位位全部孕妇全部孕妇数数据据 (剔除异常点剔除异常点后后)多多元元线性回归分析线性回归分析系数系数 系数估计值系数估计值系数置信区间系数置信区间b034.092515.4605 52.7244b10.31810.2517 0.3844 b2-87.0738-116.9656 -57.1820b30.28040.1734 0.3875R2=0.2766 F=145 p0.0001 s2 =183模型模型 y=b0+b1x1+b2x2+ 模型有效模型有效, 但是但是R2较小较小, s2较大较大, 仍仍有有改进改进余地余地.增加乘积项增加乘
17、积项x1x2 x1和和x2对对y的的综合综合影响影响y=b0+b1x1+b2x2+b3x1x2+ x2=0 x2=1不吸烟孕妇吸烟孕妇的一元模型的一元模型吸烟吸烟孕妇孕妇的一元模型的一元模型prog0901d.m变量选择与逐步回归变量选择与逐步回归CHDS提供的数据中提供的数据中除孕妇除孕妇怀孕期和吸烟状况怀孕期和吸烟状况外外,还有还有孕妇孕妇怀孕怀孕时的年龄、体重、身高和胎次时的年龄、体重、身高和胎次状况状况.变量变量选择选择 从从应用的应用的角度希望角度希望将将所有影响所有影响显著的自显著的自变量都变量都纳入模型纳入模型,又希望最终的模型尽量,又希望最终的模型尽量简单简单.逐步回归逐步回归
18、 迭代迭代式的变量选择式的变量选择方法方法.新生儿体重模型新生儿体重模型中中是否应该加入是否应该加入其他的其他的自变量?自变量?利用利用CHDS数据提供的全部数据提供的全部信息信息, 通过逐步回归通过逐步回归方法方法选择变量选择变量, 建立建立新生儿体重新生儿体重的线性回归模型的线性回归模型.x1 (孕妇怀孕期孕妇怀孕期), x2 (胎胎次次状况状况), x3 (年龄年龄), x4 (身高身高), x5 (体重体重), x6 (吸烟状况吸烟状况) 组成组成候选变量候选变量集合集合S.选取选取x1, x6为初始为初始子集子集S0 用逐步回归用逐步回归方法方法建立建立新生儿新生儿体重体重y的线性回
19、归模型的线性回归模型 继续继续进行,直到不能引入和移出为止进行,直到不能引入和移出为止 . 从从S0外外的的S中中引入引入一个一个对对y影响影响最大最大的的x, S0 S1 . 对对S1中中的的x进行进行检验,检验,移出移出一个一个影响最小影响最小的的, S1 S2 . 引入引入和移出都以给定的和移出都以给定的显著性水平显著性水平为标准为标准. 显著性水平取显著性水平取缺省值缺省值(引入引入 =0.05, 移出移出 =0.10)-10-8-6-4-202X1X2X3X4X5X6Coefficients with Error Bars Coeff. t-stat p-val 0.451168 1
20、5.2000 0.0000 -3.26733 -3.0320 0.0025 0.104543 1.2775 0.2017 1.31198 7.1138 0.0000 0.118183 5.2127 0.0000 -8.3744 -8.6027 0.0000115161718Model HistoryRMSE MATLAB统计工具箱中的逐步回归统计工具箱中的逐步回归逐步回归命令逐步回归命令stepwise第第1个输出个输出图形图形按照提示按照提示点击,引入点击,引入x4x1, x6在模型中,给出在模型中,给出系系数估计值和置信区间数估计值和置信区间prog0901e.m MATLAB统计工具箱中
21、的逐步回归统计工具箱中的逐步回归-10-8-6-4-202X1X2X3X4X5X6Coefficients with Error Bars Coeff. t-stat p-val 0.444076 15.2759 0.0000 -3.28762 -3.0933 0.0020 -0.00895031 -0.1043 0.9170 1.15497 5.6415 0.0000 0.0498335 1.9910 0.0467 -8.3939 -8.8248 0.0000123415.51616.5Model HistoryRMSE按照提示按照提示点击,依次引入点击,依次引入 x4, x2, x5最终模
22、型最终模型包含包含除除x3 外的所有自变量外的所有自变量654213939. 80498. 01550. 12876. 34441. 07132.80 xxxxxy用逐步回归用逐步回归方法方法建立建立新生儿新生儿体重体重y的线性回归模型的线性回归模型x1 (怀孕期怀孕期), x2 (胎次胎次状况状况), x4 (身高身高), x5 (体重体重), x6 (吸烟吸烟状况状况).x1,x2 ,x4, x5相同相同时时,吸烟吸烟比不比不吸烟吸烟孕妇孕妇的的新生儿体重新生儿体重平均低平均低8.4 oz. 孕妇孕妇的怀孕期、身高、体重对的怀孕期、身高、体重对新生儿体重的新生儿体重的影响是正面影响是正面的
23、的. 第第1胎新生儿体重比非第胎新生儿体重比非第1胎胎平均平均约约低低3.3 oz (第第1胎胎x2=1). yx1x2x3x4x5x6y1.00000.4075-0.04390.02700.20370.1559-0.2468x1 1.00000.0809-0.05340.07050.0237-0.0603x2 1.0000-0.35100.0435-0.0964-0.0096x3 1.0000-0.00650.1473-0.0678x4 1.00000.43530.0175x5 1.0000-0.0603x6 1.0000y和各自变量和各自变量的的相关系数矩阵相关系数矩阵 与与y相关性相关性
24、较强的是怀孕期较强的是怀孕期x1, 吸烟吸烟状况状况x6, 身高身高x4. 自变量间自变量间相关性较强的有:孕妇体重相关性较强的有:孕妇体重x5与身高与身高x4的的正相关正相关;年龄年龄 x3与胎次状况与胎次状况x2的的负相关负相关(年龄年龄越大第越大第1胎胎x2=1越少越少).相关分析相关分析当当几几个个自变量间自变量间有有较强相关性较强相关性时时, 删除删除多余的只多余的只保留一保留一个个不会不会对对模型有效性模型有效性和精确度有多大和精确度有多大影响影响.不同年龄段孕妇吸烟对新生儿体重的影响不同年龄段孕妇吸烟对新生儿体重的影响 小于小于25岁岁2530岁岁3035岁岁大于大于35岁岁b0
25、-66.3893-39.1296-157.1307-130.1740b1(怀孕期怀孕期) 0.39720.35210.59510.6728b2-0.9978-7.4124-0.0932-4.1835b41.21440.84091.68280.8747b5-0.00210.09590.05570.0732b6(吸烟状况吸烟状况)-8.4119-8.2656-10.5411-6.4008R20.25490.23300.33940.3136s2211.6359239.7201272.6021304.7208n444362211157孕妇孕妇按年龄分组按年龄分组建立建立y与与x1, x2, x4, x
26、5, x6的回归模型的回归模型对于对于x1和和x6两两个个影响影响y的的主要主要因素因素, 30岁岁以下两以下两组组结果差别结果差别不大不大, 而而与与30岁岁以上两以上两组则有组则有一定差异一定差异.建立模型研究薪金与资历、管理责任、教育程度的关系建立模型研究薪金与资历、管理责任、教育程度的关系. .分析人事策略的合理性,作为新聘用人员薪金的参考分析人事策略的合理性,作为新聘用人员薪金的参考. . 9.2 软件开发人员的薪金软件开发人员的薪金编号编号薪金薪金资历资历(从事从事专业工作专业工作年数年数)管理管理(1-管理管理人员人员,0-非管理非管理人员)人员)教育教育(1- -中学,中学,2
27、- -大学,大学,3- -更更高程度高程度) )0113876111021160810303187011134619346200146名软件开发人员的档案资料名软件开发人员的档案资料 data 0902.m分析与假设分析与假设 y 薪金,薪金,x1 资历(年)资历(年)x2 = = 1 管理人员,管理人员,x2 = = 0 非管理人员非管理人员1= =中学中学2= =大学大学3= =更高更高其他中学,013x其他大学,014x 资历每加一年资历每加一年, ,薪金的增长是常数;薪金的增长是常数; 管理、教育、资历之间无交互作用管理、教育、资历之间无交互作用. . 教教育育443322110 xa
28、xaxaxaay线性回归模型线性回归模型 a0, a1, , a4是待估计的回归系数,是待估计的回归系数, 是随机误差是随机误差 中学:中学:x3=1, x4=0 ;大学:大学:x3=0, x4=1; 更高:更高:x3=0, x4=0 假设假设模型求解模型求解443322110 xaxaxaxaayR2,F, p 模型整体上可用模型整体上可用资历增加资历增加1年年薪金增长薪金增长546 管理人员薪金管理人员薪金多多6883 中学程度薪金比中学程度薪金比更高的少更高的少2994 大学程度薪金比大学程度薪金比更高的多更高的多148 a4置信区间包含零置信区间包含零点,解释不可靠点,解释不可靠! !
29、中学:中学:x3=1, x4=0;大学:大学:x3=0, x4=1; 更高:更高:x3=0, x4=0. x2 = = 1 管理,管理,x2 = = 0 非管理非管理x1资历资历( (年年) )系数系数 系数估计值系数估计值系数置信区间系数置信区间a011032 10258 11807 a1546 484 608 a26883 6248 7517 a3-2994 -3826 -2162 a4148 -636 931 R2=0.957 F=226 p0.0001 s2=106prog0902a.m残差分析方法残差分析方法 结果分析结果分析443322110 xaxaxaxaay残差残差yyee
30、与资历与资历x1的关系的关系 05101520-2000-1000010002000 e与管理与管理教育组合的关系教育组合的关系 123456-2000-1000010002000残差全为正残差全为正, ,或全为负或全为负, ,管管理理教育组合处理不当教育组合处理不当. . 残差大概分成残差大概分成3个水平个水平, ,6种管理种管理教育组合混在教育组合混在一起,未正确反映一起,未正确反映.应在模型中增加管理应在模型中增加管理x2与与教育教育x3, x4的交互项的交互项 .组合组合 123456管理管理 010101教育教育 112233管理与教育的组合管理与教育的组合4263254433221
31、10 xxaxxaxaxaxaxaay进一步的模型进一步的模型增加管理增加管理x2与教育与教育x3, x4的交互项的交互项R2, ,F有改进有改进, ,所有系数所有系数置信置信区间不含零点区间不含零点, ,模型可用模型可用. . 消除了不正常现象消除了不正常现象 异常数据异常数据( (33号号) )应去掉应去掉! ! 05101520-1000-5000500e x1 123456-1000-5000500e 组合组合系数系数 系数估计值系数估计值系数置信区间系数置信区间a01120411044 11363a1497486 508a270486841 7255a3-1727-1939 -151
32、4a4-348-545 152a5-3071-3372 -2769a618361571 2101R2=0.9988 F=5545 p0.0001 s2=3 104 prog0902b.m去掉异常去掉异常数据数据05101520-200-1000100200e x1 123456-200-1000100200e 组合组合R2: 0.9567 0.99880.9998F:226 5545 36701 s2: 104 3 104 4 103 置信区间置信区间长度更短长度更短残差残差图十分正常图十分正常最终最终模型完全可用!模型完全可用!系数系数 系数估计值系数估计值系数置信区间系数置信区间a0112
33、0011139 11261a1498494 503a270416962 7120a3-1737-1818 -1656a4-356-431 281a5-3056-3171 2942a619971894 2100R2=0.9998 F=36701 p0.0001 s2=4 103prog0902c.m模型应用模型应用 制订制订6种管理种管理教育组合人员的教育组合人员的“基础基础”薪金薪金( (资历为资历为0)组合组合管理管理教育教育系数系数“基础基础”薪金薪金101a0+a39463211a0+a2+a3+a513448302a0+a410844412a0+a2+a4+a619882503a011
34、200613a0+a218241426325443322110 xxaxxaxaxaxaxaay中学:中学:x3=1, x4=0 ;大学:;大学:x3=0, x4=1; 更高:更高:x3=0, x4=0 x1= = 0; x2 = = 1 管理,管理,x2 = = 0 非管理非管理大学程度管理人员比更高程度管理人员的薪金高大学程度管理人员比更高程度管理人员的薪金高. . 大学程度非管理人员比更高程度非管理人员的薪金略低大学程度非管理人员比更高程度非管理人员的薪金略低. . 对定性因素对定性因素( (如管理、教育如管理、教育) )可以可以引入引入0- -1变量变量处理,处理,0- -1变量的个数
35、可比定性因素的水平少变量的个数可比定性因素的水平少1. 软件开发人员的薪金软件开发人员的薪金残差分析方法残差分析方法可以发现模型的缺陷,可以发现模型的缺陷,引入交互作用项引入交互作用项常常能够改善模型常常能够改善模型. . 剔除异常数据剔除异常数据,有助于得到更好的结果,有助于得到更好的结果. .注:可以直接对注:可以直接对6种管理种管理教育组合引入教育组合引入5个个0- -1变量变量. . 问问题题研究酶促反应(研究酶促反应(酶催化反应)酶催化反应)中嘌呤霉素对反中嘌呤霉素对反应速度与底物应速度与底物(反应物)(反应物)浓度之间关系的影响浓度之间关系的影响. 建立数学模型,反映该酶促反应的速
36、度与底建立数学模型,反映该酶促反应的速度与底物浓度以及经嘌呤霉素处理与否之间的关系物浓度以及经嘌呤霉素处理与否之间的关系. 设计了两个实验设计了两个实验 :酶经过嘌呤霉素处理;:酶经过嘌呤霉素处理;酶未经嘌呤霉素处理酶未经嘌呤霉素处理. 实验数据见下表实验数据见下表. 方方案案底物浓度底物浓度(ppm)0.020.060.110.220.561.10反应反应速度速度处理处理764797107123 139 159 152 191 201 207 200未处理未处理6751848698115 131 124 144 158 160/9.3 酶促反应酶促反应 基本模型基本模型 Michaelis-
37、Menten模型模型y 酶促反应的速度酶促反应的速度, x 底物浓度底物浓度 xxxfy21),( 1 , 2 待定待定系数系数 底物浓度较小时,反应速度大致与浓度成正比;底物浓度较小时,反应速度大致与浓度成正比;底物浓度很大、渐进饱和时,反应速度趋于固定值底物浓度很大、渐进饱和时,反应速度趋于固定值.酶促反应的基本性质酶促反应的基本性质 xyO 1实验实验数据数据00.511.5050100150200250经嘌呤霉经嘌呤霉素处理素处理xy00.511.5050100150200250未经嘌呤未经嘌呤霉素处理霉素处理xy线性化模型线性化模型 嘌呤霉素嘌呤霉素处理后实验数据的估计结果处理后实验
38、数据的估计结果 8027.195/11104841. 0/122xxy21xy111121对对 1 , 2非线性非线性 对对 1, 2线性线性 x121系数系数系数估计值系数估计值系数置信区间系数置信区间 15.10723.5386 6.6758 20.24720.1757 0.3188R2=0.8557 F=59.2975 p0.0001 s2=3.5806 10-6prog0903a.m线性化模型结果分析线性化模型结果分析 x较大时,较大时,y有较大偏差有较大偏差 1/x较小时有很好的较小时有很好的线性趋势,线性趋势,1/x较大较大时出现很大的起落时出现很大的起落. . 参数估计时,参数估
39、计时,x较小较小( (1/x很大很大) )的数据控的数据控 制了回归参数的确定制了回归参数的确定. . 0102030405000.0050.010.0150.020.0251/y1/xxy112100.511.5050100150200250 xxy21xyMATLAB命令命令 beta,R,J = nlinfit (x,y,model,beta0) MATLAB命令命令 betaci =nlparci(beta,R,J) 非线性模型参数估计非线性模型参数估计xxy21系数系数系数估计值系数估计值系数置信区间系数置信区间 1212.6837197.2045 228.1629 20.06410
40、.0457 0.0826 1 , 2估计值估计值函数函数M文件文件数据数据残差残差 1 , 2初值初值(取取线性化线性化结果结果) 1 , 2置信区间置信区间prog0903a.m prog0903a1.m非线性模型结果分析非线性模型结果分析画面左下方的画面左下方的Export 输出其他统计结果输出其他统计结果.拖动画面的十字线,得拖动画面的十字线,得y的预测值和预测区间的预测值和预测区间剩余标准差剩余标准差s= 10.9337xxy21最终反应速度为最终反应速度为6831.2121MATLAB命令命令 nlintool 给出给出交互画面交互画面00.511.5050100150200250o
41、 原始数据原始数据+ 拟合结果拟合结果 00.20.40.60.81-500501001502002500641. 02半速度点半速度点(达到最终速度达到最终速度一半时的一半时的x值值 )为为混合反应模型混合反应模型 x1为底物浓度,为底物浓度, x2为一示性变量为一示性变量 x2=1表示经过处理,表示经过处理,x2=0表示未经处理表示未经处理 1是未经处理的最终反应速度是未经处理的最终反应速度 1是经处理后最终反应速度的增长值是经处理后最终反应速度的增长值 2是未经处理的反应的半速度点是未经处理的反应的半速度点 2是经处理后反应的半速度点的增长值是经处理后反应的半速度点的增长值 在同一模型中
42、考虑嘌呤霉素处理的影响在同一模型中考虑嘌呤霉素处理的影响xxy2112221211)(xxxxy)(混合模型求解混合模型求解 2置信区间包含零点,置信区间包含零点,表明表明 2对因变量对因变量y的影响不的影响不显著显著.12221211)(xxxxy)(o 原始数据原始数据+ 拟合结果拟合结果 未经未经处理处理经处理经处理系数系数 系数估计值系数估计值系数置信区间系数置信区间 1160.2802145.8466 174.7137 20.04770.0304 0.0650 152.403532.4130 72.3941 20.0164-0.0075 0.0403,17001,6001,05. 0
43、0201. 002初值初值经嘌呤霉素处理的作用不影响半速度点经嘌呤霉素处理的作用不影响半速度点参数参数.可忽略可忽略 2,将模型简化,将模型简化.剩余标准差剩余标准差s= 10.4000prog0903b.mprog0903b1.mo 原始数据原始数据+ 拟合结果拟合结果 未经未经处理处理经处理经处理简化的混合模型简化的混合模型 简化的混合模型简化的混合模型形式简单,形式简单,参数置信区间参数置信区间不含零点不含零点.12221211)(xxxxy)(121211xxxy)(系数系数 系数估计值系数估计值系数置信区间系数置信区间 1166.6025154.4886 178.7164 20.05
44、800.0456 0.0703 142.025228.9419 55.1085剩余标准差剩余标准差s= 10.5851(比比一般一般混合模型略混合模型略大大). prog0903b.mprog0903b2.m一般混合模型与简化混合模型预测比较一般混合模型与简化混合模型预测比较实际值实际值一般模型预测值一般模型预测值(一般一般模型模型)简化模型预测值简化模型预测值(简化简化模型模型)6747.34439.207842.73585.44465147.34439.207842.73585.44468489.28569.571084.73567.0478207200.968811.0447198.18
45、3710.1812200200.968811.0447198.183710.1812简化混合模型的预测区间较短,更为实用、有效简化混合模型的预测区间较短,更为实用、有效.12221211)(xxxxy)(121211xxxy)(预测区间为预测区间为预测值预测值 注:非线性模型拟合程度的评价无法直接利用注:非线性模型拟合程度的评价无法直接利用线性模型的方法,但线性模型的方法,但R2 与与s仍然有效仍然有效.酶促反应酶促反应 反应速度与底物浓度的关系反应速度与底物浓度的关系非线性非线性关系关系求解求解线性模型线性模型 求解非线性模型求解非线性模型机理分析机理分析嘌呤霉素处理对反应速度与底物浓度关系
46、的影响嘌呤霉素处理对反应速度与底物浓度关系的影响混合模型混合模型 发现问题,发现问题,得参数初值得参数初值引入引入0-1变量变量简化模型简化模型 检查检查参数置信区间参数置信区间是否包含零点是否包含零点问问题题建立投资额模型,研究建立投资额模型,研究某地区某地区实际投资额与国实际投资额与国民生产总值民生产总值 ( GNP ) 及物价指数及物价指数 ( PI ) 的关系的关系.根据对未来根据对未来GNP及及PI的估计,预测未来投资额的估计,预测未来投资额. . 该地区该地区连续连续20年年的统计数据的统计数据 年份年份序号序号投资额投资额(亿元)(亿元) GNP(亿元)(亿元) PI年份年份序号
47、序号投资额投资额(亿元)(亿元) GNP(亿元)(亿元) PI1 90.9 596.70.716711 229.81326.41.0575297.4637.70.727712228.71434.21.15083113.5691.10.743613206.11549.21.257910195.01185.91.000020424.53073.02.06889.4 投资额与生产总值和物价指数投资额与生产总值和物价指数 时间序列时间序列中变量中变量的顺序观测值之间存在的顺序观测值之间存在自相关自相关.以时间为序的以时间为序的数据数据( (如如投资额投资额) )称为称为时间序列时间序列. .分分析析许
48、多经济数据在时间上有一定的许多经济数据在时间上有一定的滞后滞后性性. . 需要诊断需要诊断并并消除自消除自相关性,建立新的模型相关性,建立新的模型.采用采用普通回归模型直接处理普通回归模型直接处理,会,会出现不良后果出现不良后果. . 投资额与国民生产总值和物价指数投资额与国民生产总值和物价指数 年份年份序号序号投资额投资额(亿元)(亿元) GNP(亿元)(亿元) PI年份年份序号序号投资额投资额(亿元)(亿元) GNP(亿元)(亿元) PI1 90.9 596.70.716711 229.81326.41.0575297.4637.70.727712228.71434.21.15083113
49、.5691.10.743613206.11549.21.257910195.01185.91.000020424.53073.02.0688基本(普通的)回归基本(普通的)回归模型模型投资额与投资额与 GNP,PI之间之间均均有很强的有很强的线性关系线性关系.ttttxxy22110t 年份,年份, yt 投资额,投资额,x1t GNP, x2t PI 0, 1, 2 回归系数回归系数 x1tytx2tyt t 对对t相互相互独立的独立的零均值正态随机变量零均值正态随机变量基本回归模型的结果与分析基本回归模型的结果与分析 t存在存在自自相关相关,违背,违背 t对对t相互相互独立独立的要求的要求
50、.系数系数系数估计值系数估计值系数置信区间系数置信区间 0322.7250224.3386 421.1114 10.61850.4773 0.7596 2-859.4790-1121.4757 -597.4823 R2= 0.9908 F= 919.8529 p 0 0如何估计如何估计 如何消除自相关如何消除自相关性性D-W统计量统计量D-W检验检验 ut 对对t相互相互独立的零均值正态随机变量独立的零均值正态随机变量存在负存在负自相关性自相关性存在正存在正自相关性自相关性广义差分法广义差分法 D-W统计量与统计量与D-W检验检验 nttnttteeeDW22221)(检验水平检验水平, ,样