统计方法建模课件.ppt

上传人(卖家):三亚风情 文档编号:3032500 上传时间:2022-06-24 格式:PPT 页数:148 大小:1.82MB
下载 相关 举报
统计方法建模课件.ppt_第1页
第1页 / 共148页
统计方法建模课件.ppt_第2页
第2页 / 共148页
统计方法建模课件.ppt_第3页
第3页 / 共148页
统计方法建模课件.ppt_第4页
第4页 / 共148页
统计方法建模课件.ppt_第5页
第5页 / 共148页
点击查看更多>>
资源描述

1、 统计方法建模 1 1 相关分析相关分析 2 2 多元回归多元回归 3 3 曲线回归曲线回归 4 4 主成份分析主成份分析 5 5 判别分析判别分析 6 6 聚类分析聚类分析 7 7 模糊聚类分析模糊聚类分析 8 8 偏最小二乘回归分析偏最小二乘回归分析第一节第一节 相关分析相关分析一、相关关系的概念一、相关关系的概念( (注意相关关系与函数关系的区别注意相关关系与函数关系的区别) ) ( (一一) ) 函数关系函数关系 它它反映着现象之间存在反映着现象之间存在着严格的依存关系,也就着严格的依存关系,也就是具有确定性的对应关系,是具有确定性的对应关系,这种关系可用一个数学表这种关系可用一个数学

2、表达式反映出来。达式反映出来。 若两个现象若两个现象x x、y y有严格有严格的直线依存关系,则其函的直线依存关系,则其函数关系还可用右图表示。数关系还可用右图表示。321xxxy2x2Rsxpy3x1x( (二二) ) 相关关系相关关系 它它反映着现象之间的数量上不严格的依存关系,也就反映着现象之间的数量上不严格的依存关系,也就是说两者之间不具有确定性的对应关系,这种关系有二个是说两者之间不具有确定性的对应关系,这种关系有二个明显特点:明显特点:1.1.现现象之间确实存在数量象之间确实存在数量上的依存关系,即某一社会上的依存关系,即某一社会经济现象变化要引起另一社经济现象变化要引起另一社会经

3、济现象的变化;会经济现象的变化;2.2.现现象之间的这种依存关系象之间的这种依存关系是不严格的,即无法用数学是不严格的,即无法用数学公式准确表示。公式准确表示。 若现象间的这种不严格的依若现象间的这种不严格的依存关系近似于一种直线关系,存关系近似于一种直线关系,则其相关关系的图示如右。则其相关关系的图示如右。商品的消费量商品的消费量(y)(y)与居民收入与居民收入(x)(x)之间的关系之间的关系商品销售额商品销售额(y)(y)与广告费支出与广告费支出(x)(x)之间的关系之间的关系粮食亩产量粮食亩产量(y)(y)与施肥量与施肥量(x1) (x1) 、降雨量、降雨量(x2) (x2) 、温度温度

4、(x3)(x3)之间的关系之间的关系收入水平收入水平(y)(y)与受教育程度与受教育程度(x)(x)之间的关系之间的关系父亲身高父亲身高(y)(y)与子女身高与子女身高(x)(x)之间的关系之间的关系商品消费量与居民收入之间,当居民收商品消费量与居民收入之间,当居民收入发生变动,商品消费量也会随之发生变动。入发生变动,商品消费量也会随之发生变动。所以,居民收入为自变量所以,居民收入为自变量X X,而商品消费量为,而商品消费量为因变量因变量Y Y。 在在具有相互依存关系的两个变量中,作为具有相互依存关系的两个变量中,作为根据的变量称自变量,一般用根据的变量称自变量,一般用X X表示;发生对表示;

5、发生对应变化的变量称因变量,一般用应变化的变量称因变量,一般用y y表示。表示。如如一般地一般地商品价格和商品销售量?(请同学分析)商品价格和商品销售量?(请同学分析)又如又如1.1.按按相关关系涉及的因素多少来分,可分为:相关关系涉及的因素多少来分,可分为: 单相关和复相关。单相关和复相关。 在实际工作中,如存在多个自变量,可抓住在实际工作中,如存在多个自变量,可抓住其中主要的自变量,研究其相关关系,而保持另其中主要的自变量,研究其相关关系,而保持另一些因素不变,这时复相关可转化为一些因素不变,这时复相关可转化为偏相关偏相关。二因素之间的相关关系称二因素之间的相关关系称单相关单相关,即只涉,

6、即只涉及一个自变量和一个因变量。及一个自变量和一个因变量。三个或三个以上因素的相关关系称三个或三个以上因素的相关关系称复相关复相关,或多元相关,即涉及二个或二个以上的自变量和或多元相关,即涉及二个或二个以上的自变量和因变量。因变量。二、相关关系的种类二、相关关系的种类 2.2.按按相关关系的性质来分,可分为相关关系的性质来分,可分为: : 正相关和负相关正相关和负相关正相关正相关是指两相关现象变化的方向是一致的。是指两相关现象变化的方向是一致的。负相关负相关是指两相关现象变化的方向是相反的。是指两相关现象变化的方向是相反的。正相关负相关3. 3. 按按相关关系的形式来分,可分为:相关关系的形式

7、来分,可分为: 直线相关和曲线相关直线相关和曲线相关 直线相关直线相关是指两个相关现象之间,当自变量是指两个相关现象之间,当自变量X X的数值发生变动时,因变量的数值发生变动时,因变量y y随之发生近似于固定比随之发生近似于固定比例的变动,在相关图上的散点近似地表现为直线形式,例的变动,在相关图上的散点近似地表现为直线形式,因此称其为直线相关关系。因此称其为直线相关关系。 曲线相关曲线相关是指两个相关现象之间,当自变量是指两个相关现象之间,当自变量X X的数值发生变动时,因变量的数值发生变动时,因变量y y也随之发生变动,但这也随之发生变动,但这种变动在数值上不成固定比例,在相关图上的散点可种

8、变动在数值上不成固定比例,在相关图上的散点可表现为抛物线、指数曲线、双曲线等形式,因此称其表现为抛物线、指数曲线、双曲线等形式,因此称其为曲线相关关系。为曲线相关关系。曲线相关直线相关4.4. 按按相关程度分,可分为:相关程度分,可分为: 完全相关、不完全相关和不相关完全相关、不完全相关和不相关 完全相关完全相关就是相关现象之间的关系是完全确定就是相关现象之间的关系是完全确定的关系,因而完全相关关系就是函数关系。的关系,因而完全相关关系就是函数关系。 不相关不相关是指两现象之间在数量上的变化上各自是指两现象之间在数量上的变化上各自独立,互不影响。独立,互不影响。 不完全相关不完全相关就是介于完

9、全相关和不相关之间的就是介于完全相关和不相关之间的一种相关关系。相关分析的对象主要是不完全相关一种相关关系。相关分析的对象主要是不完全相关关系。关系。三、相关分析的任务和内容三、相关分析的任务和内容 (一)相关分析的主要任务,概括起来是两个方面:(一)相关分析的主要任务,概括起来是两个方面:一方面一方面,研究现象之间关系的密切程度,即相关,研究现象之间关系的密切程度,即相关分析,这也称狭义的相关分析。分析,这也称狭义的相关分析。另一方面另一方面,研究自变量与因变量之间的变动关,研究自变量与因变量之间的变动关系,用一个合适的数学模型近似地表达其相关关系,系,用一个合适的数学模型近似地表达其相关关

10、系,即回归分析。即回归分析。显然显然,相关分析与回归分析既有区别,也有联系。,相关分析与回归分析既有区别,也有联系。相关分析与回归分析的区别 1.在相关分析中在相关分析中,不必确定自变量和因变量;,不必确定自变量和因变量;而在而在回归分析中回归分析中,必须事先确定哪个为自变,必须事先确定哪个为自变量,哪个为因变量,而且只能从自变量去推量,哪个为因变量,而且只能从自变量去推测因变量,而不能从因变量去推断自变量。测因变量,而不能从因变量去推断自变量。2.2.相关分析相关分析不能指出变量间相互关系的具体形不能指出变量间相互关系的具体形式;而式;而回归分析回归分析能确切的指出变量之间相互能确切的指出变

11、量之间相互关系的具体形式,它可根据回归模型从已知关系的具体形式,它可根据回归模型从已知量估计和预测未知量。量估计和预测未知量。3.3.相关分析相关分析所涉及的变量一般都是随机变量,所涉及的变量一般都是随机变量,而而回归分析回归分析中因变量是随机的,自变量则作中因变量是随机的,自变量则作为研究时给定的非随机变量。为研究时给定的非随机变量。相关分析与回归分析的联系 相关分析和回归分析有着密切的联系,它们不仅具相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须有共同的研究对象,而且在具体应用时,常常必须互相补充。互相补充。 相关分析需要依靠回归分析来表明现象数量

12、相关的相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。现象数量变化的相关程度。 只有当变量之间存在着高度相关时,进行回归分析只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。寻求其相关的具体形式才有意义。相关分析是回归分析的基础和前提,回归分析是相关分析相关分析是回归分析的基础和前提,回归分析是相关分析的深入和继续。的深入和继续。(二)相关分析的主要内容包括以下五个(二)相关分析的主要内容包括以下五个方面:方面:1. 1. 判判断社会经济现象之间是否存在相互依存断

13、社会经济现象之间是否存在相互依存的关系,是直线相关,还是曲线相关,这的关系,是直线相关,还是曲线相关,这是相关分析的出发点;是相关分析的出发点;2. 2. 确确定相关关系的密切程度;定相关关系的密切程度;3. 3. 测测定两个变量之间的一般关系值;定两个变量之间的一般关系值;4. 4. 测测定因变量估计值和实际值之间的差异,定因变量估计值和实际值之间的差异,用以反映因变量估计值的可靠程度;用以反映因变量估计值的可靠程度;5. 5. 相相关系数的显著性检验。关系数的显著性检验。第二节第二节 简单线性相关分析简单线性相关分析 定性分析定性分析定量分析定量分析一、相关关系的判定一、相关关系的判定(一

14、)相关表(一)相关表 将自变量将自变量x的数值按照从小到大的顺序,并配的数值按照从小到大的顺序,并配合因变量合因变量y的数值一一对应而平行排列的表。的数值一一对应而平行排列的表。二、相关表和相关图二、相关表和相关图简单相关表简单相关表分组相关表分组相关表单变量分组相关表单变量分组相关表双变量分组相关表双变量分组相关表 又称散点图。将又称散点图。将x置于横轴上,置于横轴上,y置于纵置于纵轴上,将(轴上,将(x,y)绘于坐标图上。绘于坐标图上。用来反映两用来反映两变量之间相关关系的图形。变量之间相关关系的图形。 当有三个变量存在相关关系时,如何用当有三个变量存在相关关系时,如何用相关图表示呢?相关

15、图表示呢?(二)相关图(二)相关图 某市某市19961996年年 2003 2003年的工资性现金支出与城镇储蓄存款余额的资年的工资性现金支出与城镇储蓄存款余额的资料,说明简单相关表和相关图的编制方法。料,说明简单相关表和相关图的编制方法。 从表可看出,随着工资性现金支出的增加,城镇储蓄存款余额有明从表可看出,随着工资性现金支出的增加,城镇储蓄存款余额有明显的增长趋势。所以,资料表明显的增长趋势。所以,资料表明( (如图如图) )有明显的直线相关趋势。有明显的直线相关趋势。序号年份工资性现金支出(万元)x城镇储蓄存款余额(万元)y11996 50012021997 54014031998 62

16、015041999 73020052000 90028062001 97035072002 105045082003 117051050100150200250300350400450500550400500600700800900100011001200工资性现金支出( 万元)城镇储蓄存款余额(万元) 例例1 1:简单相关表和相关图:简单相关表和相关图企业按销售额分组(万元)流通费用率(%)4以下9.65 4 87.68 8 127.2512 167.0016 206.8620 246.7324 286.6428 326.6032 366.5866.577.588.599.510048121

17、62024283236销售额(万元)流通费用率(%) 例例2 2 简单分组相关表和相关图简单分组相关表和相关图三、相关系数与应用三、相关系数与应用 相相关系数是在直线相关条件下,表明两关系数是在直线相关条件下,表明两个现象之间相关关系的方向和密切程度的综个现象之间相关关系的方向和密切程度的综合性指标。合性指标。一般用样本数据计算,记为一般用样本数据计算,记为r r;若;若用总体全部数据计算,则称为总体相关系数,用总体全部数据计算,则称为总体相关系数,记为记为 。(一)相关系数定义(一)相关系数定义 (二)相关系数(二)相关系数r r的测定方法:的测定方法:1 1、r r的计算的计算简化后为简化

18、后为: :2 2、对、对r r的解释如下:的解释如下:( (即即r r的特点的特点) )(1) (1) r r取正值或负值决定于分子协方差;取正值或负值决定于分子协方差;(2) (2) r r的绝对值,在的绝对值,在0 0与与1 1之间;之间;(3) (3) r r的绝对值大小,可说明现象之间相关关系的紧的绝对值大小,可说明现象之间相关关系的紧密程度。密程度。r rr rr rr r0.30.3时时,没没有有关关系系;0.30.3 0.50.5时时,称称低低度度相相关关;0.50.5 0.80b0,x x与与y y为正相关为正相关 b0b0,x x与与y y为负相关为负相关 2、a、b的确定:

19、在在简单直线回归方程中,简单直线回归方程中,a a、b b为待定系数,常用为待定系数,常用最小平方法来确定,最小平方法来确定,即即(y-y(y-yc c) )2= =最小值。最小值。2ynabxxyaxbx 即即22()nxyxybnxxyxabnn 3.简单直线回归方程建立的步骤为: 确定自变量确定自变量x x和因变量和因变量y y; 计算计算x x2 2、xyxy、xx、yy、xx2 2、xyxy; 代入公式,先求代入公式,先求b b,再求,再求a a。 写出回归方程写出回归方程4、简单直线回归分析的主要特点:、简单直线回归分析的主要特点: 1.1.直直线回归分析时,要根据研究目的,在两线

20、回归分析时,要根据研究目的,在两个变量之间确定哪个是自变量,哪个是因变量。个变量之间确定哪个是自变量,哪个是因变量。 2.2.在在两个现象互为根据的情况下,可以有两两个现象互为根据的情况下,可以有两个回归方程:个回归方程: y yc c=a+bx=a+bx 称称y y倚倚x x回归直线回归直线 x xc c=c+dy=c+dy 称称x x倚倚y y回归直线回归直线多多元线性回归分析可以看作是一元线元线性回归分析可以看作是一元线性回归分析的扩展。性回归分析的扩展。一、数学模型设可控或不可控的自变量设可控或不可控的自变量 ;目标函目标函数数 ,已测得的,已测得的n组数据为:组数据为: (1.1)其

21、中其中 是系统的测试数据,相当是系统的测试数据,相当于如下模型:设多目标系统为于如下模型:设多目标系统为: xxxp12,yyym12,2121mpyyyxxxyjmnj, , , ,1212 系统x1x2xpy1y2ym为简化问题,不妨设该系统为单目标系统,且由函数关为简化问题,不妨设该系统为单目标系统,且由函数关系系 ,可以设:,可以设: (1.2) 可得如下线性模型可得如下线性模型 (1.3) 为测量误差,相互独立,为测量误差,相互独立, 。 令令yf xxxp(,)12yxxpp011nnppnnnppppxxxyxxxyxxxy22110222222211021112211101 1

22、2,niN( , )0YyyyXxxxxxxxxxnppnnnppn121112121222120112111可得可得 (1.4) (1.4) 称为线性回归方程的数学模型。称为线性回归方程的数学模型。 利用最小二乘估计或极大似然估计,令利用最小二乘估计或极大似然估计,令 使使 由方程组由方程组 (1.5) 可得系数可得系数 的估计。的估计。令令 阶方阵可逆,由模型可得:阶方阵可逆,由模型可得: 即有即有 (1.6) 可以证明可以证明(1.6)与与(1.5)是同解方程组的解,它是最优线性无是同解方程组的解,它是最优线性无偏估计量,满足很多良好的性质偏估计量,满足很多良好的性质。YXniippii

23、xxyQ12110QQminpiQi,2, 1 ,0001,pAX XpT设() 1X YX XATTAXYT1二、模型的分析与检验 设目标函数设目标函数 的平均值和估计值分别为:的平均值和估计值分别为: 则由公式可计算得总偏差平方和,回归和剩余平方和:则由公式可计算得总偏差平方和,回归和剩余平方和: yyn1,ynyyyn112()SyySyySyynnn总剩回()( )( )212121SxpSxnpFSpSnpF p np回剩回剩2222111( )()/( ,)Xy 假设检验:假设检验: 至少有一个不为零至少有一个不为零结论是:当结论是:当 当当 被拒绝以后,说明方程被拒绝以后,说明方

24、程(2)中系数不全为零,方程中系数不全为零,方程配得合理。否则在被接受以后,说明方程配得不合适,配得合理。否则在被接受以后,说明方程配得不合适,即变量即变量 对目标函数都没有影响,对目标函数都没有影响,则要从另外因素去考虑该系统。则要从另外因素去考虑该系统。Hp0120:H1:FFp npH( ,),10时 拒绝当时,接受FFp npH( ,) 10H0 xxxp12,三、回归方程系数的显著性检验 假设假设 备选假设备选假设 可以证得:可以证得: (1.8) 或者或者 的对角线元素。的对角线元素。Hjj00:Hjj10:jp 1 2,jjjjjjjjjcNFcSnpFnp剩( , ),() /

25、( ,)0 11112tSnpt npcAXXjjjjjT/()()剩是1111. 在在 成立的条件下成立的条件下 或者或者 查查F检验临界值检验临界值 或或t检验临界值检验临界值 当当 时,时, 显著不为零,方程显著不为零,方程(1.2)中中 第第 j个变量作用显著。若有某一个变量作用显著。若有某一个系数个系数 假设假设 被接受,则应从方程中剔除第被接受,则应从方程中剔除第 j个变个变量。然后从头开始进行一次回归分析工作。量。然后从头开始进行一次回归分析工作。jH0FFnpttnpjj( ,)()1112或ji 012pnSCFjjjj剩1pnSCtjjjj回1pnF12pntjH0四、回归

26、方程进行预测预报和控制四、回归方程进行预测预报和控制 经过回归分析得到经验回归方程为经过回归分析得到经验回归方程为 (1.9)设要在某已知点上进行预测,可得点估计:设要在某已知点上进行预测,可得点估计: (1.10)下面对预测值进行区间估计,可以证得下面对预测值进行区间估计,可以证得其中其中 yxxpp011yxxpop00101yyNb ( ,)00bnCxxxxijoiiojjjpip21111()()y ybNSx n py ySn pt n p ( ,),(),/()022001111剩剩y01) 1(12020pnSpntyypnSty剩剩 得得 的预测区间:的预测区间: 以我国以我

27、国1973197319831983年年1111年手表价格和手表销售量年手表价格和手表销售量的实际资料为例,拟合一元线性回归方程为:的实际资料为例,拟合一元线性回归方程为: y yc c= 9643 - 65= 9643 - 65x x此时,回归系数此时,回归系数b b表明,手表平均价格每降低表明,手表平均价格每降低1 1元元/ /只,只,销售量约平均增长销售量约平均增长6565万只。万只。一元线性回归模型只列入一元线性回归模型只列入了手表平均价格对销售量的影响,而忽略了居民收入了手表平均价格对销售量的影响,而忽略了居民收入这一很重要的因素这一很重要的因素,因此,现对此资料补入同期居民,因此,现

28、对此资料补入同期居民人均货币收入资料,将原来的一元线性回归模型扩展人均货币收入资料,将原来的一元线性回归模型扩展为二元线性回归模型进行回归分析。为二元线性回归模型进行回归分析。例例列成计算表如下:年份(n=11)手表销售量y(万只)人均货币收入x1(元)手表平均价格x2(元/只)x1yx2yx1x21973 650.4102.113466405.8487153.613681.41974 758.4105.313479859.52101625.614110.21975 819.9110.112990270.99105767.114202.91976 1051.7113.9131119788.63

29、137772.714920.91977 1149.7120.4127148423.88146011.915290.81978 1388.1131.0125181841.10173512.516375.01979 1944.4157.0123305270.80239161.219311.01980 2534.0193.5123490329.00311682.023800.51981 2890.0210.2114607478.00329460.023962.81982 3576.0228.7 89817831.20318264.020354.31983 3898.0258.7 861008412.

30、60335228.022248.2合计20660.61730.9 13153905911.562285638.6198258.0年份(n=11)197310 424.4117 956197411 088.0917 956197512 122.0116 641197612 973.2117 161197714 496.1616 129197817 161.0015 625197924 649.0015 129198037 442.2515 129198144 184.0412 996198252 303.697 921198366 925.697 396合计303 769.55160 03921

31、x22x续表续表21212121210328.86368.180641.940328.86368.180641.9416003919825813156 .228563819825855.3037699 .173056.390591113159 .1730116 .20660 xxybbabbabbabbac由表中数据有:由表中数据有:b b1 1表明在手表平均价格固定时,人均货币收入每增表明在手表平均价格固定时,人均货币收入每增加元,手表销售量平均增长加元,手表销售量平均增长18.636818.6368万只;万只;b b2 2表明在人均货币收入固定时,手表平均价格每上表明在人均货币收入固定时,

32、手表平均价格每上升元升元/ /只,手表销售量平均减少只,手表销售量平均减少8.03288.0328万只。万只。这里的这里的b b2 2比原一元线性回归模型中的同一回归系数比原一元线性回归模型中的同一回归系数b=-65b=-65要大得多要大得多,是因为一元线性回归模型只列入了手表,是因为一元线性回归模型只列入了手表平均价格对销售量的影响而忽略了居民收入这一很重要平均价格对销售量的影响而忽略了居民收入这一很重要的因素,在手表平均价格的影响中渗入了居民收入的影的因素,在手表平均价格的影响中渗入了居民收入的影响。响。210328.86368.180641.94xxyc3 曲线回归一 曲线的类型与特点曲

33、线的类型与特点二二 曲线方程的配置曲线方程的配置三三 多项式回归多项式回归 曲线回归曲线回归( (curvilinear regressioncurvilinear regression) )或非线或非线性回归性回归( (non-linear regressionnon-linear regression) ):两个变:两个变量间呈现曲线关系的回归。量间呈现曲线关系的回归。 曲线回归分析或非线性回归分析曲线回归分析或非线性回归分析:以最小二:以最小二乘法分析曲线关系资料在数量变化上的特征乘法分析曲线关系资料在数量变化上的特征和规律的方法。和规律的方法。 曲线回归分析方法的主要内容有:曲线回归分

34、析方法的主要内容有: 确定两个变量间数量变化的某种特定的规则或确定两个变量间数量变化的某种特定的规则或规律;规律; 估计表示该种曲线关系特点的一些重要参数,估计表示该种曲线关系特点的一些重要参数,如回归参数、极大值、极小值和渐近值等;如回归参数、极大值、极小值和渐近值等; 为生产预测或试验控制进行内插,或在论据充为生产预测或试验控制进行内插,或在论据充足时作出理论上的外推。足时作出理论上的外推。第一节第一节 曲线的类型与特点曲线的类型与特点 一、指数函数曲线一、指数函数曲线 二、对数函数曲线二、对数函数曲线 三、幂函数曲线三、幂函数曲线 四、双曲函数曲线四、双曲函数曲线 五、五、S S型曲线型

35、曲线一、指数函数曲线一、指数函数曲线 指数函数方程有两种形式:指数函数方程有两种形式: 图图11.111.1方程方程 的图象的图象bxaey xaby 00,ba00,babxaey yx 二、对数函数曲线 对数函数方程的一般表达式为对数函数方程的一般表达式为: 图11.2 方程 = =a a+ +b blnx x 的图象xbayln0b0byyx 三、幂函数曲线三、幂函数曲线 幂函数曲线指幂函数曲线指y y是是x x某次幂的函数曲线,其方程为:某次幂的函数曲线,其方程为: 图图11.3 11.3 方程方程 的图象的图象baxy 10ba100ba0,0babaxy yyxx 四、双曲函数曲线

36、四、双曲函数曲线 双曲函数因其属于变形双曲线而得名,其曲线方程双曲函数因其属于变形双曲线而得名,其曲线方程一般有以下一般有以下3 3种形式:种形式: 图图11.4 11.4 方程方程 的图象的图象bxaxyxbxaybxay100,ba0,0 bab1bayybxaxy xx 五、五、S S型曲线型曲线 S S型曲线主要用于描述动、植物的自然生长过程,型曲线主要用于描述动、植物的自然生长过程,故又称生长曲线。故又称生长曲线。 LogisticLogistic曲线方程为:曲线方程为: bxaeky1balnk2kak1yx第二节第二节 曲线方程的配置曲线方程的配置 一、曲线回归分析的一般程序曲线

37、回归分析的一般程序 二、指数曲线方程二、指数曲线方程 的配置的配置 三、幂函数曲线方程的配置三、幂函数曲线方程的配置 四、四、LogisticLogistic曲线方程的配置曲线方程的配置bxaey 一、曲线回归分析的一般程序一、曲线回归分析的一般程序 曲线方程配置曲线方程配置( (curve fittingcurve fitting) ):是指对两个变量资是指对两个变量资料进行曲线回归分析,获得一个显著的曲线方程的料进行曲线回归分析,获得一个显著的曲线方程的过程。过程。 由试验数据配置曲线回归方程,一般包括以下由试验数据配置曲线回归方程,一般包括以下3 3个基个基本步骤:本步骤: 1 1根据变

38、量根据变量X X 与与Y Y 之间的确切关系,选择适当的曲之间的确切关系,选择适当的曲线类型。线类型。 2 2对选定的曲线类型,在线性化后按最小二乘法原对选定的曲线类型,在线性化后按最小二乘法原理配置直线回归方程,并作显著性测验。理配置直线回归方程,并作显著性测验。 3 3将直线回归方程转换成相应的曲线回归方程,并将直线回归方程转换成相应的曲线回归方程,并对有关统计参数作出推断。对有关统计参数作出推断。 表11.1 常用曲线回归方程的直线化方法 应用上述程序配置曲线方程时,应注意以下应用上述程序配置曲线方程时,应注意以下3 3点:点: (1) (1) 若同一资料有多种不同类型的曲线方程配置,若

39、同一资料有多种不同类型的曲线方程配置,需通过判断来选择。统计标准是残差平方需通过判断来选择。统计标准是残差平方 和和 最小的当选。最小的当选。 (2) (2) 若转换无法找出显著的直线化方程,可采用若转换无法找出显著的直线化方程,可采用多项式逼近,多项式逼近, (3)(3) 当一些方程无法进行直线化转换,可采用最当一些方程无法进行直线化转换,可采用最小二乘法拟合。小二乘法拟合。2)(yy二、指数曲线方程 的配置 (111) 两边取对数两边取对数: (112) 令令 ,可得直线回归方程可得直线回归方程: (113) 若若 与与x x的线性相关系数的线性相关系数: (114) bxaey bxae

40、y bxay lnlnbxaylnyxyxyxySSSSSPryyln 显著,就可进一步计算回归统计数:显著,就可进一步计算回归统计数: (115) 三、幂函数曲线方程三、幂函数曲线方程 的配置的配置 (116) axxyeaxbyaSSSPbln ln/baxy baxy 当当 y 和和 x 都大于都大于0 0时可线性化为时可线性化为: (117) 若令若令 , ,即有线性回归方程:,即有线性回归方程: (118) 若若线性相关系数:线性相关系数: (119)xbaylnlnlnyylnxxlnxbaylnxyxyxySSSSSPr 显著,回归统计数:显著,回归统计数: (1110) 四、四

41、、LogisticLogistic曲线方程的配置曲线方程的配置 (a、b、k均均0) (1111) axxyeaxbyaSSSPbln ln/bxaeky1K K 可由两种方法估计:可由两种方法估计: 如果如果y y是累积频率,则显然是累积频率,则显然k k= =100100% %; 如果如果y y是生长量或繁殖量,则可取是生长量或繁殖量,则可取3 3对观察值对观察值 (x x1 1,y y1 1)、()、(x x2 2,y y2 2)、和()、和(x x3 3,y y3 3),代入),代入(11(1111) 11) 得:得:)()()(321111321bxbxbxaekyaekyaeky

42、若令若令 ,解得:,解得:移项,取自然对数得:移项,取自然对数得: 2/ )(312xxx31223213122)(yyyyyyyyyk2bxayykln)ln( (1113)(1112) 令令 可得直线回归方程:可得直线回归方程: (1114) 和和 x 的相关系数的相关系数: (1115) 回归统计数回归统计数 a 和和 b 由下式估计:由下式估计:)ln(yykybxaylnyxyrxyxySSSSSP axxyeaxbyaSSSPblnln/(1116)第三节第三节 多项式回归多项式回归 一、多项式回归方程一、多项式回归方程 二、多项式回归的假设测验二、多项式回归的假设测验一、多项式回

43、归方程 ( (一一) ) 多项式回归方程式多项式回归方程式 多项式回归多项式回归( (polynomial regressionpolynomial regression) ):当两个变量:当两个变量间的曲线关系很难确定时,可以使用多项式去逼近。间的曲线关系很难确定时,可以使用多项式去逼近。 二次多项式,其方程为:二次多项式,其方程为: (1117) 2212xbxbay 三次多项式的方程式为: (1118) 332213xbxbxbay 多项式方程的一般形式为:多项式方程的一般形式为: (1119) ( (二二) )多项式方程次数的初步确定多项式方程次数的初步确定 多项式回归方程取的次数:散

44、点所表现的曲线趋势多项式回归方程取的次数:散点所表现的曲线趋势的峰数谷数。若散点波动较大或峰谷两侧不的峰数谷数。若散点波动较大或峰谷两侧不对称,可再高一次。对称,可再高一次。kkkxbxbxbay221 ( (三三) )多项式回归系数的计算多项式回归系数的计算 可采用类似于多元线性回归的方法求解多项式回归可采用类似于多元线性回归的方法求解多项式回归系数。系数。 令令 , , ,(1119)可化为:可化为: (1120) xx 122xx kkxx kkkxbxbxbay2211 可采用矩阵方法求解。即由可采用矩阵方法求解。即由和和knnnkkknnnkkxxxxxxxxxxxxxxxxxx12

45、1112212121121111212221212111111111Xnyyy21Y 求得求得 、 和和( )-1,并由,并由 b=( )-1( )获得相应的多项式回归统计数。获得相应的多项式回归统计数。 ( (四四) ) 多项式回归方程的估计标准误多项式回归方程的估计标准误 y y 的总平方和的总平方和 SSSSy y 可分解为回归和离回归两部分:可分解为回归和离回归两部分: SSy=Uk+QkXX YX XX XX YX (1121) k k 次多项式的离回归标准误可定义为:次多项式的离回归标准误可定义为: 即是多项式回归方程的估计标准误。即是多项式回归方程的估计标准误。 kykkyQSS

46、nUQnSS/)(/)(22Y1YXbYXbYYY1YY1)(,/knQskxxxyk2(1122)(1123) 二、多项式回归的假设测验二、多项式回归的假设测验 多项式回归的多项式回归的假设测验包括三项内容假设测验包括三项内容: 总的多项式回归关系是否成立?总的多项式回归关系是否成立? 能否以能否以k k-1-1次多项式代替次多项式代替k k次多项式,即是否有必次多项式,即是否有必要配到要配到k k次式?次式? 在一个在一个k k次多项式中,次多项式中,X X 的一次分量项、二次分的一次分量项、二次分量项、量项、k k-1-1次分量项能否被略去次分量项能否被略去( (相应的自由度相应的自由度

47、和平方和并入误差和平方和并入误差) )? ( (一一) )多项式回归关系的假设测验多项式回归关系的假设测验 多项式回归多项式回归( (U Uk k) )由由X X的各次分量项的不同所引起,具的各次分量项的不同所引起,具有:有: 。 离回归离回归( (Q Qk k) ):与:与X X 的不同,具有的不同,具有 。 可测验多项式回归关系的真实性。可测验多项式回归关系的真实性。 k)1(kn1)(knQkUFkk/(1124) 相关指数相关指数: ,k k 次多项式的回归平方次多项式的回归平方 和占和占Y Y总平方和的比率的平方根值,可用来表示总平方和的比率的平方根值,可用来表示Y Y与与相应相应多

48、项式的相关密切程度。多项式的相关密切程度。 决定系数:在决定系数:在Y Y 的总变异中,可由的总变异中,可由X X 的的k k 次多项式次多项式说明的部分所占的比率。说明的部分所占的比率。kxxxyR,2ykxxxySSURk/2,(1125) ( (二二) ) k k 次多项式必要性的假设测验次多项式必要性的假设测验 若若k k次多项式的次多项式的k k次项不显著,可由(次项不显著,可由(k k- -1 1)次方程)次方程描述描述Y Y 与与X X 的曲线关系。的曲线关系。 有必要测验多项式增加一次所用去的有必要测验多项式增加一次所用去的1 1个自由度,个自由度,对于离回归平方和的减少对于离

49、回归平方和的减少( (或回归平方和的增加或回归平方和的增加) )是是否否“合算合算”。因此由:。因此由:ykxxxySSURk22, (1127) 可测验可测验k k 次多项式的适合性。次多项式的适合性。 ( (三三) ) 各次分量项的假设测验各次分量项的假设测验 偏回归平方和:偏回归平方和: 1)(knQUUFkkk/11)1)(iiiPcbUi2(1128) 此此 具有具有 ,故由:,故由: 可测验可测验i i次分量是否显著。次分量是否显著。iPU11)(knQUFkPi/(1129) 4 主成份分析一、数学模型二、主成份分析二、主成份分析三、主成份的贡献率三、主成份的贡献率这是一个将多个

50、指标化为几个少数指标进行统计分析这是一个将多个指标化为几个少数指标进行统计分析的问题,设有的问题,设有 维总体有维总体有 个随机指标构成一个个随机指标构成一个 维随机向量维随机向量 ,它的一个实现,它的一个实现为为 ;而且这;而且这 个指标之间往个指标之间往往相互有影响,是否可以将它们综合成少数几个指往相互有影响,是否可以将它们综合成少数几个指标标 ,使它们尽可能充分反映原,使它们尽可能充分反映原来的来的 个指标。个指标。例如加工上衣,有袖长、身长、胸围、肩宽、领围、例如加工上衣,有袖长、身长、胸围、肩宽、领围、袖口、袖深,袖口、袖深,等指标,是否可以找出主要几个等指标,是否可以找出主要几个指

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(统计方法建模课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|