数据分析及DPS数据处理系统课件.ppt_163文库

资源描述

1、试验应用统计：设计、创新和发现，第2版，George E.P.Box等著，张润楚等译，机械工业出版社，2019 试验的设计与分析：王万中主编，高等教育出版设，2019.试验设计与分析及参数优化，吴建福(美)等著(张润楚等译)，中国统计出版社，2019 DPS数据处理系统-实验设计、统计分析及数据挖掘,第2版，唐启义著，科学出版社，2019 DPS 上世纪80年代以来，很多单位都着手编写统计分析程序，但随着时间的推移，绝大多数程序由于算法落后、数据格式规范性差、输出格式零乱、缺乏完整性而被淘汰。目前，国外大型统计软件，如SAS、SPSS等占优势。这从短期效应来看，引进国外软件，有利国内科研对数

2、据处理需求。但从长期看，特别是从知识产权来讲，依赖于国外软件需要昂贵的费用支持。如在SAS平台上开发的程序，由于摆脱不了SAS的环境，难在国内推广应用。因此，研制、推广适合国内需要的统计软件，是势在必行的事；我们通过近20多年的努力，开发成功了功能完整的DPS数据处理系统，其功能已接近、SPSS的水平。1988年开始，历时10年，2019年推出DOS版本第1版，同时出版配套专著第1版(4000册)；2019年完成Window版(第2版)，2019年和2019年分别出版配套专著3000册；2019年再次出版配套专著3500册（165万字)；目前软件版本12.01版。DPS数据处理系统开发历程出版

3、教材：唐启义DPS数据处理系统实验设计、统计分析及数据挖掘第2版，科学出版社，2019年。唐启义冯明光DPS数据处理系统实验设计、统计分析及数据挖掘科学出版社，2019年。唐启义冯明光实用统计分析及其DPS数据处理系统科学出版社，2019年。唐启义冯明光实用统计分析及其计算机处理平台中国农业出版社，2019年。DPS数据处理系统实验设计、统计分析及数据挖掘实验设计：均匀设计混料实验设计统计分析：动态聚类分析因子分析模型统计检验与评价用户数已超过10000；遍及国内各个省市，包括港、台，各个行业和领域；美国宾州大学林共进博士的实验室用于工业实验设计（大样本实验设计）；成为赴国外攻读

4、博士、或访问学者的工具。(1)将数据输入到DPS的电子表格里。数据一般是一行为一个记录(样本)，一列一个指标（变量）。(2)用鼠标选中待分析的数据。(3)进入菜单选择相应的统计功能项。(4)系统对选中的数据进行分析，并将分析结果返回到另一电子表格。某县植保站，调查4个水稻品种上稻纵卷叶螟卷叶率(%),结果列于下表。水稻品种卷叶率（%）合计平均A131.927.931.828.435.9155.9 31.18A224.825.726.827.926.2131.4 26.28A322.123.627.324.925.8123.7 24.74A427.030.829.024.528.5139.8 2

5、7.96合计=550.8数据转换：如数值相差几个数量级，可用对数转换;如许多小区值为0，则可用平方根转换;如指标是百分数,且大部分数值大于70或小于30，可用反正弦平方根转换。一般用Tukey法和LSD法。但注意：目目前国内目前的农药实前国内目前的农药实验要求验要求Duncan 法。法。在您目前从事或涉及到的研究领域，在实验设计或进行数据分析时，您最有可能碰到哪些统计学方面的问题？在试验设计与数据处理分析中，您有可能用到工具软件（如DPS）中的哪些功能、或数据分析方法来解决您的问题，以及使用这些方法时的注意事项。实验设计特点实验设计基本原则实验设计基本内容和步骤常用实验设计方法试验研究

6、和调查研究主要区别：对研究对象是否进行干预。试验研究特点：根据研究目的(或假设)主动加以干预措施，观察结果，回答研究假设所提出的问题。首先假设该农药可以杀死害虫。在田间划分几个随机区组几个随机区组，区组内随机设置小区随机设置小区，必要时各个小区接入害虫卵块。将农药配制成不同的浓度，再加一个空白再加一个空白(清水清水)对对照照。在害虫防治适期施药、处理。处理(施药)后24小时、72小时、，调查各个小区的虫量(观察指标)，并对数据进行方差分析，看各处理间有无显著差异，进而得出该农药是否具有对该害虫防治效果的结论。从该例中可以看出研究者施加了干预干预措施，即施用不同浓度的农药。再经过观察总结，验证提

7、出的假设是否正确。随随机机对对照照重重复复目的是为有效控制非处理因素目的：研究者在实验设计时，并不完全知道实验过程中的许多非实验因素，随机误差干扰在所难免，因此有必要采用随机化的办法抵消这些干扰因素采用随机化的办法抵消这些干扰因素的影响的影响。随机化原则包括两方面随机分配：把实验处理对象随机分到各个区组内，以增强可比性(区组内小区随机设置)。随机抽样：总体中的每一个观察单位都有同等的机会被选入到样本中来(如实验结果的调查)。设置对照小区，除实验处理不同外，实验过程中的实验条件和辅助措施都应相同，以便比较所研究对象存在的真实差异。抵消害虫、病害自身消长趋势的影响抵消实验环境的其它因素

8、的干扰空白对照(如农药药效实验中用清水处理，重金属元素检测的空白处理)标准对照(如农药药效实验中的标准农药品种)单因素随机区组设计是指各处理组及对照组的重复要有一定数量。重复数太少的话，很可能把某些偶然现象当作客观规律。重复数太多的？人力物力浪费。在保证实验结果具有一定可靠性的条件下，确定合适的重复(区组)数量。建立研究假设（提出要解决的问题）明确研究范围（受试对象）确立处理因素（处理因素）明确观察指标（实验效应）控制误差和偏倚(区组设计)科研选题：研究的题目要有科学性和新颖性、社会效益和经济效益、最后要考虑可行性。实验中的三个基本要素为：处理因素、实验效应和受试对象。明确研究范围即：受试

9、对象所组成的研究总体规定本次研究的总体范围如研究病虫为害对作物产量影响，首先确定作物产量的考察标准以及计量方法，然后根据研究需要，选定实验田块安排实验，确定实验处理因素(不同的害虫密度梯度设置)，使得实验效果清晰、明了。例如：用某种杀虫剂防治作物害虫，观察其虫口数量下降情况。基本要素：处理因素（杀虫剂）受试对象（作物害虫）实验效应（虫口数量下降）处理因素是根据研究目的而施加的特定实验处理因素是根据研究目的而施加的特定实验措施措施(如农药药效实验种的不同农药浓度)。为了增强可比性，实验通常设立对照，如空白或者标准。对照也是一种处理措施。实验中的实验效应主要指处理因素作用于实验对象的反应

10、，这种效应将通过实验中观察指标显示出来。选用的指标应该是：客观性强（易观察，可量可测，操作性强）灵敏度高（对各个处理的反应要灵敏）精确性强（要反应研究对象的实质，不受或少受其它因素的影响）误差（error）：测量值与真值之差 1，5，9=5 (真正均值5)偏倚（bias）：在实验中由于某些非实验因素的干扰所形成的系统误差 4，5，9=6 (真正均值5)完全随机实验随机区组设计裂区实验设计正交设计二次正交回归组合设计均匀实验设计常用常用试验设计试验设计完全随机完全随机设计设计随机区组随机区组设计设计裂区设计裂区设计样本容量样本容量估计估计随机分组随机分组方差分析方差分析多重比较多重比较

11、局部控制局部控制随机分随机分处理处理方差分析方差分析多重比较多重比较主区主区裂区裂区方差分析方差分析正交设计正交设计水平数水平数5 5正交表正交表安排安排方差分析方差分析均匀设计均匀设计均匀表均匀表安排安排线性回归线性回归分析分析多项式逐多项式逐步回归步回归模型优化模型优化正交回归正交回归组合组合M Mc c+M+Mr r+M+M0 0二次多二次多项式回归项式回归模型优化模型优化水平数水平数5 5概念：首先将受试对象随机分配到实验(处理)组和对照组，通过比较分析回答研究假设。统计方法成组设计的两样本均数比较(t检验)，相应的秩和检验(非参数检验)成组设计的多个样本均数比较(方差分析),相应的秩

12、和检验(非参数Kruskal Wallis检验)两样本率(卡方检验)或多样本率比较(Logistic 回归)使用随机数字表 DPS生成：如3个处理，5次重复，共15个实验处理(样品)的实验：分组对象编号甲组1791014乙组58111315丙组234612133.8125.3143.1128.9135.7151.2149162.7143.8153.5193.4185.3182.8188.5198.6在菜单下执行“实验统计”-“完全随机设计”下面的“单因素实验统计分析”。数据转换：如数值相差几个数量级，可用对数转换;如许多小区值为0，则可用平方根转换;如指标是百分数,且大部分数值大于70或小于3

13、0，可用反正弦平方根转换。一般用Tukey法和LSD法。国内目前的农药实验要求Duncan 法。数据描述：均值和标准差是必须的，处理样本数也要说明。方差分析：F值、自由度和P值；如P0.05则差异显著，如P“随机区组设计”下面的“单因素实验统计分析”。数据转换：如数值相差几个数量级，可用对数转换;如许多小区值为0，则可用平方根转换;如指标是百分数,且大部分数值大于70或小于30，可用反正弦平方根转换。一般用Tukey法和LSD法。但注意：目前国内目目前国内目前的农药实验要求前的农药实验要求Duncan 法。法。结果描述及数据分析与完全随机实验设计相同，就当是区组间那一行不存在原始观察值：协方

14、差分析相对防治效果一般线性模型在方差分析中的应用。在“可供分析变异来源”列表框中先选“B”,点击”,再选“A”,点击”,将这两项加入到右边。并选I型平方和分解。多重比较方法，这里选”Duncan”法，然后点击”OK”即可输出结果。问题提出：不同农药或某农药不同浓度，在不同时期或不同施药技术情况下对病虫的防治效果。一般情况:两因素随机区组设计。特殊情况:植保农药实验，加上施药时期、施药技术等因子后，含有“伪因子”情形，需用一一般线性模型分析般线性模型分析农药不同种类、不同浓度处理，一般要设空白作为对照。空白和其它因子组合，如和施药时期、施药技术的组合，实际上还是“空白”，没有不同（伪因子）

15、。因此“伪因子”的多因子农药实验中经常遇到。农业中的多因素农药、施肥等实验，只要有空白作为对照，就有这种现象存在。这样的数据不能直接进行两因素随机区组设计的方差分析实验结果解释(2：多重比较)完全随机设计、随机区组设计（析因设计）裂区设计均匀设计正交设计正交回归组合设计正交设计及正交回归组合设计是应用最广泛的正交设计及正交回归组合设计是应用最广泛的多因子实验设计。多因子实验设计。一般多因素试验设计(析因设计)当处理因素较多时：处理组合呈指数增长 5个因素,5个水平,3个区组有多少处理组合？55=3025次x3=9075 正交试验设计：从所有的试验组合中，选择在试验因子空间相互正交因子空

16、间相互正交的一些点来进行试验。需要的实验次数是水平数的平方水平数的平方更多因素的实验设计：为什么一般用正交实验设计？当实验涉及的因素在三个或三个以上，且因素间可能存在交互作用时，可用正交设计。正交实验中各因素的水平数可以相等，也可以不相等。它利用一套规格化的正交表，将各实验因素、各水平之间的组合均匀搭配，合理安排，可以用较少的、有代表性的处理组合数，提供充分有用的信息，还可以找出较优组合，用以指导实践。因子水平 1水平 2A：浇水次数不干死为原则，整个生长期只浇12次根据生长需水量和自然条件浇水，但不过湿B：喷药次数发现病害即喷药每半月喷一次C：施肥次数开花期施硫酸铵进室发根、抽苔、开花

17、和结实期各施肥一次D：进室时间11月初11月15日为了解决花菜留种问题，进一步提高花菜种子的产量和质量，科技人员考察了浇水、施肥、病害防治和移入温室时间对花果留种的影响，进行了这4个因素各因素两水平的正交试验。上例属于无重复的两水平正交实验如果想增大误差自由度以提高检测诸因子作用的能力，或者想研究各因子间的所有交互作用，就可采用重复实验的方法，假定把每一个实验都重复三次，结果如下。正交实验数据统计分析：初步分析：比一比，看一看统计分析：方差分析，及多重比较有重复和没有重复的统计分析。极差分析结果均值因子水平1 水平2 x(1)33.500065.2500 x(2)65.750033

18、.0000AB 44.000054.7500 x(4)36.750062.0000AC 69.500029.2500 x(6)50.250048.5000 x(7)50.500048.2500各个因子各水平均值因子极小值极大值极差R 调整R x(1)33.500065.250031.750045.0850 x(2)33.000065.750032.750046.5050AB 44.000054.750010.750015.2650 x(4)36.750062.000025.250035.8550AC 29.250069.500040.250057.1550 x(6)48.500050.2

19、5001.75002.4850 x(7)48.250050.50002.25003.1950方差分析表（不显著的互作项可作为空白列，重新分析不显著的互作项可作为空白列，重新分析）正交设计方差分析表(完全随机模型)变异来源平方和 df 均方 F值 p值 x(1)2019.125012019.1250329.16330.0351x(2)2145.125012145.1250350.22450.0340AB 231.12501231.125037.73470.1027x(4)1275.125011275.1250208.18370.0441AC 3240.125013240.1250529.000

20、00.0277x(6)*6.125016.1250 x(7)10.1250110.12501.65310.4208误差 6.125016.1250总和 8923.8750根据重复的设计类型确定正交试验结果分析考虑因子间的交互作用。根据一般正交试验结果可建立回归模型，如 Y=290-106x1+93x2+31x3+6x4 线性回归模型能优化吗：求最大、最小值优化需要二次曲线方程二次多项式回归方程，可以优化，如 y=68.5-15X1-40X2+0.0X1*X1+0.0X2*X2+15X1*X2 但是一般实验设计得到的自变量，其二次项，互作项之间不一定正交。在没有计算机软件的情况下，计算工作

21、量也大。要建立二次多项式优化，因子之间又要正交：正交回归组合设计正交回归组合设计使得试验因素的整个设计矩阵，包括二次项、使得试验因素的整个设计矩阵，包括二次项、互作项都相互正交。互作项都相互正交。二次.正交.旋转.组合.设计二次：模型优化；正交：各个因子正交；消除因子间互作的影响；旋转：各个因子点到中心的距离相等；组合：加上适当的中心试验点(0,0,0,0)个数，适当整个设计矩阵满足要求。根据中心点数不同(当然为保持正交性，相应的臂长也不同)，有：二次正交旋转组合设计二次通用组合设计二次正交回归组合设计 Center composite designs(CCD)零水平零水平星号臂长实验

22、设计零水平必须大于臂长正的星号臂值水平须“过量”变化区间左边方实验设计表，右边一列放各个处理相应的产量，然后用鼠标选中。最后进入主菜单，选择“试验统计”中的“实验优化分析”下面的“二次多项式回归”。系统出现如下界面。、各个因素(试验处理水平)编码的平均值和标准差,以及相关系数矩阵；、二次多项式回归模型；、回归模型的F检验值及显著水平p，一般显著水平小于等于0.05时即可对该模型进一步分析，如果F太小，回归方程不显著，则不适合建立二次多项式回归模型来分析试验结果；变异来源平方和自由度均方F值p值回归468.291433.44931.26880.3026残差553.642126.3636 失拟4

23、20.371042.03673.46970.0264 误差133.271112.1154总变异1021.9335、各个因子项的回归系数、标准回归系数、t检验值及显著水平p；、回归模型的复相关系数R剩余标准差和调整后的相关系数，一般来说，调整后的相关系数越大越好；、各个处理的观测值、拟合值和拟合误差，以及Durbin-Watson(DW)统计量。DW统计量只当分析样本按某一顺序(如处理先后)存放时才有意义，该值要在2的附近为好；、其他因子为零时单因子和两因子互作效应分析，可在DPS系统作图功能的支持下，分别作x-y曲线图和等高线图；、其他因子为零水平时，各个因素的灵敏度分析，给出了系数灵敏度、导

24、数、平均效应y/x和目标函数y，根据这些数据，可以进行边际分析；应用典型方程，我们可以得到如下信息：一是稳定点处是否是拟合模型的极大值、极小值或者是鞍点：当典型方程的各个系数为负负时，稳定点为模型的极大值极大值；当典型方程的各个系数为正正时，稳定点为模型的极小值极小值；当典型方程的各个系数有正正有负负时，稳定点为鞍点鞍点。这一点很重要，这时因为我们在寻优建模时，往往根据专业背景，指定模型寻优方向。这种寻优方向可能和拟合模型本身的最优解不一致，或部分因子不一致。不一致时，采用数值寻优算法得到的最优点有可能位于实验因子取值的边界上。同时，根据典型方程，判断各个因素在稳定点附近的变化大小。系数越大，

25、变化越快，该点的稳定性就较差，这是在应用中需要注意的。最后，如果通过数值优化分析和典型分析得到的最优值一致，那么模型可以认为是较好的，如果不一致，在模型应用时，需要进行更深入的分析，探明原因，且模型结果谨慎应用。多因子优化设计试验，一般试验次数较多。试验次数增加会带来量方面的问题：一是试验时间延长。有的实验处理是依时间顺序一个接一个地进行的。由于时间延而产生的对实验结果的影响叫做时间漂移，这一影响很可能增加试验误差。这种情况在工业试验中较为普遍。另一种情况是试验区增大。在农林生物的田间试验中，因处理因子多、实验区加大、这样难以在同质的条件下进行试验，而需要进行小区控制、实行区组设计。区组设计应

26、用与多因子优化试验是有必要的。但遗憾的是，我们以往的试验优化分析工具，都没有提供可处理区组设计功能。这里，我们增加了处理含有若干区组的二次正交回归组合(中心复合)设计试验数据分析建模功能，该功能模块在“试验统计”“试验优化分析”“区组设计二次多项式回归”里面。二次正交回归组合设计或其他多因子试验，如果在实施时划分了B个区组，在试验结果的数据分析时，数据的第一列放区组的顺序编号(1，2，.,B)，其它列则和其它多因素实验设计一样，放各个处理因子的编码值或各个因子试验实施的水平值，最右边放试验观察指标结果值。变异来源变异来源平方和平方和自由度自由度均方均方F F值值p p值值回归回归679.546

27、79.54161642.4742.472.35692.35690.03830.0383模型模型468.29468.29141433.4533.451.85621.85620.10420.1042区组区组211.25211.252 2105.63105.635.86165.86160.01040.0104残差残差342.38342.38191918.0218.02失拟失拟259.17259.178 832.4032.404.28254.28250.01450.0145误差误差83.2183.2111117.567.56总变异总变异1021.931021.933535 回归(regression)

28、建立一个描述应变量依自变量变化而变化的直线方程，并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种，直线回归方程是Y=a+bX 中，a、b 是决定直线的两个系数，根据试验数据、或调查资料，建立定量的回归方程，并对回归方程进行统计检验的过程。最小二乘法建立线性回归方程。在DPS里，建立回归方程：一行一个样本一列一个变量因变量放在最右边。建立回归方程，样本个数要大于总变量个数。、典型分析，求一阶偏导数方程、拟合方程的典型形式，稳定点分析；、在试验条件的约束之下，进行模型优化，得到最高产量时各个因素组合。最后，如果在分析时按系统的提示，输入了目标指标的价格，以及各

29、个处理因素的价格，系统将会给出最大经济效益时的产量和产值。对回归模型进行比较深入、直观地分析；典型分析(又称典范分析，典则分析，Canonical analysis)提供了较为理想的分析技巧。回归方程能否成立，看F值，显著水平(0.5)，50%。决定系数是相关系数的平方，相关系数要大于0.7。决定系数说明了：建立线性回归方程的这些变量，这些变量建立起来的回归方程，可以解释因变量变化（波动）的比例。各个变量的作用(影响)：看标准系数，标准系数才具有可比性。因子作用是否显著，看回归系数的显著水平。0.05才显著。不显著的因子可考虑可考虑剔除。但并不是一大于0.05就剔除。原因是自变量之间的相互作用是非常复杂的。如多重共线性。在DPS中，逐步回归分析数据格式和线性回归相同：一行一个样本，一列一个变量，因变量放在最右边。逐步回归：调整R值达到最大下一页一行为一个样本,一列为一个变量。在数据块中，第一列为X1，第二列为X2，.。若数据块中有p列数据，那么数据块的最后一列为Xp。用户操作界面谢谢！

展开阅读全文