1、2课 程 大 纲五、图形分析 5.1 直方图 5.2 箱型图 5.3 散点图 5.4 时间序列图六、假设检验 6.1 假设检验定义及原理 6.2 均值检验 6.3 方差检验 6.4 One Way ANOVA 6.5 Two Way ANOVA 6.6 比例检验七、相关与回归 7.1 相关分析 7.2 回归分析3何为统计学4何为统计学n 统计学定义以上所有例子,都要通过各种直接或间接的手段来搜集数据,都要利用相应方法来整理和分析数据,最后通过分析得到结论。你可以借助统计说出你想要的结论,甚至撒下谎言你可以借助统计说明世界多奇妙样本总体抽样/实验推论5统计学分析方法的类别含义:大多以图表方式,简
2、单计算等方式来对数据的分布、变化、趋势等进行描述的统计分析方法;特点:操作简单、直观有效含义:研究如何根据样本数据对统计总体特征做出以概率形式表述的推断;特点:一般需要建模,相对复杂;经典方法:估计、假设检验两大类统计分析方法描述统计方法推论统计方法一般来说,推论统计分析是在描述统计分析的基础上进行的,两种分析方法密不可分;n 统计学分析方法的类别n 描述统计与推论统计的联系:6统计名词n 总体:研究对象所有个体的集合n 样本:由总体中抽取部分个体所组成的集合 一般n30 称为小样本,n30 则称为大样本n 总体参数:表达总体特征的指标 n 统计量:表达样本特征的量数,也称样本统计量n 变量:
3、统计学研究的对象,用数据衡量,根据其特性可分为:计量值(连续型):可量化表示 -例如:高度、膜厚、温度、CD、流量、阻值 -常用的总体参数或统计量有平均数、标准差计数值(离散型):可分类表示 -例如:人数、不合格品数、亮点数、良率 -常用的总体参数或统计量有比例7变量及其分布8变量当一个指标的取值固定为某个值时,我们称之为常量;当一个指标的取值不固定时(多种可能性),我们称之为变量。例如:若用X表示32A05产品的mura检测结果,因该结果的值可能是”OK”、”NG”等各种可能,故X为变量。若用CD表示28”产品的CD值,因制程的波动该值也是波动的,CD值不固定,故CD为变量。n 变量:变量的
4、具体取值是用数据衡量的9变量的数据类型变量不能连续取值,能一 一列出样本点;一般用数据表示其频数,故用计数型数据表示变量能够连续取值,无法一 一列出样本点;具体取值可用计量型数据表示例:某产品defect类型检验结果;一次掷20个硬币,硬币正面朝上的数量;例:28”产品的CD值;华星员工食堂吃午饭,打饭的排队时间;n 离散型变量:n 连续型变量:10变量特征的测度变量特征中心趋势分散程度众数中位数平均值一般用表示一般用表示标准偏差全距变异数形状特征偏态系数峰态系数11变量的分布为变量X的分布函数。称 X 服从例:投掷一个骰子,求点数X不超过3的概率。解:不同数据类型的变量用不同的方式衡量其分布
5、状况12XP离散型变量的分布列n 对离散型随机变量,常用以下定义的分布列来表示其分布:例:X为投掷两个骰子的点数之和,其分布列如下:X23456789101112P1/362/363/364/365/366/365/364/363/362/361/36为X的概率分布列,简称分布列,记为逐一列出每个可能的取值的概率13练习现同时投掷两个骰子,Y为6点的骰子个数,Z为最大点数,求随机变量Y的分布列1.求随机变量Z的分布列Y012P25/3610/361/36Z123456P1/363/365/367/369/3611/3614连续型变量的概率密度函数例 膜厚X是一个随机变量。假如记录10000笔膜
6、厚值,我们将各膜厚的频率用直方图形式表示出来,x轴表示膜厚,y轴表示单位长度上的频率n 对连续型随机变量,用概率密度函数来表示其分布状况:即为膜厚的概率密度函数15正态分布n 在统计学上最重要的连续型分布是正态分布n 特点:正态分布的概率密度函数中间高,两边低,对称的钟型;均值=中位数=众数m m=median=mode 50%50%量测值16 为位置尺度,决定图形的中心位置;为形状尺度,决定图形的胖瘦。mm m=1 m m=2 m m=3 m m=1=1=2=2=3=3固定,变动m m固定m m,变动 17正态分布的概率计算中心到各标准偏差()之概率如下+0.02150.13590.3413
7、0.34130.13590.02150.68260.95440.9973曲线以下的面积等于概率18正态分布的概率计算Excel计算公式如下:P(X15)=1-P(X=15)若已知概率(假设P(X=z1)=0.8),求区间点Z1,则Z1=NORM.INV(p,)19练习假设1370站点CD值服从正态分布,平均值为16.5,标准差为0.5,规格为16.818.2求超出规格上限的概率CD大于Z的概率为0.025,求Z值1.求该CD值的不良率(即,超出规格的概率)20一般正态分布=1Zm=标准正态分布XZm=n标准正态分布表示为n任何一个一般的正态分布,可通过下面的线性变换转化为标准 正态分布(0,1
8、)XZNm=(0,1)Nm标准正态分布21标准正态分布的概率计算Excel计算公式如下:P(X1.96)=1-P(X=1.96)若已知概率(假设P(X=Z1)=0.8),求区间点则Z1=NORM.S.INV(p)已知X服从N(0,1)分布,求X大于1.96的概率。XN(0,1)22正态性检验23其他常见连续分布n 均匀分布n 指数分布例如:比如旅客进机场的时间间隔、电话通话时间电子元器件的寿命、动物的寿命许多电子产品的寿命分布一般服从指数分布f(x)=,其他0,ax0,记作XExp()期望:E(X)=1/方差:D(X)=1/(2)记作XU(a,b)期望:E(X)=(a+b)/2方差:D(X)=
9、(b-a)2/12分布函数24常见离散分布n 二项分布n 泊松分布一般地,在n次独立重复试验中,用X表示事件A发生的次数,如果单次试验中A发生的概率是P,则不发生的概率q=1-p,N次独立重复试验中发生K次的概率是那么就说K服从二项分布。记作XB(n,p)期望:E(X)=np方差:D(X)=npqP(X=k)=(K=1,2,3,n)例如:良率的问题一般属于二项分布泊松分布常与单位时间(单位面积、单位产品等)上的计数过程相联系,例如:(K=1,2,3,)泊松分布的概率分布列为:其中参数0,记作XP()期望:E(X)=方差:D(X)=在单位时间内,电话总机接到用户呼唤的次数在单位时间内,一电路受到
10、外界电磁波的冲击次数1平方米内,玻璃上的气泡数单片panel上的defect数25样本均值的分布n 假如X1,X2,Xn是从均值为,方差为 2 的正态总体中抽取的样本值其抽样的均值:若将其视为另外一个变量则 的均值为,方差为且服从正态分布2nX2(,)NnmX总体分布26样本均值的分布n 已知总体XN(50,102),若抽取样本,样本均值的分布如下:=1027中心极限定理n 不论总体为何种分布,只要样本容量n 30,样本平均值的抽样分布近似于正态分布,假设总体均值为m,标准差为。即,当n足够大时,样本均值 服从当样本数够大时(n 30),样本平均值的抽样分布会趋近于正态分布一个任意分布的总体J
11、MP操作28统计量及抽样分布29统计量总体样本最常见的统计量:平均值 m 标准差 设 为取自某总体的样本,若样本函数 中不含任何未知参数,则称T为统计量,统计量的服从的分布称为抽样分布。n 定义统计量30三大抽样分布卡方分布t 分布F 分布31卡方分布32卡方分布的计算Excel计算公式:33卡方统计量的构建设x1,x2,.,xn是来自N(m,2)的样本,其中样本均值和样本方差分别为34F分布35F分布的计算36F统计量的构建37t 分布n 定义:设随机变量X1与X2独立且X1N(0,1),X2 (n),则称 的分布为自由度为n的t分布,记为 t t(n)。Z分分布布不同自由度的不同自由度的t
12、 t分分布布自由度n越大,t分布越接近正态;一般n=30,可认为正态38t分配受两个变量的影响(),因此其变异会较标准正态分布来的大当t 分布的自由度越大时,会越接近标准正态分布也就是说t 分布的性质()(0,1)tN&xsZ分分布布不同自由度的不同自由度的t t分分布布39t 统计量的构建nxZm=0nsxt0m=大部分的情况下,总体标准是未知的!当未知,且样本不够大时,可以用样本标准偏差s替代,仍可得到跟正态分布接近的性质t分布的自由度是n-140t 分布的计算41参数估计42估计点估计:以样本统计量为基础估计参数推测某一分布的母数值是多少的方法,包括 点估计 和 区间估计。总体参数样本统
13、计量推算出样本抽取n 估计样本 统计量总体 参数xmspP估计请注意:点估计没有误差的概念,即不知道抽取的样本之估计值与总体真值的接近程度。43估计n 估计区间估计:与点估计不同,估计参数存在的范围(区间)=点估计 抽样误差考虑了抽样误差置信区间的计算:a.根据一组样本观察值;b.给定某区间可以估计总体参数的概率;计算出总体参数的估计范围置信水平样本统计量(点估计)置信下限置信上限置信区间44估计n 置信水平置信水平一般表示为(1-),意思是总体参数落在该置信区间内的概率。总体参数(m)不同取样计算出来的置信区间例如:95%的 置信区间,是指100次取样中,求得的 100个置信区间中,有95个
14、包含总体平均。为显著性水平,是总体参数未在区间内的概率,在假设检验中,为第一类风险;常用的置信水平(1-)有99%,95%,90%相对应的显著性水平为0.01,0.05,0.1存在总体参数不在置信区间内的风险,该风险概率为45XiX1-/2/2nLU1)总体已知时nzX)2/(nstXn)1,2/(对平均()的置信区间 =?=10.5 10.5?X2=?s2=3.8 3.8?对平均()的区间估计 对变异(2)的的区间估计估计n 置信区间的计算公式1)总体未知时 对变异(2)的置信区间46估计n 置信区间的计算练习:14.65314.75414.48914.2114.37514.47114.49
15、914.77614.33414.74现抽取10片32A05产品,每片在同一点位量测其CD1值(第一层),数据如下:请问:CD1的均值和方差的置信区间分别为多少?(取=0.05)在JMP中创建新数据表,输入以上数据;操作:分析分布47估计n JMP操作:在JMP中创建新数据表,输入以上数据;操作:分析分布 平台选单置信区间 注:默认置信水平为95%,可在平台选单中修改置信水平现在,请尝试用excel计算出以上结果48常用统计分析方法汇总data型态常用统计分析方法常用图形分析方法YX假设检定连续单一水平1-sample z test(已知)1-sample t test(未知)直方图箱型图时间序
16、列图1-variance test连续两水平2-variance test2-sample t test;paired t test连续多水平test for equal varianceone-way ANOVA离散单一水平1-proportion test离散两水平2-proportion test相关与回归X、Y均为随机变数相关分析散点图X为自变量;Y为因变量回归分析49图形分析501234直方图箱型图散点图时间序列图51直方图区分data的区间,显示分布形态和中心位置及变异,能看到连续性资料的分布模样。n 直方图用以了解一群数据之分布状况,及其中心值与变异情形。n 直方图分析目的1.观
17、察数据分布形态1)数据的中心位置 2)数据的离散程度2.与规格的关系将产品特性值数据与规格进行比较52形态可能原因参考对策形态可能原因参考对策一般显示的形状没有异常要因的变化工程稳定多种工程条件混合存在的时候可能是测定系统问题,不能准确地读出 特定范围的数值或避开时发生根据层别方法,将全体散布分为许多互相不同的工程条件下进行作业时,如不同机台、不同班别、不同原材料等即规格值的下限抑制时,不取某值以下的值备注:右偏型同理为扩展Data幅,离下限接近的值也都要取因工程发生异常而引起,工程条件变化测定错误追究发生落岛型原因的话,可以掌握其改善方法.删除不满足规格的数据时测定的骗术检查错误测定误差等要
18、提高工序能力,重新研讨规格正态型陡壁型缺齿型偏态型平顶型孤岛型双峰型.制订层别的矩形图而比较.重新制订层别的矩形图的话,2个分布的差就明确.常见直方图形态53直方图与规格进行比较n 与规格比较(1)满足规格时LSLUSLLSLUSL特性值都满足规格,但制程变异尚有较大改善空间特性值都满足规格,且制程非常稳定。LSLUSL特性值都满足规格,且制程非常稳定,但是制程整体偏离中心位置(目标)。54直方图与规格进行比较n 与规格比较(2)不满足规格时LSLUSLLSLUSL制程稳定,但是特性值偏离中心目标值,导致超出规格中心与目标值一致,但特性值的变异大而存在超过规格的数据。LSLUSL数据的中心偏离
19、目标值很大,特性值的变异也很大,制程很不稳定,很多数据超出规格。备注:在计算制程能力时,可先用直方图做初步观察。55n 案例A01现已搜集32A05产品CD1,请用直方图分析其分布状况:案例打开“直方图.jmp”数据表;操作:图形图形生成器鼠标放在图形区域,右击,选择直方图注:将数据拖到Y轴也可56n 案例A01案例图形看起来没有太大问题,可将其与规格进行比较,规格为15+/-1.5By机台层别分析操作:将“机台”拖到Y轴对比两个机台,可得出什么结论?571234直方图箱型图散点图时间序列图58n 什么是箱型图对X测定的Y值可用 Box形态表示,用于确认分布的模样,以及数据的中央值、最小值、4
20、分位数、最大值、异常点,也可以分析几个Group之间对数据分布的差异点箱型图n 箱型图的解释50分位(中位数)Q3+1.5(Q3-Q1)内最大值Q1-1.5(Q3-Q1)内最小值75分位(第三四分位数)Q325分位(第一四分位数)Q1异常点(Outlies)*数据的中间 50%IQR=Q3-Q159箱型图n 案例A01针对上个案例A01,请做箱型图分析:打开“直方图.jmp”数据表;操作:图形图形生成器鼠标放在图形区域,右击,选择箱型图60箱型图n 案例A01从箱型图可得出什么结论?61箱型图n 范例621234Y data分布形态直方图根据X的Y分布比较箱型图散点图Y的时间性变化时间序列图6
21、3n 定义:以纵轴表示因变量,以横轴表示自变量,用点表示出分布型态,根据分布的型态判断对应数据之间的相互关系的图形。散点图n 目的用以探索分析成对的二个连续型变量数据之间的关系n 适用时机原因分析、真因证实64n 散点图常见形态散点图65散点图n 案例A02:散布图注意事项n 注意是否有异常点存在,亦即该点与其他点相距很远。n 是否有必要加以层别,亦即由数据看是无相关,但将数据分群后却发现具有相关,反之亦然。因此一个相关与否的散布图需放入单纯且必要的数据。层 别671234直方图箱型图散点图时间序列图68n 时间序列图显示随时间经过的数据变化;可通过时间序列图观察特性值是否存在时间趋势或存在周
22、期性;掌握随时间经过对制程Data有何影响,掌握是否有因异常原因的工序变化。时间序列图69时间序列图n 案例A04:每月客返品中均有不规则mura,现针对每月搜集的累计不规则mura产品数,做数据分析,以期预估未来不规则mura数量趋势。打开“不规则mura.jmp”数据表;操作:图形图形生成器鼠标放在图形区域,右击,选择箱型图70时间序列图n 案例A04:从该时间序列图可得出什么结论?备注:必要时可在JMP软件中通过“分析建模时间序列”操作,进行时间序列建模分析71时间序列图n 范例:72图形分析注意事项n 图形分析只是数据分析的第一步,利用图形直观地做出初步判断,具体尚需做进一步推论统计分
23、析验证n 做图形分析时,要注意使用层别法73假设检验7412345假设检验基本概念平均值检验变异数检验比例检验单因子方差分析75n 案例A1原厂内产品不良率为1.5%,工程师陈某负责该产品良率,经过1个月的努力,现将给改善对策进行小量试产,共run 250片产品,发现2片不良。据此,该工程师声称,良率得到改善,决定量产。为什么需要假设检验 基础统计量产品状况频数比例总样本量OK24899.2%250NG20.8%0.8%跟1.5%之间的差异,到底是真的存在此差异?还是差异只是因正常抽样而导致的差异?在统计上是否有意义呢?提问:别担心,假设检验假设检验可以为您解决这个困扰!76n 原假设(简称H
24、0):也叫虚无假或零假设;通常H0 叙述的是无效果 或无差别;先假设H0成立,后基于统计证据拒绝或不能拒绝H0。n 对立假设(简称H1或H):与H0对立的假设;关于总体体参数的,在H0被拒绝时可以成立的叙述。一般含有等号,例如:H0:1=2H0:1=2H0:1=2与H0对立,例如:H1:1 2H1:1 2注意:1.含有等号的均放在H0;2.H1通常是想验证的结果。假设检验基本概念77练习题请写出以下各情形的H0和H1:某制药会社 新开发的头痛药B比原有的头痛药A,药效能多持续30分钟;1.AC厂某工程师想知道膜厚机台A和机台B是否有差异;n 以案例A1为例,建立H0和H1:p H0:(调整前)
25、=(调整后)统计意义:调整前和调整后的总体膜厚平均是相等的;实际意义:wiping time调整前后PS膜厚没有差异p H1:(调整前)(调整后)统计意义:调整前和调整后的总体膜厚平均是不相等的;实际意义:wiping time调整前后PS膜厚有差异假设检验基本概念78假设检验中,建立H0&H1以后,需根据检验的对象建立相应的检验统计量,常见样本检验统计量如下:Z统计量服从正态分布t 统计量服从T分布F 统计量服从F分布c2统计量服从 分布在分布已知情况下,即可通过概率求区间点,或通过区间点求概率。假设检验基本概念n 检验统计量:79实际状况H0H1样本结果H0判断正确 概率:1第二类错误 概
26、率:b bH1第一类错误 概率:判断正确概率:1b第一类错误H0成立,却拒绝H0称为风险,发生的概率用表示第二类错误H0不成立,却接受H0称为b风险,发生的概率用b表示 注意:一般取0.05、0.1、0.01,最常用的是0.05 越小 b 越大,故不可过小,否则范第二类错误概率 b 会很大 不可知假设检验基本概念n 假设检验的两类错误:80拒绝域&接受域n 拒绝域&接受域m m置信下限置信上限总体的95%置信区间接受域若H0成立,样本均值应该落在此区间拒绝域拒绝域若样本均值应该落在此区间,则拒绝H0,即H0不成立 因在计算拒绝域时需先知道,但是不同情况下可能选定的不一样,此方式比较麻烦,故将计
27、算拒绝域转换为P-value81n P-value假设检验中,以指标P-value跟 比较来确认结论:若P-value,则拒绝H0;若P-value,则接受H0假设检验基本概念P-value越小越拒绝H0落于此中间部分为接受H082 2.判断数据类型,选择合适的检验方法1.把实际问题转化为统计问题4.抽取样本数据,进行分析(运用软件)5.判断,得出结论假设检验基本概念n 假设检验一般步骤建立检验统计将P-value与比较83data型态统计量分析方法YX连续单一水平(已知)Z 1-sample z test(未知)t1-sample t test连续两水平(独立样本)t2-sample t t
28、est;(相关样本)Zpaired t test连续多水平Fone-way ANOVA各均值检验及方差检验方法定义data型态统计量分析方法YX连续单一水平c21-variance test连续两水平F2-variance test连续多水平(近似)c2Bartlett test检验均值检验方差(变异数)data型态统计量分析方法YX离散单一水平Z1-P test离散两水平Z2-P test检验比例8412345假设检验基本概念平均值检验变异数检验比例检验单因子方差分析851 sample Z/t 检验如何验证膜厚是否等于目标值?如何确认首件与之前产品均值是否有差异?86n 案例A2:GB项目
29、CF厂 R20 CD1 Cpk改善若已知CD1标准差=0.089,问:CD1平均值是否等于目标值 147.5?1 sample Z 检验解决方法搜集数据资料,25片Glass的CD值(每片量30个点)A2_CD1.jmp871 sample Z 检验H0:CD1=147.5 V.S H1:CD1147.5 (取.5)CD1为连续型数据,只有一组样本,标准差已知,故用 1 sample Z检验检验统计量:若H0成立,则ZN(0,1)根据实际情况可设为 H0:mm0 或 H0:m=m0 V.S H1:mm0 或 H0:m=m0 V.S H1:mm0881 sample Z 检验打开“A2_CD1.
30、jmp”文档。功能选单:分析分布假设均值实际标准差功能选单:CD1 平台选单检验均值P-value0.05,拒绝Ho故CD1均值不等于目标值147.5891 sample t 检验H0:CD1=147.5 V.S H1:CD1147.5 (取.5)但是,实际工作中,基本上是不知道总体标准差的,因此,需要用样本标准差s来预估,故用 1 sample t检验根据实际情况可设为 H0:mm0 或 H0:m=m0 V.S H1:mm0 或 H0:m=m0 V.S H1:mm0检验统计量:若H0成立,则 t t(n-1)901 sample t 检验打开“A2_CD1.jmp”档案。功能选单:分析 分布
31、假设均值未知,不需要填功能选单:CD1 平台选单检验均值P-value0.05,无法拒绝Ho 故CD1标准差并没有大于0.089综合均值和变异数检验结果,CD1的CPK差主要是由于精度问题导致931.如何知道A机台与B机台CD是否存在机差?2.如何判断两个不同温度条件下膜厚是否受影响?3.如何判断参数调整后,某特性是否变好?2 sample t 检验942 sample t 检验n 案例A3:GB项目CF厂 PS月产能114K提升至120K能否直接调节wiping time来降低Coater涂布时间,从而提升月产能?解决方法搜集数据资料,25片Glass的CD值(每片量30个点)Y 小y X9
32、52 sample t 检验显然,Wiping time降低 Coater 涂布时间降低;但可能会有副作用,即PSH Cpk变差。要降低wiping time,必须确保PSH不受影响。故,问题转换为“如何判断wiping time调整前后PSH是否受影响”调整前2.8661 2.8744 2.8661 2.8553 2.8811 2.8762 2.8685 2.8594 2.8682 2.8631 2.8643 2.8525 2.8554 2.8744 2.8647 2.8624 2.8608 2.8559 2.8591 2.8534 2.8688 2.8771 2.8561 2.8571 2
33、.8612调整后2.8536 2.8509 2.8572 2.8515 2.8567 2.8517 2.8412 2.8466 2.8405 2.8553 2.849 2.8586 2.8582 2.8523 2.8498 2.8547 2.8577 2.8625 2.8631 2.8573 2.8595 2.8618 2.8525 2.851 2.8597数据资料:搜集调整前和调整后的单片glass的平均PHS值,各25笔X:wiping time参数(调整前(7.9 s)、调整后(5.95 s))两水平Y:PHS(膜厚)连续判断层别因子(wiping time)(两水平)的显著性均值检定2
34、-sample t 检验A3_2-sample_wiping time.jmp962 sample Variance 检验由于在进行2 sample t test时,检验统计量的选择会受到方差是否相等的影响,故在进行均值检验之前先进行等方差检验;PS:方差也是PHS是否收到影响的其中一方面;(即 PHS均值跟方差都要同时考虑)双样本,用2 sample Variance检验97 P-value0.05,无法拒绝Ho 故wiping time调整前后PHS标准差没有差异。2 sample Variance 检验打开 A3_2-sample_wiping time.Jmp 档案。功能选单:分析 以
35、X拟合Y 平台选单 分位数功能选单:平台选单 不等方程箱型图观察分析982 sample t 检验H0:PHS1=PHS2 V.S H1:PHS1PHS2 (取.5)检验统计量:;若H0成立,则 t t(m+n-2)根据实际情况可设为 H0:m1 m2 或 H0:m1=m2 V.S H1:m1m2 或 H0:m1=m2 V.S H1:m1m2992 sample t 检验检验统计量:;若H0成立,则 t 近似服从t(L)(L推算复杂,此处不做解释)1002 sample t 检验n 回到案例A3,验证等方差性后,发现调整前后方差相等,故均值检验操作如下:功能选单:平台选单 均值/方差/合并的t
36、 P-value0.05,拒绝Ho 故wiping time调整前后PHS均值不一样。综合变异数和均值检验结果发现:wiping time调整前后PHS变异无差别,但均值受到影响,故不能将wiping time调整至5.95s,需要另寻因子,或检验其他调整幅度。1012 sample t 检验在案例A3中,平台选单 t检验备注:方差不等情况下,检验统计量近似服从t分布。102Paired t 检验在双样本连续型变量检验中,若样本一 一对应,此时“2 sample t 检验”不再适用;例如:1.同一批样品的CD,由两种不同量具量测结果的比较;2.同一批样品在不同温度下的某连续型特性值。103n
37、案例A4:Paired t 检验某研究学者欲了解补习班能否增进学习能力,选一组随机样本12位小朋友,以=0.05 的显著水平,验证补习后成绩是否高于补习前:补习前:22、31、28、27、29、32、26、27、31、28、25、30 补习后:29、27、32、25、33、30、36、29、33、28、32、29 该案例中,两组样本是一 一对应的,此时2 sample t检验不再适用;此时,使用Paired t 检验。首先对两组样本做如下处理:di=补习后成绩-补习前成绩,得到新的样本数据:7、-4、4、-2、4、-2、10、2、2、0、7、-1A4_Paired t_补习成绩.jmp104P
38、aired t 检验则 检验两样本均值 的问题转化为 单样本零均值检验 的问题;根据实际情况可设为 H0:mm0 或 H0:m=m0 V.S H1:mm0 或 H0:m=m0 V.S H1:mm0检验统计量:,sd为新的数据列di的样本标准差若H0成立,则 t t(n-1)105Paired t 检验打开 Paired t_补习成绩.jmp 档案。功能选单:分析 配对 P-value0.05,无法拒绝Ho 故三个R2处理水平下的TTNPT defect density满足等方差假设。打开 A5_One Way ANOVA.Jmp档案。功能选单:分析 以X拟合Y 平台选单 分位数功能选单:平台选
39、单 不等方差箱型图观察分析115A5_One Way ANOVAH0:defect density(10)=defect density(12.5)=defect density(15)H1:defect density(10)、defect density(12.5)、defect density(15)不全相等 (取.5)检验统计量:若H0成立,则 F F(dfA,dfe)dfA=3-1=2 (3为因子水平数)Dfe=18-3=15 (18为样本量,3为因子水平数)116A5_One Way ANOVA P-value=0.01450.05,拒绝Ho 故三个R2处理时间下的TTNPT de
40、fect density不全相等,即R2处理时间对TTNPT defect density 有影响。承接变异数检验功能选单:平台选单 均值/方差分析 方差分析表图形显示,15S情况下TTNPT最低,但统计上到底哪两个水平有显著差异,需进一步分析117A5_多重比较法承接变异数检验功能选单:平台选单比较 均值所有对,Tukey HSD118Two Way ANOVAn 案例A6:现有一笔有关Sandy暗点不良率的数据,包含两个因子,请针对该数据进行分析,判断这两个因子对Sandy的影响状况,资料见数据表“Two Way ANOVA.jmp”操作:分析拟合模型Two Way ANOVA.jmp11
41、9Two Way ANOVA12012345假设检验基本概念平均值检验变异数检验比例检验单因子方差分析1211 sample p检验当某厂工程师告诉你,目前厂内不良率已控制在3.5%以下时,你如何通过数据分析确认是否要相信他的结论?122n 案例A61 sample p 检验以前,32A04的defect发生率为9%,对相应制程进行了改善,从新抽取300个产品,其中25个存在defect。问:defect是否真的得到改善?=0.05解:本题要验证改善后的是defect发生率是否低于9%,属于单样本;Y取值为“发生defect”未发生defect”,为离散型资料,只能用频数来衡量;故,该题用 1
42、 sample p进行验证。1231 sample p 检验根据实际情况可设为 H0:p p0 V.S H1:p p0 或 H0:p=p0 V.S H1:p p0 H0:p9%V.S H1:p9%(取.5)注意:取样时样本 n 需足够大,一般需满足 np5,且n(1-p)51241 sample p 检验打开 A6_1-p test.jmp 档案功能选单:分析 分布第二层平台选单检验概率 P-value=0.039080.05,无法拒绝H0;改善后defect并没有降低,改善措施无效。输入要检验的概率值 选择相应的对立假设H11252 sample p 检验如何确认两个机台的良率或不良率是否有
43、差异?如何确认对策实施前后,良率是否有提升?1262 sample p 检验n 案例A7:55UD模组组装不良率降低 问:如何验证BLU转板机速度是否对55UD模组组装不良率有影响?Y X1272 sample p 检验现搜集转板机速度为1m/s 和 0.8m/s条件下的产品状况,均搜集200片样品,记录如下:BLU转板机速度产品状况数量1m/sOK1711m/sNG290.8m/sOK1850.8m/sNG15X(BLU转板机速度)取两水平,属于两样本;Y取值为“OK”NG”,为离散型资料,只能用频数来衡量;故,该题用 2 sample p进行验证。1282 sample p 检验根据实际情
44、况可设为 H0:p1 p2 V.S H1:p1 p2 或 H0:p1=p2 V.S H1:p1 p2 注意:取样时样本 n 需足够大,一般需满足 np5,且n(1-p)51292 sample p 检验打开 A7_2 sample p.jmp 档案功能选单:分析 以X拟合Y平台选单比例均值分析 1.P-value=0.0274检验均值分布检验均值分布检验概率 T 统计量分析 配对以X拟合Y 方差不齐以X拟合Y t 检验NA(使用Excel)以X拟合Y 双样本比例检验 以X拟合Y 均值/方差分析/合并的t两组或两组以上样本检定均值F 统计量分析 以X拟合Y均值/方差分析检验方法1-Z test1
45、-t test2-Z test2-t testPaired t test2-variance test1-variance test1-p test2-p test2-t testOne Way ANOVA分布检验标准差 检定变异数近似F 统计量分析 以X拟合Y不等方差修正的Bartlett检验131假设检验总结注意:假设检验结果,若无法拒绝原假设H0,有可能是因为样本量太少。132相关与回归133如果同时获得两个或多个连续型变量的观测值,就可以用相关和回归的方法进行分析。例如:液晶使用量 和 Filter导致的EQ down身高 和 体重ETCH time 和 GE CD相关与回归分析134
46、相关与回归分析n 相关分析与回归分析的任务和关系:样本数据相关分析回归分析135n 相关分析的目的:判断两个变量之间是否存在某种关系;如:正相关、负相关、曲线相关、无相关等;相关分析n 相关分析的方式:136n 散点图针对X、Y之间的关系,通过散点图获得大概的印象相关分析137相关分析138两个变量之间相关性强并不代表两者之间存在因果关系;判断其是否存在因果关系还需从原理上进行探索解释;样本数据搜集时需注意因变量和自变量的样本数是一 一对应的,故样本个数一样;样本量要足够,方可进行相关与回归分析(建议至少10-15笔)相关分析注意事项139n 案例A8:为确定LC Filter使用寿命,现搜集
47、液晶使用量和EQ down的系列数据:请分析这两个变量时间是否相关?若相关,请拟合关系式(模型)。相关分析液晶过滤量(kg)12345678910EQD0%0%0.00%0.00%0.00%0.10%0.13%0.15%0.16%0.18%液晶过滤量(kg)11121314151617181920EQD0.22%0.25%0.29%0.32%0.35%0.40%0.41%0.46%0.50%0.55%液晶过滤量(kg)21222324252627282930EQD0.62%0.69%0.74%0.78%0.85%0.94%1.01%1.12%1.19%1.27%A8_相关与回归分析.jmp样本
48、数据如下:1.Filter使用越久EQ down越严重,故需制定合理的使用寿命,因可能存在不连续生产的情况,故用液晶使用量取代使用时间,以衡量Filter寿命;2.EQD=当机时间/当天时间(24h)备注:教学需要,数据稍有修饰140n 对案例A8进行相关分析:相关分析打开 A8_相关与回归分析.Jmp 文档。功能选单:分析 多元方法多元以散点图可知,两变量间存在明显正相关,且有点曲线关系平台选单多元相关性相关分析结果:EQD与液晶过滤量有明显正相关性,线性相关性高达0.97,后续可进行回归建模。141n 定义:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法;不仅提供变
49、量之间相关性的公式y=f(x),且可判断所建立的回归方程的有效性;若方程拟合得好,可用于做预测。何为回归分析在一元回归中,若两个变量之间关系为线性,则为一元线性回归,该模型称为一元线性模型。n 分类:按自变量(x)的多少分类按自变量(x)与因变量(y)之间的关系类型分类142n 一元线性回归:回归模型的计算X可解释的y的变化随机因素影响的y的变化,称为误差143n 前面已对A8做了相关分析,发现EQD与液晶使用量存在正相关,且稍微呈现曲线(抛物线)关系,先对其进行建模(使用JMP软件协助计算分析)案例A8线性回归模型打开 A8_相关与回归分析.Jmp 数据表。功能选单:分析 以X拟合Y操作:平
50、台选单拟合线JMP即对样本进行线性拟合线性回归方程式 但是该模型是否真的有意义,还需对相关指标进行分析144n 该回归方程建立以后是否有意义,需要进行检验:单个因子的显著性检验A8回归模型的显著性方程整体显著性检验(方差分析)P-value0.0001,表明截距显著,液晶过滤量对EQD也有显著影响P-value0.0001,表明该模型整体显著有效。145n 该回归方程建立以后是否有意义,需要进行检验:案例A8回归模型的显著性146回归模型的残差分析现需要对以上四个方面进行验证147案例A8回归模型的残差分析操作:线性拟合平台选单标会残差-残差呈现特殊的形态;-不满足独立随机的假设;-若满足独立
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。