1、Minitab系统相关和回归系统相关和回归分析分析主要内容主要内容1.1.相关分析相关分析2.2.回归分析回归分析q 学习目的学习目的q变量(X1)与变量(X2)间或X与Y间 -有多少相关性 相关分析相关分析-变量间关系式的推测 回归分析回归分析 它们之间有关系吗它们之间有关系吗?有多强的关系有多强的关系?有什么样的关系式有什么样的关系式?机动车的数量 vs 交通事故发生率l 网板厚度 vs 焊膏厚度 1.1.相关关系是相关关系是?q相关关系可以用数据来看出两个变量(Y与X,或两个X)间紧密程度如何.q两者之间关系的强度通过相关系数(r)可以计数化.q(Minitab使用Pearson pro
2、duct moment 相关系数)-1.0-1.0 0 0+1.0+1.0 负的相关系负的相关系 正的相关关系正的相关关系r 弱相关关系弱相关关系 决定点决定点r值值 r 接近-1 r 接近+1l(+)正的相关关系l()负的相关关系l接近0时几乎没有相关关系相关系数的性质相关系数的性质为调查相关关系,需要数据构造为成对的2个变量数据l相关系数相关系数(Correlation Coefficient)(Correlation Coefficient)一般表示为(总体的相关关系),其范围是 1 1.一般情况下我们无法知道的正确的值,因此使用从样本推断的值r.r从 如下公式得出且范围是-1 r 1.
3、一般样本大小一般样本大小(30(30个以上个以上)为基准为基准q 如果|r|0.80 时具有强的相关关系q 如果 0.3|r|0.80 时具有弱的相关关系.q 如果|r|Basic Statistics Stat Basic Statistics CorrelationCorrelation从上面点来看从上面点来看,可以猜可以猜测有强的相关关系测有强的相关关系分析结果根据分析结果根据 刮刀压力和焊膏厚度的相关系数为刮刀压力和焊膏厚度的相关系数为r=0.955,r=0.955,可看出具有强的负相关可看出具有强的负相关.从上述结果可以得出从上述结果可以得出:为了保证焊膏厚度符合要求为了保证焊膏厚度
4、符合要求.必须监控刮刀的压力必须监控刮刀的压力.q 统计分析统计分析q 结果解释结果解释事例分析事例分析下面给出下面给出13家上市公司的每股账面价值和每股红利,以家上市公司的每股账面价值和每股红利,以1.账面价值作为横轴,画散点图账面价值作为横轴,画散点图2.计算相关系数并解释计算相关系数并解释公司名称账面价值红利海尔22.442.40中兴23.542.98深科技22.092.06深发展14.481.09清华同方20.731.96上海一汽19.251.55第一铅笔20.732.16陕西旅游26.431.60云南白药12.140.8粤电力23.311.94北大方正16.233.00深彩虹18.0
5、51.80咸阳偏转12.451.21从散点图我们可以看出什么?从散点图我们可以看出什么?相关系数可以看出什么?相关系数可以看出什么?通过它我们可以知道哪个输入对输出值通过它我们可以知道哪个输入对输出值 有多少影响有多少影响?为了得到想要的输出值为了得到想要的输出值,我们应按什么水我们应按什么水 平管理平管理X X的规格的规格回归回归寻找寻找“Y”与与“X”关系的方法关系的方法什么是回归?什么是回归?描述“Y”与“X”关系的数学方法 创建过程的“模型”。2.2.回归分析回归分析 相关是告诉关系的程度相关是告诉关系的程度,回归分析是找出回归分析是找出Y=F(X)Y=F(X)的函数关系式的函数关系式
6、 回归分析的种类回归分析的种类 单纯回归模型:独立变量为一个 多重回归模型:独立变量为两个以上l例 Y=a+bx1+cx2+dx3 单纯线性回归模型:设定直线关系后分析l例 Y=a+bx 曲线回归模型:设定曲线关系后分析l例 Y=a+bx+cx2+dx3l Y=a bx单纯线性回归单纯线性回归回归分析的阶段回归分析的阶段Data Data 收集收集用散点图确认关系用散点图确认关系用最小二乘法用最小二乘法推断总体推断总体进行方差分析进行方差分析画直线画直线(Line Fitting)(Line Fitting)分析残差分析残差此章的因子为一个此章的因子为一个,因子和输出值因子和输出值(Y)(Y)
7、的关系为直线关系的单纯线性的关系为直线关系的单纯线性回归回归(Simple Linear Regression)(Simple Linear Regression)通过样本推测的直线通过样本推测的直线未知的真实直线未知的真实直线 Y Yi i=+x xi i+i i (i i=1,.,=1,.,n n)i i 是相互独立的 遵守N(0,2)的概率变量单纯线性回归模型单纯线性回归模型i ie ei i(x(xi i,y,yi i)x xy y在这里在这里,i i iid N(0,iid N(0,2 2)vModelModel定义定义 一个独立变量(x)与 一个从属变量(Y)间的关系方程式化后显示
8、的方法将误差平方和最小化的推断方法,找出将残差平方最小化的直线.420 410 400 390 380 370 360 350 340 330 320 350 400 450 独立变量独立变量 从属变量最小平方和的单纯回归最小平方和的单纯回归单纯回归直线单纯回归直线与回归直线的与回归直线的差异差异(误差误差)直线是以直线是以“最小平方和推断法最小平方和推断法(least square estimation)”(least square estimation)”的的原则画出的原则画出的.从资料的点到直线从资料的点到直线的距离的平方和最小化的距离的平方和最小化.e eb bScatter Plot
9、 Y vs.X with Fitted LineScatter Plot Y vs.X with Fitted LineY=a+bXY=a+bX直线的方程式是直线的方程式是 Y=a+bX Y=a+bX a a是是 常数常数,b,b是斜率是斜率.“拟合线拟合线”是包括实际点和直线的是包括实际点和直线的平平 方差的和最小化后形成的直线方差的和最小化后形成的直线.实际资料的点和直线的差异称为实际资料的点和直线的差异称为 残差残差(residuals(e).(residuals(e).拟合线拟合线,回归方程式构造回归方程式构造q残差(e)是对误差的最佳推断值,是实际结果值和回归方程式推测的最佳值间的差
10、异.残差:实际观测值(yi)和推测值 的差残差越小推断的回归式更能说明实际结果,残差是误差的最好的推断值.残差按大小排列或按资料的顺序排列时,它们以“0”为轴相对称,并且不能存在特别的倾向.大家用MINITAB对上述数据进行回归分析.打开打开:A13.mtw.:A13.mtw.下面是对硅胶强度有重要影响的SiO2使用量的关系的分析数据.事例分析事例分析Graph Graph PlotPlot从散点图看似乎有一从散点图看似乎有一定相关性定相关性!那么要进一步分析有那么要进一步分析有多少相关性多少相关性.Stat Regression Regression回归方程式回归方程式方差分析方差分析s:残
11、差(误差)的标准差。残差为观测值预测值。换句话说,指观 测点至回归方程式中描述的拟合线的距离。(对于优秀的模型,此值应较小)s=MS(error)1/2R-Sq:由拟合线能够“解释”的总变差的百分数。由“X”解释的变差。(对于优秀的模型,此值应较大)R-Sq(adj):对过于拟合情况(方程式中的变量过多)的调整,它将包括 模型中的项数与观测值的个数进行对比 其中 n=观测值数量 p=模型中项数,包括常数判断的方法判断的方法New“X”变量的变量的p值值-速度速度 Ho:斜率=0 H1:斜率=0或者,另一种表达方式:Ho:“X”不显著 H1:“X”显著常数常数的的p-值值H0:直线通过原点(0,
12、0)(0硬度=0使用量)H1:直线不通过原点(0,0)结果判断结果判断R2越大,模型对工序模拟得越好越大,模型对工序模拟得越好NewSSregression:由模型中的“X”解释变量“Y”的变动 每一X值对应的模型预测值和Y的总平均值之 差的平方和。SSerror:未被解释未被解释的“Y”的变差。每个数据点的Y观测 值和该数据点Y的预测值之差的平方和。值 越小越好。SStotal:Y值相对其平均值的总变差。结果判断结果判断回归项(的SS 和 MS)应比误差项的(SS 和 MS)大通过查看通过查看R-Sq,R-Sq(adj),s和和p值来评估模型值来评估模型p-值应值应 Regression S
13、tat Regression Fitted Line Plot(Fitted Line Plot(拟合线拟合线)R-sqR-sq值称为决定系数值称为决定系数,用用R R2 2 表示表示,范围是范围是0 0 R R2 2 1,1,R R2 2 越接近越接近 1 1时可以说明越接时可以说明越接近回归线近回归线.Stat Regression Stat Regression Fitted Line PlotFitted Line Plot 残差分析残差分析Storage OprionStorage Oprion中选择中选择ResidualResidual和和 Fits Fits时时,可可得出如下数据
14、得出如下数据.Stat Regression Stat Regression Residual Plots(Residual Plots(残差图表残差图表)残差具有多少正态性残差具有多少正态性条状图是钟型的曲线吗条状图是钟型的曲线吗?要无视要无视(30)(30)以下的资料以下的资料.个别残差能看出多少倾个别残差能看出多少倾向向?或异常点或异常点?是否没有倾向是否没有倾向,对对“0”“0”是随机的是随机的?回归分析结果解释回归分析结果解释 SiO2的使用量(X)与强度(Y)间的推断回归式是 强度强度(Y)=3.07+6.9 SiO(Y)=3.07+6.9 SiO2 2使用量使用量(X)(X).且
15、两个变量回归系数为72%,可以说具有强的关系.(使用Adj.R-sq)即,用上述回归直线可以说明的变动量为72%.观察方差分析表回归相关警告回归相关警告-图表图表!R-Sq.66.2%R-Sq.66.2%R-Sq.66.2%R-Sq.66.2%R-Sq.66.2%R-Sq.66.2%R-Sq.66.2%R-Sq.66.2%对4个不同的资料群从基本统计结果来看似乎一样,但期间很明显有差异.总是要用一种以上的方法来看总是要用一种以上的方法来看!不要忘记忆原始资料不要忘记忆原始资料(raw data)!(raw data)!画散点图画散点图!相关与回归的概要相关与回归的概要 相关分析可以作为非常有用
16、的工具活用于实际生活中.相关关系是看出两个连续型变量间相关性的尺度 假定因果关系时需要更加注意.回归模型将变量间的关系显示为线型或非线型函数.回归分析可以从回归式预测期望值.您相信我们的家电所占据的展示厅面积的大小会影响销您相信我们的家电所占据的展示厅面积的大小会影响销售量。您已经收集了过去售量。您已经收集了过去12个月内,多个零售点销售量个月内,多个零售点销售量与总的占地面积方面的数据。现在,您希望分析这些数与总的占地面积方面的数据。现在,您希望分析这些数据,看占地面积是否据,看占地面积是否确实确实与年销售量存在某种关系。与年销售量存在某种关系。应用所学的单变量回归方法。准备解释您的答案、以
17、及支持您的结论的结果。应用所学的单变量回归方法。准备解释您的答案、以及支持您的结论的结果。($K)(平方英尺)New分析阶段总结分析阶段总结q如果我们的数据量比较大,采集数据非常容易时,我们可如果我们的数据量比较大,采集数据非常容易时,我们可q 以使用描述型的统计工具进行分析。以使用描述型的统计工具进行分析。q 1.如果想知道变量的分布形状、平均值的位置、离散程度、倾斜度、如果想知道变量的分布形状、平均值的位置、离散程度、倾斜度、q 峰态等具体的统计信息,可以用峰态等具体的统计信息,可以用Display Descriptive StatisticsDisplay Descriptive Sta
18、tisticsq 工具来分析工具来分析.q 2.2.如果我们想知道变量分布形状、均值的大概位置、离散的程度的粗如果我们想知道变量分布形状、均值的大概位置、离散的程度的粗q 略信息时,我们可以用略信息时,我们可以用HistogramHistogram、Multiple Dotplot Multiple Dotplot等工具分析等工具分析.q 3.3.如果我们要比较两个变量或者想知道在不同如果我们要比较两个变量或者想知道在不同“条件条件”下变量发生什么下变量发生什么q 样的变化时,我们可以用样的变化时,我们可以用Box plotBox plot、Multiple Dotplot Multiple
19、Dotplot工具来分析工具来分析.q Newq 4.如果我们想知道变量之间的相互关系时,可以使用如果我们想知道变量之间的相互关系时,可以使用Scatter plotScatter plot、q Marginal plotMarginal plot(两个变量之间的关系)和(两个变量之间的关系)和 Matrix plot Matrix plot(多个变量(多个变量之之q 间的相互作用)间的相互作用).q 5.5.如果我们想知道随着时间变化,变量怎样变化时可以使用如果我们想知道随着时间变化,变量怎样变化时可以使用Time Time series series q plot plot进行分析进行分析
20、.q 6.6.如果我们要知道多个输入变量(如果我们要知道多个输入变量(X X)对输出变量()对输出变量(Y)Y)的影响程度,可的影响程度,可以以q 使用使用Multi-Vari ChartMulti-Vari Chart、Main Effects PlotMain Effects Plot进行分析进行分析.q 7.7.如果我们要知道不良品如果我们要知道不良品,缺陷数缺陷数,争议点争议点,事故的现象或原因等集中在事故的现象或原因等集中在哪哪q 些方面的时候,可以使用些方面的时候,可以使用Pareto chart、Pie chart进行分析进行分析.q Newq如果我们的数据量比较小,采集数据非常
21、难,我们可以使如果我们的数据量比较小,采集数据非常难,我们可以使q 用假设检验工具对用假设检验工具对均值均值进行分析。进行分析。v 一、我们涉及的数据是连续性的数据时一、我们涉及的数据是连续性的数据时q 1.如果我们想知道一个变量跟一个基准值是否在统计意义上有显著性如果我们想知道一个变量跟一个基准值是否在统计意义上有显著性差差q 异的时候(也就是判断这个变量是否发生了异常原因的波动),可异的时候(也就是判断这个变量是否发生了异常原因的波动),可以以q 使用使用1 sample t1 sample t工具分析工具分析.q 2.2.如果我们想知道两个变量或者两种水平下是否在统计意义上有显著性如果我们想知道两个变量或者两种水平下是否在统计意义上有显著性q 差异的时候,可以使用差异的时候,可以使用2 sample t2 sample t、Paired t Paired t工具分析工具分析.q 3.3.如果我们要比较多个变量或者一个变量在如果我们要比较多个变量或者一个变量在多个水平下是否有显著性差多个水平下是否有显著性差q 异时异时,可以用,可以用ANOVAANOVA工具来分析工具来分析.New