1、2023/2/3Jen-pei Liu,PhD1十一、簡單相關與簡單直線回歸分析十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression)(Chapter 11)劉仁沛教授國立台灣大學農藝學研究所生物統計組國立台灣大學流行病學與預防醫學研究所國家衛生研究院生物統計與生物資訊組jpliuntu.edu.tw【本著作除另有註明,網站之內容皆採用創用CC姓名標示-非商業使用-相同方式分享3.0台灣授權條款釋出】2023/2/3Jen-pei Liu,PhD2l例1:氮肥用量與水稻穀收量表(公斤)氮肥用量x00.51.01.52
2、.02.5稻穀收量y101832485562l例2:成人年齡與血液中膽固醇的量年齡x343944464851膽固醇y(mg/ml)141.4180.5178.4212.0203.2224.1年齡x53661656667膽固醇y(mg/ml)186.0350.0286.3287.6330.3371.3l例3:年雨量與小麥產量年雨量(公厘/20)23.5 20.4 22.8 25.9 28.9 27.1 26.8 25.2產量(公斤/100)20.4 23.0 33.5 35.8 44.6 41.2 45.4 39.02023/2/3Jen-pei Liu,PhD3氮肥用量與稻穀收量的氮肥用量與稻
3、穀收量的Scatter Plot2023/2/3Jen-pei Liu,PhD4年齡與膽固醇量的年齡與膽固醇量的Scatter Plot(mg/ml)2023/2/3Jen-pei Liu,PhD5年雨量與小麥產量的年雨量與小麥產量的Scatter Plot(公斤/100)2023/2/3Jen-pei Liu,PhD6探討兩個變數之間的關係探討兩個變數之間的關係l問題:兩個變數間是否存在直線關係?將直線關係以方程式表示 資料型態(xi,yi)2023/2/3Jen-pei Liu,PhD7探討兩個變數之間的關係探討兩個變數之間的關係l假定(Assumptions)1.每對資料均為獨立2.常態
4、3.相同變方4.X與Y的關係為直線2023/2/3Jen-pei Liu,PhD8l簡單相關係數(Simple correlation coefficient)l簡單直線回歸(Simple Linear Regression)l模式建立之推論(Models and Inference)l回歸模式直線性檢定(Evaluation of Linearity)l假定之確認(Checking the Model Assumptions)2023/2/3Jen-pei Liu,PhD9yyyy(a)0 正相關(b)落在第及象限的點數l負相關負相關:落在第及象限的點數 落在第及象限的點數l無相關無相關:落
5、在第及象限的點數=落在第及象限的點數2023/2/3Jen-pei Liu,PhD12族群簡單相關係數族群簡單相關係數:(x1,y1)(xN,yN)NiXiYi=1NN22iXiYi=1i=1(X-)(Y-)=(X-)(Y-),-112023/2/3Jen-pei Liu,PhD13樣品簡單相關係數樣品簡單相關係數樣品資料:(x1,y1),(xn,yn)l乘積和:lX平方和:lY平方和:1111222111222111()()()()()()()()nniinniixyiiiiiininnixxiiiininniyyiiiixySxxyyx ynxSxxxnySyyyn2023/2/3Jen-
6、pei Liu,PhD14樣品簡單相關係數樣品簡單相關係數樣品資料:(x1,y1),(xn,yn)12211()(),()()niixyinnxxyyiiiixx yySrS Sxxyyr 之範圍:-1 r 12023/2/3Jen-pei Liu,PhD15xyr=1xyr=-1(a)完全正相關(b)完全負相關2023/2/3Jen-pei Liu,PhD16(a)不完全正相關(b)不完全負相關xy0 r 1xy-1 r t/2,n-2 拒絕H02023/2/3Jen-pei Liu,PhD19例:雨量與小麥產量例:雨量與小麥產量 n=8,xi=200.5,yi=296.5222222223
7、.525.2(200.5)/851.898834.039.0(296.5)/8368.6188(23.5)(34.0)(25.2)(39.0)(200.5)(296.5)/8129.2688129.26880.9346(51.8988)(368.6188)2820.934611 0.xxyyxyxyxxyySSSSrS SnTrr20.025,606.43693466.3462.447HTt拒絕2023/2/3Jen-pei Liu,PhD20簡單直線回歸簡單直線回歸(Simple Linear Regression)l水稻穀產量期望值E(y)與氮肥用量(x)可以用直線關係描述 E(yi)=0
8、+xi,i=1,6(=n)y i:依變數(Dependent variable)x i:獨立(自)變數(Independent variable)0:截距(Intercept)x=0時y的值:斜率(Slope)x變動一個單位y變動的量但實際觀測值與直線E(y)=0+x有差距原因:環境、實驗誤差、量測誤差及其他原因 yi=0+xi+i,i=1,6(=n)i:誤差(Error)2023/2/3Jen-pei Liu,PhD21The Simple Linear Regression Model(Here 0)xy-interceptOne-unit change in xSlope=Mean va
9、lue of y when x equals x0An observed value of y when x equals x0y00Error termStraight line defined by the equation y x=0+xx0=A specific value of the independent variable x2023/2/3Jen-pei Liu,PhD22假定假定(Assumptions):l獨立性(Independent)l常態性(Normality)l直線關係(Linearity)l相同變方(homogeneity of Variance)無數條直線可描述
10、X與Y的關係選擇直線的方法:最小平方法(Least Squares Method)德國大數學家Gauss發明2023/2/3Jen-pei Liu,PhD23yixi9.6822.11yxe1e2e3e4e6e5圖11.4 回歸直線與殘差圖2023/2/3Jen-pei Liu,PhD24最小平方法最小平方法02020i=10(Residual):=()=F=()iiiiniiyxyxyx殘差觀測值與迴歸直線垂直距離垂直距離平方 殘差平方垂直距離平方和 殘差平方和最小平方法觀測值與迴歸直線垂直距離平方和為最小之斜率與截距 對及 進行偏微分2023/2/3Jen-pei Liu,PhD250i0
11、0iF=-2(y)0F=-2(y)0iiixx x正常方程式正常方程式(Normal Equations)(Normal Equations)020iiiiiinxyxxx y2023/2/3Jen-pei Liu,PhD262000()()()()1iixyixxioiiiiiixxyySbxxSbybxybbxyyybbxin斜率估算值截距估算值預測直線回歸方程式(Predicted Linear Regression Equations)殘差估算值 為當獨立之變數為xi時,依變數之最小平方預測平均值iy2023/2/3Jen-pei Liu,PhD27計算推測直線回歸方程式計算推測直線回
12、歸方程式l所需統計值222222221252.8333240.925343967(12)(52.8333)1337.6667(34)(141.4)(39)(180.5)(67)(311.3)(12)(52.8333)(240.925)7558.15141.4180.5311.3(12)(240.925)52100.7825/75xxxyyyxyxxnxySSSbSS058.1500/1337.66675.65025240.925(5.65025)(52.8333)57.596357.5963 5.65025byxxxxyyyn x y SSS例:成人年齡與血液膽固醇含量例:成人年齡與血液膽固醇
13、含量2023/2/3Jen-pei Liu,PhD28假定假定l獨立性l常態性l直線關係l相同變方殘差i為常態分布族群平均值為0族群變方為22023/2/3Jen-pei Liu,PhD29An Illustration of the Model Assumptionsy32.545.9XThe straight line defined by the equation y x=0+x(the line of means)Population of y values when x=45.9Population of y values when x=32.512.4=Observed value
14、 of y when x=32.5The mean fuel consumption when x=32.5The mean fuel consumption when x=45.99.4=Observed value of y when x=45.92023/2/3Jen-pei Liu,PhD302之估算之估算殘差估算值殘差估算值平方殘差(估算值)平方和估算殘差值時必須先計算b0和b SSE之自由度為n-2iiiyy22()iiiyy2211201()()nniiiiiniyyxyiSSEyyybbxSbS2/(2)SSEnMSE2023/2/3Jen-pei Liu,PhD31斜率與截距
15、變方之估計斜率與截距變方之估計2xxxx220 xx2xxv(b)=/S=MSE/S1xv(b)=(+)nS1x=MSE(+)nS2023/2/3Jen-pei Liu,PhD32例例 成人年齡與膽固醇成人年齡與膽固醇22222052100.7825(5.65025)(7558.15)9395.3455/(2)9395.3455/(122)939.53455()/939.53455/1337.66670.70241152.8333()939.53455121337.6667203yyxyxxxxSSESbSMSESSEnv bSxv bnS8.85532023/2/3Jen-pei Liu,P
16、hD33斜率斜率lH0:=0 V.S.Ha:0l顯著水準l檢定統計值(Test statistic)()/xxbbTv bMSESl決策方法 若Tt/2,n-2 拒絕H0l之(1-)信賴區間22()/nnxxbtv bbtMSES/2,/2,2023/2/3Jen-pei Liu,PhD34截距截距lH0:0=0 V.S.Ha:00l顯著水準l檢定統計值(Test statistic)00020()1xxbbTv bxM SEnSl決策方法 若T0t/2,n-2 拒絕H0l0之(1-)信賴區間020202()1nnxxbtv bxbtM S EnS/2,/2,2023/2/3Jen-pei L
17、iu,PhD35例:成人年齡與膽固醇例:成人年齡與膽固醇l斜率H0:=0 V.S.Ha:0 0.055.650256.7419()0.7024bTv bT6.7419 t0.025,102.228,拒絕H0l之95 信賴區間22()5.650252.2280.70243.78527,7.51973nbtv b,2023/2/3Jen-pei Liu,PhD36例:成人年齡與膽固醇例:成人年齡與膽固醇l截距H0:0=0 V.S.Ha:00 0.05T01.2756 t0.025,102.228l0之95 信賴區間022()57.59632.2282038.8553158.1987,43.0061
18、nbtv b,00057.59631.2756()2038.8553bTv b 2023/2/3Jen-pei Liu,PhD37回歸變方分析表回歸變方分析表總變異可由x解釋之變異不可由x解釋之變異獨立變數XYy0 ybbx2023/2/3Jen-pei Liu,PhD38222111(y)()()()()iiiinnniiiiiiiyyyyyyyyyyy總變異可由x所解釋變異+不可由x解釋變異總平方和回歸平方和+殘差平方和SST=SSR+SSESyy=bSxy+(Syy-bSxy)自由度:n-1=1+(n-2)2023/2/3Jen-pei Liu,PhD39迴歸變方平方和迴歸變方平方和變因
19、變因 自由度自由度平方和平方和均方均方F值值迴歸1SSR =bSxyMSR =SSR/1MSR/MSE殘差n-2SSE =SST-SSRMSE =SSE/(n-2)總計n-1SST2023/2/3Jen-pei Liu,PhD40222(/)/xyxyxxxxxxxxbSM SRFM SEM SEb SSSM SEb SM SEbM SESt2023/2/3Jen-pei Liu,PhD41例:成人年齡與膽固醇例:成人年齡與膽固醇lSST=Syy=52100.7825lSSR=b Sxy=(5.65025)(7558.15)=42705.4370lSSE=SST-SSR =52100.7825
20、-42705.4370 =9395.3455ANOVA表變因自由度平方和均方F迴歸142705.437042705.437045.4538殘差109395.3455939.53455總計1152100.78252023/2/3Jen-pei Liu,PhD42決定係數決定係數(Coefficient of Determination)lR2=決定係數 =可由獨立變數解釋之變異 總變異 =SSR/SST 0 R2 F,k-2,n-k 拒絕H02023/2/3Jen-pei Liu,PhD54例子:成人年齡與血壓例子:成人年齡與血壓(mmHg)年齡203040506070血壓10211010812
21、0115118112126119120135130120128150146148138140160155159150總和yi320465365529722624ni3434542023/2/3Jen-pei Liu,PhD55例子:成人年齡與血壓例子:成人年齡與血壓(mmHg)2023/2/3Jen-pei Liu,PhD56例子:成人年齡與血壓例子:成人年齡與血壓(mmHg)2222222233 204 70108032062430253 204 701080/236486.956520 32070 624(1080)(3025)/236356.5217102120150(3025)/236
22、619.7391xxxyyynxySSS 2023/2/3Jen-pei Liu,PhD57例子:成人年齡與血壓例子:成人年齡與血壓(mmHg)22221112222/(6356.5217)/6486.95656228.70966619.73916228.7096391.0295320624102150()34314.0333SSLF=SSE-SSPF=391.0295-314.0.3333=76.9962ixyxxyynnkiijijiiSSRSSSSESSSRySSPEyn2023/2/3Jen-pei Liu,PhD58變方分析表變方分析表變因變因 自由度自由度 平方和平方和 均方均方
23、F值值迴歸(R)16228.70966228.7096殘差(E)(23-2=21)391.029518.6025欠 合(L)6-2=476.996219.2491 1.0420純誤差(P)23-6=17314.033318.4725總計(T)23-1=226619.7391FLF=1.0240 F0.05,1,21=4.32478 迴歸係數02023/2/3Jen-pei Liu,PhD60例子:成人年齡與血壓例子:成人年齡與血壓(mmHg)02/6356.5217/6486.95650.9799131.52174(0.9799)(46.9565)85.50940.9799mmHgR6228.
24、7096/6619.73910.94090.94090.97xyxxbSSbybxr年 齡 上 升 一 歲 血 壓 上 升2023/2/3Jen-pei Liu,PhD61l假定之確認(Checking the Model Assumptions)l同質變方(Homogeneity of Variance)l殘差圖(Residual Plot)殘差v.s.獨立變數殘差v.s.預測值 殘差v.s.時間殘差圖不能有任何規則性蒼蠅在開會員大會無任何規則性 常態性(Normality)2023/2/3Jen-pei Liu,PhD62總結總結l直線相關係數l簡單直線回歸最小平方法斜率與截距估算值與檢定
25、變方分析法預測平均值及信賴區間假定確認直線性同質變方獨立性常態性2023/2/3Jen-pei Liu,PhD63習題習題lPage 403:1Page 404:3、4:使用荷爾蒙A的資料進行直線性檢定(=0.05)2023/2/3Jen-pei Liu,PhD64頁碼頁碼作品作品授權條件授權條件作者作者/來源來源1-64轉載自MicrosoftOffice2003多媒體藝廊,依據Microsoft服務合約及著作權法第46、52、65條合理使用。3臺灣大學劉仁沛教授4臺灣大學劉仁沛教授5臺灣大學劉仁沛教授9臺灣大學劉仁沛教授15臺灣大學劉仁沛教授2023/2/3Jen-pei Liu,PhD65頁碼頁碼作品作品授權條件授權條件作者作者/來源來源16臺灣大學劉仁沛教授17臺灣大學劉仁沛教授21臺灣大學劉仁沛教授23臺灣大學劉仁沛教授29臺灣大學劉仁沛教授37臺灣大學劉仁沛教授48臺灣大學劉仁沛教授