1、第 14 章簡單線性迴歸和相關分析迴歸分析迴歸分析迴歸分析(regression analysis)是以其他變數為基礎預測另一個變數的值。這這個方法可能是最被廣泛應用的統計程序。此方法包括推導一個數學方程式或模式,以描述想要預測的變數,稱為依變數依變數(dependent variable),以及統計實作人員認為和依變數有關的變數之間的關係。依變數以Y 表達,而有關的變數,稱為獨立變數獨立變數(independent variables),以X1,X2,.,Xk 表示(其中k 是獨立變數的個數)。14.2第14章 簡單線性迴歸和相關分析 第400頁相關分析假如我們只只對關係是否存在存在感興趣,
2、我們採用相關相關分析分析,一個我們已經介紹過的方法。在本章中,我們將呈現決定兩個變數兩個變數間的關係,有時候稱為簡單線性迴歸。描述這些關係的數學方程式也稱做模式模式,分為兩種類型:確定性模式確定性模式(deterministic model)或隨機性模隨機性模式式(probabilistic model)。14.3第14章 簡單線性迴歸和相關分析 第400.402頁模式確定性模式確定性模式(deterministic model):是指一個方程式或方程式集容許我們從獨立變數的數值去決定決定依變數的數值。隨機性模式隨機性模式(probabilistic model):是一種能將隨機隨機性性呈現出
3、來的方法,這對現實生活的應用比較實際。例如,相同大小的所有房屋(以平方呎計)是否都以完全相同的售價賣出?14.4第14章 簡單線性迴歸和相關分析 第402頁模式要產生一個隨機模式,我們從一個確定性模式開始,用以近似近似我們想要的關係模式。接著我們再加一個項,用以衡量確定性元素的隨機誤差。確定性模式:蓋一棟新房子的成本大約是每平方呎$100 而且大部分的土地售價約是$100,000。近似的銷售價格(y)將是:y=$100,000+100 x其中y=銷售價格,x 房屋的大小(以平方呎計)。14.5第14章 簡單線性迴歸和相關分析 第402頁第14章 簡單線性迴歸和相關分析模式房屋大小(依變項)與房
4、屋售價(獨立變項)之間關係的模式如下:14.6房屋大小房屋售價大部分的土地售價為$100,000蓋一棟房子大約是每平方呎$100 房屋售價=100,000+100(房屋大小)這個模式中,房屋售價完全決定於決定於房屋大小。模式然而在現實生活,房屋成本在相同的房屋大小中仍將有所不同:14.7房屋大小房屋售價100K$相同平方呎,但不同價格點(如:裝潢的選擇,改善隔間,土地位置)較低 vs.較高的變異性x房屋售價=100,000+100(大小)+第14章 簡單線性迴歸和相關誤差變數我們將使用隨機性模型表示房屋估計可賣的價格:y=100,000+100 x+其中 (希臘字母epsilon)表示隨機項又
5、稱誤差變數誤差變數(error variable)實際實際銷售價格和依據房屋大小來估計估計的價格之間的差異。甚至當 x 維持不變時,的值也將會隨著一筆筆不同的銷售而改變。14.8第14章 簡單線性迴歸和相關分析 第402頁簡單線性迴歸模型含一個獨立變數的直線模型稱為一階線性模型一階線性模型(first-order linear model)有時也稱為簡單線性迴歸模簡單線性迴歸模型型(simple linear regression model)。14.9誤差變數依變數獨立變數y-軸截距直線斜率第14章 簡單線性迴歸和相關分析 第402頁01yx第14章 簡單線性迴歸和相關分析簡單線性迴歸模型注
6、意係數 0 和 1是母體參數母體參數,它們幾乎都是未知的。因此,由資料估計估計而得。14.10yx長高=斜率(=高/長)=y-軸截距xy1010迴歸係數的估計如同我們以 為基礎估計的方式,我們以b0 估計 0 且以 b1 估計 1,最小平方最小平方或迴歸線迴歸線的y-軸截距及斜率如下:(回想:這是最小平法的應用且產生一條點與線間差異平方和最小的最小的直線。)14.11第14章 簡單線性迴歸和相關分析 第403頁xbby10 x範例14.1 年度紅利與服務年數 Xm16-016 位員工的年度紅利(以$l,000計)與其服務年數被記錄並列出如下。我們想要決定年度紅利與服務年數之間的直線關係。14.
7、12第14章 簡單線性迴歸和相關分析 第405頁第14章 簡單線性迴歸和相關分析 第406頁 圖14.1最小平方線14.13範例14.2 二手Toyota Camry 的哩程表讀數與價格,第一部分北美的汽車經銷商使用藍皮書以協助他們決定,當他們的顧客於購買新車時,所換購的二手車的價值。這本每月出版的藍皮書列出所有基本車款的換購價值。根據不同的汽車狀況與選用配備,藍皮書提供每一種車款各種不同的價值。而汽車價值的決定是根據最近二手車拍賣會中的平均成交價,以及許多二手車經銷商所提供的資源。14.14第14章 簡單線性迴歸和相關分析 第407頁範例14.2 二手Toyota Camry 的哩程表讀數與
8、價格,第一部分但是,藍皮書並沒有指出依據哩程表讀數所決定的價值,儘管事實上對二手車買主而言,一部車已經被開過多少哩是一個關鍵的因素。為了檢視這項議題,一位二手車經銷商隨機選取100 輛在上個月拍賣會中售出的車齡 3 年的Toyota Camry。這位經銷商紀錄價格(以$1,000計)與哩程表上的哩程數(以千計)。Xm16-02這位經銷商想找出迴歸線。第14章 簡單線性迴歸和相關分析 第407頁14.15第14章 簡單線性迴歸和相關分析 第409頁範例14.2 二手Toyota Camry 的哩程表讀數與價格,第一部分 14.16為我們計算出許多好的統計量,但是現在我們只對這項感興趣 0117.
9、250.0669ybb xx範例14.2 二手Toyota Camry 的哩程表讀數與價格,第一部分斜率係數b1 是.0669,其意義是哩程表上每增加1 哩,價格平均會降低$.0669 或6.69 美分。截距是 b0 17.250。意思是當 x 0(亦即,車完全沒有被開過),汽車售價為$17,250。然而我們的樣本並沒有任何哩程表讀數為少於19,100哩的汽車。這不是正確的估計。14.17詮釋詮釋第14章 簡單線性迴歸和相關分析 第410頁0117.250.0669ybb xx誤差變數的必要條件為了使這些方法有效,以下四個與誤差變數()之機率分配有關的條件必須被滿足。1.的機率分配為常態。2.
10、機率分配的平均數為 0;也就是,E()0。3.的標準差為,無論 x 的值為何,它是一個常數。4.與任何特定 y 值相關的 值與任何其他 y 值相關的 值是獨立的。14.18第16章 簡單線性迴歸和相關分析 第412頁評估模型最小平方法產生一條最佳的直線。但是,事實上有可能兩個變數之間沒有關係,或有非線性關係。有數個方法可以被用來評估模式。在本節中,我們呈現兩個統計量和一個檢定程序,以決定線性模式是否應該被採用。它們是估計值的標準誤估計值的標準誤(standard error of estimate)、斜率的t-檢定,和判定係數(coefficient of determination)。這些方
11、法都是立基於誤差的平方和。14.19第14章 簡單線性迴歸和相關分析 第414頁誤差平方和誤差平方和計算如下:其中 是依變數的樣本變異數。且使用在估計標準誤(standard error of estimate)的計算上:若s 為 0,所有的點都落在迴歸線上。14.2022212)1()(SSExxyyniiisssnyy第14章 簡單線性迴歸和相關分析 第415頁2SSEns2ys估計標準誤若 很小,適配是優良的,且線性模型可以用於預測。若 很大,模型是不良的16.21但什麼是小小?什麼是大大呢?第14章 簡單線性迴歸和相關範例14.3 二手Toyota Camry 的哩程表讀數與價格,第二
12、部分 對範例14.2 求出估計標準誤並且敘述它告訴你什麼有關模式配適度的訊息。14.22第14章 簡單線性迴歸和相關分析 第416頁範例14.3 二手Toyota Camry 的哩程表讀數與價格,第二部分 為了計算估計的標準誤,我們必須計算 SSE,它是由樣本變異數與共變異數計算而得。我們已經算出共變異數與 x 的變異數。它們分別是 2.909 與43.509。y 的樣本變異數(應用簡易計算方法)是14.23第14章 簡單線性迴歸和相關分析 第416頁2122122222111(1,481.1)22,055.23100 1100 .300SSE(1)2.909 (100 1).30043.50
13、9 10.445niniyiixyyxysynnsnss範例14.3 二手Toyota Camry 的哩程表讀數與價格,第二部分 估計的標準誤如下:14.24第14章 簡單線性迴歸和相關分析 第416頁3265.98445.102SSEns範例14.3 二手Toyota Camry 的哩程表讀數與價格,第二部分我們藉由比較 s 與依變數 的樣本平均數,以判斷s 數值的大小。在此範例中,s=.3265 且 =14.841所以它確實顯示估計標準誤的數值是小的,因此車子價格的線性迴歸模型如同哩程表的函數是良好的。14.25第14章 簡單線性迴歸和相關分析 第417頁yy檢定斜率若兩個變數間不存在線性
14、關係,我們將預估迴歸線是一條水平線水平線,斜率為斜率為 0。我們考慮是否有線性關係,如:我們考慮斜率(1)是否為零以外的數值。我們的研究假設變成:H1:1 0因此,虛無假設變成:H0:1=016.26第14章 簡單線性迴歸和相關分析 第417-418頁檢定斜率我們可以執行這個檢定統計量以測試我們的假設:是b1的標準誤,解釋為:假設誤差變項()是常態分布,檢定統計量是自由度為 n 2的學生t 分配。拒絕域的決定是根據我們是進行一項單尾或雙尾的檢定(雙尾檢定最為典型)。14.27第14章 簡單線性迴歸和相關分析 第418頁1bs111bsbt2)1(1xbsnss範例14.4 哩程表讀數與二手To
15、yota Camry 的價格是否相關?檢定以決定在範例14.2 中是否有充分證據去推論對所有3 年車齡的Toyota Camry 而言,拍賣價格與哩程表讀數之間存有線性關係。使用5%的顯著水準。14.28第14章 簡單線性迴歸和相關分析 第419頁範例14.4 哩程表讀數與二手Toyota Camry 的價格是否相關?我們檢定這些假設H1:1 0H0:1 =0(如果虛無假設為真,表示沒有線性關係存在。)拒絕域為:14.29第14章 簡單線性迴歸和相關分析 第419頁/2,.025,98/2,.025,981.984 1.984tttttt 或範例14.4 哩程表讀數與二手Toyota Camr
16、y 的價格是否相關?我們可以手算t 或用 Excel 輸出我們看到對哩程表的t-統計量(即,斜率 b1)是 13.44其為小於 tCritical=1.984.我們同時注意到 p-值為0。14.30計算計算比較p-值第14章 簡單線性迴歸和相關分析 第420頁存在強烈的證據去推論哩程表與價格之間存在強烈的證據去推論哩程表與價格之間存在線性關係存在線性關係984.1 984.198,025.,2/98,025.,2/tttttt或單尾檢定如果我們想要假設檢定正正或負負的線性關係,我們執行單尾檢定。我們會指定研究假設為H1:1 0 (檢定正斜率)虛無假設仍為:H0:1=0。14.31第14章 簡單
17、線性迴歸和相關分析 第421頁判定係數1檢定僅強調是否有足夠的證據去推論線性關係存存在在的問題。然而在許多情況下,測量線性關係的強線性關係的強度度也很有用,尤其是當我們想要比較數個不同的模型時。執行這項功能的統計量是判定係數判定係數,標示為R2。或判定係數是相關係數(r)的平方,因此 R2=(r)2。14.32第14章 簡單線性迴歸和相關分析 第421頁2222yxxysssR 22)(SSE1yyRi判定係數在這項方程式等號左邊的數量是依變數 y 變異的測量。方程式右邊的第一個數量是SSE,第二項以SSR表示。我們可以重寫此一方程式為y 的變異=SSE+SSRSSE(Sum of Squar
18、es Error)測量 y 的變異未被解釋的量(即,誤差)。SSR(Sum of Squares Regression)測量 y 的變異能夠被獨立變數 x 的變異所解釋的量。第14章 簡單線性迴歸和相關分析 第422頁14.33範例14.5 測量哩程表讀數與Toyota Camry 二手車價格之間線性關係的強度求出範例14.2 的判定係數並描述這項統計量告訴你什麼有關迴歸模式的訊息。14.34第14章 簡單線性迴歸和相關分析 第423頁範例14.5 測量哩程表讀數與Toyota Camry 二手車價格之間線性關係的強度我們可以用手算或 Excel 得到:14.35計算計算第14章 簡單線性迴歸
19、和相關分析 第423頁909.2xys6483.)300)(.509.43(.)909.2(22222yxxysssR509.432xs300.2ys範例14.5 測量哩程表讀數與Toyota Camry 二手車價格之間線性關係的強度我們得到R2等於.6483。這項統計量告訴我們拍賣價格變異的64.83%是被哩程表讀數的變異所解釋。剩餘的35.17%是未被解釋的。不像一個檢定統計量的值,判定係數判定係數並沒有沒有一個臨界值臨界值讓我們去做結論。一般而言,R2的值越高,模型配適資料的情況則越好越好R2=1:線與資料點之間的完美配適。R2=0:x 與 y 之間沒有任何線性關係。詮釋詮釋14.36第
20、14章 簡單線性迴歸和相關分析 第424頁電腦輸出結果的其他部分簡單線性迴歸模型簡單線性迴歸模型ANOVA表的一般格式表的一般格式:14.37第14 章 簡單線性迴歸和相關分析 第424頁相關係數的檢定母體母體相關係數被標示為 (希臘字母rho)。我們必須從樣本資料去估計它的值。樣本相關係數樣本相關係數的定義如下:當兩個變數之間沒有線性關係,0:它服從自由度為 v=n 2的學生 t 分配。14.38第14章 簡單線性迴歸和相關分析 第426頁yxxysssr 22 21ntrnr範例14.6執行相關係數相關係數的 t-檢定以決定在範例16.2中哩程表讀數與拍賣價格是否線性相關線性相關。要檢定的
21、假設為:H1:0H0:=0(當兩個變數之間沒有線性關係,0。)14.39第14章 簡單線性迴歸和相關分析 第426頁範例14.6在範例14.2與範例14.5中,我們得到:因此,相關係數是:檢定統計量的值是:14.40計算計算第14章 簡單線性迴歸和相關分析 第427頁44.13)8052.(121008052.1222rnrt8052.)5477)(.596.6(909.2yxxysssr22.2909 43.50943.5096.596 .3000.300.5477xyxxyysssss 範例14.6 的t-檢定與範例16.4 中1 的t-檢定產生相同的結果。14.41計算計算第14章 簡單
22、線性迴歸和相關分析 第427頁使用迴歸方程式使用迴歸方程式,我們得到:估計一輛哩程表讀數有40(千)哩車齡3 年的Toyota Camry 之售價我們稱此數值為點預測點預測(point prediction)並稱 為當x 40 時,y 的預測值或點估計(point estimate)。因此,這位交易商將預測這部汽車應該能夠以$14,574 賣出。14.42第14章 簡單線性迴歸和相關分析 第429頁xy0669.250.17574,14)40(0669.25.170669.25.17xyy 預測區間我們提出的第一個信賴區間,是在獨立變數為一個給定的 xg 值之下,每當我們想要對一個依變數的特定
23、值發生一次的狀況做預測。(其中 xg 是 x 的給定值)14.43第14章 簡單線性迴歸和相關分析 第429頁222,2/)1()(11xgnsnxxnstygxbby10範例14.7(a)一位二手車的交易商將要投標一輛 3 年車齡的Toyota Camry,該車具有全部的標準配備,並且哩程表讀數為40,000(xg 40)哩。為了幫助他決定投標金額,他必須預測銷售價格。預測區間的下限和上限分別是$13,922 和$15,226。14.44第14章 簡單線性迴歸和相關分析 第430-431頁652.574.14)509.43)(1100()011.3640(100113265.984.1574
24、.14)1()(112222,2/xgnsnxxnsty984.1011.36509.433265.574.14)40(0669.250.17100,025.98,025.2/2tttxssyx範例14.7(b)y 期望值期望值的信賴區間估計量:一位二手車的交易商有機會投標許多輛由一家租車公司所提供的汽車。租車公司有250 部具有標準配備的Toyota Camry。這一批汽車的哩程表讀數大約是40,000(xg 40)哩。這位交易商想要估計這一批這一批汽車的銷售價格。16.45第14章 簡單線性迴歸和相關分析 第431頁2/2,22()11(1)gnxxxytsnns信賴區間估計量平均平均價格
25、的95%信賴區間估計量為:期望值信賴區間估計值的下限與上限分別為$14,498以及$14,650。14.46第14章 簡單線性迴歸和相關分析 第431頁984.1011.36509.433265.574.14)40(0669.250.17100,025.98,025.2/2tttxssyx076.574.14)509.43)(1100()011.3640(10013265.984.1574.14)1()(12222,2/xgnsnxxnsty預測區間與信賴區間的不同14.47預測區間信賴區間1沒有 1是在獨立變數為一個給定的 xg 值之下,對一個一個依變數的特定值發生一次的狀況做預測。是在獨立
26、變數為一個給定的 xg 值之下,估計 y 的平均數平均數或是 y 的長期平均值平均值。y 期望值的信賴區間信賴區間估計值將會比在相同的x 給定值與信賴水準下的預測區間預測區間更窄窄。這是因為估計一個平均數的數值,相對於預測一個個別的數值,會有較少的誤差。第14章 簡單線性迴歸和相關分析 運用Excel 計算區間14.48計算計算Prediction Interval(預測區間預測區間)Confidence Interval Estimator of the mean price(平均價格的信賴區間估計值平均價格的信賴區間估計值)Point Prediction(點的預測點的預測)第14章 簡單
27、線性迴歸和相關分析 第432頁迴歸診斷迴歸分析有效的必要條件:誤差變數必須服從常態分配誤差變數的變異數必須是常數誤差間必須彼此獨立。我們如何診斷這些條件的違反行為?殘差分析,也就是檢查各個實際資料點與那些使用線性方程式所預測的點之間的差異差異14.49第14章 簡單線性迴歸和相關分析 第433頁殘差分析讓我們回顧,實際資料點與迴歸線之間的偏差稱為殘差殘差。在Excel中,計算殘差是迴歸分析的一部分。殘差分析讓我們可以決定誤差變數是否為常態、誤差變異數是否為常數,以及誤差是否獨立。我們從非常態開始討論。14.50第14章 簡單線性迴歸和相關分析 第434-435頁非常態性我們以繪製殘差的直方圖來
28、檢查常態性。直方圖呈現鐘形,使我們相信誤差服從常態分配。14.51第14章 簡單線性迴歸和相關分析 第435頁 圖14.9異質性誤差變數的變異數 必須是常數。當這項條件被違反時,則稱此情況為異質性異質性(heteroscedasticity)。診斷異質性的一種方法適繪製殘差相對於 y 預測值的圖。14.52第14章 簡單線性迴歸和相關分析 第435頁 圖14.102異質性誤差變數的變異數 必須是常數。當這項條件被違反時,則稱此情況為異質性異質性(heteroscedasticity)。我們在繪有各點的圖中尋找散佈狀況的改變:14.53 沒有異質性異質性的現象。第14章 簡單線性迴歸和相關分析
29、第436頁 圖14.122誤差變數的非獨立性如果我們每星期觀察汽車的拍賣價格長達一年的時間,則將構成一個時間序列。當資料為時間序列,誤差經常是相關相關的。跨時間相關的誤差項目稱為自我相關自我相關(autocorrelated)或是序序列相關列相關(serially correlated)。我們通常可以藉由繪製殘差繪製殘差相對於相對於時間點時間點的圖來偵測自我相關。如果出現某種型態,很可能獨立性的條件是被違反的。14.54第14章 簡單線性迴歸和相關分析 第436頁離群值一個離群值離群值(outlier)是一個非常小非常小或非常大非常大的觀測值。為了說明,思考範例14.2,其中哩程表讀數的值域是
30、從19.1 到49.2(千)哩。如果我們觀察到一個5,000英哩的數值,我們將會認定該點為一個離群值。14.55第14章 簡單線性迴歸和相關分析 第437頁離群值我們必須調查幾種可能性:1.記錄該數值時發生了錯誤。2.該點不應該被包括在樣本中。3.觀測值單純的是一個非常大或小的數值,它是屬於樣本而且被適當地記錄。離群值可以從散佈圖被辨識出來。標準化殘差也可以用來辨識離群值。大的標準化殘差絕對值(2)應該被徹底的檢查。它們必須被處理,因為它們對最小平方線的建立很可能會有它們必須被處理,因為它們對最小平方線的建立很可能會有影響。影響。14.56第14章 簡單線性迴歸和相關分析 第437-438頁迴歸診斷的程序1.發展一個具有理論基礎的模型2.蒐集兩個變數的資料。3.繪製散佈圖以決定線性模式是否適當。辨識可能的離群值。4.決定迴歸方程式。5.計算殘差並且檢查必要的條件。6.評估模式的配適度。7.如果模型配適資料良好如果模型配適資料良好,則使用迴歸方程式迴歸方程式預測依變數的一個特別的值和/或估計它的平均數。14.57第14章 簡單線性迴歸和相關分析 第439頁