1、本章內容本章內容14.1 簡單線性迴歸模型 14.2 最小平方法 14.3 判定係數 14.4 模型假設 14.5 顯著性檢定 14.6 利用估計迴歸方程式進行估計與預測 14.7 殘差分析:驗證模型假設 14.8 殘差分析:離群值及具影響力的觀察值214.1 簡單線性迴歸模型簡單線性迴歸模型迴歸模型與迴歸方程式 估計迴歸方程式3第第14章章 簡單線性迴歸簡單線性迴歸 第第501-502頁頁 簡單線性迴歸模型簡單線性迴歸模型迴歸術語應變數應變數(dependent variable):想預測的變數。自變數自變數(independent variable):用來預測應變數數值的變數。例如在分析廣
2、告費用對銷售額的影響時,行銷經理要預測的是銷售額,所以銷售額為應變數;廣告費用則是用來預測銷售額之自變數。以統計符號而言,y 表示應變數,而 x 表示自變數。4第第14章章 簡單線性迴歸簡單線性迴歸 第第501頁頁 簡單線性迴歸模型簡單線性迴歸模型簡單線性迴歸:僅牽涉到單一自變數與單一應變數,而且兩變數間的關係近似直線。這種類型稱為簡簡單線性迴歸單線性迴歸(simple linear regression)。複迴歸分析:牽涉兩個或以上自變數的迴歸分析稱為複迴歸分析(multiple regression analysis)。5第第14章章 簡單線性迴歸簡單線性迴歸 第第501頁頁 描述 y 與
3、 x 及誤差項之關係的方程式,稱為迴歸迴歸模型模型(regression model)。簡單線性迴歸模型b0 及 b1為迴歸模型的參數(parameter)。?則為一隨機變數,稱為誤差項。簡單線性迴歸模型簡單線性迴歸模型y=b0+b1x+?6第第14章章 簡單線性迴歸簡單線性迴歸 第第501頁頁 簡單線性迴歸方程式簡單線性迴歸方程式的圖形是一條直線B0 為迴歸線的 y 截距b1 為斜率E(y)為對應特定 x 值之 y 的期望值或平均數。簡單線性迴歸模型簡單線性迴歸模型E(y)=b0+b1x7第第14章章 簡單線性迴歸簡單線性迴歸 第第502頁頁 簡單線性迴歸模型簡單線性迴歸模型E(y)x斜率
4、b1為正迴歸線截距 b0正線性關係正線性關係8第第14章章 簡單線性迴歸簡單線性迴歸 第第502頁頁 簡單線性迴歸模型簡單線性迴歸模型負線性關係負線性關係9E(y)x斜率 b1為負迴歸線截距 b0第第14章章 簡單線性迴歸簡單線性迴歸 第第502頁頁 無關係無關係E(y)x斜率 b1為 0迴歸線截距 b0簡單線性迴歸模型簡單線性迴歸模型10第第14章章 簡單線性迴歸簡單線性迴歸 第第502頁頁 估計簡單線性迴歸方程式估計簡單線性迴歸方程式估計迴歸方程式的圖形被稱為估計迴歸線(estimated regression line)b0 為 y 截距b1 為斜率 是 E(y)的點估計量11估計的簡單
5、線性迴歸方程式估計的簡單線性迴歸方程式xbby10y 第第14章章 簡單線性迴歸簡單線性迴歸 第第503頁頁 估計迴歸方程式估計迴歸方程式12第第14章章 簡單線性迴歸簡單線性迴歸 第第503頁頁 評註評註1.不能將迴歸分析解釋為建立變數間因果關係的程序,它僅能指出變數間如何相關及其相關的程度。任何關於因果關係的結論,都必須根據最瞭解該相關應用的人士的判斷而定。2.簡單線性迴歸的迴歸方程式是 E(y)=0 1x。進階的教科書在討論迴歸分析時常將迴歸方程式寫成 E(yx)=0 1x,以強調迴歸方程式是在已知特定 x 值下得到 y 的平均值。13第第14章章 簡單線性迴歸簡單線性迴歸 第第503頁
6、頁 最小平方法最小平方法(least squares method)是利用樣本資料算出估計迴歸方程式的方法。最小平方法準則最小平方法準則 其中 yi=應變數之第 i 個觀察值的實際值 =應變數之第 i 個觀察值的估計值 14.2最小平方法最小平方法 2)(miniiyyiy 14第第14章章 簡單線性迴歸簡單線性迴歸 第第504-505頁頁 估計迴歸方程式的斜率與估計迴歸方程式的斜率與 y 截距截距其中xi=自變數的第 i 個觀察值yi=應變數的第 i 個觀察值 =自變數的平均數 =應變數的平均數 n=觀察值的個數最小平方法最小平方法21)()(xxyyxxbiii15xbyb10 xy第第1
7、4章章 簡單線性迴歸簡單線性迴歸 第第506頁頁 最小平方法實例最小平方法實例 以亞曼披薩屋為例,說明最小平方法。假定資料來自 10 間鄰近大學校園的分店。對於樣本中第 i 個觀察值或第 i 間餐廳而言,xi 為學生人數(單位:千人);yi 為每季銷售額(單位:$1000)。10 間餐廳之 xi 與 yi 值彙整於表 14.1。我們可看到餐廳 1 之 x12 且 y158;即其鄰近學生人數為 2000 人之校園且每季銷售額為$58,000。餐廳 2 之 x26 且 y2105,表示它鄰近學生人數為 6000 人之校園且每季銷售額為$105,000。銷售額最大的是餐廳 10,其鄰近學生人數為 2
8、6,000 人之校園,每季銷售額為$202,000。16第第14章章 簡單線性迴歸簡單線性迴歸 第第504頁頁 最小平方法實例最小平方法實例17第第14章章 簡單線性迴歸簡單線性迴歸 第第504頁頁 最小平方法實例最小平方法實例 圖 14.3 為表 14.1 之資料的散布圖,學生人數為橫軸,每季銷售額為縱軸。迴歸分析的散布圖迴歸分析的散布圖(scatter diagrams)係將自變數 x 之值置於橫軸,應變數 y 之值置於縱軸繪製而成。散布圖讓我們能由圖形來觀察資料,並得到變數間可能關係的初步結論。靠近學生人數愈多之校園餐廳,每季銷售額似乎愈高。再者,由這些資料可發現學生人數與每季銷售額的關
9、係近似直線;的確,x 與 y 間似乎存在正向的直線關係。因此,我們選擇簡單線性迴歸模型來表示學生人數與每季銷售額的關係。這個選擇的接下來的任務即是利用表 14.1 的樣本資料來決定估計簡單線性迴歸方程式中 b0 和 b1 的值。18第第14章章 簡單線性迴歸簡單線性迴歸 第第504頁頁 最小平方法實例最小平方法實例19第第14章章 簡單線性迴歸簡單線性迴歸 第第505頁頁 最小平方法實例最小平方法實例 對第 i 間餐廳而言,估計迴歸方程式為其中 第 i 間餐廳每季銷售額的估計值($1000)b0 估計迴歸線之 y 截距 b1 估計迴歸線之斜率 xi 第 i 間餐廳鄰近校園的學生人數(千人)以
10、yi 表示餐廳 i 每季銷售額的觀察(實際)值,而以式(14.4)中之 表示餐廳 i 銷售額的預測值,樣本中每間餐廳均有銷售額的實際觀察值 yi 與估計值 。為了使估計迴歸線能非常配適這些資料,我們希望銷售額的實際觀察值與預測值的差距是小的。iixbby10iy iy iy 20第第14章章 簡單線性迴歸簡單線性迴歸 第第504-505頁頁 最小平方法實例最小平方法實例 求算亞曼披薩屋的最小平方估計迴歸方程式時所需之部分計算列於表 14.2。在此例子中,因有10 間餐廳(觀察值),故 n=10。我們先計算 與 。計算亞曼披薩屋之估計迴歸方程式中的斜率與截距xy1301013001410140n
11、yynxxii60)14(513055682840)()(1021xbybxxyyxxbiii21第第14章章 簡單線性迴歸簡單線性迴歸 第第506-507頁頁 最小平方法實例最小平方法實例22第第14章章 簡單線性迴歸簡單線性迴歸 第第506頁頁 最小平方法實例最小平方法實例利用最小平方法得到的估計迴歸方程式為圖14.4為此方程式的散布圖。估計迴歸方程式的斜率(b15)為正,表示當學生人數增加時,銷售額亦會增加。事實上,我們可得到結論是(銷售額單位為$1000,學生人數單位為千人):學生人數每增加 1000 人,每季期望銷售額可提高$5000;換言之,我們預期每名學生可增加$5 的銷售額。x
12、y56023第第14章章 簡單線性迴歸簡單線性迴歸 第第507頁頁 最小平方法實例最小平方法實例24第第14章章 簡單線性迴歸簡單線性迴歸 第第507頁頁 最小平方法實例最小平方法實例如果我們相信最小平方估計迴歸方程式能適當地描述 x 與 y 的關係,則利用估計迴歸方程式預估已知的 x 值所對應的 y 值似乎是很合理的。例如,如果我們要預測鄰近學生人數為 16,000 人校園的餐廳的每季銷售額,可計算如下因此,我們將預期此餐廳每季的銷售額為$140,000。140)16(560y25第第14章章 簡單線性迴歸簡單線性迴歸 第第507-508頁頁 評註評註最小平方法提供可使應變數之實際觀測值 y
13、i 與其估計值 的差距平方和為最小之估計迴歸方程式,此最小平方準則即是選擇可提供最佳配適(the best fit)之方程式。若使用其他不同準則,例如,使 yi 與 之絕對差距的總和為最小,將得到不同方程式。實務上,最小平方法是最廣為使用的方法。iy iy 26第第14章章 簡單線性迴歸簡單線性迴歸 第第508頁頁 14.3 判定係數判定係數相關係數27第第14章章 簡單線性迴歸簡單線性迴歸 第第514頁頁 SST、SSR 與 SSE 間的關係 其中SST=總平方和SSR=迴歸平方和SSE=誤差平方和14.3 判定係數判定係數SST =SSR +SSE2)(yyi2)(iiyy2)(yyi28
14、第第14章章 簡單線性迴歸簡單線性迴歸 第第514.515.516頁頁 我們為亞曼披薩屋的例子建立估計迴歸方程式 605x 以近似學生人數 x 與每季銷售額 y 之間的線性關係。接下來的問題是:此估計迴歸方程式與這些資料到底有多配適?表 14.3 是亞曼披薩屋的誤差平方和計算過程。例如,對餐廳 1 而言,自變數與應變數之值各為 x1=2 和 y1=58,利用估計迴歸方程式,我們發現餐廳 1 的估計銷售額是 =60+5(2)=70。因此,對餐廳 1 而言,使用 估計 y1 而產生的誤差是 y1 =5870=12。誤差項的平方 (12)2=144 列於表 14.3 的最後一欄。計算樣本中每一餐廳的
15、殘差項並取平方後,加總得到 SSE=1530。因此,SSE=1530 可以用來衡量估計迴歸方程式 =60+5x 預測銷售額時會發生的誤差。判定係數實例判定係數實例y 1 y1 y1 yy 29第第14章章 簡單線性迴歸簡單線性迴歸 第第514頁頁 判定係數實例判定係數實例30第第14章章 簡單線性迴歸簡單線性迴歸 第第515頁頁 判定係數實例判定係數實例31第第14章章 簡單線性迴歸簡單線性迴歸 第第515頁頁 判定係數實例判定係數實例32第第14章章 簡單線性迴歸簡單線性迴歸 第第516頁頁 判定係數實例判定係數實例若已知其中兩個平方和,就可輕易求得第三個平方和。以亞曼披薩屋為例,已知 SS
16、E1530 且 SST15,730,因此求出式(14.11)中之 SSR,可得迴歸平方和為SSRSSTSSE15,730153014,200完美的配適(a perfect fit):SSE=0最差的配適:SSR0 且 SSESST 時33第第14章章 簡單線性迴歸簡單線性迴歸 第第516頁頁 判定係數判定係數其中 SSR=迴歸平方和 SST=總平方和r2=SSR/SST判定係數判定係數34第第14章章 簡單線性迴歸簡單線性迴歸 第第517頁頁 判定係數實例判定係數實例亞曼披薩屋之例子的判定係數為我們將判定係數以百分比表示時,r2 可被解釋為總平方和中可由估計迴歸方程式解釋的百分比。就亞曼披薩屋
17、的例子而言,我們可得到的結論是:以估計迴歸方程式605x 來預估銷售額時,可解釋總平方和的 90.27%。換言之,每季銷售額之變異的 90.27%,可由學生人數與銷售額間的線性關係來解釋。我們應該很高興發現,估計迴歸方程式能有如此好的配適度。9027.0730,15200,14SSTSSR2ry 35第第14章章 簡單線性迴歸簡單線性迴歸 第第517頁頁 樣本相關係數樣本相關係數其中 b1=估計迴歸方程式 之斜率若估計迴歸方程式為正斜率(b10),則樣本相關係數之符號亦為正;但當估計迴歸方程式為負斜率時(b10),那麼樣本相關係數之符號則為負。36判定係數之符號)(1brxy21)(rbrxy
18、之符號xbby10第第14章章 簡單線性迴歸簡單線性迴歸 第第517頁頁 樣本相關係數實例樣本相關係數實例以亞曼披薩屋為例,估計迴歸方程式 605x 的判定係數值為 0.9027。既然估計迴歸方程式是正斜率,由式(14.13)可知樣本相關係數為 0.9501。由於樣本相關係數 rxy 0.9501,所以我們可得到的結論是 x 與 y 間存在高度線性正相關。y 9027.037第第14章章 簡單線性迴歸簡單線性迴歸 第第517頁頁 評註評註1.在建立最小平方估計迴歸方程式與計算判定係數時,我們並未做任何對誤差項 的機率假設,也沒有對 x 與 y 間關係的顯著性進行統計檢定。r2 較大,只表示最小
19、平方線與資料間的配適程度較高;也就是說觀察值較接近最小平方線。然而,僅使用 r2,我們無法得到 x 與 y 間的關係是否具統計顯著性的結論。只能在考量樣本大小與最小平方估計量之近似抽樣分配的特性後,方可獲得上述結論。38第第14章章 簡單線性迴歸簡單線性迴歸 第第518頁頁 評註評註2.從實務的觀點而言,社會科學的典型資料,判定係數只要達 0.25 即被認為是相當有用的。但物理與生命科學之資料,常可發現 0.60 甚至更大的判定係數;事實上,有些案例的判定係數可能在 0.90 以上。在商業的運用上,r2 差異甚大,端視每個應用的特性而定。39第第14章章 簡單線性迴歸簡單線性迴歸 第第518頁
20、頁 y=0+1x+?14.4 模型假設模型假設40第第14章章 簡單線性迴歸簡單線性迴歸 第第521頁頁 1.誤差項?為隨機變數,平均數或期望值為 0;即 E(?)=0。2.對所有 x 值而言,?之變異數(表示為 2)均相同。3.?值是互相獨立的。4.誤差項?為常態分配的隨機變數。關於迴歸模型中誤差項關於迴歸模型中誤差項?的相關假設的相關假設第第14章章 簡單線性迴歸簡單線性迴歸 第第521頁頁 關於迴歸模型中誤差項關於迴歸模型中誤差項?的相關假設的相關假設涵義1.既然 0 與 1 為常數,E(0)=0 且 E(1)=1;因此,對已知的 x 值,y 之期望值為E(y)=0+1x2.回歸線 y
21、的變異數變異數等於 2。而且對所有 x 值此值均相同。3.特定 x 值之?與其他 x 值不相關的,因此特定 x 值對應之 y 值亦與任何其他 x 值對應之 y 值無關。4.因 y 為?之線性函數,故對所有 x 值而言,y 亦為來自常態分配的隨機變數。42第第14章章 簡單線性迴歸簡單線性迴歸 第第521頁頁 模型假設模型假設43第第14章章 簡單線性迴歸簡單線性迴歸 第第522頁頁 14.5 顯著性檢定顯著性檢定 2 的估計值 t 檢定 1 的信賴區間 F 檢定 解釋顯著性檢定時的注意事項44第第14章章 簡單線性迴歸簡單線性迴歸 第第521-528頁頁 顯著性檢定顯著性檢定為檢定是否存在顯著
22、的迴歸關係,我們必須進行 1是否為 0 的假設檢定。兩種普遍被使用的檢定:t 檢定與F 檢定有兩種常用的檢定方法,都必須先估計迴歸模型中的變異數 2。45第第14章章 簡單線性迴歸簡單線性迴歸 第第521頁頁 2 的估計值的估計值MSE 之值可做為 2 的估計值,所以亦記作符號 s2。誤差均方(2 的估計值)其中2102)()(SSEiiiixbbyyy2SSEMSE2ns46第第14章章 簡單線性迴歸簡單線性迴歸 第第522頁頁 為了估計,我們取 s2 的平方根所算出之 s 值稱為估計值的標準誤估計值的標準誤(standard error of the estimate)。估計值的標準誤 2
23、 的估計值的估計值2SSEMSEns47第第14章章 簡單線性迴歸簡單線性迴歸 第第523頁頁 b1 的抽樣分配的抽樣分配14.3 節已算出亞曼披薩屋的 SSE1530,因此這是 2 的不偏估計值。25.19181530MSE2s48第第14章章 簡單線性迴歸簡單線性迴歸 第第522-523頁頁 期望值標準差分配形式:常態 b1 的抽樣分配的抽樣分配11)(bbE21)(xxib49第第14章章 簡單線性迴歸簡單線性迴歸 第第523頁頁 b1 的估計標準差 b1 的抽樣分配的抽樣分配21)(xxssib50第第14章章 簡單線性迴歸簡單線性迴歸 第第524頁頁 假設檢定假設檢定 檢定統計量檢定
24、統計量0:0:110bbHH11bsbt t 檢定檢定51第第14章章 簡單線性迴歸簡單線性迴歸 第第524頁頁 拒絕法則拒絕法則其中,t/2係依自由度 n 2 之 t 分配求得。若 t t/2 或若 t t/2,則拒絕 H0t 檢定檢定p 值法:臨界值法:若 p 值 ,則拒絕 H052第第14章章 簡單線性迴歸簡單線性迴歸 第第524頁頁 t 檢定實例檢定實例假設亞曼披薩屋使用另 外 10 家不同餐廳組成之樣本的銷售資料,此新樣本的迴歸分析得到新的估計迴歸方程式,類似先前的估計迴歸方程式 605x。然而,我們是否可得到完全相同的方程式(截距恰為 60,斜率恰為 5)則非常值得懷疑。事實上,最
25、小平方估計量 b0 與 b1 是有自己抽樣分配的樣本統計量。以亞曼披薩屋為例,s13.829,因此利用表 14.2 的結果,可得:做為 b1 的估計標準差。y 5803.0568829.131bs53第第14章章 簡單線性迴歸簡單線性迴歸 第第523-524頁頁 1.建立假設檢定2.界定顯著水準3.選擇統計檢定量 =0.014.宣告拒絕法則拒絕 H0 若 p 值 0.01或|t|3.355(自由度為 10 2=8)t 檢定實例檢定實例0:0:110bbHH11bsbt 54第第14章章 簡單線性迴歸簡單線性迴歸 第第523-524頁頁 5.計算統計檢定量的值6.決定是否拒絕 H0t 檢定實例檢
26、定實例t 值為 3.355 的右尾面積是 0.005。因此,對應於檢定統計量 t8.62 的右尾面積必小於 0.005。由於此檢定為雙尾檢定,我們將此值加倍後,可得到結論為與 t8.62 相對應的 p 值必小於 2(0.005)0.01。Excel 顯示 p 值是 0.000。由於 p 值 0.01,所以拒絕 H0,結論是 1 不等於 0。統計證據已足夠讓我們得到以下的結論:學生人數與每季銷售額存在顯著的關係。5562.85803.0511bsbt第第14章章 簡單線性迴歸簡單線性迴歸 第第524頁頁 1 的信賴區間的信賴區間我們可以以 t 分配利用 1 的 95%信賴區間來檢定 假設檢定如果
27、 1 的檢定值並不在 1的信賴區間內,則拒絕H056第第14章章 簡單線性迴歸簡單線性迴歸 第第525頁頁 1 的信賴區間的信賴區間1 的信賴區間的形式如下:信賴係數是1 ,t/2 是右尾面積為/2的 t 值,t 分配的自由度是 n 2。b1是點估計量 是邊際誤差12/1bstb12/bst57第第14章章 簡單線性迴歸簡單線性迴歸 第第525頁頁 1 的信賴區間實例的信賴區間實例例如,我們若要對亞曼披薩屋的 1 的 99%信賴區間。由附錄 B 的表 2 可知,對應於 0.01及 n 210 28 的自由度,t0.0053.355。因此,1的 99%信賴區間估計值是 或者是 3.05 到 6.
28、95。95.15)5803.0(355.3512/1bstb58第第14章章 簡單線性迴歸簡單線性迴歸 第第525頁頁 1 的信賴區間實例的信賴區間實例在 0.01 的顯著水準下,我們也可以用 99%信賴區間對亞曼披薩屋的假設檢定提出結論。由於 1 的假設值為 0,並不在信賴區間 3.05 到 6.95 之間,我們可以拒絕虛無假設 H0,得到的結論是:學生人數與每季銷售額間的確有統計上的顯著關係。一般而言,信賴區間可以用來檢定任何有關1 的雙尾檢定。如果 1 的假設值落在信賴區間,就不拒絕 H0,否則就拒絕 H0。59第第14章章 簡單線性迴歸簡單線性迴歸 第第525頁頁 假設檢定假設檢定統計
29、檢定量統計檢定量F=MSR/MSEF 檢定檢定0:0:110bbHH60第第14章章 簡單線性迴歸簡單線性迴歸 第第526頁頁 拒絕法則拒絕法則其中,係依分子自由度為 1,分母自由度為 n2的 F 分配求得。F 檢定檢定若 F F,則拒絕 H0p 值法:臨界值法:若 p 值 ,則拒絕 H061第第14章章 簡單線性迴歸簡單線性迴歸 第第526頁頁 F=MSR/MSE1.建立假設檢定2.界定顯著水準3.選擇統計檢定量 =0.014.宣告拒絕法則拒絕 H0 若 p 值 0.01或 F 74.25(自由度為 10 2=8)0:0:110bbHHF 檢定實例檢定實例62第第14章章 簡單線性迴歸簡單線
30、性迴歸 第第525-526頁頁 F=MSR/MSE=14,200/191.25=74.25F 檢定實例檢定實例5.計算統計檢定量的值6.決定是否拒絕 H0F74.25 的右尾面積必然小於 0.01。因此,我們亦可得到p 值必小於 0.01 的結論。Excel 軟體顯示 p 值0.000。因 p 值小於 0.01,故拒絕 H0 且可得到以下結論:學生人數與每季銷售額間存在顯著關係。63第第14章章 簡單線性迴歸簡單線性迴歸 第第525-526頁頁 F 檢定實例檢定實例64第第14章章 簡單線性迴歸簡單線性迴歸 第第527頁頁 F 檢定實例檢定實例65第第14章章 簡單線性迴歸簡單線性迴歸 第第5
31、27頁頁 拒絕虛無假設 H0:10 而得到 x 和 y 之間存在顯著關係的結論,並不等於認定 x 與 y 間有因果關係。只有分析人員可以根據某些理論上的證據來認定關係具因果性時,才可確保因果關係的成立。僅因可拒絕 H0:10 並證明存在統計顯著性,並不能認定 x 與 y 有線性關係。我們僅能說 x 與 y 有相互關係,且在樣本中所觀察到的 x 範圍內,線性關係解釋了大部分 y 的變異。解釋顯著性檢定時的注意事項解釋顯著性檢定時的注意事項66第第14章章 簡單線性迴歸簡單線性迴歸 第第527頁頁 解釋顯著性檢定時的注意事項解釋顯著性檢定時的注意事項67第第14章章 簡單線性迴歸簡單線性迴歸 第第
32、528頁頁 1.誤差項的相關假設(14.4 節)是本節進行顯著性檢定的必要假設。根據這些假設,我們才能得到 b1之抽樣分配的特性與之後的 t 檢定與 F 檢定。2.不要將統計上的顯著性與實務上的顯著性混為一談。當樣本數很大時,即使對很小的 b1 值亦可能得到統計顯著的結果;我們在此情形下,必須小心判斷此關係是否具實務的顯著性。評註評註68第第14章章 簡單線性迴歸簡單線性迴歸 第第528頁頁 3.我們也可以利用樣本相關係數 rxy 來進行 x 與 y 間線性關係的顯著性檢定。令 xy 表示母體相關係數,則檢定的假設如下:H0:xy=0Ha:xy 0若拒絕 H0,則結論是存在顯著關係。然而,本節
33、介紹的 t 檢定和 F 檢定的結果,與利用相關係數進行顯著性檢定的結果相同。因此,已進行 t 檢定或 F 檢定時,就不需再利用相關係數進行顯著性檢定。評註評註69第第14章章 簡單線性迴歸簡單線性迴歸 第第528頁頁 區間估計 y 的平均數之信賴區間 個別 y 值的預測區間14.6 利用估計迴歸方程式進行利用估計迴歸方程式進行估計與預測估計與預測70第第14章章 簡單線性迴歸簡單線性迴歸 第第531-535頁頁 E(y*)的信賴區間的信賴區間yp 的預測區間的預測區間其中,信賴係數為1,且 t/2 係由自由度 n 2 的 t 分配查表而得。利用估計迴歸方程式進行估計與預測利用估計迴歸方程式進行
34、估計與預測*2/ystypred2/sty71第第14章章 簡單線性迴歸簡單線性迴歸 第第532.534頁頁 在亞曼披薩屋的例子中,對 x10(即 10,000 個學生)預測此間餐廳的每季銷售額為即$110,000。點估計實例點估計實例6005(10)110y 72第第14章章 簡單線性迴歸簡單線性迴歸 第第531頁頁 x*自變數 x 的已知值y*表示依變數 y 的可能值的隨機變數,當 x=x*時E(y*)依變數 y 的平均數或期望值,當 x=x*時 b0+b1x*E(y*)的點估計值,以及當 x=x*時 y*的個別值之預測量E(yp)的信賴區間實例的信賴區間實例y 73第第14章章 簡單線性
35、迴歸簡單線性迴歸 第第531頁頁 估計 之變異數時的公式,記作 標準差的估計值,公式如下 E(yp)的信賴區間實例的信賴區間實例y y 222)()(1*2*xxxxnssiy95.41282.0829.13 568)1410(101829.13)()(12*22yiysxxxxnss74第第14章章 簡單線性迴歸簡單線性迴歸 第第532頁頁 求算學生人數 10,000 人之校園的所有亞曼披薩屋平均每季銷售額的 95%信賴區間時,需要知道對應於/20.025 與自由度為 n21028 之值。查附錄 B 的表 2,可得 t/2 2.306。以美元來表示為$110,000$11,415。因此,當學
36、生人數是 10,000人時,每季平均銷售額的信賴區間估計值為$98,585 至$121,415。110 11.415=$98.585 至$121.415E(y*)的信賴區間實例的信賴區間實例75415.11)95.4(306.2*2/yst第第14章章 簡單線性迴歸簡單線性迴歸 第第532頁頁 E(y*)的信賴區間實例的信賴區間實例76第第14章章 簡單線性迴歸簡單線性迴歸 第第533頁頁 個別個別 y 值的預測區間估計實例值的預測區間估計實例22*222*22)()(11 )()(1 2*22predxxxxnsxxxxnsssssiiy22*)()(11predxxxxnssi69.141
37、282.1829.13 568)1410(1011829.132preds77第第14章章 簡單線性迴歸簡單線性迴歸 第第534頁頁 利用 t0.0252.306 與 spred14.69,可求得鄰近 Talbot 學院之亞曼披薩屋的季銷售額的 95%預測區間 以美元來表示,預測區間為$110,000$33,875或$76,125 至$143,875。注意:相較於鄰近學生人數 10,000 人之校園的所有餐廳平均季銷售額的信賴區間,鄰近 Talbot 學院的新餐廳的預測區間較寬。此差異反映的是,比起預測 y 的個別值,預測 y 之平均數會比較準確。110 33.875=76.125 至 143
38、.875/2 pred2.306(14.69)33.875ts個別個別 y 值的預測區間估計實例值的預測區間估計實例78第第14章章 簡單線性迴歸簡單線性迴歸 第第534頁頁 預測區間用來預測對應新的觀察值的應變數 y 的值。如前述說明如何為鄰近有 10,000 名學生校園的亞曼新餐廳之季銷售額建立預測區間。x=10 不在表 14.1 的亞曼餐廳樣本資料中,這並不意味著不能為樣本資料中的 x 值建立預測區間。但是,為表 14.1 的 10 間餐廳的任何一間建立季銷售額的預測區間是沒有意義的,因為我們已經知道這 10 家餐廳的真正銷售額。換言之,對某些新的,或以此例而言是對於不一定在樣本資料中的
39、某特定 x 值的新觀察值而言,預測區間才有意義。評註評註79第第14章章 簡單線性迴歸簡單線性迴歸 第第535頁頁 x 的殘差圖 的殘差圖 標準化殘差 常態機率圖14.7 殘差分析:驗證模型假設殘差分析:驗證模型假設y 80第第14章章 簡單線性迴歸簡單線性迴歸 第第538-544頁頁 殘差分析殘差分析(residual analysis)是判定假設之迴歸模型是否適當的主要工具。所如果這些關於誤差項?的假設有問題的話,有關迴歸關係顯著性的假設檢定與區間估計的結果就可能是無效的。殘差值提供有關?的最佳訊息,因此殘差分析是決定的假設是否恰當的重要步驟。第 i 個觀察值的殘差殘差分析大多以圖形檢查為
40、基礎。殘差分析:驗證模型假設殘差分析:驗證模型假設iiyy81第第14章章 簡單線性迴歸簡單線性迴歸 第第538頁頁 殘差分析:驗證模型假設殘差分析:驗證模型假設關於誤差項?的假設1.E(?)0。2.?之變異數,表示為 2,對所有 x 值均相同。3.?值互相獨立。4.誤差項?服從常態分配。82第第14章章 簡單線性迴歸簡單線性迴歸 第第538頁頁 殘差分析:驗證模型假設殘差分析:驗證模型假設83第第14章章 簡單線性迴歸簡單線性迴歸 第第538頁頁 殘差分析:驗證模型假設殘差分析:驗證模型假設84第第14章章 簡單線性迴歸簡單線性迴歸 第第539頁頁 對應對應 x 值的殘差圖值的殘差圖幾種殘差
41、圖的形式,幾種殘差圖的形式,若對所有的若對所有的 x 值值85?之變異數均相等的假設成立且此一迴歸模型可充分表達兩變數間的關係,則殘差圖應呈現類似水平帶狀的圖形,如圖 14.12 中之圖 A。?的變異數並不完全相同,例如,當 x 值較大時,對迴歸線的變異亦較大的話,將會看到類似圖 14.12 的圖 B,此時,?的變異數固定的假設並不成立。另一種可能的殘差圖如圖 C 所示,此時,可得結論為:所假設的模型並不適合表示變數間的關係。我們應考慮曲線(curvilinear)迴歸模型或複迴歸模型。第第14章章 簡單線性迴歸簡單線性迴歸 第第539頁頁 x0良好模式殘差對應對應 x 值的殘差圖值的殘差圖(
42、圖圖14.11(A)yy86第第14章章 簡單線性迴歸簡單線性迴歸 第第540頁頁 x0殘差變異數不為常數對應對應 x 值的殘差圖值的殘差圖(圖圖14.11(B)yy87第第14章章 簡單線性迴歸簡單線性迴歸 第第540頁頁 x0殘差迴歸模式不適當對應對應 x 值的殘差圖值的殘差圖(圖圖14.11(C)yy88第第14章章 簡單線性迴歸簡單線性迴歸 第第540頁頁 對應對應 x 值的殘差圖實例值的殘差圖實例回到圖 14.10 亞曼披薩屋的殘差圖。這些殘差近似圖 14.11 中圖 A 之水平形式,因此我們可以得到的結論是:此殘差圖並未提供足以對亞曼披薩屋迴歸模型所做之假設產生質疑的證據。因而,我
43、們對於結論可以有信心,結論是:亞曼披薩屋的簡單線性迴歸模型是有效的。89第第14章章 簡單線性迴歸簡單線性迴歸 第第539-540頁頁 另一種殘差圖的橫軸是應變數 的預測值,縱軸是殘差值。每個殘差值在圖形上以一個點來表示。圖 14.12 是殘差圖。圖 14.12 的形式與對應 x 的殘差圖相同。此形式讓我們不必質疑模型假設的有效性。對簡單線性迴歸而言,對應 的殘差圖與對應 x 的殘差圖提供相同訊息。對複迴歸分析而言,由於出現一個以上的自變數,所以我們較常使用對應 的殘差圖。對應對應 值的殘差圖值的殘差圖y y y y 90第第14章章 簡單線性迴歸簡單線性迴歸 第第541頁頁 對應對應 值的殘
44、差圖值的殘差圖y 91第第14章章 簡單線性迴歸簡單線性迴歸 第第541頁頁 標準化殘差標準化殘差大部分電腦軟體提供的殘差圖是使用標準化殘差。我們在前幾章談過,可以將隨機變數減去平均數再除以其標準差,即將隨機變數標準化。運用最小平方法,殘差的平均值是 0。因此,只要將每個殘差除以其標準差就可得到標準化殘差標準化殘差(standardized residual)。92第第14章章 簡單線性迴歸簡單線性迴歸 第第541頁頁 第 i 個殘差的標準差其中第 i 個觀察值的標準化殘差標準化殘差標準化殘差 s=估計值的標準誤iiihssyy1個殘差的標準值第 isiyiy22)()(1xxxxnhiiii
45、iyyiisyy93第第14章章 簡單線性迴歸簡單線性迴歸 第第541-542頁頁 標準化殘差標準化殘差94第第14章章 簡單線性迴歸簡單線性迴歸 第第542頁頁 標準化殘差標準化殘差95第第14章章 簡單線性迴歸簡單線性迴歸 第第543頁頁 常態機率圖常態機率圖另一個決定誤差項是常態分配的假設是否有效的方法為常態機率圖常態機率圖(normal probability plot)。為了說明如何繪製常態機率圖,我們先介紹常態分數(normal scores)的概念。假定我們由平均數 0、標準差 1 的常態機率分配中隨機抽取 10 個值,並將 10 個數由小到大排列,而且抽樣過程不斷重複。我們現在
46、只考慮每組樣本中的最小值。表示重複抽樣過程中每組樣本的最小值的隨機變數稱一階統計量(first-order statistic)。96第第14章章 簡單線性迴歸簡單線性迴歸 第第543頁頁 常態機率圖常態機率圖統計學家已證明,對於來自標準常態機率分配,樣本大小為 10 的隨機樣本而言,一階統計量的期望值是1.55。這個期望值稱為常態分數。如果樣本大小為 10,就有 10 階的統計量,以及 10 個常態分數(見表 14.9)。一般而言,如果資料集有 n 個觀察值,就有 n 階統計量及 n 個常態分數。97第第14章章 簡單線性迴歸簡單線性迴歸 第第543頁頁 常態機率圖實例常態機率圖實例 我們現
47、在要說明,如何用 10 個常態分數來決定亞曼披薩屋的標準化殘差是否來自標準常態機率分配。先將表 14.8 的 10 個標準化殘差排序,並將排序後的標準化殘差及常態分數都列於表 14.10。若常態分配的假設成立,最小的標準化殘差應該很接近最小的常態分數,次小的標準化殘差應該很接近次小的常態分數,依此類推。若以常態分數為橫軸,對應的標準化殘差為縱軸,在圖上以點表示,如果標準的亞曼披薩屋之常態分數及排序後標準化殘差趨近常態分配時,資料點應聚集在通過原點呈 45 度的直線附近。此圖形排序後稱為常態機率圖(normal probability plot)。98第第14章章 簡單線性迴歸簡單線性迴歸 第第
48、543頁頁 常態機率圖實例常態機率圖實例99第第14章章 簡單線性迴歸簡單線性迴歸 第第543頁頁 常態機率圖實例常態機率圖實例圖 14.14 是亞曼披薩屋的常態機率圖。我們要判斷圖形與 45 度線的偏差,是否足以讓我們認為標準化殘差不是來自標準常態機率分配。圖 14.14 的點十分靠近 45 度線,因此我們的結論是誤差項呈常態分配的假設是合理的。通常,點愈靠近 45 度線,支持常態分配假設的證據就愈強。任何常態機率圖若呈現相當程度的彎曲,即為殘差項不是常態分配的證據。利用 Minitab 之類的統計軟體可以輕易得到常態分數與對應的常態機率圖。100第第14章章 簡單線性迴歸簡單線性迴歸 第第
49、543-544頁頁 常態機率圖實例常態機率圖實例101第第14章章 簡單線性迴歸簡單線性迴歸 第第544頁頁 評註評註1.我們用殘差及常態機率圖來驗證迴歸模型的假設是否成立。如果檢驗的結果顯示,有一個或更多的假設是有問題的,就應該考慮使用另一個迴歸模型或者將資料的形式進行轉換。迴歸模型的假設不成立時,該採取何種修正行動,需要分析人員的良好判斷,經驗豐富的統計人員的建議是很有價值的。2.殘差分析係統計學者用以驗證迴歸模型之假設是否成立的最主要方法。即使在不違反任何假設之情形下,亦不意謂此模型就能做出良好的預測。不過,假如還有統計檢定能支持顯著關係存在的結論且判定係數很大,則可藉由此估計迴歸方程式
50、做出良好的估計與預測。102第第14章章 簡單線性迴歸簡單線性迴歸 第第544頁頁 14.9 殘差分析:離群值及具影響力殘差分析:離群值及具影響力 的觀察值的觀察值偵測離群值 偵測具影響力的觀察值103第第14章章 簡單線性迴歸簡單線性迴歸 第第546-548頁頁 偵測離群值偵測離群值圖 14.15 是有一個離群值離群值(outlier)的資料集的散布圖。所謂離群值是指不符合其餘資料所表現的趨勢之資料點(觀察值)。離群值代表值得懷疑或須經仔細檢查的觀察值。它可能是錯誤的資料,若是如此,此資料應被更正。它們也可能意味著模型的假設不成立;若是如此,則應考慮其他模型。最後,它們也可能僅是偶爾發生的不