1、第七章第七章抽樣與抽樣分配機率抽樣機率抽樣之定義:在完整定義的母體中,每一個個體都有一個不為零的中選機會。非機率抽樣:凡不屬於這個定義的範圍抽樣分配抽樣分配樣本統計量為隨機樣本的樣本統計量為隨機樣本的函數,而隨機樣本是由函數,而隨機樣本是由n n個個隨機變數隨機變數 所所組成的,故樣本統計量亦組成的,故樣本統計量亦為一隨機變數,其機率分為一隨機變數,其機率分配稱為抽樣分配。配稱為抽樣分配。),(21nXXX抽樣誤差抽樣誤差抽樣誤差是樣本統計量與相對應的母體參數間的差異。此種差異來自抽樣過程的機遇(chance),抽樣方法及推論方法的不同。非抽樣誤差非抽樣誤差非抽樣誤差主要來自調查時的執行與事後
2、在記錄、整理資料時所發生的錯誤。常見的非抽樣誤差常見的非抽樣誤差-Kish(1965),Cochran(1977),韋端(1990)偶遇樣本偶遇樣本(Haphazard Sample)or 便利抽樣便利抽樣(Convenient Sample):即即碰到誰就選誰碰到誰就選誰,研究者並不研究者並不在乎調查對象是否有代表性在乎調查對象是否有代表性.立意選樣立意選樣(Purposive Sampling)or 判斷抽樣判斷抽樣(Judgment Sampling):經由專家主觀判斷經由專家主觀判斷,立意選立意選定研究者認為定研究者認為 有代表性有代表性 的樣本來觀察的樣本來觀察.樣本無法確認具代表性
3、樣本無法確認具代表性-是否為專家是否為專家?自願樣本自願樣本(Volunteer Subjects):聽任自動送上門聽任自動送上門來的人組成樣本群來的人組成樣本群.無量的代表性無量的代表性,但有質的代表性但有質的代表性 配額選樣(quota sampling):一母體的人口特徵按比例分配樣本數,在配額之內進行非機率抽樣,調查對象依照特徵分類,根據各類別的百分比每類立意選樣至而滿為止.雪球抽樣(snowballed sample)先找到原始受訪者,然後再從受訪者所提供的資訊找到其他受訪者.隨機數表隨機數表1234567891016824 7709 3937 3289 9545 0620 3904
4、 5203 6590 876920237 7574 8607 1502 4776 0944 4946 1519 4834 281031336 8960 2192 7132 9267 4262 6070 7664 7690 387346840 3016 3991 8582 1813 0012 3781 8635 0286 393255577 7452 9477 7942 7328 0822 7876 6379 9014 684563495 3500 9497 8688 7764 0017 1221 5816 8840 857375163 5127 5955 7826 0982 3563 7783
5、 1575 7738 914683746 5767 5137 3846 9113 3394 5172 3745 2574 527590596 6736 4273 7665 8229 6933 6510 0093 4091 4567106553 4267 4071 3532 0593 3874 5368 5295 6303 2629抽樣的結果抽樣的結果:用來估計母體的某些特徵值Ex:輪胎公司製造新的輪胎,實驗抽出120個測式結 果=36,500哩,用來當作新輪胎的哩程壽命機率性的抽樣方法,可用評估方法來評量其優良度簡單隨機抽樣分層抽樣叢式抽樣系統抽樣便利抽樣判斷抽樣抽樣方法簡單隨機抽樣:抽取程序
6、完全視母體大小為有限或無限有限母體有限母體從N中,抽出一樣本n的簡單隨機樣本,其 抽取方法必須滿足在n中,每一樣本被抽出機率皆相同。Ex:利用“標籤”從2500主管中,抽出30個樣本,另可用 “隨機數表”。N:n利用隨機數表抽取樣本6 3 2 7 1 5 9 9 8 6每個數字6,3,2,7,1,都由09隨機選取,具有相同發生的機率,五個字一組是為方便查詢與閱讀。Ex:資料名單、組織成員名冊、學生註冊名單、信用卡帳戶 、存貨數目隨機抽樣隨機抽樣無限母體:無限母體:元素無法進行編號,必從滿足 1.每個元素皆抽自相同母體 2.每個元素皆可獨立抽出 (ex:顧客抽出特優待卷,不會影響)Ex:持續不斷
7、的程序:車流量、可能達成的顧客人數、銀行交易、CD製造。分層分層抽樣方法抽樣方法比例比例抽樣抽樣第一層第一層第二層第二層第層樣 本n1nkn2分層隨機抽樣分層隨機抽樣 母體先被區隔成數群,相性質放在一層中,即層內元素相異性較低。母體資料層1資料層2資料層N 再抽出一元素來代表若層內同質性高,則層內變異減少,只要“少量”的抽樣即可代表整層的性質分層隨機抽樣的優點:層內的資料一致而集中,標準差越小,則抽樣誤差也越小.Ex:以台灣地區民眾為調查母體的抽樣設計,常見分層依據 台北市、高雄市、台灣省5個省轄市各為一層.從抽樣的理論來看,能有效降低推論的誤差.以推論次母體(各縣市或公私立學校)可使抽樣調查
8、目的易於達成.有關工商業界或各行各業的抽樣調查更需要分層.集群抽樣法集群抽樣法第一第一部落部落 母 體第第部落部落第二第二部落 樣樣 本本隨隨 機機 抽抽 取取叢式抽樣叢式抽樣 一叢體內的元素都是相異性質,所以一叢體都可代表整個母體。Ex:地區抽樣:將地理區分成n個叢體,訪問者可在同一地區訪問,成本降低,時間減少。(利用增加樣本來補其缺失)母體叢體1叢體2叢體N 直接隨機抽出一叢體系統抽樣法系統抽樣法 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18.k(k+1)(k+2).N樣 本母 體18612系統抽樣系統抽樣(等距抽樣等距抽樣)先把全體總數N除以樣
9、本數,得到K,即每間隔K個抽一個.Ex:從5000個元素的母體中,抽出50個樣本以100為單位 先從第一個100元素中,隨機抽出一元素,再從另一個100個元素中,抽出第二個元素。比簡單隨機抽機容易,不必對照隨機數表等距抽樣的中選樣本不但可以自動反應母體代表性,亦可降低抽樣誤差.在大部分母體清冊都電腦化後,等距抽樣成為主流趨勢.等距抽樣的優點:快速方便,所以用的多.不需要N與k.Ex:以百貨公司顧客、汽車乘客或球場觀眾為對象,若決定每30人抽一人,即能馬上進行而不必事先知道全體有多少人?或樣本要多少等.等距抽樣的缺點:最怕遇到週期性資料,若此週期和K成比例,則樣本會死守規則,完全失去代表性.Ex
10、:每7天查一次帳,結果永遠查到一星期內的同一天,後果必然不堪設想.分段分段抽樣法抽樣法樣本 母 體部落抽樣或分層抽樣部落抽樣或分層抽樣便利抽樣便利抽樣非機率性的抽樣方法,其樣本隨其抽樣的方便而決定。判斷抽樣判斷抽樣非機率性的抽樣方法,其樣本隨測試者的判斷而定。可用來計算與的距離,因為扮演著 (errors)誤差角色,且被視為平均的標準差。中央極限定理:中央極限定理:有平均數和標準差之母體抽出樣本大小為n的簡單隨機樣本,當樣本大小n夠大時,的抽樣分配將趨近常態分配。n30,的抽樣分配趨近常態分配。當母體是常態分配,則不管樣本的個數,其 的抽樣分配亦是常態分配。母體分配母體分配:母體資料的機率分配
11、。母體資料的機率分配。樣分平均數的抽樣分配樣分平均數的抽樣分配,其機率分配為設母體為隨機變數)(xfX個元素為一組取若自母體中簡單隨機抽nniinnXXXXX121,),,若令樣本,表為(,分配表為為樣本平均數。其機率則)(xfX分配。稱為樣本平均數的抽樣隨機變數:一個試驗結果的數值化描述,以抽樣的過程當成試驗,為此一試驗結果的數值化。樣本平均數是一隨機變數。利用樣本平均數來推估母體平均是常見的統計方法在重覆這樣的過程,可以得不同的,而所有可能的所現成的機率分配稱的抽樣分配。母體?用推算?用樣本資料計算樣本平均數從母體抽取n個簡單隨機樣本樣本平均數的平均數與變異數樣本平均數的平均數與變異數的平
12、均數與變異數X異數抽樣分配的平均數與變X的平均數與變異數。以稱為X分或及或符號)()(XVXEXX別表示。的期望值:()=母體平均數的標準差:有限母體 無限母體N-nN-1 n()n有限母體校正因數當母體有限,且0.05nN當母體無限或 0.05nN樣本樣本比例的比例的抽樣抽樣分配分配大樣本小樣本母體無限 母體有限母體無限 母體有限 母體為一點二項分配E Xp()V Xpq()(,)pN ppqnp(,ppqnN-1N-n)(,pN ppqnN-1N-n)p(,)ppqn 超幾何分配二項分配p,nq5n5 的抽樣的抽樣分配分配樣本樣本 母體分配母體分配 抽樣分配抽樣分配 大樣本)30(n 母體
13、為常態分配 XNn(,)2 母體非常態分配 XNn(,)2 小樣本)30(n 母體為常態分配 XNn(,)2 母體非常態分配 的分配決定於母體分配X 註:若母體為有限母體,且nN 005.,則V XnNnN()21。若母體為有限母體,且nN/.005,則X不一定為常態分配,因(,)XXn1不獨立。X母體為常態分配但變異數未知母體為常態分配但變異數未知t分配分配(小樣本)小樣本)自常態母體自常態母體XN隨機抽取樣隨機抽取樣本,則統計量本,則統計量為自由度為自由度n-1的的t分配。分配。2),(2),(21nXXXnSXt/Ex:假設 df=9,求k值 p(-kt0.05時,加上校正因子無限母體當
14、 0.05時,即母體夠大而樣本夠小時,有無校正因子並無太大差別NnNn樣本比例樣本比例()的抽樣型態的抽樣型態 若樣本夠大,則的抽樣分配趨近常態機率分配。即當np5,n(1-p)5時,樣本數可認定足夠形成大樣本。圖圖8.1 8.1 等待等待看牙看牙時間時間(母體母體)00.050.10.150.20.250.30.350.4候診時間相對次數0102030405060 x圖圖8.2 8.2 等待等待看牙看牙時間時間(樣本樣本1)1)圖圖8.3 8.3 等待等待看牙看牙時間時間(樣本樣本2)2)00.050.10.150.20.250.30.350.4候診時間相對次數010203040506000
15、.050.10.150.20.250.30.350.4候診時間相對次數0102030405060估計誤差估計誤差估計誤差樣本統計量母體參數抽樣誤差樣本數推論方法抽樣方法資料整理時的疏失非抽樣誤差資料搜集資料搜集成本與抽樣成本與抽樣誤差的關係誤差的關係妓计程 p程続妓计E0籤栋妓 妓粇畉 妓羆()展示展示小姐的小姐的月薪月薪的次數的次數分配分配xf221252281301N 5展示展示小姐小姐月薪月薪的的母體母體機率機率分配分配xf x()221 502/.252 504/.281 502/.301 502/.f x()1展示展示小姐小姐月薪月薪的的母體母體機率機率分配分配00.10.20.30
16、.40.522252830 x26;27.6f(x)/樣本樣本平均數平均數的抽樣的抽樣分配分配:抽樣母體N1=n=nnn2=CSSS2Cn所有可能樣本所有樣本平均數:1nxx:1nxx:1nxxxxxxxx樣本樣本平均數平均數的機率的機率分配分配x f x()x1 1/CnN x2 1/CnN xCnN 1/CnN X的平均數與變異數 E X V X(),()展示接待展示接待小姐小姐月薪月薪的抽樣的抽樣母 體A=22 B=25C=25D=28E=30(ABC)(ABD)(ABE)(ACD)(ACE)(ADE)(BCD)(BCE)(BDE)(CDE)樣本空間定義:樣本組的平均數3XX12X3XX
17、展示展示小姐小姐月薪月薪的樣本的樣本平均數平均數樣本樣本樣本平均數樣本平均數x()(,)ABC 22 25 2524.00()(,)ABD 22 252825.00()(,)ABE 22 25 3025.67()(,)ACD 22 25 2825.00()(,)ACE 22 25 3025.67()(,)ADE 22 28 3026.67()(,)BCD 25 25 2826.00()(,)BCE 25 25 3026.67()(,)BDE 25 28 3027.67()(,)CDE 25 28 3027.67展示展示小姐的小姐的月薪月薪的抽樣的抽樣分配分配xf x()24.001 10010
18、/.25.002 10020/.25.672 10020/.26.001 10010/.26.672 10020/.27.672 10020/.f x().100展示展示小姐的小姐的月薪月薪抽樣抽樣分配分配圖圖00.10.20.324.0025.0025.6726.0026.6727.67x 26;2 1.373f(x)xx_/抽樣誤差:抽樣誤差:不管、,-為抽樣誤差0.78880.503651300 51800 52300n=30,730.30n=100下,400當樣本數增加,標準誤差減少,的抽樣分配將有較低的變異,使得樣本平均數落於母體平均數之特定範圍內之機率增加。樣本比例:樣本比例:(N
19、:母體個數,k:母體中,某個類別的個數)樣本比例的抽樣分配:樣本比例的抽樣分配:所有樣本比例值的機率分配E=()=即隨機變數的期望值=母體比例ii=1nn估計誤差估計誤差2624.66 妓 粇 畉獶 妓粇畉25 中央極限定理中央極限定理母體分配母體分配 母體分配母體分配xx中央極限定理中央極限定理(續)(續)抽樣抽樣分配分配 抽樣抽樣分配分配n=5xn=5xn=10 xn=10 x中央極限定理中央極限定理(續)(續)抽樣抽樣分配分配 抽樣抽樣分配分配n=30 xn=30 xn=50 xn=50 x.u營業額營業額的抽樣的抽樣分配分配P0zxf x()18,00026,0000房屋價格房屋價格的機率的機率0f x()機率0 xx900z850-6.58點點二項分配二項分配00.20.40.60.810 xf x()1贊成興建巨蛋球場比例的贊成興建巨蛋球場比例的機率機率P=0.11511.2z0 pf p()5.20.50.6.p 0 47