1、4.Probability Theory&Probability Distribution2n樣本點n隨機實驗的每個可能的結果n樣本空間n隨機實驗中所有可能的的樣本點的集合n事件 Eventn樣本空間的部份集合n可以是空集合,也可以等於樣本空間3n聯合事件Joint Event n交集Intersectionn事件A與事件B的交集,指事件A與事件B同時發生的事件,以 AB表示n聯集Unionn事件A與事件B的聯集,指事件A及事件B任一或二發生的事件,以 AB 表示n補集Complementn事件A的補集,指事件A沒有發生,以AC 或表示4n以陰影部份表示事件 AB AB AC5n古典機率理論n
2、頻率機率理論n主觀機率理論n機率的公理6n古典機率理論又稱為先驗機率理論n假定有N種互斥且出現機率相等的樣本點,若定義事件A包括了nA個樣本點,則事件A發生的機率為P(A)=nA/N7n又稱為相對次數理論n指在長期重複的隨機實驗中,某事件出現的機率為該事件出現的次數除以實驗總次數n機率乃是長期實驗的結果,因此又稱為後天機率nmAP)(8n事件發生的機率乃是反映人們對此事件的相信程度n針對一些尚未發生又無法以客觀機率表示的事件9n機率附合以下三公理1.任一事件A發生的機率為實數,且 0 P(A)12.若S為樣本空間,則 P(S)=13.設A1,A2,Ak為互斥事件,則P(A1A2Ak)=P(A1
3、)+P(A2)+P(Ak)10n已知A事件發生的情形下,B事件發生的機率nP(B|A)n乘法原則Multiplicative rule of probabilitynP(AB)=P(A)P(B|A)=P(B)P(A|B)n若已知 P(A)0,P(B|A)=P(AB)/P(A)n若已知 P(B)0,P(A|B)=P(AB)/P(B)11n獨立事件是指一事件發生的機率不受其他事件發生與否的影響n若A與B兩事件符合下列任一條件,則A與B互為獨立nP(A|B)=P(A)nP(B|A)=P(B)nP(AB)=P(A)P(B)12n以新獲得的資訊修正事前機率,而得到事後機率的方法。13n掌上癌細胞檢測儀
4、20分鐘驗出是否罹癌n檢測五十八個用針孔穿刺取下的細胞樣本,病理診斷確認出十五例癌細胞,而掌上癌細胞檢測儀總共挑出包含確認病例在內的廿個可疑細胞n假設58個重覆實驗可稱為 以滿足頻率機率理論的要求n問1:已知一被檢者細胞被掌上癌細胞檢測儀列為可疑,請問該被檢者真患有癌症的機率為?(predictive value)n假設病理診斷為真14nP(檢測發現可疑 有癌症)=15/58nP(檢測發現可疑)=20/58nP(有癌症|檢測發現可疑)=P(檢測發現可疑有癌症)/P(檢測發現可疑)=15/20=75%n問2:已知一被檢者並無癌症,請問該被檢者細胞被掌上癌細胞檢測儀列為可疑的機率為?15nP(te
5、st+|No cancer)=P(test+No cancer)/P(No cancer)=5/43=0.1163Frequency countCancerNo Cancer加總Test+15520Test-03838加總15435816nA:True PositivenB:False PositivenC:False NegativenD:True NegativeDiseaseYesNoDiagnosis+AB-CD17Frequency countsD+D-T+70186385186455T-13813532813545839999171000000nSensitivity 敏感性P(T
6、+|D+)=70/83=0.8434nSpecificity 特異性P(T-|D-)=813532/999917=0.8136nPositive Predictive value,PPVP(D+|T+)=70/186455=0.000375nNegative Predictive value,NPVP(D-|T-)=813532/813545=0.99998D+:有病D-:沒病T+:檢測異常T-:檢測無異常18n事前機率Prior probabilitynP(D+)n事後機率Posterior probabilitynP(D+|T+)19n其變數的發生是隨機的(服從某一機率)n也就是說,此變數
7、值是無法事先確定的n但在大量的資料中,其發生的形態會呈現某一規則20n間斷隨機變數的各個變亮的發生機率的分布情形n美國兒童的出生排行21nBernoulli distribution 伯努利分布n二分隨機變數nMutually exclusive and exhaustiven通常用”成功”與”失敗”,或 0 and 1來分類n例:設 Y為一隨機變數以表示一成年人的吸菸狀態,Y=1 表示一成人目前為菸民,Y=0表示目前非菸民n臺灣(2004):P(Y=1)=0.24nP(Y=0)=1-0.24=0.76nYBern(0.24):Y 為服從伯努利分布的隨機變數p=0.24Source:http:
8、/tobacco.bhp.doh.gov.tw:8080/doc/94statistics.xls22n實驗中包含n次的伯努利試行n每一次試行是獨立的n每次試行中的p(成功機率)是相同的n此分布之隨機變數定義為n次試行中的成功次數nn為一時,即為伯努利分布23n二項式分布的平均數Bin(n,p)is npn二項式分布的變異數Bin(n,p)is np(1-p)n標準差)1(pnp24n二項式機率分布n組合Combinationn 階乘:n!=n(n-1)(n-2)(3)(2)(1)n0!=1xnxxnxppxnppxnxnxXP)1()1()!(!)()!(!xnxnxn25n在一定的連續時間
9、或空間中,某些事件發生的可能性是彼此獨立的n事件發生次數的期望值與區間大小成正比n若將區間切割至極小時,在此極小的區間中事件只發生一次或是不發生n若隨機變數X是指在上述的情形下某一連續區間內的事件發生次數,此變數便服從卜瓦松分布n當事件發生的機率極小,區間極多時,二項式分布會趨近卜瓦松分布26n卜瓦松分布的參數以(lambda)表示nXPoi()n設 XBin(10000,0.00024)在一萬人口中每年有多少人發生過交通意外n趨近:XPoi(10000*0.00024)=Poi(2.4)!)(xexXPx27261.0!2)4.2()2(24.2eXP209.0!3)4.2()3(34.2e
10、XP125.0!4)4.2()4(44.2eXP091.0!0)4.2()0(04.2eXP218.0!1)4.2()1(14.2eXP096.0)125.0209.0261.0218.0091.0(1)5(1)5(XPXP28n卜瓦松分布的平均數,Poi()is n卜瓦松分布的變異數,Poi()is n標準差 29n由於連續隨機變數可以在無限多的值中發生,因此n任何特定值的機率為0n在 x1 與x2 之間的機率等於其曲線在此兩個數值中的面積30n常態分布是一個對稱,單峰及鐘型的曲線。n社會及自然界的現象以常態分配最為普遍,因此是推論統計的基本模式n大樣本推論統計的基礎n間斷機率分布在某些條件下可以利用常態分布求近似值31n(mu)平均數,決定常態分布的位置。2(sigma square)變異數,決定常態分布的分散程度。n令 XNormal(,2)-x 2)(2121)(xexf32n標準常態分布n在=0 及 2=1的情形下,此常態分布稱為標準常態分布n標準常態分布通常以 Z 表示ZNorm(0,1)n將任一數值減去平均數後再除以標準差的過程叫做標準化2)(2121)(zezf33