1、1統計思考(Statistical Thinking)Statistics is the science of learning from data(資料,數據)Data are numbers,but they are not“just numbers”資料(data)+說明(context)=資訊(information)例:50(just a number)50公斤是可接受的體重50分則是不及格的分數統計是將資料(數據)適當處理後,彙整成資訊的過程2Always Look at the Data一般認知未必為真真實資料才能提供正確的資訊某年美國黑人 vs.美國白人 之比例 白人 認為 2
2、3.8%vs.49.9%(average)人口調查局(Census Bureau):11.8%vs.74%交通大學的總學生數3資料勝過軼聞Data Beat Anecdotes軼聞(anecdotes)是令人印象深刻的事件,多為特例,可能產生誤導。研究資料才能提供正確的結論電纜線與白血病的案例傳聞:聽說電纜線產生的電磁場會引發白血病研究:五百萬美元經費歷經五年的研究顯示暴露在電纜線產生的電磁場與白血病沒有關聯E.W.Campion,“Editorial:power lines,cancer and fear,”New England Journal of Medicine,337,No.1(1
3、997).軼事,趣聞4留意隱藏變數Beware the Lurking Variable表面的資料未必可信比較兩航空公司的班機延誤率:America West 似乎較佳5留意隱藏變數(續)考慮隱藏變數:班機起飛城市 Alaska Airlines America West On Time Delayed On Time Delayed Los Angeles 497 62 694 117 Phoenix 221 12 4840 415 San Diego 212 20 383 65 San Francisco 503 102 320 129 Seattle 1841 305 201 61 To
4、tal 3274 501 6438 787 6留意隱藏變數(續二)每一個班機起飛城市的班機延誤率都是Alaska Airlines 較低7留意隱藏變數(續三)Hint:The hub of Alaska Airlines is in Seattle and the hub of America West is in Phoenix.資料來源A.Barnett,“How numbers can trick you,”Technology Review,October 1994,Department of Transportation.Simpsons paradox辛普森悖論(Simpsons
5、Paradox)u當研究兩個變數之間的關聯性,有可能存在一個隱藏隱藏變變數數(lurking variable),而當隱藏變數被考慮時,兩個變數之間的關聯性方向剛好與隱藏變數沒有被考慮時相反相反u隱藏變數會將樣本分成子群,當沒有考慮到這個有不同群組的因素時,可能會對兩個變量之關聯性得到錯誤的結論考慮以下兩組男性和女性申請大學的錄取率countsAcceptedNotacceptedTotalMen198162360Women88112200Total286274560percentsAcceptedNotacceptedMen55%45%Women44%56%男性男性被接受的比例較高:歧視?歧
6、視?(Simpsons Paradox)歧視?(Simpsons Paradox)分開成申請商學院和藝術學院之人數商學院商學院countsAcceptedNotacceptedTotalMen18102120Women2496120Total42198240percentsAcceptedNotacceptedMen15%85%Women20%80%在商學院有較高比例的女女性性被接受。歧視?(Simpsons Paradox)藝術學院藝術學院countsAcceptedNotacceptedTotalMen18060240Women641680Total24476320percentsAcce
7、ptedNotacceptedMen75%25%Women80%20%在藝術學院亦有較高比例的女女性性被接受。歧視?(Simpsons Paradox)u因此,各學院內相對於男性有較高比例的女性被接受。沒有任何對女性的歧視!u這是辛普森悖論的一個例子。當潛潛藏藏變變數數(申請學院:商學院或藝術學院)被忽略時的數據似乎顯示出對女性的歧視。然而,當學院因奇被考慮進來時,關聯性是相反相反的,而且反過來顯示存在對男性的歧視。13小心隱藏的變數13範例:冥想和老化(Noetic Sciences Review,Summer 1993,p.28)解釋變數:是否有作冥想的練習(yes/no)反應變數:與年齡
8、有關的某酵素之測量值一個人若很注意自己的健康也可能會影響此反應變數之結果同時,也可能會想嘗試冥想14資料來源很重要Where the Data Come from Matters專欄作家安蘭德斯(Ann Landers)以“如果可以重新再來,你是否還要孩子?”調查其讀者的意見得到一個聳動的結論:70%的父母認為有小孩不值得(約一萬封回信)另一問卷調查給所有父母有相同表達機會,結果顯示:91%的父母認為有小孩很值得15資料來源很重要(續)Ms.Landers 的讀者多為親子關係有問題的父母,調查結果自然偏頗網路調查、街頭訪問也有類似的情形16Variation is Everywhere變異處處
9、可見資料不可能一成不變個體變異(如身高體重)量測誤差統計幫助我們處理變異(variation)17結論的不確定性(Conclusions are not certain)乳房X光攝影(mammograms)是否可以降低乳癌死亡的風險?由13個 臨床試驗資料顯示,乳房攝影可以使5064歲女性死於乳癌的風險降低26%風險降低率之95%信賴區間(confidence interval)為17%34%H.C.Cox,“Editorial:benefit and harm associated with screening for breast cancer,”New England Journal o
10、f Medicine,338,No.16(1998)Statistics gives us a language for talking about uncertainty that is used and understood by statistically literate people everywhere.18在大部分的時候,讓我們陷入困境的,並非我們不知道的事物,而是我們認為不會讓我們陷入困境的事物。華德(Artemus Ward,美國幽默作家)19統計數字會撒謊統計數字會撒謊大仲馬的作品多曲折感人,而大仲馬又多私生子,所以,取笑譏諷他的人,往往把他的作品比作他的私生子。最使他頭痛
11、的是巴黎統計學會的秘書長李昂納,這人是大仲馬的朋友,每次舉統計數字的例子,總是說大仲馬的情婦和私生子有多少。有一年該統計學會開年會,大仲馬估計,李昂納又要大放厥詞,說他的壞話了。於是他請求參加年會,獲得了批准。果然不出大仲馬所料,李昂納又舉他的情婦和私生子的例子。李昂納報告完畢,請大仲馬致詞,一向不願在大庭廣眾之下發表演講的大仲馬,這次卻破例登臺說:“所有統計數字都是撒謊的,包括有關本人的數字在內。”聽眾哄堂大笑。(網路笑話大全網路笑話大全)20統計數字統計數字 vs.謊言世界上有三種謊言,就是謊言,天大的謊言,與統計數字統計數字There are three kinds of lies:li
12、es,damned lies,and statistics.-Benjamin Disraeli(18041881,英國首相,議員,保守黨政治家和文學人物)21是誰在讓數字說話?為什麼很多人會被統計數字騙了呢?有數據支持的論點,大家通常容易相信但讓數字說話的是人說實話?說謊話?故意操弄數據?還是只是對數據處理不當?統計,在一個重視事實的文化中非常有用,但也有人利用它作為惡意誇大或簡化、甚至隱藏或曲解事實以達到其特定目的之工具水能載舟也能覆舟22統計是必備知能現今,在報告社會經濟趨勢、商業狀況、民意調查和普查的數據時,統計方法或者統計術語是不可少的。但如果作者不能正確理解並恰當地使用這些統計語言
13、,而讀者又並不能真正了解這些術語的涵義,那麼,所敘述的統計結果對讀者毫無意義。“終有一天,統計思考會像閱讀與寫作能力一樣,成為公民不可不具備的能力。”(原文:“Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write.”)威爾斯(H.G.Wells,18661946,英國著名科幻小說家)23HOW TO LIE WITH STATISTICS別讓統計數字馬扁了你【別讓統計數字騙了你】Darrell Huff著(1954)、鄭惟厚譯(20
14、05)天下文化出版 2425學習目標了解統計能如何騙人的招術壞蛋們早就會了,為了自衛,老實人也必須學會26.有內建偏差的樣本著名範例:美國總統選舉民調(FDR Poll)1936年Franklin D.Roosevelt(FDR)vs.Alf Landon民調預測共和黨候選人Landon會大勝,結果 FDR大勝民調這麼不準嗎?統計沒用嗎?原因:採用電話調查雖然樣本數很大但有嚴重內建偏差(bias)只有有錢人才裝得起電話27有內建偏差的樣本1950年代在評論紐約的某篇報導時曾寫道:1924年畢業的耶魯大學畢業生,平均年薪為25111美元。PS.當時一般人的平均年收入低於10000美元這份報導有哪
15、些可能的誤導?28假設數字和抽樣上沒有任何造假數字的精確程度令人懷疑(多報 or 少報)樣本足以代表全體嗎?問卷設計的適確性?就算樣本夠大,問卷設計得宜,但受訪者常常會想要給一個讓訪問員喜歡的答案,訪問員也常挑選特定族群訪問有時我們也許得拐彎抹角用別的方法而非直接提問29面子問題曾有人挨家挨戶的訪問你家讀什麼雜誌?p結果顯示許多人喜歡高格調的,讀八卦雜誌的人卻不多,但這卻和出版商的數據差異甚大 有什麼替代的方法?30內建偏差之來源有代表性的樣本,是指把各種偏差來源都排除的樣本。電話民調有哪些可能的內建偏差?在火車站、大賣場做民調又可能忽略了哪些族群?若想知道大家平均每天刷幾次牙、洗幾次澡,抽樣
16、得到的數據會準確嗎?若否,高估或低估?31內建偏差之來源敏感性問題 面子、金 錢、道德規範、法令規範 etc.樣本涵蓋率不足問卷低回收率自發性回應32抽樣方法簡單隨機抽樣(simple random sampling)l由母體隨機抽樣而得l符合許多統計理論的假設l有些情況難以取得,或花費太高分層抽樣(stratified random sampling)l將母體依特性分成若干組(稱為層,層內同質性高),甴每層依比例隨機抽樣l民調、市場調查常用l有些情況層與層之間可能難以辨認,每一層的比例也難以拿捏 332.精心選擇的平均(Average)三個常用的中心(central tendency)測度平
17、均數(mean)中位數(median)眾數(mode)Average could mean any of them對稱 vs.偏斜分配051015200.000.050.100.15XY34騙子往往根據目的挑最有利的平均騙子往往根據目的挑最有利的平均Incomes:$9000$9000$9000$12,000$120,000$85,000$15,000Mean=$37,000 Median=$12,000 Mode=$9000 Each is a legitimate average but can serve conflicting purposes35平均數 vs.中位數p當機率分佈有嚴重
18、偏斜時(skewed),平均數會受到嚴重影響,像是所得這種數字就有嚴重右偏斜(right skewed)l例:假設你跟台灣首富是國小同班同學,那麼你們班的平均月收入可能高得嚇人。但是月收入的眾數可能卻只是25 K不到,這種時候中位數可能最具代表性。p對離群值,中位數比平均數來得穩健(robust)36用哪個平均?Person MoneyJohn 2Ann 3Bob 1Mary 10Sue 5Carol 2Ken 999Mean$146Median$3Mode$237點估計 vs.區間估計p對這些類型的點估計,要能了解它們有多少誤差p更好的方法是,利用區間估計來取代它們p信賴區間(Confide
19、nce Interval)p例:沙漠地區的日均溫可能看來舒適,但早晚温差卻很大p例:在 95%的信心水準下,25歲台灣人的平均月收入是 25k 3k38顯著水準和信賴水準統計推論(statistical inference)假設檢定(testing hypotheses)顯著水準(significance level)信賴區間(confidence interval)信賴水準(confidence level)例:醫院檢驗愛滋病,篩檢用的檢驗方法是 ELISA,此法使用顯著水準為千分之五之統計檢定來判定,亦即對任一次檢驗,產生HIV 假陽性(false positive)的機率不超過千分之五。
20、39平均平均(Average)當你見到一個平均,當你見到一個平均,除了要知道是那種平均除了要知道是那種平均外,外,還還要要搞清楚這是搞清楚這是哪些東西的平均哪些東西的平均!p例:美國某鋼鐵公司曾聲稱員工的平均週薪在1948年和1940年比較增加了107%,聽起來加薪了很多。但事實上是1948年的正職人數較多,工時也較長。p例:曾有份報紙寫道1949年一般美國家庭的收入是3100美元。但你最好別對這個數字太過認真,除非你了解這其中家庭的定義。403.隱藏起來的小數字某牙膏廣告聲稱它能減少23%的蛀牙,而且這些結果來自令人信任的XX實驗室。試用人數:12人經過科學驗證,硬幣擲出正面的機率是80%。
21、但是我只有丟10次某社區有450位孩童接種了小兒麻痺疫苗,680位沒有接種疫苗當作對照組。結果發現接種疫苗的孩童裡面一個小兒麻痺的病例都沒有。這足以說明疫苗對小兒麻痺有顯著性的效果嗎?對照組也一個小兒麻痺的病例都沒有4.在圖上作文章什麼是事實?“Many of the truths we hold onto depend on our point of view”Ben Kenobi,Star Wars 星際大戰4142看這張圖43與這張圖比較44或與這張圖比較45或更 fancy,用物件之圖案表示46這張圖有什麼問題?47另例:美國週薪為胖子國的兩倍48常犯的錯誤作圖法(故意還是懂?)49繪
22、圖者太遜還是故意欺騙?(原本42.5%的增長被畫成150%)50沒列的數字該列卻未列出的數字,常會遭人忽略,結果形同欺騙!穀物早餐外盒圖案51常用來看趨勢之線圖國民生產所得一年內增加10%在圖上作文章(縱軸切掉下面沒資料的部分)52p國民生產所得一年內大幅增加10%53在圖上作文章(再加上改變尺度)p國民生產所得一年內驚人地大幅增加10%54在圖上作文章(縱軸切掉中間的部分)55圖會說話挑想說的畫56想說學生入學率急速上升57想說學生入學率很低蕭條的,不景氣的58想說學生入學率很穩定59顏色也有涵意:明亮正面識字;讀寫能力60暗色系負面調色板;調色板上的顏料壓抑的;沈重的;煩悶的615.似相關
23、而非相關的數字p經過著名實驗室證實,某感冒藥秘方只要放14g在試管裡,就可以在11秒內殺死31108個細菌 這代表它治療感冒,快又有效?(感冒是病毒引起的)p為了瞭解種族歧視的情況是否有惡化,某人找了家信譽良好的民調公司對受訪者提問,問他們是否認為黑人找到工作的機會和白人一樣好。每隔一段時間重新調查,藉此了解種族歧視的問題是否變得更嚴重。(同情黑人者中有2/3說no;而歧視黑人者中有2/3說yes)p事情的真相常常不像表面上看到的那樣,民調結果尤其如此。62問題常常發生在看不見的地方有一個故事是這樣的:63After you plot your data,think!The statistic
24、ian Abraham Wald(1902-1950)invented some statistical methods that were military secrets during World War II.Here is one of his simpler ideas.Wald studied the location of enemy bullet holes in planes returning from combat.He plotted the locations on an outline of the plane.As data accumulated,most of
25、 the outline filled up.Put the armor in the few spots with no bullet holes,said Wald.Thats where bullet hits the plane that didnt make it back.64似相關而非相關的數字(續)一個很大樣本的知名醫師當中有 27%抽的是利喉牌香菸,比任何其他牌子都多。某型榨汁機宣稱自己能多榨出26%的果汁。某年美國因火車而死亡的人數是4712人,這是否代表坐火車非常危險?美西戰爭中海軍的死亡率是每千人中有9人,而在同時期紐約市的百姓中每千人有16人死亡。負責招募新兵的人就用
26、這些數字來證明加入海軍比不加入海軍還安全。65似相關而非相關的數字(續)在雜誌上有位讀者替A&P連鎖商店辯護,指出該商店的銷售淨利只有1.1%這麼低。並問:會有任何美國公民在每年投資的每1000元只賺10元的情況下,還擔心被社會大眾指控牟取暴利嗎?美國某新聞報導:1952年是美國醫學史上小兒麻痺最嚴重的一年,理由是因為該年的小兒麻痺病例創新高但原因其實是?666.錯誤因果結論p調查發現吸菸者的大學成績比不吸菸者差。一定是抽菸把腦袋變鈍了!p調查發現36歲小孩的腳越大,閱讀能力就越強。所以小孩的腦袋應該長在腳上!某樹林72%的烏鴉在松樹上築巢,因此可得結論為烏鴉喜歡在松樹上築巢。可是此樹林95%
27、都是松樹!676.錯誤因果結論p當存在很多種合理的解釋時,你並沒有權利去選一個你喜歡的解釋,然後堅持它是對的。p很多時候,兩者間沒有因果,甚至互為因果。也有很多時候,兩者間強烈的關係是由於另外一個因素。p另外,有人在做結論的時候,會把根據數據得到的關聯性延伸(外插)到數據的範圍外去,這是要特別小心的。68關聯性 vs.因果關係假設有人根據調查證明了以下事情:高中畢業生的收入比中輟生多,而每多讀一年大學,收入就更多一些。所以我們得到了結論:書讀得越多,錢就賺越多?研究發現,年長女性走路時兩腳掌之間的角度較大。所以外八造成了年長?還是年長造成了外八?都不是,真正的原因是:當年年長女性在成長年代被教
28、導走路要脚尖向外;而年輕女性則否69關聯性 vs.因果關係如果我們會讓統計以及一堆數字和小數點擾亂了因果關係,那也沒比迷信好到哪去。例:島國萬那杜的島民曾經深信身上長蝨子會讓身體更健康,這是因為他們幾世紀以來觀察發現,健康的人身上通常有蝨子,而感冒發燒的人則沒有。(Why?)707.如何對統計提出質疑問題一:誰說的問題二:他怎麼知道的問題三:漏了什麼問題四:是否有人改變了主題問題五:這有道理嗎71問題一:誰說的第一件該注意的事情,就是有沒有偏差存在。實驗室為了支持一項理論、自己的名聲、或者因為收了費而必須證明某件事?報紙是否以寫出動人故事為目標?要尋找蓄意的偏差,例如,做比較時,先用某一年做標
29、準,而另一項比較卻換了標準。不自覺的偏差更要注意,尤其在問卷或是民調。72問題一:誰說的(續)某作者在他的文章中提到:康乃爾大學研究了1500位擁有學士學位的典型中年人,其中的男性有93%已婚,而全體中年男性的已婚比例是83%。但是中年女性大學畢業生當中,只有65%已婚,而全體中年女性的已婚比例是88%。最後他下了結論:女性讀大學會妨礙結婚。雖然數據來自康大,但結論卻不是康大下的。然而人們卻很可能因為康大的名聲而在腦袋留下康乃爾大學說的錯誤印象。73問題二:他怎麼知道的樣本是否夠大?樣本如何獲得?樣本足以代表母體嗎?得到的結論有統計上的顯著性嗎?邏輯是否正確?74問題三:漏了什麼p有哪些數據被
30、寫得很小?或是被刻意忽略了?p做比較時的標準是否一致、公平?例:為了爭取加薪,一個勞工組織曾經指出,在經濟 大蕭條以後,利潤與產量的指數上升的比薪水指數快得多。但這只不過是因為利潤才剛到達低點,所以計算百分比時用的分母較小。例:曾有人公開過一些數字,指出該年四月份的營業額高過去年四月。而他略過的事實是:前一年的復活節落在三月,而該年卻落在四月。75問題四:是否有人改變了主題病例變多,不代表得這種病的人真的變多。例:近百年來,死於癌症的人數大增。數據如果根據人們說什麼而得來的,就會出現許許多多的怪事。例:英國的他比她更常洗澡。例:中國某個區域曾經在統計後得知人口數是兩千八百萬,五年後,數字變成一
31、億零五百萬。76問題五:這有道理嗎某個對社會保險條例修正案的聽證會上,有人指出:因為平均壽命差不多只有63歲,所以若要為65歲退休的人建立一套社會保險計畫,那根本就是騙局,因為幾乎每個人都還沒到65歲就死了。不加限制的外插法,常常會出現荒唐的結果。例:1947年到1952年,美國家庭的電視機數目增加了約10000%。把這樣的增長比例投射到接下去的五年裡,你會發現不久之後每個家庭有四十台電視。例:甴兒童的生長曲線用外插來推估30歲時的身高,則每個人都會是巨人。77總結總結Types of Lies 造成錯誤造成錯誤或誤導或誤導之原因之原因Intentional deceit 故意欺騙故意欺騙Se
32、lective data use 選擇性使用資料選擇性使用資料Extrapolation 外插外插Creative graphics 在在圖上作文章圖上作文章Faulty assumptions 所使用的統計方法之所使用的統計方法之假設假設不不成成立立Incompetence 統計統計能力太遜能力太遜害人之心不可有,防人之心不可無害人之心不可有,防人之心不可無建議大家要學防身術建議大家要學防身術,才有能力,才有能力自自衛衛78參考資料“How to Lie with Statistics”by Darrell Huff(1954).【別讓統計數字騙了你】Huff著、鄭惟厚譯(2005)、天下文化出版。“The Basic Practice of Statistics”(第五版)by David S.Moore(2010).Linda Tansils powerpoint on“How to Lie with Statistics as in the book by Darrell Huff”(2003)from internet79謝謝大家!