中级社会统计课件.ppt

上传人(卖家):晟晟文业 文档编号:5190572 上传时间:2023-02-16 格式:PPT 页数:69 大小:1.77MB
下载 相关 举报
中级社会统计课件.ppt_第1页
第1页 / 共69页
中级社会统计课件.ppt_第2页
第2页 / 共69页
中级社会统计课件.ppt_第3页
第3页 / 共69页
中级社会统计课件.ppt_第4页
第4页 / 共69页
中级社会统计课件.ppt_第5页
第5页 / 共69页
点击查看更多>>
资源描述

1、Ming-chi Chen社會統計Page.1中級社會統計第十五講二元依變項的迴歸分析:分對數模型(logit model or logistic model)OLS無法處理的變數 是否做慈善捐款?是否投票?家庭子女數 是否尋求民俗醫療?什麼國家會有民主體制 中國廣東省一年抗議事件發生次數 他們有的是二元依變項,回答有是/非兩種可能,有的則是從0到某個有限整數的次數。有的則是有順序的質性變數 統稱為受限的依變數Limited dependent variable,limdepMing-chi Chen社會統計Page.2Ming-chi Chen社會統計Page.3廣義線性模型GLM 我們之前

2、所討論的線性迴歸模型(linear regression model,就是我們用OLS來求解的迴歸模型)其實屬於一個更大的統計模型家族,這就是廣義線性模型generalized linear model,GLM 之前的線性迴歸模型方法只能處理連續的DV,而且有很多限制(homoscedasticity,殘差與IV不相關等)GLM則可以處理DV不符合變異數齊一性假設或變異數常態分配的連續變數、處理間斷性DV。這些DV有時候也被稱為類別categorical或受限limited依變項 可以參照鄭旭智等譯、J.Scott Long原著,類別與受限依變項的迴歸統計模式。(台北:弘智1997)底下的討論

3、主要基於Agresti的Statistical Methods for the Social Sciences,3rd ed.GLM的構成 g(x)=+1X1+2X2+kXk 所有的GLM都有三個部分 隨機部分random component:對DV做其機率分佈的假設,在線性迴歸模型中我們假設為常態分配。系統部分systematic component:自變項 連結函數link function:指定依變項Y的期望值(或稱均數)是如何可以線性地被自變項預測的函數。Ming-chi Chen社會統計Page.4隨機部分 指定依變項Y以及其機率分配 之前我們所討論的,包括ANOVA在內,都預設了

4、Y是連續變數 Y是一個常態分配,且具有相同的變異數。換句話說,ANOVA和一般線性模型都是有著常態隨機部分的概化線性模型GLMs with normal random component 除此之外,DV也可能是二元變數(成功/失敗):二項分配binomial,適合分對數logit模型來分析 DV也可能是一個次數count:波耳松分配Poisson distribution DV雖然是連續變數,但只能取正值,分配會右偏,而均數越大變異也越大,是一種gamma distributionMing-chi Chen社會統計Page.5系統部分 迴歸方程式等號右邊的部分+1X1+2X2+kXkMing-

5、chi Chen社會統計Page.6連結函數 指定=E(Y)是如何關連到自變數 g()=+1X1+2X2+kXk g()就是連結函數link function 最簡單的連結函數是g()=,這是一個identity link恆等連結=+1X1+2X2+kXk OLSMing-chi Chen社會統計Page.7常見的連結函數分佈分佈名稱名稱連結函數連結函數均值函數均值函數常態恆等 指數倒數 Gamma逆高斯二次倒數 卜瓦松自然對數 二項式 Logit 對數連結log link g()=ln()100=102=log10100=2 e3=20.056(e2.718)=ln20.056=3 在社會科

6、學裡,多半時候log其實就是指ln 在這個式子裡,不管g()為正或負,恆為正 這是一個對數連結log link,適用於次數DV 用log link的GLM往往被稱為loglinear modelMing-chi Chen社會統計Page.9分對數連結logit link 對於二元變數,我們往往指定連結函數g()=log(/1-)在介於0與1之間時適用 當DV為二元變數時,我們可以指定一個事件發生的機率為 這種迴歸模型稱為logit modelMing-chi Chen社會統計Page.10GLM與最大概似法 GLM在兩個面向上概化了OLS 隨機部分可以不是常態分配 可以針對依變項做特定的函數

7、OLS用最小平方法來估算迴歸係數,而GLM用一個不受常態分配假設限制的方法最大概似法maximum likelihood來估算 在SAS裡是用proc genmod這個指令 proc genmod y=x/dist=norm link=identity;在Stata裡是用glm這個指令 glm consum income,family(gamma)link(identity)Ming-chi Chen社會統計Page.11Ming-chi Chen社會統計Page.12收入與消費p.389在data editor裡自行輸入資料Ming-chi Chen社會統計Page.13收入與消費p.389

8、Stata沒有內建White test的功能,有的是另一個檢定Cook-Weisberg。一樣是要先run過迴歸分析。Ming-chi Chen社會統計Page.14White Test所以拒絕虛無假設,也等於說變異數不齊一。Ming-chi Chen社會統計Page.15看圖形判斷Ming-chi Chen社會統計Page.16看圖形判斷Ming-chi Chen社會統計Page.17看圖形判斷X越大殘差值越大Stata與Gamma GLMMing-chi Chen社會統計Page.18incomeconsum*612.081.23620Heteroscedasticity&Gamma GL

9、M 依變項y的標準差並非像常態分配預設一般維持不變,而會隨著均數增大而增大,根據圖形以及White test發現有Heteroscedasticity的問題。設依變項有著Gamma分配的特質 Gamma分配的特質 標準差和均數等比例增大縮小(均數倍增標準差也倍增)恆為正、右偏。卡方分配就是一種Gamma分配二元依變項 誰會做慈善捐款?誰去投票?誰會去尋求民俗醫療?什麼廠商西進大陸 什麼國家會有民主體制 誰移居到都市/外國?贊成婚前性行為 以上都是社會科學關心的問題,他們都是二元依變項。回答有是/非兩種可能Ming-chi Chen社會統計Page.20二元依變項的分析 依變項Y有兩種結果,用機

10、率的術語來說就是成功/失敗。也就是Y有1或0兩個可能值=E(Y)=P(y=1)表示成功的機率Ming-chi Chen社會統計Page.21二元依變項的分析 如何用迴歸方程式來預測成功的機率?用線性機率模型(linear probability model):=P(y=1)=+X?問題何在?在自變項X相當小時,機率 0;而在X很大的時候,1 但是機率不可能小於0或大於1 而且,自變項的機率分配是一個二項分配binomial distribution,用常態分配假設有其不適之處。怎麼辦?Ming-chi Chen社會統計Page.22線性機率模型Ming-chi Chen社會統計Page.231

11、0 xlinear勝算與羅吉斯轉換 可以把依變項做一些適當的轉換/(1-)稱為勝算odds,是賭徒常用的機率計算方式,就是成功/不成功的比。勝算介於0和之間。這樣的轉換只解決了一部份的問題 再把勝算取自然對數log/(1-),這個過程稱羅吉斯轉換logistic transformation又稱logit。這樣轉換之後,log/(1-)就會介於-和之間了(probit和complementary log-log轉換也有類似的效果)Ming-chi Chen社會統計Page.24Odds勝算 今天下午新竹降雨機率為74,折算成下雨的勝算為?Odds=0.74/(1-0.74)=2.846 新興民

12、主化國家在政權轉型後一年內發生軍事政變的機率為15,則發生政變的勝算為?Odds=0.15/(1-0.15)=0.176 勝算這個概念雖然沒有機率來得符合我們的直覺,但應該還不難理解。Ming-chi Chen社會統計Page.25Odds ratio勝算比 我們也常用勝算比(odds ratio)來表達兩個勝算之間的關係 今天下午新竹下雨的機率是74,而苗栗下雨的機率是65。新竹下雨的勝算是2.846,苗栗則是1.444 新竹和苗栗今天下午下雨的勝算比是2.846/1.444=1.971Ming-chi Chen社會統計Page.26Logistic Regression Model 當從0

13、增加到1時,odds從0增加到,而分對數logit則從-增加到。當=1/2時,odds=1,而logit=0 當1/2時,logit0 當1/2時,logit0Ming-chi Chen社會統計Page.27X1logLogistic Regression ModelMing-chi Chen社會統計Page.2810 xlinearLogistic,0Logistic,0,X變大,也變大 當0,X變大,變小|越大,logistic曲線越陡 但是在logistic regression model裡,這不是斜率的意思。Ming-chi Chen社會統計Page.29Logistic曲線的切線斜

14、率 斜率會隨著X不同而不同。如果=0.5,則勝算odds/(1-)=1 log/(1-)=0 0=+X X=-/當X=-/,=0.5Ming-chi Chen社會統計Page.30 (1-)是logistic曲線在特定值時的切線斜率 若自變項X預測得知=0.5則,在這個X值上切線的斜率是0.25 當=1/2時,切線斜率最大,logit=0,也就是當X=-/時。Stata與logit regression 用88q1的資料 我們想要瞭解什麼樣的人會捐錢幫助別人?在Stata裡依變項失敗(沒有捐錢)要以0來表示 gen donation=v54這是為了不動原資料方便轉換 Tab donation看

15、有無異常值 Recode donation(2=0)Ming-chi Chen社會統計Page.32Stata與logit regression gen h_inc=v47家戶月平均收入 用do檔來方便作轉換Ming-chi Chen社會統計Page.33Stata與logit regressionMing-chi Chen社會統計Page.34把這個do file個容易記得的地方和名字存起來。Stata與logit regressionMing-chi Chen社會統計Page.35找到你放do file的檔案夾執行。Stata與logit regressionMing-chi Chen社會

16、統計Page.36家戶月平均收入捐款機率捐款機率*0000055.08036.0-1log亦可用glm donation h_inc,family(binomial)link(logit)State與線性機率模型 前面的係數太小,因為收入是以元為單位,試以萬元作為單位。gen demi_inc=h_inc/10000 tab demi_inc看分佈狀況Ming-chi Chen社會統計Page.37以上得出線性機率模型linear probability model,LPM捐款機率P(y=1)=0.7028+0.008554*以萬元計的家戶月收入Stata&Logit regressionMi

17、ng-chi Chen社會統計Page.38的差距,其餘均相同。兩者僅在係數上有萬倍0000055.08036.0-1log054873.0803644.0-1log家戶月平均收入捐款機率捐款機率:之前以元為單位的模型以萬元計的家庭月收入捐款機率捐款機率logit regressionMing-chi Chen社會統計Page.39家戶月平均收入家戶月平均收入捐款機率*0548573.0803644.0*0548573.0803644.01ee也就是說,根據logistic迴歸模型的預測,受訪者的家庭月收入10萬元會有79.5的機會捐款。7947.087.487.3113522.13522.1

18、10*0548573.0803644.010*0548573.0803644.0eeee若某個受訪者的家庭月收入為10萬元,則捐款的機率為Stata與logit regressionMing-chi Chen社會統計Page.40Stata logistic指令產生的係數不是logistic regression model的係數,而是odds ratio,也就是e,這也可以用計算機取反對數自行計算出來。詮釋連續自變數的logit迴歸係數Ming-chi Chen社會統計Page.41)ratio odds63905.0%(.639563905.105639.1oddsXregression

19、lexponentia-11log勝算比就是增加,也就是說捐款的勝算款的勝算要乘上萬元,捐,也就是收入每增加一,前面慈善捐款的例子裡倍)的乘數效果(就會有,對勝算每增加一個單位的歸右邊的部分就是指數迴等式兩邊都取反對數若我們把eeeeeeXXX針對連續自變數的logit迴歸係數,一般而言我們可以這樣了解,在控制了其他自變數以後,連續自變數X每增加一個單位,一變數Y的勝算增加100(e-1)詮釋dummy variable logit迴歸係數 先對迴歸係數作反對數轉換,求e 這個數值乘上100就是虛擬變數值為1的和虛擬變數值為0前對後的百分比差距Ming-chi Chen社會統計Page.42L

20、ogit迴歸模型與虛擬變數 以前面的88q1這個資料為例,v1為受訪者性別,1為男,2是女。轉換成虛擬變數dummy variable gen sex=1 replace sex=0 if v1=2 tab sexMing-chi Chen社會統計Page.43Logit迴歸模型與虛擬變數Ming-chi Chen社會統計Page.44男生比女生更傾向不捐款,e-0.1818416=0.8337,也就是說在控制了家庭收入之後,男生捐款的勝算(機會)是女生的83.37%Stata與虛擬變數:xi指令 宗教與慈善捐款的關係 v49:1佛教 2道教 3民間信仰 4一貫道 5軒轅教 6回教”7天主教

21、8基督教 9沒有宗教信仰 10其他“gen relig=.If v49=6|v49=10 replace relig=1 if v49=1 replace relig=2 if v49=2|v49=3|v49=4|v49=5 replace relig=3 if v49=7|v49=8 replace relig=4 if v49=9Ming-chi Chen社會統計Page.45Stata與虛擬變數:xi指令 expand interactions 這個作法是讓Stata自動針對類別自變項產生數個虛擬變數。xi,prefix(ind)i.relig所有虛擬變數以ind做開頭,以relig的類

22、別來做虛擬變數,產生indrelig_1,indrelig_2,indrelig_3,indrelig_4共四個虛擬變數 另一個方法則是讓Stata自己設定虛擬變數 xi i.relig i.relig indrelig_1-4 (naturally coded;indrelig_1 omitted)分數最小的那一組(佛教是1)被當成對照Ming-chi Chen社會統計Page.46 我們可用char religomit4指定relig第四組(無宗教信仰)為對照,虛擬變數組名稱為_I原變數名稱_*分別tab _Irelig_1、_Irelig_2、和_Irelig_3看是否合乎原來的宗教變數

23、Stata與虛擬變數:xi指令Ming-chi Chen社會統計Page.48Ming-chi Chen社會統計Page.49在其他條件皆相等的情況下,佛教徒比無神論者捐款的勝率為289.6;道教/民間信仰比無神論者捐款的勝率為231.26;基督天主教比無神論捐款的勝率為233.07logistic regression model的統計推論 多半的統計軟體會報告個別自變項的Wald統計量,方便我們判斷係數是否到達顯著水準 H0:=0 Wald統計量是除以其標準誤結果統計量Z的平方 Wald statistics是一個依循卡方分配的統計量 不過Stata報告標準統計量Z,意思跟解讀都是相近的。

24、Ming-chi Chen社會統計Page.50Logit迴歸係數的Z檢定Ming-chi Chen社會統計Page.51性別這個自變項沒有達到顯著水準,無法拒絕這個變數對捐款沒有影響的虛無假設。而收入和所有的宗教虛擬變數都到達顯著水準。Logit迴歸係數的Wald檢定 透過將前表中的Z值取平方得到Wald檢測統計量,然後查卡方分配表。先進行過logit或logistic的Stata分析後,可以用test 自變數名稱這個指令產生Wald檢測統計量。例如:test sex的結果如下Ming-chi Chen社會統計Page.52這個1.75正就是前面Z統計量-1.32的平方(1.32是四捨五入過

25、了,所以有誤差),檢測一個IV,所以自由度=1,結論是性別這個IV不顯著虛無假設H0:sex=0Logit迴歸係數信賴區間 前表中,我們看到_Irelig_1的95%的信賴區間是0.7154,1.4113,如何解讀?首先取antilog,e0.7154,e1.4113=2.0449,4.1012 意思是佛教徒捐款的勝算有百分之九十五的機會是無神論者的2.0449到4.1012倍。Stata logistic指令直接給我們估計勝算的區間(看前面logistic迴歸的最後兩欄數值)Ming-chi Chen社會統計Page.53Likelihood-ratio test 可以用來比較增加新的變項(

26、組)前後 likelihood ratio的改變 我們可以令L0為當虛無假設為真的時候概似函數的最大值,而L1則為虛無假設為不真時概似函數的最大值。虛無假設是所有新增的自變數係數相等且等於0,例如在一個僅有單一IV的模型,我們的虛無假設是這個IV的係數為0 Likelihood-ratio test統計量:Ming-chi Chen社會統計Page.54 1010log2log2log2LLLLlog(L0/L1)前面乘以-2是因為這樣在大樣本時才會符合卡方分配,使我們得以檢驗檢定統計量。這個統計量的自由度就等於我們兩模型之間自變數個數的差異,比如說一個單一IV的模型和一個沒有任何IV的模型相

27、比,其自由度為1。Likelihood-ratio test:an exampleMing-chi Chen社會統計Page.55和沒有任何自變數的模型(log likelihood=-1004.2316)比較,(-2logL0)-(-2logL1)的卡方值為68.31,在自由度=5(自變數個數)的情況下,犯型一錯誤0.0001,這和一般迴歸分析中的F檢定類似Likelihood-ratio test&Wald test 針對logistic regression model裡個別自變項係數的統計檢定,除了Wald test和Z test以外,我們也可以用likelihood-ratio檢定,

28、比較去除某個IV的模型和原來模型的log likelihood,來檢測其係數是否顯著(自由度1)大樣本時,Wald檢測和likelihood-ratio檢測有相似的結果。在中小型樣本時,最好選擇用likelihood-ratioMing-chi Chen社會統計Page.56Logit迴歸係數的likelihood-ratio檢定Ming-chi Chen社會統計Page.57如果不是要Stata自己對類別變項產生虛擬變項就不需要加xi;quietly是要Stata不用產生表格,但相關數值還在記憶體裡。我們把相關數值用est store a記成a。接下來建立一個沒有性別的模型,相關數值記成b用

29、lrtest a b,stats來比較a、b兩模型的log likelihoodLikelihood-ratio=1.76=(-2logL0)-(-2logL1)=-2*(-970.9538)-2*(-970.0759)自由度=1,P值為0.1852,結論是性別這個IV不顯著Likelihood-ratio test Likelihood-ratio test可以用來檢測nested models 變數多的模型和變數少的模型的log likelihood的差異乘以-2 這趨近於卡方分配,其自由度為多出來的變項個數 這就好像OLS裡在nested模型間來判斷新加入一組變項是否顯著的F檢定一般。全

30、模型也可以看IV有無聯合解釋力,這就是Stata右上角的檢定數值的意義,和複線性迴歸全模型的F檢定一樣。Ming-chi Chen社會統計Page.58Likelihood-ratio test:an example 我們加入了宗教信仰的一組三個虛擬變數以後,log likelihood=-970.07593 沒有宗教信仰相關的虛擬變數的logit迴歸模型log likelihood=-993.36151(-2logL0)-(-2logL1)=-2(-993.36151)-2(-970.07593)=46.57116 自由度為3 23,0.01=11.3446.57,意謂宗教這一組類別變數顯著

31、,可以拒斥H0:_Irelig_1=_Irelig_2=_Irelig_3=0Ming-chi Chen社會統計Page.59一組虛擬變數的LR檢定 xi:quietly logit donation demi_inc sex i.relig est store a quietly logit donation demi_inc sex if relig!=.這是只跑那些宗教不是缺失值missing value的個案,以免發生模型間樣本量不同而不能比較的狀況。est store c lrtest a c,stats Ming-chi Chen社會統計Page.60自由度=3,兩模型間有三個虛擬

32、變項的差異,P值小於0.0001,拒絕虛無假設(三個係數都=0,也就是宗教對捐款有影響。Ordered Logit 前面的logit regression處理的依變項是二元變數(是/不是)。Logit regression也可以用來處理多元的順序尺度的依變數(非常不滿意、滿意、中立、不滿意、非常不滿意)稱之為ordered logit、ordinal logit、proportional odds model 在Stata裡是用ologit這個指令來處理 比如說我們要解釋個人的宗教參與度(幾乎沒有或從來沒有、每年至少一次、每個月至少一次)這是一個順序尺度的變項累進機率與Logit 我們在此處用

33、累進機率cumulative probabilities的概念作為基礎 令P(yj)代表回答落在j這個類屬或以下的機率(1,2,j)以宗教參與度為例 P(y=1)P(y2)=P(y=1)+P(y=2)P(y3)=1累進機率與Logit 每個類屬j或以下的勝算odds是P(yj)/P(yj)每一個累進機率都可以被轉換成高於或低於的二元變數的勝算 A popular logistic model for an ordinal response uses logits of the cumulative probabilitiescumulative logits 以宗教參與為例1)3(log)3(

34、)2()1(log)2()2(log)2(log)3()2()1(log)1()1(log)1(logyPityPyPyPyPyPyPityPyPyPyPyPyPitCumulative Logit Models for an Ordinal Response A model can simultaneously describe the effect of an explanatory variable on all the cumulative probabilities for y.對於每個累積機率,這個模型就像是一般的羅吉斯模型,每一組自變項都可分成高於和低於特定的類屬j。這個模型是

35、LogitP(yj)=j+x,j=1,2,c-1.In this model,does not have a j subscript.It has the same value for each cumulative logit.In other words,the model assumes that the effect of x is the same for each cumulative probility.This cumulative logit model with this common effect is often called the proportional odds

36、 model比例勝算模型Cumulative Logit Models for an Ordinal Response For each j,the odds that yj multiply by e for each one-unit increase in x.Model fitting treats the observations as independent from a multinomial distribution.This is a generalization of the binomial distribution from two to multiple outcom

37、e categories.Software estimates the parameters using all the cumulative probabilities at once.This provides a single estimate beta-hat for the effect of x,rather than the thress separate estimates wed get by fitting the model seperately for each cumulative probability.92q2資料,討論宗教信仰與教育程度(年數)對宗教參與度的影響Logistic Models for Nominal Responses

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(中级社会统计课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|