社会统计学的意义-What-is-Meant-b课件.ppt

上传人(卖家):三亚风情 文档编号:2898455 上传时间:2022-06-09 格式:PPT 页数:101 大小:3.18MB
下载 相关 举报
社会统计学的意义-What-is-Meant-b课件.ppt_第1页
第1页 / 共101页
社会统计学的意义-What-is-Meant-b课件.ppt_第2页
第2页 / 共101页
社会统计学的意义-What-is-Meant-b课件.ppt_第3页
第3页 / 共101页
社会统计学的意义-What-is-Meant-b课件.ppt_第4页
第4页 / 共101页
社会统计学的意义-What-is-Meant-b课件.ppt_第5页
第5页 / 共101页
点击查看更多>>
资源描述

1、 統計主要問題在於如何透過樣本的統計量來推估或檢證母體的參數(parameters)。 參數為描述母體某些特性的數值。 如、母體中位數等皆為參數。 樣本統計Sample statistics 是用來描述樣本的特性的數量,樣本統計為觀察到的樣本之函數,樣本的統計量隨著取樣的不同,會有不同的變化。因此,樣本統計量本身可以被視為是一隨機變數。觀念蘇國賢2005社會統計(上)Page 2 一個樣本統計量(如樣本平均數)是隨機樣本的函數,其本身為一隨機變數觀念22000001xx Population母體參數x4x49x103x354x41Sample樣本平均數 x4x42909x1005x31x411

2、1x2x,X隨機變數的特定值X蘇國賢2005社會統計(上)Page 3 用於推估母體的參數()的樣本統計量(如X-bar),稱為估計式(an estimator)。觀念nxx將實際抽樣所得到的樣本帶入估計式,得到的數值(如-bar)稱為估計值(estimate)蘇國賢2005社會統計(上)Page 4 樣本的統計量為一隨機變數,樣本統計量的值隨著抽出樣本的不同而不同,每一個特定變量出現的機率呈某一機率分配,稱為樣本統計的抽樣分配(sampling distribution),為多次抽樣結果的機率分佈。)(1xf)(2xf觀念22000001xx Population母體參數x4x49x103x

3、354x41x4x42909x1005x31x4111x2x,樣本平均值的抽樣分配x7x43209x1321x3423x42413x)(3xf蘇國賢2005社會統計(上)Page 6 樣本中每一個元素被抽到的機率皆相同 每一個元素的期望值為母體平均數 每一個元素的標準差為母體標準差觀念22000001xx Population母體參數,P(x1) = P( x2) = P(xn) = population distribution P(x)E(x) = , Var(X) = 2蘇國賢2005社會統計(上)Page 7 When X1, X2, Xn are drawn from the sam

4、e distribution and are independently distributed, they are said to be independently and identically distributed or i.i.d.蘇國賢2005社會統計(上)Page 8 如果X1, X2, Xn 為i.i.d.,則對於每一個X而言都有相同的平均值()及變異量(2)。蘇國賢2005社會統計(上)Page 9?)(XE)(121nxxxnX)(1)(21nxxxEnXE)(121nxxxEn)()()(121nxExExEnununuuun11蘇國賢2005社會統計(上)Page 10

5、?)(XVar)(1)(21nxxxnVarXVar)()()(1212nxVarxVarxVarntindependen are ,21nxxx12222n122nnn2nX of deviation standard蘇國賢2005社會統計(上)Page 11uuXEX)(nXVar2)(nSEX oferror Standard蘇國賢2005社會統計(上)Page 12 當X為來自於母體為常態分配的i.i.d.樣本時,無論樣本數大小,樣本平均數的抽樣分配必為常態。),(2nNX),(2NXi蘇國賢2005社會統計(上)Page 14無論母體為何種分配,若隨機樣本的樣本數夠大(n30),則樣

6、本平均數的抽樣分配會趨近於(approximately)常態分配If n is largeapproximately),(2nNX蘇國賢2005社會統計(上)Page 15 設X為一呈常態分配的隨機變數,其平均數=,變異數為2 Z = (X - )/,Z為標準化變數,且E(Z) = 0, Var(Z) = 1觀念),(2NX) 1 , 0( NuXZ蘇國賢2005社會統計(上)Page 16) 1 , 0(2NnX如果X1, X2, Xn 為i.i.d.,且E(X)=及Var(X) =2。N approximately),(2nNX蘇國賢2005社會統計(上)Page 17P(Z0) = 0.

7、5P(Z z)2/221)(xezf蘇國賢2005社會統計(上)Page 18 在前章中我們介紹了各種估計母體參數的方法(point estimator)。例如我們發現樣本平均數X為母體平均數的一個不偏估計式。 雖然平均而言,X能正確的代表,但每一次觀察到的X不會剛好等於,而是隨著抽到的樣本不同有高有低:觀念error samplingX蘇國賢2005社會統計(上)Page 19 因此除了點估計外,我們還想進一步知道從樣本中得到的估計值有多可靠,由於樣本的估計值本身也是一個隨機變數,不一定會剛好等於母體參數,因此我們問:估計值與母體參數有多接近?觀念蘇國賢2005社會統計(上)Page 20

8、在估計的問題中,我們希望估計式具有以下兩個性質: 1. 估計式為不偏估計(unbiased estimator),即估計式不會系統性的高估或低估母體參數。 2. 我們希望估計式的抽樣分配集中於母體參數的周圍,即估計式的變異數愈小愈好。蘇國賢2005社會統計(上)Page 21 在估計的問題中,我們希望估計式具有以下兩個性質:Unbiasedsmall is )var(蘇國賢2005社會統計(上)Page 22 從估計式的抽樣分配中,我們可以建立一套系統性的方法來表達估計式的精確度。觀念error) sampling(稱為抽樣誤差為估計的誤差,則的估計式為假設蘇國賢2005社會統計(上)Page

9、 23 母體:加州250,000高三學生 數學SAT分數 樣本500,得樣本平均值=461 How reliable is this estimate?蘇國賢2005社會統計(上)Page 24 根據樣本平均數的抽樣分配(sampling distribution),我們知道:)500,(Nx假設我們預先就知道=100,則5 . 4500100) of .(xESx蘇國賢2005社會統計(上)Page 25 根據經驗法則,.95的機率,樣本平均數會落在以為中心點,向左右延伸兩個標準誤的界域內。 ( 2 4.5 , 2 4.5)蘇國賢2005社會統計(上)Page 26To say that x

10、-bar lies within 9 points of is the same as saying that is within 9 points of x-bar蘇國賢2005社會統計(上)Page 28 The language of statistical inference uses this fact about what would happen in the long run to express our confidence in the results of any one sample.蘇國賢2005社會統計(上)Page 29 我們通常以建構信賴區間(confidenc

11、e intervals)來顯示估計式的準確度。觀念的機率為一特定值。會包含母體參數所形成的區間使和來建構出兩個數值用,),(2121蘇國賢2005社會統計(上)Page 30觀念1)(,),(212121Pxxxn為兩個統計量,使得假設為欲估計的母體參數,樣本為由某母體抽出的隨機設)condidence of level(),()1 (intervals) confidence()%1 (100),(2121的信賴度稱為信賴區間信賴區間的為則稱蘇國賢2005社會統計(上)Page 31 A level C confidence interval for a parameter is an in

12、terval computed from sample data by a method that has probability C of producing an interval containing the true value of the parameter. We must find the number z* such that any normal distribution has probability C within z* standard deviation of its mean.蘇國賢2005社會統計(上)Page 32蘇國賢2005社會統計(上)Page 33

13、Let Z be a standard normal random variable and let be any number such that 02,其值永遠大於1。v愈大(樣本越大),變異數越接近1,其形狀越接近標準常態分配。蘇國賢2005社會統計(上)Page 65 t分配是一群機率分配的組合,不同自由度對應不同的t distribution的密度函數,由於變異數較標準常態分配大,所以形狀較為矮胖。0.3991.338104f x( )44x43210123400.20.4Standard normal (d.f.=)d.f. =4d.f. =2d.f. =1蘇國賢2005社會統計(

14、上)Page 66 The symbol t,denotes the value of t such that the area to its right is and t has degree of freedom. The value t, satisfies the equation: P(t t, )= Where the random variable t has the t distribution with degrees of freedom.蘇國賢2005社會統計(上)Page 67 P(t t0.05,13 )=0.05找出t值?蘇國賢2005社會統計(上)Page 68

15、Consider the t distribution having =9 degrees of freedom. Find the value t.05, 9 such that the area in the right tail of the t distribution is .05.0t.05=1.83Area = .05t distribution with d.f. = 9蘇國賢2005社會統計(上)Page 69 Consider the t distribution having =9 degrees of freedom. Find the value t.025, 9 a

16、nd -t.025, 9 such that each tail of the t distribution contains area .025.0t.025= 2.262Area = .025t distribution with d.f. = 9-t.025= -2.262蘇國賢2005社會統計(上)Page 70 Consider the t distribution having =20 degrees of freedom. Find the value t.025, 20 such that the right tail of the distribution contains

17、area .025.0t.025= 2.086Area = .025t distribution with d.f. = 20蘇國賢2005社會統計(上)Page 71 X1 X2兩個隨機變數的可能數值組合有無限多種。如果我們不作任何限制,則可以任意選定任何數值給X1及X2。 但如果我們規定: 則X1 X2的組合必須是(3, 7)(2, 8)(5,5)(6,4)等 當X1決定之後,我們沒有自由空間可以決定 X2的數值,也就是我們的自由度只有(2-1)個5)(2121XXX蘇國賢2005社會統計(上)Page 72 同理,上面兩個統計量都有一樣的限制,當知道n-1個數值之後,最後一個數值已經被決

18、定了,所有自由度僅有(n-1)。 統計學上的自由度即是指所有變數中,其數值可以自由選定之變數的個數,等於 統計量所涉及的隨機變數個數減去加諸於該統計量的限制個數。21)(XXini).(121nXXXnX蘇國賢2005社會統計(上)Page 73 若母體N(, 2),則),(2nNX) 1 , 0(/NnuXZ 若母體 2未知,則以S來取代,我們得到t-score:nSuXt/has the t distribution with v = (n-1) degrees of freedom. 蘇國賢2005社會統計(上)Page 74 The area to the right of t/2,i

19、s /2 for the t distribution having v degrees of freedom. Similarly, the area to the left of -t/2, is /2 . Thus, we obtain:)/(1)(1, 2/, 2/, 2/, 2/vvvvtnsuXtPtttP蘇國賢2005社會統計(上)Page 75)/(1, 2/, 2/vvtnsuXtP)(1, 2/, 2/nStuXnStPvv)(1, 2/, 2/nStXunStXPvv蘇國賢2005社會統計(上)Page 76)(1, 2/, 2/nStXunStXPvv這個結果告訴我們,

20、如果從常態分配中抽取樣本,則母體u在1-的機率下會落於以下區間),(, 2/, 2/nStXnStXvv蘇國賢2005社會統計(上)Page 77Suppose we take a random sample of n observations from a normal population with mean u and unknown variance 2. If the observed sample mean is x and the observed sample standard deviation is s, the confidence interval for the me

21、an having level of confidence 100(1-)% is given by),(, 2/, 2/nStXnStXvv定義蘇國賢2005社會統計(上)Page 78一工程師要估計某種鋼鐵的平均強度,假設該鋼條的強度為常態分配,他做了四個試驗,得到的強度如下 844, 847, 845, 844 ,計算該鋼條平均強度的95%信賴區間。例題8454844845847844X2)844845(.)845844(21)(112222iixxnS)42845,42845(3 ,025. 03 ,025. 0tt蘇國賢2005社會統計(上)Page 79由t值所建構出的CI的區間比

22、由Z-score所建構出的CI區間要寬,因為母體的變異數必須估計,誤差較大。樣本數愈大,CI的寬度愈小。因為(1) n在分母 (2) t值隨著degree of freedom的增加而減小。觀念蘇國賢2005社會統計(上)Page 80CI隨著d.f.增加而減小的情形:觀念sample sized.f.95% CInn-15410920193029)/(776. 2nsx )/(262. 2nsx )/(093. 2nsx )/(045. 2nsx )/(96. 1nsx 當d.f. 大於120時,用t值所計算的CI與用標準常態分配所計算出的CI幾乎相同。蘇國賢2005社會統計(上)Page

23、81N=121, X = $20,000 S=$4,000 construct two CI, one using t, the other using z. = n-1 =120, t0.025, 120 = 1.984例題),(, 2/, 2/nStXnStXvv)1214000984. 1000,20,1214000984. 120000()121400096. 1000,20,121400096. 120000(值用z蘇國賢2005社會統計(上)Page 82n=10, we want to construct 95% IC using z and t. If the variance

24、 is known, we use z =1.96If the variance is unknown, we use t.025, 9 = 2.2622.262/1.96=15%. The confidence interval based on the t value will be 15% wider than that based on the z value. 例題蘇國賢2005社會統計(上)Page 83 Suppose that we wish to find the lower confidence limit (LCL) such that the probability (

25、1-)that u exceeds LCL. The one-sided interval (LCL, ) is a left-sided confidence interval. The lower confidence limit is given by nzxLCL Suppose that we wish to find the upper confidence limit (UCL) such that the probability (1-)that u is less than UCL. The one-sided interval (-, UCL) is a right-sid

26、ed confidence interval. The upper confidence limit is given by nzxUCL蘇國賢2005社會統計(上)Page 84 單邊信賴區間的意義:假設重複取樣本數為n的隨機樣本,每次計算(LCL, ),則在所有樣本所建構出的左邊信賴區間中,將有1-的機率會包含u。 蘇國賢2005社會統計(上)Page 85 郵局的人事部門想要瞭解郵差請病假的情況,取樣100人來觀察,母體的分配及標準差皆為未知數,假設樣本平均數為8.2,s=2.7天,建構母體參數u的單(左)邊95%信賴區間。05.,95.)1 ( , 7 . 2, 2 . 8,100sX

27、n,645. 1z75585. 71007 . 2645. 12 . 8),(nszxLCL95%的 機率(7.7558, )會包含母體平均值u蘇國賢2005社會統計(上)Page 86Take a random sample of n observations from some normal population having unknown mean u and unknown standard deviation . Suppose that we wish to find the lower confidence interval (LCL, ) is a left-sided co

28、nfidence interval. The lower confidence limit is given by:nstxLCL/Suppose that we wish to find the upper confidence interval (-, UCL) is a right-sided confidence intervalnstxLCL/蘇國賢2005社會統計(上)Page 87n=10, = unknown, x=14.5, s = 2.5. Construct 95% left-sided CI for the population mean u.例題nstxLCL/The

29、 95% left-sided confidence interval for u is (13.051, )051.13105 . 2833. 15 .14蘇國賢2005社會統計(上)Page 88Confidence interval for the mean:Suppose an individual is interested in estimating the mean of a population having a known variance 2. How large a sample size must be taken if the investigator wants t

30、he probability to be (1-) that the sampling error |X - u| is less than some amount D?蘇國賢2005社會統計(上)Page 89信賴區間是以X 為中心,向左右各伸展:)/,/(2/2/nzXnzX)/(12/2/nzXunzXPnzD2/Dzn2/2222/Dzn將D固定,求n=?蘇國賢2005社會統計(上)Page 90An economist wants to estimate the mean annual income of households in a particular congressiona

31、l district. It is assumed that the population standard deviation is =$4,000. The economist wants the probability to be .95 that the sample mean will be within a D = $500 of the true mean u. How large a sample is required?500 D4000 96. 1 95.12/z2222/Dzn86.245500)000, 4(96. 1222nxf x ( )f x ( )xnXVarX

32、E的抽樣分配X2)()(複習母體分配根據中央極限定律,我們知道樣本夠大時,樣本平均數的抽樣分配為常態分配0.3991.338104f x( )44x43210123400.20.4的抽樣分配X母體參數:Mean = Variance =2每個區間=nx96. 1間為隨機區間變化,所以區的平均值會有因為每個樣本蘇國賢2005社會統計(上)Page 93設(x1,x2xn)為由某母體抽出的隨機樣本,為此母體之參數,假設T1, T2為兩個統計量,使得1)(21TTP則稱(T1, T2) 為的100(1-)%信賴區間,而(1-)為信賴度。T1T2蘇國賢2005社會統計(上)Page 94的估計式,為參

33、數設 n1)(Dpn若(精確度、抽樣誤差)誤差界線的估計為以則稱)%1 (100 nDT1T2nD蘇國賢2005社會統計(上)Page 95母體平均數u之區間估計:當母體標準差已知,且n30,則)/,/(2/2/nzXnzX為母體平均數u的100(1-)%的信賴區間蘇國賢2005社會統計(上)Page 96 若母體N(, 2),則),(2nNX) 1 , 0(/NnuXZ 若母體 2未知,則以S來取代,我們得到t-score:nSuXt/has the t distribution with v = (n-1) degrees of freedom. 蘇國賢2005社會統計(上)Page 97

34、母體平均數u之區間估計:當母體標準差未知則為母體平均數u的100(1-)%的信賴區間)(1, 2/, 2/nStXunStXPvv),(, 2/, 2/nStXnStXvv蘇國賢2005社會統計(上)Page 98母體平均數u之點估計:一般以X 來估計u ,也就是取X做為u的估計式,因此X為u之點估計值。當樣本數n已知,且n30,以X估計u的100(1-)%誤差界線為nzD2/當樣本數未定,但n30,若誤差界線D已知,則樣本數為2222/Dzn蘇國賢2005社會統計(上)Page 99一個日光燈製造公司生產的燈管壽命近似常態分配,它的標準差為100小時。某品管人員隨機抽樣32燈管,經使用後觀察

35、其壽命,得平均壽命為1200小時()求該公司生產的每支燈管的平均壽命之估計值。平均壽命u之點估計值為x=1200小時蘇國賢2005社會統計(上)Page 100()求(1)中的估計之95%誤差界線?648.343210096. 12nZD誤差界線()若希望()中的95%誤差界線為20小時,問此題的樣本夠不夠大?若不夠大應再抽多少樣本?9704.96)100()2096. 1(222222/取Dzn故應再取97-32=65支蘇國賢2005社會統計(上)Page 101()求該公司生產的每支燈管平均壽命的90%及95%信賴區間)/,/(2/2/nzXnzX)32/100645. 11200,32/100645. 11200(:%90CIu之)32/10096. 11200,32/10096. 11200(:%95CIu之

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(社会统计学的意义-What-is-Meant-b课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|