1、變異數與標準差n變異數變異數:離差離差(資料值與期望值的差異資料值與期望值的差異)平方和的平均平方和的平均n標準差標準差:變異數的平方根變異數的平方根n變異數的單位是原資料單位的平方變異數的單位是原資料單位的平方n標準差的單位同原資料的單位標準差的單位同原資料的單位n母體變異數母體變異數:nnn樣本變異數樣本變異數:nn計算樣本變異數時,分母取計算樣本變異數時,分母取()而非而非()的原因的原因:n實務上,母體變異數通常未知,須以樣本變異數估計之,而樣本變異數會隨所實務上,母體變異數通常未知,須以樣本變異數估計之,而樣本變異數會隨所n抽選樣本的不同而有變動抽選樣本的不同而有變動(非固定非固定)
2、,若考慮很多次抽樣,每次都以,若考慮很多次抽樣,每次都以”的的n公式計算樣本變異數,則有些樣本變異數會高於母體變異數,有些則低於母體公式計算樣本變異數,則有些樣本變異數會高於母體變異數,有些則低於母體n變異數,但平均而言會與母體變異數很接近;反之,若計算樣本變異數時均除變異數,但平均而言會與母體變異數很接近;反之,若計算樣本變異數時均除n以,則平均而言會偏向低於母體變異數以,則平均而言會偏向低於母體變異數nNxi22)(1)(22nxxsi)1(nn 變異數(或標準差)與期望值一樣,容易受極值的影響n 例:(起薪的資料)n若將最大值改為,則($)65.16591.440,27)($91.440
3、,2711850,3011)(222snxxsi723.051,26.566,209,4496,32ssx起薪的資料變異係數()n 變異係數定義為n 是量測相對(於期望值)分散程度的量數,表示標準差佔期望值的百分比,通常小於n 例:(起薪的資料)n表示薪資的分散程度約為期望值的n 變異係數在財務分析上可用來計算相對的風險(%)100 xsCV%6.5(%)100940,265.165CV變數變換對期望值與標準差的影響n 設變數為變數的函數()n變數之觀察值的期望值通常無法直接以變數之期望值的相同函數計算,但線性函數則例外n若 則 n但對標準差的影響則為n baxybxayxysas xabx
4、bxa xxsaxsaxsxsxsx/)/(bxasax)/(xasax)/(bxsxn 例:假設成本()是產量()的線性函數,n 變動成本固定成本nn若每月平均產量為 標準差n則n而產量與成本的變異係數則分別為000,000,15 xc000,300 x000,15xs000,75000,155000,500,2000,000,1000,3005csc%3000,500,2/000,75%5000,300/000,15cxcvcv分數()n 是一個特殊的線性變數變換:n 未知時以 代之,而常另稱之為分數()n 正的分數表示變數值比期望值大個標準差n負的分數表示變數值比期望值小個標準差n 變數
5、變換後的分數是無單位的,所以適用於比較不同資料集之資料值在各自資料集裡的相對位置,例如:林同學身高的分數為,而體重的分數為;表示比班上平均身高高個標準差,而比平均體重重個標準差;所以在班上是屬於中等個子,但稍微高一些/)(xbaxz,sx,經驗法則()n若原資料呈對稱如吊鐘型的分佈,則經變數變換後的分數會變為對稱於零的吊鐘型分配,且分配的型態固定(不因標準差的大小而有不同),此通稱為標準常態分配()n大約有的分數會對稱分佈在之間,n大約有的分數會對稱分佈在 之間,n而幾乎所有的分數會對稱分佈在 之間保齡球成績的資料謝比契夫()不等式n 若原資料的分佈非對稱,則至少有n的資料會落在n期望值倍標準
6、差n之間,但須大於n )%/11(1002z2/11zn 例:(起薪的資料)n若起薪分配的期望值,標準差,則至少有n 畢業學生的起薪會在n ()(,)之間n 畢業學生的起薪會在n ()(,)之間n 畢業學生的起薪會在n ()(,)之間離群值()n 分數可用來檢查資料集裡是否有離群值:n一般而言,若分數的絕對值大於,則稱對應的資料值為離群值n 離群值可能是錯誤的資料,也可能是較特殊的資料n 如果是錯誤的資料,須訂正或移除後,才進行統計分析n 如果是特殊的資料,則可比較移除與不移除下的兩種分析結果,折衷或採其中之一較合理的結果箱型圖()n 五個統計量:n,n 繪製圖型的步驟:n 由,劃一個箱型n
7、以將箱型分成兩部分n 由箱型兩邊各劃一條平行直線,向外延伸到與n 在箱型兩邊向外 倍 處,各劃一條垂直直線n 在箱型兩邊向外 倍 處,各劃一條垂直直線n,大約將所有資料平分成四份起薪資料的箱型圖 共變異數()與相關係數()n 量測兩量化變數之間線性關聯程度的量數n 例如:廣告次數 .銷售金額n 溫度 .餅乾的脆度n 若觀察資料的序對 呈現狹長的帶狀分佈,則表示兩變數具有線性關聯,分布越集中,越有關聯n 計算公式:n 母體共變異數:n 樣本共變異數:n 母體相關係數:n 樣本相關係數:),(,),(11nnyxyxNyxyixixy)(1)(nyyxxsiixy22)()()(xixiyixiy
8、xxyxyyxyx22)()()(yyxxyyxxsssriiiiyxxyxy例例:廣告次數廣告次數().銷售金額銷售金額()93.930.7491.1999930.795661)(491.19201)(22yxxyxyiyixsssrnyysnxxsn相關係數是無單位的,且係數值一定會介於與之間;正的係數表示正向的相關,負的係數表示負向的相關,係數值越接近,相關程度越高n係數值接近零,表示無明顯的線性相關,但並不表示無其他非線性函數的關係,n例如:n相關係數等於,但兩變數有拋物線的關係n相關係數高並不必然有因果關係例如:人事需求 vs 新增公司數目 n如同平均數與標準差一樣,相關係數也易受極值的影響,在廣告次數 vs 銷售金額的例子中,若其中(5,57)的資料點改為(5,157),則相關係數降為0.644