統計分布的形態描述大致有兩套系統,一是分位數,

> x <- rgamma(100,3,1)
> str(x)
 num [1:100] 3.55 5.38 3.59 3.31 4.12 ...
> summary(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  0.547   1.836   3.003   3.226   4.118   9.134 

另一是動差系統:

> mean(x)
[1] 3.226068
> sd(x)
[1] 1.729002
> mean(scale(x)^3)
[1] 0.8351987
> mean(scale(x)^4)
[1] 3.548115

除了平均數及標準差分別量度分布的位置與分布廣度以外,還有偏態 ( skewness ) 與峰度 ( kurtosis ) 指標,前者描述一個分布是否偏向右邊多些或偏向左邊多些;後者是描述單峰分布的峰頂是否特別高狹或低闊。

位置量數如平均數、中位數、四分位數中點、全距中點、分位數加權平均、眾數等;分布廣度指標如全距、四分位距、平均差、標準差、均互差等;偏態的指標如皮爾生偏態係數比較平均數與中位數、比較四分位數中點與中位數、動差系統的第三階標準化動差等,都相對直接易懂,只是指標能描述的太簡化,以及多項不同指標讓人難以選擇而已。例如皮爾生偏態係數:

> (PSK <- 3*(3.226-3.003)/1.729)
[1] 0.3869289

顯示 x 的數據是正偏,而純用四分位數衡量的偏態指標,不管是用代表位置的四分位數中點或化表分布廣度的四分位距表現,都顯得接近對稱:

> ((4.118-3.003)-(3.003-1.936))/(4.118+1.936)
[1] 0.007928642
> ((4.118-3.003)-(3.003-1.936))/(4.118-1.936)
[1] 0.02199817

但如果看全距,最小值 0.547,最大值 9.134,它們與中位數 3.003 距離相差很大,右尾 6.13 而左尾 2.46,說明這分布明顯右偏。

> quantile(x,p)
     10%      25%      50%      75%      90% 
1.147325 1.835729 3.003375 4.118232 5.376710 

如果把四分位數換成 10-90 百分位數:

> ((5.377-3.003)-(3.003-1.147))/(1.147+5.377)
[1] 0.07939914

右偏的事實就比用四分位數衡量明顯了。

動差系統的偏態係數

> mean(scale(x)^3)
[1] 0.8351987

給出 0.8352 的結果,因為是三次方的平均,如果取其三次方根 0.9417 似乎比較合理?不過好像沒有人這麼用。這些指標除非是幾個分布互相比較,其數值很難一眼看出是代表分布的偏斜程度大或小。直接看直方圖還比較清楚:

分布的形態
峰度是一個謎樣的指標。顧名思義它代表分布的高峰形態,但為什麼它能代表一個分布的高峰形態,印象中似無教本闡述,甚至教本會給出錯誤的圖示,如下例:

分布的形態

事實上這個圖完全不曾顯示三個分布的高峰如何不同!所顯示的,只是三個不同分布廣度的樣子:分布愈廣,高峰當然愈低。但以動差系統的峰度係數為例,它是標準化變量的第四階動差:

> mean(scale(x)^4)
[1] 3.548115

也就是說:要比較不同峰度的分布,至少要把它們的分布廣度調成一致:

分布的形態

上圖是 t 分布和常態分布的比較,把常態分布的標準差設定為 √1.25,是自由度 10 的 t 分布的標準差。於是我們看到 t 分布的高峰高於常態分布,兩腰內縮,到兩尾時又超於常態分布之上。注意這重點:高狹峰的分布也就是厚尾巴,或另稱長尾巴的分布。

如果把峰度係數改名叫尾巴厚度係數,就能精準表現公式的意思了!因為動差系統就是一個看重尾巴或極端數據的系統,這也是它受詬病的地方。因為中心動差就是離差 x-μ 的 k 次方的平均,以致離差數值(絕對值)愈大,其重要性就愈大。因此,愈高階的動差愈受極端值或較大離差值影響。第一階中心動差恆為 0,第二階中心動差的平方根是標準差,用於衡量分布廣度。第三階標準化動差利用動差系統對分布尾巴的敏感性測量了分布的偏態;第四階標準化動差同樣利用此一特性可以表現一個分布的尾巴厚薄,但它又怎麼成了代表峰度的指標?

比較兩個分布,例如 t 分布和常態分布,把它們都標準化如峰度係數定義式,或調整成相同標準差如上圖。較厚尾巴的分布(如 t)也就是說它在大離差的部分比另一分布(如常態)佔了較大比例,因此為了維持兩分布相等的標準差,厚尾巴分布必須在較小離差部分(中間高峰部分)有更高的比例來平衡;而離差不大不小的兩腰相對地必然縮小其所佔比例。結果就是:厚尾巴者必伴隨著高峰狹腰,薄尾巴則伴隨著低峰闊腰。也因此,數學式上明顯是衡量尾巴厚薄的公式,被稱為峰度指標,畢竟「峰度」比「尾巴厚度」更好聽也更能讓人想像分布的模樣。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()