一般我們說:如果一個資料或機率分布是正偏或右偏,分布右邊(右尾)拉得較長而左邊較集中或左尾較短,因此(算術)平均數偏高,而高峰偏左,因此有平均數最大,眾數最小;當分布為負偏或左偏時,則正好相反,眾數最高而平均數最低。K. Pearson 更提出他的 rule of thumb 說眾數與中位數之間的差距大約是平均數與中位數之間差距的兩倍,因此以
(平均數 - 眾數)/ 標準差 或 3(平均數 - 中位數)/ 標準差
為衡量偏態的指標。當然,最常用的指標還是動差系列,以第三階動差為基準的偏態係數:
γ1 = μ3/σ^3 = E[(X-μ)^3]/σ^3
或樣本偏態係數
[Σ(Xi-Xbar)^3/n]/[Σ(Xi-Xbar)^2/n]^(3/2)
或者上列分子分母中的 n 以 n-1 代替。
但是,經驗法則終究是經驗法則,在真實的分布,不經由偏態指標的計算,有時很難說該分布是正偏或負偏,而 Pearson 偏態公式與完全基於動差的偏態係數 γ1 結果也不一定一致。而眾數的決定,除非是理論分布,其實不容易確定;更且如果分布是多峰的,眾數的確定是一方面,所謂經驗法則也將面臨挑戰。就理論分布來說,中位數的定義和有限資料分布的定義不同,有可能一個閉區間內的數值都算中位數。即使中位數是唯一值,它獨自佔有一定的機率:
μ3 = Σ_{x<m} (x-μ)^3 p(x) + (m-μ)^3 p(m) + Σ_{x>m} (x-μ)^3 p(x)
假設中位數 m 比平均數 μ 大,則從 x-μ 來的,為了使
Σ_{x<m} (x-μ)p(x) + (m-μ)p(m) + Σ_{x>m} (x-μ)p(x)= 0
在 m 左邊的 x p(x) 相對於右邊,在絕對值上,總和必須大一點;然而,在計算第三階動差時較大離差被巨幅放大,也許在 m 右邊的 x p(x) 比左邊小一點,但仍有可能存在較大正離差,即使其機率 p(x) 不大,仍發揮槓桿作用,使 μ3 > 0,也就是 γ1 > 0。其實這邊說的「離散型」並非必要條件,即使連續型,甚至是單峰分布,以第三階動差計算的偏態係數為正,並不能保證
mean(平均數)> median(中位數) > mod(眾數)
反之,γ1 < 0 也不一定就是
mean(平均數)< median(中位數) < mod(眾數)
以 Weibull 分布為例,其 p.d.f.
f(x) = (kx^(k-1)/μ^k)e^{-(x/λ)^k}, x > 0
此分布之尺度參數 (scale parameter) 與分布曲線的形狀無關;決定分布形狀的是形狀參數 (shape parameter) k。當 k = 1 時其實就是指數分布(或稱負指數分布); k < 1 時左尾無上界,因此不存在眾數;k > 1 時眾數 λ(1-1/k)^(1/k),而
平均數 = λΓ(1+1/k), 中位數 = λ(log(2))^(1/k)
因為指數分布的中位數就是 λ log(2) (自然對數), Weibull 分布的變量正是指數分布的變量取 k 次方根的結果。
因 λ 不影響分布形狀,以下只看 λ = 1。一些 k 值所對應的偏態係數 γ1 與三種位置量數計算如下表:
Weibull 分布偏態與位置量數相對關係
形狀參數 Mean Median Mode 偏態係數
3 0.89298 0.88500 0.87358 0.16810 mean>median>mod
3.2 0.89565 0.89178 0.88950 0.10638
3.25 0.89633 0.89335 0.89302 0.09196 mean>median>mod
3.3 0.89702 0.89488 0.89637 0.07791 mean>mod>median
3.35 0.89770 0.89637 0.89957 0.06421 mod>mean>median
3.4 0.89838 0.89781 0.90263 0.05086
3.45 0.89907 0.89921 0.90555 0.03783 mod>median>mean
3.5 0.89975 0.90058 0.90834 0.02511
3.55 0.90043 0.90191 0.91101 0.01269
3.6 0.90111 0.90320 0.91357 0.00056
3.65 0.90178 0.90446 0.91602 -0.01129 mod>median>mean
3.7 0.90245 0.90569 0.91837 -0.02287
3.8 0.90379 0.90805 0.92278 -0.04526
4 0.90640 0.91244 0.93060 -0.08724
我們看見:大部分 k 值所對應的偏態係數正負確實使三種位置量數有前述經驗法則所述的順序關係,但 3.25 < k < 3.65 中卻有可能違反經驗法則,例如 k = 3 時眾數介於平均數和中位數中間,而 k = 3.35 時眾數甚至超越平均數;k = 3.45 時三種位置量數位置完全反轉,雖然偏態係數顯示為正偏,位置量數的相對位置卻同於負偏的情形。由前面所列平均數、中位數及眾數公式,實際上可解出三種位置量數兩兩比較相等的 k 值以及大小關係;另外,偏態係數為
γ1 = (Γ(1+3/k)-3Γ(1+1/k)Γ(1+2/k)+2(Γ(1+1/k))^3)/(Γ(1+2/k)-(Γ(1+1/k))^2)^(3/2)
其係數正負與 k 值關係也可解出。如我們所見,上述四種 k 值並不一致。
為什麼有所謂正偏分布「應該」有「平均數最大,其次中位數,眾數最小」的經驗法則?考慮一個單峰分布,眾數是 x*,而分布曲線從最高點 f(x*) 分向兩邊往下,我們想像中如果右邊尾巴拖得較長而左邊較短,那麼應該有:
∫_{x<x*} f(x) dx < ∫_{x>x*} f(x) dx
也就是說在眾數左邊的不到一半而在右邊超過一半,因此中位數「應該」在眾數右邊。再者,假設中位數是 m,則在正偏分布,
μ = m + ∫_{x<m} (x-m) f(x) dx + ∫_{x>m} (x-m) f(x) dx
雖然 x<m 與 x>m 兩部分 ∫ f(x) dx 結果都是 1/2,但 x>m 部分尾巴拖得長,也就是說「平均」而言上列中間項 x<m 部分積分(負值的積分)加上第三項 x>m 部分的積分(正值的積分)總和「應該」是正的,所以 μ > m。再者,在這設定下
μ3 = ∫ (x-μ)^3 f(x) dx
= ∫_{x<μ} (x-μ)^2 (x-μ) f(x) dx + ∫_{x>μ} (x-μ)^2 (x-μ) f(x) dx
這等於在原本 ∫ (x-μ) f(x) dx = 0 這平衡式中加入 (x-μ)^2 當權量。既然右尾較長,也就是右邊 (x-μ)^2 「平均」比左邊大,因此結果是正的。
我們仔細品味以上所談,從一個抽象的「正偏」開始,以「應該」、「平均」等模糊概念為論述的依據,最後結論偏態係數為正值。這並非數學論證,不是
γ1 > 0 ==> μ > m > x*
的嚴謹推理,事實上我們無法做到上列數學論證,即使單峰分布,由高峰下來到兩尾,我們很難說在眾數兩邊尾巴較長的一定佔比較多數,所以右尾較長意味中位數比眾數大站不住腳。如果右尾較長不保證中位數大於眾數,我們更難保證平均而言在 m 右邊的 x-m 會比左邊的 m-x 大;即使中位數真的比眾數大,也只能說很可能平均數大於中位數,卻仍然可以存在反例(雖然前面 Weibull 分布的例子沒有呈現這樣的情形,但並非不可能)。最後,尾巴較長也不能保證分布是偏向那邊,Weibull 分布的右尾無限而左尾有限,但 k 值較大時偏態係數卻是負的。問題關鍵是第三階動差也不過就是一個指標,它並不是分布正負偏的絕對定義。而正負偏能有絕對定義嗎?分布形狀變化太多樣了,所有統計指標也不過是描述其少數抽象概念的少數指標罷了。因此,經驗法則只是經驗法則,統計不是數學,只是描述及分析資料的工具,不要把一些適用的法則準則當做數學定律。
留言列表