近日,柯文哲談及大法官時,稱:他不相信15位大法官都是偏向民進党的,因為「 n 大於等於 15 就會接近常態分配。」本文不談政治,只想就「 n 大於等於 15 就會接近常態分配」這句話談談其中的謬誤。
首先,這顯然是很常見的,把中央極限定理中「統計量(樣本平均數)的抽樣分布」和樣本的分布,或稱「樣本分布」給搞混了;其次,就中央極限定理而言,"n ≧ 15" 這條件的適用性問題;最後,是「偏向」與否並非中央極限定理能解決的問題。
就第一個問題,若是大法官的偏向可以用一個尺標來表現,X 代表潛在的大法官偏向尺標,X{1}, ..., X{n} 代表現實中 n 位大法官各自的偏向指標,可以當成從 X 群體抽出的樣本。這樣本怎麼抽出呢?如果是自具有 X 的分布的群體中依簡單隨機抽樣抽出的,我們可以說:諸 X{i} 所形成的這樣本分布 (sample distribution) 具有和 X 群體分布接近的特性,而我們要檢視的那句話,意思是 n ≧ 15 則該樣本分布接近常態,但這卻是大大地錯了!如果 n 夠大,機率學的定理,根基於大數法則,樣本分布只會趨近於群體分布;除非 X 就服從常態分布,並且採用的是隨機抽樣,否則樣本分布不會趨近於常態。但,大法官的選任顯然不是隨機的(可參考「隨機很重要」一文),也沒有理由說 X 的分布是常態的,因此那句話的由來應是中央極限定理:
如果 n 足夠大,如果 X 的分布滿足一些條件,如果樣本是隨機的,那麼樣本平均數 Σ X(i)/n 的抽樣分布 (sampling distribution) 會接近常態分布。
只有這理由才能解釋「常態分配」那個結論。把中央極限定理的結論套用在樣本分布而宣稱樣本接近常態,正是許多不認真的統計學生和許多統計應用者所犯的最嚴重謬誤!如果 n 夠大樣本分布就能接近常態,那麼任一個群體的分布都應該是常態或接近常態了,因為它們的 n ( N ) 都很大,但顯然這種結論是不對的,如 0-1 二元資料群體就只有 0 和 1,怎可能是常態或接近常態?如所得分布,財富分布,是偏右的長尾分布,也就是說右邊尾巴拖得很長的分布,說它是常態或接近常態就太違心了。
中央極限定理的第二項誤解,連大學中教統計的教授都會說錯或說得太過隨便的是樣本數的要求,常見的說法是:
不管群體是什麼樣的分布,只要 n 大於 30(或:n 不小於 30),樣本平均數的抽樣分布就會接近常態。
且不說那「不管群體是什麼樣的分布」還要加條件,如 Cauchy 群體就不適用中央極限定理 (CLT),甚至連大數法則 (LLN) 也不適用,單說那「只要 n 大於 30」可說是極為錯誤的認知。在數學上,「極限 (limit)」談的是 n → ∞ 的狀態;實務上 n 都是有限的,因此就涉及誤差大小及應用者所能容許的最大誤差。「接近常態分布」是相當複雜的概念,因為它涉及函數間(密度函數之間或分布函數之間)的比較問題,我們把問題類比到無窮級數,我們固然不能說:
任意級數,只要取前30 項以上相加,就能近似其極限。
不收斂的級數哪來極限?所以要把「任意級數」加限制:
任意收斂級數,只要取前30 項以上相加,就能近似其極限。
這樣對嗎?顯然是不對的,例如等比級數。|r| < 1 時
Σ_n{n=0~∞} r^n - Σ_{n=0~30} r^n = r^{31}/(1-r)
當 r = 1/2 時前 31 項和低估極限值 1/2^{30} ≒ 10^{-9} 大概在所有應用都可以忽略;但 r = 0.9 時,其誤差約 0.38,以相對誤差來說也有 3.8%,在應用中可以無視這個誤差嗎?中央極限定理的基本型式是 X{1},...,X{n} i.i.d.,也就是從單一群體做簡單隨機抽樣的例子,在有限樣本的結果 Gn(x)(樣本平均數標準化後的抽樣分布)和極限形式 Φ(x)(標準常態分布)之間仍存在誤差
|Gn(x) - F(x)| ≦ Cγ/(σ^3 √n)
式中 C 是一個常數, γ = E[|X - μ|^3], σ^2 = E[(X - μ)^2], 而 μ = E[X]。上列不等式稱 Berry–Esseen theorem,目前 C 值被估算在 0.4097 至 0.4748 之間。由於第三階絕對動差 γ 並無上限,甚至可能是 ∞,一般而言 γ > σ^3, 沒理由說不管群體分布長得怎麼樣,n ≧ 30 甚至 n ≧ 15 就夠了。「談中央極限定理」一文有些模擬結果,究竟在某個樣本數之下樣本平均數的抽樣分布是不是「近似」常態,是有些見仁見智的問題,但多大的樣本使得我們可以引用中央極限定理以常態分布近似真正的抽樣分布,是和群體分布特性相關聯的,如連續型均勻分布群體,n = 12 甚至 n = 10 都可以說近似得不錯;但如果群體分布類似對數常態分布,不說 n = 30,即使 n = 100,其樣本平均數的抽樣分布仍明顯存在右偏現象。
如果群體分布的期望值(平均數)是 μ,則樣本平均數 Xbar,或另以 W 表示,期望值也是 μ。當然,這是假設隨機抽樣;如果是立意選樣。如大法官的遴選,當然是主觀的,立意的遴選,不可能有一個潛在的大法官群體讓總統去做隨機抽樣;即使有一個潛在的大法官群體,總統也不可能去做隨機抽樣選任大法官。如果選樣仍是隨機的,但不是公正不偏的,結果又是如何?一個公正不偏的隨機抽樣程序要求
P[X{i} in A] = P[X in A], = ∫_A f(x) dμ{x} all i, all A.
意思是每一個樣本觀測值就是一個新的隨機變數,這個新的隨機變數,與代表群體的隨機變數 X 有相同的機率分布。式中 f(x) 是 X 的密度函數,包括連續型的 pd.f. 和離散型的 p.m.f.。而一個非公正的隨機抽樣程序,可以表示為
P[X{i} in A] = ∫_A w(x) f(x) dμ{x}
當然權量函數 w(x) 原本可能不是 x 的函數,而是另一個變數 y,一個分層變數,所以應是 w(y) 比較適當。如實際調查設計中的「分層隨機抽樣」按某些標準將群體分層,於各層中分別做隨機抽樣。但分層變數常與目標變數 x 有關,如果各層樣本數與各層(群體)比重不一致,就會使不同 x 值的觀測值被選入樣本的機率不等,隨之 X{i} 的分布會與 X 不同,故在非簡單隨機抽樣設計,資料分析需要配合抽樣方法進行。以分層隨機樣本而言,若 X{i} 來自 h 層,
P[X{i} in A; h] = ∫_A f(x; h) dμ{x} = ∫_A [f(x; h)/f(x)] f(x) dμ{x}
若並未標示樣本來自哪一層,則
P[X{i} in A] = Σ_h q(h) P[X{i} in A; h]
= ∫_A [Σ_h q(h) f(x; h)/f(x)] f(x) dμ{x}
終歸可表示成 P[X{i} in A] = ∫_A w(x) f(x) dμ{x} 形式。所以如果是不公正的隨機抽樣,無非是把群體 X 的分布密度 f(x) 改成
f*(x) = w(x) f(x) 或 w(x) f(x)/∫_S w(u) f(u) dμ{u}
後一式是因權量函數未設卓計成保證 ∫_S w(u) f(u) dμ{u} = 1 時需做調整,S 代表 X 的取值空間。把具有上列密度的隨機變數以 X* 表示,X* 與 X 代表不同的群體分布,有不同的均值及群體特性,而諸 X{i} 相當於從 X* 群體抽出的隨機樣本,所以樣本平均數 W 的期望值與變異數分別是
E[W] = E[X*] = μ* ≠ μ,
Var[W] = Var[X*]/n = σ*^2/n ≠ σ^2/n
如果抽樣程序有偏,即使仍是隨機的,仍可適用大數法則及中央極限定理等結果,但抽樣程序產生的偏誤並不會因樣本增大而縮小,甚至消失。相反地,中央極限定理是大數法則的延伸,大數法則說
W → μ in P, 或 a.s.
於是中央極限定理看 Z = √n (W - μ)/σ 的分布。但如果抽樣程序是個有偏向的程序,則
Z* = √n (W - μ*)/σ* → N(0,1) in distribution
而前面的 Z 卻沒有極限分布,而
Z = (σ*/σ) Z* + √n (μ* - μ)/σ
式中 Z* 是一個標準常態分布的隨機變數,常數項 √n (μ* - μ)/σ 隨著 n 增大而無限制地增大。這意思是說:如果我們看「標準化」變量,Z 與 Z* 間除了前者尺度錯誤標準差是 σ*/σ 以外,它們之間還相差一個和 n 有關的常數項 √n (μ* - μ)/σ,是隨著樣本數 n 以 √n 等級擴大的差距。所以,從這角度來看,有偏向抽樣產生的偏誤,不僅未隨著 n 增大而消失,反而是以平方根速率增大。從樣本平均數本身來說,有偏的隨機樣本和目標群體平均數之間相差了一個常數
W = (W - μ*) + (μ* - μ)
但 W - μ* 依大數法則會趨近於 0,而常數偏差 μ* - μ 則維持不動;中央極限定理把 W 的抽樣分布放大為 √n 倍來看,偏差也被放大成 √n 倍。不管因樣本數增大而使樣本數的分布更集中於 μ*;或為了調整分布的趨於集中而放大為 √n 倍來觀察,我們所不知,或知其存在卻不知大小的偏差都不會消失。因此以為中央極限定理告訴我們 n 增大結果就不會偏移,也是對中央極限定理的一種誤解。
除了對中央極限定理的三大誤解或謬誤,大數法則也常被錯誤應用,把大數法則解釋為「平衡律」(本文杜撰的名詞)
從群體中抽樣,如果先前出現的結果偏高,根據大數法則,後續的抽樣會傾向於得到較低的結果;反之,若先前結果偏低,後續結果傾向於較高。
最常見的此種錯誤理解用於彩票、睹博或丟公正銅板實驗:
在彩票選號時,剛開獎這期出現的號碼別選,它們不會再出現。
在骰子押大或押小的賭局中,如果已連續出現數次的「大」,接下來出現「小」的機會比較大。
在丟銅板試驗,如果前面出現太多正面,接下來應該比較容易出現反面。
實際上,如果彩票開獎不存在如傳聞的「被操控」的現象,各期開獎結果是相互獨立並且同分布的;骰子也一樣,如果沒有所謂老千的行為,骰子出現的點數也是各局間相互獨立且同分布;當然,丟銅板試驗也是 i.i.d. 的,不可能出現「補償」或「平衡」的效果。
大數法則當然不是依靠「平衡」的法則達到的,以丟公正銅板為例,如果 X{n} 記錄了各次丟擲的結果,1 是正面,0 是反面,大數法則說的是
P[ |Σ_{k=1~n} X{k}/n - 1/2| > ε] → 0 當 n → ∞, for all ε > 0, 或
P[ Σ_{k=1~n} X{k}/n → 1/2 當 n → ∞ ] = 1
前者稱為「弱則 (weak law)」, 後者是「強則 (strong law」, 在 i.i.d. 也就是簡單隨機抽樣,只要群體的期望值存在,強大數法則成立。記得隨機變數是定義在原始樣本空間 Ω 的實數氫函數,因此樣本平均數 W = Σ_{k=1~n} X{k}/n 也是定義在 Ω 的實數值函數。強大數法則說:事件
{ω in Ω: lim_n W(ω) = lim_n Σ_{k=1~n} X{k}(ω)/n = μ = E[X}}
具有機率 1, 也就是說不收斂,或不是收斂到 μ 的 ω 所形成的事件機率為 0。考慮一個無窮數列 a(n), n = 0, 1, 2, ....,如果自某項 a(m+1) 開始,
[a(m+1) + ... + a(n)]/(m-n) → μ 當 n → ∞
則易證 [a(1) + ... + a(n)]/n → μ。也就是說:大數法則需要的並不是前面出現的 X{k} 偏高後面就要把他拉低;而是後面更多項把前面給平均掉了。例如丟銅板實驗,前面一連串的正面,就假設連續 100 個正面好了,雖然發生這種情形的機率很小,但不是不可能。假設前面連續丟出 100 個正面,後面並不是會有 100 個反面來平衡,而是考慮更多次丟擲,假設平均接近 1/2 正面,把前面的特異結果給平均了,例如
(100 + 1000*(1/2))/1100 = 0.545
(100 + 10000*(1/2))/10100 = 0.505
(100 + 100000*(1/2))/100100 = 0.5005
實際上我們不能保證後面會擲出剛好 1/2 的正面,實際上可能是
(100 + 510)/1100 = 0.555
(610 + 5080)/11100 = 0.5126
(5690 + 50100)/111100 = 0.5022
上面的例子雖然每一階段正面的比例都超過 1/2,並沒有較多反面的補償效果,但總平均比例仍然愈來愈接近 1/2。
對大數法則的另一個較少被注意的誤解是:
依大數法則,當樣本數愈大時,樣本總和愈接近 nμ。
大數法則是說樣本平均會愈接近群體平均,從樣本平均的標準差 σ/√n 可知;而樣本總和的標準差卻是 σ√n,其變動範圍反而是隨 n 增大而擴大。