談中央極限定理－劉應興的部落格

大數法則與中央極限定理是統計學中極重要的兩個機率學定理，其中大數法則可以說是統計推論的基礎，而中央極限定理則是計算的重要工具。故事是這樣的：當樣本數 n 變得很大，大數法則把樣本平均數往群體平均數靠攏，在極限狀態已無法分辨了—— P[lim Xbar = μ] = 1 —— 可是，我們實際上並不處於極限狀態，n 一直都是有限的，哪怕有數萬個樣本觀測值，相對於群體數百萬、數千萬甚至實際上就是無限的，樣本與群體還是有差距的。那麼，想看清楚樣本平均 Xbar 與群髒體平均 μ 的差距，就藉助放大工具吧！於是，(√n)(Xbar-μ) 把 Xbar 與 μ 的差距放大 √n 倍來觀察。結果發現：如果我們不是只抽一組大小為 n 的樣本，而是抽無數組大小為 n 的樣本，這些樣本平均數圍繞在 μ 的周圍，竟然形成了理想分布形狀——常態分布。這就是「中央極限定理」，它告訴我們：不管群體分布的形狀如何，只要符合某些條件，當樣本無限增大時，√n(Xbar-μ) 都會逐漸變得像常態分布的模樣。

數學的描述是用「極限」表示，但如先前說的，n 總是有限的，不是 n→∞ 的極限狀態。那麼，這用極限說話的定理究竟有什麼用？這就要了解「極限」是什麼意思了。其實很簡單，極限的意思就是你能接近它。大數法則說 Xbar 的極限是 μ，樣本分布的極限是群體分布，所以當 n 足夠大時，我們由 Xbar 的標準差或標準誤可以感受到樣本平均數和群體平均數靠近，模擬方法可以直觀地看到樣本平均數在向群體平均數靠攏，也可以看到樣本分布在 n 增大時逐漸趨向群體分布的模樣。同樣的，當 n 增大時我們也可看到 Xbar 的抽樣分布逐漸像常態分布的樣子：

中央極限定理是怎麼發生的？我們先不管極限二字，看看「中央」這兩字，或英文 central 揭示的意思吧。只看表面字義，它說的是分布中央的狀況，好像沒什麼？但是，為什麼強調中央呢？事實就是：把數個隨機數加總或平均（反正要看清楚就要先標準化，因此看總和或看平均其實都一樣）的結果，兩端逐漸不重要了，中央比較重要，因為加總或平均的結果是趨向中央了：

我們看從點二項群體抽樣的模擬結果。由於模擬的樣本足夠大，模擬結果幾乎等於群體分布了，0.8 機率在 0, 0.2 的機率在 1。如果抽取兩個觀測值計算其平均，結果中間 0.5 的地方冒出一個正的機率值，相對地 0 和 1 這兩點的機率縮小了。抽更多觀測值來平均，n = 5, 兩端機率又縮小了，中間冒出更多結果； n = 10, 30, 100, 樣本平均數分布的模樣愈趨向堆向「中央」，而且形成中間高兩邊逐漸降低的模樣。

為什麼如此？正如在「回歸」一文說的，由於隨機性，不很可能一直抽中極端值，有時抽到大的，有時抽中小的，大小中和的結果是趨向中間。於是當抽出愈多觀測值構成樣本，趨於中間的機會愈大。但這並非無止境的，同樣因樣本大了，抽中極端值次數也多了；即使是趨中，也不是趨向最中間，而是機會性地散佈在周圍。所以整體來說，兩端逐漸降低而中間逐漸升高，分布範圍隨著 n 的增大而愈趨狹窄；但如果以中心值 μ 為準把分布情況放大 √n 倍觀察，這放大後的分布呈現的是常態分布的模樣。

棣莫佛 ( de Moivre ) 1733最先發現了這個現象（定理），他用常態分布計算投擲大量硬幣結果的機率分布，是對稱型二項分布近似常態分布的結果。拉普拉斯（Laplace） 1812 擴展了這個結果，把非對稱型二項分布也含蓋進去。列本諾夫 ( Lyapunov ) 1901 才以一般隨機變數定義中央極限定理並給予證明，他考慮的是諸成分變數 Xi 都具有 2+δ ${\textstyle (2+\delta )}$ 階絕對動差。1920 Lindeberg 和 Levy 證明了 i.i.d. 情形，只要二階動差存在，則中央極限定理成立。所謂 i.i.d. 情形其實就是平常考慮的無限群體簡單隨機樣本，就是平常說的樣本平均數的抽樣分布趨近常態這一件事。Lindeberg 其實給了一個更寬鬆的充分條件，諸 Xi 如 Lyapunov 設定，僅需獨立不需同分布，而條件不是 2+δ 階絕對動差存在，而是

　lim Σ E[ |Xi-μi|^2 I_{|Xi-μi|>εsn}]/sn^2 = 0

式中 sn^2 是 ΣXi 的變異數。如果再加上 Feller 條件 max σk^2/sn^2 → 0, 則上列 Lindeberg 條件是最寬鬆的了，意思是它也是必要條件。如果我們把獨立隨機變數序列且有二階動差的所有情形表示為 S 集合，結論 Σ(Xi-μi)/sn 分布收斂於 N(0,1) 的是 A 子集，滿足 Feller 條件的是 B 子集，那 A∩B 就是滿足 Lindeberg 條件的。

有一個問題是：n 個離散型隨機變數的和／平均／減去一個定量／乘除一個定量，結果仍然是離散型。那麼它的分布如何去近似一個連續型的，常態分布？談到機率分布，我們首先想到的是連續型的 p.d.f., 離散型的 p.m.f.。如果我們對二項分布的 p.m.f. 在 n→∞ 時做近似，也可以得出與常態 p.d.f. 漸近成比例的式子。但極限不是這麼看的。事實上所謂「機率分布」不是指 p.d.f./p.m.f.，或者說不是專指它們，而是指在相關的事件上如何配置機率的法則或方法，（累積）分布函數比較貼近，任何一個由隨機變數決定的事件能用區間的聯集和交集運算決定，而任何一個區間的機率能簡單地用分布函數決定。所以在中央極限定理或一般的分布收斂問題，實際上我們看的是分布函數序列的極限。如二項分布這類離散型分布的分布函數是階梯函數，而在經過標準化後，不同 n 對應的不連續點不固定，最後我們會得到：在數線上每一點，標準化後的二項分布函數序列都會收斂到常態分布。但是，再強調一下：我們的 n 總是有限的，不連續點始終存在。因此要用連續分布當做離散分布的近似，最好先將離散分布連續化，也就是將單點機率質量分散到一個區間，這就是所謂「連續性校正」的基礎。

極限的存在表示我們能以有限的 n 去近似極限。但是，我們通常不知道 n 要取多大，誤差又是多少？誤差和用於近似的 n 總是伴隨著。如果知道誤差規律，也就可估算 n 需要多大了。對於中央極限定理，Berry–Esseen 提出了一個誤差界限，可參考維基的介紹。有一種說法是 n = 30 就是大樣本，就可以適用中央極限定理以常態近似。我不知這說法具體來源，但我猜測

當 n = 30 或 n > 30 時，t 分布接近標準常態。所以稱之為大樣本，用標準常態的 z 代替 t.

這是在做常態群體平均數推論，群體標準差未知時，應該用 t 分布進行計算。但以前做這事純靠數值表，但由於計算不容易及印刷編幅限制，t 值表只到自由度 29, 對應 n = 30。而目前計算方便且自動化，恐怕沒有人在乎用 t 或用 z 近似（軟體都已給 t 的結果了你會多事去用 z 值重算？）事實上 df=29 時 t 和 z 的常用臨界值尚有 5-7% 的差距。更重要的：以上 n = 30 來分隔大小樣本根本不關中央極限定理的事！

想起從前學習、使用 Fortran，買了一本 IBM 的 SSP，其中使用 12 個 uniform(0,1) 亂數來近似常態分布。以下我們看看 uniform(0,1) 群體適用中史極限定理的情形：

６

直方圖對分布的描述可能太模糊，用分布函數可以看得較清楚：

在 n = 10 時其實已近似得不錯，模擬 1000 次的結果做 KS 檢定仍不能判斷它不是常態分布，畫 qq-plot 並做 W 檢定也一樣。那 n = 12 當然沒問題。然而，如前面二項分布， p = 0.2, n = 30 已合乎通常二項分布用常態近似的 rule of thumb，但 qq-plot 及 W 檢定的結果卻不盡如人意。不過近似本就和統計檢定結論是兩件事，所以可用與否就見仁見智了。

但是，如果群體是 log-normal 分布呢？不說 KS 和 W 檢定結果，單就偏態和峰度這兩個統計量來說， n = 100 時偏態係數 1.1,峰度係數（常態為 0）4.8； n = 200 時隨機性使得結果偏態峰度的表現偏向常態，n=500, 1000 時顯不偏態峰度仍未歸於常態，不過 KS 檢定接受它接近常態，但 W 檢定到 n = 1000 才接受。而從直方圖來看， n = 100 時的偏態其實相當明顯；從分布函數來看，n = 100 時與常態分布確有差異，能否認為是「近似」就是見仁見智的問題了。