大數法則與中央極限定理是統計學中極重要的兩個機率學定理,其中大數法則可以說是統計推論的基礎,而中央極限定理則是計算的重要工具。故事是這樣的:當樣本數 n 變得很大,大數法則把樣本平均數往群體平均數靠攏,在極限狀態已無法分辨了—— P[lim Xbar = μ] = 1 —— 可是,我們實際上並不處於極限狀態,n 一直都是有限的,哪怕有數萬個樣本觀測值,相對於群體數百萬、數千萬甚至實際上就是無限的,樣本與群體還是有差距的。那麼,想看清楚樣本平均 Xbar 與群髒體平均 μ 的差距,就藉助放大工具吧!於是,(√n)(Xbar-μ) 把 Xbar 與 μ 的差距放大 √n 倍來觀察。結果發現:如果我們不是只抽一組大小為 n 的樣本,而是抽無數組大小為 n 的樣本,這些樣本平均數圍繞在 μ 的周圍,竟然形成了理想分布形狀——常態分布。這就是「中央極限定理」,它告訴我們:不管群體分布的形狀如何,只要符合某些條件,當樣本無限增大時,√n(Xbar-μ) 都會逐漸變得像常態分布的模樣。
數學的描述是用「極限」表示,但如先前說的,n 總是有限的,不是 n→∞ 的極限狀態。那麼,這用極限說話的定理究竟有什麼用?這就要了解「極限」是什麼意思了。其實很簡單,極限的意思就是你能接近它。大數法則說 Xbar 的極限是 μ,樣本分布的極限是群體分布,所以當 n 足夠大時,我們由 Xbar 的標準差或標準誤可以感受到樣本平均數和群體平均數靠近,模擬方法可以直觀地看到樣本平均數在向群體平均數靠攏,也可以看到樣本分布在 n 增大時逐漸趨向群體分布的模樣。同樣的,當 n 增大時我們也可看到 Xbar 的抽樣分布逐漸像常態分布的樣子:
中央極限定理是怎麼發生的?我們先不管極限二字,看看「中央」這兩字,或英文 central 揭示的意思吧。只看表面字義,它說的是分布中央的狀況,好像沒什麼?但是,為什麼強調中央呢?事實就是:把數個隨機數加總或平均(反正要看清楚就要先標準化,因此看總和或看平均其實都一樣)的結果,兩端逐漸不重要了,中央比較重要,因為加總或平均的結果是趨向中央了:
我們看從點二項群體抽樣的模擬結果。由於模擬的樣本足夠大,模擬結果幾乎等於群體分布了,0.8 機率在 0, 0.2 的機率在 1。如果抽取兩個觀測值計算其平均,結果中間 0.5 的地方冒出一個正的機率值,相對地 0 和 1 這兩點的機率縮小了。抽更多觀測值來平均,n = 5, 兩端機率又縮小了,中間冒出更多結果; n = 10, 30, 100, 樣本平均數分布的模樣愈趨向堆向「中央」,而且形成中間高兩邊逐漸降低的模樣。
為什麼如此?正如在「回歸」一文說的,由於隨機性,不很可能一直抽中極端值,有時抽到大的,有時抽中小的,大小中和的結果是趨向中間。於是當抽出愈多觀測值構成樣本,趨於中間的機會愈大。但這並非無止境的,同樣因樣本大了,抽中極端值次數也多了;即使是趨中,也不是趨向最中間,而是機會性地散佈在周圍。所以整體來說,兩端逐漸降低而中間逐漸升高,分布範圍隨著 n 的增大而愈趨狹窄;但如果以中心值 μ 為準把分布情況放大 √n 倍觀察,這放大後的分布呈現的是常態分布的模樣。
棣莫佛 ( de Moivre ) 1733最先發現了這個現象(定理),他用常態分布計算投擲大量硬幣結果的機率分布,是對稱型二項分布近似常態分布的結果。拉普拉斯(Laplace) 1812 擴展了這個結果,把非對稱型二項分布也含蓋進去。列本諾夫 ( Lyapunov ) 1901 才以一般隨機變數定義中央極限定理並給予證明,他考慮的是諸成分變數 Xi 都具有 2+δ 階絕對動差 。1920 Lindeberg 和 Levy 證明了 i.i.d. 情形,只要二階動差存在,則中央極限定理成立。所謂 i.i.d. 情形其實就是平常考慮的無限群體簡單隨機樣本,就是平常說的樣本平均數的抽樣分布趨近常態這一件事。Lindeberg 其實給了一個更寬鬆的充分條件,諸 Xi 如 Lyapunov 設定,僅需獨立不需同分布,而條件不是 2+δ 階絕對動差存在,而是
lim Σ E[ |Xi-μi|^2 I_{|Xi-μi|>εsn}]/sn^2 = 0
式中 sn^2 是 ΣXi 的變異數。如果再加上 Feller 條件 max σk^2/sn^2 → 0, 則上列 Lindeberg 條件是最寬鬆的了,意思是它也是必要條件。如果我們把獨立隨機變數序列且有二階動差的所有情形表示為 S 集合,結論 Σ(Xi-μi)/sn 分布收斂於 N(0,1) 的是 A 子集,滿足 Feller 條件的是 B 子集,那 A∩B 就是滿足 Lindeberg 條件的。
有一個問題是:n 個離散型隨機變數的和/平均/減去一個定量/乘除一個定量,結果仍然是離散型。那麼它的分布如何去近似一個連續型的,常態分布?談到機率分布,我們首先想到的是連續型的 p.d.f., 離散型的 p.m.f.。如果我們對二項分布的 p.m.f. 在 n→∞ 時做近似,也可以得出與常態 p.d.f. 漸近成比例的式子。但極限不是這麼看的。事實上所謂「機率分布」不是指 p.d.f./p.m.f.,或者說不是專指它們,而是指在相關的事件上如何配置機率的法則或方法,(累積)分布函數比較貼近,任何一個由隨機變數決定的事件能用區間的聯集和交集運算決定,而任何一個區間的機率能簡單地用分布函數決定。所以在中央極限定理或一般的分布收斂問題,實際上我們看的是分布函數序列的極限。如二項分布這類離散型分布的分布函數是階梯函數,而在經過標準化後,不同 n 對應的不連續點不固定,最後我們會得到:在數線上每一點,標準化後的二項分布函數序列都會收斂到常態分布。但是,再強調一下:我們的 n 總是有限的,不連續點始終存在。因此要用連續分布當做離散分布的近似,最好先將離散分布連續化,也就是將單點機率質量分散到一個區間,這就是所謂「連續性校正」的基礎。
極限的存在表示我們能以有限的 n 去近似極限。但是,我們通常不知道 n 要取多大,誤差又是多少?誤差和用於近似的 n 總是伴隨著。如果知道誤差規律,也就可估算 n 需要多大了。對於中央極限定理,Berry–Esseen 提出了一個誤差界限,可參考維基的介紹。有一種說法是 n = 30 就是大樣本,就可以適用中央極限定理以常態近似。我不知這說法具體來源,但我猜測
當 n = 30 或 n > 30 時,t 分布接近標準常態。所以稱之為大樣本,用標準常態的 z 代替 t.
這是在做常態群體平均數推論,群體標準差未知時,應該用 t 分布進行計算。但以前做這事純靠數值表,但由於計算不容易及印刷編幅限制,t 值表只到自由度 29, 對應 n = 30。而目前計算方便且自動化,恐怕沒有人在乎用 t 或用 z 近似(軟體都已給 t 的結果了你會多事去用 z 值重算?)事實上 df=29 時 t 和 z 的常用臨界值尚有 5-7% 的差距。更重要的:以上 n = 30 來分隔大小樣本根本不關中央極限定理的事!
想起從前學習、使用 Fortran,買了一本 IBM 的 SSP,其中使用 12 個 uniform(0,1) 亂數來近似常態分布。以下我們看看 uniform(0,1) 群體適用中史極限定理的情形:
直方圖對分布的描述可能太模糊,用分布函數可以看得較清楚:
在 n = 10 時其實已近似得不錯,模擬 1000 次的結果做 KS 檢定仍不能判斷它不是常態分布,畫 qq-plot 並做 W 檢定也一樣。那 n = 12 當然沒問題。然而,如前面二項分布, p = 0.2, n = 30 已合乎通常二項分布用常態近似的 rule of thumb,但 qq-plot 及 W 檢定的結果卻不盡如人意。不過近似本就和統計檢定結論是兩件事,所以可用與否就見仁見智了。
但是,如果群體是 log-normal 分布呢?不說 KS 和 W 檢定結果,單就偏態和峰度這兩個統計量來說, n = 100 時偏態係數 1.1,峰度係數(常態為 0)4.8; n = 200 時隨機性使得結果偏態峰度的表現偏向常態,n=500, 1000 時顯不偏態峰度仍未歸於常態,不過 KS 檢定接受它接近常態,但 W 檢定到 n = 1000 才接受。而從直方圖來看, n = 100 時的偏態其實相當明顯;從分布函數來看,n = 100 時與常態分布確有差異,能否認為是「近似」就是見仁見智的問題了。
再模擬一次,更能清楚 n = 30 的流行準則在 log-normal 是不適用的。
中央極限定理可談的其實還有很多:三角陣列的問題,多變量的問題,相依隨機變數序列的問題, martingale 的問題,delta method 的問題。不過我本身沒做深入研究,以前所學時日太久已多數遺忘,網路、專書可查資料很多,本文就此打住了。
留言列表