統計推論之基礎：大數法則

前曾談過統計推誧基礎，卻只談及幾種統計推論方向，以及一個被認為重要的「概似度原則（likelihood principle）」。其實，就個人淺見＿，那只是統計學家在底層的想法，真正能構成統計推論基礎的是機率，是「大數法則 ( Law of Large Numbers ) 」：在隨機抽樣下，樣本數足夠大時，樣本將在各方面表現與群體相近的特性。

前曾提過「隨機」很重要，因為它能確保樣本的全面代表性。但其實，隨機就是混亂、無章法、不可預測。實務上一個群體當然不是像理論群體如「常態群體」那樣沒有邊際，即使是後者也有一個大致範圍，使觀測值在範圍之外「似乎」可以忽略。然而，在範圍之內仍是不可預測、雜亂無序的。因此，要談及推論，不是對個體，而是對大勢。例如推論任一個體的身高、體重並無意義，推論群體平均、百分比、離差指標等才有意義。因此，想以 5, 6 個個案來代表群體那是做夢，認為 n = 30 就算大樣本那是自欺欺人，機率理論告訴我們：不但要隨機（那只是保障機率推理的可用性），樣本數還要夠大，使樣本具有代表性。

看這個從標準常態分布抽樣的例子：n = 30 時，直方圖與群體的常態曲線看不出有相像的地方，要說有那就是觀測值沒有跑太遠，大都圍繞在０左右兩個單位間；n = 100 時直方圖有較明顯向中心靠攏的模樣，但仍不是很接近常態曲線。大數法則說：如果樣本夠大，觀測值落在任一不是很小又不是特別大範圍的比例，將和落在同一範圍的機率接近。所以，樣本分布就會表現像群體分布的樣子。所以，從常態分布群體抽樣結果會像常態分布；從二項分布群體抽樣，結果就像二項分布。

只是， n = 50, 100 還是太小啊！如果樣本能大些，樣本分布就可能更接近群體分布，這也就意味著樣本能重現群體特性，完善「代表性」的意義。

自 W. S. Gosset 發表 t 分布及建議了 t　統計推論之後，小樣本大行其道，並引發了許多謬論，如 n = 30 以上是大樣本；樣本太小要用無母數（非參數化）方法等。事實上，小樣本固然可用機率理論得出統計推論程序，但天下沒有白吃的午餐，小樣本節省研究成本，結果就是誤差大，樣本代表性不夠。如 n= 30, 50 這種小樣本，可能在許多情況下推論群體平均數時尚可獲得滿意結果，但要由樣本看出群體的其他性狀，卻是遠遠不夠。

2022.1.16

看幾張不同分布、不同樣本大小的模擬結果：首先，一個隨意設定的群體，四個類別，分別指定 0.1, 0.2, 0.3, 0.4 的機率，樣本大小 n = 30, 50, 100, 500. 模擬數據其實只抽取 n = 500 一個樣本，而分別截取前 30，前 50，前 100 為較小樣本數之模擬結果，因此，在這圖示中不同樣本大小的結果會有相關性，但因只模擬一次，就好像相關散佈圖上一個點，看不出其相關性。在圖中，條圖顯示 n = 30 時前三組樣本比例並不隨同其理論機率；在 n=50 時則好一些，至少看出每一組比例比前一組高；n = 500 的樣本分布就和群體分布相當接近了。經驗分布函數和群體累積分布函數之比較可看出樣本愈大二者愈靠近。累積分布之離差顯示了樣本愈大離差幅度愈小的趨勢。

Poisson　分布的模擬結果也大體顯示相同趨勢：小樣本之樣本分布與群體分布其實差異不小，大樣本才能由樣本分布看出群體分布的樣子。由於顯示範圍的不同，在比較大小樣本的累積機率值差異及相對差異百分比時需要小心看才能看出真正變化。

常態群體的模擬，如前述 n = 30 時根本看不出樣本和常態群體有相像的地方，n = 100 勉強看出集、鐘形模樣，n = 500, 2500 就相當一致了。同時，雖然樣本愈大誤差愈小的趨勢無誤，但如未仔細比較，由於隨機性，卻不是很容易看出 n =100 和 500 之間， n= 500 和 2500 之間確實誤差有縮小的傾向。

Cauchy 分布，如果單獨畫出其機率密度曲線，看起來也是鐘形，像常態曲線一般。可實際上它的分布是「厚尾、高狹峰」。事實上它也是‵ t 分布一族，自由度 1 的 t 分布就是 Cauchy 分布。由於厚尾，因此很容易在抽樣時抽到「極端值」或「離群值」，因此在畫直方圖時很難畫，因為樣本愈大其分布愈廣，為了囊括 95% 以上樣本觀測值，只能畫出中間極少分組，旁邊都看不到了。而密度曲線也充分顯示了「高狹」的意義，峰頂都跑到圖外看不見了。即使因為這分布太古怪以致樣本平均數不會因樣本數增大而穩定（大數法則通常以樣本平均數來描述），但大數法則仍使固定範圍的樣本比例趨近其實際機率（大數法則的本義，也是隨機樣本「全面代表性」的基礎。）不過由於樣本擴大使資料範圍亦大幅擴大，我們很難清楚看出樣本比例趨於穩定的模樣，需非常仔細。例如 n= 500 和 2500 相比，x 在 ±100 之間，前者累積經驗分布與真實分布差異 -0.015～+0.04，而後者是 -0.005～+0.015，再看 n = 100 時則似乎在 -0.01～0.12 之間。由於大數法則仍適用，所以雖然不能做平均數的推論（群體平均數不存在，樣本平均數不穩定），但做分位數、中位數推論卻毫無問題。據說金融商品如股票之價格波動就不適合用常態分布描述

等死的老賊

劉應興的部落格

等死的老賊發表在痞客邦留言(1) 人氣(349)

[25/06/07] 謝盛文於文章「容忍區間 (Tolerance Inte...」留言：
老師好，無意間看到老師的部落格，老師從成大退休後不知道是否一...
[25/04/19] Lucky Nina 於文章「隨機變數的隨機序 (Stochastic...」留言：
隨機變數的比較及順序概念十分重要，尤其在機率空間中的應用。 ...
[23/03/29] 訪客於文章「政府給民眾發現金好還是消費券好？...」留言：
打錯字了，消費券誤成消費者。另外，2008年11月提出發消...
[23/03/29] 訪客於文章「政府給民眾發現金好還是消費券好？...」留言：
查了一下，馬英九當時發消費者，是2008年11月行政院提出建...
[23/03/01] 等死的老賊於文章「樣本平均數與樣本變異數的獨立性...」留言：
對於微分方程 y"y - y'^2 + y^ = 0, 若 ...
[23/03/01] 等死的老賊於文章「樣本平均數與樣本變異數的獨立性...」留言：
解最後那微分方程，可令 p = y'。則 y" = dp/d...
[23/02/09] 等死的老賊於文章「今天開始學習 XLisp...」留言：
Steve Nunez 於 19 July 2022 釋放 ...
[22/04/16] 訪客於文章「網購被騙記...」留言：
又是白打了留言 ... 一句「認證碼錯誤」什麼都不見了。 ...
[22/04/03] 訪客於文章「談中央極限定理...」留言：
原本在搜尋引擎找出一堆 Blog 文章，不知哪幾篇值得花時間...
[22/03/27] 訪客於文章「再談質數表計算及質因數分解...」留言：
還真找到了 prime2 的改進方法：只考慮奇數。於是，使用...

劉應興的部落格

歡迎光臨劉應興在痞客邦的小天地由側欄的文章分類可以知道這個部落格的主題。