前曾談過統計推誧基礎,卻只談及幾種統計推論方向,以及一個被認為重要的「概似度原則(likelihood principle)」。其實,就個人淺見_,那只是統計學家在底層的想法,真正能構成統計推論基礎的是機率,是「大數法則 ( Law of Large Numbers ) 」: 在隨機抽樣下,樣本數足夠大時,樣本將在各方面表現與群體相近的特性。
前曾提過「隨機」很重要,因為它能確保樣本的全面代表性。但其實,隨機就是混亂、無章法、不可預測。實務上一個群體當然不是像理論群體如「常態群體」那樣沒有邊際,即使是後者也有一個大致範圍,使觀測值在範圍之外「似乎」可以忽略。然而,在範圍之內仍是不可預測、雜亂無序的。因此,要談及推論,不是對個體,而是對大勢。例如推論任一個體的身高、體重並無意義,推論群體平均、百分比、離差指標等才有意義。因此,想以 5, 6 個個案來代表群體那是做夢,認為 n = 30 就算大樣本那是自欺欺人,機率理論告訴我們:不但要隨機(那只是保障機率推理的可用性),樣本數還要夠大,使樣本具有代表性。
看這個從標準常態分布抽樣的例子:n = 30 時,直方圖與群體的常態曲線看不出有相像的地方,要說有那就是觀測值沒有跑太遠,大都圍繞在0左右兩個單位間;n = 100 時直方圖有較明顯向中心靠攏的模樣,但仍不是很接近常態曲線。大數法則說:如果樣本夠大,觀測值落在任一不是很小又不是特別大範圍的比例,將和落在同一範圍的機率接近。所以,樣本分布就會表現像群體分布的樣子。所以,從常態分布群體抽樣結果會像常態分布;從二項分布群體抽樣,結果就像二項分布。
只是, n = 50, 100 還是太小啊!如果樣本能大些,樣本分布就可能更接近群體分布,這也就意味著樣本能重現群體特性,完善「代表性」的意義。
自 W. S. Gosset 發表 t 分布及建議了 t 統計推論之後,小樣本大行其道,並引發了許多謬論,如 n = 30 以上是大樣本;樣本太小要用無母數(非參數化)方法等。事實上,小樣本固然可用機率理論得出統計推論程序,但天下沒有白吃的午餐,小樣本節省研究成本,結果就是誤差大,樣本代表性不夠。如 n= 30, 50 這種小樣本,可能在許多情況下推論群體平均數時尚可獲得滿意結果,但要由樣本看出群體的其他性狀,卻是遠遠不夠。
2022.1.16
看幾張不同分布、不同樣本大小的模擬結果:首先,一個隨意設定的群體,四個類別,分別指定 0.1, 0.2, 0.3, 0.4 的機率,樣本大小 n = 30, 50, 100, 500. 模擬數據其實只抽取 n = 500 一個樣本,而分別截取前 30,前 50,前 100 為較小樣本數之模擬結果,因此,在這圖示中不同樣本大小的結果會有相關性,但因只模擬一次,就好像相關散佈圖上一個點,看不出其相關性。在圖中,條圖顯示 n = 30 時前三組樣本比例並不隨同其理論機率;在 n=50 時則好一些,至少看出每一組比例比前一組高;n = 500 的樣本分布就和群體分布相當接近了。經驗分布函數和群體累積分布函數之比較可看出樣本愈大二者愈靠近。累積分布之離差顯示了樣本愈大離差幅度愈小的趨勢。
Poisson 分布的模擬結果也大體顯示相同趨勢:小樣本之樣本分布與群體分布其實差異不小,大樣本才能由樣本分布看出群體分布的樣子。由於顯示範圍的不同,在比較大小樣本的累積機率值差異及相對差異百分比時需要小心看才能看出真正變化。
常態群體的模擬,如前述 n = 30 時根本看不出樣本和常態群體有相像的地方,n = 100 勉強看出集、鐘形模樣,n = 500, 2500 就相當一致了。同時,雖然樣本愈大誤差愈小的趨勢無誤,但如未仔細比較,由於隨機性,卻不是很容易看出 n =100 和 500 之間, n= 500 和 2500 之間確實誤差有縮小的傾向。
Cauchy 分布,如果單獨畫出其機率密度曲線,看起來也是鐘形,像常態曲線一般。可實際上它的分布是「厚尾、高狹峰」。事實上它也是‵ t 分布一族,自由度 1 的 t 分布就是 Cauchy 分布。由於厚尾,因此很容易在抽樣時抽到「極端值」或「離群值」,因此在畫直方圖時很難畫,因為樣本愈大其分布愈廣,為了囊括 95% 以上樣本觀測值,只能畫出中間極少分組,旁邊都看不到了。而密度曲線也充分顯示了「高狹」的意義,峰頂都跑到圖外看不見了。即使因為這分布太古怪以致樣本平均數不會因樣本數增大而穩定(大數法則通常以樣本平均數來描述),但大數法則仍使固定範圍的樣本比例趨近其實際機率(大數法則的本義,也是隨機樣本「全面代表性」的基礎。) 不過由於樣本擴大使資料範圍亦大幅擴大,我們很難清楚看出樣本比例趨於穩定的模樣,需非常仔細。例如 n= 500 和 2500 相比,x 在 ±100 之間,前者累積經驗分布與真實分布差異 -0.015~+0.04,而後者是 -0.005~+0.015,再看 n = 100 時則似乎在 -0.01~0.12 之間。由於大數法則仍適用,所以雖然不能做平均數的推論(群體平均數不存在,樣本平均數不穩定),但做分位數、中位數推論卻毫無問題。據說金融商品如股票之價格波動就不適合用常態分布描述
留言列表