談統計推論之「不偏性」－劉應興的部落格

大一學統計，談到點估計時最先學到的是點估計有幾個評估標準，其中首要的是「不偏性 ( unbiasedness )」，也就是基於隨機抽樣理論，參數 θ 的估計量 hat(θ) 是一個隨機變數，而我們假想從群體中重複無數次地抽出大小為 n 的樣本，計算 hat(θ)，這些 hat(θ) 形成一個分布，稱為 hat(θ) 的抽樣分布 ( sampling distribution )，它的平均數，也就是所有 hat(θ) 的平均值，希望是等於 θ。直觀上感覺這是很合理的，隱約間會覺得：對啊！若是 hat(θ) 有偏，就像打靶不瞄準紅心，那不是很奇怪？

然而，學到抽樣方法，有些抽樣設計同時談到群體平均數或總值的無偏估計法和有偏估計法；到了迴歸分析，後來認識了「脊迴歸估計 (ridge regression estimator)」,愕然發現，不一定耍堅守無偏估計這條路。到了研究所，基礎統計推論這門課給下了定論：不偏性不是所謂的「優良性質」，或者說它並不是好判準，它根本是對估計量選擇的一個嚴厲的、不好的限制。為甚麼在某些抽樣設計下有不偏估計還要找有偏估計？為甚麼在線性迴歸模型中古典或加權最小平方估計是所有線性不偏估計中最好的，卻還要找另一個有偏的線性估計——脊估計？無他，稍微犧牲一點偏誤，就某種標準如均方誤差 (mean squared error) 而言，可以得到更小的平均誤差。畢竟，不偏只是理論上的，是無限多次重複抽樣的平均結果，但我們手上只有一個樣本，要看理論上無限次抽樣的平均結果，為甚麼不直接看 MSE 或其他誤差衡量準則，而要先用「不偏性」這個條框把自己限制住？因為不偏估計量相對於所有估計量實在太少了，有時候甚至找不到，有時候還是唯一一個。不是嗎？如果群體是屬於指數族分布（非指數分布族，如常態、二項分布、Poisson 分布等許多都屬於指數族。當然，僅含 scale parameter 的指數分布也在其中，但有 location parameter 的指數分布則不在內。）則基於最小充分統計量的不偏估計是唯一的，而且有不偏估計的參數僅是其自然參數的某種特定型的函數。而根據充分性原則 ( sufficiency principle )，對於參數的推論要完全依賴概似度，歸結到底就是要完全依賴充分統計量，如果最小（最簡）充分統計量存在的話，對參數的點估計顯然就落到「（最小）充分統計量的函數」這個範圍。有無數充分統計量的函數可當參數的合理估計，但不偏估計只有一個，這限制太大了！

在假說檢定，也有「不偏檢定」，簡單地說就是檢定力 ( power of test ) 不小‵於最大型Ｉ誤機率 ( probability of type I error, 通常在連續型就等於顯著水準 )。所謂檢定力和型Ｉ誤機率都是拒絕虛無假說 ( null hypothesis ) 的機率，只是看真實參數值落在對立假說區或虛無假說區而有不同的說法。從統計決策理論的觀點，不偏估計和不偏檢定其實都只是所謂「風險不偏 ( risk unbiased )」的特例。風險不偏的要求是

　　E_θ[L(θ,δ(X))] ≦ E_θ[L(θ',δ(X))] for all θ and θ'

意思是說：在損失函數是 L(θ,a) 的情況下，如果真實參數是 θ，泱策函數 δ(X) 相對於 θ 的風險值（平均損失）總是不超過其相對於非真實 θ 值的風險值。

對單參數之點估計，由於＿

　　E_θ[(θ'-δ(X))^2] = E_θ[(θ－δ(X))^2] +(θ-θ')^2

如果 δ(X) 是平均不偏的，即 E_θ[δ(X)] = θ, 則 δ(X) 是風險不偏的。反之，若 δ(X) 有偏，例如它的平均是 θ" 而非 θ，那麼

E_θ[(θ-δ(X))^2] - E_θ[(θ'-δ(X))^2] = E_θ[(θ-θ')(θ+θ'-2δ(X))] = (θ-θ')(θ+θ'-2θ")

其中 θ" 與 θ 有關（因為是 δ(X) 在 θ 處之期望值。所以，至少在 θ' = θ" 時得上式左邊第一項比第二項高出 (θ-θ")^2, 故 δ(X) 不是 θ 的風險不偏估計。

對假說檢定問題來說，假設採用 0-1 損失

　　L(θ,a) = 0 當 H0 成立時 a 是不拒絕 H0，當 H1 成立時 a 是拒絕 H0;

　　　　　= 1 當 H0 成立時 a 是拒絕 H0，當 H1 成立時 a 是不拒絕 H0.

則

　　E_θ[L(θ',δ(X))] = P{拒絕 H0} = α, 當 θ' 與 θ 同屬 H0;