我們介紹過點估計方法,也談過假說檢定方法,接著我們來談談區間估計的方法,也就是如何構造信賴區間。這裡我們只談單一實數值參數的信賴區間,或有時稱信賴域、信賴集合,因為在某些情形或許不是取單一區間,雖然實務上似乎沒見過。

第一個方法是反轉假說檢定的程序來得到信賴區間。我們曾提過:假說檢定與信賴區間是一體兩面(見:統計假說檢定:信賴區間做為替代)。更具體地說:考慮一系列的假說檢定問題:

H0: θ = θ0  對  H1: θ ≠ θ0

在顯著水準 α 之下, 接受域 A(θ0) (x 落在此區則不拒絕 H0) 代表 θ0 就當前樣本資料來看是對 θ 的一個合理的可能值。我們把這一系列檢定中其接受域會包含當前樣本的虛無參數值 θ0 收集起來:

Θ*(x) = {θ0: x in A(θ0)}。

這意味在 x-θ 這二維座標系上有一個區域 A, 於 θ 軸上取一點 θ0 畫出 θ = θ0 直線穿過 A, 投影到 x 軸就是 A(θ0); 在 x 軸上取一點 x (當前樣本資料) 畫出垂線穿過 A, 投影到 θ 軸就是 Θ*(x)。也就是說:

A(θ) = { x; (x,θ) in A },   Θ*(x) = { θ; (x,θ) in A }

所以, x 落入 A(θ) 也就是 (x,θ) 在 A 中, 同時也是 θ 在 Θ*(x) 中。

在檢定問題上, 顯著水準 α 表示

1-α ≦ P[ X in A(θ) ; θ ]
    =  P[ (X,θ) in A ; θ ]
    =  P[ θ in Q*(X) ; θ ]

也就是說: 隨機的信賴域能覆蓋正確 θ 值的機率至少 1-α, 這就是說我們可以有 1-α 的信心說 θ 在信賴域 Θ*(x) 之中。

由假說檢定程序反推信賴域的方法,理論上也可用在同時對數個參數做推論,如由 H0: μ = μ0, σ = σ0 對 H1: μ ≠ μ0 or σ ≠ σ0 來得出 (μ, σ) 的聯合信賴域。不過,如果不能得到好的檢定程序,當然也得不到好的信賴區間。

建構信賴區間的第二種方法稱「樞軸量法 ( pivot method, 或譯:中樞法 )」。Pivot, 也稱 pivotal quantity, 是由樣本資料和群體(未知)參數所構造,其分布與群體未知參數無關的一個隨機量。隨機是因樣本是隨機的。設 T(X,θ) 是一個樞軸量,因為它的分布和未知參數無關,也就是說理論上它的分布是已知的(至於實務上如何找出它的分布是另一個問題)。因為 T 的分布已知,如果 T 和 θ 的關係是單調的,例如 T=√n(Xbar - θ)/S, 眾所熟知的 t 變量,它和 θ 的關係是負斜率直線;又如

T = (S1^2/σ1^2)/(S2^2/σ2^2) = (S1^2/S2^2)/(σ1^2/σ2^2),

兩獨立常態群體建構變異比信賴區間所用之 f 樞軸量,它和參數 θ = σ1^2/σ2^2 是反比關係,那麼由 T 的分布可以找到 a, b 使 P[ a ≦ T ≦ b ; θ ] ≧ 1 - α, 經由解不等式 a ≦ T(x, θ) ≦ b 即可得到 θ 的一個 1 - α 水準的信賴區間。這種方法,需要有一個樞軸量,而且樞軸量還要與 θ 成單調關係。如‵果它們的關係不是單調的,如何從 T 的分布取一個區域來反算 θ 的信賴域,就是一個複雜問題了。

信賴區間是 θ 的區間估計,算是點估計的延伸。那麼,理所當然,我們可以考慮「點估計 ± 容許誤差」的形式建構信賴區間。這方法的困難在於一般而言難以確定「容許誤差」要如何決定。一般而言,點估計的「標準誤」是可以估計的,如果樣本數夠大,我們可能可以主張中央極限定理適用,於是「點估計 ± z*.標準誤」就成為 θ  的近似 1 - α 水準的信賴區間。實務上其實很常用這種方法,但它卻有幾個問題:首先樣本數多少才「夠大」通常是難以得知的,在少數特定問題可能有人提出 rule of thumb, 但其實那些參考準則的誤差多大也沒有明確數字可供參考,而大多數情況使用者更是抓瞎,只能盲目引用甚至依循了一些錯誤的指引(如: n = 30 以上是大樣本)。其次,估計的標準誤數值畢竟只是估計,它與點估計量分布真正的標準差仍是有些差距的,而實務上我們又常對這些差距茫然不知。想一想常態群體下樣本平均數的標準差公式我們是知道的,但礙於群體標準差未知以樣本標準差取代,而使 z 變成 t,其分布就比較散了。雖然 t 比 z 分散的程度隨著 n 增大而很快縮減,但這種收斂速度不一定能適用到所有情形,例如群體不是常態分布時,例如點估計量不是樣本平均數時。回顧一下二項群體比例的 Wald 信賴區間表現,就知道太相信那些廣為人知的參考指引有時可能是太樂觀了。

引用中央極限定理之外,也有人考慮如 Chebyshev 的機率不等式。這通常會使區間估計趨於保守,或區間太寬或信賴水準偏低。不過,即使是傾向過於保守,也不能保證覆蓋機率在信賴水準之上,因為我們只有點估計量的估計的標準誤,與不等式所要求的點估計量真正的標準差不等。所以,努力於點估計量的正確分布形式是必要的,屆時需要機率不等式時,也不需要 Chebyshev 那種包山包海無比寬鬆的版本,而是採取更能貼近實際機率的不等式。

如果統計量 T 的分布與參數 θ 成單調的關係,我們就能利用 T 的分布來建構 θ 的信賴區間,例如

二項分布: P[ X≦k; n, p ] = P[ T ≧ p; beta(x+1, n-x) ]
Poisson:  P[ X≦k; λ ] = P[ T ≧ λ; gamma(k+1,1) ]

意思是二項分布左尾機率(分布函數值)等於對應參數之 beta 分布的右尾機率,因此與 p 是成單調遞減的關係;類似的,Poisson 分布左尾機率等於對應參數之 gamma 分布加尾機率,因此與參數 λ 也是單調遞減的關係。

定理:假設統計量 T 的分布函數 G(t; θ) 和參數 θ 有下列單調關係:

(a)若 G 處處連續,則只要求單調關係;

(b)若 G 有不連續點,則要求 G(t; θ) 與 θ 之間有嚴格單調關係.

給定 α1, α2, 若對 T 的所有可能值 t,都能找到 l(t), u(t) 滿足:

(1) 若對每一 t 值,G(t, θ) 是 θ 的單調上升函數,

F(t; θ = l(t)) = α1,  F(t; θ = u(t)) = 1 - α2

(2) 若對每一 t 值,G(t, θ) 是 θ 的單調下降函數,

F(t; θ = l(t)) = 1 - α2,  F(t; θ = u(t)) = α1

則 [l(t), u(t)] 是 θ 的 1 - α1 - α2 水準信賴區間。

以第二種情形(單調下降,如二項和 Poisson 分布)為例,θ = l(t) 時 F(t) = 1 - α2, 若 θ < l(t), 則 θ 落在 beta, gamma 分布左尾機率 α2 範圍內,意味對這些 θ 我們的信心最多是 α2;另一邊,對 θ > u(t) 我們的信心最多也只能賦予 α1。所以,我們對 θ 落在 [l(t), u(t)] 的信心至少是 1 - α1 - α2。通常是取 α1 = α2 = α/2。

上面對「信心」的解釋也許有人不同意。信賴水準的確保是來自覆蓋機率,不過這卻需要數學的證明。仍以 (2) 為例,因為 (1) 的證明也類似。

我們要證明

 P[ l(T) ≦ θ ≦ u(T) ; θ ] ≧ 1 - α1 - α2,

對所有 θ 都成立。
根據假設, G(t; θ) 與 θ 成遞減關係,

θ < l(t) 則 G(t;θ) ≧ G(t; θ=l(t)) = 1 - α21
θ > u(t) 則 G(t;θ) ≦ G(t; θ=u(t)) = α1

若 G(t; θ) 與 θ 是嚴格遞減關係, 則以上二式右邊都是嚴格不等式,,  而邏輯關係則是雙向蘊涵的。
結果,在連續型情形,

P[ l(T) ≦ θ ≦ u(T); θ ]
 =  1 - P[ θ < l(T); θ ] - P[ θ > u(T); θ ]
 ≧  1 - P[ G(T;θ) ≧ 1-α2; θ ] - P[ G(T; θ) ≦ α1; θ ]
 =  1 - α2 - α1

最後一個等式源於分布函數變換具均勻分布;倒數第二式的不等號來自前面單向邏輯蘊涵關係。
在 G 有不連續點情形, 嚴格單調性使上面那個不等式成為等式, 故

P[ l(T) ≦ θ ≦ u(T); θ ]
 =  1 - P[ θ < l(T); θ ] - P[ θ > u(T); θ ]
 =  1 - P[ G(T;θ) > 1-α2; θ ] - P[ G(T; θ) < α1; θ ]
 =  P[ G(T;θ) ≦ 1-α2; θ ] - P[ G(T; θ) < α1; θ ]

就有不連續點的分布函數變換而言, 一般 P[G(T)≦p] ≦ p; 但若 p 是 G(t) 的一個可能值, 則 P[G(T)≦p] = p。
此處依假設, 在任何 t 值, G(t;θ) 在 θ = l(t) 時可達 1-α2。故 

P[ G(T;θ) ≦ 1-α2; θ ] = 1 - α2, 

另外,

P[ G(T; θ) < α1; θ ] ≦ P[ G(T; θ) ≦ α1; θ ] = α1

所以

P[ l(T) ≦ θ ≦ u(T); θ ] ≧ 1 - α2 - α1

由於需要 1 - α 水準的信賴區間,我們可任意搭配 α1, α2 只要其加總是 α,例如有要求依「最短長信賴區間」配置的 (不只在這一方法適用)。不過,α1, α2 固然可任意搭配,卻是要事先定好。如在二項比例 p 的信賴區間一文中因覺得正確機率法較保守意圖修訂而在 x = 0 或 n 時把兩尾機率集中到一尾,破壞了上述結構,導致不能保證覆蓋機率都在信賴水準之上。

自助重抽法 ( bootstrapping ) 可用於以「點估計量±容許誤差」的方法,普通模擬法可用於樞軸量分布的模擬。貝氏方法與決策理論方法是不同領域且不予討論,另外不乏個別問題之特殊方法,或既有方法之一些變形、修改;另外也有給以不偏性或不變性之類的限制,直接要求信賴區間在某方面達最優目標的。這些就不談了。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()