二項群體比例 p 的 1-α 水準信賴區間,通常是以常態近似計算:
p 的常態近似區間 = [ phat - z* √[phat(1-phat)/n], phat + z* √[phat(1-phat)/n] ]
加連續性校正 : [ phat - a - z* √[phat(1-phat)/n], phat + a + z* √[phat(1-phat)/n] ]
其中 a = 1/(2n), z* 是標準常態右尾機率 α/2 臨界值,如 α = 0.05 時 z* = 1.96。由於推理簡單,計算方便,幾乎成為經典算法。然而,此算法之號稱「近似 1-α 信賴度」,卻是迭受議論。且看 95% 信賴水準之下其覆蓋機率:
未經連續性校正的上述區間,稱為 Wald 區間,是和 Wald 檢定同一系的(參見前面文章「統計假說檢定:信賴區間做為替代」),大範圍其覆蓋機率都低於名目的信賴水準。即使經連續性校正,Wald 信賴區間增寬 1/n, 因而有較多情形覆蓋機率超過名目的信賴水準,但仍有許多情況覆蓋機率不及信賴水準,特別是在 p 偏低或偏高時。這種現象不只在 95% 信賴水準才如此,1-α = 0.90, 0.99 時也一樣,而且名目信賴水準越高,實際覆蓋機率似乎越難達到顯信賴水準的要求。統合不同 n 值,不同信賴水準,在 499 個不同 p 的值中,未經連續性校正的 Wald 信賴區間,平均 2/3 實際覆蓋機率低於信賴水準;經連續性校正,平均仍有 1/3 的情形真實覆蓋機率未達信賴水準。
我們在做二項群體比例 p 之假說檢定常態近似檢定時,通常不是用 Wald 統計量 (phat-p0)/√[phat(1-phat)/n] 而是用 (phat-p0)/√[p0(1-p0)/n],稱為 (efficient) score statistic。與此對應的,信賴區間可考慮解不等式:
-z* ≦ (X-np)/sqrt(np(1-p) ≦ z*
結果得:
信賴下限: {(phat+z*^2/2n)-z*√[phat(1-phat)/n+(z*/2n)^2]}/(1+z*^2/n)
信賴上限: {(phat+z*^2/2n)+z*√[phat(1-phat)/n+(z*/2n)^2]}/(1+z*^2/n)
當 x = 0 時下限為0, x = n 時上限為 1。若考慮連續性校正,則上限之 phat = x/n 改為 p' = phat-1/(2n);上限之 phat 改為 p" = phat+1/(2n),而 x = 0 或 n 時對應的下、上限仍分別取 0 或 1。由於此法來自 score test,所以又被稱為 score interval。
Wald 區間與 score 區間都屬於利用常態近似,屬於大樣本方法,因此當 p 趨於太小或太大時,這類大樣本近似區間的覆蓋機率表現不佳。取而代之的,可以用正確的二項機率方法。假設 p = p1 使 P[X≧x; p] = α/2,則對任意比 p1 小的 p,
P[ X ≧ x; p ] < P[ X ≧ x; p1] = α/2.
意味 p 比 p1 小的可信度不超過 α/2,因此 p1 是 p 的一個信賴 下限。同理,若取 p = p2 使二項分布左尾機率不超過 α/2,則 p2 是 p 的一個 1-α/2 水準信賴上界,而 [p1, p2] 成為 1-α 水準之信賴區間。由於二項分布尾部機率與 beta 分布尾部機率的對應關係,再由於 beta 分布和 F 分布的關係,過去是利用 F 分布數值表來完成正確機率法信賴區間;現在計算工具進步,可以宣接由 beta 分布計算 p1, p2:
p1 = 參數 (x, n+1-x) 之 beta 分布左尾 α/2 機率分位數,
p2 = 參數 (x+1,n-x) 之 beta 分布右尾 α/2 機率分位數。
Agresti & Coull (1998) 認為正確機率法太保守,score 法計算太煩瑣,Wald 法覆蓋機率又不讓人滿意,提出樣本數加 4 的計算方法:
點估計(信賴區間中點): ptilde = (x+2)/(n+4)
信賴區間: [ ptilde - z*√[ptilde(1-ptilde)/(n+4)], ptilde + z*√[ptilde(1-ptilde)/(n+4)] ]
這結果有貝氏方法的解釋,ptilde 等於以 beta(2,2) 為先驗分布之貝氏估計;而在 95% 信賴水準下 score 區間中點
(phat+z*^2/2n)/(1+z*^2/n) ≒ (phat+2/n)/(1+4/n) = ptilde
因為此時 z* = 1.96,也常採用 z* = 2 於實際計算。個人認為或許可直接用 z*^2 取代 ptilde 中的 4,稱之為修訂版。
我們來看看 5 種信賴區間覆蓋機率、平均區間長度(在每一群體設定,n, p 之下,信賴區間中點及其長度都與抽樣結果有關,是隨機變數)、及區間長度之標準差:
以上是 90% 信賴度下不同樣本數之表現。從這些圖形可看出,即使樣本數達 500, Wald 區間的覆蓋機率也偏低,雖然其區間長度較小;而正確機率算法覆蓋機率都在信賴水準之上,其區間長度亦是各方法中最長。區間長度越長,表示其所揭露的訊息越模糊;但另一方面,覆蓋機率小於信賴水準,一方面代表真實信賴度不足因而訊息不可靠,另方面它卻告知訊息接受者名目信賴水準而非真實信賴度,有誤導決策之嫌。不同名目水準下建構的信賴區間,都是 Wald 區間信賴度不足;而正確機率法太保守。
上面是 95% 信賴水準下的結果;以下則是 99% 信賴水準的。當然,樣本數如果足夠大,常態近似效果不錯,除了極小極大的群體比例 p 以外,各種方法的信賴區間表現趨於一致。極小、極大的 p (p < 0.1 或 p > 0.9) 即使 n = 500, 二項分布也很難說接近常態。
樣本數 n 不夠時,以連續型的常態分近似應加連續性校正。連續性校正不只是為了計算更精確,更因為離散型和連績型算法基本不同,既然要用連續型分布近似離散型,當然要把它們調整成類似的。由於常態近似的目的是用連續型的常態分布當做二項分布的近似並依據常態分布進行計算,所以要把離散型的二項分布先經過「連續化」,把集中於 x 的機率給平均分散到區間 [x-1/2,x+1/2), 這就是連續性校正計算的基礎,無論在‵機率計算、假說檢定、或是信賴區間計算都是如此。經連續性校正,Wald 法信賴區間不再總是在名目水準之下,但它仍可能低於名目水準許多。除了 Wald 法以外,在信賴水準 90%, 95% 之下,n = 5, 10 時覆蓋機率幾乎都在信賴水準之上;信賴水準 99% 時 score 法,Agresti 法及修定法即使覆蓋機率低於信賴水準者,差異也不太大,只有 score 法有低過一個百分點的。
從平均區間長度來看,除了 Wald 區間兩端最低中間最高以外,其他幾種其實差異不大。雖說 Agresti & Coull 批評正確機率法太保守,從平均區間長度來看,與 score 法等相比倒不是太明顯,反而在某些時候 Agresti 法似乎有比正確機率法稍長的平均長度。不過從計算簡單而覆蓋率表現不錯的角度來看,Agresti 或其修訂版似為最佳選擇。當信賴水準為 95% 時 z*^2≒4, 所以修正法主要是針對信賴水準不是 95% 的情形,以下是 n = 10,信賴水準 90%, 99% 時 score 法, Agresti 法及修訂法之比較:
從圖上看來,Agresti 法在信賴水準不是 95% 時與 score 法有些差距,倒是本文所提修訂版本在覆蓋機率及區間長度特性方面都和 score 法較接近,不過計算幾乎和 Agresti 法一樣簡單,在常用 z* 值不需特意計算或查表時,是可以考慮的方法。若覺得 z* 數字太熉瑣,不妨取近似值,如信賴水準 90% 時取 z*^2 ≒ 2 或 3 (z*^2 ≒ 2.7),信賴水準 90% 時取 z*^2 ≒ 4,信賴水準 99% 時取 z*^2 ≒ 6 或 7 (z*^2 ≒ 6.64)。雖未實際算過,但以前面計算結論來看結果應該相近。