統計中樣本大小的計算說難也難,說易也易。說難,傳統抽樣方法(基於設計的抽樣,design-based sampling)的教本上公式一大堆,這些公式無非是群體平均或總值點估計式、前項估計式之變異數或其估計、樣本數計算。而現在的抽樣方法更有基於模型的抽樣 (model-based sampling),其樣本數決定當然是另一種方式。再有各種統計分析方法,研究計劃中計算所需樣本數,或研究後檢討:如果再做相關研究,要取多大樣本。統計方法繁多,計算樣本數(樣本大小,sample size)的公式是隨著統計方法跑的,當然少不了。但統計統計量 T 的誤差,以標準誤 SE(T) 來衡量,都是 1/√n 的級,那麼要統計量的標準誤差降低 10%,樣本數就提高 23.5%:

c/√n' = (1-0.1)c/√n  ==>  n' = n/(1-0.1)^2 ≒ (1+0.235)n

不管任何一種統計量,只要其標準誤如上所述與 √n 呈反比,結果就是這樣。從這一點來看,樣本數計算又是簡單的一件事。

統計(推論)無非點估計、區間估計、與假說檢定,其中區間估計不是

點估計  ±  標準化臨界值 × 點估計之標準誤

或把假說檢定程序反轉:

  θ0  in  {θ 之 1-α 信賴域}  <——>  對 H0: θ = θ0 之 α 水準檢定不能拒絕 H0

以前者而論,「標準化臨界值」只和信賴水準 1-α (和點估計量)有關,「點估計之標準誤」則如前述,一方面是點估計方法中誤差衡量標準,另則它和 √n 呈反比。因此這類統計方法樣本數之計算等同於點估計問題樣本數之計算。至於檢定程序反轉之信賴區間,實際上也常可寫成第一種形式,否則用假說檢定的樣本數計算方式也就是了。因此,除了用

誤差要縮小 10%,樣本要增大 23.5%

的一般性準則外,就是根據點估計和假說檢定兩種統計方法計算。

點估計問題的樣本數計算,雖然依抽樣設計、統計模型及欲估計的參數和實際估計式,其實際計算公式有簡單有煩瑣,但無非是由最簡單的簡單隨機抽樣公式而來:

Var(Xbar) = σ^2/n  或  (σ^2/n)(1-n/N)

第二個式子多了 1-n/N 因子(或用 (N-n)/(N-1), 視 σ^2 在有限群體如何定義而決),稱為有限群體校正數 (finite population correction factor, 簡記 fpc)。

誤差 = σ/n  ==>  n = σ^2/(誤差)^2

即使在有限群體因多了 fpc 而點估計量的「誤差」不是嚴格和 √n 成反比,但

  誤差 = √{σ^2(1/n-1/N)}  ==> n = 1/{(誤差)^2/σ^2 + 1/N} = n*/(1+n*/N)

最後一式中 n* = σ^2/(誤差)^2,是假設群體無限所算得的樣本數,而有限群體之樣本數 n 只是 n* 做個校正。如果不是簡單隨機抽樣,例如在分層樣本,

Var(Xbar) = Σ Wi^2σi^2[1/(nWi*)-1/(NWi)]

式中 Wi = Ni/N 是群體第 i 層比重,而 Wi* 是對應的樣本比重,由抽樣設計決定,一個選擇是 Wi* = Wi若「誤差」指總平均估計 Xbar 之標準差,即上式的平方根,則

n = Σ(Wi^2/Wi*)σi^2/{(誤差)^2+ΣWiσi^2/N} = n*/(1+Cn*/N)

一樣 n* 是忽略各層 fpc 時之樣本數,而 n 是實際需要的樣本數,C = ΣWiσi^2/Σ(Wi^2/Wi*)σi^2 是權值校正,若 Wi* = Wi 則 C = 1。再怎麼複雜的抽樣設計,其基礎無非是簡單隨機抽樣的概念。當然這不是說複雜抽樣設計的平均數估計、誤差計算等很容易,只是說萬變不離其宗,平均數估計如此,誤差之計算亦如此,最底層都是簡單隨機抽樣的公式。而只要有計算統計量或估計量誤差的公式,自然也就知道由所願意容忍的誤差,反算所需樣本大小。

有時我們要控制估計誤差的不是簡單的樣本平均數或總樣本平均數如前述,例如比率估計、相對危險、勝算比、偏態或峰度等,很多時候甚至沒有「公式」可計算其抽樣誤差,但是或許有近似公式,例如勝算比:

      E = Se(log([n(11)n(22)]/[(n12)n(21)]) ≒ √{1/n(11)+1/n(12)+1/n(21)+1/n(22)}

基本上 n(ij) ≒ np(ij),也就是誤差仍與 √n 成反比,因此要控制誤差仍是依假設的 p(ij) 決定:

n = (1/p(11)+1/p(12)+1/p(21)+1/p(22))/E^2

或經由一小樣本計算得其誤差值再依所能容忍誤差大小調整計算;在沒有公式只有算法的情形,更是需要一初步樣本來設算誤差,然後計算實際需要的樣本大小。

假說檢定和點估計在決定樣本大小的計算中主要在於衡量「誤差」的方式。點估計,或區間估計固定信賴水準下衡量誤差都和估計量和所估計的目標參數在同一尺度;而假說檢定,在控制顯著水準固定之下,卻是看參數在對立假說範圍內某點的型Ⅱ誤機率或其反面:檢定力,看的是機率。統計量的分布廣度大底和 √n 成反比,但機率卻不是。再者,由於控制顯著水準,代表同一種檢定統計量,在不同樣本大小時拒絕 H0 的臨界值不同,因此必須同時看檢定統計量在虛無參數值 θ0 時和對立參數值 θ1 時的分布。這也是和估計問題不同的,不管是點估計或區間估計,我們都沒有假設 θ 的值,有需要時,估計量的值就當做是參數的值,因為估計量本來就是用來估計 θ 的。

假說檢定的形式是:把參數空間 Θ 分割為 Θ0∪Θ1,而虛無假說是 H0: θ in Θ0, 對立假說是 H1: θ in Θ1。檢定時選定一個 α 稱為「顯著水準」, 要求

sup_{θ0 in Θ0} P[reject H0; θ = θ0]  ≦  α

一般可以把上列條件縮減為  P[reject H0; θ = θ0]  ≦  α, 也就是在 H0 拒絕 H0 的最大機率通常是存在的(因為 Θ0 通常取一個封閉集,而拒絕 H0 的機率是參數值 θ 的連續函數)。檢定統計量 T 的分布廣度,或其標準差,和 √n 成反比關係。這使得根據檢定統計量 T 決定何時拒絕 H0(通常可寫成 T > t0)的臨界值 t0 和 n 有關;但因為是以機率不超過 α 為控制,因此 t0 並不等比於 T 的標準差,所以 t0 會隨著 n 增大而縮小,卻不一定和 n 或 √n 成反比。例如 t 檢定的

t0 = t*(α,n-k) s/√n

在自由度 n-k 夠大時大約和 √n 成反比,但在 n-k 小時,t0 的縮小速率高於 1/√n。不管如何,在 θ = θ0 處 α 水準決定了何時拒絕 H0, 那就是 T > t0,而 t0 和樣本大小有關。現在我們有兩個變數,n 和 t0,一個條件式

P[T > t0; θ = θ0] ≦ α

‵不管 n 值是多少,都可以有一個 t0 滿足上列條件。因此,我們需要加一個條件才能決定 n 的大小,那就是考慮另一點 θ1 in Θ1, 滿足

P[T > t0; θ = θ1] ≧ 1-β

當 θ 在 Θ1 中時,拒絕 H0 是正確的,所以上述機率稱為「檢定力 (power of test)」, 其反面,不拒絕 H0,是型Ⅱ錯誤,β 就是在 θ1 的型Ⅱ誤機率界限。例如在二項群體比例檢定,

H0: p = p0  against  H1: p ≠ p0,

在 p0 處要求 |X/n-p0| > z(α/2)√{p0(1-p0)/n} 的機率不超過 α,所以取右尾 α/2 所當標準常態臨界值。在 p = p1 ≠ p0 處,X/n - p0 近似服從 N(p1-p0, p1(1-p1)/n),要求

P[ |X/n-p0| > z(α/2)√{p0(1-p0)/n}; p = p1] ≧ 1 - β

雖然是雙尾,但一尾的機率接近 0,例如取 p1 > p0,則左尾機率可以忽略,所以上列條件改寫為

P[X/n-p1 > p0-p1 + z(α/2)√{p0(1-p0)/n}; p = p1] ≧ 1 - β 

這近似 P[X/n-p1 > - z(β)√{p1(1-p1)/n}; p = p1],也就是說,

p0-p1 + z(α/2)√{p0(1-p0)/n} ≒  - z(β)√{p1(1-p1)/n}

或即 z(α/2)√{p0(1-p0)/n}+ z(β)√{p1(1-p1)/n} = p1 - p0,即

n ≧ [z(α/2)√{p0(1-p0)}+ z(β)√{p1(1-p1)}]^2/(p1-p0)^2

再看常態群體平均數 t 檢定的例子,T = √n(Xbar - μ0)/s, 在 H0: μ = μ0 時拒絕 H0 之臨界值為 t(α/2, n-1);如果取 μ1 > μ0,則如前例,在 μ = μ1 計算檢定力時可以忽略左尾,則

P[T > t(α/2, n-1); μ = μ1, σ^2]  = 1-β = P[T > t(β, n-1, √n(μ1-μ0)/σ)]

最後一式是在 noncentral t distribution 上取右尾機率 1-β 即左尾機率 β 的臨界值,其中 √n(μ1-μ0)/σ 為其 noncentrality parameter,故

t(α/2, n-1) = t(1-β, n-1, √n(μ1-μ0)/σ)

由於不管 central 或 noncentral t 分布都與自由度有關,而 noncentrality parameter 又直接和 √n 成比例,因此需要迭代計算以解 n 值。

依據假說檢定決定樣本大小都是這樣的:在 H0 成立時決定其拒絕 H0 條件,它等於 θ 在某個 θ0 時決定的條件,一般可寫成 T > t0 形式,T 為檢定統計量,t0 為對應之臨界值,是 n 的函數。同樣條件在 H1 的某個實務上有意義而賦予關心的參數點 θ1,要求某個檢定力水準。然而,依 T 在 θ = θ1 時的分布,有另外的方式決定滿足檢定力要求的臨界值 t1,和 n 及 θ1 與 θ0 的某種距離量度的函數,最後由

t0(α/2, n) = t1(1-β, n, d(θ1,θ0))

很多時候上列方程式只能以迭代方式解得 n。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()