傳統的二項群體是:群體中有 N 個或無窮多個成員,其值有 p 的比例是 1,有 q = 1-p 的比例是 0。故

群體平均數 μ = p

群體變異數 σ^2 = pq = p(1-p) 

自此群體做簡單隨機抽樣,樣本數 n,得 x 個 1,得 n-x 個 0, 樣本比例 p^ = x/n 是 p 的不偏估計值,而 s^2 = np^(1-p^)/(n-1) 則是 σ^2 的不偏估計值。樣本中 1 的個數 X 視為隨機變數,則

在有限群體 P[X=x] = C(Np,x)c(nQ,N-X)/c(n.N), X = 0, 1, ..., min{n, NP}

在無限群體 P[X=x] = C(n,x) p^x (1-p)^{n-x}

在有限群體,X 的 p.m.f. 為了和無限群體時的二項分布對應,可以把超幾何分布 P[X=x] 寫成:

C(n,x) [(Np)(Np-1)...(Np-x+1) (Nq)(Nq-1)...(Nq-n+x+1)]/N(N-1)...(N-n+1)]

和二項分布的差別是 p 會在每抽一樣本個案「成功機率」受到前面已抽得結果的影響,形式為

p_k = (Np-r)/(N-k),  其中 k 是已抽出個案數,r 是其中「成功」數

所以群體大小 N 從有限到無限,樣本中 X 的分布也從超幾何分布變成二項分布,因為 p_k 當 N → ∞ 時趨近於定數 p,不受已抽得個案的影響,這就是二項分布的特性。

由 X 的分布得樣本比例 p^ 視為隨機變數時的分布,因此得 E[p^] = p 及

Var[p^] = [p(1-p)/n] [(N-n)/(N-1)]

其中 (N-n)/(N-1) 是在有限群體時才有,稱之為「有限群體校正數 (finite population correction factor)」, 實務上抽出率 n/N 小於 1/5,或嚴格些,小於 1/10 則被忽略。

如果群體中有多類特性,通常可用 Yj = 1 或 0 代表是否屬於第 j 類,故 Σ_j Yj = 1。設 p_j 是群體中第 j 類所佔比例,Σ_j p_j = 1,抽取一組大小為 n 的樣本,Xj = x_j 是樣本中屬群體第 j 類個案數,則

在有限群體 P[X=x] = [Π_j C(Np_j, x_j)]/C(N,n)

在無限群體 P[X=x] = [n; x] Π_j (p_j)^{x_j}

式中 Π 是連乘符號,Xx, 是諸 Xj 或 x_j 的向量形式,[n; x] 表不盡相同物的重複排列,Σ_j x_j = n。對個別 Xj 而言,其分布在有限與無限群體分別是超幾何與二項分布;不同 i, j 對應的 Xi, Xj 有負相關,其共變異數在有限群體是 - n p_i p_j f, 其中 f = (N-n)/(N-1);而在無限群體就是 - n p_i p_j。本文談的是二項群體,就不多談多項群體下抽樣結果的多元超幾何分布及多項分布了。

如果群體的表現都是未定的,只有被觀測到的個案因為被觀測而定值為 1 或 0 了。這好像群體中本來每個個體都是一個 Bernoulli 隨機變數 Zi, i = 1, ..., N 有限或無窮。如果允許諸 Zi 之間相互有影響,那就要考慮整體聯合分布了。如果假設諸 Zi 之間相互獨立,那麼樣本 X_1, ..., X_n 之間是否也相互獨立?也就是說:此時區分有限與無限群體是否沒必要?

P[X_i = x] = Σ_{r=1~N}P[X_i = Zr, rj = x] = Σ_{r=1~N} (1/N) P[Zr = x]

P[X_i = x, X_j = y] = ΣΣ_{r, s} P[X_i = Zr, Y_j = Zs, Zr = x, Zs = y]
            = ΣΣ_{r, s} (P[Zr = x] P[Zs = y])/[N(N-1)]

如果諸 Zr 是同分布 Bernoulli(p),則個別樣本觀測值 X_i 的機率分布同 Zr 的共同分有,而 X_i 與 X_j 之間或多個 X_i 之間都是相互獨立的,這時就沒必要區分有限或無限群體了。另一方面,如果 Zr = 1 的機率 p_r 允許不同,則 X_i 的邊際分布都是 Bernoulli(p), 其中 p = Σ_r p_r/N, 而 P[X_i=1, X_j=1] 是諸 p_r p_s, r≠s, 的平均,

Cov[X_i, X_j] = P[Xi=1, X_j=1] - P[X_i=1] P[X_j=1]
     = ΣΣ_{r≠s} p_r p_s/[N(N-1)] - p^2
     = [(Σ_r p_r)^2 - Σ_r p_r^2]/[N(N-1)] - (Σ_r p_r)^2/N^2
     = - [Σ_r p_e^2/N - (Σ_r p_r/N)^2]/(N-1)

相當於負的 Vp/(N-1) 其中 Vp 是 p_r 間的變異數。

群體參數是指群體完全被觀測結果的分布性狀,但此處假設的群體成員是隨機變數,所以只能論其期望性狀,

μ = E[Σ_r Zr/N] =  Σ_r E[Zr]/N = Σ_r p_r/N = p

σ^2 = E[Σ(Zr - μ)^2/N] = E[Σ(Zr-p_r)^2/N] + Σ(p_r-p)^2/N
     = Σp_r(1-p_r)/N + Σ(p_r-p)^2/N = p(1-p)

群體的第一、二階動差與常見的二項群體相仿。

就樣本而言,樣本比例 Y = Σ_i X_i/n 之期望值為 p, 因為所有 X_i 之期望值皆為 p;而

Var[Y] = (Σ_i Var[X_i]  + 2 ΣΣ_{i<j} Cov[X_i, X_j])/n^2
    = [Σ_i p(1-p) + 2 ΣΣ_{i<j} (-V_p)/(N-1)]/n^2
    = p(1-p)/n - [(n-1)]Vp/[n(N-1)]
    = [p(1-p)/n] [(N-n)/(N-1)] + [(n-1)/n] Σp_r(1-p_r)/[N(N-1)]

除了平常的 [p(1-p)/n]×(fpc) 以外,多了一項 [Σ p_r(1-p_r)]/[N(N-1)]×(n-1)/n;當所有 p_r = p 時多出來的一項並未消失,而是變成

Var[Y] = [p(1-p)/n] [(N-n)/(N-1)] + [p(1-p)/n] [(n-1)/(N-1)]
       = p(1-p)/n

沒有了有限群體校正,正如前面提過的,此情形有限群體同於無限群體。為什麼會如此?因為此時 Zr 是 i.i.d. Bernoulli(p) 隨機變數,等於從無限 Bernoulli(p) 群體抽出的一組隨機樣本,再從其中抽出 X_1, ..., X_n 這個樣本,此時它相當於從原來的無限群體抽出一樣,而且因為 Zr, r = 1, ..., N 仍保有原來的隨機性,我們的樣本去推論它,猶如推論其背後的無限群體。細心的讀者可能要說:這也不對啊,為什麼一般有限群體抽樣,或如目前設定 Zr 是隨機 Bernoulli 變數只是 p_r 不同,X_1, ..., X_n 就不能是推論從中抽出之有限群體背後的超群體?當然 X_1, ..., X_n 樣本也可用來推論所見群體背後的超群體,但如一般抽樣所看到的群體,或此處 Zr ~ Bernoulli( p_r) 的設定,表明我們保留了一些所謂「群體」的眾多個案之間的差異,所以推論的對象在於所見的所謂「群體」,而不是它所來自的,想像中的超群體。好比我自一個群體抽出 N = 10000 個個案,而後因為些原因我又從其中抽出 n = 1000 的子樣本,進行統計推論,此時我能不能直接推論原來的群體?當然可以,當前這大小為 n 的樣本和直接從原來的群體抽出的隨機樣本沒兩樣。另一方面,我只想推論原先 N 個個案的分布特性可以不可以?也可以,這相當於認定那 N 個個案就是我們所關心的,而不是其背後的大群體。

回歸原題,我們的群體 Zr 相互獨立服從 Bernoulli( p_r ), 抽出樣本 X_1, ..., X_n 相互不獨立了,於是樣本比例 Y = Σ_i X_i/n 得期望值 p = Σ_r p_r/N, 而

Var[Y] = p(1-p)/n - [(n-1)]Vp/[n(N-1)]
    = [p(1-p)/n] [(N-n)/(N-1)] + [(n-1)/n] Σp_r(1-p_r)/[N(N-1)]

然而我們不知 Vp 也無法計算 Σp_r(1-p_r)。因為諸 X_i 是同分布的,除了 Y 是 p 的不偏估計之外,大概只有 X_i 與 X_j 的共變異可以估計 Vp:

Vp = - (N-1) Cov(X_i, X_j) = - (N-1) [E[X_i X_j] - p^2]

所以不妨用

2 ΣΣ_{i<j} (X_i X_j)/[n(n-1)] 

佑計 E[X_i X_j] , 然後用它來估計 Vp。但 Vp 應是正值,而上列算式結果不一定小於 Y^2 (p^2 之估計), 此時就假設 p_r 都相等了。

假設群體成員或元素為隨機變數,抽樣觀察後才得確定結果,這是從很久很久以前筆者個人就想過的,是對實際群體應該是怎麼樣子的一個思考。無疑標準的二項群體符合大部分現實;但也有一部分群體,其樣本觀測值是調查了才確定的。例如一些關於態度、意見的調查,至少有部分問項可能當事者也說不清其真實態度或意見,可能在被調查時才確定,也許換個時間調查結果又不同了。又如醫療統計,一個病人能否被治好,或服用一種藥物是否有效,可能還帶點樹會性,並且與個人有關,並非事先可以確定這人服藥後有效或無效,或事先可以確定會不會被治好。如果沒有個別差異,督像前面討論 p_r = p 凡0情形即使從有限群體抽樣,結果如同獨立二項試作,因此二項分布的推論完全可以套用。若實際情況如前舉各例,又有個別差異存在,則本文所提「群體成員為隨機變數」的模型,應較適當。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()