所謂「次數表」,包含單向、二向、和多向的表,表中每一細格 (cell) 內容是累計出現在這細格的樣本次數,每一個樣本觀測值會落入一個而且僅一個細格。換言之,次數表就是將樣本的每一個觀測值按某種分類準則分到不同細格的結果。注意統計分類的要求是窮盡的 (exhaustive) 並且互斥的 (exclusive),也就是上述「每一個樣本觀測值會落入一個而且僅一個細格」之意。
卡方檢定用於上列次數表之檢定,是一種大樣本漸近方法,也就是說在大樣本之下,次數表細格次數漸近多元常態分布,而卡方統計量
χ^2 = Σ(Xi - n.pi)^2/(n.pi)
在虛無假說為真 (E[Xi]=n.pi) 時漸近服從卡方分布,n = ΣXi 是總樣本數。上式可以改寫成:
χ^2 = n Σ(pi^ - pi)^2/pi = n Σ pi[(pi^-pi)/pi]^2_
上列首先將卡方統計量以樣本比例 pi^ 與假設比例之離差表示,而後進一步用相對離差 (pi^ - pi)/pi 平方的加權平均表示,權量為假設之比例 pi,而樣本數是做為調整的乘數,就像 t 統計量的 √n。
如果上列 χ^2 公式中的 pi 不是假設的參數值,而是未知的參數值,因大樣本之下 χ^2 具有漸近卡方分布,所以可以說此時 χ^2 是一個「漸近樞軸量 (asymptotic pivotal quantity)」, 可用於得到所有 pi 的聯合信賴域 (joint confidence region) 。
在初級或入門級統計課程,單向表的檢定問題一般是配合適度檢定 (goodness of fit test),二向表或稱列聯表、交叉表,有獨立性檢定 (independence test) 和均齊性檢定 (homogeneity test)。有人很著重區別後兩者:均齊性檢定,例如檢定各列的機率分布是否一致;獨立性檢定,則檢定行變數是否與列變數相互獨立。不過就個人觀點,兩者充其量是抽樣方式不同,例如均齊性檢定是各列控制樣本數 n(i+) (第 i 列次數和)而抽樣觀測行變數;而獨立性檢定的樣本則常是只控制總樣本數 n,抽樣同時觀測行、列變數。至於檢定的本質,計算程序及檢定準則其實是相同的。事實上兩者檢定的標的描述雖然不同,本質卻是一樣!以 X 代表列變數,Y 代表行變數,均齊性檢定是說 P[Y=j|X=i] 與 i 無關;獨立性檢定是對所有 i, j, P[X=i, Y=j] = P{X=i].P[Y=j]。然而,P[Y=j|X=i] 與 i 無關本就是「機率獨立」的實際意義,在 P[X=i] ≠ 0 時它更是與數學定義同義,也就是說除卻 P[X=i] = 0 的情形,也可以用條件機率與條件無關來定義獨立性。而在統計列聯表問題中,根本不允許 P[X=i] = 0 的情形。因此,從數學定義和實際意義,均齊性檢定和獨立性檢定並無差別。
從抽樣來說,探討「給予 X 時 Y 的分布是否與 X 值有關」的均齊性檢定一定要分別控制 X = i 做(分層)抽樣嗎?不!只控制總樣本數 n 做簡單隨機抽樣並無不可。另一方面,如果要用假說檢定來看 X, Y 是否相互獨立,並不需要一定成對觀測 X, Y, 控制 X 做抽樣以觀測 Y 並無不可。這就像直線迴歸理論模型是在已知 X = x 的狀況下觀測 Y,但也有很多時候我們的樣本是一個簡單隨機樣本(其實不一定是簡單隨機樣本,但並不是控制 X 之下的抽樣,而分析時也總是忽略了樣本的複雜性。)而不管虛無假說是 H0: β = 0 或 H0: ρ = 0,檢定統計量都是 t 統計量。不過,控制 X = x 之下的抽樣不適合估計群體相關係數 ρ; 類似地在二向表中若控制 X = i 之下抽樣觀測 Y, 也不很適合估計對稱型關聯指標。但做為檢定,抽樣時控制 X 或不控制,並不影響檢定的進行步驟和結果。事實上若用 exact test, 不管實際抽樣是怎麼做的,檢定程序都假設 X = i 和 Y = j 個別地都控制了,以 2×2 表為例,行和和列和都固定了,只剩一個細格次數 X(1,1) 在 H0 之下是一個超幾何分布。
從另一個觀點來看,所有關於次數表的檢定都是適合度檢定,只是在檢定各類型的模型配適資料的適合性。以獨立性檢定來說,就是 p(ij) = p(i+)p(+j) (符號 + 代表總和,所以 p(i+) = P[X=i])這樣的模型,以均齊性檢定的寫法,就是 p(j|i) = p(+j)。以 2×2 表為例,除了傳統的兩群體比例差異檢定或即均齊性檢定,也等價於獨立性檢定,事實上還有一個不同類型的檢定,McNemar 檢定,H0: p(ij) = p(ji), 在 2×2 表等價於 p(i+) = p(+i) (不過在一般化的 I×I 表,這是不同的兩個模型。)即使在 X-Y 的關聯探究中,我們也不是只能考慮前述獨立性檢定。從獨立性模型到飽和模型(saturated model, 一個完全無限制的模型)中間,還可以有各種關聯模型。對數線性模型(m(ij) 是 ij-細格的理論次數,即模型正確情況下的 E[X(ij)])
log(m(ij)) = μ + λ(i+) + λ(+j) + δ(ij) (此處 log 以 e 為底)
的 X-Y 關聯項 δ(ij) 可以不同方式的模式化,例如 δ(ij) = β.x(i)y(j)。如果獨立性模型不成立,我們也可以考慮這類只依賴一個參數 β 的關聯模型或其他種類觀聯模型是不是更合適。
在多向表,單是傳統的獨立性檢定就可以做幾種:(1) 完全獨立 p(ijk)=p(i++)p(+j+)p(++k), (2) 聯合獨立 p(ijk)=p(ij+)p(++k), (3) 條件獨立 p(ij|k) = p(i+|k)p(+j|k);運用對數線性模型還可以有更多模型,例如
log(m(ijk)) = μ + λ1(i) + λ2(j) + λ3(k) + λ12(ij) + λ23(jk) + λ13(ik)
這個模型無法用傳統的某變數和另變數獨立的方式描述,事實上它表示 X, Y, Z 三變數兩兩相互都有關聯,但它們之間的關聯又和第三變數無關,故稱此為「均質關聯 (homogeneous association) 模型」, 以示兩變數關聯強度及方向不受第三變數影響。這模型可以用疊代法估計 m(ijk) 的 MLE,然後計算對數線性模型的諸參數。
由於次數表的檢定都可‵以看成是模型配合適度的問題,因此我們之後只以單向表來談卡方檢定。當然,事實上次數表檢定不只卡方檢定一法,另有概度比檢定 (likelihood ratio test):
λ(X) = L(ω^)/L(Ω^) = Π(mi/Xi)^Xi
或其對數版本
G^2 = -2 log(λ(X)) = 2 Σ Xi.log(Xi/mi)
當 Xi/mi 接近 1 時, log(Xi/mi) ≒ (Xi - mi)^2/(2 Xi), 所以 G^2 ≒ Σ(Xi-mi)^2/Xi, 是一種和 Wald 統計量有關的卡方統計量,記為 W^2;而常用的 Pearson 卡方統計量 Σ(Xi-mi)^2/mi 則和「有效分數 (efficient score)」有關。大樣本中,根據大數法則,在 H0 成立時 Xi/mi 接近 1 ,因此在 H0 成立時三種統計量都漸近卡方分布。理論上,或說主觀上,概度比檢定是較合理的檢定方法,因為在做參數估計 (pi, mi) 時常用最大概似估計 (maximum likelihood estimate),與概度比檢定可謂一脈相乘,或說方法較一致。而且在次數表檢定,除了模型配適度檢定(假設模型對飽和模型)以外,還有模型比較檢定(假設模型對較大模型,如獨立模型對線性關聯模型),也就是在大模型成立條件下檢定其子模型是否成立。若有模型 A 是模型 B 的子模型,也就是 A 是 B 的限制版本,則
G^2(A) = G^2(B) + G^2(A|B)
更多模型成套疊關係時 G^2 會具有類似的相加性;但對 W^2 與 χ^2 而言則不然。不過,若對初學者或實務工作者而言,Pearson χ^2 卻是簡單易理解也容易計算的,因此這裡只考慮 χ^2。
卡方統計量 χ^2 在 H0 之下漸近卡方,在 H0 不成立時則漸近服從「非中心卡方分布 (noncentral chi-squared distribution)」。
如果 H0 是簡單假說,pi 或 mi = n.pi 是確定的,則
E[χ^2] = n ΣE[(pi^ - pi)^2]/pi = n Σ[Var(pi^)+(μi-pi)^2]/pi
式中 pi^ = Xi/n 是樣本比例,μi 是 pi^ 的期望值。在 H0 成立之下 μi = pi 因而 χ^2 期望值是 n Σ Var(pi^)/pi 等於卡方的自由度。在 H0 不成立時,卡方期望值多出了
n Σ(μi - pi)^2/pi = n Σ pi [(μi - pi)/pi]^2
這是非中心卡方的「非中心參數」。
自由度 (degree of freedom), 簡記 df。由於卡方變量是由常態變量而來,其自由度就依 χ^2 變量是由多少個自由常態變量構成而定,也就是 (pi^-pi) 或說 (Xi - mi) 之中有多少個是自由的,也就是不能由其他變量決定的。我們以一個 2×3 表為例,並依列順序排成 1~6。在「H0: 行列獨立」條件下只需估計列一的機率(則列二機率亦確定), 另需估計兩個行機率(則第三行機率亦確定)。令 di = Xi - mi, 則 d1+d4 = 0 = d2+d5 = d3+d6, d1+d2+d3 = 0 = d4+d5+d6, 但這 5 個式子中又因 Σdi = 0 故其實只有 4 個獨立的限制條件。總共 6 個細格,4 個變量限制式,只剩 2 個自由變量。這是自由度的一種算法,另一種算法是在飽和模型有 6 個細格,但因 Σ pi = 1 因而有 5 個參數要估計,獨立模型如前述要估計 3 個參數(1 個列機率,2 個行機率),兩模型差了 2 個,這就是獨立性檢定的自由度。特別是在模型比較的檢定,用待估計參數個數的差來決定‵自由度比看檢定統計量由幾個自由常態變量更方便。
舉個例子,我們介紹過 Benford's law,去年有人問了一個問題:一般說要適用此定律資料需有 3000 筆以上,為什麼?
其實如果網路搜尋 Benford's law, 可找到不少談這定律及應用實例的,如這世界不隨機!談班佛定律(Benford's Law),其中提了 4 個條件:
1) 至少要3,000筆以上
2) 不可有「人為限制」
3) 跨越度要大
4) 不能是真正隨機數字
我們說過班佛定律的「證明」是尺度不變的數值分布 f(y) = c/y 經摺疊或限制在區間 (1,10] 並離散化的結果,因此除了本來就這個分布的隨機數以外,其他分布的隨機數當然不符合。有人為限制或資料本身範圍受限的如順序號,考試分數,成人身高體重的也不符合。跨越度小的如值多在 50-100 之間,類似成人身高體重也不容易符合。2020 美國大選拜登的得票數資料不符班佛定律,反對反對者就以資料未跨越數個級距做辯解。至於說要 3000 筆以上資料,我的看法是
應是檢定力 (power of test) 的考慮。欲檢定是否符合班佛定律
如果有100筆或110筆資料, 也就是 n = 100 以上大概就可以做
卡方近似檢定了, 甚至更小的樣本也勉強可以. 然而只有檢定力
夠高, 才可能合理地檢測出不符合該定律的情況. 也就是說, 必須
決定一個不符班佛定律的分布, 然後要求上述卡方檢定拒絕
"資料符合班佛定律" 這假說的機率夠高, 例如 0.90 以上.
經計算,在不同顯著水準,不同樣本數下,當 (μi-pi)/pi 都在 10% 時,卡方檢定的檢定力如下:
Level = 0.05 , critical value = 15.50731
For n = 1000 , power = 0.5877342
For n = 2000 , power = 0.9154677
For n = 3000 , power = 0.98917
For n = 5000 , power = 0.9999254
Level = 0.025 , critical value = 17.53455
For n = 1000 , power = 0.4760406
For n = 2000 , power = 0.8643172
For n = 3000 , power = 0.9785341
For n = 5000 , power = 0.9997878
Level = 0.01 , critical value = 20.09024
For n = 1000 , power = 0.3483761
For n = 2000 , power = 0.7814996
For n = 3000 , power = 0.9559342
For n = 5000 , power = 0.9993351
Level = 0.005 , critical value = 21.95495
For n = 1000 , power = 0.2691811
For n = 2000 , power = 0.7109218
For n = 3000 , power = 0.9314182
For n = 5000 , power = 0.9986194
顯著水準愈小,允許的型Ⅰ誤機率愈小,也就是要拒絕 H0 愈難,所以檢定力也愈低。所以當樣本數達 3000 時,檢定資料是否符合班佛定律,在合理差異之下,大抵都可以得到滿意的檢定力,較小的 n 或者只能降低檢定力,或者只能在實際分布乖離班佛定律很多時才有能力檢測出來。
如果 H0 不是簡單假說,如獨立性檢定,則 pi 要在 H0 之下估計,以 pi* 表示,則
E[χ^2] ≒ Σ{Var(Xi - n pi*) + (E[Xi - n pi*])^2}/(n pi*)
得非中心參數接近 n Σ (E[pi^ - pi*])^2/pi* 或 n Σ (E[pi^ - pi*])^2/E[pi*]。但計算檢定力時非中心參數,如上例,是設定的,因此我們不必太拘泥上列公式,只需適當設定平均乖離率 δ, 如前例的 10%,而後非中心參數是 nδ^2。
如果要做模型比較呢?雖然 χ^2 不像 G^2 那樣滿足相加性,不過我們可以仿 G^2 的關係而定義
χ^2(A|B) ≡ χ^2(A)-χ^2(B)
自由度是兩模型配適度卡方自由度相減。因較大模型 B 假設是正確的,所以 χ^2(A|B) 與 χ^2(A) 有相同非中心參數,而前者自由度較小,所以其檢定力較大,這也是實務分析時喜歡用較大模型做對立假說做模型比較簡定,取代以飽和模型做對立假說的配適度檢定原因所在。不過要記得:不「正確」的模型是不可以用做對立假說的,那樣的檢定是無效的。通常「正確」的模型是經假說檢定認為沒有配適不良的。然而,記住檢定的基本思想:不能拒絕虛無假說並不表示虛無假說成立。所以模型 B 不被拒絕,其實不表示證明了 B 是正確的模型。個人認為,如果要篩選正確模型,不仿放寬顯著水準,使不正確模型較容易被拒絕;而要推翻虛無假說,則要縮減顯著水準,使得有充足證據才推翻虛無假說。