事後分析 (post hoc analysis) 和多重比較 (multiple comparison) 常被混為一談,因為它們都和變異數分析 (analysis of variance) 有關,也都是關於組平均數之間(多個)單一比較式的檢定問題,例如 4 個分組,分析者想知道 μ1 和 μ2 是否有(顯著)差異?μ1, μ2 平均又是否與 μ3, μ4 平均有差異?不過,這兩者其實是不同的,多重比較應分事前比較 (a priori 或 prior comparison) 和事後比較 (a posteriori 或 post hoc comparison),後者也就是事後分析。多重比較應該說是多種檢定的一個特例。比較 (comparison) 一詞,或稱「對比 (contrast)」, 是變異數分析中的一個平均數間線型式的比較,如前面例子,或更一般的:
H0: c_1 μ_1 + ... + c_k μ_k = 0, 其中 Σ_i c_i = 0
的檢定問題。多重比較就是說:我們需要同時做多個上述類型的檢定;而事後分析或事後比較,是在看到蒐集到的資料後才決定要做某些比較式或對比的檢定。實務上我們常看到資料後才建立某種統計模型,其實這是不對的!真正驗證性的研究,或資料分析,是蒐集資料之前就設定好要檢定什麼統計假說,而不是看到資料的模樣才去建模、設立待檢定的假說。一個研究者在看到資料之後才決定做什麼檢定,這樣的檢定一般來說是沒有意義的,或者,這樣的研究只能算探索式的 (exploratory) 研究,所做的資料分析是探索式的資料分析。
為什麼在變異數分析專書,或相關統計書在變異數分析章節之後常會談多重比較或/及事後比較?因為在變異數分析模型之下,做事後比較分析並非全然「沒有意義」; 因為在變異數分析架構下,我們可能需要知道一些對比(比較式)是否顯著異於 0。例如前面的例子,有 k = 4 分組,我們可能關心兩兩之間比較是否有顯著差異;也可能關心某些型式的對比是否顯著異於 0,例如處理(分組標準)是某些數量變數的不同值,我們可能關心反應平均值和處理水準間是否有顯著線性效果?二次曲線效果?
比較式或對比是分組平均數之間的一個特殊線型式 Σ c_i μ_i, 其中 Σ c_i = 0。這是直接的定義。不過,如果我們考慮的是一組正交 (orthogonal) 或正規 (orthonormal) 比較,也可以有另外看法。首先,變異數分析模型的典型描述是:
μ_i = μ + α_i, i = 1, ..., k. Σ α_i = 0
則一個比較式
Σ c_i μ_i = Σ c_i α_i
而 k 組平均數依比較式的定義可以建立 k-1 個相互正交的比較式:
Σ_i c(i,j) μ_i, j = 1,...,k-1; Σ_i c(i,j) = 0, all j; Σ_i c(ij)c(ij') = 0 all j≠j'
令 d_j = Σ_i (c(i,j))^2, 再取
c*(i,j) = c(i,j)/√(d_j), j = 1,...,k-1, c*(i,k) = 1/√k,
然後 C 矩陣為諸 c*(i,j) 所構成,則 C 各行規格正交 (orthonomal),所以 C 為一正交矩陣,CC' = I = C'C。即
Σ_i c*(i,j)c*(i,j') = δ(j,j'); Σ_j c*(i,j)c*(i',j) = δ(i,i')
令
α*_j = Σ_i c(i,j) α_i = √(d_j) Σ_i c*(i,j) α_i, j = 1, ..., k-1; α*_k = 0
則可得
α_i = Σ_j (c(i,j)/d_j) α*_j
比較式等於原參數 α_i, i = 1, ..., k, Σ α_i = 0 重新參數化為 α*_j, j = 1, ..., k-1 諸成分的組合;而對比較式的檢定,等於新參數 H0: α*_j = 0 的檢定。如果僅有一個 α*_j 不為 0,則相當於
μ_i = μ + (c(i,j)/d_j) α*_j, i = 1, ..., k
也就是說,一個比較式的係數 c_i, i = 1, ..., k,就是對效應值 α_i 的一個限定或假設型式,真正效應值是 c_i α*,對比較式的檢定,就是 H0: α* = 0 的顯著性檢定。
如果在 k 組平均數之間,我們只有少數幾個事先(蒐集資料前)決定的比較式要進行檢定,那麼 Bonferroni 方法可以適用。此法是將容許的型Ⅰ誤機率,也就是顯著水準 α 給分配給各個要做的檢定,例如有三個檢定要做,可以每個檢定用 α/3 做個別檢定之顯著水準,或依其不同重要性分配,例如 α/4, α/3, 5α/12,則在諸檢定之虛無假說都成立的情況下,會錯誤地拒絕任一個虛無假說的機率被控制在 α 之內。試想如果三個檢定個別都允許 0.05 (或說 5%) 的型Ⅰ誤機率,那麼在三個虛無假說都沒問題,那麼三個假說至少有一被拒絕的機率可能遠超 0.1 (10%), 可能高達 0.15 (15%); 如果三個檢定相互機率獨立,則至少拒絕一個虛無假說的機率是
1 - (1-0.05)^3 = 0.143
因此 Bonferroni 方法將個別檢定的顯著水準縮小,利用 Bonferroni 不等式
P{∪Ai} ≦ ΣP(Ai)
控制總型Ⅰ誤機率不超過 α.此法事實上可適用於一般情況,整個研究做多少個假說檢定,把 α 分配給這些檢定,這才可保證整個研究型Ⅰ誤機率受到控制。此法只適用於事前分析,不適於事後多重比較(事後分析)。若預先做了 k 組平均數相等與否的 F 檢定再檢定所關心的比較式,則用 t 檢定,即最小顯著差法即可,不需 Bonferroni 縮減顯著水準的方法。
在變異數分析模型之下,Scheffé 法允許做任意多個比較式的檢定。也允許用於事後比較,原因是此法把 k 個平均數間的變異量集中在一個比較式,如果
S = Σ c_i Xbar_i
是要檢定 H0: Σ c_i μ_i = 0 的檢定統計量,
Se(S) = √[Mse.Σ c_i^2/n]
其中 n 為各組樣本數,這裡假設相同;也可適用於樣本數不同的情形,n 改成 n_i 即可。按一般想法,S/Se(S) 與 t 臨界值比較即可判定;但 Scheffé 法卻用
F = (S/Se(S))^2/(k-1)
與 F(k-1,N-k) 的臨界值比較,其中 N 是總樣本數,或更正確地說 N-k 是誤差平方和自由度。其所以如此是因 Scheffé 法把 Xbar_i 間的差異平方和(組間平方和)都歸到一個比較式,雖然待檢定的比較式可能不是那個擷盡所有組間平方和的那個,但我們只能取最大的那個。所以不管你要做多少比較式的檢定,不管是否看過資料,用此 α 水準 F 檢定就是了。
Tukey 考慮 Xbar_i 間的最大差距。假設各組等樣本,在 μ_i 都相等時諸 Xbay_i 是獨立同分布,N(μ,σ^2/n), 於是可推出
q = √n(max Xbar_i - min Xbar_i)'/√(MSE)
的分布。這個分布和 MSE 的自由度和 k 都有關。雖然 Tukey 方法是看樣本平均數間的最大差距,但因
c0 = Σ_{i: c_i>0} c_i = Σ_{i: c_i<0} *(-c_i)
所以
|| Σ c_i Xbar_i |/c0 ≦ max Xbar_i - min Xbar_i
此法也可用在任意對比的檢定。當‵ n_i 不等時,此法需要做適當修正。
其他還有多種多重比較檢定方法這裡就不一一介紹了,不過,使用這些方法時需要小心,它們可能在「已知各組平均數間有差異」的條件下進一步檢查哪些平均數間有顯著差異,因此,需要先做整體差異存‵1在與否的 F 檢定,若證實 μ_i 之間有差異,才能進行以下的多重比較;若 F 檢定不顯著,卻不管不顧地套用一些較寬鬆的多重比較程序,將出現諸 μ_i 之間無差異,卻被多重比較程序指出某些 μ_i, μ_j 不等的矛盾現象。例如 Duncan 的多重比較程序第一重用
α(k) = 1 - (1-α)^(k-1)
當顯著水準來比較差異最大的兩組平均數,把 α 擴大為幾乎 k-1 倍,如果沒有先用 F 檢定控制整體型Ⅰ誤機率,那是很危險的,尤其在 k 較大時,Duncan 法的第一步幾乎必然被拒絕;但如 F 檢定已拒絕 H0: μ_1 = . . . = μ_k 這個假說,Duncan 程序第一步的「必然拒絕」反而符合 F 檢定的結論。如 Newman–Keuls 也是採循序的方法先比較差距最大的兩組,但不調整顯著水準,其第一步驟如同 Tukey 法,因此無需 F 檢定,否則可能 F 檢定顯示 μ_i 之間不等,但差距最大兩組卻無法拒絕 H0,造成矛盾。
總之,對多個比較式做多重比較檢定,或對資料做事後分析,需釐清是否真控制好型Ⅰ誤機率。Bonferroni 法不適用於事後比較;而 Tukey 與 Scheffé 法是比較安全的做法,對個別比較式而言,檢定力卻嫌偏低。Duncan 法需要先做 F 檢定控制整體型Ⅰ誤機率,而此法各組平均數間之比較,雖然檢定力較高,其型Ⅰ錯誤率似乎也得不到適當控制? Newman–Keuls 的方法可能比較適當?在整體用 F 檢定做控制的情況下,差異顯著後對有興趣的對比或平均數間用最小顯著差判定個別效應顯著性,似乎是兼顧型Ⅰ誤機率與個別比較式檢定力的方法。
留言列表