效應大小 (Effect Size)－劉應興的部落格

統計分析的報告應該讓讀者很容易知道所分析的資料中主要的訊息是什麼。假說檢定的統計顯著或不顯著只是在特定條件下的結語性判定，不是我們想知道的主要訊息；統計報告的主要訊息應該是：量有多大？例如：某種新藥的治癒率有多高？某種措施的效果有多大？就推論統計而言，這表示我們更應注重參數估計而非假說檢定，並且指的是一些表徵量如平均數、比率的估計，而非指模型或分布參數的估計，除非該參數具有直觀的意義或能有充分的解釋。

假說檢定的基本問題是在兩個相對立的統計假說 H0: θ in Θ0 vs. Ha: θ in Θ1 中做出判決式的結論：究竟是選擇接受 H0 或 Ha，按理這兩個假說應客觀公平地對待，但除非 Θ0 和 Θ1 是截然相異的兩種狀況，否則沒有辦法真正能夠公平對待兩個假說。例如關於群體平均數的假說：μ ≦ μ0 或 μ > μ0，在小於等於 μ0 和大於 μ0 之間有時實務上很難區分：如果 μ0+0.5 和 μ0 之間是可區分的，那麼 μ0+0.1 與 μ0 之間呢？μ0+0.01 呢？因此 Neyman-Pearson 採取了保護 H0 而倚賴「足夠證據」證實 Ha 的方法；貝氏學派 (Bayesian) 倒是同等對待 H0 和 H1，但特別在單點虛無假說 H0: θ = θ0 對全域對立假說 Ha: θ ≠ θ0 時賦予 H0 和 Ha 相同先驗機率或即使偏向其中之一，恐怕也難以服眾。N-P 方法要求「足夠證據」以證實 Ha 的想法，是優先控制型Ⅰ錯誤機率不超過預先設定的顯著水準，至於型Ⅱ錯誤的機率則成為設計問題：決定樣本大小。但預設顯著水準是統計人員或研究者的主觀選擇，因此又有應報告 p 值的主張，因為 p 值可定義為：以當前資料可判定拒絕 H0 接受 Ha 的最小顯著水準，因此可把最終裁決權限留給讀者或應用者，但報告者仍可依預設的顯著水準做出參考性的裁判。但 p 值卻不是效應大小，做假說檢定時用的檢定統計量也不是；貝‵氏分析的後驗機率同樣不能表示效應的規模。

其實「效應大小」可以很簡單地說：就是我們所感興趣的量相對於基準點的差異值或其估計。例如只調查單一群體，關心的量是平均數，基準點是 H0 的 μ0，所以群體的效應大小就是 μ - μ0；以樣本估計，就是 Xbar - μ0。如果是兩群體，關心的量可能是兩群體的平均數差距，μ１－μ２，這就是群體的效應大小，用樣本估計就是 Xbar1 - Xbar2。如果是 k 群體，群體效應大小可能是 Σ(μi-μ.)^2 或其變換式如

√[Σ(μi-μ.)^2/k] = √{ΣΣ_{i<j} (μi-μj)^2/[k(k-1)]}

其中 μ. = Σμi/k 是總平均；而在樣本中則以 Xbar_i 代替 μi。當然也可能我們關心的量不是算術差異值，例如比例間固然可以如平均數間計算差值 p1-p2，也可以計算 p1/p2 如醫學統計中的相對危險 (relative risk)，或計算勝算比 (odds ratio)

OR = [p1/(1-p1)]/[p2/(1-p2)]

在樣本中就以樣本比例或對應群體比例的估計值代入計算。有時候變數間的關聯也是關心的項目，如數值變數之間的相關係數，雖然意義不算很明確，但也可解釋為：其中一變數變動一標準差單位，相應地另一變數期望（平均）變動 ρ 標準差單位，其正負符號則代表兩變數變動方向相同或相反；樣本相關係數 r 也同樣是一個樣本效應大小。判定係數或複判定係數 (multiple coefficient of determination) 被解釋為「依變數變異量可被自變數解釋的比例」也可當成一種效應大小的指標。複迴歸中的迴歸係數，是

在控制了模型中其他解釋變數不變的條件下，某特定自變數一單位變動相應的依變數變化量。

這顯然也是一種效應大小。

所以若問效應大小怎麼算，其實沒有一定的規範，無非是用一個量來表現差異大小或關係大小。在群體中我們可以定義出有實務意義的效應大小，而樣本中則對效應大小中的群體未知參數以對應的樣本統計量或更有效的估計量代之。但在樣本中還有一件事要辦，那就是樣本效應大小的估計誤差計算。例如用 Xbar - μ0 估計 μ - μ0，應同時呈現其均方根誤差或標準誤（差）σ/√n 或其估計值。就像我們說看一組資料不能只看平均數或位置量數，還要看其分布廣度或平均離中（均）差異或標準差；對於用來估計群體特性（此處為群體效應大小）的樣本統計量，我們也必須把這統計量的分布廣度或其標準（誤）差表示出來。

有時我們需要的不是絕對的效應大小，而是相對的效應大小。這其實也沒什麼新問題，例如前面的相對危險可以說就是一種相對指標，

p1/p2 - 1 = (p1-p2)/p2

用相對危險時我們都是與 1 比的，但計算上從來就沒有人把 1 減去，一則人們了解了相對危險的意義自然會把它與 1 比，減去 1 沒必要；再者如果想用右式的相對差異的解釋，把相對危險減 1 是極簡單不過的事，在腦中立即可得到結果。對於如兩平均數比較或多平均數比較，或與基準值比較，也可類似地採取相對值的指標。

但是，一般計算效應大小最常採用的卻是可以稱之為「標準化」的指標。如相對危險、勝算比是相對指標，通常不再標準化；相關係數、判定係數等本身就是標準化後的指標；而平均數、迴歸係數等通常是未標準化的。未標準化的指標其數值與數量單位相關，平均數是一個量的單位，迴歸係數是兩個量相比的單位。因此，迴歸係數標準化就是

標準化迴歸係數 = 未標準化迴歸係數 × 自變數標準差 / 依變數標準差

結果也稱 beta 係數。注意用的是變數的標準差，而不是誤差項的標準差。對於自變數非隨機變數之迴歸模型

y(i) = α + x(i)' β + ε(i) = α + x_1(i)β_1 + ... + x_k(i)β_k + ε(i)

來說，

　　自變數 x_j 變異數 = Σ_i(x_j(i)-x_j(.))^2/(n-1), x_j(.) ＝ Σ_i x_j(i)/n
　　依變數 y 變異數 = β'X'(I-JJ')Xβ/(n-1) + σ^2

式中 X 是各列為 x(i)' 所構成的矩陣，J 是元素皆為 1 共 n 個元素的行向量，I 是 n 階單位方陣，σ^2 是誤差項變異數。若自變數都是隨機變數，則

　　自變數共變異矩陣 =Σ, 自變數 x_j 變異數 = Σ 第 j 個主對角線元素
　　依變數 y 變異數 = β'Σβ + σ^2

同樣，平均數（差異）就用該變數的標準差來標準化

　　　　(μ - μ0)/σ 或 (μ1 - μ2)/σ 或 (μ1 - μ2)/√[(σ1^2+σ2^2)/2]

最後一個式子是在兩群體變異數不等時採用的一法，這種情形也可用某一群體為參照群體，以其標準差當分母。

實際上被採用的效應大小指標可能有些變化，特別是在用樣本估計時。Cohen's d 用

[(n1-1)s1^2 + (n2-1)s2^2]/(n1+n2)

當 σ^2 的估計；而 Hedges' g 則採用 t 檢定所用的 pooled estimate

[(n1-1)s1^2 + (n2-1)s2^2]/(n1+n2-2)

估計兩群體共同的 σ^2，而他們的分子都是兩樣本平均數的差。但 Hedges & Olkin (1985) "Statistical Methods for Meta-Analysis" 一書中認為以 g 當群體效應大小的估計它是有偏的，所以對它做了修改：

g* = J(n1+n2-2)g ≒ {1 - 3/[4(n1+n2)-9]}g

其中 J(k) = Γ(k/2)/[√(k/2)Γ((k-1)/2)]。在配對樣本，

Var(X1-X2) = Var(X1) + Var(X2) - 2ρ √(Var(X1)Var(X2)) = 2σ^2(1-ρ)

因此 Cohen's (1988) 用獨立樣本算法得出 d'，再修正為

d = d'/√(1-r)

在 1976, Gene V. Glass 認為若以第 2 組資料為對照組，則分母只用 s2 即對照組標準差就好；在多群體比較時如果有一組被視為對照組，則計算效應大小時也是以該控制組標準差為分母。這在各組群體標準差可能不等時適用，如果各群體標準差相等，則採用多樣本聯合估計可能較好——做為群體效應大小的估計，可以較精確。

對於多群體平均數比較的效應大小，James H. Steiger (2004) 提出下列指標：

Ψ = √[Σ(μj-μ.)/σ)^2/(k-1)]

與前面本文所隨意寫的不同的有兩點：一是用共同標準差標準化了；二是分母用 k-1 取代 k，這是用了「自由度」的概念。事實上 Steiger 是在線性模型之下考慮不同效應項的效應大小，就樣本而言用自由度當分母是很恰當的，把誤差項的影響都變成 σ^2，而效應大小的定義可以說是順勢而為了。所以其樣本計算式應是

Ψ^ = √(MSEffect/MSError)

效應大小的值是否達實務意義，或其值算鉅大還是微小，筆者個人認為應該是看統計資料本身的意義和用途而定，所以其評估權限應放在應用領域之專家手上。就這點而言，像平均數差異這一類的指標，不做標準化的原始差異值反而更利於評估；做標準化無非是統計學者想從統計的觀點給予一個評估參考準則，例如 S. Sawilowsky (2009) 就 Cohen's d 提出一個參考準則，從 d = 0.01 到 d = 2.0 分別給予「非常微小」到「鉅大」的稱呼。詳見 https://en.wikipedia.org/wiki/Effect_size，本文亦主要參考 Wiki 該條目。

以上述關於平均數之效應大小的樣本指標來說，它們都與對應的平均數檢定統計量有關，例如 Cohen's d 或 Hedges' g 其核心就是 t 檢定統計量，

t = g/√(1/n1+1/n2)

前文我們說效應大小的報告應同時呈現其抽樣誤差或給予信賴區間，如果我們以 t 為效應大小，雖然實際上是 g 或 g* 或 d，但那只差一個常數倍。統計量 t 做為效應大小的指標，其實目標是其「非中心參數 (noncentrality parameter)」

θ = (μ1-μ2)/σ

那麼我們可找出兩個非置中參數 θ1, θ2, 對應非置中 t 變量 T1, T2, 使

P[T1<t] = α/2, P[T2>t] = α/2

其中 α 是我們想得到 θ 的 1-α 信賴區間。由於 θ 愈大（往右）則非中心 t 分布也愈往右，在通常 α 值小時，T1 對應的 θ1 比 T2 對應的 θ2 大，而我們得到 θ 的 1-α 信賴區間是 [θ2,θ1]。另外，把 θ = t 值當做非中心 t 變量 T 的非中心化參數，ν = n1+n2-2 是其自由度，則

E[T] = θ√(ν/2)Γ((ν-1)/2)/Γ(ν/2)
Var[T] = ν(1+θ^2)/(ν-2) - (E[T])^2

多群體的情形，(Ψ^)^2 是一個非中心 F 變量，非中心參數是 (k-1)Ψ^2。因此，我們也可用類似前面推論 θ 的方法來推論 Ψ^2。

對於兩比例之比較，效應大小指標除了大家都熟知的比例差 p1-p2，相對危險 RR = p1/p2 以及勝算比之外，Cohen 也用比例之反正弦變換給予一個 h 指標：

h = 2(arcsin√p1 - arcsin√p2)

但比例之反正弦變換意義實在難明，它只是樣本比例之近似常態化的一種純數學技巧。至於前面提到的三種指標，在樣本中其對應統計量的抽樣分布則用大樣本方法來漸近。另外，多分類比例相對於參照群體比例的效應大小，Cohen 用

ω = √Σ[(p1i-p0i)^2/p0i]

表現，或者也可用

Σ|p1i-p0i| = Σp0i(|p1i-p0i|/p0i)

前者均方根相對差異，後者是平均相對差異，其半又稱「相異指數 (index of dissimilarity)」。

相關類指標，在類別變數有 Phi(φ), 列聯係數，Cramer's V 係數等；在數值性資料，Cohen 也提出了 f^2 指標，它等於

f^2 = （解釋變異旺比例）／（未解釋變異量比例）

所以在複迴歸它等於 R^2/(1-R^2)；在變異數分析模型，它等於