二向列聯表,指兩個類別變數交叉排列的次數表。設 X, Y 是兩類別變數,X 的分類是 i = 1, 2 ,..., r; Y 的分類是 j = 1, 2, ..., c,而交叉分類結果得 r×c 表,有 r 個列(row, 在中國大陸及日本則稱之為行) c 個行(column, 在中國大陸及日本則稱之為列)。X 稱為列變數,Y 稱為行變數。第 i 列 j 行交叉細格機率用 π(ij) 表示,觀察 n 個隨機個案依其 X, Y 屬性分類結果落在 i, j 細格的次數是 n(ij),此細格期望次數或稱理論次數是 m(ij)。註標之對應位置用 + 表示該註標被加總,如 n(i+) 表第 i 列之總次數,即 n(ij) 對 j 加總,故 n = n(++); π(+j) = P[Y = j]。

列聯表之分析,有 X 與 Y 獨立與否之卡方檢定或形雖異實相同的均齊性檢定,可參見「次數表之卡方檢定」一文;有 XY 關聯強度指標之計算,另有重複測量之列聯表的特殊分析,最廣為人知的是 2×2 表的 McNemar 檢定。本文不談衡量 XY 關聯強度的傳統統計量數,也不談 X, Y 是同一屬性重複量測結果的情形,而只談 X, Y 是一般兩種不同屬性的列聯表關聯模型。

當 X, Y 相互獨立時,π(ij) = π(i+)π(+j), 以對數線性模型來表示,則是

log(m(ij)) = λ + λx(i) + λy(j)

在 X 和 Y 有關聯的情況,傳統也只有飽和模型 (saturated model):

log(m(ij)) = λ + λx(i) + λy(j) + λxy(ij)

但在 X, Y 都是順序型 (ordinal) 變數的情況,可以考慮 linear-by-linear model, (簡記 L×L model):

log(m(ij)) = λ + λx(i) + λy(j) + βu(i)v(j)

其中 u, v 是事先依據變數 X, Y 各分級(分類)性質指定的分數。這是將 X, Y 關聯項 λxy(ij) 特定為 βu(i)v(j), 對 u, v 都是線型,而表中第 a, c 列, 第 b, d 行, 2×2 細格的對數勝算比 (log odds ratio):

log((m(ab)m(cd))/(m(ad)m(mc))) = β(u(c)-u(a))(v(d)-v(b))

如果 u(i) = i, v(j) = j, 則相鄰行列計算而得的局部勝算比 (local odds ratios) 是相同的 e^β, 此時模型被稱為「均勻關聯模型 (uniform association model)」。對樣本資料而言,如果要檢定 X, Y 是否相互獨立,對立假說是 L×L 模型只有一個未知的關聯參數 β, 相比飽和模型 λxy(ij) 有 (r-1)(c-1) 個關聯參數,在 L×L 模型成立之下,把乖離獨立模型的卡方值集中在一個自由度顯然比分散到更多自由度有效,也就是說:如果 L×L 模型正確,獨立模型對 L×L 關聯模型的檢定,比對飽和模型的檢定(常用的卡方獨立性檢定),其檢定力 (power of test) 較高;即使 L×L 模型不能解釋 XY 間的全部關聯,只要設定的 u, v 分數能解釋主要的關聯方向,有針對方向的對立假說仍比漫無方向的飽和模型對立假說可以得到更強的檢定力。

在多向度的列聯表,例如多一個類別變數 Z,仍可考慮 XY 間是 L×L 關聯:

  log(m(ijk)) = λ+λx(i)+λy(j)+λz(k)+β(k)u(i)v(j)+λxz(ik)+λyz(jk)

當然 β(k) 可以改為常數 β, 前者是異質 (heterogeneous) XY 關聯,後者是同質 (homogeneous) XY 關聯。其實當我們把 XY 關聯項寫成 β(k)u(i)v(j),表示我們假設 XYZ 三變數關聯項 λxyz 存在,而不是僅有兩變數之間的關聯(同質關聯模型)。

對順序尺度 X × Y 列聯表,如果 L×L 模型配適不佳,可能是 XY 關聯不是單一方向,也可能是 u(i), v(j) 這些變數的設定不好,沒能反映出 XY 關聯的正確方向。那麼,是不是能用參數估計的方法來決定 X, Y 變數的分數?也就是

log(m(ij)) = λ + λx(i) + λy(j) + βμ(i)ν(j)

其中 μ(i), ν(j) 也都是模型中的未知參數。此模型稱「行列效應 (row and column effects) (關聯)模型」, 簡稱 RC 模型。此模型的殘差有自由度 (r-2)(c-2), 因為要讓模型參數唯一決定,需要把 μ(i), ν(j) 諸分數標準化使 X, Y 成標準化變數,加上 β 共需要

(r-2) + (c-2) + 1 = r + c -3

個參數來描述 λxy(ij)。RC 模型不是對數線性模型,因為 log(m(ij)) 對參數不是線性的;它的概似函數有時不是凹性的 (concave), 似乎也沒有好的疊代程序可以方便地計算 MLE;它的對數概度比統計量 G^2(I)-G^2(RC) 的虛無分布也不再漸近卡方,而是另一種分布。

如果 X 是名目尺度的 (nominal) 而 Y 是順序尺度的,可以考慮列效應模型 (row effects model), 簡稱 R 模型;相對地也有行效應模型 (column effects model), 簡稱 C 模型。R 模型和 C 模型都仍是對數線性模型。前述 RC 模型的配適 (fitting) 或參數估計有一種方法就是在諸 μ(i) 已知下當做 C 模型估計諸 ν(j);然後在 ν(j) 已知情況下視同 R 模型估計 μ(i)。如此反覆疊代,理想狀態此程序應該能收斂到 RC 模型的解,不過似乎並不能保證。

另一個方法是把飽和模型的關聯項分解如下:

λxy(ij) = Σ_{k=1~M} β(k)μ(ik)ν(jk)

其中 M = min{r-1, c-1}, 分數參數 μ(ik) 和 ν(jk) 都是標準化,並且各組相互正交,即

Σ_i π(i+)μ(ik) = 0 = Σ_j π(+j)ν(jk) for all k

Σ_i π(i+)μ(ik)^2 = 1 = Σ_j π(+j)ν(jk)^2 for all k

Σ_i π(i+)μ(ik)μ(ih) = 0 = Σ_j π(+j)ν(jk)ν(jh)  for all k≠h

取 β(k) 最大的 M* 項,稱之為 RC(M*) 模型,RC 模型就是 M* = 1 的特例。

有不取對數而類似 RC 模型的「相關模型 (correlation model)」:

π(ij) = π(i+)π(+j)(1+λμ(i)ν(j))

式中 μ(i), ν(j) 如前述標準化,則

ρ(X,Y) = ΣΣ π(ij) μ(i) ν(j) = λ

更一般的模型是

π(ij) = π(i+)π(+j)(1+Σ_k λ_k μ(ik)ν(jk))

其中 μ(ik) 及 ν(jk) 如前面 RC(M) 模型一般正規化(標準化且各組分數相互正交), 則當 X 取分數 μ(ik), Y 取分數 ν(jk) 時得相關係數 λ_k。所以分數 μ(i1), ν(j1) 的選擇是取得最大的 λ_1; 而其他各組分數參數的選擇是依序與已選定之各組參數正交後使相關係數最大。這相當於於正準相關 (canonical correlation) 的類別資料版本,也被以此名稱稱呼。

相關模型與所謂「對應分析 (correspondence analysis)」有關,Agresti 的 Categorical Data Analysis 描述對應分析是一種圖示方法:取 x(ik) = λ_k μ(ik), y(jk) = λ_k ν(jk), 也就是用相關係數來調整標準化之分數,在重要的相關係數僅有兩個 (M* = 2) 的情形,可以把諸 (x(i1), x(i2)) 及諸 (y(j1), y(j2)) 圖示。三十餘年前,曾讀過一篇介紹文章,後來也仔細推演,了解其計算,不過時隔約三十年,已全不記得,又找不到原稿,也懶得再重新找資料研究,就不談了。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()