概似度原則 (Likelihood Principle)－劉應興的部落格

概似度原則，簡單說就是：樣本中所含關於（推論）群體（參數）的訊息完全包含在概似函數中。基於此，論者以為：若兩統計實驗（抽樣）的概似函數只相差一個常數倍（與群體未知參數無關之意），則其統計結論應一致。例如二項實驗，θ = p，成功機率，一個實驗是取 n = 10 次試驗結果 3 次成功，7 次失敗；另一個實驗是連續獨立試驗至 3 次成功，結果總共試驗 10 次，也就是失敗了 7 次。依概似度原則，兩個實驗提供了 θ 同樣的訊息，因為兩者的概似度：

E1: C(10,3)θ^3(1-θ)^7 E2: C(9,2)θ^3(1-θ)^7

成比例，雖然實際上兩個實驗不同，前者是固定試驗次數而成功數隨機，後者是固定成功數而試驗次數隨機。

Birnbaum (1962) 從條件性原則 (conditionality principle) 和充分性原則 (sufficiency principle) 的觀點出發論證概似度原則。條件性原則說：

如果一個統計實驗 E 採取一種與群體參數無關的方式從數個實驗 Ej 中選取一個，例如 Eh，實施，並得到資料 x，則

Ev(E,(Eh,x)) = Ev(Eh,x)

也就是說：這和直接進行實驗 Eh 而得到資料 x 並無差別。

此處 Ev(．,．) 代表由一個統計實驗及其所得到的資料中，所含有的關於群體參數的訊息、證據。例如因某種原因實驗者必須在兩種不同精密度的測量工具之間以隨機方式選取一種，若選取第一種則資料 x 相當於來自 N(θ,σ^2)，若選取第二種則資料是來自 N(θ,τ^2)，結果實際上選到了第一種工具。則根據條件性原則，欲進行 θ 之推論，和第二種工具完全無關，認定資料來自 N(θ,σ^2) 就是。

如果 S = s 是實驗 E 資料 x 的一個充分統計量 (sufficient statistic) 的值，那麼，根據給定條件 S = s 可以造出新的資料 x'，它相當於另一個實驗 E' 得到的資料。而實驗 E 和 E' 可以說在各方面都一樣的；具體以機率來描述，就是實驗 E 產生的資料視為（向量型）隨機變數 X，與根據 S(X) 所「造出」的新資料 X'，兩者有相同的聯合機率分布。既然 (E,x) 與 (E',x') 可以說在各方面是一樣的，那麼 Ev(E,x) = Ev(E',x') 可以說是理所當然。另外，s 也可以看成是由 E 所衍生的一個統計實驗 E* 產生的資料，於是，充分性原則說：

由 (E,x) 得充分統計量 S(x) = s，則 Ev(E,x) = Ev(E*,s)。

或者，換個方式說：

若資料 (E,x), (E,y) 滿足 S(x) = S(y), 其中 S 為充分統計量，
則 Ev(E,x) = Ev(E,y)。

這個原則或原理是廣為人知並且普遍被接受的，因為在平方誤差損失，或均方誤差準則之下，

E[E[T | S]] = E[δ*(S)] = E[T]
Var(E[T | S]) ≦ Var(T) = Var(E[T | S]) + E[Var(T | S)]

而在一般損失，或說任意評估準則之下，任何決策函數 δ(x) 可以對應一個以 S(x) = s 為基礎的決策函數 δ*(s) 與 δ(x) 有相同的風險 R(δ*(S),θ) ≡ R(δ(x),θ)，關鍵就是如本段開頭所說的，由 S = s 的條件可以造出資料 x'，從機率上來說，新資料 x' 的機率分布和原資料 x 的機率分布是完全一樣的。由於這其實可算是機率分布上的一個定理，因此，如果在任意 θ 之下都有相同機率分布（架構）蘊涵其決策規則（決策函數）應相同，那麼充分性原則就不只是一個「原則」，而是一個定律（定理）。

數理統計學或機率論中有一定理（因子分解定理）：

統計量 S(x) 為資料 (E,x) 中群體參數 θ 之一充分統計量若且唯若 x 之聯合機率密度或質量函數可以表示為

f(x; θ) = g(s; θ)h(x; s)

其中 s = S(x) 即統計量 S 在資料為 x 時的值，g, h 非負。

如果接受概似度原則，那麼由 x 得到的概似度為

L(θ; x) ≡ f(x; θ) = g(s; θ)h(x;s)

此處 g, h 與先前因子分解定理單純兩個非負函數不同，g 是充分統計量 S 在 s 的機率密度或質量，即由「彙總」資料 (E*, s) 得到 θ 之概似度函數。因由資料 (E, x) 與 (E*, s) 得到 θ 之概似度成比例，依概似度原則，根據 (E*, s) 做的決策應與根據 (E, x) 做決策相同，這也就是充分性原則。

假設一個複合實驗 E 是隨機方式以 Pi 機率選擇 Ei 實施，而 Ei 得到資料 x 的機率密度或質量是 fi(x; θ)，則其完整的聯合機率密度／質量函數是

f(x; θ) = Pi fi(x; θ) 當 Ei 被實行而產生資料為 x

這是整個實驗結果 θ 的概似度，它與一開始就實行 Ei 而得到資料 x 時 θ 的概似度 fi(x; θ) 只差一個與 θ 無關的乘數 Pi，因此根據概似度原則，對 θ 做推論時不需理會未實施的實驗 Ej, j≠i，只依據 Ei 的結果做推論即可。因此，條件性原則也是概似度原則的結果。

如果我們接受充分性原則及條件性原則呢？假設 (E1,x1) 和 (E2,x2) 的概似度成比例：

f1(x1; θ) = c(x1,x2)f2(x2; θ)

設 E 為 E1, E2 的複合實驗，有 1/2 機率實行 E1，1/2 機率實施 E2。設 Z 為一隨機變數，Z = z 表示實際實施 Ez 並得資料 x = x_z。則其概似度為

L(θ; z, x) = (1/2)[f1(x;θ)]^(2-z)[f2(x2;θ)]^(z-1)
= (1/2)[c(x1,x2)]^(2-z)f2(x2;θ) 當 f1(x1;θ) = c(x1,x2)f2(x2;θ)

故，令

S(Z,X) = (2, x2) if (z, x_z) = (1,x1) or (2, x2); = (Z, X_Z) otherwise

則 S(Z, X) 為充分統計量，且當觀測值為 (1, x1) 或 (2, x2) 時，此充分統計量之值為 (2, x2) 且概似度為

k(z, x1, x2)f2(x2;θ)

依條件性原則，Z = 1 時

Ev(E,(E1,x1)) = Ev(E1,x1) 訊息全在 c(x1,x2)f2(x2;θ)

而 Z = 2 時

Ev(E,(E2,x2)) = Ev(E2,x2) 訊息全在 f2(x2;θ)

依充分性原則，

Ev(E, (z, x)) = Ev(E*, s(z, x_z)) 訊息全在 k(z, x1, x2)f2(x2;θ)

但 (E, (1, x1)) 和 (E, (2, x2)) 均得相同的 S(z, x_z) = (2, x2)，因此前述三個 evidence 應該相等，而我們需要的

Ev(E1,x1) = Ev(E2,x2)

就在其中，也就是說：概似度原則是條件性原則和充分性原則的結果。但前面也說了：後兩者是概似度原則的結果。結論是：概似度原則等價於條件性原則加上充分性原則。

很多頻率論的方法，所謂傳統統計方法都是不合乎概似度原則的，例如最小變異不偏估計、「最佳」信賴區間或固定顯著水準的「最強力」檢定，它們都需要考慮「對所有可能出現的資料做平均」。符合概似度原則的方法只專注於概似度，也就是只關注手上已抽得已觀測的資料，因此只能是貝氏學派、費雪 (Fisher, R. A.) 的概似度方法等把資料視為固定把參數視同隨機變數的方法。如果概似度原則是一個定律，那麼可以說：傳統統計推論、頻率論的方法都錯了！然而，概似度原則畢竟只是學者提出的「原則」，它不能違背嗎？

或許從條件性原則來看更好釐清，因為它看起來非常合理；而充分性原則更可說是「定律」, 兩者合併又能推出概似度原則，所以看來似乎非改道貝氏不可？對此，筆者不以為當然：如果是自然的在數個實驗中抽選出一個來實施，那麼我們當然可以就該特定實驗進行統計推論：

如果採用 xxx 實驗，則 . . .

這是所謂「條件式推論」，在某種條件限制下的推論，例如列聯表行列相關性的 Fisher 正確（機率）檢定法（有別於大樣本卡方檢定法）就是一種

假設行和及列和次數不變 . . .

的條件式推論；迴歸分析習慣上假設自變數非隨機，也是一種條件式推論的方法。但如果每次執行統計實驗都需要在 E1, E2, ... 等具體實驗程序中選擇其一，我們把這種隨機性放在統計分析或推論程序的評估與選擇中有錯嗎？在列聯表分析我們考慮行列和次數可隨機變化，在迴歸模型考慮自變數隨機例如自變數與依變數是同時（成對或成組）被抽出、觀測，是錯誤的嗎？當我們可以從事條件式分析或推論時，可以選擇進行條件式推論，它在很多時候可避免一些困擾或困難，但也使得分析結論是否能概化（一般化）至更廣泛或更符合實際的情形有些疑問。相反地，頻率論或傳統方法謹記得我們手上的資料只是一個樣本結果，我們的目的是要從樣本去猜測群體的特性，因此，特別是我們並非從 E1, E2, ... 之中選擇一個實驗實施，而是從群體 y1, y2, ... 中抽選 X1, X2, ..., Xn 來分析推論群體，頻率論考慮的隨機性似乎更合乎事實。