統計學和機率論的差別,在於機率論中一般只面對一個機率分布或稱機率測度 P,探討此機率測度一些相關的性質。而在統計學中,我們面對的是一堆機率分布或稱機率分布族
P = {P_θ: θ in Θ}
傳統的統計學理或頻率論者假設我們能看到的資料是來自一個群體,它產生資料 X 的機制是 P 中特定的一員 P_θ,統計人員的目標是由樣本資料猜測那個 P_θ 是 P 中的哪一個;貝氏學派則認為資料產生機制是先從 P 中隨機決定(以 π(θ) 先驗分布) 一個 P_θ 而後產生資料 x,統計人員的目標是用 x 來修正在 P 中選擇 P_θ 的機率分布,或更正確地說:修正從 P 中選取 P_θ 的機率分布的認知。不過本文不涉及具體統計方法及學派之爭,只考慮一種特殊的統計量(資料的函數):充分統計量 (sufficient statistic)。
所謂充分統計量,可以解釋為:充分代表原資料的統計量,也就是只看此統計量就夠了,不必再看原始資料也不會造成任何損失。換句話說:資料裡所包含 θ 的訊息,都在充分統計量之中了。數學上定義是:
T 為一充分統計量,意謂給定 T = t 後,X 的條件分布與 θ 無關,即
對任意事件 A in σ(X),P_θ[ A | T = t ] 與 θ 無關。
這裡條件機率在初級課程與高級課程或正式機率論中意義與定義有些差異,可參考「條件機率與條件期望值」一文。另,在考慮隨機變數之分布時,我們較少取樣本空間之事件 A in σ(X),反倒較常用 [X in A] 這樣的事件描述,不過這裡的 A 是在 X 的值域,前面的 A 則在 X 的定義域,也就是原始樣本空間中。
如果 T(X) 是充分統計量,在 T(X) = t 時,由與 θ 無關的條件分布 P_θ[X in A | T = t] 可以「造出」新資料 X',則
T(X) = t = T(X') 且在 T = t 條件下 X 與 X' 同分布。
既然在任意 T = t 條件下 X 與 X' 同分布,那麼它們的無條件分布也是相同的。因此,如果基於 X 有一個決策規則 δ(X),可以基於 T 有一個決策規則 δ*(T) 表現至少和 δ(X) 一樣好,因為至少(最差)可以取
δ*(T) ≡ δ(X') 即:根據 T(X) 的觀測值產生 X' = x' 再取 δ*(T) = δ(x')
因此我們說基於 X 推論 θ 的結論應該和基於 T(X) 推論 θ 的結論一致;或者說,由於 T(X) = T(X'),基於 X 推論 θ 與基於 X' 推論 θ 應得相同結論,這就是統計推論底層邏輯的充分性原則 (sufficient principle)。(參見「 概似度原則 」一文。)
充分性在貝氏方法中有另一種定義方式:貝氏充分性 (Bayesian sufficiency) ,指
π(θ|X=x) = π(θ|T(X)=T(x)) for all θ in Θ, for all prior π
如果 T(X) 是先前定義的充分統計量,則
π(θ|X=x) = π(θ|X=x,T(X)=T(x)) = π(θ|T(X)=T(x))
也就是充分統計量符合貝氏充分性。反之,假設 T(X) 符合貝氏充分性,T(x) = t,則
π(θ|X=x) = π(θ)f(x;θ)/∫π(θ')f(x;θ')dθ' = π(θ|T(X)=t) (令)= g(t; θ)
假設 π(θ) > 0 for all θ in Θ, 則
f(x; θ) = (g(t; θ)/π(θ))(∫π(θ')f(x;θ')dθ')
對 θ' 的積分式結果不含 θ' 也沒有 θ,因此依後面將介紹的因子分解定理 (factorization theorem),T(X) 是早先定義的充分統計量。
因子分解定理 (factorization theorem),或稱:充分統計量之因子分解準則 (factorization criterion for sufficient statistic),是說:
如果 X 的分布對某一 σ-有限 (σ-finite) 測度 μ 有機率密度可以表示成
f(x; θ) = g(T(x); θ)h(x)
則 T(X) 為 θ 的充分統計量。其逆亦真。
所謂「 σ-有限」是樣本空間 S 可分割成可數個可測集(事件),μ 在每一可測集的測度都是有限值。例如 S = R^n,μ 是其上的 Lebesgue 測度,則 f(x; θ) 就是初級課程的連績型分布的(聯合)機率密度;S 是可數集,μ 是計數測度(每一單點測度值是 1),則 f(x; θ) 是初級課程的離散型分布的機率質量。由於考慮的是 X 的分布,其實這裡考慮的樣本空間 S 是 X 的值域,而非原始樣本空間;測度 μ 也是對 X 值域的子集,而非原始事件。
如果 X 是離散型,當 T(X) 是充分統計量時,
f(x; θ) = P_θ[X = x] = P_θ[T(X) = T(x)] P_θ[X = x | T(X) = T(x)] = g(T(x); θ) h(x)
式中 g(T(x); θ) = P_θ[T(X) = T(x)] 而 h(x) = P_θ[X = x | T(X) = T(x)] 與 θ 無關。反之,假設 f(x; θ) = g(T(x); θ)h(x) 其中 g, h 為處處非負,則
P_θ[X = x | T(X) = T(x)]
= P_θ[X = x]/Σ{P_θ[X = x]: T(X) = T(x)}
= {g(T(x);θ) h(x)}/Σ{g(T(x);θ)h(x): T(X) = T(x)}
= {g(T(x);θ) h(x)}/{g(T(x);θ)Σ{h(x):T(X)=T(x)}}
= h(x)/Σ{h(x):T(X)=T(x)} 與 θ 無關
這證明了所謂離散型分布族的情形,因子分解準則是充分統計量充分且必要條件。
如果 X 的分布是所謂連績型,用初級方法我們必須假設存在 X 與包含 T 在內的一組新變數的一對一可微分變換:
T = T(X), U = U(X) <--> X = X(T,U)
如果 X 是 n 階向量,T 是 r 階,則 U 是 n-r 階。則 (T, U) 的聯合機率密度是
ψ(t,u; θ)) = f(x(t,u); θ) |J|
式中 J 是 Jacobian。如果 T 是充分統計量,則
f(x; θ) = g(t; θ) h(x|t)/|J|
其中 g(t; θ) 為 T 的邊際 p.d.f.;而 h(x|t) 為給定 T = t 時 U 的條件 p.d.f.,依 T 的充分性假設,h(x|t) 和 θ 無關;Jacobian J 只是變數間變換產生的,當然也與 θ 無關,因此 f(x;θ) 被分解成和 θ 有關的 g(t; θ) 與和 θ 無關的 h(x|t)/|J| 兩部分相乘。反之,如果存在處處非負的 g(t;θ) 和 h(x) 使 f(x; θ) = g(t;θ) h(x),則
ψ(t,u; θ)) = g(t;θ) h(x(t,u)) |J|
則 T 之邊際分布為
g1(t; θ) = ∫g(t;θ) h(x(t,u)) |J| du
積分式之 g(t;θ) 與積分變數無關,可以提到積分號之外,於是,類似離散型,得 U 之條件 p.d.f. 為
h2(x) = {h(x(t,u)) |J|}/{∫h(x(t,u)) |J| du}
與 θ 無關,因此 T 是充分統計量。
現在問題來了:X 的分布(族)並非只有連績型(有機率密度)和離散型(有機率質量);在連績型,又不一定存在 U 使 (T,U) 和 X 之間是一對一可微分變換關係。例如,若 X1,...,Xn 是自 Cauchy(μ,σ) 抽出之隨機樣本,
f(x; θ) = Π 1/{π[σ^2+(x-μ)^2]}
則 θ = (μ,σ) 之最小充分統計量 (minimal sufficient statistics) 為其完整的順序統計量 (order statistics)
Y1 < ... < Yn
「最小」指出不可能把 (Y1,...,Yn) 再精減;然而從 X 到 Y 確實有了精減,原始順序消失,只剩下成順序性的 Y,由 Y 無法回到 X。
P[X in A | Y=y] > 0 if and only if 存在 x in A 其值為 y 之一個排列
而 X 的聯合 p.d.f. f(x; θ) 與 Y 之聯合 p.d.f. g(y; θ) 之間的關係是:
g(y_1,...,y_n; θ) = n! f(x_1,...,x_n; θ)
f(x_1,...,x_n; θ) = g(y_1,...,y_n; θ)/n!
因子分解條件滿足,但前面的證明不適用這種情況。如果因子分解定理可以完全證明,我們立即得到在連續情形,完整的順序統計量都是充分統計量,雖然不一定是最小的。
依正式機率論,或說高階課程描述方式,統計量 T(X) 衍生出 σ(X) 的一個 σ-子體 (subfield) σ(T),T(X) 對 P 是充分統計量,則可稱 σ(T) 對 P 是充分的。條件機率 P_θ[X in A | T] 定義為:
P_θ[X in A | T] 為 σ(T) 可測;
對任意 [T in E], ∫_[T in E] P_θ[X in A | T] dP_θ = ∫_{[X in A, T in E]} dP_θ
記得給定一個隨機變數或 σ-子體的條件機率和條件期望值其實是定義在樣本空間 S 的函數,所以 P_θ[X in A | T] 其實是一個變數 ω in S 的函數,和事件 [X in A] 有關,也和 θ 有關。如果 T 是充分統計量,表示我們可找到一個與 θ 無關的條件機率版本
P_θ{A* | T}(ω) = p(A*,ω) , ω in S, σ(T) 可測, for all A* in σ(X)
上式 A* 是 S 的子集,定義是 A* = X^(-1)(A) = {ω in S: X(ω) in A}。充分性的因子分解準則依上述概念表示就是:
假設 (S,F) 上的分布族 {P_θ: θ in Θ} 被一 σ-有限測度主控,則統計量 T 或一 σ-子體 G 具充分性的充分且必要條件是 P_θ 對 μ 的密度 f_θ 可以表示為 f_θ = g_θ h,其中 g_θ 為 G-可測,而 h 與 θ 無關。
從更一般性的角度,這裡 P_θ 不一定是隨機變數或向量 X 的分布,可以是在原始空間 (S, F) 上的機率測度族;G 可以不需要統計量 T 來產生,因此 f_θ, g_θ, h 都可能是 ω in S 的函數;在統計上,則可以把 F 當作 σ(X),也可以直接是 R^n 上的 Borel 體,而 P_θ 是 X 的分布,f_θ, g_θ, h 則是 x 的函數。
現在假設 T是充分的, 存在 σ(T) 可測函數 p(A*,ω) 滿足
對任意 [T in E], ∫_[T in E] p(A,ω) P_θ(dω) = ∫_{[X in A, T in E]} P_θ(dω)
或:對任意 E* in σ(T),任意 A* in σ(X),
∫_E* p(A,ω) P_θ(dω) = ∫_{A*∩E*} P_θ(dω) = P_θ{A*∩E*}
或用 P_θ 對 μ 的密度 f_θ(x) 來表示:
P_θ{A*∩E*} = ∫_E* p(A*,ω) f_θ(ω) μ(dω)
但是,如何分解出 f_θ = g_θ h?
如果 P 中有一 P_θ0 使得任一 P_θ in P 對 P_θ0 都有密度 ρ_θ;又設 G 是一個充分的 σ-子體。則對任意事件 A*,
∫_A* f_θ dμ = P_θ{A*} = ∫ P_θ{A*|G} dP_θ = ∫ P_θ0{A*|G} dP_θ
= ∫ E_θ0[I_A*|G] ρ_θ dP_θ = E_θ0[E_θ0[I_A*|G] ρ_θ|G] dP_θ0
= ∫ E_θ0[I_A*|G] E_θ0[ρ_θ|G] dP_θ0
= ∫ E_θ0[I_A* E_θ0[ρ_θ|G]|G] dP_θ0
= ∫ I_A* E_θ0[ρ_θ|G] dP_θ0 = ∫_A* E_θ0[ρ_θ|G] dP_θ0
= ∫_A* E_θ0[ρ_θ|G] f_θ0 dμ
以上積分式未指明範圍的代表全範圍,即整個樣本空間 S(或 X 的範圍,即 X 的值域)。因 A* 任意,故得
f_θ = E_θ0[ρ_θ|G] f_θ0 a.s.
其中 E_θ0[ρ_θ|G] 為 G-可測,是 g_θ;而 f_θ0 和 θ 無關,是 h 部分。
機率分布族 P = {P_θ: θ in Θ} 對一個 σ-有限測度 μ 都有機率密度,用測度論的術語來說就是所有 P_θ 都是絕對連績 (sbsolutely continuous),或說 P 被 μ 主控 (dominated)。上面的證明利用 P 中有一成員主控整個分布族。主控的概念可以推至兩個測度族:測度族 M 主控測度族 N,或說 N 被 M 主控,表示對任意在 M 中測度 0 的(可測)集合 E,即 μ(E) = 0 for all μ in M,在 N 中也是測度 0 (ν(E) = 0 for all ν in N)。若 M 和 N 相互主控,則稱兩測度族等價。現在由於 P 被 μ 主控而 μ 是 σ-有限,於是存在 P 的一個可數子集 {P_θ(i); i = 1, 2, ...} 與 P 等價。反過來如果一個分布族 P 可與其一個可數子集 P* 等價,則 P 被一個 σ-有限測度主控。令
P = Σ c_i P_θ(i)
其中所有 c_i > 0 且 Σ c_i = 1,即 P 為由所有 P_θ(i); i = 1, 2, ... 混合的機率分布。結果 P 主控可數分布族 {P_θ(i); i = 1, 2, ...},也主控 P。
假設 G 對 P 是充分的,
P_θ{A*}(ω) = p(A*,ω) 對所有事件 A*, 所有 ω in S,所有 θ
則對所有 G-可測的 E* 及可測的 A*,
∫_E* p(A*,ω) P(dω) = Σ c_i∫_E* p(A*,ω) P_θ(i)(dω)
= Σ c_i P_θ(i){A*∩E*} = P{A*∩E*}
也就是說:p(A*,ω) 也是 P{A|G} 的一個版本。所以,將 P 加入分布族 P,σ-子體 G 仍是充分的;而且此 P 相當於前面的 P_θ0,因此證明了 f_θ = g_θ h 是 G 充分的必要條件。
現在假設 f_θ = g_θ h 其中非負函數 g_θ 是 G-可測,而 h 與 θ 無關。上面建構的機率測度 P 主控分布族 P,
dP/dμ = Σ c_i dP_θi)/dμ = Σ c_i g_θ(i) h
f_θ = dP_θ/dμ = (dP_θ/dP)(dP/dμ) = [g_θ/(Σ c_i g_θ(i))] [(Σ c_i g_θ(i))h]
故 P_θ 對 P 的密度為
g*_θ = g_θ/(Σ c_i g_θ(i)),
由於諸 g_θ 是 G-可測,g*_θ 亦然;而
h*(x) = (Σ c_i g_θ(i))h
則與 θ 無關。對任意 E* in G,
∫_E* P{A*|G} dP_θ = ∫_E* E{I_A*|G] dP_θ = ∫_E* E{I_A*|G] g*_θ dP
= ∫_E* E{I_A* g*_θ|G] dP = ∫_E* I_A* g*_θ dP = P_θ{A*∩E*}
所以 P{A*|G} 是 P_θ{A*|G} 的一個版本,與 θ 無關,所以 G 是充分的。
如果把 P_θ 當成 X 的分布,G = σ(T),A* 換成 [X in A],E* 換成 [T in E],則以上證明了充分統計量的因子分解定理。我們用了比較抽象的 σ-子體 G,並把機率分布族放在原始可測空間 (S,F),其實沒有使證明更難,反而符號更簡潔。不過以上證明確實很技巧性,大概有兩點:其一是構造 P 主控整個分布族;其次是在證明因子分解的必要性時,一連串條件期望值與條件機率性質的運用和形式變化,如果不是看書而抄襲來,我必須坦承:我想不出來。