在「統計量 (Statistic)」一文中我們定義了 Fisher 情報量 (Fisher information) 是 D_θ ㏑(f(X;θ)),對數概似函數 ㏑(f(X;θ) 對 θ 的第一階偏導數,的第二階動差,或變異數。本文來仔細談談其中的想法和所謂「情報不等式 (information ineqality)」。
基於機率方法的統計推論中,我們面對的是一個機率分布族,參數化的方法 (parametric method) 假設有一個實數值或向量型的參數 θ 來標記,而把分布族表示為
P = {P_θ: θ in Θ}
假設上列分布族中,參數 θ 是實數值, 並且各分布 P_θ 都有一個分布密度(含機率密度函數及機率質量函數)f(x; θ),則
∫_X f(x; θ) dx = 1 for all θ in Θ
式中 X 代表隨機變數(實數值或向量值) X的範圍(對應域或值域),或者是 R(如果 X 是實數值), 或者是 R^n(如果 X 是向量值), 或者是更一般的集合。積分號下 dx 或者寫成 dμ{x},以示其與初等微積分學中的黎曼積分有別,或說它不限於黎曼積分,例如
在離散型 ∫_X f(x; θ) dx 義同 Σ_{x in X} f(x; θ)
另外,積分範圍 X 實際上會代之以分布的支撑 (support),
隨機變數 X 之分布的支撑,是指
A = {x in X : P[X in N(x, δ)] > 0 for any δ-neighborhood of x}
一般來說,對應不同 θ,機率分布 P_θ 的支撑可以是不同的,但有時候我們只考慮支撑相同的分布族,即 P 中每一個 P_θ 的支撑都是同一個集合 A,一個和 θ 無關的集合。例如,在這種限定下我們考慮
0 = ∫_X f(x; θ_1) dx - ∫_X f(x; θ_2) dx
就可以直接表示為 0 = ∫_A (f(x; θ_1) - f(x; θ_2)) dx。
機率分布 P_θ 或其密度 f(x; θ) 隨 θ 值不同而不同,而 P_θ 或 f(x; θ) 又決定了我們可能觀測到什麼樣的觀測值 x,這就提供了由 x 推論 θ 的依據。以 Θ = {θ°, θ*} 為例,若 f(x;θ°) 與 f(x;θ*) 之間的差異很大,則根據 x 較容易猜測產生它的機制是分布 f(x; θ°) 或分布 f(x; θ*);反之,若兩分布的差異很小,則由觀測資料 x 很難猜測其來源是哪一個。因此,我們需要一個指標來衡量兩個分布之間的差異。例如 Kolmogorov-Smirnov 統計量提供了一個指標:
KS = sup_{x in X} | F(x; θ°) - F(x; θ*) |
式中 F(x; θ) 是分布函數,其值都在 0-1 之間,故 KS 指標也在 0-1 之間。Pearson 卡方統計量也提供了另一種指標
χ^2 = ∫_X (f(x; θ°) - f(x; θ*))^2/f(x; θ*) dx
卡方指標 χ^2 可表示為期望值形式
χ^2 = E[ [(f(X;θ°) - f(X;θ*))/f(X;θ*)]^2; θ* ]
是以 f(x; θ*) 為基礎來看 f(x; θ°) 與 f(x; θ*) 的相對差異的均方。做為比較基礎的分布 f(x; θ*) 若換成 f(x; θ°) 顯然會得到不同結果,因此也不妨考慮以兩者之平均 (f(x;θ°)+f(x;θ*))/2 取代上式分母的 f(x;θ*)。一個曾用於類別資料分布差異,而現在較少見到的指標,稱相異係數(或有誤),大概是
D = Σ_i |p(i) - q(i)|/2
在此處可延伸為
D = (1/2) ∫_X |f(x; θ°) - f(x; θ*)| dx
這指標範圍也是在 0-1 之間,是一個對稱指標,並且能表示成期望值形式:
D = (1/2) E[ |(f(X;θ°) - f(X;θ*))/f(X;θ*)|; θ*]
= (1/2) E[ |(f(X;θ°) - f(X;θ*))/f(X;θ°)|; θ°]
基於熵 (entropy) 的概念,統計上也常用 Kullback-Leibler divergence 來衡量兩分布間的差異
KL = E]㏑(f(X; θ*)/f(x; θ°)); θ*]
= - E[]㏑(f(X; θ°)/f(x; θ*)); θ*]
= - E[ (f(X; θ*)/f(x; θ°)) ㏑(f(X; θ*)/f(x; θ°)); θ°]
如同前述 χ^2,這也是一個不對稱指標,因此,有據此修正為對稱指標的 Jensen-Shannon divergence。更多衡量統計機率分布間的距離可參考 Wiki 的 "statistical distance"
實際上參數 θ 所在的集合 Θ,稱參數空間,不只是有兩個元素,以實數值參數而言,Θ 常是 R 上的一個稠密子集或 R 本身。而 Θ 中的兩點 θ° 與 θ*,其距離愈大 f(x;θ°) 與 f(x;θ*) 差異也將愈大,因此看例如 f(x;θ°)-f(x;θ) 不如看 (f(x;θ°)-f(x;θ))/(θ°-θ) 更合理;再者,如果 f(x;θ) 對 θ 而言是可微分的,讓 θ° 逼近 θ 而看其極限
D_θ f(x; θ) = lim_{θ°→θ} (f(x;θ°) - f(x;θ))/(θ° - θ)
是一個合理的做法,因此,以上面談的幾種指標來說:
KS = sup_{x in X} |D_θ F(x; θ)|
χ^2 = E[(D_θ ㏑(f(X; θ)))^2; θ]
D = (1/2) E[|D_θ ㏑(f(X; θ))|; θ]
KL = E[D_θ ㏑(f(X; θ)); θ]
以上各指標,KS 是 |D_θ F(x; θ)| 在 x 方向的最大值,也是 D_θ F(x; θ) 最大值或最小值的絕對值,通適當條件下其對應的 x 點是 D_θ^2 f(x; θ) = 0 所在;而在「正規條件」下,KL 是 0,因為在兩分布比較中
KL = - E[ (f(X; θ*)/f(x; θ°)) ㏑(f(X; θ*)/f(x; θ°)); θ°]
雖然恆非負,但 (f(X; θ*)/f(x; θ°)) ㏑(f(X; θ*)/f(x; θ°)) 本身有正有負,故不能保證替換為極限形式後仍得正值。而實際上,如果諸 f(x; θ) 有共同的支撑 A,D_θ[㏑(f(X;θ))] 一直都存在,則
E[D_θ ㏑(f(X; θ)); θ] = ∫_A D_θ ㏑(f(x; θ)) dx
= ∫_A [D_θ f(x; θ) ] dx
= ∫_A lim_{θ°→θ} (f(x; θ°) - f(x, θ))/(θ° - θ) dx
積分號下未取極限前 θ° ≠ θ 積分結果等於兩密度函數各自在支撑 A 上積分結果的差再除以 θ°-θ, 但為 0,故合理(但非必然)的結果是:取極限後積分結果也是 0。前述所謂「正規條件 (regularity conditions)」其實只是一些簡化問題所做的限制條件,因此在不同地方(討論不同問題時),其正規條件其實不同。此處我們的正規條件是
(1) 參數空間 Θ 是 R 的一個開集合。這裡暫時假設 θ 是單一時數,而 R 上一個開集合意謂對於 Θ 中每一點 θ 故有一個非空開區間 (θ-δ, θ+δ) 整個包含於 Θ 內。
(2) 所有 f(x; θ), θ in Θ, 其支撑都相同,以 A 表示之。
(3) 對每一點 x in A, 密度函數 f(x; θ) 視為 θ 的函數(概似函數),處處可徹分。
(4) D_θ ∫_A f(x; θ) dx = ∫_A D_θ f(x; θ) dx。
由於 ∫_A f(x; θ) dx ≡ 1,因此上列正規條件 (4) 就是說 E[D_θ ㏑(f(X; θ)); θ] ≡ 0,結果,前述評估 θ 對 f(x; θ) 影響的指標中,D 等於 D_θ ㏑(f(X; θ)) 的折半平均差 (half mean deviation);而 χ^2 是 D_θ ㏑(f(X; θ)) 的變異數,也就是「統計量 (Statistic)」一文定義的 Fisher 情報量記為
I(θ) = E[(D_θ ㏑(f(X; θ)))^2; θ]
由 D_θ ㏑(f(X; θ)) = (D_θ f(X; θ))/f(x; θ) 得
D_θ^2 ㏑(f(x; θ)) = (D_θ^2 f(x; θ))/f(x; θ) - [ D_θ ㏑(f(X; θ)) ]^2
式中 D_θ^2 代表對 θ 做兩次微分。如果
(5) D_θ^2 ∫_A f(x; θ) dx = ∫_A D_θ^2 f(x; θ) dx
則 E[D_θ^2 ㏑(f(x; θ))] = - E[(D_θ ㏑(f(X; θ)))^2; θ],故得
I(θ) = - E[D_θ^2 ㏑(f(x; θ))]
在計算情報量時,有時上列用二階導數的方法會比前面的定義式(使用一階導數)更方便。另外是在對 θ 用 Newton 法迭代解最大概似估計時,按數學上 Newton 迭代法是
θ(k+1) = θ(k) - (D_θ ㏑(f(x; θ(k)))/(D_θ^2 ㏑(f(x; θ(k)))
但解 MLE 時則常用
θ(k+1) = θ(k) + (D_θ ㏑(f(x; θ(k)))/I(θ(k))
用情報量替代對數概似函數的第二階微分,一方面通常計算較簡便,另方面收斂情形可能較穩定。
考慮任意具期望值的統計量 T(X),
ξ(θ) = E[T(X); θ] = ∫_A T(x) f(x; θ) dx
如果情報量有限,並且 T(X) 存在二階動差,則
[Cov(T(X); D_θ ㏑(f(X; θ)))]^2 = [∫_A T(x) (D_θ f(x; θ)) dx]^2
≦ [Var(T(X); θ) I(θ)]
因此得情報不等式
Var(T(X); θ) ≧ (Cov(T(X); D_θ ㏑(f(X; θ))))^2/I(θ)
而如果
(6) D_θ ∫_A T(x) f(x; θ) dx = ∫_A T(x) (D_θ f(x; θ)) dx
則 Cov(T(X); D_θ ㏑(f(X; θ))) = ξ'(θ),故得
Var(T(X); θ) ≧ (ξ'(θ))^2/I(θ)
如果 ξ(θ) 就是所要估計的,也就是說 T(X) 是 ξ(θ) 的不偏估計,那麼上式成為評估不偏估計量的基礎,\
efficiency = [(ξ'(θ))^2/I(θ)]/Var(T(X); θ)
可當作 T(X) 的統計效率。若要估計的是 g(θ),但考慮的估計量 T(X) 其期望值 ξ(θ) = g(θ) + b(θ), 其中 b(θ) 為偏誤,則變異數不足以當評估標準,而應考慮均方誤 (MSE, mean squared error),
MSE(T(X); θ) = Var(T(X); θ) + (b(θ))^2
而情報不等式應為
MSE(T(X), θ) ≧ (g'(θ) + b'(θ))^2/I(θ) + (b(θ))^2
但偏誤 b(θ) 及其導數 b'(θ) 是隨估計量而變的,所以評估統計效率時似乎不應考慮,而是以
efficiency = [(g'(θ))^2/I(θ)]/MSE(T(X); θ)
當評估標準。不過,這指標也有個問題:g'(θ) 一般是恆正或恆負,但 b'(θ) 可能與 g'(θ) 不同號,不保謐
(g'(θ) + b'(θ))^2/I(θ) + (b(θ))^2 ≧ (g'(θ))^2/I(θ)
這意謂:如果不限制不偏性,找到估計量統計效率超過 100% 並非絕不可能。
如果 θ 是有限維實數向量,或稱 k 參數的情形,則令 D_j ㏑(f(x; θ)) 代表 ㏑(f(x; θ)) 對 θ_j,θ 的第 j 成分,的微分,則
I_{ij}(θ) = E[(D_i ㏑(f(X; θ)))(D_j ㏑(f(X; θ))); θ]
組成情報矩陣 (information matrix);當類似前面單參數情形的 6 個正規條件都成立,則 I_{ij}(θ) 可以用 ㏑(f(X; θ)) 的第二階偏導式的期望值表示:
I_{ij}(θ) = - E[(D_i D_j ㏑(f(X; θ))); θ]
為簡便,令 Sj = D_j ㏑(f(X; θ)),對一實數值統計量 T(X),
[Cov(T(X), Σ_j a_j Sj)]^2 ≦ Var(T(X) Var(Σ_j a_j Sj)
寫成向量形式,
(Cov(T(X), a'S))^2 = [a' Cov(T(X), S)]^2
≦ Var(T(X)) Var(a'S) = Var(T(X)) a' I(θ) a
上列不等式對任意向量 a 都成立,而 a 如縮放為 ta,兩邊同時變為 t^2 倍。令 γ = Cov(T(X), S),則我們可以選擇 a 極大化 (a'γ)^2 或極大化及極小化 a'γ,受限於 a' I(θ) a = 1。其解是 a = λ(I(θ))^{-1}γ,也就是說,a 要和 (I(θ))^{-1}γ 成比例。把這結果代入不等式,最终得多參數版本的情報不等式:
Var(T(X)) ≧ γ (I(θ))^{-1} γ, 其中 γ = Cov(T(X), S)。