在「統計量 (Statistic)」一文中我們定義了  Fisher 情報量 (Fisher information) 是 D_θ ㏑(f(X;θ)),對數概似函數 ㏑(f(X;θ) 對 θ 的第一階偏導數,的第二階動差,或變異數。本文來仔細談談其中的想法和所謂「情報不等式 (information ineqality)」。

基於機率方法的統計推論中,我們面對的是一個機率分布族,參數化的方法 (parametric method) 假設有一個實數值或向量型的參數 θ 來標記,而把分布族表示為

= {P_θ: θ in Θ}

假設上列分布族中,參數 θ 是實數值, 並且各分布 P_θ 都有一個分布密度(含機率密度函數及機率質量函數)f(x; θ),則

∫_X f(x; θ) dx = 1   for all θ in Θ

式中 X 代表隨機變數(實數值或向量值) X的範圍(對應域或值域),或者是 R(如果 X 是實數值), 或者是 R^n(如果 X 是向量值), 或者是更一般的集合。積分號下 dx 或者寫成 dμ{x},以示其與初等微積分學中的黎曼積分有別,或說它不限於黎曼積分,例如

在離散型 ∫_X f(x; θ) dx 義同 Σ_{x in X} f(x; θ)

另外,積分範圍 X 實際上會代之以分布的支撑 (support),

隨機變數 X 之分布的支撑,是指

A = {x in : P[X in N(x, δ)] > 0 for any δ-neighborhood of x}

一般來說,對應不同 θ,機率分布 P_θ 的支撑可以是不同的,但有時候我們只考慮支撑相同的分布族,即 P 中每一個 P_θ 的支撑都是同一個集合 A,一個和 θ 無關的集合。例如,在這種限定下我們考慮

0 = ∫_X f(x; θ_1) dx - ∫_X f(x; θ_2) dx

就可以直接表示為 0 = ∫_A (f(x; θ_1) - f(x; θ_2)) dx。

機率分布 P_θ 或其密度 f(x; θ) 隨 θ 值不同而不同,而 P_θ 或 f(x; θ) 又決定了我們可能觀測到什麼樣的觀測值 x,這就提供了由 x 推論 θ 的依據。以 Θ = {θ°, θ*} 為例,若 f(x;θ°) 與 f(x;θ*) 之間的差異很大,則根據 x 較容易猜測產生它的機制是分布 f(x; θ°) 或分布 f(x; θ*);反之,若兩分布的差異很小,則由觀測資料 x 很難猜測其來源是哪一個。因此,我們需要一個指標來衡量兩個分布之間的差異。例如 Kolmogorov-Smirnov 統計量提供了一個指標:

KS = sup_{x in X} | F(x; θ°) - F(x; θ*) |

式中 F(x; θ) 是分布函數,其值都在 0-1 之間,故 KS 指標也在 0-1 之間。Pearson 卡方統計量也提供了另一種指標

χ^2 = ∫_X (f(x; θ°) - f(x; θ*))^2/f(x; θ*) dx

卡方指標 χ^2 可表示為期望值形式

χ^2 = E[ [(f(X;θ°) - f(X;θ*))/f(X;θ*)]^2; θ* ]

是以  f(x; θ*) 為基礎來看 f(x; θ°) 與 f(x; θ*) 的相對差異的均方。做為比較基礎的分布 f(x; θ*) 若換成 f(x; θ°) 顯然會得到不同結果,因此也不妨考慮以兩者之平均 (f(x;θ°)+f(x;θ*))/2 取代上式分母的 f(x;θ*)。一個曾用於類別資料分布差異,而現在較少見到的指標,稱相異係數(或有誤),大概是

D = Σ_i |p(i) - q(i)|/2

在此處可延伸為

D = (1/2) ∫_X |f(x; θ°) - f(x; θ*)| dx

這指標範圍也是在 0-1 之間,是一個對稱指標,並且能表示成期望值形式:

D = (1/2) E[ |(f(X;θ°) - f(X;θ*))/f(X;θ*)|; θ*]
   = (1/2) E[ |(f(X;θ°) - f(X;θ*))/f(X;θ°)|; θ°]

基於熵 (entropy) 的概念,統計上也常用 Kullback-Leibler divergence 來衡量兩分布間的差異

KL = E]㏑(f(X; θ*)/f(x; θ°)); θ*]
     = - E[]㏑(f(X; θ°)/f(x; θ*)); θ*]
     = - E[ (f(X; θ*)/f(x; θ°)) ㏑(f(X; θ*)/f(x; θ°)); θ°]

如同前述 χ^2,這也是一個不對稱指標,因此,有據此修正為對稱指標的 Jensen-Shannon divergence。更多衡量統計機率分布間的距離可參考 Wiki 的 "statistical distance"

實際上參數 θ 所在的集合 Θ,稱參數空間,不只是有兩個元素,以實數值參數而言,Θ 常是 R 上的一個稠密子集或 R 本身。而 Θ 中的兩點 θ° 與 θ*,其距離愈大 f(x;θ°) 與 f(x;θ*) 差異也將愈大,因此看例如 f(x;θ°)-f(x;θ) 不如看 (f(x;θ°)-f(x;θ))/(θ°-θ) 更合理;再者,如果 f(x;θ) 對 θ 而言是可微分的,讓 θ° 逼近 θ 而看其極限

D_θ f(x; θ) = lim_{θ°→θ} (f(x;θ°) - f(x;θ))/(θ° - θ)

是一個合理的做法,因此,以上面談的幾種指標來說:

KS = sup_{x in X} |D_θ F(x; θ)|

χ^2 = E[(D_θ ㏑(f(X; θ)))^2; θ]

D = (1/2)  E[|D_θ ㏑(f(X; θ))|; θ]

KL  = E[D_θ ㏑(f(X; θ)); θ]

以上各指標,KS 是 |D_θ F(x; θ)| 在 x 方向的最大值,也是 D_θ F(x; θ) 最大值或最小值的絕對值,通適當條件下其對應的 x 點是 D_θ^2 f(x; θ) = 0 所在;而在「正規條件」下,KL 是 0,因為在兩分布比較中

KL = - E[ (f(X; θ*)/f(x; θ°)) ㏑(f(X; θ*)/f(x; θ°)); θ°]

雖然恆非負,但 (f(X; θ*)/f(x; θ°)) ㏑(f(X; θ*)/f(x; θ°)) 本身有正有負,故不能保證替換為極限形式後仍得正值。而實際上,如果諸 f(x; θ) 有共同的支撑 A,D_θ[㏑(f(X;θ))] 一直都存在,則

E[D_θ ㏑(f(X; θ)); θ] = ∫_A D_θ ㏑(f(x; θ)) dx
        = ∫_A [D_θ f(x; θ) ] dx
        = ∫_A lim_{θ°→θ} (f(x; θ°) - f(x, θ))/(θ° - θ) dx

積分號下未取極限前 θ° ≠ θ 積分結果等於兩密度函數各自在支撑 A 上積分結果的差再除以 θ°-θ, 但為 0,故合理(但非必然)的結果是:取極限後積分結果也是 0。前述所謂「正規條件 (regularity conditions)」其實只是一些簡化問題所做的限制條件,因此在不同地方(討論不同問題時),其正規條件其實不同。此處我們的正規條件是

(1) 參數空間 Θ 是 R 的一個開集合。這裡暫時假設 θ 是單一時數,而 R 上一個開集合意謂對於 Θ 中每一點 θ 故有一個非空開區間 (θ-δ, θ+δ) 整個包含於 Θ 內。

(2) 所有 f(x; θ), θ in Θ, 其支撑都相同,以 A 表示之。

(3) 對每一點 x in A, 密度函數 f(x; θ) 視為 θ 的函數(概似函數),處處可徹分。

(4) D_θ ∫_A f(x; θ) dx = ∫_A D_θ f(x; θ) dx。

由於 ∫_A f(x; θ) dx ≡ 1,因此上列正規條件 (4) 就是說 E[D_θ ㏑(f(X; θ)); θ] ≡ 0,結果,前述評估 θ 對 f(x; θ) 影響的指標中,D 等於 D_θ ㏑(f(X; θ)) 的折半平均差 (half mean deviation);而 χ^2 是 D_θ ㏑(f(X; θ)) 的變異數,也就是「統計量 (Statistic)」一文定義的 Fisher 情報量記為

I(θ) = E[(D_θ ㏑(f(X; θ)))^2; θ]

由 D_θ ㏑(f(X; θ)) = (D_θ  f(X; θ))/f(x; θ) 得

D_θ^2 ㏑(f(x; θ)) = (D_θ^2 f(x; θ))/f(x; θ) -  [ D_θ ㏑(f(X; θ)) ]^2

式中 D_θ^2  代表對 θ 做兩次微分。如果

(5) D_θ^2 ∫_A f(x; θ) dx = ∫_A D_θ^2 f(x; θ) dx

則 E[D_θ^2 ㏑(f(x; θ))] = - E[(D_θ ㏑(f(X; θ)))^2; θ],故得

I(θ) = - E[D_θ^2 ㏑(f(x; θ))]

在計算情報量時,有時上列用二階導數的方法會比前面的定義式(使用一階導數)更方便。另外是在對 θ 用 Newton 法迭代解最大概似估計時,按數學上 Newton 迭代法是

θ(k+1) = θ(k) - (D_θ ㏑(f(x; θ(k)))/(D_θ^2 ㏑(f(x; θ(k)))

但解 MLE 時則常用

θ(k+1) = θ(k) + (D_θ ㏑(f(x; θ(k)))/I(θ(k))

用情報量替代對數概似函數的第二階微分,一方面通常計算較簡便,另方面收斂情形可能較穩定。

考慮任意具期望值的統計量 T(X),

ξ(θ) = E[T(X); θ] = ∫_A T(x) f(x; θ) dx

如果情報量有限,並且 T(X) 存在二階動差,則

[Cov(T(X); D_θ ㏑(f(X; θ)))]^2 = [∫_A T(x) (D_θ f(x; θ)) dx]^2
      ≦ [Var(T(X); θ) I(θ)]

因此得情報不等式

Var(T(X); θ) ≧  (Cov(T(X); D_θ ㏑(f(X; θ))))^2/I(θ)

而如果

(6) D_θ ∫_A T(x) f(x; θ) dx = ∫_A T(x) (D_θ f(x; θ)) dx

則 Cov(T(X); D_θ ㏑(f(X; θ))) = ξ'(θ),故得

Var(T(X); θ) ≧  (ξ'(θ))^2/I(θ)

如果 ξ(θ) 就是所要估計的,也就是說 T(X) 是 ξ(θ) 的不偏估計,那麼上式成為評估不偏估計量的基礎,\

efficiency = [(ξ'(θ))^2/I(θ)]/Var(T(X); θ)

可當作 T(X) 的統計效率。若要估計的是 g(θ),但考慮的估計量 T(X) 其期望值 ξ(θ) = g(θ) + b(θ), 其中 b(θ) 為偏誤,則變異數不足以當評估標準,而應考慮均方誤 (MSE, mean squared error),

MSE(T(X);  θ) = Var(T(X); θ) + (b(θ))^2

而情報不等式應為

MSE(T(X), θ) ≧  (g'(θ) + b'(θ))^2/I(θ) + (b(θ))^2

但偏誤 b(θ) 及其導數 b'(θ) 是隨估計量而變的,所以評估統計效率時似乎不應考慮,而是以

efficiency = [(g'(θ))^2/I(θ)]/MSE(T(X); θ)

當評估標準。不過,這指標也有個問題:g'(θ) 一般是恆正或恆負,但 b'(θ) 可能與 g'(θ) 不同號,不保謐

(g'(θ) + b'(θ))^2/I(θ) + (b(θ))^2 ≧ (g'(θ))^2/I(θ)

這意謂:如果不限制不偏性,找到估計量統計效率超過 100% 並非絕不可能。

如果 θ 是有限維實數向量,或稱 k 參數的情形,則令 D_j ㏑(f(x; θ)) 代表 ㏑(f(x; θ)) 對 θ_j,θ 的第 j 成分,的微分,則

I_{ij}(θ) = E[(D_i ㏑(f(X; θ)))(D_j ㏑(f(X; θ))); θ]

組成情報矩陣 (information matrix);當類似前面單參數情形的 6 個正規條件都成立,則 I_{ij}(θ) 可以用 ㏑(f(X; θ)) 的第二階偏導式的期望值表示:

I_{ij}(θ) =  - E[(D_i D_j ㏑(f(X; θ))); θ]

為簡便,令 Sj = D_j ㏑(f(X; θ)),對一實數值統計量 T(X),

[Cov(T(X), Σ_j a_j Sj)]^2 ≦ Var(T(X) Var(Σ_j a_j Sj)

寫成向量形式,

(Cov(T(X), a'S))^2  = [a' Cov(T(X), S)]^2
              ≦ Var(T(X)) Var(a'S) = Var(T(X)) aI(θ) a

上列不等式對任意向量 a 都成立,而 a 如縮放為 ta,兩邊同時變為 t^2 倍。令 γ = Cov(T(X), S),則我們可以選擇 a 極大化 (a'γ)^2 或極大化及極小化 a'γ,受限於 aI(θ) a = 1。其解是 = λ(I(θ))^{-1}γ,也就是說,a 要和 (I(θ))^{-1}γ 成比例。把這結果代入不等式,最终得多參數版本的情報不等式:

Var(T(X)) ≧ γ (I(θ))^{-1} γ,  其中 γ =  Cov(T(X), S)。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()