本版有些文曾稍為提到統計決策理論的方法,簡單地說就是把參數或群體特性 θ 與統計人員的決定 d(x), 搭配損失函數 L(θ, d(x)) 看成兩方的零和對局 (two person zero-sum game)。θ 的值被認為是對局的一方(不妨稱為敵方);d(x) 是統計人員根據樣本資料 x 做成的決策,是對局的另一方(我方),損失函數 L(θ, d(x)) 是當敵方做成策略 θ 而我方採行策略 d(x) 時我方的損失,即敵方的所得。A. Wald 1950 提出這理論時,有的統計學家並不以為然,認為 θ 的掌控者,敵方-老天或自然,並不像對局論所假設的,和我方一樣是聰明的對局者。不過,不管如何,決策理論或其底層對局論的架構,確實很適合統計推論:參數 θ 猶如有個對手出的底牌,統計學家或統計人員並不知道這個底牌是什麼,卻需要做出決策 d,而不同 (θ, d) 配對會有不同損失。儘管敵方可能不是一個聰明的對手,但我方不知道對方採取的策略 θ,因此考慮採取什麼決策 d 時必須假設不同 θ 有不同損失。在統計推論時,我們可能要做 θ 的點估計(直接猜測 θ 的值), 也可能用一個區間 [l, u] 猜測 θ 在這個區間中,或者可能猜測 θ 是在 H°(虛無假說) 中或 H'(對立假說) 中。在這些統計問題,我們可以評估:如果做出的決策是 d 而實際上敵方的策略是 θ 時,將發生多少損失。例如在點估計(直接猜測 g(θ) 值),損失可能是
L(θ, d) = ρ(|d - g(θ)|) 或 ρ(d - g(θ))
在區間估計(以 [l, u] 猜測 θ 或 g(θ) 的範圍), 損失可能是
L(θ, d) = ρ(u-l, K), K = 1 當 θ 在 [l, u], = 0 當 θ 不在 [l, u]
至於假說檢定(判斷)問題,
L(θ, d) = C° 當 θ 在 H° 而 d 在 H'; = C' 當 θ 在 H' 而 d 在 H°
而 d 和 θ 歸屬一致時損失為 0。
在統計問題中,θ 代表數值性或向量型參數,或只是一個分布族中不同分布的標記符號,統稱為參數 (parameter),其範圍 Θ 稱為參數空間 (parameter space)。而我方的策略也就是統計決策 (decision) d,其範圍稱決策空間 (decision space),隨著統計問題而異,例如點估計問題的決策空間常取和參數函數 g(θ) 範圍一致,也就是 {g(θ): θ in Θ};在假說檢定問題,則決策空間只有兩個:拒絕 H°(接受 H')或不拒絕 H°(接受 H°)。也有作者把上面說的決策和決策空間分別稱為行動 (action) 和行動空間 (action space),以下將改稱行動空間,而 (參數空暗,行動空間,損失函數), 或符號表示 (Θ, A, L), 則構成基本的二人零和對局。
在二人零合對局 (Θ, A, L) 中並沒有涉及抽樣和資料,但統計推論通常是要根據資料做決策的,不管對手的決策 θ 是不是聰明選定,前述統計對局不是如「剪刀、石頭、布」遊戲匣樣敵我雙方同時出招,或如睹局那樣局中人彼此不知也無法猜測對方底牌。統計對局存敵方出手後,可以蒐集資料 X,就好像高明賭客能由對手表情猜測對方底牌。資料 X 的分布與 θ 有關,因而我們可以設定規則:得到什麼樣的資料 X = x 就做什麼樣的行動 a = d(x),此處 a 代表實際的統計決策,是行動空間 A 的一員(一個元素)。函數 d(.) 把樣本空間 X 即 x 的範圍映到 A,稱為決策函數 (decision function)。所有可行的決策函數的集合,以 D 表示。本來的對局 (Θ, A, L) 變成 (Θ, D, R),此處 R 代表敵方策略 θ 而我方是決策函數 d(x) 時我方遭受的損失。但現在我方的策略 d(x) 是看到資料 x 才決定什麼行動的,即 a = d(x) in A,所以決策函數 d() 所引致的具體損失是 L(θ, d(x)), 隨資料 x 而變;而決策函數 d(.) 招致的損失 R(θ,d)應考慮所有可能的,不同的 x,一個合理的方式是定義
R(θ, d) = E[L(θ, d(X)); θ], θ in Θ, d in D
稱上列 R(θ, d) 為決策函數 d(.) 在參數值 θ 之下的風險 (risk);而 R(θ, d) 視為 θ 的函數 ,則稱為決策函數 d(.) 的風險函數 (risk function)。
在二人零和對局,假設誤我雙方都是聰明的對手;並且由於零和,我方之損失即敵方之利得,因此敵方必選擇讓我方損失最大的策略,而我方則選擇損失最小的策略。具體來說,對於每一個 θ 值,統計人員想找一個決策函數 d(x, θ) 使 R(θ, d(.,θ))最小;敵方則要選擇一個策略 θ 使前項 R(θ, d(.,θ)) 最大化,這就是敵方的「極大化極小風險策略」或「小中取大解 (maximin solution)」:
θ* = arg max_θ min_d R(θ, d)
相對地,統計人員要找的是「大中取小解 (minimax solution)」
d* = arg min_d max_θ R(θ, d)
一般而言,min_d max_θ R(θ, d) ≧ max_θ min_d R(θ, d),即使等號成立,前者解的配對 (θ°, d*) 與後者解的配對 (θ*, d°) 也可能不一致,但
假設 θ 的小中取大解 θ* 對應 d°,即 max_θ min_d R(θ, d) = R(θ*, d°);
類似,d 的大中取小解 d* 對應 θ°,即 min_d max_θ R(θ, d) = R(θ°, d*)。
若 R(θ*, d°) = R(θ°, d*),則
R(θ*, d*) = R(θ*, d°) = R(θ°, d*) = R(θ°, d°)
[證]對 θ 的小中取大解而言,首先對應每個 θ 值,d'(θ) 是極小化 R(θ, d) 的 d;而變動 θ 至 θ* 時極大化這些極小值,d'(θ*) 則被簡記為 d°。故
R(θ, d) ≧ R(θ, d'(θ)), for all θ
類似,在 的大中取小解方面,
R(θ, d) ≦ R(θ'(d), d), for all d
合在一起是 R(θ, d'(θ)) ≦ R(θ, d) ≦ R(θ'(d), d),對所有 θ, d 都成立。
由 R(θ, d'(θ)) ≦ R(θ, d),在 θ*, 得 R(θ*, d°) ≦ R(θ*, d),
特別地, R(θ*, d°) ≦ R(θ*, d*)。
由 R(θ, d) ≦ R(θ'(d), d),在 d*,得 R(θ, d*) ≦ R(θ°, d*),
特別地,R(θ*, d*) ≦ R(θ°, d*)。
由於 R(θ*, d*) = R(θ°, d*),故 R(θ*, d*) 也等於此共同值。
又依小中取大解,R(θ,d°) ≦ R(θ*, d°),特別地,R(θ°,d°) ≦ R(θ*, d°);
類似,大中取小解條件是 R(θ°,d) ≧ R(θ°,d*),特別地,R(θ°,d°) ≧ R(θ°,d*)。
故亦得 R(θ°,d°) = R(θ*, d°) = R(θ°, d*)。
如果 θ*, d* 分別是對局雙方雙方的解(策略),而得到的風險值一致,則配對策略 (θ*,d*) 是這個對局的一個均衡解在統計泱策理論,我們把均衡解的 d* 稱為「大中取小決策函數 (minimax decision function (decision rule))」,在點估計問題,它就稱為「大中取小解估計式 (minimax estimator)」。
雖然上述大中取小決策函數是把統計推論問題當做二人零和對局,並假設雙方都是聰明的對手,但從統計推論來看,即便不能說 θ 的值不是老天聰明的選擇,要讓統計人員遭受最大的損失,仍然可以把大中馭小準則當做一種保守準則:基於保守原則,在做決策時先考慮其可能遭致的最大損失。不過,考慮每一個決策函數最大的損失,而選擇使最大損失極小化的決策函數,無疑是極度保守的做法。換個方式,為何不能考慮依各 θ 值的可能性,把 R(θθ,d) 對 θ 做平均,而用平均風險來選擇決策函數?
r(d; π) = ∫_Θ R(θ, d) π(θ) dθ
其中 π(θ) 是參數值可能是 θ 的機率密度, r(d; π) 是貝氏風險 (Bayes risk) 或平均風險,或統計人員對不同 θ 值的看重程度。而我們想找到決策函數
d* = arg min_d r(d; π)
這樣的決策函數 d* 稱為在先驗機率分布 (prior distribution, or a priori distribution) 或權量函數 (weighting function) π(θ) 的貝氏決策規則 (Bayesian decision rule) 或貝氏決策函數。兩個決策函數的風險函數相比在不同 θ 處的風險值可能有高有低,導致難以做選擇。大中取小準則是看各自的最高點,它們並不是是發生在相同的 θ 處,但仍被拿來比較。具氏準則是比較貝氏風險,在固定先驗分布下,每一個決策函數只有一個貝氏風險數值,因此方便比較。再者,只是少數幾個決策函數,依最大風險值相互比較或依貝氏風險值,選取決策函數,都沒有困難,但要從無限多可能的但非明列的決策函數中找到大中取小的那個解,一般而言是很困難的。不過,如果採用貝氏準則,
r(d; π) = ∫_Θ R(θ, d) π(θ) dθ
= ∫_Θ ∫_X L(θ,d(x)) f(x;θ) π(θ) dx dθ
= ∫_X ∫_Θ L(θ,d(x)) π(θ|x) m(x) dθ dx
其中 m(x) = ∫_Θ f(x;θ) π(θ) dθ 是 X 的邊燄分布,而 π(θ|x) m(x) 是給定 X = x 觀測值之下 θ 的後驗分布 (posterior 或 a posteriori distribution)。從最後一式,只要對每個可能的 x 值,能找到數值 d(x) 使 ∫_Θ L(θ,d(x)) π(θ|x) m(x) dθ 最小,則決策函數 d(x) 將最小化 r(d;π)。即
d(x) = arg min_d ∫_Θ L(θ,d) π(θ|x) m(x) dθ
因為 d(x) 只是找一個數值(或一個點),使前項積分結果最小,至少能以數值計算的方法找到。因此,貝氏準則成為普遍受歡迎的方法。在上式中,積分式
ρ(d; π) = ∫_Θ L(θ,d) π(θ|x)dθ
= ∫_Θ L(θ,d) f(x;θ) π(θ)/m(x) dθ
= ∫_Θ L(θ,d) f(x;θ) π(θ) dθ/∫_Θ f(x;θ) π(θ|x)dθ
稱為「後驗期望損失 (posterior expected loss)」, 所以 d(x) 就等於極小化後驗期望損失的決策(行動)。但這結果另有一種解釋:
貝氏決策就是將未知參數 θ 視為隨機變數,資料 x 固定,使期望損失 ρ(d;π) 最小的決策。
當沒有資料時,貝氏決策是根據先驗分布 π(θ) 計算期望損失;觀測到資料 X = x 後,經修正得 θ 的後驗分布 π(θθ|x),期望損失的計算就依據後驗分布。貝氏學派 (Bayesian) 認為資料是已知的、固定的;參數 θ 是未知的,因此應當是隨機的。依此觀點,貝氏分析,貝氏學派的統計推論完全是機率、期望值及極值的計算,並非決策分析的方法。但統計決策分析的貝氏解卻是由貝氏分析得到,雖然本質上是兩種不同的想法。
統計決策的貝氏準則,其先驗分布 π(θ) 可以說是敵方採取的一個混合策略:
混合策略就是在原本可能採用的策略集上定義的一個機率分布。
類似地,我方,統計人員也可以採用混合策略:在行動空間上一個機率分布就是一個混合策略,a* in A*, 此處 a* 是 A 上一個機率分布,A* 是所有這類機率分布的集合。決策函數 d 原先只考慮 X 到 A 的函數,d(x) 是一個確定的決策,把 X 中的 x 送到 A 中一個 a = d(x);現在把 d 的對應域 (codomain) 改成 A*,也就是說看到資料 x,就以 a* = d(x) 這機率分布決定最終決策(行動)。這是決策的隨機化,一個平常的例子是 N-P lemma 中的最強力檢定,特別是檢定統計量的分布是離散型時,要使得檢定大小能達到顯著水準,隨機化檢定是必要的。
另外一個想法:我們也可在 D 上建立機率分布,做為一種隨機化決策函數 d* in D*,其中 d* 是以固定機率(密度)從 D 選撢一個 d 把 x 映至 a in A。看起來似乎先在 A 做隨機化再把 x 映至 A* 中一元素這方式,比起在 D 上構建的隨機策略 d* 更具彈性,因為前者不同 x 對應到不同 a*, 也就是不同 x 最終決策是某個 a 的機率(密度)可以不同。不過,其實並不盡然,舉個簡單的例子,假設 X 只有二個元素 x' 和 x",行動空間 A 有三個元素 {a, a', a"},一個從 X 映至 A* 的隨機化決策函數是
a | a' | a" | |
x' | p{11} | p{12} | p{13} |
x" | p{21} | p{22} | p{33} |
上面表列的意思是:如果資料是 x',則最後決策是 a, a' 或 a" 的機率依次為 p{11}, p{12} 及 p{13}; 如果資料曷 x" 則機率為 p{21}, p{22} 及 p{23}。另一方面,非隨機決策函數有 3^2 = 9 個
d_1 | d_2 | d_3 | d_4 | d_5 | d_6 | d_7 | d_8 | d_9 | |
x' | a | a | a | a' | a' | a' | a" | a" | a" |
x" | a | a' | a" | a' | a' | a" | a" | a' | a" |
又設 d* 是在 D 上建立的一個機率分布,以 r_i 機率選擇 d_i。則相當於以下列機率表定義的第一種隨機化決策函數:
a | a' | a" | |
x' | r_1+r_2+r_3 | r_4+r_5+r_6 |
r_7+r_8+r_9 |
x" | r_1+r_4+r_7 | r_2+r_5+r_8 | r_3+r_6+r_9 |
所以每一個 d*(x) 相當於一個從 X 到 A* 的隨機化決策函數;反之,一個從 X 映至 A* 的決策函數,我們可以找到一組 {r_i} 使得
r_i ≧ 0 for all i;
r_1 = p{21}-p{12}-p{13}+r_5+r_6+r_8+r_9
r_2 = p{22}-r_5-r_8
r_3 = p{23}-r_6-r_9
r_4 = p{12}-r_5-r_6
r_7 = p{13}-r_8-r_9
則機率分布 {r_i} 是 d* in D*,與 p{ij} 定義的隨機化決策函數等價。也就是說:
從 X 到 A* 的一個決策函數,都對應一個 d* in D*;
而每一個 d* in D*, 也對應一個從 X 到 A* 的決策函數。
所以一個隨機化決策函數,可以表示為不同 x 對應到不同 a* in A*;或表示為 D 上成員的混合,即 d* in D*。一般如上例假設 X 有有限 m 個元素,A 有 n 個元素,則 D 有 n^m 個元素,如上面的例子,我們有 n*m 個方程式可以建立兩種隨機化決策函數的關係(成線性獨立的有 n*m-m+1 方程式)。至於如何表示,則視需要與方便而定。一個抽象的表示法是 d(X,Z), 其中 X 是觀測資料,Z 則是附加的隨機化程序。從 X 到 A* 的隨機化程序表示 Z 是在看到 X = x 後再從 A 中選取一個決策 a;而如果 d(X, Z) 是 D* 的一員,則 Z 的值決定了 d(X, Z) 等於某個 d(X) in D。無論如何,
R(θ, d(X,Z)) = E[L(θ, d(X,Z)); θ]
期望值是對 X 和 Z 同時做的,θ 值則是固定的。
從統計的觀點,要評價一個決策函數好壞,應從整個風險函數 R(θ, d) 來看。但除了大中取小及貝氏(平均)風險兩種簡化的決策選擇方案以外,只有「容許性 (admissibility)」的整體比較觀念:
一個決策函數 d,若存存另一個決策函數 d' 擁有比 d 一致更小的風險,則稱 d 為「不容許的 (inadmissible)」; 若 d 不是不容許的,也就是說不存在一致比 d 有更小風險值的其他決策函數,則 d 是容許的 (admissible)。
決策函數 d' 比 d 有一致更小的風險值,意謂
R(θ, d') ≦ R(θ, d) for all θ; 並且 R(θ, d') < R(θ, d) for some θ.
如果 d' 比 d 有一致更小的風險值,我們會說 d' 比 d 有優勢或 d' 優於 d (d' dominate d),或說 d 被 d' 超越 (d is dominated by d')。
一個決策函數是容許的,或說具容許性,就是說沒有其他決策函數可以超越它。一個決策函數要具備容許性,看起來似乎很理首當然,但是,有時候看來很合理的決策函數,卻不具容許性,或者很難知道它是不是具備容許性:
Charles Stein 1956 發表了一篇震驚統計學界的論文,說:在平方和損失之下,同時估計數個常態群體平均數,傳統 MLE 可能是不容許的。具體地說,如果同時估計的只有一或二個群體,各樣本平均數做為群體平均數的估計,具備容許性;但若同時估計三個以上常態群體各自的平均數,各樣本平均數做為估計量並不具備容許性。此現象被稱之為 Stein paradox 或 Stein phenomenon。
簡化問題:假設 X ~ N(θ, I),即同時考慮 p 個標準差為 1 的常態群體,並從 p 個群體相互獨立抽取觀測值 Xi。標準的估計方法是 Xi 估計 θ_i,即 d(X) = X 估計 θ。在損失函數
L(θ, a) = || a - θ ||^2
即誤差平方和時,此標準估計或 MLE 或 UMVUE,當 p ≧ 3 時是不容許的,它被
d'(X) = (1-α/||X""^2)X, α = p-2
所超越:
R(θ, d') = p - (p-2)^2 E[1/||X||^2]
注意在前面設定下 R(θ, d) = p。不過,上列估計量 d' 也是不容許的,另一個修訂版的 James-Stein 估計
d"(X) = [1 - (p-3)/||X||^2)^+ X
稱之為「James-Stein 估計量的正部」,被證明在 p ≧ 4 時比前面的 d'(X) 還具優勢。不過,在 Lehmann and Casella 的 Theory of Point Estimaton (2nd Ed.) 指出,這仍然是不容許的估計量。
與上述合理也屬良好的統計決策函數仍可能不具容許性相反的,是有許多具容許性的統計決策函數,可能毫無用處甚至荒謬的。如前例估計問題,取 d°(X) = θ°,則在 θ° 這點 d° 的風險值為 0,但除了 d° 以外,任何其仔估計量不可能在這一點得到風險值 0 的結果,所以 d° 是容許的,但它顯然是不合理且不可用的。所以容許性看來似乎很自然很基本的要求,實際上卻不那麼理想。
有時候我們得到一個看似不錯的決策函數,自然想問:它是不是容許的?但是一般要證明一個統計決策函數是不是具備容許性,卻不是很簡單的一件事。不過,有一個定理應該是有用的:
[定理] 若 d 是對應某先驗機率分布 π 的唯一貝氏規則,則 d 具容許性。
[證] 設 d' 是優於 d 的一個決策規則(函數),則 R(θ, d') ≦ R(θ, d) 對所有 θ 在 Θ 中,則 r(d'; π) ≦ r(d; π), 則 d 不是對應 π 的貝氏規則或貝氏規則不唯一,無論如何這都違反了假設。因此,如果貝氏規則是唯一的,則是容許的。
由前面我們知道貝氏決策函數(貝氏規則)是在 X 的每一點 x 取 d(x) 極小化後驗期望損失。因此,貝氏決策函數的唯一性就在於:在每個 x 點,後驗期望損失有唯一最小所在 d(x),特別是損失函數 L(θ, a) 是 a 的嚴格凸函數,如點估計問題的平方誤差和損失就是一個典型例子。以估計常態群體平均數為例,假設 Y 是樣本平均數,Y ~ N(θ,σ^2/n)。採用平方誤差損失,取 θ 的先驗分布 N(ξ,τ^2),則得貝氏估計
d^B(Y) = (nY/σ^2 + ξ/τ^2)/(n/σ^2 + 1/τ^2)
依前述定理,對於任意選擇的 ξ 及 τ^2, 上列貝氏估計量都是容許的,其風險函數為
R(θ, d^B) = [(n/σ^2) + (ξ-θ)^2/τ^4]/[(n/σ^2) + (1/τ^2)]^2
令 d°(Y) = Y,則此例得:
lim_{τ^2→∞} d^B(Y) = d°(Y), 並且
lim_{τ^2→∞} R(θ, d^B) = R(θ, d°)
也就是說:雖然此例樣本平均數不是貝氏估計,但可稱之為「極限貝氏估計 (limiting Bayes estimator)」。當極限貝氏規則之風險函數等於對應的貝氏規則序列之風險函數序列時,它應是否是容許的?
[問題] 假設統計決策問題(在損失函數 L(θ,a) 之下)其風險函數(對 θ)都是連續的,Θ 是 R^k 的一個開集合。若一個決策規則(函數) d° 可表示為一個貝氏規則序列 d_n 的極限,並且對應的風險函數序列 R(θ, d_n) 均勻收斂到 d° 的風險函數 R(θ, d°), 則 d° 是否具容許的?
[探討] 假設 d° 是不容許的,則它被某決策函數 d* 超越。即
R(θ, d*) ≦ R(θ, d°) for all θ in Θ, 並且
R(θ°, d*) < R(θ°, d°) for some θ°
但 R(θ, d_n) 均勻收斂到 R(θ, d°),對任意 ε > 0, 存在 N,當 n > N 時
|R(θ, d_n) - R(θ, d°)| < ε, 對所有 θ 成立,
因 R(θ, d) 對 θ 連績,存在 θ° 之一鄰域,
|R(θ, d) - R(θ°, d)| < ε, 當 d = d* 及 d°
則,在此鄰域,
R(θ, d_n) - R(θ, d*)
= R(θ,d_n)-R(θ,d°) + R(θ,d°)-R(θ°,d°)
+ R(θ°,d°)-R(θ°,d*) + R(θ°,d*)-R(θ,d*)
≧ R(θ°,d°)-R(θ°,d*) - 3ε
因此,只要 n 夠大,則 R(θ°,d*) < R(θ°,d°)。但在此鄰域之外呢?我們只知道
R(θ, d_n) → R(θ,d°) ≧ R(θ,d*)
貝氏規則 d_n 並不一定能被 d* 所超越。考慮 d°, d* 及 d_n 的貝氏風險:假設 d_n 是對應先驗分布 π_n 的貝氏決策規則,我們看看
(r(d°; π_n) - r(d*; π_n))/(r(d°; π_n) - r(d_n; π_n))
當 n → ∞ 時的趨勢。由於 R(θ,d_n) 向 R(θ,d°) 均勻收斂,故
r(d°; π_n) - r(d_n; π_n) = ∫_Θ (R(θ,d°)-R(θ,d_n)) π_n(θ) dθ
收斂到 0,當 n → ∞。另一方面,
R(θ,d°)-R(θ,d*)
= R(θ,d°)-R(θ°,d°) + R(θ°,d°)-R(θ°,d*) + R(θ°,d*)-R(θ,d*)
≧ R(θ°,d°)-R(θ°,d*) - 2ε
可取 ε = (R(θ°,d°)-R(θ°,d*))/3,則上式至少為 ε,當 θ 在 θ° 的一個鄰域 N(θ°),n > N。在 θ°-鄰域之外依假設 R(θ,d°)-R(θ,d*) 非負值,故
r(d°; π_n) - r(d*; π_n)
= ∫_Θ (R(θ,d°)-R(θ,d*)) π_n(θ) dθ
≧ ∫_N(θ°) (R(θ,d°)-R(θ,d*)) π_n(θ) dθ
≧ ε∫_N(θ°) π_n(θ) dθ
如果
lim_n ∫_N(θ°) π_n(θ) dθ/(r(d°;π_n)-r(d_n;π_n))
= +∞
即表示 (r(d°; π_n) - r(d*; π_n))/(r(d°; π_n) - r(d_n; π_n)) 隨著 n 無限增大而無上限。但
(r(d°;π_n) - r(d*;π_n))/(r(d°;π_n) - r(d_n;π_n))
= 1 + (r(d_n;π_n) - r(d*;π_n))/(r(d°;π_n) - r(d_n;π_n))
這意謂 n 夠大時
r(d_n;π_n) - r(d*;π_n) >> r(d°;π_n) - r(d_n;π_n) > 0
但這和 d_n 是對應 π_n 的貝氏決策規則矛盾,也就說明了:優於 d° 的 d* 並不存在,所以此情形下 d° 是容許的。
附加條件
lim_n ∫_N(θ°) π_n(θ) dθ/(r(d°;π_n)-r(d_n;π_n))
= +∞
的極限可以改成 lim sup,也就是說只要該序列存在一子刑使上列比率趨於無窮即可,因為我們只需因假設優於 d° 的 d* 存在能導致 d* 對應某個 π_n 的貝氏風險低於 d_n 的貝氏風險即可。另外,鄰域 N(θ°) 是因假設 d* 存在而決定出來的,如果我們需要一個檢驗 d° 容許與否的條件,則
[附加條件] 對 Θ 中任一點 θ° 的任一鄰域 N(θ°),
lim_n ∫_N(θ°) π_n(θ) dθ/(r(d°;π_n)-r(d_n;π_n))
= +∞
上面關於極限貝氏決策規則容許性的討論,我們要求 R(θ, d_n) 向 R(θ, d°) 做均勻收斂,事實上並非必要,因為我們只是為了控制
|R(θ, d_n) - R(θ, d°)| < ε, 當 n > N
其中 N 與 θ 無關。但我們對誤差的控制只在 θ° 的一個鄰域,而非整個 Θ,所以實際需要的只是:
在包含任一點的任意一個有界集合內, R(θ, d_n) 向 R(θ, d°) 做均勻收斂,
以前面的常態群體均值估計問題為例,π_n 是 N(ξ, τ^2),
R(θ, d^B) = [(n/σ^2) + (ξ-θ)^2/τ^4]/[(n/σ^2) + (1/τ^2)]^2
l由於 (ξ-θ)^2 無界,使得 R(θ, d^B) 向 R(θ, d°) 的收斂不是均勻的 (當 τ^2 → ∞),但 θ 在任一有界範圍時收斂是均勻的。注意此處的 n 不是序列註標,而是固定的樣本大小。此例
∫_[θ',θ"] π_τ(θ) dθ/(r(d°;π_τ)-r(d_n;π_τ))
= ∫_[θ',θ"] (1/√(2ττ^2)) e^{-(θ-ξ)^2/(2τ^2) dθ/Δ,
Δ = r(d°;π_τ)-r(d_n;π_τ) = σ^2/n - 1/(n/σ^2+1/τ^2)
當 τ^2 → ∞ 時,分母 Δ 是以 1/τ^2 等級收斂至 0;分子 [θ', θ"] 的先驗機率則是以 1/τ 等級收斂至 0。兩者相除,是以 τ 等級發散至無窮。故常態群體抽出之樣本的樣本平均數 d°(X), 也是 θ 的 MLE, UMVUE, 具容許性。
在上述估計常態群體均數的例子,先驗分布 N(ξ,τ^2) 是所謂「共軛先驗分布 (conjugate prior)」,因為從 θ 來看,它和概似函數 L(θ;x) = f(x;θ) 形式一樣。其他例子如資料分布 f(x;θ) 是 Poisson 則共軛先驗分布是 gamma;資料分布是 bin(θ,n) 則共軛先驗分布是 beta。再者,在常態的例子,τ^2 愈大則 N(ξ,τ^2) 愈趨於平坦,τ π(θ) 趨於常數。由於後驗分布 π(θ|x) 的計算只是把 f(x;θ)π(θ) 做歸一化 (normalization, 又稱:正規化):
π(θ|x) = f(x; θ) π(θ) / ∫_Θ f(x; θ) π(θ) dθ
因此如果在考慮 π(θ) 時不要求 ∫_Θ π(θ) dθ = 1 的歸一條件,並不影響後驗分布的計算,所謂貝氏分析仍如常可進行。但在統計決策理論中,若 π(θ) 未曾歸一化,不是一個機率分布,同時
r(θ; π) = ∫_Θ R(θ, d) π(θ) dθ
不再是「平均風險」而是風險的加權總和。回到常態群體均值估計的例子,樣本平均數是極限貝氏,而 π(θ) 是 N(ξ, τ^2) 時
τ π(θ) → 1/√(2π), 當 τ → ∞
取 π(θ) = 1 則 π(θ|x) 正是以樣本平均數為中心,變異數 σ^2/n 的常態分布,因此在平方誤差損失之下得決策 d°(x) 等於樣本平均數,θ 的 MLE。但 π(θ) = 1 不僅不是機率密度,也沒法歸一化成機率密度,稱之為「非正常先驗分布 (improper prior)」。它是由 N(ξ,τ^2) 其中 τ→∞ 而來,τ 愈大表示先驗情訊息愈模糊不明;τ→∞ 是一個極致,意謂「無任何先驗訊息(情報)」,所以這也是「無訊息先驗分布 (noninformative prior)」的一倨例子。使用非正常先驗分布,由極小化期望後驗損失而得之決策規則,稱「廣義貝氏規則 (generalized Bayes rule)」。廣義貝氏規則不是貝氏規則,因此即使它是唯一的,也不一定是容許的,因為 ∫_Θ π(θ) dθ = ∞, 可能風險之加權和也是無窮大,如常態均數之例。不過如果廣義貝氏規則是唯一的,且其風險加權和是有限的,則先前關於貝氏規則具容許性的證明仍適用,而該決策規則是容許的。
統計決策理論方法的兩個重要課題是特定統計決策函數的容許性檢查及大中取小決策函數的尋找。就容許性而言,如果是實數值參數在平方誤差損失下的點估計問題,除了前述極限貝氏的方法以外,惰報不等式也常用為證明容許性的工具。以先前的常態群體均數估計為例,d°(X) 為樣本平均數,R(θ,d°) = σ^2/n;而其他估計量 d(X) 的風險函數
R(θ, d) = Var(d(X); θ) + (b(θ)^2
其中 b(θ) = E[d(X); θ] - θ。由情報不等式,
MSE(d(X), θ) ≧ (1 + b'(θ))^2/I(θ) + (b(θ))^2
= σ^2(1 + b'(θ))^2/n + b^2(θ)
式中 b'(θ) 為 b(θ) 的導數,而 b^2(θ) = (b(θ))^2。如果 d(X) 的風險不超過 d°(X),即 d(X) 至少和 d°(X) 一樣好,則
σ^2(1 + b'(θ))^2/n + b^2(θ) ≦ σ^2/n, for all θ
則首先 b^2(θ) ≦ σ^2/n,所以 b(θ) 有界。其次,
(1 + b'(θ))^2 ≦ 1
所以 b'(θ) ≦ 0 而 b(θ) 是單調遞減(或即:非增)的;並且因 b(θ) 有界,b'(θ) → 0 當 θ → ±∞(b'(θ) 的存在性在於常態,或指數族分布的特性)。但是由情報不等式導出的 b(θ) 的微分不等式,得 b(θ) 當 θ → ±∞ 昤趨近於 0;結合 b(θ) 非增的事實,只有 b(θ) ≡ 0。即
R(θ, d(X)) ≦ R(θ, d°(X) for all θ in (-∞. ∞)
if and only if R(θ, d(X)) = R(θ, d°(X) for all θ in (-∞. ∞)
也就是說:樣本平均數在估計 θ in R = (-∞, ∞) 時,具容許性。但是,上面的證明,包括先前極限貝氏方法的推證,都是假設 Θ = R,若 Θ = [θ°, ∞) 之類的悄況,證明就不適用,樣本平均數可能不具容許性。例如 Θ = [θ°, ∞) 時,樣本平均數 Y = Σ X_i/n 就被
d(X) = θ° + (Y - θ°)^+ = max{Y, θ°}
所超越。很明顯的一件事:
在任何群體機率模型,任何參數 θ 的點估計問題上,只要損失函數是基於距離愈大損失愈大,Θ 是凸集合,則估計值會超出 Θ 之外的估計量 d° 都是不容許的,因為超出 Θ 界限時代之以界限值的估計量,其表現會優於 d°。
具容許性的統計決策函數不被其他決策函數超越,不具容許性的決策函數則存‵在其他決策函數超越它,這是定義。但定義中並沒有說會有一個具容許性的決策函數超越不容許的決策函數;當然不無這可能,但邏輯上不是必然。例如前面 Stein 現象,p≧3 時能找到優於 MLE 的 J-S 估計量,p≧4 時找到 J-S 估計量優於 MLE 之外,還找到優於原 J-S 估計量的修正且較優版本,但它仍是不容許的。或許能找到容許的並且優於這些估計量的版本,但沒找到之前誰也不能肯定可以找得到。對於一個統計決策問題,考慮一個包羅一些決策函數的類 (class) 或集合(所以不是所謂的真類)C,
設 C 是一些決策函數的非空集合,若對於任意不在 C 中的決策函數 d',在 C 中都能找到一個 d" 優於 d;,則稱 C 是一個完備類 (complete class)。不是完備類的決策函數類,就說是不完備的。
若一完備類的任意真子類都不是完備的,則稱此完備類為極小完備類 (minimal complete class)。
若對於任意不在 C 中的決策函數 d',在 C 中都能找到一個 d" 不差於 d',即 R(θ,d") 不大於 R(θ,d'),則稱 C 是基本完備的 (essential complete)。
上列定義中,基本完備類的定義用「不差於」,並不是「不被超越」。後者是不被一致地比下去;而前者是指較優或一樣好,d" 不差於 d',指的是 R(θ,d") ≦ R(θ,s') 在所有 θ 值都成立。先前說一個不具容許性的決策函數也許不是必然能找到一個具容許性的決策函數優於它,這相當於說由所有具容許性的決策函數構成的類 C° 不一定是完備的。如果 C° 是完備的,它就是極小完備類。反之,若極小完備類存在,則其中任一決策函數都不能被超越,因此是容許的,所以極小完備類 C' 是 C° 的子集。但不在 C' 的決策函數又都是不容許的,所以 C° 又包含於 C',結論是 C' = C°,
極小完備類 C' 存在的充分且必要僚件是所有容許的決策函數組成的類 C° 是完備的,此時 C' = C°。
在統計決策理論中有一個「完備類定理」說:所有貝氏和廣義貝氏決策函數構成一完備類,因此尋找合適的統計決策,例如大中取小決策函數,只要考慮貝氏或加上廣義貝氏解即可。但如何找到大中取小決策函數,仍是個問題。
貝氏決策規則可以看成敵方採取混合策略,且為我方所知時,我方採取的最適策略。如果敵方不是採取混合策略,而是單一策略,即特定的 θ 值,且為我方所知,最適的統計決策函數是使 R(θ,d) 最小的決策函數 d。佐貝氏準則雖不認為 θ 是可知的(如果 θ 可知就沒統計的事了),卻假設可以知道敵方將以什麼樣的機率分布選擇推出策略 θ。如果假設敵方採用混合策略,但我方仍未知敵方將採取何種混合策略,只是把敵方的策略空間 Θ 擴大為 Θ*, 包括了所有在 Θ 上的機率分布;相對的,當然我方也可採用隨機化泱策 D*,或包含所有從 X 到 A* 的決策函數。此時,大中取小決策規則是
d* = arg min_d sup_π r(d,; π)
但事實上在 π(θ) 是一個機率分布的情形,sup_π r(d,; π) = sup_θ R(θ, d),因為 r(d; π) 只是諸 R(θ, d) 對不同 θ 值所做的平均,當然不會超過 R(θ, d),其中 d 固定,的最小上界。另一方面,對手(敵方)的小中取大策略是
π* = arg max_π inf_d r(d; π)
得到的 π* 被稱為「最不利先驗分布 (least favorable prior distribution)」。
[定理]設 π*(θ) 是 Θ 上一機率分布,使得
∫_Θ R(θ, d*) dπ*(θ) = sup_θ R(θ, d*)
式中 d* 對應 π* 的具氏解(貝氏決策函數),則:
(i) d* 是大中取小決策函數。
(ii) 若 d* 是對應 π* 的唯一貝氏解,則 d* 是唯一的大中取小決策函數。
(iii) π*(θ) 為最不利的(先驗分布)。
[證]首先,對任意其他決策函數 d,
sup_θ R(θ, d) ≧ r(d; π*) ≧ r(d*, π*) = sup_θ R(θ, d*
其次,若 d ≠ d* 而貝氏解唯一,上列第二個不等式是嚴格不等式,所以 d 不可能是大中取小,這就證明了大中取小解的唯一性。
最後,設 π° 是另一個先驗分布,d° 是其貝氏解,則
r(°; π°) ≦ r(d*; π°) ≦ sup_θ R(θ, d*) = r(d*; π*)
故 π* 是最不利先驗分布。
貝氏解的貝氏風險等於風險函數的最十值,蘊涵先驗機率都分布在風險值達最高的點上
π*{θ in Θ: max(θ, d*) = sup_θ R(θ, d*)} = 1
如果一個貝氏決策規則的風險函數是常數,則依上面所論,它是大中取小決策規則。但如前面的例子,常態群體 N(θ, σ^2) 抽樣在平方誤差損失下估計 θ,其 MLE 具冑常數風險函數,卻不是貝氏,那麼它是不是大中取小解?
一個決策函數 d* 貝有常數風險,即 R(θ, d) 與 θ 無關,若它是容許的,則是大中取小決策函數。
但前面在證明容許性時曾利用極限貝氏法,是否可以有直接的,一般性的結論?
[定理]設一個先驗分布序列 π_n, 其對應的貝氏決策函數 d_n 收斂到 d*, 貝氏風險 r_n = r(d_n, π_n) 收斂到 r*。若
sup_θ R(θ, d*) = r*
則 d* 為大中取小決策函數;並且對於任意先驗分布 π, r(d*; π) ≦ r*。
[證] sup_θ R(θ, d) ≧ r(d, π_n) ≧ r_n 對所有 n 成立,所以
sup_θ R(θ, d) ≧ r* = sup_θ R(θ, d*)
又,設 π 是任意先驗機率分布,對應貝氏規則 d°,則
r(d°, π) ≦ r(d*, π) ≦ sup_θ R(θ, d*) = r*
在上列極限貝氏規則的定理中,先驗分布序列 { π_n } 也被稱為是「最不利的」。由於涉及極限運算,即使每個 π_n 的貝氏規則是唯一的,我們也無法確定原本的統計決策問題其大中取小解是‵不是唯一。
留言列表