統計上一個廣為人知的不等式;柴必雪夫 (Chebyshev) 不等式,說:遠離數值資料中心(平均值) k 倍標準差之外的資料,占總資料數不超過 1/k^2;以機率來表示,
P[|X-E[X]| > a] ≦ E[(X-E[X])^2]/a^2
式中 a = k √ E[(X-E[X])^2] 則右邊是 1/k^2。此不等式暗指:以平均數代表一個資料分布的中心是有道理的,因為離此中心太遠的資料「並不多」。
此不等式若論及創始者,應稱 Bienaymé–Chebyshev 不等式,因為最早提出並給予證明的是 Pafnuty Chebyshev 的朋友兼同事 Irénée-Jules Bienaymé,後者在 1853 年首先給了證明;1867 年Chebyshev 才發表了他的證明;1884 其學生 Andrey Markov 給予另一個證明。不過,事實上,Johann Carl Friedrich Gauss 早在 1821 就提出一個單峰連續型分布的雙尾機率不等式
P[|X-m| > a] ≦ (4/9)τ^2/a^2, 當 a > 2τ/√3;
≦ 1-(1/√3)a/τ}, 當 0 < a ≦ 2τ/√3.
其中 m 是 X 的眾數,τ^2 = E[(X-m)^2]。
證明 Chebyshev 不等式很簡單,
E[(X-E[X])^2] = ∫ (X-E[X])^2 dP ≧ ∫_[|X-E[X]| > a] (X-E[X])^2 dP
≧ a^2 ∫_[|X-E[X]| > a] dP = a^2 P[|X-E[X]| > a]
這證明方法和 Markov 不等式相同:
E[|X|] = ∫ |X| dP ≧ ∫_[|X| > a] |X| dP ≧ a ∫_[|X| > a] dP = a P[|X| > a]
故 P[|X| > a] ≦ E[|X|]/a
由於 Chebyshev 不等式等於是 Markov 不等式的變形,因此也被歸為 Markov 不等式;也有人把後者稱為 Chebyshev 第一不等式,而普通的 Chebyshev 不等式則犒之為 Chebyshev 第二不等式。
有時候我們需要的是 P[X > a] 的上限,其中 a > μ = E[X]。由於 Chebyshev 不等式對任意分布均適用,因此對於單尾機率,我們也只能說
P[X-μ > a] ≦ P[|X-μ| > a] ≦ E[(X-μ)^2]/a^2 = σ^2/a^2
其中 a > 0,挨言之,單尾事件 [X-μ > a] 與雙尾事件 [|X-μ| > a] 共用一個機率上限 σ^2/a^2,除非 X 的分布對稱於 μ,此時
P[X-μ > a] =(1/2) P[|X-μ| > a] ≦ (1/2) E[(X-μ)^2]/a^2 = (1/2) σ^2/a^2
不過,從 Markov 不等式來想,取 t ≧ 0,
P[X-μ > a] = P[X-μ+t > a+t ] ≦ P[(X-μ+t)^2 > (a+t)^2]
≦ (σ^2 + t^2)/(a+t)^2
上列不等式右邊在 t = σ^2/a 時得最小值 σ^2/(a^2+σ^2),這個不等式同樣適用於任何(存在二階動差的)分布,但其機率上限明顯比原來的 Chebyshev 不等式上限 σ^2/a^2 小一些,這就是單邊 Chebyshev 不等式,也稱 Cantelli 不等式,或 Chebyshev-Cantelli 不等式,是 Francesco Paolo Cantelli 於 1910 提出。
Chebyshev 不等式的問題可以看成是在限制條件
∫ f_i dP = λ_i, i = 1, ..., k
之下求 ∫ g dP 之極值的問題,其中 P 可為任意機率測度,諸 f_i 及 g 均為可測實數值函數。若沒有任何限制,只要求 P 是可測空間 (Ω, F) 上的機率測度,則目標積分式最大值是
v* = max{g(ω): ω in Ω},= g(ω*), P{ω*} = 1,
即最大值發生於 P 為單點機率時,而機率集中處是 g 函數最大值所在。當有限制條件 ∫ f_i( dP = λ_i, 時,即是對可選擇的 P 有了相應的限制。令 P 是所有滿足條件的機率分布 P 構成的集合,則 P 是一個凸集合,意指苦 P, Q 是 P 的任意兩元素,0 < α < 1, 則 αP + (1-α)Q 也在 P 中。另方面,目標積分對 P 而言是線性的。在凸集合上求線性函數的極值,必然發生在頂點:
若 S 是一凸集合,函數 T(u), u in S 是線性的,則 T(u) 的極值發生在 S 的「頂點」。
注意我們的限制條件 ∫ f_i( dP = λ_i, 也都是在 P 上的線性限制式。就像在 R^n 中的線性規劃問題,目標函數和陋制條件都是線性的,結果最適解就存在於由限制條件所構成的凸多面體諸頂點之中。在除了要求 P 是機率測度之外別無限制時,P 的頂點都是單點分布,P{ω} = 1 for some ω in Ω,所以我們可以在單點分布中尋找使 ∫ g dP = g(ω) 最大的 ω;當多了額外限制時,一個限制條件使得 P 的頂點由兩點分布構成
P = α <ω> + (1-α) <ω'>, 0 < α < 1
式中符號 <ω> 表示 P{ω} = 1 的機率分布。以 Markov 不等式為例,Ω 取 R, 隨機變數 X(ω) = ω, 則相當於我們要解
Maximize ∫ I_[|X| ≧ a] dP,
such that ∫ |X| dP = ν
結果可我其解為
P = p <0> + (1-p) <a>
p = 1 - ν/a
或即 P[|X| = 0] = ν/a = 1 - P[|X| = a]。對於 Chebyshev 不等式,則是
Maximize ∫ I_[|X-μ| ≧ a] dP,
such that ∫ X dP = μ
∫ X^2 dP = μ^2 + σ^2
不失一般性可設 μ = 0,考慮三點分布 P = p <ω> + q <ω'> + (1-p-q) <ω">。代入條件得
p = (σ^2 + ω' ω")/[(ω-ω')(ω-ω")]
q = (σ^2 + ω ω")/[(ω'-ω)(ω'-ω")]
r = 1-p-q = (σ^2 + ω ω')/[(ω"-ω)(ω"-ω')]
假設 ω < ω' < ω",則應有 σ^2 + ω ω" < 0,,所以 ω ω" < 0 且其絕對值超過 σ^2;另一方面 σ^2 + ω ω' 及 σ^2 + ω' ω" 都是正值,ω' 比較接近 0。分析 ω, ω', ω" 對 p, q, r 的作用(偏導數),得:
p 極大化: P = σ^2/(a^2 + σ^2) <-a> + a^2/(a^2 + σ^2) <σ^2/a>;
r 極大化: P = a^2/(a^2 + σ^2) <-σ^2/a> + σ^2/(a^2 + σ^2) <a>;
q 極小化: P = σ^2/(2a) <-a> + (1-σ^2/a^2) <0> + σ^2/(2a) <a>
其中 q 極小化即 p+r 之極大化,即 P[|X-μ| ≧ a] 之最大可能值,即 Chebyshev 不等式兩尾機率之上限;而 p 或 r 個別之極大化分別是單尾 P[X ≦ μ-a] 與 P[X ≧ μ+a] 之最大可能值,即單邊 Chebyshev 不等式之上限。注意上列 q 極小化需要 a > σ。
我們可把單峰分布 P 表示為一些均勻分布的混合 (mixture),不失一般性,假設眾數 m 為 0,U(b) 為區間 [b, 0] 或 [0, b] 上的均勻分布,Q 是 R 上任一機率分布,則
P = ∫_R U(b) dQ{b} (Lebesgue 積分)
是一個單峰分布;反過來說,一個單峰分布 P 可以表示為諸 U(b) 分布混合而成,即:存在 Q 使 P 可如上表示。因此,所有單峰分布的集合 P 可以寫成
P = {P: 存在 Q in Q 使 P = ∫_R U(b) dQ{b}}
式中 Q 是在 R 上的任意分布,因此 P 的頂點就是某個 U(b)。設 X 是服從某個 U(b),則
P[|X| > a] = 1 - a/|b| 當 a ≦ |b|
而對 U(b) 分布而言,τ^2 = E[|X|}^2] = b^2/3, 所以
P[|X| > a] = 1 - a/(√3 τ), 當 0 < a ≦ √3 τ
但既有 τ^2 = E[|X|}^2] 的設定,也就是說 P 需要滿足此一條件,則 Q 應考慮兩點分布,即 P 是兩個均勻分布的混合
P = p U(b) + (1-p) U(b'), 0 ≦ p ≦ 1
由於考慮的都是與眾數 m = 0 之間的離差,因此假設 m 在最左邊無妨,所以,不妨假設 0 < b < b';又,a <b',否則 P[|X| > a] = 0。
若 0 < a ≦ b, 則 P[|X| > a] = 1 - p(a/b) - (1-p) (a/b');
茄 b < a < b', 則 P[|X| > a] = (1-p) (1 - a/b').
而 p 和 b, b' 符合 p b^2 + (1-p) b'^2 = 3 τ^2。結果前者機率極大值發生在 b = b',即單一均勻分布的情形;後者則極值發生在
P = [1 - (4/3)(τ^2/a^2)] U(0) + (4/3)(τ^2/a^2) U((3/2)a)
分布 U(0) 是退化成單點質量,P[U = 0] = 1 的「均勻」分布,U((3/2)a) 是在 [0, (3/2)a)] 的均勻分布。此時 P[|X| > a] = (4/9)(τ^2/a^2);另外,它必須在
(4/3)(τ^2/a^2) < 1, 即 a > (2/√3) τ
才有意義.因此,證明了 Gauss 不等式。
由以上求機率極值的方法可知:不論是 Chebyshev 不等式,Markov 不等式,或 Gauss 不等式,它們都是銳利的,意即不等式所揭示的邊界可以達到;但另一方面,它們也是寬鬆的,通常很難用於估計真實機率,例如對常態分布:
a 正確雙尾機率 Chebyshev 上限 Gauss 上限
2σ 0.0455 1/4 = 0.26 1/9 = 0.1111
3σ 0.0027 1/9 = 0.111 4/81 = 0.0494
即使 Gauss 不等式的雙尾機率上限,與正確機率相差也很大。因此,以機率計算的觀點,Chebyshev 不等式用途很有限。其所以如此,是因不等式適用範圍太廣,不論任何分布都適用;Gauss 不等式把適用範圍限制在單峰連續型分布,對 Chebyshev 的機率界限有顯著改善,但究機率估算用途來說,其實意義仍十分有限。事實上,Chebyshev 不等式的作用在隨機變數序列收斂問題上更有發揮餘地,例如:
設 X_n, n = 1, 2, ..., n, ... 為相互獨立同分布,具二階動差,之隨機變數序列,Sn = Σ_{k=1~n} Xk,則
Y_n = (S_n)/n → E[X_1] in probability
[證] 令 μ = E[X_1], σ^2 = Var(X_1),則 Var(Y_n) = σ^2/n, 故
P[|Y_n - μ| > ε] ≦ Var(Y_n)/ε^2 = σ^2/(n ε^2) → 0
故 Y_n 向 μ 做機率收斂。 ▌
事實上 Chebyshev 不等式也可用於證明強大數法則,即只要 X_n 的共同均值 μ = E[X_1] 存在,則上述樣本平均數 Y_n 以機率 1 向 μ 收斂。
關於獨立隨機變數和 S_n 序列,我們可以有一個更強的結果:
[定理] (Kolmogorov 不等式,又稱極大不等式,maximal inequality)
設 X_n, n = 1, 2, ... 相互獨立且各具期望值 0 及有限變異數,則
P[max_k |S_k| > a] ≦ Var(S_n)/a^2
[證] 令 E 代表事件 [max_k |S_k| > a],又令
A_k = [max_{j < k} |S_j| ≦ a, |S_k| > a]
即 A_k 是第一個超過 a 的部分和絕對值 |S_k| 是第 k 個的事件,則顯然
E = ∪_{k = 1~n} A_k
故
E[Sn^2] ≧ Σ_{k=1~n] ∫_{A_k} S_n^2 dP
≧ Σ_{k=1~n] ∫_{A_k} [S_k^2 + 2S_k(S_n-S_k)] dP
= Σ_{k=1~n] ∫_{A_k} a^2 dP
≧ a^2 ∫_E dP = a^2 P[max_k |S_k| > a]
▌
上述證明中間的等式是因 ∫_{A_k} S_k(S_n-S_k) dP = 0,何故?
∫_{A_k} S_k(S_n-S_k) dP = ∫ I_{A_l} S_k (S_n-S_k) dP
= ∫ I_{A_k} S_k (S_n-S_k) dP
= ∫ I_{A_k} S_k dP ∫ (S_n-S_k) dP
= 0
以上諸等式,首先是將限制在 A_k 的積分利用指示函數擴展成在整個樣本空間 Ω 的積分。由於 A_k 以致其指示函數是 σ(X_1,...,X_k)-可測,S_k 也是,因為它們都是由 X_1,...,X_k 決定的;另一方面 S_n-S_k 是 σ(X_{k+1},...,X_n)-可測,所以 I_{A_k} S_k 與 S_n-S_k 相互獨立,對 P 的積分可以分別做。但由於諸 X_i 期望值為 0,故 S_n-S_k 期望值亦是 0。
有上列定理,我們可以證明:若具相互獨立項的隨機級數部分和的變異數收斂,則此隨機級數以機率 1 收斂:
[定理] 設 X_1, ..., X_n, ... 為各具期望值 0 及有限變異數,相互獨立的隨機變數序列;又令 S_n = Σ_{k=1~n} X_k。若 Var(S_n) 收斂,則 S_n 以機率 1 收斂
[證] 證明定理之前,首先我們回憶一下機率 1 收斂的意義。我們說 X_n 向 X 做機率 1 收斂,意思是
P{ ∩_k ∪_N ∩_{n≧N} [|Xn-X|<1/k] } = 1
上式 P{.} 符號內就是 X_n(ω) → X(ω) 的所有 ω 所形成的集合。但上式相當於
P{ ∪_N ∩_{n≧N} [|Xn-X|<1/k] } = 1 for all k
而由‵機率的「連績性」,這又相當於
P{ ∩_{n≧N} [|Xn-X|<1/k] } → 1 當 N → ∞, for all k
但 ∩_{n≧N} [|Xn-X|<1/k] = [sup_{n≧N} |Xn-X| < 1/k]。所以 X_n 向 X 做機率 1 收斂相當於
sup_{n≧N} |Xn-X| 向 0 做機率收斂。
回到原問題,S_n 向某隨機變數做機率 1 收斂的條件是序列 { S_n } 以機率 1 符合 Cauchy 準則
P[ S_{n+k} - Sn → 0 當 n → ∞ ] = 1, for all k
依前述機率 1 收斂的等價條件,即
P[ Sup_{n > N} | S_{n+k} - Sn | > ε ] → 0 當 N → ∞
但應用 Kolmogorov(極大)不等式,
P[ Sup_{n = N+1 ~ N+r} | S_{n+k} - Sn | > ε ]
≦ P[ Sup_{n= N+1~N+r} (|S_{n+k}-S_N| + |S_{n}-S_N|) > ε ]
≦ P[ Sup_{n= N+1~N+r} |S_{n+k}-S_N|
+ Sup_{n= N+1~N+r} |S_n-S_N|) > ε ]
≦ P[Sup_{n= N+1~N+r} |S_{n+k}-S_N| > ε/2]
+ P[Sup_{n= N+1~N+r} |S_n-S_N|) > ε/2]
≦ P[Sup_{n= N+1~N+k+r} |S_n-S_N| > ε/2]
+ P[Sup_{n= N+1~N+r} |S_n-S_N|) > ε/2]
≦ Var(S_{N+k+r}-S_N)/(ε/2)^2 + Var(S_{N+r}-S_N)/(ε/2)^2
由於 Var(S_{N+r}-S_N) = Σ_{j=N+1~N+r} Var(X_j),令 r → ∞,則得
P[ Sup_{n > N} | S_{n+k} - Sn | > ε ] ≦ 8 Σ_{n>N} Var(X_n)/ε^2
但 Var(S_n) = Σ_{j=1~n} Var(X_j),收斂,故
P[ Sup_{n > N} | S_{n+k} - Sn | > ε ] → 0, 當 N → ∞,
對任意 k 都成立。也就是說:序列 S_n 以機率 1 滿足 Cauchy 收斂條件,所以 S_n 以機率 1 收斂。 ▌
留言列表