首先我們來看隨機變數期望值的定義式。在離散型分布,X 的期望值定義式是
E[X] = Σ_x (x P[X=x])
在一般情況,如果 X 是非負的,可以取一系列分割 { {0}, (0, x{n,1}], (x{n,1}, x{n,2}], ... } 而構造一系列離散型 X_n 逼近 X,
E[X_n] = Σ_i x{n,i-1} P[x{n,i-1) < X_n ≦ x{n,i}]
正式的定義 X_n 是有限範圍,如 [0,n],而分割點 x{n,i} = i/2^n,因此除了 0 單點之外,共有 n2^n 個子區間。由於 X_n 範圍有限,所以 E[X_n] 是有限值,且隨 n 之增大而遞增,因此 lim E[X_n] 或存在(有限),或發散至 ∞。前者其極限就是 X 的期望值;後一情形則說 E[X] 不存在。這定義類似黎曼積分 (Riemann integral) 用離曼和極限定義的方式,而
P[x{n,i-1) < X_n ≦ x{n,i}] = F(x{n,i}) - F(x{n,i-1})
式中 F(x) 是 X 的分布函數。由於上列期望值定義相當於 Stieltjes 積分的定義,故,非負值隨機變數的期望值可以定義為
E[X] = ∫_(0,∞) x dF(x)
而當 X 的分布是連續型,有 p.d.f. f(x) 時,又可表示為
E[X] = ∫_[0,∞) x f(x) dx
不過,雖然上述定義類似黎曼積分(一般微積分課程或高中數學裡學的積分), 但細節仍有些不同,實際上
E[X] = ∫ X dP 測度論或積率論定義式
= ∫ x dF(x) Lebesgue-Stieltjes integral
= ∫ x f(x) dx Lebesgue integral (絕對連續型)
或 Σ x P[X = x] 離散型
對一般隨機變數 X,定義期望值時將 X 分成兩部分:
X = X^+ - X^-, X^+ = X I_[X≧0], X^- = -X I_[X<0]
意思是 X 可表示為其正部 X^+ 和負部 X^- 的差,正部是在 X>0 時取 X 的值,其餘定值為 0;負部則在 X<0 時取 X 的絕對值,餘處設值為 0。注意 X 是由樣本空間至(延伸)實數線 R^* 的函數,X^+ 及 X^- 是由 X 衍生的兩個非負值函數。若 X 本就非負,則 X^- 恆為 0,而 X^+ = X。就一般隨機變數 X 而言,其期望值就定義為其正部和負部期望值的差:
E[X] = E[X^+] - E[X^-]
只有當 X 的正負兩部期望值都存在(指:有限)時,才能說 X 的期望值存在。因此我們有個基本認知:"E[X] 存在"和"E[|X|] 存在"是同義(等價)的,它們都代表 E[X^+] 和 E[X^-] 同時存在。
以上敘述說明機率論上期望值的定義是逐步前進的。事實上高階或正式課程首先定義的是指示函數 (indicator function) I_A(ω) 的期望值
E[I_A] = P{A} A 為樣本空間上一個事件
而後定義簡單型隨機變數 (simple function)
X = Σ_{i = 1 ~ k} x_i I_A(i), 諸 A(i) 兩兩互斥
的期望值為
E[X] = Σ_{i = 1 to k} x_p P{A(i)}
然後讓 k 的限制消失,即 k → ∞,稱為基本函數 (elementary function),
E[X] = Σ_i x_i P{A_i} 諸 A(i) 兩兩互斥
而後如前述將定義推至任意非負值隨機變數;最後利用隨機變數的正負部分解定義一般(實數值)隨機變數的期望0值。因此,在證明期望值的基本性值,如
E[X + Y] = E[X] + E[Y]
時,就需要由 X, Y 是指示隨機變數證起,而後簡單隨機變數,基本隨機變數,然後非負值隨機變數、一般隨機變數。當然也可以簡化,從簡單隨機變數開始,然後非負值隨機變數,最後一般隨機變數。
如果隨機變數 X 的值在 x_0, x_1, x_2, x_3, ...,則
E[X] = Σ_i x_{i-1} P[x_{i-1} < X ≦ x_i]
= x_0 P[x_0<X≦x_1] + x_1 P[x_1<X≦x_2] + x_2 P[x_2<X≦x_3] + x_3 P[x_3<X≦x_4] + ...
= x_0 P[x_0<X≦x_1] + x_0 P[x_1<X≦x_2] + x_0 P[x_2<X≦x_3] + x_0 P[x_3<X≦x_4] + ...
+ (x_1-x_0) P[x_1<X≦x_2] + (x_1-x_0) P[x_2<X≦x_3] + ...
+ (x_2-x_1) P[x_2<X≦x_3] + ...
+ ...
= x_0 P[x_0<X] + (x_1-x_0) P[x_1<X] + (x_2-x_1) P[x_2<X] + ...
因此,非負值隨機變數的期望值可以用積分式表示為
E[X] = ∫_[0,∞) P[X>t] dt = ∫_[0,∞) (1-F(t)) dt
此積分視為 Riemann-Stieltjes integral 之暇積分,可用分部積分法得之:
E[X] = ∫_(0,∞) x dF(x) = [-x(1-F(x)]_(0,∞) + ∫_[0,∞) (1-F(t)) dt
只要能確定 x(1-F(x)) → 0 當 x → ∞;或者,
E[X] = ∫_(0,∞) x dF(x) = ∫_(0,∞) ∫_[0,x] dt dF(x) = ∫_(0,∞) ∫_[t,∞) dF(x) dt
積分順序交換的正確性來自 Tonelli 定理,是 Fubini 定理的非負值積分元 (integrand) 版本、後者需要可積分(積分結果為有限值)條件,此處則因積分元非負而允許積分結果為無限值,如此一來,非負值隨機變數的期望值表現式
E[X] = ∫_[0,∞) P[X > t] dt = ∫_[0,∞) P[X ≧ t] dt
無論 E[X] 存在不存在都成立,這也證明了 x(1-F(x)) → 0 是 E[X] 存在的必要條件。上列積分元有兩種:P[X > t] 與 P[X ≧ t],為何可成立等式?因為這兩積分元不等的點是 F 的不連續點,最多可數個;而在此積分式中,積分元在可數個點值改變函數值並不會改變積分結果(包括可積分性)。
對一般隨機變數,
P[X^+ < x] = P[X < x], P[X^- > x] = P[X < -x] for x ≧ 0
所以
E[X] = E[X^+] - E[X^-] = ∫_(0,∞) (1-F(x)) dx - ∫_(-∞,0] F(x) dx
此為一般隨機變數期望值用分布函數積分式表現的方法。
設 X 是正值,則
E[X^r] = ∫_(0,∞) P[X > t^{1/r}] dt = ∫_(0,∞) ru^{r-1} P[X > u] du
若不限制 X 正值,則 r 只能限制為正整數,或僅考慮 r 的一些特定值並對 X^r 的定義做適當設定,而後考慮前述一般隨機變數期望值之分布函數積分式。
假設群體 X 的分布是連續型,自此群體抽出一組隨機樣本 X_1,...,X_n。令 Y_1 < ... < Y_n 為其順序統計量,則 Y_k 之 p.d.f. 為
h(y) = {n!/[(k-1)!(n-k)!]} (F(y))^{k-1}(1-F(y))^{n-k}f(y)
其中 F 為 X 之分布函數而 f 為其密度函數。事件 [Y_k > y] 表示在 y 左邊最多 k-1 個 Xi 而右邊至少 n-k+1 個,所以
P[Y_k > y] = Σ_{j = 0 to k-1} C(n,j) (F(y))^j (1-F(y))^{n-j}
所以
E[(Y_k^+)^r] = Σ_{j = 0 to k-1} C(n,j) ∫_(0,∞) r y^{r-1} (F(y))^j (1-F(y))^{n-j} dy
若 E[X^m] 存在,
E[(Y_k^+)^r]
= Σ_{j = 0 to k-1} C(n,j) ∫_(0,∞) r y^{m-1} (1-F(y)) ×
y^{r-m} (F(y))^j (1-F(y))^{n-j-1} dy
= Σ_{j = 0 to k-1} C(n,j) ∫_(0,∞) r y^{m-1} (1-F(y)) ×
[y^m(1-F(y))]^{(r-m)/m}(F(y))^j (1-F(y))^{n-j-r/m} dy
因為 ∫_(0,∞) y^{m-1} (1-F(y)) dy 有限,所以
y^{m-1} (1-F(y)) → 0 當 y → ∞
所以 y^{m-1} (1-F(y)) 有界。因此,當 r/m ≦ n-k+1 時
[y^m(1-F(y))]^{(r-m)/m}(F(y))^j (1-F(y))^{n-j-r/m}
在 (0,∞) 有界,故對所有 j = 0,...,k-1,
∫_(0,∞) r y^{r-1} (F(y))^j (1-F(y))^{n-j} dy
存在,只要 r ≦ m(n-k+1)。因此,我們得到 Y_k 之正部存在 r 階動差的一個充分條件。類似地,
E[(Y_k^-)^r] < ∞ 當 r ≦ mk
所以,對一般隨機變數,
E[Y_k] 存在,當 E[X^m] 存在且 r ≦ m(min{k,n-k+1})
若 X 非負,則條件為 r ≦ m(n-k+1)。如群體存在期望值,則其任一順序統計量也存在期望值;群體存在 m 階動差,則任一順序統計量都存在 m 階動差;如去掉最小值和最大值,其他順序統計量都存在 2m 階動差;去掉更多項「極值」, 其他順序統計量將具有更高階動差。
任何分布的 0 階動差都存在,
∫_R |x|^0 dF(x) = ∫_R dF(x) = 1
但 m = 0 導致上面得到的條件是 r ≦ 0,無任何用處。但只要存在 p > 0 使 E[|X|^p] 存在,p 不需是整數,則前述結果告訴我們:對夠大的 n, 不太極端的 k, 存在可用的 r 使 Y_k 的 r 階動差存在。例如 Cauchy 群體,我們熟知它不存在期望值;但是,對任意 p in (0,1), 即 0 < p < 1,
∫_[A,∞) |x|^p/[a^2+(x-μ)^2] dx < ∞
也就是說 E[|X|^p] 存在,所以:
n = 3, k = 2, 則 E[Y_2] 存在;
n = 4, k = 2, 3, 則 E[Y_k] 存在;
n = 5, k = 2, 4 則 E[Y_k] 存在; k = 3 則 E[Y_3^2] 存在
當 n 愈大,k 愈靠中間,則 Y_k 可存在愈高階動差。
留言列表