學統計的人大概都知道「動差母函數 (moment generating function, 簡寫 m.g.f.)」, 也知道 m.g.f. 除了可用以計算動差之外,有許多好性質,更重要的是它可唯一決定對應的分布,也就是 X, Y 兩隨機變數(或向量)有相同 m.g.f., 則它們的分布相同。但是,m.g.f. 卻不一定存在!事實上 X 的 m.g.f. 要存在,首先必需其各階動差都存在,而且動差增長 (對任意非負整數 n, E[|X|^(n+1)] 的 n+1 次方根總是大於,至少相等於 E[|X|^n] 的 n 次方根;其實 n 不是整數也對,n+1 改成 n+r 也對) 不能太快。與 m.g.f. 相關的,有機率母函數 (probability gererating function) 或稱階乘動差母函數 (factorial moment generating function), 累差母函數 (cumulant generating function) 都和 m.g.f. 有直接的關係,所以是同時存在或同時不存在;特徵函數 (ch. f.或譯:特性函數) 則不同,它以 E[e^{itX}] 定義,i 是虛數單位,是必定存在的。
雖然形式上 ch.f. 涉及複變數,但 it 只是實變數 t 乘上虛數單位 i,而且 e^{itx} = cos(tx) + i sin(tx), 因此並不需要真的以複變積分來考慮它的定義,考慮實變的積分即可。由於 cos(.), sin(.) 都是有界且連續的,或者說 e^{itx} 是有界且連續的,因此,ch.f. 一定存在,這是 ch.f. 相較於 m.g.f. 優勢的地方。而重要的是:m.g.f. 能唯一決定一個分布的特性,ch.f. 也有。並且,由於 m.g.f. M(t) = E[e^{tX}] 與 ch.f. φ(t) = E[e^{itX}] 的定義式,我們知道如果 M(t) 存在,則 φ(t) = M(it), M(t) = φ(-it), 所以 m.g.f. 唯一決定一個分布的結論,事實上可說是來自 ch.f. 的同一特性。所以在較高階或較一般性的課程或討論,用的通常是 ch.f. 而非 m.g.f.。
特性函數 φ(t) = E[e^{itX}] 一定存在,即使 X 的高階動差甚至一階動差都不存在,ch.f. 仍然存在。但如果 X 的 n 階動差存在,φ(t) 與其 n 階展開式
φ(t)~ Σ_{k=0~n} (it)^k E[X^k]/k!
之間的誤差不超過
E[min{|tX|^{n+1}/(n+1)!, 2|tX|^n/n!}]
雖然 n+1 階動差可能不存在,但上列期望值是對 |tX|^{n+1}/(n+1)! 與 2|tX|^n/n! 中之較小者計算的,最大也不過是等於後者,而後者的期望值是存在的,因此上列較小值之期望值也存在。可是,為什麼
|φ(t) - Σ_{k=0~n} (it)^k E[X^k]/k!|
≦ E[min{|tX|^{n+1}/(n+1)!, 2|tX|^n/n!}]
這來自於帶 Lagrange 餘式的 Taylor 展式:
e^{iu} = Σ_{k=0~n} (iu)^k/k! + (i^{n+1}/n!) ∫_[0,u] (u-s)^n e^{is} ds
把上式的 n 改成 n-1
e^{iu} = Σ_{k=0~n-1} (iu)^k/k! + (i^n/(n-1)!) ∫_[0,u] (u-s)^(n-1) e^{is} ds
= Σ_{k=0~n-1} (iu)^k/k! + (i^n/(n-1)!) ∫_[0,u] (u-s)^(n-1) ds
+ (i^n/(n-1)!) ∫_[0,u] (u-s)^(n-1) (e^{is}-1) ds
= Σ_{k=0~n} (iu)^k/k! + (i^n/(n-1)!) ∫_[0,u] (u-s)^(n-1) (e^{is}-1) ds
也就是說 e^{iu} 與其 n 階展式 Σ_{k=0~n} (iu)^k/k! 的差有兩個表示式:
(1) (i^{n+1}/n!) ∫_[0,u] (u-s)^n e^{is} ds
(2) (i^n/(n-1)!) ∫_[0,u] (u-s)^(n-1) (e^{is}-1) ds
第一式絕對值不超過 |u|^{n+1}/(n+1)!, 第二式不超過 2|u|^n/n!。把 u 用 tX 代入,e^{itX} 與其 n 階展式的差絕對值不超過 |tX|^{n+1}/(n+1)! 也不超過 2|tX|^n/n!,當然也不超過兩者之中較小的。因此得前面 ch.f. 與其 n 階展式差絕對值的上限。
設 φ(t) 為隨機變數 X 的 ch.f.,
φ(t) = E[e^{itX}] = ∫ e^{itX} dP = ∫_R e^{itx} dF(x)
則因 e^{i(t+h)x} - e^{itx} = e^{itx}(e^{ihx}-1) 有界,應用有界收斂定理,得
φ(t+h) - φ(t) = ∫_R e^{itx}(e^{ihx}-1) dF(x) → 0 當 h → 0
所以,ch.f. 是連續的,而且是均勻連續的。
從上面證明連續性的算式中,得 1-φ(t) = ∫_R (1-e^{itx}) dF(x), 如果將此式在 [-u,u] 對 t 積分,結果再除以 u, 則得
(1/u)∫_[-u,u] (1-φ(t)) dt = (1/u)∫_[-u,u] ∫_R (1-e^{itx}) dF(x) dt
= ∫_R (1/u)∫_[-u,u] (1-e^{itx}) dt dF(x)
= ∫_R (1/u)[t+e^{-itx}/(ix)]_[-u,u] dF(x)
= ∫_R (1/u)[2u+e^{-iux}/(ix)-e^{iux}/(ix)] dF(x)
= 2∫_R [1-sin(ux)/(ux)] dF(x)
當 |ux| 偏小,例如 |ux|<2 時,
sin(ux)/(ux) = sin(|ux|)/|ux| < 1
故得
(1/u)∫_[-u,u] (1-φ(t)) dt ≧ 2∫_{|x|≧2/u} [1-sin(ux)/(ux)] dF(x)
≧ 2∫_{|x|≧2/u} (1-1/|ux|) dF(x)
≧ ∫_{|x|≧2/u} dF(x) = P[|X|≧2/u]
這提供了一個尾巴機率的不等式
P[|X|≧2/u] ≦ (1/u)∫_[-u,u] (1-φ(t)) dt
如果 X 服從標準常態分布,則 X 的奇數階動差都是 0, 而 2k 階動差是
(2k-1)!! = (2k-1)(2k-3)…1,
因此其 ch.f. 的 2n 階展式是
φ(t) ~ Σ_{k=0~n} (it)^(2k) (2k-1)!!/(2k)!
= Σ_{k=0~n} (-t^2/2)^k/k! → e^{-t^2/2}
因此我們得到標準常態分布的 ch.f., 不需用到複變的積分技巧。
設 {X(n), n=1,2,…,n,…} 是相互獨立各具平均數 0 標準差 σ(n) 的隨機變數序列,
Z(n) = Σ_{k=1~n} X(k)/√(Σ_{k=1~n} σ^2(k)) = Σ_{k=1~n} X(k)/s(n)
由前面 ch.f. 的展式誤差界限公式,知
φ_k(t) = 1 - (t^2/2)σ^2(k) + o(t^2)
其中 o(t^2) 本來是
E[min{|tX|^3/3!, 2|tX|^2/2!}] = t^2 E[min{|t| |X|^3/3!, 2|X|^2/2!}]
當 t → 0 時右式欲計算期望值的隨機變數因第一項的緣故趨近於 0,而又因為第二項的緣故整個不超過 |X|^2,後者的積分(期望值)是存在的,所以依 Lebesgue Dominate Converges Theorem 該期望值在 t → 0 時也趨近於 0. 另外,由於 X(n) 之間相互獨立,故 Z(n) 之 ch.f. 為
ψ(t) = Π_{k=1~n} φ_k(t/s(n))
= Π_{k=1~n} [ 1 - ((t/s(n))^2/2)σ^2(k) + o(((t/s(n))^2)]
右式每個小 o 各不相同,明確地寫出是
t^2/s^2(n) E[min{{|t/s(n)| |X(k)|^3/3!, 2|X(k)|^2/2!}]
在 |1 - ((t/s(n))^2/2)σ^2(k)| ≦ 1 且 |o((t/s(n))^2)| ≦ 1 條件下,數學歸納法可證得
(*) | ψ(t) - Π_{k=1~n} [ 1 - ((t/s(n))^2/2)σ^2(k)] |
≦ Σ_{k=1~n} t^2/s^2(n) E[min{{|t/s(n)| |X(k)|^3/3!, 2|X(k)|^2/2!}]
又,u 不大時,
e^u = 1+u+∫_[0,u] (u-s) e^s ds = 1 + u + O(u^2)
式中 O(u^2) 部份絕對值不超過 Mu^2 其中 M = max{1,e^u}/2。由 s^2(n) = Σ_{k=1~n} σ^2(k), 當 (t^2 σ^2(k))/(2 s^2(n)) 夠小時,
(**) | Π_{k=1~n} [ 1 - (t^2 σ^2(k))/(2 s^2(n))] - Π_{k=1~n} e^{-t^2 σ^2(k)/(2s^2(n))} |
≦ Σ_{k=1~n} [t^2 σ^2(k)/(2s^2(n))]^2
≦ t^4 max{σ^2(k), k=1,...,n}/(2s^2(n))
所以如果 (*) 和 (**) 兩式右邊的界限當 n → ∞ 時都能收歛到 0, 則 ψ(t) → e^{-t^2/2}, 標準常態分布的 ch.f.。
如果諸 X(n) 是 i.i.d. 的,則 s^2(n) = n σ^2(1), 故 (*) 的界限是 o(1), 因 t/s(n) = O(1/√n) → 0; 而 (**) 最後的界限是 O(1/n) 也是收斂至 0, 這表示標準化隨機變數和 ΣX(k)/s(n) 的 ch.f. 收斂至標準化常態分布的 ch.f.。
如果前述諸 X(n) 滿足 Lindeberg's condition: For all ε > 0,
lim_{n→∞} Σ_{k=1~n} E[X(k)^2 I_{|X(k)|>εs(n)}]/s^2(n) = 0
則 (*) 的右邊
Σ_{k=1~n} t^2/s^2(n) E[min{{|t/s(n)| |X(k)|^3/3!, 2|X(k)|^2/2!}]
≦ Σ_{k=1~n} t^2/s^2(n) (∫_[|X(k)|≦εs(n)] |t/s(n)| |X(k)|^3/3! dP
+ ∫_[|X(k)|>εs(n)] |X(k)|^2 dP)
≦ Σ_{k=1~n} ( |t/s(n)|^3 (εs(n)/6) σ^2(k)
+ (t^2/s^2(n)) E[X(k)^2 I_{|X(k)|>εs(n)}] )
= (ε/6)|t|^3 + t^2 Σ_{k=1~n} E[X(k)^2 I_{|X(k)|>εs(n)}]/s^2(n)
左邊,即 (*) 的界限與 ε 無關;右邊(最後一式)第一項 ε 是任意正數,第二項依 Lindeberg 條件收斂至 0。因此,(*) 的界限當 n→∞ 時收斂至 0。
另一方面,若 Lindeberg 條件成立,則
σ^2(k) = E[X(k)^2] ≦ ι^2 s^2(n) + E[X(k)^2 I_{|X(k)|>εs(n)}]
因此
max{σ^2(k), k=1,...,n}/s^2(n) ≦ ι^2 + E[X(k)^2 I_{|X(k)|>εs(n)}]/s^2(n) → 0
所以 (**) 右邊最後界限也在 n→∞ 時收斂至 0。也就是說,若 Lindeberg 條件成立,則標準化之隨機變數和的 ch.f. 將收斂至標準常態分布的 ch.f.。
前面提到 ch.f. 可唯一決定一個機率分布,也就是說不同機率分布有不同的 ch.f.。要得到這個結論對 ch.f. 而言是相對較簡單的。如果 X 有分布函數 F(x), 有 ch.f. φ(t), 設 a<b, 則應用 Fubini 定理交換積分順序,得
∫_[-T,T] φ(t) (e^{-ita}-e^{-itb})/(it) dt
= ∫_[-T,T] ∫e^{itX} dP (e^{-ita}-e^{-itb})/(it) dt
= ∫∫_[-T,T] (e^{it(X-a)}-e^{it(X-b)})/(it) dt dP
= ∫∫_[0,T] (e^{it(X-a)}-e^{-it(X-a)})/(it) dt dP
- ∫∫_[0,T] (e^{it(X-b)}-e^{-it(X-b)})/(it) dt dP
= ∫∫_[0,T] 2 [sin(t(X-a))/t - sin(t(X-a))/t] dt dP
積分式 ∫_[0,T] sin(tu)/t dt, T>0 定義了一個連續函數 S(T), 雖無簡單公式可計算,但 T→∞ 時得極限
∫_[0,∞) sin(tu)/t dt = sgn(u)(π/2),
其中 sgn(u) 依 u >, =, 或 < 0 而取值 1, 0, -1。這同時也證明了 S(T) 是有界的,所以極限可在期望值運算 (dP) 內外互換,即
∫_(-∞,∞) φ(t) (e^{-ita}-e^{-itb})/(it) dt
= 2∫∫_[0,∞) [sin(t(X-a))/t - sin(t(X-b))/t] dt dP
內層積分
∫_[0,∞) [sin(t(X-a))/t - sin(t(X-b))/t] dt
= 0 if X<a or X>b; = π if a<X<b; = π/2 if X=a or b.
因此,
(1/(2π))∫_(-∞,∞) φ(t) (e^{-ita}-e^{-itb})/(it) dt
= P[a<X<b] + (1/2)(P[X=a]+P[X=b])
當 a, b 為 F 之連續點時,得 P[a<X≦b] = F(b)-F(a). 由於機率分布完全由 F(x) 之連續點決定,所以 φ(t) 完全決定了 F(x)。
由 ch.f. 反算機率的算式證明了 ch.f. 決定了唯一的機率分布,有時就稱之為「唯一性定理」。這定理用機率分布來表現,可適用於所有實數值隨機變數的分布。對於有 p.d.f. f(x) 的分布,即所謂(絕對)連續型的分布,由上列反算公式
f(x) = (1/(2π))∫_(-∞,∞) e^{-itx} φ(t) dt
例如標準常態分布的 ch.f. 是
e^{-t^2/2} = ∫_(-∞,∞) e^{itx} (1/√(2π))e^{-x^2/2} dx
得 f(x) = (1/(2π))∫_(-∞,∞) e^{-itx} e^{-t^2/2} dt = (1/√(2π))e^{-x^2/2}。這由 ch.f. 反算 p.d.f. 的公式,和由 p.d.f. 計算 ch.f. 公式的相似性,有時也便於我們計算一些特定分布的 ch.f. 或由 ch.f. 得知對應的 p.d.f.。例如雙指數分布 p.d.f. f(x) = (1/2)e^{-|x|}, 計算可得其 ch.f. 為 1/(1+t^2);因此,標準 Cauchy 分布 p.d.f. 1/[π(1+x^2)] 對應 ch.f. 為 e^{-|t|}
上面所謂「唯一性定理」並不能直接用來說明前述 Σ_{k=1~n}X(k)/s(n) 的極限分布:符合某些條件則分布收斂至標準常態分布。我們需要的是下列「連續性定理 (the Continuity Theorem)」:
隨機變數序列 {X_n} 各具分布函數 F_n,特徵函數 φ_n;隨機變數 X
對應分布函數 F,特徵函數 φ。則 X_n 向 X 做分布收斂, 或說 F_n
弱收斂 (weak convergence) 至 F, 其充分且必要條件是 φ_n 逐點收
斂至 φ.
必要性很容易得證,因為 e^{itX_n} 的實部和虛部都是有界的,由有界收斂定理立即得知 φ_n 逐點收斂至 φ。
現在假設 φ_n 逐點收斂至 φ。我們需要證明在所有 F 的連續點 x, 可得 F_n(x)→F(x). 雖然 F_n 一定存在一個子序列 F_n{k) 會模糊收斂 (vague convergence) 到一個單調遞增且右連續的「次機率分布函數 (sub-probability distribution function)」, 例如 F_n{k)(x) → G(x), 但如模糊收斂之定義,G(x) 不一定是機率分布函數,只能保證 0≦G(x)≦1, 卻不能保證 G 把 R 映成 (0,1)。要保證收斂的子序列極限是一個機率分布函數,我們需要 {F_n} 這序列具備「密封性 (tightness)」或譯「緊密性」, 意即對任意 ε>0, 存在實數 a<b 保證 F(b)-F(a) ≧ 1-ε。密封性是保證 {F_n} 的任何子列 {F_n(k)} 都存在更深一層的子列 {F_n(k_j)} 收斂到一機率分布函數的充分且必要條件。為證明 F_n 將弱收斂到 F,我們先利用前面雙尾機率不等式嘗試證明 {F_n} 是緊密的。由
P[|X_n|≧2/u] ≦ (1/u)∫_[-u,u] (1-φ_n(t)) dt
由於 ch.f. 的連續性,給定 ε>0, 存在 u=u_n 使上式右邊小於 ε。又因 φ_n 逐點收斂至 φ, 對特定 u,
(1/u)∫_[-u,u] (1-φ_n(t)) dt → (1/u)∫_[-u,u] (1-φ(t)) dt
因此存在 N(u) 使得 n>N(u) 則
|(1/u)∫_[-u,u] (1-φ_n(t)) dt - (1/u)∫_[-u,u] (1-φ(t)) dt| < ε
取 u=u_0 使 (1/u)∫_[-u,u] (1-φ(t)) dt < ε, 再令 u*=min{u_0,u_1,...,u_N}, 則 n > N(u_0) 時,
P[|X_n|≧2/u*] ≦ P[|X_n|≧2/u_0]
≦ (1/u_0)∫_[-u_0,u_0] (1-φ_n(t)) dt
≦ (1/u_0)∫_[-u_0,u_0] (1-φ(t)) dt + ε
< 2ε
而 n ≦ N(u_0) 時,
P[|X_n|≧2/u*] ≦ P[|X_n|≧2/u_n]
≦ (1/u_n)∫_[-u_n,u_n] (1-φ_n(t)) dt < ε
因此證明了 {F_n} 的緊密性。
今 {F_n} 的收斂子列 (F_n(k)} 弱收斂至機率分布函數 G, 由「必要性」知 (F_n(k)} 對應的 ch.f. 序列 {φ_n(k)} 收斂至 G 的 ch.f. 。但已知 φ_n→φ, 故 G 之 ch.f. 為 φ。然而 φ 是 F 的 ch.f., 由 ch.f. 唯一對應分布,可知 G = F。這表示 {F_n} 的任一收斂子列都弱收斂至 F,所以 F_n 弱收斂至 F。因此證明了充分性。
如果 φ_n 逐點收斂至一個函數 φ,如果已知 φ 是某分布 F 的 ch.f.,那麼依上述連續性定理,F_n → F。但很可能 φ 並不是我們熟知的分布的 ch.f.,甚至它是不是 ch.f. 還是個問題,我們需要一個更方便應用的結果:
設 φ_n 逐點收斂至一個在 t=0 連續的函數 g,
則 g 是某機率分布 F 的 ch.f., 並且 F_n → F。
注意連續性定理中我們在證明 {F_n} 的緊密性時,對 φ 只,需用到了它在 0 點連續以及 φ(0) = 1. 此處 g(0) 當然是 1(因為所有 φ_n(0) 都是 1),故 g 在 t=0 的連續性及 φ_n 逐點收斂到 g 證明 {F_n} 是緊密的。則 {F_n} 會有一個收斂子列其極限是 F, 而 F 的 ch.f. 是 φ, 所以 {φ_n} 的對應子列收斂至 φ, 所以 g = φ。