統計學上一個眾所周知的事實是:從常態群體抽出一個隨機樣本,則其樣本平均數 Xbar = Σ Xi/n 和樣本變異數 S^2 = Σ(Xi-Xbar)^2/(n-1) 相互機率獨立。有很多人問:在非常態群體,這兩統計量是否也會相互獨立?答案是:不會。也就是說:當且僅當群體是常態時,其隨機樣本的樣本平均數與樣本變異數相互獨立。
證明常態群體的 Xbar 和 S^2 相互獨立有多種方法,例如先把隨機樣本做線性變換為 Xbar, Z2,...,Zn, 為 n 個相互獨立的隨機變數,並證明 S^2 是 n-1 個 Zi 的平方和,因為其定義不涉及獨立的 Xbar,所以 S^2 和 Xbar 獨立。另一個方法較簡單,只需證明 Xi-Xbar, i=1,...,n 聯合和 Xbar 獨立,而 S^2 是那 n 個與 Xbar 獨立的離差的平方和,所以兩者獨立。再或者,利用多元常態分布二次式分布的理論,應用 Cochran 定理得知 (Xbar-μ)^2 與 S^2 相互獨立,再由 Xbar-μ 的對稱性得 Xbar 與 S^2 的獨立性。如果知道充分統計量理論,Basu 定理更方便於得出 S^2 與 Xbar 相互獨立的結論。
反過來說,由 Xbar 和 S^2 的獨立性反過來要證群體是常態就比較不容易了,這就是所謂常態分布(群體)的 characterization(刻劃、特徵化、表徵化)問題,網路上可以查到不少資料,甚至很久以前 (1979) 就有專書 "Characterization of the Normal Probability Law" 談常態分布特徵化問題。
此處以 n = 2 來說明只有常態群體才能得到 Xbar 與 S^2 相互獨立的結果。在此種情形,Xbar 與 S^2 獨立相當於 X+Y 與 (X-Y)^2 獨立,或即 X+Y 與 |X-Y| 獨立。因為 X, Y 為 i.i.d.,X-Y 的分布對稱於 0,所以相當於要求 X+Y 與 X-Y 獨立。因此我們的問題是:
如果 X, Y 相互獨立且同分布必得 X+Y 與 X-Y 獨立,則 X, Y 的分布為常態。
在此我們給 X, Y 的共同分布加個限制:存在第二階動差。不失一般性,我們設 μ = 0, σ^2 = 1。假設 X, Y 的共同特性函數是 φ(t) = E[e^(itX)], 則 U = X+Y, V = X-Y 的聯合 ch.f. 是
ψ(t,s) = E[e^(itU+isV)]
= E[e^(itX+itY)]E[e^(isX-isY)]
= (φ(t))^2 φ(s)φ(-s)
但另方面
ψ(t,s) = φ(t+s)φ(t-s)
所以
φ(t+s)φ(t-s) = (φ(t))^2 φ(s)φ(-s)
由於 φ(0) = 1, 於是得
φ(2t) = (φ(t))^3 φ(-t)
由於 φ(-t) 是 φ(t) 的共軛,兩者有相同絕對值 λ(t),
λ(t) = (λ(t/2))^4 = (φ(t/2^n))^(4^n)
如果有某點 t = t* 使 λ(t*) = 0,則
0 = (λ(t*/2^n))^(4^n)
所以 λ(0) = lim_n λ(t*/2^n) = 0, 這與 φ(0) = 1 且 φ(t) 在 t = 0 連續矛盾。所以 φ(t) 恆不為 0。
令 γ(t) = φ(t)/φ(-t), 則可得 γ(2t) = (γ(t))^2。故
γ(t) = (γ(t/2^n))^(2^n)
由於 μ = 0, σ^2 = 1 存在,故
φ(t) = 1 - t^2/2 + o(t^2) 當 t → 0
則 γ(t) = 1 + o(t^2), 當 t→0。但
γ(t) = (1 + o(t^2/4^n))^(2^n) → 1
所以 φ(-t) = φ(t), 而
φ(t) = (φ(t/2^n))^(4^n)
= (1 - (1/2)(t^2/4^n) + o(t^2/4^n))^(4^n)
→ e^(-t^2/2)
這正是標準常態分布的 ch.f.,因此證明了 X, Y 的共同分布是常態分布。
設 a = cos(θ), b = sin(θ), U = aX - bY, V = bX + aY, 隨機向量 (U,V) 是原向量 (X,Y) 逆時鐘轉 θ 角的結果。如果 X, Y i.i.d. N(0,1), 則 U, V 也是 i.i.d. N(0,1)。我們假設 X, Y 是 i.i.d.,U, V 獨立,則前面的特性方程式為
φ(as-bt)φ(at+bs) = φ(as)φ(bs)φ(at)φ(-bt)
取 s = bt/a,則因 a^2 + b^2 = 1,得
φ(t/a) = φ(bt)φ(b^2 t/a)φ(at)φ(-bt)
或可改寫為
φ(t) = φ(a^2 t)φ(b^2 t)φ(abt)φ(-abt)
雖然證明比較繁瑣,我們仍可認為 φ(t) 永不為 0。令 γ(t) = φ(t)/φ(-t),則
γ(t) = γ(a^2 t)γ(b^2 t)
= Π_{k=0~n} (γ(a^(2n-2k)b^(2k)t))^C(n,k)
假設 φ(t) = 1-t^2/2+o(t^2) 當 t→0,在 a^2, b^2 均小於 1 的情況,也可證明上式右邊趨近於 1,φ(-t) = φ(t),所以
φ(t) = φ(a^2 t)φ(b^2 t)(φ(abt))^2
= Π_{k=0~2n} (φ(a^(2n-k)b^k t))^C(2n,k)
→ e^(-t^2/2)
因此,X, Y 的共同分布是常態,這算是常態分布特徵化的一種。
可以將上列兩變量,也就是二維隨機向量旋轉的問題推至 X1,...,Xn i.i.d. 的情形。如果對 X = (X1,...,Xn) 做正交變換 Y = AX 結果 Y' = (Y1,...,Yn) 各元素仍相互獨立,我們要證諸 Xi 的共同分布是常態。首先,Y 的聯合 ch.f. 為
E[e^(it'Y)] = E[e^(it'AX)] = E[e^(i(A't)'X] = Π{j=1~n}φ(Σ_{k=1~n}a(kj)t_k)
式中 a(kj) 是正交矩陣第 k 橫列第 j 直行的位置的元素。另一方面
E[e^(it'Y)] = Π_{j=1~n) E[e^(it_jΣ_k=1~n)a(jk)Xk] = Π_j Π_k φ(a(jk)t_j)
所以
Π_j φ(Σ_{k=1~n}a(kj)t_k) = Π_j Π_k φ(a(jk)t_j)
取 t = u A e_1 = u A1,e_1 = [1 0 ... 0]', A1 為 A 之第一行,則 A't = u e_1。結果
Σ_k a(kj)t_k = Aj' t = u Aj' A1 = u δ(1,j)
這是由於 A 是正交矩陣,A' = A^(-1), 所以 Aj'At = δ(j,t) = 1 或 0 視 j = t 或不等而定。再者,
a(jk)t_j = a(jk) t'e_j = a(jk) u A1' e_j = u a(jk)a(j1)
最後,得
φ(u) = Π_j Π_k φ(u a(jk)a(j1))
= Π_jΠ_kΠ_j'Π_k' φ(u a(jk)a(j1)a(j'k')a(j'1))
= Π_j's Π_k's φ(u a(j_1,k_1)a(j_1,1)...a(j_m,k_m)a(j_m,1))
右邊指對所有 j, k 註標做連乘。假設 t→0 時 φ(t) = 1-t^2/2+o(t^2),取自然對數得
log(φ(t)) = -t^2/2 + o(t^2)。
故
Σ_j's Σ_k's log(φ(u a(j_1,k_1)a(j_1,1)...a(j_m,k_m)a(j_m,1)))
= Σ_j's Σ_k's {-u^2(a(j_1,k_1)a(j_1,1)...a(j_m,k_m)a(j_m,1))^2/2
+ o(u^2(a(j_1,k_1)a(j_1,1)...a(j_m,k_m)a(j_m,1))^2)}
= (-u^2/2)Σ_j's Σ_k's (a(j_1,k_1)a(j_1,1)...a(j_m,k_m)a(j_m,1))^2
+ Σ_j's Σ_k's o(u^2 (a(j_1,k_1)a(j_1,1)...a(j_m,k_m)a(j_m,1))^2)
首先,對諸 k_t 加總,Σ_(k_t) a(j_t,k_t)^2 = 1;其次,對諸 j_t 加總,Σ_(j_t) a(j_t,1)^2 = 1。因此,log(φ(u)) 右邊第一部分是 -u^2/2。而第二部分,小 o 表示括號內數值很小時則整個 o(.) 更小。故只要 m 夠大則
|o(u^2 ΠΠ(a(jk)a(j1))^2)| ≦ ε u^2 ΠΠ(a(jk)a(j1))^2
式中 ΠΠ 是 Π_j's Π_k's 的簡寫。故前述小 o 部分絕對值不大於 ε u^2,即
Σ_j's Σ_k's o(u^2 (a(j_1,k_1)a(j_1,1)...a(j_m,k_m)a(j_m,1))^2) = o(1)
故
log(φ(u)) = -u^2/2 + o(1) 當 m → ∞
最終得 φ(u) = -u^2/2,諸 Xi 之共同分布為常態。s
考慮一般 n > 1 時 Xbar 與 S^2 相互獨立的問題。以下方法可能來自 Eugene Lukacs (1942) "A characterization of the normal distribution."
Annals of Mathematical Statistics, 13, 1, 91-93. 令 Z = Xbar, W = Σ(Xj-Xbar)^2, 則其聯合特性函數
ψ(t,s) = E[e^(itZ+isW)] = g(t)h(s)
其中 φ(t) 是諸 Xj 共同的特性函數。對 s 做偏微,則
Ds ψ(t,s) = g(t) h'(s) = (φ(t/n))^n h'(s)
假設 E[Xj] = 0 及 Var(Xj) = 1, 故在 s = 0 其偏導數為
Ds ψ(t,0) = g(t) E[iW] = i(n-1)(φ(t/n))^n
另一方面
Ds ψ(t,0) = E[iWe^(itZ)]
= i E[{[(n-1)Σ_j Xj^2-2ΣΣ_{j<k}XjXk]/n}e^(itΣ_p Xp/n)]
= -i(n-1)φ"(t/n)(φ(t/n))^(n-1) + i(n-1)φ'(t/n)(φ(t/n))^(n-2)
因此,
-φ"(t/n)(φ(t/n))^(n-1) + φ'(t/n)(φ(t/n))^(n-2) = (φ(t/n))^n
或即
φ"(t)φ(t) - (φ'(t))^2 + (φ(t))^2 = 0
初值條件 φ(0) = 1, φ'(0) = 0,其解為 φ(t) = e^(-t^2/2), 標準常態之特性函數。因此,我們完成了證明:自一(無限)群體隨機抽樣,若樣本平均數與樣本變異數獨立,則此群體為常態。
留言列表