有人提了一個問題:
假設平均是 0 標準差是 1 的隨機變數 X_i,如何找出例子使得
(X_1+...+X_n)/√n 不趨近 N(0,1) in distribution?
中央極限定理的要點是:每一個成分都是不重要的,沒有 dominate 一切的成分。那麼,既然所有成分都同幅變異,我們自然猜想中央極限定理在這種情形是成立的;然而,事實卻不一定。
一個最簡單的一般性中央極限定理是 X1,...,Xn,... 為 i.i.d.(獨立同分布)的情形,如果把「同分布」的條件拿掉,改成「同幅變異」,是否可行?當然,基本條件是每個成分 (Xj) 都存在變異數,所以同幅變異就是它們的變異數都相等。不失一般性,我們假設諸 Xj 都是平均數 0 而標準差 1,也就是諸 Xj 做了標準化。
問題出在哪兒?首先,我們嘗試證明在前述設定之下的中央極限定理成立。平均數 0 變異數 1 的隨機變數 Xj 的特性函數(特徹函數)φ_i(t) 可以 做 Taylor 式展開寫成
φ_j(t) = 1 -t^2/2 + o_j(t^2), 當 t → 0
故 S = (X1+...+Xn)/√n 的特性函數是
φ(t) = Π φ_j(t/√n) = Π (1 - t^2/(2n) + o_j(t^2/n))
= 1 - t^/2 + Σo_j(t^2/n))
這來自一個不等式
若 z_i, w_i 都是絕對值不垢過 1 的複數,則
|z_1...z_m-w_1...w_m| ≦ Σ|z_i-w_i|
問題是:如何證明
Σo_j(t^2/n)) = o(t^2) ?
我們所以在 φ_j(t) 的 Taylor 式展開中用 o_j(t^2) 而不是簡單的 o(t^2), 就是因每個 φ_j 都可以是不同的,因此在 t→0 時逼近 1-t^2/2 的速度不同。
由前面「特徵函數」一文知如果 E[X^m] 存在,則
|E[e^{itX}] - Σ_{k=0~m}E[X^k](it)^k/k!| ≦ E[min{|tX|^(m+1)/(m+1)!, 2|tX|^m/m!}]
取 m = 2 得
φ_j(t) = 1 - t^2/2 + Rj(t)
其中餘式
|Rj(t)| ≦ E[min{(|t Xj|^3)/6, |t Xj|^2}]
= t^2 E[min{(|t|/6)|X|^3, |Xj|^2}]
= t^2 (∫_{|Xj|≦6/|t|} (|t|/6)|Xj|^3 dP + ∫_{|Xj|>6/|t|} |Xj|^2 dP)
= t^2 [1 - ∫_{|Xj|≦6/|t|} |Xj|^2(1-|t Xj|/6) dP]
≦ t^2 [1 - ∫_{|Xj|≦ε/|t|} |Xj|^2(1-|t Xj|/6) dP] 當 0 < ε ≦ 6
≦ t^2 [1 - (1-ε/6)∫_{|Xj|≦ε/|t|} |Xj|^2 dP]
≦ t^2 [∫_{|Xj|>ε/|t|} |Xj|^2 dP + ε/6]
但 ∫_{|Xj|≦ε/|t|} |Xj|^2 dP 當 t → 0 時趨近於 E[Xj^2] = 1, 故
limsup_{t→0} |Rj(t)|/t^2 ≦ ε/6
由於 ε 的任意性,這是我們寫 φ_j(t) = 1 - t^2/2 + o_j(t^2) 的由來。但是,上面的結果只是說明個別 Rj(t) 是 o_j(t^2),卻沒有足夠的訊息告訴我們 Σ Rj(t) 的大小級別。
雖然 ∫ |Xj|^2 dP 都是 1,也就是 ∫_{|Xj|>δ/|t|} |Xj|^2 dP → 0 當 t → 0 對所有 j 都成立,但對固定 t 我們並不了解其值,因而也不能知道 Σ Rj(t) 會是多少。但如果
For any ε > 0 there is a B > 0 such that
when |t| < δ/B then ∫_{|Xj|>δ/|t|} |Xj|^2 dP < ε
則 |Rj(t)| ≦ (ε+δ/6)t^2,則
| Σ Rj(t/√n) | ≦ (ε+δ/6)t^2
因為 δ, ε 都是任取的,因此我們得 Σ Rj(t/√n) = o(t^2),也就是
φ(t) = E[e^{itS}] = 1 - t^2/2 + o(t^2)
則 n → ∞ 時 φ(t) → 1 - t^2/2,也就是 S converges in distribution to N(0,1)。
問題就是在於:雖然我們有
∫_{|Xj|>δ/|t|} |Xj|^2 dP → 0 當 t → 0, for all j
但並不能保證如前述可以找到一個一致的界限 B 使
∫_{|Xj|>B} |Xj|^2 dP < ε for all j
這有點像一個機率分布或分布函數序列 Pn 或 Fn,我們無法保證對任意 0 < ε < 1,存在有限區間 (a,b] 使
Pn{(a,b]} = Fn(b) - Fn(a) ≧ 1 - ε
在後者如果成立我們說這個分布序列是(一致)緊密的 ((uniformly) tight);那麼前者是否也可給一個名詞?一個機率分布序列是緊密的則其每個無限子列都可找到進一層的子列收歛到一個機率分布,反之亦然(其逆亦真)。在中央極限定理能否成立這一問題,上面顯示若共通的 B 存在,則中央極限定理成立。但我們不知道這是不是也是一個必要條件。
在「談中央極限定理」中我們說如果 Feller 條件 max(σ_k}/s_n → 0 成立,則 Lindeberg 條件是中央極限定理成立的充要條件,在 Xj 是標準化隨機變數的情形,σ_j = 1 所以 s_n = √n,所以 Feller 條件成立。考慮一個例子,Xj 相互獨立,
Xj ~ [(1+r_j)/r_j)|x_j|/(1+x_j^2/r_j)^(2+r_j), -∞ < x_j < ∞
則 E[Xj] = 0, Var[Xj] = 1。則
∫_{Xj>ε s_n} |Xj|^2 dP = (1+r_j)/(1+r_j/(nε^2))^(r_j) - r_j/(1+r_j/(nε^2))^(1+r_j)
= [(r_j/(nε^2)^(r_j)/(1+r_j/(nε^2)^(r_j)]{1+r_j/(1+r_j/(nε^2))}
→ 1 當 r_j → 0
故若取 r_j → 0 當 j → ∞,則
(Σ_j ∫_{Xj>ε s_n} |Xj|^2 dP)/n → 1 當 n → ∞
也就是 Lindeberg 條件不成立。
一般的反例怎麼建構?從前面 |Xj|^2 積分的條件知道反例存在於此積分很難收斂,也就是必須積分到 |Xj| 很大的部分。這時我們想找一個實例,首先想到到 t 分布,自由度 ν > 2 才存在變異數。雖然 t 統計量自由度一定是整數,但其實 t 變量只是第二型 beta 變量 x > 0 開平方根再把機率平分到正負兩邊。為了計算方便,於是我們的例子取 beta(1,1+r) (t 變量轉自 beta(1/2,ν/2))做轉換,得上述特例。我們也可考慮離散型的例子,如:
P[Xj = j^α] = P[Xj = - j^α] = 1/(2 j^α), P[Xj = 0] = 1 - 1/j^α, α ≧ 1
則 j 夠大時可得 j^α > ε√n, 結果也可以使 Lindeberg 條件失效,因而不適用中央極限定理。
隨機變數序列 Xj 都經標準化,似乎每個 Xj 都同等重要了,每個都是可忽略的,直覺地認為中央極限定理應該成立。然而,計算式告訴我們:並不是這樣;實例告訴我們:在很多時候中央極限定理還是會失敗的。為什麼會這樣?反面的思考是:變異數本身不能代表重要性,它只是一個平均離差的指標,有時候用它來粗略地代表個別變量對整體的影響是可以的,但它並不能完全解釋個別變量的重要性或影響力。分布的其他指標如峰度也是重要的,在我們的反例中顯示:高狹峰厚尾巴將導致中央極限定理失效。為什麼這樣,也就是如何去看待反例和一般認知「中央極限定理就是描述總和式各任意單獨項或任意固定有限項都可忽略時的漸近分布定律」為何似乎不一致?其實並沒有不一致,因為高狹峰和厚尾巴就是造成不可忽視的影響的原因,大部分可能值或集中於一點,小部分可能值則又太分散,前者發生表示 Xj 對總和毫無貢獻,後者發生則對總和構成顯著影響,在變量經標準化的狀況,高狹峰厚尾巴的 Xj 要不就對總和沒貢獻(特大機率),要不就重重地拐了一下總和,所以它比較低闊峰尾巴較薄的項對總和有更大的影響,這就是總和分布不逼近常態的原因。中央極限定理的成立是各單獨項或各固定數項的可忽略,這可不可忽略不能只看變異數。同時這也給我們一個提醒:直覺地思考推想常是不可靠的,直覺地我們以為變量經標準化了重要性或其影響力可以同等看待;但實際上如果再仔細思考分布的型態,可以看到對整體的影響力或重要程度,只看其變異數是不夠的。數學定理公式之所以要求需要證明,正是希望避免直觀推論的偏差。
留言列表