考慮一個隨機變數串(序列) X1,...,Xn,..., 當我們談到這序列收斂時,有多種意義。
實數值隨機變數是從樣本空間 S 到(延伸)實數集的函數,因此就函數序列收斂的意義來說,它至少有兩種意義:逐點收斂 (point-wise convergence) 和均勻收斂 (uniform convergence)。不過,就機率上的考慮而言,事實上採用其弱化版本:幾乎確定 (almost surely, almost certainly) 收斂和幾乎確定均勻收斂。逐點收斂就是說:有一隨機變數 X 使
lim_{n→∞} Xn(s) = X(s), for all s in S
用嚴格的數學語言來描述,就是
對任意 ε>0, 任意 s in S, 存在 N(ε,s), 使得
只要 n > N(ε,s) 則 (Xn(s)-X(s)| < ε
而均勻收斂是:
對任意 ε>0, 存在 N(ε), 使得
只要 n > N(ε), 則對任意 s in S, 得(Xn(s)-X(s)| < ε
隨機變數雖允許 ±∞ 為其值,但其機率是 0,所以上面只考慮 |X(s)| < ∞ 時的定義;當然,也不妨補上。我們更常用到的是幾乎確定收斂和幾乎確定均勻收斂。即:
除了在一機率 0 事件之外,Xn 逐點或均勻收斂到 X。
我們常聽說「強大數法則 (strong law of large numbers)」用的就是幾乎確定收斂,也稱機率 1 收斂 (convergence with probability 1):
設 X1, ..., Xn, ... 是 i.i.d., E[X1] = μ 存在(有限),則
(X1 + ... + Xn)/n → μ a.s. (或 a.c. 或 with probability 1)
令 C = {s in S, Xn(s)→X(s)}, 則
C = ∩_{k=1~∞}( ∪_{N=1~∞}( ∩_{n=N~∞} {s in N: |Xn(s)-X(s)|<1/k} ) )
上面這式子其實就是說:C 是由所有
對任意 k≧1 存在 N 使得 (只要 n≧N 則 |Xn(s)-X(s)|<1/k
的 s 所形成的 S 的子集。這就是前面逐點收斂的定義,而「任意 ε>0」改成「任意 1/k, k≧1」並不會喪失一般性,也就是說,上列 s 就是 Xn(s) 收斂到 X(s) 的定義,而
C = {s in S: lim_{n→∞} Xn(s) = X(s)}
現在 C 是諸事件 [|Xn-X|<1/k] 經可數個交集,再可數個聯集,最後又可數個交集運算而得,所以 [Xn→X] 本身是一個事件,而機率 1 收斂可簡單定義為
P[lim_n Xn = X] = 1
或 P[Xn not convergent to X] = 0。
對於隨機變數序列 Xn, n = 1, 2, ... 與隨機變數 X,考慮事件 [|Xn-X| >ε] 的機率 p_n(ε),
若對任意 ε > 0, lim p_n(ε) = 0, 則稱 Xn 向 X 作機率收斂。
機率收斂 (convergeny in probability) 顯然是比機率 1 收斂更弱的概念,因為
P{ ∩_k ∪_N ∩_{n≧N} [|Xn-X|<1/k] } = 1
意謂
P{ ∪_N ∩_{n≧N} [|Xn-X|<1/k] } = 1 for all k
從而
P{ ∩_{n≧N} [|Xn-X|<1/k] } → 1 當 N → ∞, for all k
當然也蘊含
P{ [|Xn-X|<1/k] } → 1 當 n → ∞, for all k
我們很容易看出以上四個敘述,前三者是等價的,最後一個是弱化的;或者說,前三者,也就是幾乎確定收斂或機率 1 收斂,等價於
P{ inf_{n≧N} [|Xn-X| ≦ 1/k] } = P[sup_{ |n≧N} |Xn-X| ≦ 1/k] → 1
當 N → ∞, for all k
如果固定 k,前面定義機率 1 收斂用的是 "< 1/k" 當然不同於 "≦ 1/k",但因為要 for all k 都成立,所以會等價;這就像先前以 "for all 1/k, k≧1" 取代 "for all ε > 0" 而我們說「不失一般性」一樣的意思。
機率收斂以 plim Xn = X 或 Xn → X in P(robability) 或以在 → 收餃符號上加個 P 或 p 表示;幾乎確定收斂也可在收斂符號 (→) 上加 a.s. 或 a.c.,不過通常這兩種之一的縮寫是加在式末,而且 a.s. (或 a.c.) 的概念不只用在收斂(極限), 如 X = Y a.s. 表示 P[X=Y] = 1;又如 "X is a.s. bounded" 表示:存在 B > 0 使 P[|X|≦B] = 1。
在機率論中,或在涉及積分的理論中,另有一個收斂的概念,那就是平均收斂 (mean convergence) 或者可稱積分意義上的收斂:
若 X, Xn 皆 L^p 可積且 ∫|Xn-X| dP → 0, 則稱 Xn 向 X 作 mean-p 收斂。
一般限制 p ≧ 1。由 Markov 不等式可得
P[ |Xn - X| ≧ ε ] ≦ E[ |Xn - X|^p ]/ε^p
因此,mean-p 收斂立即可推得機率收斂。不過,mea-p 收斂和 a.s. 收斂之間相互皆無蘊涵關係,在機率論教本或一些關於機率論之「反例」的專書,可以找到 mean-p 收斂但不 a.s. 收斂的例子,也可以找到 a.s. 收斂但不 mean-p 收斂的例子。後者很容易想像:a.s. 收斂並不要求 E[|X|^p] 存在;前者也不難想像,mean-p 收斂只要求平均差距收斂至 0,就如機率收斂只要求 |Xn-X|≧ε 的機率收斂至 0,都沒直接要求函蜈值序列 Xn(s) 的收斂。
大數法則說:如果樣本數無限增(當然前提是群體無限大),則樣本平均數收斂到群體平均數。這個收斂不可能達到逐點收斂。如前述,強則用的是幾乎確定或機率 1 的收斂概念;另有弱則用的是機率收斂。一個基本而重要的憑用是:只要樣本數夠大,樣本分布 (sample distribution) 將接近群體分布。這就是所謂 Glivenko-Cantelli theorem, 有時也稱它是「統計學基本定理 (Fundamental Theorem of Statistics)」, 表明它是統計學的基礎,或說是統計推論的基礎。除了經驗分布函數 (empirical distribution, 即樣本分布以分布函數形式表現),統計上關心的是各種統計量的抽樣分布 (sampling distribution),而在小樣本或正確分布不可得的情況,多著眼於所謂大樣本分布。但是,通常針對某一群體特徵 θ 所建的統計量 Tn,總是
Tn → θ in probability 或 with probability 1
所以會予以置中、放大,也就是看 √n(Tn-θ) 的極限分布。這是「分布收斂 (convergence in distribution)」的概念。
設 Xn 各有分布(函數)Fn, n = 1, 2, ...;設 F 是 X 的分布函數,
若在 F 的每個連續點 x,都得 Fn(x) → F(x), 則稱 Xn 向 X 作分布收斂。
符號上會在 Xn → X 的收斂符號 (→) 上加 d;也寫 Fn → F, 在 → 上加 c,稱 Fn 向 F 作「完全收斂 (complete convergence)」。注意 Fn 收斂至 F 僅要求在 F 的連續點,因為分布函數依我們的習慣定義是處處右連續的,而且最多只在可數個點不連續,所以雖然沒有要求 Fn 要逐點(處處)收斂,但若定義的極限成立,則 lim Fn(x) 已足夠唯一決定極限分布 (limiting distribution) F(x)。在統計上當然最重要的分布收斂或極限分布是中央極限定理及其延伸。當然,統計實務上 n 都是有限的,如果 √n(Tn-θ) 向有分布函數 F 的 X 作分布收斂,除了 F 是 √n(Tn-θ) 的極限分布之外,我們更常用 Gn(t) = F(√n(t-θ)) 代表 Tn 的漸近分布 (asymptotic distribution) .注意我們不能說 Tn 的分布「收餃斂」到 Gn(t), 只能說 Tn 的分布漸近等於 Gn(t) 或近似 Gn(T) 或 Tn 漸近服從 Gn(t) 分布。
分布收斂其實和隨機變數收斂亳無關係,除非 X 退化成單點 P{c} = 1, 否則 Xn 分布收斂到 X 可能亳無收斂現象。例如 Xn, n = 1, 2, ... i.i.d. 則顯然 Xn 向 X1 做分布收斂,因為所有 Fn, n = 1, 2, ... 都相同,當然序列 {Fn, n = 1, 2, ...} 是收斂的。可是它們既然是 i.i.d., 根本不可能收斂。機率收斂即使和逐點收斂有些差異,甚至沒有一點收斂,但我們知道 Xn(s) 與 X(s) 基本上不會差太多,或者差異較大的部分機率很小;mean-p 收斂以 p 階均數的方式來保證 Xn(s) 與 X(s) 平均而言差異不大;至於幾乎確定收斂則很明確地說:那些不收斂的點只不過是一個機率 0 事件的點。
極限是有唯一性的,若 Xn 向 X 作 a.s. 收斂,又向 Y 做 a.s. 收斂,則 X = Y, a.s,;這在「機率確定收斂」改成「機率收斂」或「mean-p 收斂」, 結果仍成立,仍是 X = Y, a.s.。但若 Xn 向 X 和向 Y 作分布收斂,我們只能說 X 與 Y 同分布,而 X, Y 甚至可能相互獨立;它們也可能正相關或負相關,或複雜的關聯,除了同分布完全沒有更多訊息可說。若 Xn 向 X, Yn 向 Y 做幾乎確定、mean-p,或作機率收斂,則其線性組合 aXn+bYn,或有時更一般的組合隨機變數序列 f(Xn,Yn),也會向 aX+bY (甚或在適當條件下,f(X,Y))做同類型收斂;但分布收斂不行,沒有 Xn, Yn 的聯合分布我們無法對組合新變數序列有任何猜測。更多關於隨機變數串收斂定理及分布收斂性質,有興趣的就看機率論方面的書吧!
留言列表