機率中的「獨立」是一個特殊的概念,初學者有不少為「獨立」與「互斥」混淆。互斥其實只是集合間的關係,在機率學中也就是事件間的關係,只要兩個事件沒有交集,或說交集是空事件(空集合),那就是互斥。但獨立則不然,兩事件是否獨立,還要看機率。也許在某個機率分布(指在一個樣本空間上如何設定各個事件的機率)事件 A 和 B 是獨立的,但在另一個機率分布下卻不然。所以互斥事件可以用 Venn 圖解來解釋,獨立卻不行。硬要圖解的話,樹形圖 (tree diagram) 勉強算吧。說「勉強」,因為表現獨立與否的還要看上面標示的條件機率;而且樹形圖其實比較適合表示多階段實驗,對於同時、等同地位的事件而言,榭形圖固然也被使用,卻也可能被誤解為事件之間有地位或順序的不對等。
機率中的獨立是指什麼意思?如果 P{A} > 0, 則
B 與 A 獨立表示 A 之發生不會影響 B 發生之機率,即 P{B|A} = P{B}
若 0 < P{A} < 1, 則 P{B|A} = P{B} 蘊涵 P{B|A'} 也等於 B(A' 是 A 的餘事件,即補集),也就是說:
B 與 A 獨立表示 B 發生之機率不因 A 發生與否而受影響。
同時,上面用條件機率定義獨立,在 A 或 B 具正機率時完全可用下列定義取代:
A 與 B 獨立定義為 P{A∩B} = P{A}P{B}
當 P{A} > 0 時上列定義與 P{B|A} = P{B} 等價;P{B} > 0 則又等價於 P{A|B} = P{A}。而乘法之定義方式可以避免用條件機率定義必須做為分母的機率為正值的限制,更重要的是我們需要「獨立」這個概念含蓋機率 0 事件,如果用條件機率定義獨立,還要對零事件(null event, 機率 0 的事件)做例外處理,是不合宜的。
由獨立的定義立即可知:獨立是一種相互的關係(數學的術語說是一種對稱關係),A 與 B 獨立則 B 也與 A 獨立,因此我們比較常說「相互獨立(mutually independent)」。另外,機率上的獨立也常稱機率獨立,統計獨立或隨機獨立。不過後面兩種稱呼比較常用於隨機變數。
由事件相互獨立的定義很容易得出一個事實:機率 0 和機率 1 事件與任何事件獨立;反過來我們也很容易得知:一個事件和本身獨立若且唯若這個事件具機率 0 或 1。同時,兩事件互斥且獨立則必有一事件是機率 0;但反過來卻不對,因為有一事件是機率 0 則兩事件獨立但不一定互斥。另外,在前面用條件機率說明獨立的意思時也說了:A, B 獨立則 A, B' 也獨立,也就是說任一事件發生不發生的機率,都和另一事件發生不發生無關。如果定義 A, B 的指示變數為:
I_A(ω) = 1 if ω in A; = 0 if ω in A'; I_B(ω) = 1 if ω in B, = 0 if ω in B'
那麼,我們有:
A, B 獨立,則與 I_A 相關的事件,都和與 I_B 相關的事件獨立。
當然,與 I_A 相關的事件也只不過是必然事件 S,空事件 φ, 事件 A 與其餘事件 A' 而已;I_B 類似。所以上面的結果也只不過是說:如果 A, B 獨立,把 A 或 B 換成其補集,結果仍是獨立。因為事件的指示函數就是最簡單的隨機變數,上面用指示函數來描述的結果,其實也揭示了隨機變數獨立的定義:
設 X, Y 是兩隨機變數,則 X 和 Y 隨機獨立的意思是:與 X 有關的任意事件,都和與 Y 有關的任意事件獨立。以符號表示,就是
對於任意 A in σ(X), B in σ(Y), 都可得 P{A∩B} = P{A}P{B}
注意 A in σ(X) 之類的表示法只是說 A 這 S 上的事件是一個由 X 決定的事件,或說是與 X 有關的事件,例如 [X≦x], [a<X≦b] 之類的。可以證明上列定義的條件可以縮減為:
隨機變數 X, Y 獨立的充要條件是 P[X≦x, Y≦y] = P[X≦x] P[Y≦y], for all x, y in R.
也就是說:兩隨機變數相互獨立的充分且必要條件就是其聯合分布函數是個別分布函數的乘積。或者,如果用機率密度或機率質量函數(統稱密度函數)來表示 X, Y 的個別分布及聯合分布,那麼兩隨機變數相互獨立的充分且必要條件就是其聯合密度函數是個別密度函數的乘積。
如果有三個或更多個事件,所謂「相互獨立」是什麼意思呢?
設 G 是一些事件形成的集合(a collection of events, 暫稱:集群,或:事件群),我們稱該集群佈事件相互獨立,意謂其中任意有限個事件都相互獨立。
如果這群事件僅有限個,上列定義只說全部事件要相互獨立,任意較少個事件也要相互獨立,因此還要加上下列定義才完整:
事件 A1, A2, ..., An 相互獨立的條件是:其中任意 k 個事件, k = 2,...,n, 同時發生的機率,都等於個別事件發生機率的乘積。
以 n = 3 為例, A, B, C 相互獨立的條件是:A 與 B,B 與 C,A 與 C 都相互獨立,並且
P{A∩B∩C} = P{A} P{B} P{C}
所以要驗證三個事件是否相互獨立,需要驗證 4 個等式。一般而言,要驗證 n 個事件是,需要驗證 2^n - n - 1 個等式。只要有一個等式不成立,即不是相互獨立。
為什麼無限個事件的相互獨立只需要「任意有限個都相互獨立」而不需要如有限個事件那樣要求所有事件的交集的機率等於個別事件機率的乘積?如果所考慮的是不可數多個事件,例如在一個時線上隨機過程,在任意時刻出現某種狀態,這樣的事件群是不可數無窮,對這種不可數無窮多個數如何相加、相乘基本上並沒有定義。(各位可以想想機率定義中的相加性,也只到可數個數相加而已。)即使是可數個事件的相互獨立性問題,其實無窮項的相加、相乘一般也只能考慮極限:
Π_{n=1~∞} Pn = lim_{n→∞} Π_{k=1~n} Pk
式中 Π 是連乘的意思,就像 Σ 代表加總。如果任意前 n 個事件相互獨立,那麼
P{∩_{n=1~∞} An} = lim_{n→∞} P{∩_{k=1~n} Ak}
= lim_{n→∞} Π_{k=1~n} P{Ak}
= Π_{n=1~∞} P{An}
第一個等式是應用機率論中一個定理,稱為「連續性定理」;第二個等式是因為前 n 個事件梳相互獨立;最後一個等式是無窮項連乘的定義。因此,增加無窮個事件交集的機率等於這無限個事件機率相乘,以此處之無限項相乘的定義,並沒有增加有效的條件。再者,即使 A1, A2, ... 等不獨立,兩邊也可能都是 0 而成立等式,例如 A1, A2 ... 是一遞減事件序列,每個都有正機率,所以連成對獨立都不是,但可能 P{∩_{n=1~∞}An} = 0 而且 Π_{n=1~∞} P{An} = 0。
我們說多個事件的相互獨立並不是「所有事件交集的機率等於所有事件機率的乘積」就好,例如 P{A∩B∩C}=P{A}P{B}P{C} 並不能保證 A, B 獨立,B, C 獨立,或 A, C 獨立。例如
丟一個公正銅板 3 次,以 H 代表結果是正面,T 代表結果是反面,設
A = {HHH,HHT,HTH,THH}, B = {HHH,HTT,THT,TTH},
C = {HHH,TTT,THT,TTH}
則
P{A∩B∩C} = P{A} P{B} P{C} = 1/8 = P{A∩B} = P{A∩C}
P{B∩C} = 3/8
故任兩事件皆不獨立,但三事件交集機率卻等於三事件機率乘積。另外,成對獨立(pairwise independent)也不同於相互獨立,例如
續前丟銅板實驗,設
D = {HHH,HHT,HTH,HTT}, E = {HHH,HHT,THH,THT},
F = {HHH,HHT,TTH,TTT}
則 D∩E∩F = {HHH, HHT} = D∩E = E∩F = D∩F, 因此三事件交集機率不等於三事件機率相乘;但任兩事件都是相互獨立的。更多個事件也可能存在成對獨立但不相互獨立的例子,下面則是一個任三事件相互獨立但四個事件卻不相互獨立的例子:
續前丟銅板實驗,設
D = {HHH,HHT,HTH,HTT}, E = {HHH,HHT,THH,THT},
G = {HHH,HTH,THH,TTH}, H = {HHH,HTT,THT,TTH}
這四個事件有一共同結果 HHH,但任三事件交集也恰好只含這一個結果(樣本點),而任兩事件交集則恰有兩個樣本點,因此任三個相互獨立,但整體並不相互獨立。
事件的獨立總是伴隨著其指示函數的隨機獨立,也就是說:若 {At; t in T} 是一個相互獨立的集群,那麼其中任意多個 At 以其補集替換,結果仍是相互獨立。正式的證明只須考慮有限個事件就夠了,因為前文定義無限個事件的相互獨立就是任意有限個都相互獨立。而有限個的情形,也只須考慮替換一個就夠了。而由於集合交集運算和實數乘法運算都是可交換的,因此又縮減到只替換第一個。實際證明很簡單,只是寫起來稍嫌囉嗦,就不寫了。
多個隨機變數的相互獨立是
隨機變數 Xt, t in T, 稱相互獨立,(定義的)條件是任意 {At in σ(Xt); t in T} 都相互獨立。
當然也可以用分布函數或密度函數給定相互獨立的條件
隨機變數 Xt, t in T, 稱相互獨立,充要條件是對任意有限個 t(i), i=1,...,n,
F(x_{t(1)},...,x_{t(n)}) = F1(x_{t(1)})...Fn(x_{t(n)})
式中 F 表選定之 X_{t(i)}, i=1,...,n, 的聯合分布函數,Fi 則是 X_{t(i)} 的邊際分布函數。
隨機向量是把有限個隨機變數依某預定順序看成一個整體,如隨機變數 X, Y 可以整體看成一個隨機向量,用 (X,Y) 表示,於是我們可以定義隨機向量間的獨立:
隨機向量 Xt , t in T, 之間的獨立,就是所有 {At in σ(Xt), t in T} 都是相互獨立的。我們也稱這些隨機變數群是聯合獨立的。
例如 X, Y 聯合與 Z 獨立,就是隨機向量 (X,Y) 與 Z 隨機獨立。這時仍然可用分布函數來表示其充要條件:
X Y 聯合與 Z 獨立,其充要條件為 F(x,y,z) = G(x,y)H(z) for all x, y, z in R
其中 x, y in R 也可以寫 (x,y) in R^2。這只是一個簡單的例子,例示一般的隨機向量間的獨立性如何用分布函數來表現,就是:把選定的有限個隨機向量組成一個成員(向量的元素或分量)更多的隨機向量,這個隨機向量的聯合分布函數是各原選定隨機向量聯合分布函數的乘積。
聯合獨立也可擴充到多個無限隨機變數群,例如隨機過程之間;也可以是無限個隨機變數群之間,其中每個隨機變數群可以是單一隨機變數,隨機向量,可數或不可數個隨機變數,觀念其實都一樣。例如考慮兩個隨機過程
{Xt, t in T}, {Yu, u in U} 相互獨立指的是任意 {X_{t(i)}, i=1,...,m} 與任意 {Y_{u(j)}, j=1,...,n} 相互獨立。
如果隨機過程的註標集 T 和 U 相同,也可以把上列定義中 t(i), u(j) 取相同,因為把諸 t 和 u 聯合起來也符合「任意 t(i)...」、「任意 u(j)...」的說法,則以它們為註標的諸 X 和諸 Y 也要聯合獨立;但反過來說,原來各取諸 t 和諸 u 又分別只是 t, u 聯合的子集,兩大隨機變數群相互獨立,各取子集的兩隨機變數群當然也相互獨立,就好比 X, Y, Z 和 U, V. W 聯合獨立,則 X, Y 也聯合和 U, V 獨立。所以如上列定義中兩過程分別取抽樣時點,或兩過程取共同抽樣點,結果是等價的。但我們的定義適合不同註標集,例如 (homogeneous) Poisson 過程 {N(t); t>0} 實際上伴隨兩個隨機過程: 到達時間過程 {Sn, n=1,2,...} 和間隔時間過程 {Xn; n=1,2,...},它們是可以相互定義的,也就是由任一個過程可以定義出另兩個過程,所以它們是等價的(equivalent),當然不可能獨立。但 N(t) 是遞增的非負整數值過程,以正實數為註標;Sn 是遞增的非負實數值過程,註標是正整數;Xn 註標也是正整數,它本身卻是相互獨立的。因此在考慮這些隨機過程之間的獨立性時強求取相同抽樣點是沒有意義的。
從隨機變數間的獨立,到隨機過程或隨機域 (random field) 之間的獨立,其實從測度來看都是在看 σ-體之間的獨立性:
一群 σ-體 Ωt, t in T, 之間稱相互獨立,指對任意 At in Ωt, 諸 At 相互獨立。
可以不定意隨機變數等東西,直接考慮 σ-體之間的獨立性問題。這樣當然沒有所謂分布函數可以簡化獨立與否的檢查,不過,仍是可以簡化的,但先要定義「事件群之間的相互獨立」:
設 Γt, t in T, 均為事件組成的,即諸 Γt 皆為事件群。Γt, t in T, 相互獨立指的是:對任意 At in Γt, t in T, 它們都相互獨立。
舉個例子,Γ1 = {A, B, C}, Γ2 = {D, E}, 則 Γ1 與 Γ2 相互獨立指所有事件配對 (A,D), (A,E), (B,D), (B,E), (C,D), (C,E) 各對兩事件相互獨立。有了事件群相互獨立的定義,我們就可以說:
若諸 σ-體 Ωt, t in T, 各是由S的某一子集合體 (a field of subsets of S) Ft, t in T, 產生,則 Ωt, t in T, 相互獨立的充要條件是 Ft, t in T, 相互獨立。
體與 σ-體的差別在於結構的完整性或聯集運算的封閉性,前者只保證有限項聯集的封閉性,後者要求可數項聯集的封閉性。以 R* 上的子集結構來說,Borel field 就是由區間產生的 σ-體,因此可數個互斥區間的聯集都在內,隨機變數之獨立條件可以縮減至用分布函數來看就是因所有 (-∞,b] 形區間的對應事件群之間的獨立性保證了所有 (a,b] 形區間對應事件群之間的獨立性,也保證了所有 Borel sets 對應事件群之間的獨立性。而 R 上一個可以產生 Borel 體的子集合體就是由有限個這類半開區間的所構成,例如空集可以寫成 (a,a]; (a,b] 的補集是 (-∞,a]∪(b,+∞]; 兩個這種半開區間的聯集或者是兩個互斥半開區間的聯集或者合併成一個新的半開區間。
事件群 {A,B} 與事件 C 的獨立如上面定義的,就是 A 與 C 獨立,B 也與 C 獨立。不過這並沒有保證其他的事項獨立,例如我們希望 A∩B 也與 C 獨立,由前述集群間獨立並不能得到。但如果是隨機變數群 {X,Y} 與隨機變數 Z 的獨立是什麼意思呢?如果只寫 X, Y 與 Z 獨立,我們並不知道究竟是單純地 X 與 Z 獨立且 Y 與 Z 獨立,還是解讀為 X, Y 聯合與 Z 獨立。所以在敘述時一定要寫清楚,是「X, Y 分別與 Z 獨立」或「X, Y 聯合與 Z 獨立」。如果是後者,也可以說隨機向量 (X,Y) 與 Z 獨立;如果是前者,我們不能保證如 X+Y, X-Y 等會與 Z 獨立;如果是後者,任何可測的 W = ψ(X,Y) 都會與 Z 獨立。類似地,我們也可定義:
事件 A, B 聯合與事件 C 獨立指 A, B, A∩B 都與 C 獨立。
上列定義我沒在書本或網路查到,至於是不是曾經看過已經不記得了。不過我相信這個定義是有意義的,事實上它相當於由 {A, B} 所產生的 field, 也是 σ-field, 整個和 C 獨立。用指示函數表示,也就是:
隨機變數 I_A, I_B 聯合和隨機變數 I_C 獨立。
這些事件群之間、隨機變數群之間分別獨立和聯合獨立的概念都可以擴充到多群,甚至無限群。
給定一個事件,或給定一個隨機變數或 σ-體的條件機率也可以談獨立性,稱為條件獨立。例如:
給定 C 事件發生則 A 與 B 條件獨立,指 P{A∩B|C} = P{A|C} P{B|C}
多個事件也一樣,例如:
給定 D 事件發生則 A,B,C 相互(條件)獨立,指給定 D 則 A, B, C 成對(條件)獨立,並且 P{A∩B∩C|D} = P{A|D} P{B|D} P{C|D}
更多事件也一樣,只是把前面無條件機率下獨立的概念加上條件,看條件機率而已。至於給定隨機變數 Z = z 的條件獨立性,當 [Z = z] 具有正機率時,和前面給定一事件發生的條件獨立性完全相同;若 [Z = z] 具機率 0, 需知條件機率此時並不單存看 Z = z 一點,而是將整個 Z 的值域納入考慮,唯一性 up to a null set. 所以可以說這(單點時的)條件獨立性沒什麼意義,不同 z 值整體來看才有其意義(或者考慮具正機率之事件為給定條件時的條件獨立性也有意義)。給定 Z 的條件獨立形式上如同前面所討論的無條件獨立性的情形,而意義解釋上其實也類似,雖然數學定義上它們都不是純粹的機率,而是隨機變數。
最後我們以一個定理來結束本文:
若隨機變數群 {Xij, j=1,...,n(i)}, i=1,...,k, 聯合相互獨立,而隨機變數 Yi 是由 (Xij, j=1,...,n(i)) 所定義的,也就是說前者是後者的函數,則 Yi, i=1,...,k, 相互獨立。
這個定理當然可以擴充到無限個隨機變數群,每個隨機變數群可以有無限多個隨機變數。重點是每一個隨機變數群都是聯合與其他變數群獨立的,不只是群裡的個別隨機變數和其他群隨機變數之間的關係。
附帶強調一點:以上討論都是在一個機率空間之下的。至於獨立實驗,也就是多個機率空間組成的問題,則先把這多個機率空間組成一個更大的機率空間,獨立實驗相當於乘積測度的建構,結果仍是在一個機率空間之下。
留言列表