本文將從基本的事件條件機率定義,談到有點抽象的「給定一個 σ-體」的條件機率與條件期望值 ,實務上就是「給定一(或多)個隨機變數」的條件機率與條件期望值。

談機率一開始都假設一個宇集 S,稱為樣本空間,又稱必然事件,是隨機實驗各種可能結果所形成的集合。而所有被考慮的事件,都是樣本空間的子集。所謂隨機實驗很難定義清楚,這裡就不定義,只需知道隨機實驗是計算機率的基礎,如抽牌、抽球、擲骰子、擲硬幣等無法預知結果而如果能重複地操作其出現各種結果的相對頻率會出現規律性。

一個事件 E 發生,指的就是隨機實驗的結果是在 E 中。機率問題常問的是:某一個事件,例如 E 發生的機率是多少?但很多時候我們也會問這樣的問題:已知道事件 E 發生,那麼事件 F 也發生的機率是多少?我們稱這是「給定 E 發生,問 F 發生的條件機率。」因為「已知道事件 E 發生」等於給「機率多少」這個問題加了條件︰我們是在「E 發生」的限制之下考慮機率的問題,也就等於把樣本空間從原來的宇集改成限制在 E 之內。從隨機實驗實務上來說,相當於把結果在 E 之外的都拋棄,只保留結果在 E 之內的。

機率並不是任意設定的。雖然實務上特別是統計上我們都是「假設 ... 」但那是因為本質上對我們要研究的對象了解不完全,而且那些假設也是根據事物背後的原理機制,或經過長期經驗或資料呈現的形態而做。在原本的樣本空間考慮的機率(有時會稱之為「無條件機率」以資區別)是依隨機實驗的本質而設定的;而給定事件 E 已發生,問另一事件 F 的條件機率,仍然是那個隨機實驗,只是結果限定在 E 中,限定的方法是如果結果不在 E 中就重來。因為新的樣本空間是 E,因此 P{E|E} = 1。此時說「F 發生」意思就是結果既在 E 中也在 F 中,所以合理的機率設定應是

P{F|E} ≡ P{E∩F}/P{E}

這定義只適合 P(E) > 0 的情形;至於 P{E} = 0 時是否能定義條件機率,稍後再討論;純以事件的條件機率而言,依此處定義,可以說 E 若具機率 0,在這個層次條件機率是沒有定義也不能定義的。

我們說上述定義合理至少有兩個實例:其一是如以重複實驗之相對頻率來設定機率,那麼上述定義將與原機率(無條件機率)得到一致性的結果:無條件機率是相對於 S 的相對頻率;條件機率則是相對於新樣本空間 E 的相對頻率。其二,如以古典機率方法的機會均等法則,則 P{F} 是 F 與 S 元素個數或長度面積等量度的比, P{F|E} 是 E∩F 與 E 元素個數或長度面積等量度的比。因此,就一般情形把 P{F|E} 定義為 P{E∩F} 與 P{E} 之比是必須的。

由條件機率定義,立即得機率計算所謂「乘法律」:P{A∩B}=P{A}P{B|A};又由 B = (A∩B)∪(A'∩B) 得「全機率定理」 P{B} = P{A}P{B|A}+P{A'}P{B|A'},此處 A' 是 A 的補集,或稱餘事件。這在機率計算上用得很多,甚至被當做一種重要方法,常被用於工蒹、醫學機率計算,例如不同生產線有不同不良率要計算整體不良率,某種疾病篩檢檢出陽性機率。同時,可得「貝氏定理」

P{A|B} = P{A}P{B|A}/(P{A}P{B|A}+P{A'}P{B|A'})

也被稱為「逆向機率定理 (Inverse Probability  Theorem)」,  成為統計上「貝氏分析法 (Bayesian method)」的基礎。當然,其實全機率定理和貝氏定理不限於把樣本空間分割成 A 和 A' 兩部分,而是分割成更多部分:

P{B} = ΣP{Ai}P{B|Ai};    P{Ai|B} = P{Ai}P{B|Ai}/ΣP{Ai}P{B|Ai}.

讓前面定義之條件機率 P{F|E} 的事件 F 遍歷所有事件,則條件機率 P{.|E} 類似 P{.} , 都是以「事件集群」為定義域,函數值介於 0 與 1 之間(含 0, 1)的集合函數,稱為給定 E 之條件機率分布,就像我們稱呼 P{.} 是 S (或 S 上的事件集群)上的機率分布一般。當然,此時 F 不一定要遍歷 S 上的所有事件,只需考慮與 E 有交集的事件及空集合(空事件)即可,甚至有時候我們只考慮 S 上原來可以考慮的所有事件的集群(一個 σ-體)的一個子集群(子 σ-體),例如一個隨機變數 X 相關,或說 X 所產生的 σ-體。此時可以計算 X 在此條件分布下的「條件期望值」:

E[X|E] = ∫_S X dP{.|E} = ∫_E X dP{.|E}

樣本空間 S 如果被分割成多個兩兩互斥的部分 A1, A2, ..., 則由全機率定理可得無條件期望值利用條件期望值計算的公式:

E[X] = Σ P{Ai} E[X|Ai]

此關係式常用於一些不易直接套用 X 之機率分布計算 E[X] 的情形,例如連續擲銅板直至連續出現兩個正面(或其他 pattern)為止,問所需投擲次數的期望值。如果 X 就是這問題所需投擲次數,因沒有現成的 X 的分布,可以用條件期望值來計算:A 和 A' 分別代表第一次投擲結果是正面或反面,B 和 B' 則是第二次投擲結果,於是:

E[X] = p E[X|A] + (1-p)E[X|A'] = p E[X|A] + (1-p)(1+E[X])
E[X|A] = p.2 + (1-p)E[X|A∩B'] = 2p + (1-p)(2+E[X])

其中 p 是投擲一次出現正面的機率,如果是所謂公正銅板則 p = 1/2。上面的方程式解出 E[X] = (1+p)/p^2, 在 p = 1/2 時得 E[X] = 6。

如果給定做為條件的事件 E 機率為 0, 依前面的定義我們說條件機率不可定義,同時條件期望值也沒有定義。然而,事實上我們很需要機率值為 0 的事件做為給定條件時的條件機率和條件期望值。例如若 Z 是一個連續型隨機變數,則所有 [Z=z] 形式的事件機率都是 0, 但我們又很希望能定義計算條件機率 P[X in F | Z=z] 與條件期望值 E[X | Z=z]。用初級方法,我們可以考慮

P[X in F | z -h < Z ≦ z+h],   E[X | z -h < Z ≦ z+h]

取 h → 0 的極限,最後應該會得到

P[X in F | z -h < Z ≦ z+h] = ∫_F f(x,z) dx/g(z)
E[X | z -h < Z ≦ z+h] = ∫_R x f(x,z) dx/g(z)

形式的算式, 其中 f 是 X, Z 的聯合 p.d.f. 而 g 是 Z 的邊際 p.d.f.。於是我們發現給定 Z = z, 可以把 X 的條件 p.d.f. 定義為 f(x|z) = f(x,z)/g(z),然後條件機率、條件期望值直接依普通機率、期望值算法計算即可。如果 X 是離散型,f 就是對 x 而言是機率質量而對 z 而言是密度的多變量混合型密度函數,對 x 的積分就改為加總,而條件 p.d.f. 此時是 p.m.f.。

雖然定義了給定 [Z=z] 條件之後的條件機率,但是,若 P[Z=z] = 0,雖然依其表面意義可以解釋說是在給定 Z=z 之下的條件機率,但嚴格來說是有問題的,可能有兩個隨機變數,各在其一點,明確地說在某個 z 值,事件 [Z=z] 和在某個 W 事件 [W=w] 是相同的,這個「相同」指的是它們回溯到樣本空間是同一個子集,數學式是 Z^{-1}(z) = W^{-1}(w)。既然是同一個子集,給定它之後計算其他事件的條件機率理應相同,但其實不然,曾在一本統計或機率教本上作者就舉了個反例。我沒記住這反例,一時也沒法另舉反例,但須知:這並不是很特殊很極端情形才會碰上,而是在 [Z=z] 具機率 0 時它並不能單純地以給定一事件的條件機率問題來看待。所以當我們計算 P{B|Z=z} 時,給定的條件就是「當 Z=z 時」,而不是 [Z=z] 這個事件。也就是說,當我們考慮 Z= z 這條件下的條件機率時,考慮的其實不只是 Z = z 這個特殊情形,而是整個 Z = z, 不同 z 的情況。

隨機變數其實可看成是對樣本空間的一個分割。其實數學上任何函數都是對定義域的一個分割。前面丟銅板的例子就是有隨機變數 Z, W 把樣本空間分成三部分:

E[X] = p E[X|Z=1] +(1-p)E[X|Z=0] 
     = p[p E[X|Z=1,W=1]+(1-p)E[X|Z=1,W=0]]+ (1-p){1+E[X])
     = p^2.2 + p(1-p)(2+E[X]) + (1-p)(1+E[X])
     = 1+p + (1-p^2)E[X]

全機率定理的 Ai 也可以對應到一個隨機變數 Z 把 Ai 映至 z_i。所以全機率定理就是

P{B} = Σ P[Z=z_i] P{B|Z=z_i}

通常我們用

P{B} = E[P{B|Z}]

表示,符號 P{B|Z} 被解釋為:給定 Z 時 B 的條件期望值。這「給定 Z」是什麼意思?如果依以上思路看下來,粗略地我們可以把它看成是:所有條件 Z=z_i 的總稱,意思就是我們考慮了 Z 的所有可能個別值,而不是只考慮單一特定的 Z=z_i。同樣地,條件期望值恆等式成為

E[X] = E[ E[X|Z] ]

在高級課程中,P{B|Z=z], E[X|Z=z], P{B|Z}, E[X|Z] 等概念並不像前面那樣定義。首先,一個隨機變數產生一個 σ-體,是原本機率空間 (S,Ω,P) 的 σ-體 Ω 的一個子 σ-體,而 P{B|Z}, E[X|Z} 都被定義為隨機變數,它們產生的 σ-體比 Z 產生的小或相同,也就是它們是 Z 的可測函數。具體的定義是:

    For all E in σ(Z), 
        P{B|Z} is Z-measurable such that ∫_E P{B|Z} dP = ∫_{E∩B} dP = P{E∩B}
        E{X|Z} is Z-measurable such that ∫_E E[X|Z] dP = ∫_E X dP

記得  P{B|Z}, E[X|Z} 都是隨機變數,值域在 R* 上,上面 Z-measurable 或 σ(Z) measurable 的意思是它們的每一個 R* 上可測集的前象都落在 σ(X) 中。而條件機率定義式要求 P{B|X} 在每一個 Z-可測集也就是 σ(Z) 的元素上積分都等於該可測集與 B 交集的機率。如果 Z 是離散的,它把 S 分割成 A1, A2, ..., 而在每一 ω in Ai 都指定 P{B|Z) 的值為 P{B|Ai} (事件之條件機率定義) 將滿足上列定義中的所有等式。類似地,當 ω 在 Ai 中時把 E[X|Z](ω) 指定為 E[X|Ai] (給定一非機率 0 事件之條件期望值定義),也將滿足上列條件期望值定義之所有等式。測度論中有一定理保證上列定義中 P{B|Z} 與 E[X|Z] 的存在性,而且 unique up to a null set,意思是除了一個機率 0 的事件之外,所有符合同樣那些條件的條件機率或條件期望值都是一樣的。至於在那機率 0 上定義的不唯一,被認為無關緊要。對條件期望值 E[X|Z] 而言,需要 E[X] 存在才有意義(也才有定義)。

給定 Z=z 的條件機率 P{B|Z=z} 和條件期望值 E[X|Z=z] 是定義在實數集上的可測函數,類似上面的定義(不確定有沒有錯,目前手上兩本書都查不到,但我以前確實學過),

    For all mesurable (Borel) set E, 
        P{B|Z=z} is measurable such that ∫_E P{B|Z=z} dPz =  P{[Z in E]∩B}
        E{X|Z=z} is measurable such that ∫_E E[X|Z=z] dPz = ∫_{Z^{-1}(E)} X dP

事實上「所有 Borel 集」可以縮減為所有這類區間: (-∞,b] , b in R*,因為這類區間產生所有 Borel 集。

我們先看 P{B|Z=z} 的定義,其中  P{[Z in E]∩B} 依 P(B|Z) 的定義等於 ∫_[Z in E] P(B|Z) dP,  而 P(B|Z) 是 Z-measurable 函數,所以存在一個 Boref function ψ 使得 P(B|Z) = ψ(Z),  或 P(B|Z) = ψ。Z,  此處符號 "。" 是函數合成。因為 [Z in E] 是 Z-measurable 集, 可以把它們轉到 Z 的值域的機率空間 (R*,β,Pz), 此處 β 暫代表 R* 上的可測集,

P{[Z in E]∩B} = ∫_[Z in E] ψ。Z dP  = ∫_E ψ(z) dPz

可見 P{B|Z=z} 和 P(B|Z) 的形式差別就是 z 與 Z 之差,不過前者是 R* 到 R* 的 Borel (可測) 函數,而後者是 S 到 R* 的可測函數,它們之間是一個函數合成的關係:

P{B|Z} = P{B|Z=z}。Z

條件期望值也一樣,

∫_{z^{-1}(E)} X dP = ∫_{z^{-1}(E)} E[X|Z] dP = ∫_E E[X|Z=z] dPz 

把 E[X|Z] = ψ(Z) 的 Z 換成 z 就是 E[X|Z=z] = ψ(z),或把 E[X|Z=z] 的 z 換成 Z 就是 E[X|Z],或正式些,E[X|Z] =E[X|Z=z]。Z 就是給定 Z 時 X 的條件期望值。

我們看條件機率定義中 ∫_E P{B|Z} dP = P{E∩B} 和條件期望值定義中 ∫_E E[X|Z] dP = ∫_E X dP,當 E = S 時就是在初級方法被當作定理的所謂全機率定理、條件期望值恆等式,現在分別只是條件機率與條件期望值定義之一。

另外,P{B|Z=z} 與 E[X|Z=z] 都是 unique up to a null set, 意思是它們其實都不是唯一的,滿足定義的條件機率或條件期望值是一個 class,其成員間只差一個零(測)集。但是如何的一個零集?從定義式來看,P{B|Z=z} 與 E[X|Z=z] 都是以對 Pz 積分滿足一堆等式來定義的,所以這零集可以由 Z 之值域 (R*) 上的零集來定義;類似地,P{B|Z} 和 E[X|Z] 是 σ(Z)-可測的零集。前面談到事件 [Z=z] 有機率 0 時,給定 Z = z 的條件機率與條件期望值,不可視同給定一個具有正機率的事件的條件機率與條件期望值,於此應該也清楚了,對連續型的 Z 而言,單點機率是 0, 因此給定單點 Z = z 的條件機率與條件期望值並不唯一定義。而同時考慮所有可能的 z 值,才能「幾乎確定 (almost surely)」唯一決定出一個條件機率或條件期望值。而初級方法所決定的,正是一個合理而有意義的結果。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()