期望值: 初級與高級課程的不同－劉應興的部落格

期望值, mathematical expectation, 一個概念還分什麼初級高級？高級是怎麼一回事？真的比較「高級」嗎？

其實初級和高級沒什麼高低之分，只是數學方法的不同而已。什麼是初級？就是在大學以下課程中談機率、談統計，用到的數學工具不過是代數運算、普通微積分。什麼是高級課程方法，不過是把機率當做一種測度 (measure)，以測度論為工具的討論方法而已。若硬要說有高低之分，不過是測度論或所謂高等機率論或正式的機率論，通常是大學高年級選修或研究所才有的課程；而初高級統計、機率概論等課程則是大學低年級，統計或其他專業必修或選修課程。初級課程的方法不能說有什麼錯或不嚴謹，只是有些情況受限於數學工具可能難以完整考慮而已。例如在初級課程，考慮隨機變數及其機率分布時，必然要分連續型、離散型。然而隨機變數及其分布不只限於這兩型，至少還有混合型。而高機的方法可以不管連續離散之分，可以含蓋所有類型，也可以更嚴謹地處理所有問題。但是，不管初級或高級方法，本質上是一樣的。

首先，我們有一個實驗所有可能結果的集合，稱為樣本空間，在這樣本空間中我們把它的子集稱為事件，這些事件上可以指定一個 0-1 之間的值稱之為機率。在這（樣本空間、機率）的整體架構上另外可以定義實數值函數把每個樣本點映至一個實數，這就是隨機變數。初級課程談機率、隨機變數大概就是這樣，當然一般還加上機率的三個條件：

(1) 機率是非負的。
(2) 樣本空間機率是 P(S) = 1.
(3) E, F 互斥則 P(E∪F) = P(E) + P(F)

或把 (3) 加強成為 (3')：

(3') E1,...,En,... 兩兩互斥, 則 P(∪En) = ΣP(En)

條件 (3) 是有限相加性；除非在有限樣本空間（S 僅有限個相異點），否則我們實際上需要 (3'), 稱「可數相加性」、σ-相加性 (σ-additivity) 或直接稱相加性或可加性。而對隨機變數，也只說是把 S 映至 R 的函數。

在高機中，事件 (event) 就不只是「樣本空間的子集」這樣簡單的定義，因為如果 S 不是一個可數集 (countable set), 也就是說沒辦法把 S 的點和自然數集 {0, 1, 2, ...} 做一對一對應，那麼想對 S 的所有子集指定機率，將無法完全符合前述機率的三個條件。也就是說：我們不能考慮 S 的所有子集，只能考慮 S 的一些子集，而這些子集（所形成的集體, collection ）滿足：

(1) 空集合是此集體（暫以Ω表示之）的元素之一；
(2) 若 E in Ω，則其餘集（補集） E' in Ω；
(3) 若 E1,...,En,... in Ω, 則 ∪En in Ω。

稱 S 中滿足這樣條件的的一個子集集體 Ω 為 S 的一個 σ-體（或 σ-域, σ-場, σ-代數， σ-field or σ-algebra）。當然 S 的冪集，也就是 S 所有子集所成的集體是一個 σ-體；而 {φ, S} 則是一個最小的，也是沒有用的 σ-體。前面說到 S 不可數時考慮 S 的冪集會有問題，因此在高機課程前部分就有不少編幅考慮如何建構可用的 σ-體、如何在 S（的適用 σ-體）上建構機率函數。

而隨機變數在高機上的定義也不是一個「定義在 S 上的實數值函數」就沒事了，這定義好像和機率函數（或機率分布）P 全不相干，事實上卻不然，在高機中隨機變數是

定義在 S 映至 R* 的可測 (measurable) 幾乎確定有限值 (finite valued, almost surely) 函數 X 。

有點拗口的定義，什麼意思呢？在 R* = R∪{-∞,+∞} 上我們也定義了一個適用的 σ-體（Ｂorel field），其元素稱為在 R* 上的可測集 (measurable set，Borel set)。 X 可測的意思是： R* 上的任一可測集 B 其前像 (preimage) X^(-1)(B) 也是可測的。為什麼需要？因為如此 Px(B) ≡ P( X^(-1)(B)) 才有定義。而「幾乎確定有限值」又是怎麼一回事呢？在初級課程我們常說隨機變數是有限值，但實際上我們在定義隨機變數時是有必要定義無限值的，所以 X 的值域放在 R* 而不是 R，例如逐次檢定 ( sequential test ) 「進行檢定次數」這個隨機變數的完整數學定義必須考慮無限次檢定，也就是允許 +∞ 這個值的存在。但是如果 X 是隨機變數，必須 P[|X|<∞] = 1, 即 X 有限的機率是 1，這就是幾乎確定有限。Almost surely 也有作者用 almost certainly, 前者簡寫 a.s., 後者簡寫 a.c.

初級課程說到隨機變數，往往把原始樣本空間拋諸腦後了，因此談機率只要在 X 的值域範圍內談就好了，期望值也是。本來嘛，用隨機變數不就是一則簡化隨機實驗結果的描述，再則聚焦於我們關心的事項嗎？何必念念不忘原來的樣本空間原來的實驗結果？就像丟擲銅板 10 次而隨機變數是正面次數，那就考慮這個出現幾次正面的結果就好了，沒必要再回去看究竟哪幾次出現正面的。因此，期望值就是

E[X] = Σ_x( x P[X=x]) 或 ∫_R x f(x) dx

依離散型或連續型而決定該採加總或積分，而積分採黎曼定積分或瑕積分，完全沒問題！即使碰到混合型的： F(x) = α Fd(x) + (1-α) Fc(x) 也沒問題，由 Fd 和 Fc 分別得出屬於離散部分的 p.m.f. p(x) 和屬於連續部分的連續型 p.d.f. f(x), 則

E[X] = α Σ_x (x p(x)) +(1-α)∫_R (x f(x)) dx

而在高級課程，期望值或積分有什麼不同呢？事實上以絕對連續或初級課程所謂連續型，有 p.d.f. 的情形來說，形式上看來似乎沒什麼不同：

E[X] = ∫_R x f(x) dx

不過其實積分的定義方式不大一樣，後者是 Lebesgue 積分，形式上它和 Riemann 積分都是計算被積分函數（此處為 x f(x)）曲線下面積，但黎曼積分是 x 軸上做分割，並在各子區間取點計算高度，因此被積分函數要足夠平滑才不致因取點方式不同以致黎曼和相差太多。而勒貝格積分則是在 y 軸做分割，也就是對被積分函數值做分段處理，而每一段的 x 範圍就是使被積分函數值在那一段的 x，所以即使改變被積分函數的值，只要改值所涉及的 x 範圍是機率 0，結果不變。當然這也和完全的 y 軸方向分割不同，它其實是由 y 軸分割引伸出 x 軸範圍的分割，仍是縱長條面積加總取極限的方式，而不是分割成橫長條計算面積加總再取極限，不過效果其實一樣。

高機中 X 的期望值不只上述用 p.d.f. 表現的積分式，事實上還有以下形式：

E[X] = ∫_S X dP = ∫_R x dPx = ∫_R x dF(x) = ∫_R x f(x) μ{dx}

第一式是在原始的樣本空間對原始的機率分布做積分的。由於積分在測度論的定義是對被積分函數值做分割，而 X 是「實數值」因此不管原來的樣本空間長什麼樣子都不影響工作進行。第二式是轉到 X （值域）的樣本空間對 X 的機率分布 Px 積分，這就像 Y = h(X) 時，E[Y] 可以 y 對 Py 積分，也可以 h(x) 對 Px 積分。第三式以分布函數 F(x) 代替 Px，是因 F(x) 決定了 Px，反之亦然。而被積分函數是 x，對 y 軸分割也是對 x 軸分割。此式其實是 Stieltjes 積分，在機率論期望值公式中也稱之為 Lebesgue-Stieltjes 積分。第四式其實是數線上 Lebesgue 積分的正式寫法，先前的 ∫_R x f(x) dx 並非 Lebesgue 積分的正式寫法。此處 μ 稱「主控測度 (dominating measure)」，使 Px 對 μ 有 p.d.f. f(x)。如果 μ 是數線上的 Lebesgue 測度，Ｘ是絕對連續型，也就是初級課程所稱的連續型；如果 μ 是 counting measure，也就是 S 的每一點都有測度 1，則 f(x) 就是初級課程的 p.m.f.。對於混合型，則 μ 可取 Lebesgue 測度和計數測度的和。實際計算我們可能採用最後一式，用黎曼積分或／和加總為計算手段；於證明中則最常採用的可能是第一式，不必區分連續型離散型，也不會遺漏混合型。