前曾談過樣本空間與隨機變數,但那是比較偏數學嚴謹性的說法。數學的嚴謹性重要嗎?很重要,因為有時候僅憑直觀或疏於嚴謹論證,可能導致嚴重的問題。但是,我們真的必要那麼嚴謹嗎?這又不然!特別對於初學者,重點是概念的理解;對於應用層面,重點在結果的應用。因此,在入門、初學的教科書,不會太強調嚴謹性,而在於如何讓學習者了解作者想要傳達的概念;在應用類書籍,則重點在給予明確的應用指引,包括所談方法的適用條件。本文試圖以儘量淺顯的方式重新談一談機率學中的幾個概念。
首先是「隨機實驗」。什麼是隨機實驗?數學上是不可能給予嚴謹定義的,而白話來說,隨機實驗是一種可以重複,每次重複實驗結果可能都不同,但沒辦法事先有所預期,也就是實驗結果有不確定性。不過,所謂不確定性其實也有一些不同類別,例如完全混亂沒有任何方式找到其規律性的,這種現象。又如 chaos, 中譯「混沌」,混沌其實是一種非線性系統,若只看此系統部分表現,常無法看出其規律性,但它卻是有一套規律。而我們所謂隨機實驗,其結果有點像完全混亂的現象,例如丟一個銅板(硬幣),擲一枚骰子,從撲克中抽一張牌,在這裡我們假設丟銅板、擲骰子時沒有什麼特殊技巧,抽牌時一副正常撲克牌被「充分洗過」,於是我們不能預測結果,每次重新實驗都是相同狀態:我們無任何辦法知道結果會是什麼。如果只是到目前為止所描述的,那麼它和前面說的「完全混亂」也就沒差別了。那麼隨機實驗的特色是什麼?是做了很多次重複的實驗以後,計算每一種可能結果,或某些結果整體出現的相對頻率,也就是出現該(些)結果的次數和實驗總次數的比,會傾向於穩定。這「傾向於穩定」的現象,又有點像混沌,但隨機實驗和混沌是有很大差別的,隨機實驗的結果依實驗順序排列的話是完全無序的,而混沌前面說過其實是有一套非線性系統。很多時候我們想模擬隨機現象,就會藉助一個所謂「亂數產生器」,更正式的稱呼是「擬隨機數產生器 (pseudo random number generator, PRNG)」,其實那就是一個混沌系統,其產生的數字或數值是有一定週期的,如果產生的亂數或擬隨機數太多,可能會發現其實產生的結果開始重複、循環,只不過一個好的 PRNG 週期很長,使得實務應用上不會超過一個週期,或者即使超過了甚至循環數次了,應用者也很難發現。簡而言之,隨機實驗是
- 實驗前無法預知實驗結果;
- 如果實驗被重複做很多次,無數次, 將發現個別結果或一些結果整體出現的相對頻率趨於穩定。
所謂「一個」隨機實驗是指什麼?它可以是擲一粒骰子一次,可以是擲 3 粒骰子 10 次,也可以把擲骰子的動作無止境地做下去。它也可以是一般可能不被認為是隨機實驗的物理實驗,也有實驗誤差及誤差不能確定的問題。
談隨機實驗,其實應該先了解「隨機」。「隨機實驗」一詞所以無法有嚴謹的數學定義,就是因為「隨機」兩字無法明確定義。一年多以前在這裡曾談過隨機很重要,不過該文談的是抽樣要採隨機抽樣。實際上抽樣講的隨機和實驗過程的隨機化是比較具體的,但卻是先有機率的概念或先了解隨機實驗中的隨機的意義才能操作。本文裡談的隨機就是指「隨機實驗」中的隨機,也就是一個實驗被稱為隨機實驗的由來。所以隨機在這裡指的就是一個實驗的結果,或一個現象之所以被冠以「隨機」一語,就是它會造成實驗結果事先完全無法精確預知,但如果這實驗能重複,在做了大數量的重複之後,在相對頻率方面卻能趨於穩定。由於「隨機」的不可預測性及各可能結果出現之相對頻率的穩定性,所以有了機會、機率的概念。
古典機率從「隨機」一詞體會到如簡單隨機抽樣那種「公平」的寓意,因此考慮各可能結果的「機會均等」法則,用以決定機率。這種想法最早可追溯到 16 世紀 Gerolamo Cardano 對機會性遊戲的研究;其後 17 世紀 Pierre de Fermat and Blaise Pascal 兩人之間對骰子遊戲的問題做了很多討論;而機會均等法則的機率定義則是 19 世紀 Pierre Laplace 才完成。Laplace 有一個有名的「連續律 (Laplace law (或 rule) of succession)」說如果一個結果有可能發生也可能不發生,在過去 n 次的試驗(觀察)中有 r 次該結果發生了,那麼下一次試驗該結果發生的機率是 (r+1)/(n+2);例如已經看了 n 日太陽都升起來,那麼明天太陽還升起來的機率是 (n+1)/(n+2)。連續律其實是機率學中貝氏定理的一個例子,這裡不多談。但不一定每種現象每種實驗結果都適合採用機會均等法則,例如特擊實驗的著彈點,例如工業製品規格與實務的差距,例如物理化學等實驗一些測定值的分布狀況。有些時候我們也會迷茫於機會均等法則的適用標的。例如擲 3 粒骰子結果不同點數組合,或不同點數和,這些都不能以「機會均等」來處理,於是在古典機率中產生一個問題:什麼叫一個隨機實驗的「可能結果」? 如何界定可能結果的意義才能適用機會均等法則?
機會均等法則即使適用,也只限於可能結果數量有限的問題,或某些能以長度、面積、體積等度量的所謂幾何機率問題。John Venn 和 Richard von Mises 則提出相對頻率或所謂「統計機率」, 認為機率的大小是經過幾千次、幾萬次甚至更多次重複實驗而得知的,如果 n 次獨立的、重複的實驗中,某結果出現 f(n) 次,那麼相對頻率或相對次數 f(n)/n 就是該結果機率的近似值。由於隨機實驗結果是不可預知的,因此 f(n)/n 沒有定值,或者說它的值本身就是隨機的。但是,當 n → ∞ 時,f(n)/n 會趨於穩定,有一個極限值。另外有「主觀機率」的機率值定義,這是個人主觀對某種結果出現的機會大小的主覲預期,例如買彩劵、賭博或賭博式投資,雖然有從「風險愛好者」的觀點、「(期望)效用」的觀點試圖去分析,但或許不如說這些行為的愛好者對「自己能贏」的主觀機率偏高。
不論古典機率、相對頻率,主觀機率,都可認為是在決定機率值大小的方法,而 Andrey Nikolaevich Kolmogorov (1933) 發表 "Foundations of the Theory of Probability" 則不管機率該如何決定的問題,而是從「測度理論 (measure theory)」的觀點,建立機率論的架構,也就是現代機率論的架構。講到這裡,不免有人要問:那麼要學(懂)機率,是不是還要先學(懂)測度?我的看法是:完全沒必要。不需要懂測度論,就可以對機率做相當深入的學習;如果很需要嚴謹完整的思考,才需要考慮測度論基礎的機率論,但也不必先學測度論,一般稱「機率論 (probability theory)」的書籍(教科書),都有完整的敘述。
前面我們的敘述,從隨機實驗開始。那麼要談機率的架構,我們也必須從「隨機實驗」、「(實驗)結果」和所謂「一些結果」開始。隨機實驗在 Kolmogorov 的界定是 "there is assumed a complex of conditions, which allows any number of repetitions." 就如先前我們說的,假設隨機實驗是可以重複的。當然在數學架構上我們不管隨機實驗是怎麼回事,只建基於一個樣本空間 (sample space) 及樣本點 (sample points),以及從其中引出的事件 (event) 的概念。從隨機實驗出發,每一種可能出現的實驗結果就是樣本點 ω,該隨機實驗所有可能結果的集合就是樣本空間:
樣本空間 S = { ω : ω 是(某)隨機實驗結果的一種可能}
數學上 S 就是一個我們目前關注的宇集 (universal set),樣本點只是宇集的一個元素 (element)。這裡從數學、測度論上來講宇集是相對的,只是我們目前關心的一個集合,不是集合論中那包山包海包一切的不可能存在的宇集。從隨機實驗來說就是實驗可能結果 ω 的整體。「可能結果」相互是完全不同的,例如丟銅板的結果不是正面就是反面(要事先確定哪一面是正面哪一面是反面),不能既是正面又是反面。宇集要包含實驗的所有可能結果,還以丟一個銅板為例,如果有可能最後銅板是立起來的,非正非反,那麼 S 就應包括這種情形。
如果想應用機會均等法則,樣本空間裡就只能有有限個樣本點,而且每個樣本點的可能性是無差別的,如前面丟銅板的例子那樣銅板立起來的可能性不能存在,因為不大可能有一種環境,一種丟法,使「正面」、「反面」和「立起來」有相等可能。又如「卜杯」,有「笑杯」、「氣杯」和「聖杯」,如果做個實驗,重複 1000 次,當會發現聖杯相對頻率不會和另兩種一樣;如果像現在很多人以兩個硬幣取代制式的笅杯,將會發現聖杯寸的相對頻率接近 1/2,這就是說:在「卜一次杯」這樣的隨機實驗,樣本空間如果是 {聖, 笑, 氣} 三元素,機會均等法則並不適用。所以在「丟兩枚銅板」、「擲三粒骰子」這類的隨機實驗,都要假設兩枚銅板或三粒骰子之間是可區別的,所以如丟銅板之例,樣本空間就可以寫成
S = {(正, 正), (正 反), (反, 正), (反, 反)}
而擲骰子三粒的樣本空間則有 6^3 = 216 個樣本點,也就是 216 種可能的結果。
如果樣本空間是可數的,不管有限或無限,都可以像有限樣本空間時引用機會均等法則定下各樣本點的機率;當然如果樣本空間是無限的,但可以一一列舉,這就是所謂可數(或:可列舉)無限。例如一本書裡面大大小小的錯誤數,我們無法說其錯誤數最多有幾個,所以把一本書的錯誤數當成隨機實驗的可能結果,
S = {0, 1, 2, . . .} = {n: n in N∪{0}}
這是一個無限的集合,理論上我們不能,道理上也不應假設機會均等法則可以適用。在現代的機率架構下,並不實際指定「機率是多少」,因此我們倒不必現在就煩惱機率是多少的問題,只要知道:這種情況仍可以對各樣本點賦予機率值。但是,如果 S 中的樣本點是不可數的,例如
S = {ω in R: 0 ≦ ω ≦ 1}
這樣的 S 其中所含的不同 ω 點是無法一一列舉清楚的,其證明網路上很容易查到。因此,在機率論上我們賦予機率的對象不是樣本點,而是所謂「事件 (event)」, 就是前面說「某些結果整體」的意思,就是樣本空間的子集;而單一結果,也就是樣本點,仍可賦予機率,但不是直接把機率賦予樣本點,而是賦予由單一樣本點所形成的事件 {ω}。所以我們現在知道在一個機率的體系中,有
S╭───────────╮ 機率 P{A}
→│ 可能結果(樣本點) ω_1│ ↓
∣ │ 可能結果(樣本點) ω_2│→ 事件A = {ω_2,ω_5,...}
隨機實驗 ———→│ 可能結果(樣本點) ω_3│
∣ │ … │
→│ 可能結果(樣本點) ω_n│→ 事件B = {ω_1,ω_2,...}
│ … │ ↑
╰───────────╯ 機率 P{B}
以上圖示表現了一個隨機實驗有一些事先可知但無法預期何者會出現的可能結果,也叫樣本點 ω_t, t in T;所有的可能結果構成了樣本空間 S,S 就是該隨機實驗所有可能結果構成的集合。我們會把樣本空間的一些子集,但可能不是全部子集,稱為事件,而一個機率分布就是對每一個事件賦予一個數值,稱為機率。所以「機率」可以說是以樣本空間一些子集 A, B,... 所形成的集合 F 為定義域,映至實數集的一個函數。在機率論中,一般對一個樣本空間 S 及一個事件族 F 我們只考慮一個機率分布,而且在大部分情況我們只考慮一個隨機實驗或樣本空間,所以總是以 P 為這個機率分布或機率函數的名稱。而 (S, F, P) 三元組,稱為一個機率空間。在此機率空間,樣本空間 S 是最底層的基礎;事件族 F 是 S 的一些子集所形成的集合,也就是說 F 的元素都是 S 的子集;機率 P 是定義在 F 的實數值函數,並不是定義在 S 的函數。
在 Kolmogorov 的架構中,一個機率(函數)或機率分布或機率測度 P 必須滿足下列公設:
(1) 機率是非負的,即對任意事件 A,P{A} ≧ 0;
(2) 樣本空間 S 稱必然事件,P{S} = 1;
(3) 若 A_n, n = 1, 2, . . . 是兩兩互斥的事件,則 P{∪_n} = Σ_n P{A_n}。
第三個公設稱為「可數的可加性 (contable additivity) 或稱 σ-可加。修飾符號 "σ" 用於機率論或測度論常和「可數個」有關。如果公設 (3) 改成有限個相互互斥事件,相當於縮減到僅 A, B 兩事件互斥,則該公設變成「有限的可加性 (finite additivity)。也有些機率架構只要求有限的可加性,但那樣會造成不便,或者需要加上其他公設才能使整個架構完整,不過這些不是本文討論範圍。
如果樣本空間是可數的,我們能夠而且總是把 S 的所有子集都當做事件;但如果 S 不可數,要把其所有子集都當做事件可能會有困難。例如 S = [0, 1] 而 S 的一個子區間 [a,b] 的機率定義為 b-a,我們可以建構一些 S 的子集證明如果把這些子集當做事件將產生矛盾的結果,這也就是說這些子集不能當做事件而賦予機率,也等於證明了樣本空間有不可數(無限多)元素時,我們不能把 S 的任一子集都當做事件。所以我們前面說「樣本空間的一些子集」構成事件族 F 而不是說 S 的所有子集構成 F。但 F 也不是任意抓一些 S 的「無害」的子集就能構成的,而是必須形成一個特殊結構,或說 F 需要滿足一些條件。那麼,所謂「事件族」是怎樣的結構或說 F 要滿足什麼條件?要求「事件族」F 需要滿足一些條件,形成一個架構,這是嚴謹的機率論,或所謂立基於測度論的機率論所需要的,在初學機率通常不管,因為實務上其實不需要考慮那麼嚴謹。實務問題考慮的事件可能都是很簡單的,不大會碰到前述不能設為事件的怪異集合。而數學上卻必須承認存在有不能當事件的集合,也必須讓事件族 F 形成某種架構才能使機率的討論無礙。
首先,機率公設規定樣本空間必須賦予 1 的機率,這就是說 S 必須是一個事件,即 S in F,所以 F 非空。設 A 是一個事件,若隨機實驗結果 ω in A 則稱事件 A 發生,否則稱 A 不發生。但 ω not in A 表示 ω 落入
A' = {ω in S: ω not in A}
既然 A 是事件,那麼 A' 也應該是事件。再者,當 A, B 都是事件,我們也對 ω in A∩B, A∪B 有興趣,所以不只由機率公設 (3) 若 A_n, n = 1, 2, ... 是兩兩互斥事件時 ∪A_n 必須是事件,當諸 A_n 非兩兩互斥時,∪A_n 也應是個事件。總結來說,事件族 F 必須滿足條件:
(1) 空集合 φ 屬於 F (或:S 屬於 F);
(2) 若 A 屬於 F,則 A' 也屬於 F;
(3) 若 A_n, n = 1, 2, … 都屬於 F,則其聯集 ∪A_n 亦屬於 F。
這樣的 F 就被稱為 σ-field,中譯 σ-體或 σ-場,或稱 σ-代數 (σ-algebra)。如果上列條件 (3) 只有有限個 A_n,可以縮減為 A, B in F 蘊涵 A∪B in F,則 F 只是 field 而不是 σ-field。這就是嚴謹數學所重視的:S 的一個事件族必須滿足條件,符合一個 σ-體的要求。但這個條件符合並不表示它是一個適用的事件族,因為 {φ, S} 就是一個 σ-體,算是立基於樣本空間 S 的最小 σ-體,這樣的 σ-體是全然無用的。另外一個 σ-體的例子是 S 的冪集 (power set),S 的所有子集形成的集合,以 2^S 表示,2^S = {A: A 包含於 S}。這樣的 σ-體,如前所述,當 S 有不可數元素時也是不適用的,因為其中有些 S 的子集無法設定機率,否則會造成矛盾結果。所以在機率論(或測度論)上,是先指定一些必要的、基礎的子集,要求它們必須在 F 內。例如如果 S = [0,1] 或 S = R,通常會要求 F 中包含所有區間或所有 (a, b] 形的半開區間。那麼一個「適用」的 σ-體怎麼構造呢?直觀地我們會想由上列 σ-體三條件建立:如果 F0 是上述必要的、基礎的 S 的子集,其中包含 φ 和 S,把 F0 中各元素(皆為 S 的子集)的補集,把 F0 中可數個元素的聯集都加入,變成 F1 = F0*。同樣的程序用在 F1 上構建 F2 = F1*,以此類推。例如
F0 = {φ, S, A, B}
F1 = {φ, S, A, B, A', B', A∪B}
F2 = {φ, S, A, B, A', B' A∪B, A∪B', A'∪B, A'∪B', A∩B}
F3 = {φ, S, A, B, A', B' A∪B, A∪B', A'∪B, A'∪B', A∩B, A'∩B, A∩B', A'∩B'}
F4 = {φ, S, A, B, A', B' A∪B, A∪B', A'∪B, A'∪B', A∩B, A'∩B, A∩B', A'∩B', (A∩B)∪(A'∩B'), (A'∩B)∪(A∩B')}
此例 F4* = F4, 能在有限步驟終止是因最初的 F0 除空事件 φ 和必然事件 S 外只有 A, B 兩個元素;但在一般情形,例如 F0 無限甚至不可數時,程序永無上境,並且可能不足以納入所有應納入的 S 的子集。實際上在測度論及機率論中,由 F0 建構一個適當的,最小的 σ-體的方法並不採上列建構程序,而是採歸範的方法:
設 F0 是 S 的一些子集所形成的集合族,則由 F0 所產生的事件族 F,記為 F = σ(F0) 是指包含 F0 的最小 σ-體。
給予 S 的任一子集合族 F0, 至少冪集 2^S 是包含 F0 的。定義
σ(F0) = ∩_{F0 包含於 σ-體 F*} F*
即:取所有包含 F0 的 σ-體之交集,稱之為「由 F0 產生的 σ-體 (σ-field generated by F0)」。由於 2^S 滿足上列 F* 條件,因此我們要取交集的集合族至少有一個;再者,S 上一些 σ-體的交集也是個 σ-體,這是很容易驗證的。這樣的定義法在數學中並不罕見,只是具體的我們卻不知 σ(F0) 是怎樣的構造,但就這樣也夠用了。這就像我們不知不懂測度論又如何?這並不妨礙我們去學習機率的基本知識,研究一些隨機現象的機率問題。
再次綜合一下上面談到的概念:一個隨機實驗可對應到一個集合 S,稱為樣本空間;其中的每一個元素 ω 是隨機實驗的可能結果,稱為樣本點。事件是 S 中的一些樣本點構成 S 的一個子集,有些子集是我們在考慮這個隨機實驗特性時所關心的,我們稱之為事件,並且賦予一個 0-1 之間的數值,稱為該事件的機率。把所有事件集合在一起,可稱為事件族,這事件族要滿足一些條件,形成一個 σ-體。這 σ-體或事件族上有一個函數,就是所謂 S 上的機率分布,實際上它是從事件族 F 到 [0, 1] 區間的函數,定義域 F 中每一個元素「點」就是 S 的一個子集。
上面的 Venn 圖顯示樣本空間和事件的關係,樣本點未畫出,但可以想像長方框代表的宇集或樣本空間 S,包括在內的幾個事件 A, B, ... 其中都有無數樣本點。這些事件有的相互有共同元素(相交),有的互斥(沒有共同元素。但這些事件不論它們相互相交或互斥,它們是 S 的不同子集,在 σ-體或事件族 F 中也只是一個元素,一個點。在 S 上的一個機率分布是由 F 映至 [0, 1] 的一個函數,就如普通函數一般,但因它是將一個事件映到一個機率值,而這些事件是 S 的子集,所以 F 中的元素彼此可能有些關伙,但這也就像兩個實數可以比大小,兩個以上複數可以有相同絕對值之類性質一般。函數 P 不是可以任意定義的,要滿足前面說的三個公設,這也就像一般實變數函數有連續、有界、可微、單調之類要求一般,不用覺得很怪異特殊。由三個公設,我們很容易可以推出機率函數所具體的更多性質,例如
P{A'} = 1 - P{A};P{A∪B} = P{A} + P{B} - P{A∩B}
之類的。
隨機實驗的結果可以是純數值的,可以是部分數值部分非數值的,可以是完全與數值無關的。有時候我們會覺得使用數值來表現實驗結果比較方便,因此有了把原始樣本空間映至實數線或 Euclidean 空間的想法;即使原本隨機實驗的結果是數值的,甚至不需要做函數轉換,也可以用一個恆等函數 (identity function) 來表示,於是有了「隨機變數」的概念。直觀地說:隨機變數可以說是隨機實驗結果的數值表現,也就是隨機實驗的結果用數值表現,因此我們看到的「變數」是隨機的結果,就像我們說「隨機現象」一樣,它不是確定的、機械性的,我們不能由實驗設計、過程的各種「因」正確推知「果」, 只能是隨機的。但是數學家更喜歡把東西定義明確,所以在數學家眼裡,「隨機變數」不是變數,而是函數:把隨機實驗結果映至實數或實向量之類空間的函數。更進一步地說:隨機變數其實是把原樣本空間的點映至另一個樣本空間,是兩個樣本空間之間的函數關係:
X: S → S*, ω :→ ω*
也可以說:就是把原樣本空間變個樣子,把原樣本點映至新樣本點,而在這樣的映射 (map) 關係中,也可能做了許多濃縮,把 S 中許多不同的 ω 映至 S* 中同一個 ω*。例如隨機實驗是丟十個銅板或丟一個銅板十次,S 中有 2^10 = 1024 個樣本點,每個樣本點代表十個銅板或十次丟擲結果的完整記錄,1024 個樣本點代表 1024 種可能結果。今天如果我們有興趣的是十次丟擲中出現幾次正面,這是一個隨機變數,把 1024 個樣本點映成 {0, 1, ..., 10} 共 11 個可能數值。就這個例子我們來看看把隨機變數看成是變數或看成是函數會發生什麼不同。如果 X 是一個隨機的「變數」,代表我們是用 {0, 1, ..., 10} 為這個隨機實驗的樣本空間,有 11 個樣本點,也就是 11 種可能的不同結果。顯然這時不好用機會均等法則,因此我們需要思考 P{X = x} 的機率應該怎麼設定才合理。如果是丟一個銅板 10 次的實驗,而我現在感興趣的是另一個「變數」Y,在 10 次丟銅板中正反面改變了幾次?樣本空間 {0, 1, ..., 9},同樣需要考慮 P{Y = y} 機率如何設定才適當。而把隨機變數當成函數呢?原始樣本空間 S 共 1024 個樣本點,X, Y 只是把 S 中的點如何映至 R 的不同,而
P[X = x] = P{ω in S: X(ω) = x}
同理 P[Y = y] = P{ω in S: Y(ω) = y}。甚至我們可以計算
P[X = x, Y = y] = P{ω in S: X(ω) = x, Y(ω) = y}
計算隨機「變數」相關機率的問題理論上很簡單,只是如何反推 S 中哪些樣本點符合 X, Y 結果條件而已,然後套用 S 上的機率分布 P 就是了。當然實務上的困難也常發生在如何確定反推回去對應的 S 上的事件。總之,
隨機變數不是單純的變數,它是定義在 S 上的實數值函數。
若要求嚴謹,隨機變數當然不只是「定義在 S 上的實數值函數」這麼簡單,因為我們必須確定機率的對應計算不會出問題。什麼叫不會出問題?除了原始機率空間 (S, F, P) 以外,我們現在有一個目標,隨機變數 X 的對應域 (codomain) S*,在 S* 上面有一個事件族是 σ-體 F*, 在 F* 上我們希望定義一個機率函數 P* 是由 (S, F, P) 而來的,其定義方式是:
P*{A*} = P[X in A*] = P{ω in S: X(ω) in A*}
集合 {ω in S: X(ω) in A*} 稱為在 X 下 A* 之前象 (preimage, 或譯:象原),假設是 A,那麼我們需要 A 是在 F 中,也就是有被 P 定義機率的。在測度論中,把 σ-體裡面的成員稱為可測的 (measurable),F 中的成員有時稱 F-可測;因為 F-可測集 A 都有 P{A} 的定義,所以也稱 P-可測。機率空間是一個樣本空間,一個 σ-體,和一個機率「測度」,若只有前兩者,配對 (S,F), (S*,F*) 等稱為可測空間。
從可測空間 (S, F) 到可測空間 (S*, F*),定義在 S 而以 S* 為對應域的函數 X 稱可測意指:若 A* 是 F*-可測,則其前象
X^{-1}(A*) = {ω in S: X(ω) in A*}
是 F-可測。
如前面說的,要使隨機變數,X,定義上不會產生機率無法計算的問題,則 X 必須是可測的。
在概念上,最根本的是:隨機變數是從一個樣本空間映至另一個樣本空間的函數,而通常「隨機變數」專指實數值的,也就是 X 的對應域是 R。但在數學上為了定義之完整性,隨機變數有時必須允許取值 ±∞,這兩個並非實數,但它們卻總在許多時候跑出來,機率或測度論中它們更不可或缺,例如許多測度並非像機率測度那樣 P{S} = 1 或限制 S 的測度為有限值。例如在數線上以長度為基礎的 μ((a, b]) = b - a;在平面上以面積為基礎的
μ( ( (a,b), (c,d)] ) = (c-a)(d-b)
等等 Lebesgue 測度,若 S 是無界區間或無界矩形區域等,例如整個數線 R 或整個平面 R^2,則 S 的 Lebesgue 測度值是 ∞。把 ±∞ 加入 R 並規定
設 x 是實數 (-∞ < x < +∞), p 是正實數 (0 < p < +∞), n 是負實數 (-∞ < n < 0), 則
±∞ + x = x + ±∞ = ±∞, x - +∞ = -∞, x - -∞ = +∞, x/±∞ = 0,
±∞ × p = p × ±∞ = ±∞, +∞ × n = n × +∞ = -∞, -∞ × n = n × -∞ = +∞,
+∞ + +∞ = +∞ - -∞ = +∞, -∞ + -∞ = -∞ - +∞ = -∞,
+∞ × +∞ = -∞ × -∞ = +∞, +∞ × -∞ = -∞ × +∞ = -∞
注意沒有 ±∞ - ±∞, ±∞ × 0, ±∞/±∞ 等運算(不過測度論及機率論在積分計算中會把 ±∞ × 0 定義為 0)。把 ±∞ 加入 R 並如上規定了 ±∞ 和實數間及彼此間的運算,稱之為「延伸實數系 (extended real number system)」或延伸實數線,以 R* 表示。雖然 X 要成為一個隨機變數,在數學定義上允許取值 ±∞,但其機率必須是 0。零機率的東西把它排除可說是沒有影響的,因此在非嚴謹定義上,直接說「實數值」可以認為是沒有 ±∞ 的可能;但追求完整、嚴謹的數學家,給予(實數值)隨機變數的定義式:
實數值隨機變數是從機率空間 (S, F, P) 到可測空間 (R*, B), 以 S 為定義域,R* 為對應域,滿足
P[X = ±∞] = 0
的可測函數。
在實數線上的區間,或整個數線 R,或 R* 有一個可測集合族的標準定義,那就是
B = σ(I ), I = {(a,b]: a, b in R}
由所有半開區間產生的 σ-體,特稱為 Borel-體 (Borel field)。不管如何,(實數值)隨機變數是從樣本空間到實數線的函數,初等課程這個說法只是去掉機率 0, 不影響大局,並有意忽略「可測」這個純粹數學性質的概念,但對隨機變數這個概念沒有太大影響,因為實務上我們不會刻意去弄出一個不可測函數。事實上如果定義了一個正常函數卻不可測,那很可能是在 S 所定義的事件族 F 太小了。所以實際上我們的 F 都很大,大到我們在 S 上定義無數個隨機變數 X, Y, Z, ...,結果都不會有問題,所以我們也知道:
S 中使函數 X 可測的最小 σ-體,以 σ(X) 表示,是 F 的子 σ-體。
非正式地說,σ(X) 中的元素(永遠記住:σ-體的元素是宇集或樣本空間的子集)可稱為:與 X 有關的事件。這「有關」不僅是有些關係,而是「由 X 決定」的事件。我們有這些認識,可以發現:在了解隨機變數的概念時,什麼可測性問題不是什麼大問題——除非刻意去構建,除非原機率空間的「事件族」太小,否則似乎不容易遇到「貌似合理可用卻不可測」導致不符合隨機變數定義的例子。取值 ±∞ 的問題在實務上確實很常見,例如丟一枚銅板——或者丟十枚好了——要求(全部)正面出現才終止實驗,以丟幾次為隨機變數 X 的值,那麼如果無法終止呢?此時只能取 X = ∞ (即+∞)。嚴謹定義不能忽略這種情況;但數學又告訴我們:實驗無法終止的機率是 0!那麼,假設這種情形不存在有問題嗎?就像我們假設丟一枚銅板只會出現 {正, 反} 兩種情況,難道不會有銅板立著不倒不能判斷正反?難道不會銅板滾不見了、破裂了種種意外情況?即使數學講究嚴謹,其實也是忽略掉很多東西「假設」那些問題不存在。這不是在說不需要嚴謹,但像對初學者一味強掉嚴謹卻忘了最根本的概念,是個人深不以為然的。
將結果數值化,這就是隨機變數所做的。數值化以後,我們可專注於 P[a < X ≦ b] 這樣的機率問題,又可把問題再簡化為 P[X ≦ b],於是有了「分布函數 (distribution function)」的概念,
X 的分布函數 F(x) 定義為 P[X ≦ x] = P{ω in S: X(ω) ≦ x}
於是 P{a < X ≦ b] = F(b) - F(a),於是利用機率公設及由公設導出的定理可以計算由 X 決定的各種事件的機率。同時,我們也發現了分布函數的一些特性,同時將分布函數區分為連續型、離散型和混合型:
隨機變數 X 或其分布函數 F(x) 是連續型意謂 F(x) 處處連續;
隨機變數 X 或其分布函數 F(x) 是離散型意謂
Σ_{x: F 在 x 不連績} P[X = x] = 1
在 R 或 R* 上我們有兩種普通的測度,一是前面提過以區間長度為基礎的 Lebesgue 測度 λ,另一種是計算(可測)集合中有多少點的計數測度 (counting measure) , 許多連續型分布可以表示為
F(x) = ∫_(-∞,x] f(t) dλ{t}
這種情形 X 的分布 P_X(由 (S,F,P) 經 X 映至 (R*,B) 後的機率分布)稱為對 λ 絕對連續,P_X << λ,可測或特稱 Borel 函數 f(x) 被稱為 F, 或 P_X, 或直接說是 X 的機率密度函數 (probability density function)。我們可以把 f(x) 當成普通微分 dF(x)/dx,雖然在測度論上 P_X 對 λ 的「微分」其實是由一組積分式給決定的:
P_X{A} = P[X in A] = ∫_A f(x) dλ(x) for all Borel sets A
在上列定義下,f(x) 是被「幾乎唯一確定」,意思是:若有 g(x)≠f(x) 也滿足上列所有等式,則 {x: f(x)≠g(x)} 這個集合的 λ 測度值是 0。然而,如果 p.d.f. 存在,如上,F(x) 可以表示為 f 在 (-∞,x] 的積分,雖然定義上來說,上列積分是所謂 Lebesgue 積分,但很多時候可以當做黎曼積分(或其瑕積分),條件就是 f(x) 幾乎處處連續,則依黎曼積分的微積分基本定理,f(x) = dF(x)/dx, a.e.(λ)。至於離散型分布,也可以表示為
P_X(A) = ∫_A f(x) dμ{x} = Σ_{x in A} f(x)
理論上還有一種連續型分布,稱「奇異連續 (singular continuous)」型的分布,例如 Cantor 分布,但一般情形我們會用到這種分布嗎?至於混合型,就是兩種或三種類型混合的:
F(x) = α F_a(x) + β F_s(x) + (1-α-β) F_d(x)
式中 α≧0, β≧0, α+β≦1, F_a 是絕對連續的分布函數,F_s 是奇異連續的分布函數,F_d 是離散型分布函數。由於分布型態不限於絕對連續型和離散型,在實際計算時有可能用黎曼積分、用加總,但在理論上推導或證明一些結果時,我們喜歡用
∫_A dF(x) 或 ∫_{X^{-1}(A)} dP
前者是 Stieltjes 積分,後者是測度意義上的積分。計算期望值也類似:
E[X] = ∫ X dP = ∫ x dP_X = ∫_R x dF(x) = ∫_R x f(x) dx 或 Σ_x x P{X=x}
即使在測度論基礎上期望值定義是用測度論的積分(第一式),然而,黎曼積分和加總或級數求和方法才是實際在用的,而期望值的概念更應從有限機率空間或從簡單隨機變數
X(ω) = x_1 I_{A_1}(ω) + ... + x_k I_{A_k}(ω)
了解。對初學者,概念的了解比數學嚴謹性重要多了。