統計上一個廣為人知的不等式;柴必雪夫 (Chebyshev) 不等式,說:遠離數值資料中心(平均值) k 倍標準差之外的資料,占總資料數不超過 1/k^2;以機率來表示,
P[|X-E[X]| > a] ≦ E[(X-E[X])^2]/a^2
式中 a = k √ E[(X-E[X])^2] 則右邊是 1/k^2。此不等式暗指:以平均數代表一個資料分布的中心是有道理的,因為離此中心太遠的資料「並不多」。
統計上一個廣為人知的不等式;柴必雪夫 (Chebyshev) 不等式,說:遠離數值資料中心(平均值) k 倍標準差之外的資料,占總資料數不超過 1/k^2;以機率來表示,
P[|X-E[X]| > a] ≦ E[(X-E[X])^2]/a^2
式中 a = k √ E[(X-E[X])^2] 則右邊是 1/k^2。此不等式暗指:以平均數代表一個資料分布的中心是有道理的,因為離此中心太遠的資料「並不多」。
2009 年 Eriksson, Jan; Ollila, Esa; Koivunen, Visa 發表了一篇 "Statistics for complex random variables revisited." (2009 IEEE International Conference on Acoustics, Speech and Signal Processing. Taipei, Taiwan: Institute of Electrical and Electronics Engineers. pp. 3565–3568.) 指出複數值隨機訊號資料在一些方面的應用日漸重要,但相關的數學基礎卻很散亂。
從定義來看,一個複數值隨機變數只是兩個實數值隨機變數對 X = (X_R, X_I) 或 X_R + i X_I;但從應用層面,我們必須把 X 看成一個數值性隨機變數,而非只是一個二維度向量值隨機變數,因為向量值的運算基礎是數值性的矩陣運算,而複數卻另有一套運算規則——兩複數相加減如同同維度向量相加減,但兩複數自有其一套乘除法則;另外複數可以進行如指數、對數等操作,只不過有些問題需要特別注意及處理,例如 e^z 或表示為 exp(z) 是唯一定義的,但 ㏑(z) 則有無窮多個分支,需要擇一做為主值;又如指數律 z^r.z^s = z^{r+s} 等在 z 是複數時並不當然成立。不過,本文不考慮這些問題,有關複變數函數 f(z) 種種,自有專書專課討論;本文僅粗略地來談談隨機變數分布、平均數(期望值)和變異數共變異數的問題。
不管實數值、複數值、向量值或其他隨機變數,其分布總是回到原始機率空間的機率分布 P。也就是說,P 是原始機率空間所設定的機率分布,不管它是如何設定的,機會均等的、主觀的、統計頻率的、或其他方式,反正必須符合 Kolmogorov 1933 年提出的公理(公設)體系,而隨機變數 X 的分布是
隨機變數,本文特指實數值隨機變數,是指定義在一個機率空間的實質實數值可測函數。本文談的將隨機變數視為向量,考慮的不是單一隨機變數,也不考慮特定分布的隨機變數,而是考慮定義在同一機率空間的任意隨機變數。向量,指的不是物理上的力或幾何上的平面或空間甚至 n 維歐氏空間向量,而是向量空間意義的向量。
隨機變數要看作是向量,首先要談向量的加法運算,在這裡也就是說需要問:隨機變數的加法是封閉的嗎?或者說:兩隨機變數 X, Y 相加,結果仍是隨機變數嗎?在初級入門課程,隨機變數只是「定義在樣本空間的實數值函數」,所以「兩隨機變數相加結果仍是隨機變數」是無可置疑的;在正式定義中,有可測性的問題,有「實質」有限的問題(正式定義允許隨機變數值為正負無窮,只是其機率為 0),不過,仍不難證明封閉性是成立的。由於允許隨機變數的值是 ±∞,考慮兩隨機變數相加時,免不了遇到 +∞ + -∞ 或 -∞ + +∞ 這種無法定義的情形,但若遇到這種情形,由於機率 0,任意指定其相加結果的值,結果仍是符合隨機變數的條件,而其機率性質(隨機變數的機率分布)不受影響。
令 V 是定義在機率空間 (Ω, F, P) 上的所有實數值隨機變數所形成的集合,則 V 在加法運算下,符合交換律、結合律,有加法單位元素 0,任一隨機變數 X 有反元素 -X,也就是說, (V, +) 構成一個「加法交換群 (commute group)。
先前看到的,可能是修課者的習題吧?
(1) 設 Mn → ∞ a.s., Xn → 0 a.s. ==> X_Mn → 0 a.s.
(2) 設 Mn → ∞ in P., Xn → 0 a.s. ==> X_Mn → 0 in P.
本文要談的是一個小問題:條件機率 P{B|A} 和條件機率 P{B|X}(或 P{B|σ(X)})意義上的差別。
條件機率的定義及說明見之於「 條件機率與條件期望值 」一文,不過該文較偏向於數學定義,但雖知道 P{B|A} 之類的條件機率就是機率,甚至固定 A 而 B 可允許是任意事件時,P{.|A} 變成在「新樣本空間」 A (之上的事件集)的一個機率分布(機率函數)。另一方面, P{B|X} 之類的條件機率,雖有機率之名與形(符合機率性質),本質卻是定義在樣本空間 S 上的實數值點函數,更明確地說,是把 S 上一點 ω 映至 [0, 1] 之一點的函數。為什麼會這樣?
考慮機率空間 (S, F, P) 上的一個事件 A,則 P{B|A} 是「如果已知 A 發生了,那麼事件 B 也發生的條件機率是多少?」它的意思有兩種:
Poisson 過程是出生過程 (pure birth process) 的一種,其「出生數」與當前狀態 N(t) 無關。不論在一般出生過程或 Poisson 過程,總是假設
P[N(t+h)-N(t)>1 | N(t) = n] = o(h), 對任意 t, 任意 h → 0 成立
這個假設在一些應用上可能與事實不符,例如逛百貨公司的人可能有不少是成對或邀約一起去逛的,當然也有單身一人的,因此,
先前談過一個簡單的族群成長模型是假設族群大小 N(t) 是非隨機的,雖然可以允許淨成長率 a(t) 本身是一個隨機過程,又假設它對 t 可積,但它與真實情況總有些不符,例如這模型的 N(t) 不能限制在整數值;又如假設 a(t) 可積,若 a(t) 非隨機倒還好,但若認為 a(t) 應具有隨機性,可積的要求可說是一個重大的限制;而一方面認為 a(t) 是隨機的,另方面又把 N(t) 當做非隨機的,也有些怪異難諧。本文則將 N(t) 本身當做一個隨機過程,把它當做連續時間馬可夫過程 (continuous time Markov process) 的一個例子。
一個馬可夫鏈 Xn (Markov chain, 離散時間,n = 0, 1, 2, ...) 或馬可夫過程 Xt (連續時間,t ≧ 0),基本上就是指隨機過程 Xt 滿足
P[Xt in A | Fs] = P[Xt in A | Xs] for any (measurable) A and any s < t
符號串之範型 (pattern) 問題,以最簡單,由 S/F 兩種符號構成的隨機串列如 SFFSFSSSF... 中特定範型如 SSS 出現的機率相關問題為例,包括平均多長的符號串出現一個指定範型、固定長符號串出現指定範型機率、及固定長符號串平均出現幾次指定範型。
假設符號串如上述是獨立地由 S 和 F 組成,並且,P{S}= p = 1 - q = 1 - P{F},指定範型是 SFSF。考慮出現範型的期望時間 E[L],E[L|s] 表示開頭符號串為 s 時 L 的期望值,則
隨機圖形 (Random graph),或隨機網絡圖,這裡指的是有固定 n 個節點 (nodes),節點之間是否有連線 (edges 或 arcs) 具有隨機性的圖形。有些時候節點間的連線可以多條,也可以是連回自身的,但這裡只考慮不同節點間的無向或對稱連線連線,而且不考慮重複連線。因此,n 個節點的圖,最多 n(n-1)/2 條連線。節點 i, j 之間是否有連線以 X(i,j) 表示。兩相異節點之間可通過其他節點而相連,稱之為兩節點之間的一條路徑 (path), 也就是:存在 k_1,...,k_m 使 X(i,k_1),X(k_m,j) 及 X(k_i,k_(i+1)) 都是 1。如果任兩相異節點之間都有一條路徑,這樣的圖形是連通的 (connected)。這樣的隨機圖形可以說是靜態的隨機圖形,所有可能的 n(n-1)/2 條節點連線確定其值為 0 或 1 之後,圖形就確定不變了,也就是說:這裡考慮的一個隨機圖形是
頂點集 V = {1, 2, ..., n} 和隨機變數群 A = {X(i,j); i, j = 1,..., n, i < j}
組成的 (V, A) 組合,而其實現值或觀測值是一個確定的網絡圖。另有一種隨機圖形是動態的產生節點連線,除非這個過程停止,這個隨機圖都只是一個中間產物而不能確定其形狀,這可以說是一個動態的隨機圖。例如,由一個節點,例如 1 開始,以 1/n 機率決定下一個節點 X(1)(允許連到自身),然後再決定下一個節點 X(2) = X(X(1)),以此類推, X(k) = X(X(k-1)),序列 (1, X(1), ..., X(k), ...) 構成一個動態的隨機圖。無論靜態或動態的隨機圖形都可能有許多不同的隨機方式,例如有一種 ER 模型是考慮 M 個邊(M 條節點間連線)的各種圖出現的機率都相同;這樣的圖也可用動態的描述
曾數次與人討論到生育控制與性別偏好對性別平衡的影響,昨日在 PTT BBS 看到一個投擲硬幣實驗的正反面平衡問題。我們把這問題抽象化,令 {Xn, n=1,2,...} 是一獨立 Bernoulli trials 過程,T 是一整數隨機變數,S = Σ_{n=1~T} Xn, 則我們期望 E[S/T] = P[X1=1]。此處隨機變數 T 稱為 stopping time(停止時間),是由停止規則 (stopping rule) 所決定出來的一個隨機時間,事件 [T = t] 只和 Xτ, τ≦t 有關。
機率論上所謂停止時間,也稱做馬可夫時間 (Markov time, Markov moment)、任選停止時間 (optional stopping time, optional time),其定義如下述:首先,在一機率空間 (Ω, A, P) 和一全序指標集 I(最常用的是 N 或 Z^+, R^+, 或 R^+ 的子集)上,我們建立一個篩選程序 (filtration) F = {Fi, i in I}, 其中 Fi 為 A 之一遞增子 σ-代數(σ-體),即 Fi, i in I 遞增且都是 A 的子集,且 Fi 都是 σ-代數,把 (Ω,A,F,P) 稱為一個過濾後的機率空間 (filtered probability space) 。而定義在機率空間上以 I 為值域的隨機變數 T 若滿足 [T≦t] 都是 Ft-可測,就稱 T 是一個停止時間。
就前述 Bernoulli 試作過程而言,Yn = Σ_{k=1~n} Xk/n 建立了一個新的隨機過程,而隨機變數 Y_T = Σ_{k=1~T} Xk/T 是此隨機過程結合停止時間 T 而成的隨機變數。不同的停止規則造成不同的停止時間,以生育控制問題為例,不同生育控制政策結合不同程度的性別偏好形成不同停止規則,也構建了不同的停止時間。以投擲硬幣實驗而言,也可有不同停止規則構建不同的停止時間隨機變數。
有一個族群成長模型常用來描述一個群體,例如培養皿上的細菌數,的成長趨勢:
dN/dt = kN(1-N/M)
式中 N 表示群體的大小,是時間 t 的函數,M 代表環境限制,是 N 的上限,k 控制成長速度。由上式可知:N 的成長速率大抵是正比於群體大小的,這符合生物成長模式:較大群體衍生出更多新個體;但如果看相對成長速率,或成長率 (dN/dt)/N, 則餘裕空間 1-N/M 比例的大小限制了成長率,這看起來也是很合理的。這成長模型稱為「邏輯斯成長模型」;如果沒有「成長率受環境限制而減緩」的因素,模型 dN/dt = kN 就是一個指數成長模型。馬爾薩斯人口論就是認為人口數量的成長是指數成長,二十世紀後期則將人口成長視為邏輯斯成長,而今則有很多國家地區人口呈負成長現象。
設 F(x) 是一單變量機率分布函數,也就是說 F 是單調遞增、右連續(有些作者定義分布函數是左連續,差別是 F(x) 定義為 P[X≦x] 或 P[X<x])、F(-∞) = 0 且 F(∞) = 1。
今令 F*(x) = F(x)φ(x), 只要 φ 非降、非負、右連續且 φ(∞) = 1 而 φ(-∞) 有限, 則 F*(x) 也滿足一個機率分布的條件。反過來說,φ(x) = F*(x)/F(x), 其中 F* 與 F 都是機率分布函數,則 φ(x) 非負,右連續,且 φ(∞) = 1;但 φ 不一定單調,φ(-∞) 也不一定有限。不過,如果可能,除非有特定要求,想找一個函數 φ(x) 透過 F*(x) = F(x)φ(x) 由 F 建構 F*, 則選擇的 φ(x) 當然是找非降、非負、右連續且 φ(∞) = 1 而 φ(-∞) 有限。
如果是雙變量或多變量分布,右連續是針對每個變量的;單調遞增以雙變量為例就是對向變量的單調遞增再加上
所謂基本事件 (elementary event),是只含單一樣本點的事件。不過,在一般性的樣本空間,單一樣本點構成的子集還不一定是一個事件,不一定可賦與機率。但如果樣本空間是在實數線 R 上,單點集或單元素集 (singleton) 確實是一個事件。
初學機率,多從單點集之機率開始,甚至有「機會均等」假設做為決定事件機率的方法,此時的樣本空間假設是有限的。但談到隨機變數,或談實驗可能結果無限多的情況,或者不再能保持機會均等假設,或者在所謂連續型機率分布會發現:怎麼單點機率都是 0?
事實上一般的樣本空間常是無限的,甚至不可數的,甚至其基數比實數線 R 來得高。因此,我有一個猜想:如果一個機率空間包含基本事件,則至多可數個單點事件有正的機率。
學統計的人大概都知道「動差母函數 (moment generating function, 簡寫 m.g.f.)」, 也知道 m.g.f. 除了可用以計算動差之外,有許多好性質,更重要的是它可唯一決定對應的分布,也就是 X, Y 兩隨機變數(或向量)有相同 m.g.f., 則它們的分布相同。但是,m.g.f. 卻不一定存在!事實上 X 的 m.g.f. 要存在,首先必需其各階動差都存在,而且動差增長 (對任意非負整數 n, E[|X|^(n+1)] 的 n+1 次方根總是大於,至少相等於 E[|X|^n] 的 n 次方根;其實 n 不是整數也對,n+1 改成 n+r 也對) 不能太快。與 m.g.f. 相關的,有機率母函數 (probability gererating function) 或稱階乘動差母函數 (factorial moment generating function), 累差母函數 (cumulant generating function) 都和 m.g.f. 有直接的關係,所以是同時存在或同時不存在;特徵函數 (ch. f.或譯:特性函數) 則不同,它以 E[e^{itX}] 定義,i 是虛數單位,是必定存在的。
雖然形式上 ch.f. 涉及複變數,但 it 只是實變數 t 乘上虛數單位 i,而且 e^{itx} = cos(tx) + i sin(tx), 因此並不需要真的以複變積分來考慮它的定義,考慮實變的積分即可。由於 cos(.), sin(.) 都是有界且連續的,或者說 e^{itx} 是有界且連續的,因此,ch.f. 一定存在,這是 ch.f. 相較於 m.g.f. 優勢的地方。而重要的是:m.g.f. 能唯一決定一個分布的特性,ch.f. 也有。並且,由於 m.g.f. M(t) = E[e^{tX}] 與 ch.f. φ(t) = E[e^{itX}] 的定義式,我們知道如果 M(t) 存在,則 φ(t) = M(it), M(t) = φ(-it), 所以 m.g.f. 唯一決定一個分布的結論,事實上可說是來自 ch.f. 的同一特性。所以在較高階或較一般性的課程或討論,用的通常是 ch.f. 而非 m.g.f.。
特性函數 φ(t) = E[e^{itX}] 一定存在,即使 X 的高階動差甚至一階動差都不存在,ch.f. 仍然存在。但如果 X 的 n 階動差存在,φ(t) 與其 n 階展開式
朋友傳來一個短影片,其中提到:「天弓飛彈一發攔截機率約70%,用三發攔截一發成功機率是210%。」
唉!不懂計算機率何必談機率?機率一定是 0-1 之間的數,這是最基本的概念,哪有「機率210%」的說法?
假設每發飛彈攔截住敵方飛彈機率是 p,又假設多重攔截時命中率互不影響——意思是每發用以攔截之飛彈在敵方飛彈未被摧毀前命中並能摧毀之的機率都是 p。這必須排除己方飛彈自己相撞互毀的情況,也就是己方用於攔截的飛彈先後抵達目標區,如果此時敵方飛彈尚未被摧毀,則被本發攔截彈摧毀機率是 p。但事實畢竟不同於模型,如果己方攔截飛彈未做好規劃而是亂彈齊發式地去攔截,誰知會不會互相干擾。
一般的 Poisson process 可以說是 Poisson birth process. 如果問題是類似:一開始有 N 人,隨著時間過去死亡類似一般 Poisson process 那樣發生,則 [0.t] 之間的死亡數 {D(t), t>0} 暫且稱之為「Poisson 死亡過程 (death process)」。
依上述想法,Poisson death process 可用以下條件來描述:
1. D(0) = 0;
Poisson 分布,中譯:卜瓦松分布,柏松分布,波松分布。許多不同譯名,還是用英文名吧。
Poisson 分布常用在計數資料,當然計數資料不一定服從 Poisson 分布,什麼資料可以用,最好是透過資料產生程序來看。首先,它是一個點過程,是一個出生過程的產物。也就是說:計數資料是一段時間、一塊區域、或一個立體、或更抽象空間上一個「點」的數量的問題,這些點產生(出生)之後就不會消失(死亡)。其次,它要滿足三個條件:
1. 從 0 開始。
常態分布可說是統計中最重要的分布,許多方法建立在常態群體的基礎上(如常態群體之平均數、變異數推論,線型迴歸分析等),另有些方法建立在可以近似常態的群體分布基礎上(如二項比例之推論,次數資料之各類卡方檢定等),還有許多方法最後也倚賴常態分布為計算工具(如基於 rank 的非參數方法,排列檢定等除了極小樣本以外常以常態分布為基礎計算臨界值)。
常態分布最早是棣莫佛 ( de Moivre ) 在 1718 年的書 Doctrine of Change 首先提出,1733 用它來計算投擲大量硬幣結果的機率,並於 1734 年發表的一篇關於二項分布的文章中提出 n 很大,p = 1/2 時所推導出的近似分布就是常態分布(Laplace 1812 將其擴充至 0 < p < 1 的情形),被認為是最早的中央極限定理。基於常態分布,Legendre 於 1805 引入最小平方法(1806 發表),Gauss 則宣稱他早在 1794 就使用了該方法,但他的結果是 1809 才發表的。Jouffret 在 1872 首次提出「鐘形曲面」這術語來指代雙變量常態分布,是「鐘形曲線」一詞的由來。但由於「常態分布」被認為是反映和鼓勵了一種謬誤,以為只有它是正常分布狀態,因此在數學理工領域常稱之為「高斯分布」( Gaussian distribution )。
常態分布的分布函數 ( d.f. ) 曲線是S形曲線,其函數形式不能以中學數學學過的函數來表示,只能用積分式表現。但數學上另定義「誤差函數 ( error function )」為