常態分布可說是統計中最重要的分布,許多方法建立在常態群體的基礎上(如常態群體之平均數、變異數推論,線型迴歸分析等),另有些方法建立在可以近似常態的群體分布基礎上(如二項比例之推論,次數資料之各類卡方檢定等),還有許多方法最後也倚賴常態分布為計算工具(如基於 rank 的非參數方法,排列檢定等除了極小樣本以外常以常態分布為基礎計算臨界值)。

常態分布最早是棣莫佛 ( de Moivre ) 在 1718 年的書 Doctrine of Change 首先提出,1733 用它來計算投擲大量硬幣結果的機率,並於 1734 年發表的一篇關於二項分布的文章中提出 n 很大,p = 1/2 時所推導出的近似分布就是常態分布(Laplace 1812 將其擴充至 0 < p < 1 的情形),被認為是最早的中央極限定理。基於常態分布,Legendre 於 1805 引入最小平方法(1806 發表),Gauss 則宣稱他早在 1794 就使用了該方法,但他的結果是 1809 才發表的。Jouffret 在 1872 首次提出「鐘形曲面」這術語來指代雙變量常態分布,是「鐘形曲線」一詞的由來。但由於「常態分布」被認為是反映和鼓勵了一種謬誤,以為只有它是正常分布狀態,因此在數學理工領域常稱之為「高斯分布」( Gaussian distribution )。

常態分布的分布函數 ( d.f. ) 曲線是S形曲線,其函數形式不能以中學數學學過的函數來表示,只能用積分式表現。但數學上另定義「誤差函數 ( error function )」為

erf(x) = (2/√π)∫_[0,x] e^(-t^2) dt

也就是平均數 0 變異數 1/2 的常態分布介於 -x 到 x 之間的機率。而標準常態(平均數 0, 標準差1)的分布函數可以表示為

Φ(x) = [ 1 + erf( x/√2 ) ]/2

一般 N(μ,σ^2) 的分布函數也可藉此表示為

F(x) = Φ((x-μ)/σ) =  [ 1 + erf( (x-μ)/(√2σ) ) ]/2

不過,事實上用 erf(x) 來表現或以積分式來表現,只是換個符號而已,终究 erf(x) 仍是以積分式來定義的。

常態分布機率密度 ( p.d.f. ) 曲線是對稱的「鐘形曲線」,密度曲線的最高點(分布函數曲線反曲點)在平均數位置,兩邊離平均數一個標準差距離是密度曲線的反曲點。以密度曲線下面積來看,兩反曲點之間占了 68.27%,也就是說常態分布介於平均數兩邊距離一個標準差之內的機率約 0.6827;介於兩個標準差之內是 0.9545,三個標準差之內是 0.9973。另外,在統計中很關心一個分布的尾巴機率,以常用的單尾 0.1, 0.05, 0.025, 0.01, 0.005 機率來說,分別是離平均數 1.28, 1.645, 1.96, 2.326, 2.576 個標準差位置。這些數字以往是統計專業學生被要求熟記的;在計算工具便利的今天已是不需要了。

有時候人們喜歡以「鐘形分布」代稱常態分布,而稱鐘形分布平均數兩邊幾倍標準差範圍內有多少比例。這種說法是非常不妥的,鐘形分布有很多,最典型的是統計中的 t 分布,包括連平均數都「不存在」的 Cauchy 分布。logistic 分布是對稱鐘形,但和常態分布畢竟不同。股票日漲跌率的分布大體也是鐘形,卻已被認識到它不是常態分布,事實上是一種高峰度厚尾巴的分布。也有人喜歡用S形分布曲線當做常態分布的特性。但即使加上對稱性的要求,這比鐘形密度曲線更不靠譜:凡密度曲線是單峰(唯一高峰,向兩尾遞降)的分布,其分布函數曲線都是S形。例如尖頂的 Laplace 分布,其分布函數曲線就是對稱的S形。

如果 X, Y 是兩個相互獨立的常態分布隨機變數(或更一般地,(X,Y) 是二元常態分布變量),則它們的任何線性組合 ( aX+bY ) 都服從常態分布。如果 X, Y 相互獨立而且均數都是 0,則 X/Y 具有中位數 0 的 Cauchy 分布。如果 X1,...,Xr 是相互獨立的標準常態變量,則其平方和是自由度 ( degree of freedom ) r 的卡方 ( chi-squared ) 變量。或許更有趣的是:如果 X 是一個常態隨機變數,n 是任一正整數,則 X 可以用 n 個獨立非退化隨機變數的和表示:

X = Z1 + ... + Zn

如果 X 服從 N(μ,σ^2),最簡單的就是取 Zi 為 N(μ/n,σ^2/n) 變量 ( 機率論上有個定理告訴我們給定一有限或無限個分布的序列,在某機率空間中定義出一個服從這些特定分布的相互獨立隨機變數序列是做得到的。)  這性質稱之為「無限可分性 ( infinite divisibility )」。除常態分布外,如 Poisson, gamma, Cauchy 也是無限可分的分布,但同具可加性(additive,,兩獨立同分布族隨機變數之和仍具同族分布)的二項、卡方,則不是無限可分的。

常態分布存在動差母函數 ( moment generating function, 簡記 m.g.f. ) M(t) = e^(μt+σ^2t^2/2);將 t 代換為 it, 其中 i 是虛數單位,則得特性函數 ( characteristic function, ch.f. ) φ(t) = e^(iμt-σ^2t^2/2), 利用它們很容易得常態分布之中心動差。由於對稱性,只有偶數階中心動差是被關心的,其中特別是 μ4 = 3σ^2。其他動差有興趣可參考英文版維基之介紹。順便說點題外的:動差母函數不是任何分布都具有,首先一個分布必須具有任意正整數階的動差,其次這動差序列不能增長得太快,換個角度來看就是分布的尾巴要足夠薄。至於特性函數是每個機率分布都存在的,而它和分布之間又具備一對一的對應關係,所以成為證明如隨機變數函數的分布、極限分布等的一個有力的工具。在動差母函數存在時,φ(t) = M(it),不過一般而言計算 φ(t) 通常需要用到複變(複變函數積分)的方法。

常態分布有一個特性我不清楚它重要或不重要,那就是:如果我們在平均數是 μ,變異數是 σ^2 裡找最大化 entropy 的分布:

max. E[-log(f(X)] = ∫_R (-log(f(x)) f(x) dx
s.t.
    ∫_R f(x) dx = 1
    ∫_R x f(x) dx = μ
    ∫_R (x-μ)^2 f(x) dx = σ^2

其解是常態分布,即 f(x) 的解是 N(μ,σ^2) 的 p.d.f.。解決此問題的方法是所謂變分法 ( calculus of variation ):假設

f(x) = f0(x) + ε q(x)

首先以 Lagrange 的方法來求出最適解的條件,其次因必須適用於任意 q(x) (滿足 f0(x) 及 f0(x)+εq(x) 都是 p.d.f.),總結出 log(f0(x)) 必須是 x 的二次式,也就是 f0(x) 必須是常態的密度函數。

除了中央極限定理的結論、最大化 entropy 的分布之外,也可以從誤差的假設條件得出誤差分布為常態的結果:假設

(1) 誤差可分為 x 方向和 y 方向誤差,相互獨立,以 X, Y 表示之;
(2) X, Y 的 p.d.f. g(x), h(y) 是可微分的;
(3) (X,Y) 的聯合機率密度是距離的函數。

根據以上假設,g(x)h(y) = q(x^2+y^2)。兩邊取對數,分別對 x 和對 y 做微分,首先得 q'(t)/q(t) 是個常數,因而 g'(x)/g(x) = 2kx, h'(y)/h(y) = 2ky, 因而 X, Y 同分布,且是均數 0 的常態分布。如果在上列假設 (3) 不是距離 √(X^2+Y^2) 而是 aX^2+bY^2,結果 X, Y 就不會是同分布。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()