Regression, 回歸,這名詞在統計上使用最早大概是  Francis Galton 於 19 世紀用來描述一種生物學現象:高大祖先的後代趨向正常平均數,這種現象,也稱 regression toward the mean (回歸均值), reversion to the mean (回轉均值)或 reversion to mediocrity (回轉平庸)。Galton 原意只是生物學現象的描述,闡述父母的極端特徹,並沒有完全傳遞給他們的後代。略過 Galton 在生物遺傳學上的錯誤解釋不論,其實回歸的現象只是一個統計或更直接地說是機率現象,也和中央極限定理有些關係。

為何說是一種統計或機率現象?像身高體重以及許多自然的及社會的現象,大都是中間高兩端低的所謂單峰型分布。在 Galton 關於父子身高的分析中,被注意到的父親身高特高的部分,可以說是偏向有較高身高基因的,但又不全是,有些基因屬較低身高的右邊極端值被歸入;又有些基因屬較高身高的左邊極端值被捨去。因此,這些身高極高的父親的基因並不純粹基因屬較高身高的。再者,即使基因屬較高身高的,其身高當是一個單峰分布。而對這些樣本,父親身高只是這個分布偏高的那一部分;子輩卻是觀察整個分布。一個分布只取較高部分,其平均值當然高於整個分布的平均值:

  E[ X | X > c ] > E[ X ]

這是看身高偏高那一部分的,而在身高偏低的部分則剛好反過來,除了基因問題之外就是

  E[ X | X < c ] < E[ X ]

子輩的平均表現會比父輩高,當然,也是趨向平均數。這是從平均數來看的,可以說是一種統計的必然,當然,也是機率上的必然。

再從個體來看,父親身高特高(偏高)或特低(偏低),是一種出現在兩端的現象。由於隨機性,其子輩除了仍在同一端以外,也有很大機會出現在較中間甚或在另一端出現。不只父子身高是這種現象,所有具隨機性現象,特別是呈單峰形狀分布的,都是如此。例如學生考試,第一次得特高分,第二次很難再保持那高分,倒是下滑可能性很大;相反地,第一次得分特低或偏低,第二次考試很容易就「進步了」,其實不是進步,只是分數不是單純的你用功一分就得一分,而是帶有隨機性,因此回歸平均是必然。

以上回歸平均在非單峰中央高兩邊低的情況其實也成立,只是單峰兩端低的情形比較明顯,而且中央高兩邊低的分布形狀是普遍現象。之所以是普遍現象,和中央極限定理有些關係。一般認知的中央極限定理只知道 

  樣本無限增大時,標準化樣本總和或平均將趨近標準常態。

簡單地說是樣本總和或平均趨於常態,如二項分布趨於常態,Poisson 分布在平均數增大時趨於常態都是中央極限定理的實例。其實更一般地說是:

  如果一種現象是由無數個個別都可忽略的成分所彙聚而成,此現象,在一些條件滿足時,將成常態分布。

那無數個隨機變數就是其總和的「成分」,這些成分任何有限個的影響(在標準化後)都可以忽略。這就是為什麼統計學上會認為常態分布是「常態」,即使現實上幾乎找不出真正成常態分布的現象。然而,以上也不是中央極限定理的根本含意。中央極限定理的根本不在「極限」,而在於「向中央聚集」,也就是說

  隨機變數和的分布,比其成分之個別變數,更傾向於向中央聚集。

只需看幾個簡單的例子就能名明白。例如擲一粒公正骰子的分布: P[X=k] = 1/6, k=1,...,6;擲兩粒公正骰子的點數分布是‵ P[S=k] = (6-|k-7|)/36,將 X 和 S 正規化:

範圍 1-2/12 3-4/12 5-6/12 7-8/12 9-10/12 11-12/12
機率 (X/6) 1/6 1/6 1/6 1/6 1/6 1/6
機率 (S/12) 1/12 5/12 9/12 11/12 7/12 3/12

又如兩個點二項 (n = 1) 分布,或稱 Bernoulli 分布之隨機變數相加,即使是兩個分布不同, (0.4, 0.6) ⊕ (0.7. 0.3), 結果得三點的分布 (0.28, 0.54, 0.18), 注意在這個例子我們也得到中間高兩端低的例子,雖然不總是如此,但多幾個點二項隨機變數相加,總是能得到中間高兩端低的分布。

這世界的自然及社會人文等現象,總是受到多種因素的作用的,因此雖然我們不能保證得到極限的常態分布形狀,但對於有一個單峰而中間高兩端低的分布,還是有足夠倌心的。那麼,「回歸」所談的那種「原來(父代)」極高極低的現狀,「未來(子代)」回歸平均,只是由極端趨向正常而已,只不過是平常現象罷了。

 

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()