在 https://yhliu2k.pixnet.net/blog/post/58349248 中談及 regression toward the mean 時把 Galton 的「回歸至平均值」現象解釋為
被注意到的父親身高特高的部分,可以說是偏向有較高身高基因的,但又不全是,有些基因屬較低身高的右邊極端值被歸入;又有些基因屬較高身高的左邊極端值被捨去。因此,這些身高極高的父親的基因並不純粹基因屬較高身高的。再者,即使基因屬較高身高的,其身高當是一個單峰分布。而對這些樣本,父親身高只是這個分布偏高的那一部分;子輩卻是觀察整個分布。一個分布只取較高部分,其平均值當然高於整個分布的平均值:
E[ X | X > c ] > E[ X ]
本文將以「自變數帶誤差之迴歸模型」來闡明這事。
假設是單群體單變數,回歸均值可以說是觀測值彼此無關(獨立)的體現,前面的結果並不影響後續的觀測,因此即使前面出現特別高或特別低的觀測值,後續出現的觀測值仍是圍繞著群體平均值的正常觀測值,就呈現了回歸均值的現象。用隨機變數 X 的分布 f(x) 來表示,如果先前觀測到的是偏 f(x) 分布右邊尾巴的部分,例如觀測值 x >> m,其中 m 是 f(x) 的中位數,則接下來觀測到的 x' 小於 x 的機率顯然大於 x' > x 的機率。
考慮 Galton 的例子,是 (X,Y) 的配對抽樣,假設 X, Y 是同分布,Galton 的發現大概是
當 X 比 E[X] 高很多時,常出現 Y-E[Y] 比 X-E[X] 小的現象;反之,X 比 E[X] 小很多時, E[Y]-Y 也傾向於比 E[X]-X 小。
由於 Galton 觀測的是遺傳性狀,我們考慮用線性模型來表示:
X = η + u, Y = ξ + v, ξ = α + βη + ε
式中 X, Y 是可觀測的表面性狀,如父子各自身高,η, ξ 是基因的平均表現,ε 是遺傳發生時的不可控因子,u, v 是個人成長經歷的一些變異。假設 ξ 與 η 的關聯中沒有誤差項 ε,並且 α = 0 且 β = 1,又假設 u, v 是 i.i.d. 服從 f(x),則 X, Y 的聯合分布是
g(x, y) = f(x - ξ) f(y - ξ)
因此在 ξ 給定的情況,X, Y 是 i.i.d.,若 ξ 是隨機的,具有先驗密度 π(ξ), 則
g(x, y) = ∫ f(x - ξ) f(y - ξ) π(ξ) dξ
而看到 X = x 後再看到 Y = y 的密度是
h(y | x) = ∫ f(x - ξ) f(y - ξ) π(ξ) dξ/∫ ∫ f(x - ξ) f(y - ξ) π(ξ) dξ dy
= ∫ f(y - ξ) f(x - ξ) π(ξ) dξ/∫ f(x - ξ) π(ξ) dξ
在觀測到 X = x 後,Y 的條件分布與 Y 的邊際分布差別是後者以 π(ξ) 加權平均,而前者以
π(ξ | x) = f(x - ξ) π(ξ)/∫ f(x - ξ) π(ξ) dξ
加權平均,這使得後續覲測值 Y 傾向 π(ξ | x) 的「中心」,而這「中心」是 x 和先驗分布 π(ξ) 之中心的綜合,在很多時候,以期望值(平均值)表示「中心」時,它是 x 和 ξ 的先驗平均值的加權平均。
就一般情形來說,仍假設 u, v 是 i.i.d. 服從 f(x),又假設 ε 服從 ψ(ε),在 η, α, β 固定時,X, Y 的聯合分布 (p. d. f.) 是
g(x, y) = ∫ f(x-η) f(y-α-βη-ε) ψ(ε) dε
= f(x-η) ∫ f(y-α-βη-ε) ψ(ε) dε
觀測值(隨機變數)X, Y 仍是相互獨立,只是因 Y 的位置參數 ξ 與 X 的位置參數之間帶有隨機成分 ε,因此以 η 為 X, Y 共有參數時,要考慮對 ε 做平均;另外是 (α, β) ≠ (0, 1) 因而難以直接比較 X, Y 的高低。不過,如果不是直接比較 X, Y 的數值,而是分別比較其相對位置,X = x 得到 x 在 X 的範圍中是偏高的,在後續觀測到 Y = y 時,y 在 Y 的範圍也會有回歸均值的表現,因為 x 偏高除了 η 有可能較高以外,特別高的 x 還意味 X = η + u 的 u 值偏高;而後續觀測 Y 時,除了 ξ = α + βη + ε 因 ε 的作用可能拉低 ξ 值以外,Y = ξ + v 也可能因 v 的趨於平均,因此 Y 趨向於在 Y 範圍較高(假設 β > 0)但並沒有像 x 那樣的特殊。
現在假設參數 η 與 α, β 有一個先驗分布 π(η, α, β)。一個簡單的情形是 η 與 (α, β) 獨立,即
π(η, α, β) = ρ(η) τ(α, β)
則 X, Y 的聯合分布 p.d.f. 是
g(x, y) = ∫∫∫∫ f(x-η) f(y-α-βη-ε) ψ(ε) dε ρ(η) τ(α, β) dη d(α,β)
而給定 X = x 則 Y 的條件分布是
∫∫∫∫ f(x-η) f(y-α-βη-ε) ψ(ε) dε ρ(η) τ(α, β) dη d(α,β)
h(y | x) = ----------------------------------------------------------------------
∫∫∫∫∫ f(x-η) f(y-α-βη-ε) ψ(ε) dε ρ(η) τ(α, β) dη d(α,β) dy
∫∫∫∫ f(x-η) f(y-α-βη-ε) ψ(ε) dε ρ(η) τ(α, β) dη d(α,β)
= -----------------------------------------------------------------
∫ f(x-η) ρ(η) dη
因為有共同的參數 η 存在 ,當 η 被賦予先驗分布而積分掉時,X, Y 不再獨立,但 h(y|x) 與 Y 的邊際分布差異在於 ρ(η) 被
ρ(η | x) = f(x-η) ρ(η)/ ∫ f(x-η) ρ(η) dη
所取代,如同前面 ξ = η 的情形。
一般,可能 η 與 (α, β) 並不獨立,
g(x, y) = ∫∫∫∫ f(x-η) f(y-α-βη-ε) ψ(ε) dε π(η, α, β) dη d(α,β)
則 X 的邊際 p.d.f. 是
φ(x) = ∫ g(x, y) dy = ∫∫∫∫ f(x-η) ψ(ε) dε π(η, α, β) dη d(α,β)
= ∫∫∫ f(x-η) π(η, α, β) dη d(α,β)
故給定 X = x 後,Y 的條件分布為
∫∫∫∫ f(y-α-βη-ε) f(x-η) π(η, α, β) dη d(α,β) ψ(ε) dε
h(y | x) = ---------------------------------------------------------------
∫∫∫ f(x-η) π(η, α, β) dη d(α,β)
相當於將 π(η, α, β) 取代為
π(η, α, β | x) = f(x-η) π(η, α, β)/∫∫∫ f(x-η) π(η, α, β) dη d(α,β)
如果更一般情形,模型為
X ~ f(x; η), Y ~ f*(y, ξ), ξ = λ(η, θ, ε)
意思是:參數 η, ξ 並不限定為位置參數而是一般參數;在 η, ξ 確定時 X, Y 相互獨立但不須同分布,只是 ξ 與 η 之間多了一個 η-ξ 間關聯的參數 θ 以外,還摻雜了一個隨機成分 ε。於是,X, Y 的聯合分布是
g(x, y) = ∫ f(x, η) f*(y, λ(η, θ, ε)) ψ(ε) dε
= f(x, η) ∫ f*(y, λ(η, θ, ε)) ψ(ε) dε
式中 ψ(ε) 如前,代表 ε 的密度。結果 X, Y 仍是相互獨立,因此 X = x 的訊息並不影響 Y 的分布,所以,回歸均值的現象不只存在於線性模型。再者,考慮 η, θ 具隨機性而賦予先驗分布 π(η, θ),結果
g(x, y) = ∫∫∫ f(x, η) f*(y, λ(η, θ, ε)) ψ(ε) π(η, θ) dε dη dθ
h(y | x) = ∫∫∫ f(x, η) f*(y, λ(η, θ, ε)) ψ(ε) π(η, θ) dε dη dθ/φ(x)
其中 φ(x) = ∫∫ f(x, η) π(η, θ) dη dθ
在觀測了 X = x 後,Y 的分布受此訊息影響的是 π(η, θ) 被修正為 π(η, θ | x),結果 Y 仍回歸均值,只是這「均值」受到 X = x 的影響而已;如果 X = x 太極端,Y 因回歸均值的作用,不像 x 那麼極端。
我們以一個簡單的例子來說明:丟一個公正銅板的試驗,或丟公正骰子的試驗與此類似。假設連續 10 次丟出正面,接下來的投擲將出現回歸均值現象;即使銅板不是公正的,例如出現正反面的機率比是 p : q,此處 p + q = 1 且 0 < p < 1, 當我們看到連續出現正面時,接下來的丟擲試驗將回歸均值,而不是連續出現正面或更傾向於出現正面。有一個相反的論述稱「賭徒謬誤」是這樣想的:
因為已經出現連續或太多正面了,接下來應更傾向出現反面。
這種錯誤的推理,很可能是由於對大數法則 (LLN) 的誤解,大數平均效果被誤以為應有平衡效果。或許,也有部分是對回歸均值的誤解,以為回歸均值意思是未來出現的結果對前面結果有平衡的作用。事實上,不管是大數法則或回歸均值,都立基於獨立性。因為前後觀測值相互獨立,所以巨量觀測值將使平均趨於穩定;因為前後觀測值的獨立性,所以前面的極端結果不會影響後續的觀測結果。即使在 Galton 面對的問題,X 與 Y 不獨立,但它們有相互獨立的成分 X = η + u 與 Y = ξ + v 有正向關聯,是由於 η 與 ξ 中的正向關係,但 u, v 是相互獨立的隨機成分,X 的極端(偏高或脩低)對 v 無影響,因此 Y 看來更趨於平均。上述銅板試驗和 Galton 的遺傳資料不同在於前者是假設完全獨立而後者含有正向關係的因素。但即使在丟銅板或擲骰子問題,前述相互獨立的假設是我們確知銅板出現正面機率;但以統計的觀點卻又不同,
假設我們不知銅板是否公正,丟擲手法有沒問題,那麼,看到連續十次正面,我們有理由懷疑:(1) 銅板不是公正的; 或 (2) 丟擲手法有問題,或者能造成出現正面機率較高,或者能控制丟擲結果。
因此,雖然回歸均值是必然的,但如果排除了丟擲手法可控制結果的因素,也就是說丟銅板試驗可看成是一連串獨立 Bernoulli trials,則前期的觀測結果可以讓我們估計後續丟擲結果出現正面機率,也就是回歸均值的「均值」。在 Galton 的遺傳資料,則一堆成對資料 (Xi, Yi), 每個父代 Xi 對應各自的均值 η_i, 而後透過 ξ_i 影響子代觀測值 Yi,由於諸 η_i 未知,我們可以假設諸 η_i 形成分布 ρ(η_i),各 Xi 調整了 η_i 的分布,也影響 Yi 的理論分布。由於隨機的作用,使 Yi 呈現回歸平均的現象。
留言列表