分位數迴歸 (quantile regression),Roger Koenker; Gilbert Bassett, Jr. (1978) 提出的一種迴歸方法 (Roger Koenker; Gilbert Bassett, Jr. (1978) "Regression Quantiles," Econometrica, Vol. 46, No. 1., pp. 33-50.) 不過,中位數算是第 50 百分位數,而最小絕對離差法可算是中位數迴歸,卻是在 1760 年就有人提出,比最小平方迴歸還早。
令隨機變數 Y 的分布函數為 F,其(第)τ 分位數 (0<τ<1) 定義為
q(τ) = inf {y; F(y) ≧ τ} = sup{x; F(x) < τ}
注意 q(τ) 可以說是 F 的虛擬反函數,它滿足 F(q(F(y))) = F(y), 對所有 y in R。在此定義下,若 a > q(τ), 則 a 在 {y; F(y) ≧ τ} 中,故 F(a) ≧ τ;反之,a < q(τ), 則 F(a) < τ。因此,
F(q(τ)) ≧ τ > F(q(τ)-) (F在 q(τ) 之左極限。)
若 F 是連績型,則存在一點 y 使 F(y) = τ,故 F(q(τ)) = τ。
如果有自分布為 F 的群體抽出的(簡單)隨機樣本 Y1,...,Yn,如何估計其 τ 分位數呢?直觀地,以樣本分布函數 (sample distribution function) 的方法,我們定義樣本分布的 τ 分位數為
q*(Y) = min{Yi; Fn(Yi) ≧ τ} = sup{Yn; Fn(Yi) < τ}
也就是將 Yi 由小而大排序,第 {nτ} 個 Yi,此處 {nτ} 意謂 nτ 向上取整數,也就是無條件進位,或稱天花板 (ceiling) 函數。以上列樣本分位數估計群體分位數,就像以樣本中位數估計群體中位數。
樣本中位數 a = median(Y) 使 Σ|Yi - a| 為最小;換個方式來想,它相當於極小化
D(a) = (1/2)Σ_{Yi≦a} (a-Yi) + (1/2)Σ_{Yi>a} (Yi-a)
對正負離差都給予權值 1/2 但計算時負離差取絕對值。那麼如果考慮
D(a) = (1-τ) Σ_{Yi≦a} (a-Yi) + τ Σ_{Yi>a} (Yi-a)
我們以群體來看,q(τ) 簡記為 q,用 Lebesgue-Stieltjes 積分表示(樣本則把 F 換成 Fn,樣本分布函數;q 換成 q*,樣本分位數)。當 a < q 時,
D(a) = (1-τ) ∫_{y≦a} (a-y) dF(y) + τ ∫_{y>a} (y-a) dF(y)
= (1-τ) ∫_{y<a} (a-y) dF(y) + τ ∫_{y≧a} (y-a) dF(y)
= (1-τ) ∫_(-∞,a) (a-y) dF(y)
+ (1-τ)∫_[a,q) (a-y) dF(y) + (1-τ)∫_[a,q) (y-a) dF(y)
+ τ∫_[a,q) (y-a) dF(y) + τ ∫_[q,∞) (y-a) dF(y)
= (1-τ) ∫_(-∞,q) (a-y) dF(y) + τ ∫_[q,∞) (y-a) dF(y)
+ (1-τ)∫_[a,q) (y-a) dF(y) + τ∫_[a,q) (y-a) dF(y)
= (1-τ) ∫_(-∞,q) (q-y) dF(y) + τ ∫_[q,∞) (y-q) dF(y)
+ (1-τ) ∫_(-∞,q) (a-q) dF(y) + τ ∫_[q,∞) (q-a) dF(y)
+ ∫_[a,q) (y-a) dF(y)
= D(q) + (q-a)(τP[Y≧q]-(1-τ)P[Y<q]) + ∫_(a,q] (y-a) dF(y)
因 P[Y<q] < τ,P[Y≧q] > 1-τ, 上式中間項大於 0;最後一項是非負函數的積分,故亦非負。所以結果得: D(a) > D(q)。
當 a > q 時,
D(a) = (1-τ) ∫_{y≦a} (a-y) dF(y) + τ ∫_{y>a} (y-a) dF(y)
= (1-τ) ∫_(-∞,q] (a-y) dF(y) + (1-τ)∫_(q,a] (a-y) dF(y)
+ τ∫_(q,a] (y-a) dF(y) + τ∫_(q,a] (a-y) dF(y)
+ τ∫_(a,∞) (y-a) dF(y)
= (1-τ) ∫_(-∞,q] (a-y) dF(y) + τ ∫_(q,∞) (y-a) dF(y)
+ ∫_(q,a] (a-y) dF(y)
= (1-τ) ∫_(-∞,q] (q-y) dF(y) + τ ∫_(q,∞) (y-q) dF(y)
+ (1-τ) ∫_(-∞,q] (a-q) dF(y) + τ ∫_(q,∞) (q-a) dF(y)
+ ∫_(q,a] (a-y) dF(y)
= D(q) + (a-q)((1-τ)P[Y≦q]-τP[Y>q]) + ∫_(q,a] (a-y) dF(y)
類似地,因 P[Y≦q] ≧ τ, P[Y>q] ≦ 1-τ, 故上式中間非負;最後一項是非負函數的積分,故亦非負。所以 D(a) ≧ D(q)。
以單一樣本而言,若群體具連續型分布並且有機率密度 f(y);則樣本 τ 分位數在大樣本有漸近分布
q* asymptotical distributed as N(q, τ(1-τ)/{n(f(q))^2}
例如從常態群體抽樣,其樣本分位數之漸近變異數為
AsVar(q*) = 2πτ(1-τ)σ^2 e^{-(q-μ)^2/σ^2}/n
以中位數而言就是 πσ^2/(2n),相比於樣本平均數的 σ^2/n,顯然用樣本中位數估計 μ 的統計效率較差;但以其他群體而論又不同,例如群體如果是 Cauchy 分布,則樣本平均數期望值都不存在更別說變異數,但樣本中位數仍是分布中心點的良好估計,也可對其他分位數進行估計等統計推論。
上面是單一群體單一樣本分位數問題,然而本文要談的是分位數迴歸,不能不談本文的主題。不過,分位數是中位數的一般化,中位數就是 0.5 分位數,顯然,中位數迴歸的方法,也就是最小絕對離差和的方法,同樣也適用於分位數迴歸,同樣的線性規劃限制式,只是目標函數做了點修改。另外,尋找極值的內部點法 (interior point method) 是另一種被使用於解決分位數迴歸計算問題的方法。許多統計軟體及資料分析語言都有分位數迴歸的程序,例如 R 就有多個函數分別以內部點法和外部點法 (exterior point method) 進行分位數迴歸與分析。分位數迴歸可用線性模型或非線性模型,當然如果是非線性模型則目標函數或限制式不再是線性,不再是線性規劃問題,就不適合單純形法 (simplex method) ; 但內部點法和外部點法並不限於線性規劃問題。
以線性模型為例,模型仍是普通線性迴歸的模型:
Y = Xβ + ε
誤差項仍假設是 i.i.d. 的,只是現在誤差項可能存在或不存在期望值。由於誤差項 ε 諸成分假設是 i.i.d.,因此其分位數對 X 畫圖呈現的是水平的,而 Y 的分位數迴歸函數是
q(x) = q_τ + x'β
其中 x 是自變數子空間上一個點,以行向量(單行矩陣)表示,所以加個轉置運算符。上列式中 q_τ 是誤差項的 τ 分位數,實際估計結果 q_τ 和 Xβ 的常數項結合。如果假設誤差項 0.5 分位數,也就是中位數是 0,則 0.5 分位數迴歸估計的就是前面 Y 模型中的 Xβ,其他分位數迴歸則相互間形成平行線、面或超平面。如果配適不同分位數的迴歸如孩童生長曲線,發現相互間明顯不平行,那就表示至少有分散度不等幅 (heterogeneous) 的問題。仍以孩童成長為例,不同月齡、年齡的成長是累積的,前一時的偏高或偏低有可能累積到下一時,所以不只有異質(分散度不等幅)問題,還有相互關聯問題。單純的異質性可用加權方式解決;若觀測值誤差項之間相互有關聯,則需要更一般的線性變換。不過,現在我們考慮的模型其理論期望值都可能不存在,更別說變異數了。但是,普通迴歸方法的殘差分析仍然可用以了解模型適當與否及如何修正。
為什麼需要假設誤差項 i.i.d.?想像一堆資料 Yi 各來自不同群體,有不同中心、不同分散度、不同型態等,那麼對這樣一堆資料能說什麼?統計方法無非是集合有相同性質的觀測值,藉著審視其規律而推測其共同性質。由於諸 ε_i 來自同一分布,談其共同分布的分位數才有意義,才有可能。若諸 ε_i 來自不同分布,談分位數必須就個別 ε_i 的分布談,卻只有一個不可見(隱藏於 Yi 內)觀測值,如何談?因此不論是看平均數或看分位數,必須假設諸 ε_i 是來自同一分布的隨機樣本,才可能推論其背後共同的群體特性。
設誤差項共同分布有機率密度 f(.),則 τ 分位數迴歸係數估計 b 在大樣本有漸近常態分布,其漸近共變異矩陣為
τ(1-τ)D^(-1)X'XD^(-1)/n, D = f_Y(Xβ)XX'
如果 X 矩陣是隨機的,則式中 X'X 及 D 矩陣都以其期望值取代。式中 f_Y 用的是 Y 的機率密度,其實只是把誤差項機率密度整個平移,ε 分位數 q_τ 平移到 q(X)。更多的分位數迴歸推論可藉助 bootstrap 等方法。 本文就談到這裡了。