眾所周知,當線性模型 Y = Xβ + ε 的共變異矩陣 Cov(ε) = σ^2 V ≠ σ^2 I 時應該用一般最小平方法 (general least squares) 極小化 Q(β) = (Y-Xβ)'V^(-1)(Y-Xβ) 而不宜採用普通最小平方法 (Y-Xβ)'(Y-Xβ),前者可適當估計 σ^2 並得到可估函數 (estimable function) x'β = ρ'Xβ 的最佳線性估計 (BLUE, Best Linear Unbiased Estimate),因為一般最小平方法相當於對原模型兩邊做相同線性變換

V^(-1/2)Y = V^(-1/2)Xβ + V^(-1/2)ε

變成誤差項零相關且同幅變異的標準情形,然後用普通最小平方法。簡單地說,在此模型,Xβ 的一般最小平方估計,也是其 BLUE,是 AY,其中

A = X ((X'V^(-1)X)^-) X'V^(-1)

式中矩陣的 ^- 運算是取一個矩陣的任一廣義反矩陣 ( R(R^-)R = R ),而 R' 是 R 的轉置。矩陣 A 是 X 的行空間上的一個投影矩陣 (AA = A),但它與普通最小平方法的垂直投影矩陣 M = X((X'X)^-)X' 不同,MM = M 且 M' = M,也就是說 AY 是把 Y 斜投影到 X 的行空間 c(X),而 MY 則是把 Y 垂直投影到 c(X)。

誤差項共變異矩陣未知常數 σ^2 的不偏估計是

MSE = Y'(I-A)'V^(-1)(I-A)Y/tr(I-A)

迴歸平方和 SSReg = Y'A'V^(-1)AY, 殘差平方和 Y'(I-A)'V^(-1)(I-A)Y,加起來等於總平方和 Y'V^(-1)Y。除了多個 V^(-1) 之外,一般最小平方法如同普通最小平方法。

然而,一般最小平方法的根本是 Cov(ε) = σ^2 V 其中 V 已知,如果要「預測」在 x* 點對應的 Y 值 y* 或估計其平均,那麼在此處 y* = x*'β + ε* 其中 Var(ε*) 是評量前述預測或估計之誤差是需要知道的。實際上 V 可能完全未知,或只能近似,或需由資料估計。對於如何對詨差項 ε 做變異成分設定及如何估計,這裡不打算討論;本文想說的是:如果真正的 V 不知道,只能用一個近似(或其實不怎麼近似)的 V* 來建構對應的投影矩陣 A*,例如用普通最小平方法,即 A* = M,結果會發生什麼事?

首先,不管 V* 如何設定(但不依賴資料),A* 是 c(X) 上的一個投影,只是其傾斜方向依 V* 而不依未知但正確的 V,因此 A* X = X,所以

E[A* Y] = E[A*(Xβ+ε)] = Xβ + A* E[ε] = Xβ

也就是說 A* Y 仍是 Xβ 的不偏估計。若 x'β 是可估函數,則存在 ρ 使 x' = ρ'X,則

E[ρ'A* Y] = ρ'Xβ = x'β

因為 Xβ 的「最小平方估計」是 A* Y,所以 x'β = ρ'Xβ 的最小平方估計取 ρ'A* Y 而不是 ρ'Y。也就是說:沒有找到「對」的 A 並不妨礙結果的不偏,只是:

E[MSE] = E[Y'(I-A*)'V*^(-1)(I-A*)Y/tr(I-A*)]
    = σ^2 tr((I-A*)'V*^(-1)V)/tr(I-A*)

結果並不是 σ^2 的不偏估計。然後,我們以為 x'β 的點估計量 ρ'A* Y 的變異數不偏估計是

MSE[x'((X'V*^(-1)X)^-)x]

但其實上列統計量的期望值是 

σ^2 [tr((I-A*)'V*^(-1)V)/tr(I-A*)] x'((X'V*^(-1)X)^-)x

如果 A* = M 即 V* = I,則上列結果簡化為

σ^2 [tr((I-M)V)/tr(I-M)] x'((X'X)^-)x

而其實估計量 ρ'A* Y 的變異數是

σ^2 x'((X'V*^(-1)X)^-)X'V*^(-1)VV*^(-1)X((X'V*^(-1)X)^-)x

當 V* = I, A* = M 時簡化為

σ^2 x'((X'X)^-)X'VX((X'X)^-)x

而正確的最小平方估計 (V* = V, A* = A) 的變異數是

σ^2 x'((X'V^(-1)X)^-)x

總結:誤差項變異不同幅,或對 V 之不完全了解而用 V* 替代,如果兩者相差很小還好,否則結果雖然最小平方估計具不偏性,但在誤差的計算和估計上則亂了套。

若不考慮誤差問題,單以對可估函數之估計來說,並非 V* = V 才能得到 BLUE。以 V* = I 來說,MY = AY for all Y 表示普通最小平方估計量 (OLSE) 恆等於 BLUE,也就是正確的一般最小平方估計量 (GLSE),McElroy (1967) 在 β 可估的迴歸模型下給了 V 的充要條件:V = (1-ρ)I+ ρ11',此處1是分量皆為 1 的行向量,也就是資料向量 Y 各分量等幅變異並且兩兩之間等相關。因此,A*Y = AY for all Y 的充要條件是

V = (1-ρ)V + ρV*^(1/2)11' V*^(1/2)

更多關於非標準假設 V = σ^2I之下可估函數之 OLSE 是 BLUE 的介紹可參考 2011 這篇 "When is the OLS estimator BLU?" (Econometrics Beat: Dave Giles'  Blog) 及其引用文獻。

對一般線性模型,OLS 為 BLUE 表示 M = A,則

X((X'V^(-1)X)^-)X'V^(-1) = X((X'X)^-)X'
<==>  X((X'V^(-1)X)^-)X' = X((X'X)^-)X'V
<==>  VX((X'X)^-)X' = X((X'V^(-1)X)^-)X'
 ==>  VX((X'X)^-)X'X = X((X'V^(-1)X)^-)X'X
<==>  VX = X{((X'V^(-1)X)^-)X'X} say = XQ

即:OLS 為 BLUE 的一個必要條件是存在 Q 使 VX = XQ。反過來,假設 VX = XQ, 即 VMX = AXQ, 這等價於

MX = V^(-1)AXQ = V^(-1)AVX
<==>  X = V^(-1)X((X'V^(-1)X)^-)X'X
<==>  VX = X((X'V^(-1)X)^-)X'X
 ==>  VX((X'X)^-)X' = X((X'V^(-1)X)^-)X'X((X'X)^-)X'
                    = X((X'V^(-1)X)^-)X'
<==>  X((X'X)^-)X' = V^(-1)X((X'V^(-1)X)^-)X'

即 M = A',故 M = A。也就是說:VX = XQ 也是 OLS 是 BLUE 的充分條件。因此,VX = XQ 是 OLS 為 BLUE 的充要條件。

條件式 VX = XQ 表示 c(VX) 是 c(X) 的子空間,那麼 c(V) 呢?它不一定是 c(X) 的子空間,但我們可以將 V 表示為

V = XΔ + ZΛ 

其中 c(Z) 為 c(X) 的垂直補空間,一個自然的選擇是取 Z = I-M。故

VX = XΔX + ZΛX

想滿足 VX = XQ,則 ZΛX 必須是零矩陣,因為除了 ZΛX = 0 以外它各行不會在 c(X)。又:V 是對稱的,所以 XΔ = Δ'X'。另外,V 要保證正確定,所以 V 必須是下列形式:

V = XΓX' + ZΘZ' + λI

反之,若 V 如上形式,則易得 VX = XQ。因此我們可以說:OLS 想要成為 BLUE,則 V 需要具上列形式。注意上列條件與 X,或更精確地說與 X 的行空間 c(X) 有關;例如在全模型 MY = AY 是 Xβ 的 BLUE,在縮減模型 Y = X0 γ + ε, 其中 X0 γ 的 BLUE 是否可用 OLS 得到。換言之,設 c(X0) 是 c(X) 的真子空間,

V = XΓX' + ZΘZ' + λI  =?  (X0)Γ*(X0)' + WΘ*W'

 

其中 c(W) 與 c(X) 正交?一般而言這似乎是不能保證的,那麼在 μ 屬於 c(X0) 對 μ 屬於 c(X) 的模型檢定問題,就必須在兩個模型 OLSE 都是 BLUE,則 V 應有如下形式

V =  (X0)Γ*(X0)' + WΩW' + ZΘZ' + λI

其中 c(X0)⊕C(W) = c(X)⊥c(Z)。如果我們問是否存在 V≠kI 使 OLSE 恆為 BLUE,那麼先前提到的普通迴歸模型(有常數項)的 V = (1-ρ)I + ρ11' 即是解答 。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()