線性模型 (Linear models) 指(矩陣表示):

Y = Xβ + ε,  E[ε] = 0,  Cov(ε) = σ^2 V, V 已知

式中 Y 是 n×1 資料向量,X 是 n×k 模型矩陣或設計矩陣,β 是 k×1 未知的模型參數向量,ε 是 n×1 的不可觀測誤差向量。

此線性模型可分 4 個類別(或: 4 個等級):

(1) V = I;           (1') V = I;          
(2) V 可逆;          (2') V ≠ I 但可逆;
(3) C(X) 是 C(V) 的子空間;    (3') V 不可逆,C(X) 是 C(V) 的子空間;
(4) 任意 V。                   (4') V 不可逆,C(X) 非 C(V) 的子空間。

上面左邊的列法是等級式的列法;而右邊等於將左邊各等級排除前一等級,是分類式的列法。

第一類線性模型假設 Cov(ε) = σ^2 I, 這是最早、最常被使用的模型;第二類或第二級線性模型是 Cov(ε) = σ^2 V, 其中 V 已知,可逆,可參考「線性模型:當誤差非等幅變異時」一文,理論上做一個可逆線性(資料)變換可以變成第一類模型,最終等價於採用加權或一般化最小平方法,或從幾何上斜交投影來看 Xβ 的最佳線性不偏估計。。

若 V 有可能不可逆,假設 rank(V) = m,則可分解 V = EDE', 其中 Q 是 n×m 各行為相互正交之單位向量。首先,由於 V 是對稱實矩陣,存在正交矩陣 Q* = [E F] 使 V = Q* D* Q*', 其中 D* 是 V 的特徵根所形成的對角線矩陣,令 D* 分割為 2×2 區塊矩陣,左上 m×m 方陣 D 是由所有非零特徵根構成的對角線矩陣,其餘 3 部分都是 0 矩陣。E 是對應非 0 特徵根的特徵向量,F 則是對應特徵值 0 的特徵向量。由於 V 是非負確定,因此 D 的對角線都是正值。令 R = D^{1/2} (取正根), 則 V = QQ' 其中 Q = ER 是 n×m 行滿秩。取 Q^L =R^{-1}E', 則 Q^L Q = I,即:Q^L 為 Q 之左反矩陣,(Q')^R = (Q^L)' 是 Q' 的右反矩陣。

考慮兩模型:

(1)  Y = Xβ + ε,  E[ε] = 0, Cov(ε) = σ^2 V,

(2)  Q^L Y = Q^L X β + Q^L ε,  E[Q^L ε] = 0, Cov(Q^L ε) = σ^2 I
   或  Y* = X*β + ε*,  E[ε*] = 0, Cov(ε*) = σ^2 I

模型 (2) 是由模型 (1) 經變數轉換得到的。但與 V 可逆時不同,模型 (2) 並不能等價轉回模型 (1)。

在第三級或第三類線性模型中,我們假設 C(X) 包含於 C(V),換言之,前者是後者的子空間,而後者又是 R^n 的子空間。

在模型 (1),Λ'β 可估若且唯若存在 P 使 Λ' = P'X;在模型 (2),Λ'β 可估的條件是存在 P*使 Λ' = P*' Q^L X。顯然,模型 (2) 可估的函數,在模型 (1) 也是可估 (P' = P*'Q^L);因為 C(X) 包含於 C(V),在模型 (1) 可估的線性函數在模型 (2) 也可估,因存在 C 使

X = VC = QQ'C = Q (Q^L X),

故 Xβ 在 (2) 可估,所以 Λ' = P'X 時 Λ'β 也可估。

假設 C(X) 包含於 C(V),則:
在模型 (1) AY 是 Λ'β 的 BLUE 若且唯若 AQ (Q^L Y) 在模型 (2) 是 Λ'β 的 BLUE;或說:在模型 (2) A* (Q^L Y) 是 Λ'β 的 BLUE 若且唯若 (A*Q^L)Y 在模型 (1) 是 Λ'β 的 BLUE。

[證]
首先,如果 AY 在 (1) 不偏,即 AXβ = Λ'β,對任意 β 成立,則 AX = Λ'。
在 (2) 得 AQ(Q^L Xβ) = AQ(Q^L QQ'Cβ) = AQQ'Cβ = AXβ = Λ'β, 任意 β。
反之,如果 AQ(Q^L Y) 在 (2) 不偏,AQ Q^L Xβ = Λ'β for all β,則
AQ Q^L X = Λ'。在 (1) 得
E[AY] = AXβ = AQQ'Cβ = AQ Q^L Q Q'Cβ = AQ Q^L Xβ = Λ'β。
故 AY 在 (1) 不偏若且唯若 AQ Q^L Y 在 (2) 不偏。

以第二種講法,在 (1) 估計式是 (A* Q^L) Y,期望值是 (A* Q^L) Xβ;
在 (2) 估計式是 A* (Q^L Y),期望值是 A* Q^L Xβ, 兩估計式在兩模型下
期望值一樣,所以同時是不偏或同時有偏。

在模型 (1), Cov(AY) = A σ^2 V A' = σ^2 AQQ'A';
在模型 (2), 對應的 Cov(AQ(Q^LY)) = σ^2 AQQ'A'.
所以任意相對應的線性不偏估計式得到相同的共變異矩陣。
由於兩模型之線性不偏估計成一對一對應關係,而其對應的共變異矩陣相等,
因此如果 AY 在模型 (1) 是 BLUE,對應的 AQ (Q^L Y) 在 (2) 也是 BLUE;
反之亦然。

以第二種講法來看,模型 (2) 的 A* (Q^L Y) 和 (1) 的 (A* Q^L)Y 對應,
後者在 (1) 共變異矩陣為 (A* Q^L) σ^2 QQ' (Q^L)'(A*)' = σ^2 A* A*';
前者在模型 (2) 得共變異 A* (σ^2 I) A*' = σ^2 A* A*',
兩模型對應之不偏估計的共變異矩陣一致,因為線性不偏估計在兩模型間
一對一且映成,並沒有哪個模型多哪個少的問題,因此模型 (1) 的 BLUE
其對應的模型 (2) 估計式也是 BLUE; 反過來也對。

上列結果兩模型的估計式,第一種方法是先找模型 (1) 的,然後找對應模型 (2) 的估計,它們可能是不同的估計,但本質上是幾乎確定等價。意思是兩個模型計算出來的估計值可能是有差異的,但如果觀測資料 Y 在 C(V) 中,它們會得到相等結果,而 Y 在 C(V) 上的機率是 1,所以期望值和共變異矩陣相同。第二種方式是先在模型 (2) 找,再對應地設定模型 (1) 的估計式,如此找出來的對應估計式,本質上是完全相同的,不管是就原資料模型來看,或就變數轉換後楔型來看,它們其實是相同的。

在模型 (2), C(X) 在 C(V) 時,則存在 C 使 X = QQ'C = Q (Q^L X),故 Xβ 可估,其 BLUE 即 LSE:

Xβ^ = Q(Q^L X β^) =  X [X' (Q^L)'(Q^L) X]^- X' (Q^L)'(Q^L) Y 

式中 (Q^L)'(Q^L) 是 V^- 的一個版本。是否可把上列估計式改寫成

Xβ^ = AY,  A = X (X' V^- X)^- X' V^-

首先,由於 C(X) 在 C(V) 中,所以 X = VC,則

X' V^- X = C'V V^- VC = CVC

這表示 X' V^- X 不因 V^- 之選擇而不同。其次,設 Z = Q^L X,

M_Z = Z (Z'Z)^- Z' = Q^L X [X' (Q^L)'(Q^L) X]^- X' (Q^L)'

並不因 Z'Z = X' V^- X 之廣義反矩陣取哪個而不同。再者,因

X = QQ'C = Q Q^L QQ'C = QZ

故得:V^- = (Q^L)' Q^L 時

A = Q M_Z Q^L = X (X' V^- X)^- X' (Q^L)' Q^L

與一般式 A = X (X' V^- X)^- X' V^- 差在最右邊的 V^- 會造成影響。不過,如果

Y in C(X,V) = C(V)  (因 C(X) 包含於 C(V))

則 AY 並不受 A 中 V^- 之不同選擇而有不同結果。但

P[ Y - E[Y] in C(V) ] = 1

故不同選擇之 V^- 雖使 A 有所不同,但 AY 結果之差異僅止於機率 0 的子集,意即 A 和 A* 是 A 的定義式中 V^- 之不同選擇得到的不同版本,則 A Y = A* Y (a.s.), 即:P[ A Y = A* Y ] = 1。

上述 P[ Y - E[Y] in C(V) ] = 1 是什麼意思?舉例來說,若有 X, Y 兩隨機變數,一般情形其觀測值 (x, y) 應該散佈在二維平面上的,而其共變異矩陣 V 是可逆的。如果 V 不可逆,C(V) 是平面上過原點的一直線,則 (x, y) 絕大部分將落在過 μ = (E[X], E[Y]) 與 C(V) 平行的直線上。不在前述直線上的點佔多少機率?上面的機率 1 等式說明;即使可能有 (x, y) 資料點落在直線外,以機率來說,是 0。這並不矛盾,就像如果 X 的分布是連續的,[X = x], X 恰好等於某特定值,是可能的,但機率是 0。

[證]
不失一般性,假設 E[Y] = 0, Cov(Y) = V。
令 M = M_V (在 V 上的垂宣投影暫以 M 表示),並設 Y = MY + (I-M)Y,
則 E[(I-M)Y] = 0 且 Cov((I-M)Y) = (I-M)V(I-M) = 0,
故 P[(I-M)Y = 0] = 1, 即 P[MY = Y] = 1。
因 M 是 V 上的(垂直)投影,MY = Y 若且唯若 Y in C(V),
所以 P[ Y - E[Y] in C(V) ] = 1。注意 C(σ^2 V) = C(V)。

當 V 可逆時,A = X (X' V^{-1} X)^- X' V^{-1} 是 C(X) 上一個投影矩陣。此處

A X = X (X' V^- X)^- X' V^- X= VC (C'VC)^- C'VC

令 Z = V^{1/2} C,則

A X = V^{1/2} Z (Z'Z)^- Z' Z = V^{1/2} Z = X

這意謂 A^2 = A,是 C(X) 上一個投影矩陣。所以 Xβ 之一個 BLUE 為 Xβ^ = AY,任意可估函數 Λ'β = P'Xβ 之一個 BLUE 為 Λ' β^ = P'AY。

我們說 AY 是一個(在模型 (1))Xβ 的 BLUE,是因為模型 (1) 的 AY 對應模型 (2) 的 AQ (Q^L Y);而 AQ (Q^L Y) 在模型 (2) 已前面證明是 Xβ 的 BLUE;更前面還證明過 AY 在模型 (1) 是 Λ'β 的 BLUE 若且唯若 AQ (Q^L Y) 在模型 (2) 是 Λ'β 的 BLUE。因此 P'AY 確實是 P'Xβ 的 BLUE。但,BLUE  是否唯一呢?

若 AY, BY 都是某線性函數的 BLUE,則 P[AY = BY] = 1.

[證]
令 C = (A + B)/2,則 E[CY] = E[AY] = E[BY],CY 也是線性不偏。
由於 AY, BY 都是 BLUE, 它們的共變異矩陣一致。
令 T = c'CY, U = c'AY, W = c'BY, 則
Var(T) = (Var(U) + Var(W) + 2Cov(U,W))/4
       = (1/2)Var(U)(1+Corr(U,W))
若 Corr(U,W) < 1 則 Var(T) < Var(U) = Var(W), 這與 U, W 是
對應線性函數的 BLUE 矛盾, 所以 P[U = W] = 1. 但
對任意 c 均得 P[c'AY = c'BY] = 1 若且唯若 P[AY = BY] = 1.

也就是說:只要 Λ'β 可估,在 C(X) 包含於 C(V) 的條件下,BLUE 存在,而且唯一性(以機率 1 觀點)成立。有時我們喜歡更強的結論:唯一性在某些情況碓實成立,不只限於「以機率 1」的狀態成立:

若 AY 和 BY 在模型 (1) 都是 Xβ 的 BLUE,則 AY = BY 成立於 Y in C(X,V)。

[證]
依假設,E[AY] = E[BY] = Xβ for all β, 故 AX = X = BX,
所以若 Y in C(X), 則 AY = BY.
設 Y = Xa + Vb,則 (A-B)Y = (A-B)Vb,也就是說我們需要證明:
   若 Y in C(V) 則 AY = BY
令 W = {y in C(V): Ay = By},則 W 是 C(V) 的子空間。
由於 P[Y - Xβ in C(V)] = 1, 即 P[ε in C(V) ] = 1,
但 P[Aε = Bε] = P[AY = BY] = 1,
因此 P[ε in C(V) 且 Aε = Bε] = 1, 即 P[ε in W] = 1,
故 σ^2 V = ∫εε' dP = ∫_{ε in W} εε' dP。
若 S 是 R^n 上一個凸集合, P[Z in S] = 1, 則 E[Z] in S。
今 ε in S = W, εε' 各行也在 W 中, 所以 
  E[εε'] = ∫_{ε in W} εε' dP
各行都在 W 中, 所以
  C(V) = C(σ^2 V) = C(∫_{ε in W} εε' dP)
是 W 的子空間。但依定義 W 就是 C(V) 的子空間。
所以 W = C(V),換言之,Y 在 C(V) 中則 AY = BY。

在第三級(類)線性模型中我們允許 V 不可逆,但必須 C(X) 包含於 C(V)。特殊選擇的 V^- = (Q^L)'(Q^L) 使我們得到一個特殊的投影矩陣 A 和 Xβ 的 BLUE: Xβ^ = AY。前面我們得知任意選擇的 V^- 都能得到 Xβ 的 BLUE,也得知若有其他 BLUE,則它們的差別止於機率 0 子集。最後這個結果更說明了:Y 在 C(X,V) 時所有(Xβ 的)BLUE 完全相等。事實上關於唯一性的結果沒有假設 C(X) 包含於 C(V), 只說如果(Xβ 的)BLUE 存在,則它幾乎是唯一的,當 Y 在 C(X,V) 中時得到的 BLUE 是唯一的。

如果 C(X) 不是 C(V) 的子空間呢?在模型 (2),可估的線性函數 Λ'β 其中必須滿足 Λ' = P'X 對某個 P 成立,X'β 當然是可估的;但在模型 (2),Λ'β 可估意謂存在 P* 使 Λ' = P*' Q^L X,例如 X 要可估必須能找到 P* 使 X = P*' Q^L X,這有些困難。但我們的目標是模型 (1),既然無法如前透過模型  (2) 求解,我們只能考慮另一方向:不做變數變換了,改從誤差項考慮:

(3) Y = Xβ + e,  E[e] = 0,  Cov(e) = σ^2 V*

模型 (3) 和模型 (1) 只有誤差項的共變異矩陣結構被改變了,因此 Λ'β 在 (1) 可估若且唯若在 (3) 可估,線性估計室 AY 對 Λ'β 在模型 (1) 不偏若且唯若在 (3) 不偏,要考慮的問題是:AY 如果在一個模型是 BLUE,是否在另一個模型仍是 BLUE?由不偏性知道 AY 對 Xβ 不偏的要求是 AX = X,因此如果 V* = V + XUX',其中 U 為任意非負確定矩陣,則

σ^2 AV*A' - σ^2 BV*B' = σ^2 A(V+XUX')A' - σ^2 B(V+XUX')B
    = (σ^2 AVA' - σ^2 BVB) + σ^2 XUX' - σ^2 XUX'

兩不偏估計之共變異矩陣在一模型的差和在另一模型一致,所以,在模型 (1) 是 BLUE 若且唯若它在模型 (3) 是 BLUE。因此,對於第 4 類線性模型,就是找一對稱非負確定 U,以

T = V + XUX'

取代 V,使 C(X) 包含於 C(T),則得 Xβ 之 BLUE 一解

Xβ^ = AY,  A = X (X' T^- X)^- X' T^-

因為由前面對第三類線性模型的討論,我們知道模型 (3) 的一解如上;而剛才我們證明了模型 (1) 和模型 (3) 的 BLUE 是一樣的。再者,由前面 BLUE 之唯一性的結論知道:不同 U 的選取可能影響 BLUE, 但它們相互不等的集合是 C(X,V) 以外的部分,其機率為 0。剩下的問題是:使 C(X) 包含於 C(T) 的 T, 或 U, 存在嗎?

首先,C(X) 包含於 C(T) 則 X = TZ = T T^- T Z = T T^- X;反之,若 T T^- X = X,當然 C(X) 包含於 C(T)。其次,若 T 使 C(X) 包含於 C(T),

0 = (I-TT^-)T(I-TT^-)'
  = (I-TT^-)V(I-TT^-)' + (I-TT^-)XUX'(I-TT^-)'

由於最後兩項都是非負確定,所以它們只能等於 0 矩陣,特別的是 (I-TT^-)XU = 0,如果取 U = I, 則得 X = T T^- X。所以 T = V + XX', 即 U = I, 完全符合要求。

回頭仔細看模型:

Y = Xβ + ε,  E[ε] = 0,  Cov(ε) = σ^2 V

這模型顯示 Y 由 Xβ in C(X) 與 ε a.s. in C(V) 兩部分組成,所以,以機率 1 資料是在 C(X)+C(V) = C(X,V) 中。另一角度來看,

Xβ = Y - ε,   -ε in C(V)

所以可以說 Xβ in Y+C(V) = {y: y = Y + e, e in C(V)}。那麼,Xβ 的估計式除了不偏以外,我們是否可以要求

Xβ^ in C(X) for all Y;  Xβ^ in Y+C(V)  for Y in C(X,V)?

當 Y 在 C(X,V) 時,Y = Xβ + ε 隱含 ε 在 C(V) 中;要求 Xβ^ 在 Y+C(V) 意指 Y - Xβ^ 在 C(V) 中。

線性模型 Y = Xβ + e, e 具平均 0 共變異 V,則 μ = Xβ 的估計式 μ^ 被稱為具一致性(不是大樣本方法中的一致性)意謂:
(1) 對所有資料 Y 均得 μ^ 在 C(X) 內,即 μ^ = Xb;
(2) 若 Y 在 C(X,V) 中,則 μ^ 在 Y + C(V)。

因 C(X,V) 是 C(X) 與 C(V) 的和,卻不是直和,所以條件 (2) 在數學上無法直接說 ε 在 C(V) 則 ε^ 在 C(V),但因 ε 是理論誤差(殘餘),不可觀測;而 ε^ 是估計殘差(殘餘),人為設定。因此不妨做這樣的理解,更能了解定義之合理性。

線性不偏估計 Xβ^ = AY 只要求 AX = X;而一致性的第一個條件要求 AY 必須在 C(X) 上,這使得 A 必須為一個投影矩陣;第二個一致性的條件要求 Y 在 C(X,V) 時 (I-A)Y 必須在 C(V)。由於 A 是 C(X) 上的投影,因此,

若 Y = Xb + Ve, 則 (I-A)Y = (I-A)Ve 必須在 C(V)

也就是說:Y 在 C(V) 時 (I-A)Y, 及 AY 必須落入 C(V)。反之,若 A 是 C(X) 上的投影,且 Y in C(V) 蘊涵 AY in C(V),則對任意 Y in C(X,V),都得 (I-A)Y 在 C(V) 中,所以 AY 在 Y+C(V), 也就是一致性的第二個條件。

考慮投影矩陣 A = X (X' T^- X)^- X' T^-,則 AY 是 Xβ 在模型 (1) 的 BLUE 且滿足一致性的第一個條件;由於所有 BLUE 兩兩以機率 1 相等,因此我們可以說 BLUE 都幾乎確定滿足第一個一致性條件。此外,假設 BY 是 Xβ 的一個一致性線性不偏估計 (CLUE),則

若 Y in C(X,V) 則 BY in Y+C(V)

Y = Xβ + ε  in C(X,V) 則 ε in C(*V)

BY = Xβ + Bε  in Y+C(V) 則 (I-B)ε in C(V) 則 Bε in C(V)

設 ρ⊥C(V),因 ε in C(V) a.s. 故 Bε in C(V) a.s. 故 ρ'Bε = 0 a.s., 故 Var(ρ'Bε) = 0。而 AY 是 Xβ 的 BLUE, 故 ρ'AY 是 ρ'Xβ 的 BLUE, 所以

0 ≦ Var(ρ'AY) = Var(ρ'Aε) ≦ Var(ρ'BY) = Var(ρ'Bε) = 0

所以 ρ'AY = ρ'Xβ a.s., 則 ρ'Aε = 0 a.s.。因為這對任意 ρ⊥C(V) 都成立,所以 Aε in C(V) a.s. (注意 Y in C(X,V) 則 Bε = 0)所以任意 BLUE, AY, 都是具幾乎確定一致性,即 (I-A)Y in C(V) a.s.。現在如果考慮

AY = X (X' T^- X)^- X' T^- Y

首先 (I-A)Y in C(V) a.s.,故

(I-A)V = (I-A) ∫ (Y-Xβ)Y' dP = ∫_{(I-A)Y in C(V)} (I-A)YY' dP

故 C((I-A)V) 包含於 C(V),即 Y 在 C(X,V) 中則

(I-A)Y = (I-A)(Xβ+Ve) = (I-A)Ve 在 C(V) 中。

也就是說 X (X' T^- X)^- X' T^- Y 是 Xβ 的 BLUE 中具一致性的一個。

雖然上面的討論證明了 Xβ 的 BLUE 中存在一個具一致性的,但有一個前提:需要有一個 CLUE。設 BY 為 CLUE, 首先不偏性要求 BX = X;其次,對任意 Y,BY 要在 C(X),所以 BY = Xb;最後,如果 Y = Xβ + Vγ 則 (I-B)Y 要在 C(V) 中。資料 Y = Xβ + Vγ 可以改寫成模型

(4) Y = Xβ + (I-M)Vγ + e,  E[e] = 0

此模型實為模型 (1) 之 ε 分解成 (I-M)Vγ + e 兩項,其中 e = MVγ。考慮最小平方估計不需要理會誤差項共變異矩陣,得

γ^ = [V(I-M)V]^- V(I-M)Y

這意思是模型 (1) 之 Xβ 可用

Xβ^ = MY - e^ = MY - MVγ^ = {M - MV  [V(I-M)V]^- V(I-M)}Y

即: B = M - MV  [V(I-M)V]^- V(I-M),故

(1) BX = MX - MV  [V(I-M)V]^- V(I-M)X = X
(2) C(B) 包含於 C(X), 故對任意 Y 均得 BY in C(X)
(3) (I-B)V = (I-M)V + MV [V(I-M)V]^- V(I-M)V
         = V [V(I-M)V]^- V(I-M)V
            + (I-M)V - (I-M)V [V(I-M)V]^- V(I-M)V

結果 (3) 之最後兩項抵消掉,因此當 Y 在 C(V) 中時,(I-B)Y 也在 C(V) 中。此證明了 BY = MY - MVγ^ 是 Xβ 的一個 CLUE。

至此我們了解一個一般線性模型 Y = Xβ + ε, E[ε] = 0, Cov(ε) = σ^2 V 如何得到一個合理甚至具有「最佳」性的估計:

取 U 非負確定,使 T = V + XUX' 之行空間包含 C(X);

則 Xβ^ = AY 其中 A = X (X' T^- X)^- X' T^- 。

若 C(X) 包含於 C(V),則上述 T 即 V,特別是 V 可逆時 C(X) 當然包含於 C(V),因為後者是 R^n,完整的資料空間。那麼,檢定問題又該如何進行?假設 Λ'β 可估,即存在 P 使 Λ' = P'X,則

Cov(Λ'β^) = Cov(P'Xβ^) = Cov(P'AY) = σ^2 P'AVA'P

其中 σ^2 仍如 V 可逆時一般,以加權離差平方和為基礎進行估計:

SSE = Y'(I-A)' T^- (I-A)Y

這是依模型 (3) 而來的,但計算 E[SSE] 時必須考慮真正的 Y 是模型 (1) 而非 (3):

E[SSE] = E[Y'(I-A)' T^- (I-A)Y] = tr(E[(I-A)' T^- (I-A)YY'])
   = σ^2 tr((I-A)' T^- (I-A)V) 

首先由 A' T^- A = T^- A = T^- X (X' T^- X)^- X' T^- = A' T^-,得

(I-A)' T^- (I-A) = (I-A)' T^- = T^- (I-A)

但似乎難以再簡化,因此我們令 C = (I-A)' T^- (I-A),則

(σ^2)^ = MSE = SSE/tr(CV) = [Y'(I-A)' T^- (I-A)Y]/tr(CV)

對 Λ'β = 0 的檢定統計量:

(β^)'Λ (P'AVA'P)^- Λ'β^/(rank(Λ).MSE)

也可考慮等價的縮減模型

Y = Zγ + ε,  E[ε] = 0,  Cov(ε) = σ^2 V

而縮減模型的殘差平方和

SSE0 = Y'(I0-A0)' T0^- (I-A0)Y = Y' C0 Y

檢定假說 H0: Y = Zγ + ε 對 Ha: Y = Xβ + ε 之檢定統計量為

F = [(SSE0 - SSE)/tr((C0-C)V)]/MSE

雖然以 T, T0 取代了 V,但基本形式與 V 可逆時沒太大差別。問題是:

是否能保證 C0 - C 或 Y'(C0-C)Y 是非負確定?

如果 C(X) 是 C(V) 的子空間,則

Y'(A-A0)' V^- (A-A0)Y
    = (Y'A' V^- AY) + (Y'A0' V^- A0 Y)
        - (Y'A0' V^- AY) - (Y'A' V^- A0 Y)
    = (Y'A' V^- AY) + (Y'A0' V^- A0 Y)
        - (Y'A0' A' V^- Y) - (Y' V^- A A0 Y)
    = (Y'A' V^- AY) + (Y'A0' V^- A0 Y)
        - (Y'A0' A0' V^- Y) - (Y' V^- A0 A0 Y)
    = (Y'A' V^- AY) - (Y'A0' V^- A0 Y)
    = SSE0 - SSE

其實是 (A-A0)' V^- (A-A0) = (A' V^- A) -( A0' V^- A0),而關鍵在於 A A0 = A0 = A0^2,因為 A X0 = X0。

當 C(X) 不是 C(V) 的子空間時,將兩「殘差平方和」分別表示其對應的「總平方和」和「模型(迴歸)平方和」的差:

SSE = Y'CY = Y'(I-A)' T^- (I-A)Y = (Y' T^- Y) - (Y'A' T^- AY)
SSE0 = (Y' T0^- Y) - (Y'A0' T0^- A0 Y)

兩者不只模型平方和不同,其總平方和亦有別;而模型平方和之差也不只是 A 和 A0 的差別,還有 T^- 和 T0^- 的不同。

為了解前述縮減模型與全模型殘差平方和增量的特性,我們先看一些關於投影矩陣 A,殘差二次式矩陣 C,及相關二次式矩陣的性質的。首先,由 T = V + XUX' 可得 C(T) = C(X,V):

假設 y in C(T), 則可得 y = Tc = Vc + XUX'c in C(X,V).
反之,若 y in C(X,V), 則因 C(X) 是 C(T) 之子空間, X = TZ,
   y = Xb + Vc = Tc +X(b-UX'c) = T[c + Z(b-UX'c)]
即 y in C(T)

關於 A,我們有:

(A' T^- A) = (A' T^-) = (T^- A)
      A'T^-A = [T^- X (X' T^- X)^- X'] T^- [X (X' T^- X)^- X' T^-]
                  = T^- [X (X' T^- X)^- X' T^- X] (X' T^- X)^- X' T^-
                  = T^- X (X' T^- X)^- X' T^- = T^- A = A' T^-

(I-A)'T^-(I-A) = (I-A)'T^- = T^-(I-A)
      (I-A)' T^- (I-A) = (T^-) - (A' T^-) - (T^- A) + (A' T^- A)

AV = VA',  (I-A)V = V(I-A)'
      X (X' T^- X)^- X' = X (X' T^- X)^- (Z' T)
            = X (X' T^- X)^- (Z' T T^- T)
            = AT = AV + AXUX' = AV + XUX'
     得 AV = [X (X' T^- X)^- X'] - XUX' = VA'

(VT^) (I-A) = (TT^-)(I-A), (VT^-)(I-A)V = (I-A)V
     (VT^-)(I-A) = V(I-A)'T^- = T(I-A)'T^- = (TT^-)(I-A)
     (VT^-)(I-A)V = (TT^-)(I-A)V = (TT^-)(I-A)T 
            = (T T^- T)(I-A)' = T(I-A)' = (I-A)T = (I-A)V

關於 C,可得:

CVC = C;  C0 V C0 = C0
       CVC = (I-A)'(T^-)(I-A)V(I-A)'(T^-)(I-A)
               = (I-A)'(T^-)(I-A)T(I-A)'(T^-)(I-A)
               = (I-A)'(T^-)T(T^-)(I-A)
     可取 T^- 使 (T^-)T(T^-) = T^-
     故 CVC = (I-A)'(T^-)(I-A) = C
     同理, C0 V C0 = C0

CV(C0)V = CV
     CV(C0)V = CV(I-A0)'(T0^-)(I-A0)V
          = C(T0)(I-A0)'(T0^-)(I-A0)(T0)
          = (I-A)'(T^-)(I-A)(I-A0)(T0)(T0^-)(T0)
          = (I-A)'(T^-)(I-A)(I-A0)V
          = (I-A)'(T^-)(I-A)V = CV

CV(C0) = C(T0)(T0^-)(I-A0)
      CV(C0) = (I-A)'(T^-)(I-A)V(I-A0)'(T0^-)(I-A0)
                 = (I-A)'(T^-)(I-A)(I-A0)V(T0^-)(I-A0)
                 = (I-A)'(T^-)(I-A)V(T0^-)(I-A0)
                 = (I-A)'(T^-)(I-A)T0(T0^-)(I-A0)

由 CVC = C 公式,可得 VCVCV = VCV, 在誤差項是 N(0, σ^2 V) 時,這是 SSE/σ^2 服從卡方分布的充要的條件。另外如 μ = E[Y] 不在 C(X) 中時,μ'CVCμ = μ'Cμ, μ'CVCV = μ'CV,此兩條件加上前一條件成為 SSE/σ^2 服從非中心卡方分布的充要條件。對縮減模型而言,SSE0/σ^2 也是非中心卡方分布,其非中心參數當縮減模型成立時為 0。

現在來看 SSE0 - SSE = Y' (C0 - C) Y 這個二‵次式,首先, C0 - C = C0 V C0 - C V C;又,

(C0 - C)V(C0 - C) = C0 V C0 + C V C - C V C0 - C0 V C
   = C0 V C0 - C V C - C V (C0 - C) - (C0 - C) V C

故得 C0 V C0 - C V C = (C0 - C)V(C0 - C) + C V (C0 - C) + (C0 - C) V C,

SSE0 - SSE = Y' (C0 - C)V(C0 - C) Y + Y' [C V (C0 - C) + (C0 - C) V C] Y

第一項無疑是非負確定的二次式。假設 Y = Xb + Vc,則

Y' [C V (C0 - C) + (C0 - C) V C] Y
  = (c'V C V C0 Xb) + [c'V C V (C0 - C) Vc]
      + (b'X' C0 V C Vc) + [c'V (C0 - C) V C Vc]
  = (c'V C V C0 Xb) + (b'X' C0 V C Vc)

這是因為 V C V (C0 - C) V = VCV - VCV = 0,所以

SSE0 - SSE = Y' (C0 - C)V(C0 - C) Y + (c'V C V C0 Xb) + (b'X' C0 V C Vc)

在 Y = Xb + Vc 表示式中,可取 Xb ⊥ C(V),則 Y 在 C(X0,V) 中表示 Xb 在 C(X0) ,後兩項是 0,殘差平方和增量是 Y 的一個非負確定二次式。在 ε 服從 N(0, σ^2 V 時,Y' (C0 - C)V(C0 - C) Y 要服從中心或非中心卡方分布需要:

V[(C0 - C)V(C0 - C)]V[(C0 - C)V(C0 - C)]V = V[(C0 - C)V(C0 - C)]V
V[(C0 - C)V(C0 - C)]V[(C0 - C)V(C0 - C)]Xβ = V[(C0 - C)V(C0 - C)]Xβ
β'X'[(C0 - C)V(C0 - C)]V[(C0 - C)V(C0 - C)]Xβ = β'X'[(C0 - C)V(C0 - C)]Xβ

但因

V(C0-C)V(C0-C)V = V(C0 V C0 + C V C - C0 V C - C V C0)V
   = V(C0 + C)V - (V C0 V C) V - V(C V C0 V) = V(C0-C)V

所以 Y 在 C(X0,V) 時,殘差平方和增量 SSE0 - SSE 服從非中心卡方分布; H0: μ = E[Y] = Xβ in C(X0) (或即 Xβ = X0 γ)成立時,(C0-C)Xβ = 0,殘差平方和增量服從普通(中心)卡方分布。

上面將 SSE0 - SSE 試圖轉換成 Y' (C0 - C)V(C0 - C) Y 這個非負二次式,但卻額外多出 Y' [C V (C0 - C) + (C0 - C) V C] Y,除非 Y 在 C(X0,V) 中否則似乎無法拿掉。我們回頭看

SSE0 - SSE = Y' (C0 - C) Y

在常態誤差項模型,它要服從(非中心)卡方分布的充要條件是:

V(C0 - C)V(C0 - C)V = V(C0 - C)V(C0 - C)V
V(C0 - C)V(C0 - C)Xβ = V(C0 - C)Xβ
β'X(C0 - C)V(C0 - C)Xβ = β'X(C0 - C)Xβ

第一個條件式前面已證得;第二個條件式因 CX = 0 可以簡化為

V(C0 - C)V(C0)Xβ = V(C0)Xβ

同理第三條件式簡化為

β'X(C0)V(C0)Xβ = β'X(C0)Xβ

由於前面已證 C0 V C0 = C0,因此這個條件成立;同理第二條件再簡化為 VCV(C0)Xβ = 0。顯然如果 Xβ in C(X0) 時,因 C0 X0 = 0 故第二條件也成立。也就是說:當誤差項為常態,在 H0: Xβ in C(X0) 成立時殘差平方和增量確實服從卡方分布,自由度 tr((C0-C)V)。其實要 VCV(C0)Xβ = 0 成立只需 Xβ 在 C(X0,V),所以在 C(X0) 包含於 C(V) 的情形,即使 H0 不成立,SSE0 - SSE 在常態誤差項模型也服從非中心卡方分布。

如果把 V 做正交分解 V = Q* D* Q*', 其中 Q* 為正交矩陣, D* 是 V 的特徵根所形成的對角線矩陣,Q* 各行為對應的特徵向量,則模型經正交變換為

Y* = X*β + ε*,  Y* = Q*'Y,  X* = Q*'X,  ε* = Q*'ε

則 Cov(ε*) = D*, 不失一般性我們可假設其非 0 元素都在左上角。我們忽略變數轉換這回事,假設原本 Y = Xβ + ε 模型就如上,誤差項沒有共變異且只有前 m 項變異數為正,後 n-m 項為 0。把 Y, X, ε 比照 D* 分為兩部分,則模型是:

Y1 = (X1)β + ε1,  ε1~(0,σ^2 D)
Y2 = (X2)β

其中 D 即本來 D* 左上角 m×m 對角線矩陣。則較簡單方法可能以

X1 β^ = X1 (X1' D^{-1} X1)^-1 X1' D^{-1}Y

估計 X1 β 並據以估計其他可估函數;前面所述方法則是把 D* 加上 XUX' 取代 D*, 則做估計及其他統計推論時以

Xβ^ = AY = X (X' T^- X)^- X' T^- Y

為基礎;另一方法是考慮「限制條件下的最小平方法:

min. (Y1 - X1 β)' D^{-1} (Y1 - X1 β)

s.t.  Y2 = X2 β

得標準方程式

X1 D^{-1} X1 β - (1/2)X2' Γ = 0
X2               β                    = Y2

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()