雖然統計實務筆者未見過複數資料,但最小平方準則至少數學上如傅立葉級數將涉及;當然,線性模型涉及向量及內積,在理、工之應用也都允許複數的存在。因此,讓我們談談:如果線性模型 Y = Xβ + ε 其中 Y, X, β, ε 允許複數而不限於實數時,該怎麼辦?

最小平方法純粹是資料配適 (data fitting),不管誤差項 ε 的分布。最小平方法要求的是 Y 與配適值 (fitted value) Xb,其中 b 為 β 的估計,之間差距 Y - Xb 取 2-norm , 符號 || ||_2 簡記 || ||。Norm 中譯「範數」或譯「模」,不過「模」在其他領域有其他意義並且原文不是 norm。範數有距離的意思,不限於向量空間中衡量向量間距離而可用在更一般的空間如拓樸空間。範數與半範數 (seminorm) 的差別在於兩點之間範數是 0 只當兩點是同一點,而半範數是 0 則兩點仍可能不同。以統計或機率來說,隨機變數可視為向量,以 E[(X-Y)^2] 衡量兩實數值隨機變數的距離,此量數充其量是半範數,因為 E[(X-Y)^2] = 0 只能得到 P[X=Y] = 1 而不能得到 X = Y, 除非我們把 X = Y a.s. 的收集在一起成為一個等價班 (class) 而當成同一個——這例子提示我們,如果集合(一般意義的「空間」) S 上有一個半範數 d(x, y), x, y in S,則藉由把 d(x,y) = 0 的元素收集成一個等價班,則所有的不同等價班構成一個新集合 S* 或記為 S/d,則

d(x*,y*) = d(x,y) for any x in x*, y in y*, x*, y* in S*

是 S* 上的一個範數。

本文談線性模型,考慮的 Y, ε 在一個向量空間,β 在另一個向量空間,X 各行都在 Y 所在的向量空間,因此我們考慮的範數是向量空間中的範數,用 2-norm 意謂我們將以內積 (inner product) 為基礎來定義範數:

|| v ||^2 = <v, v>

向量 v 的範數取平方,是向量 v 和本身的內積;或者說: v 的範數是 v 和自身內積的平方根。那麼內積是怎樣定義的?除了我們已熟知的點積 (dot product) 與歐氏距離以外,我們來談談內積的一般,或有些抽象的,規範式的定義。為什麼不直接談點積就好?因為內積的不同,使「最小平方」的概念含蓋了「加權最小平方」。首先,我們假設考慮的向量空間 V 是佈於 R(實數體) 或 C(複數體)的,所以內積分實數內積與複數內積。佈於 R 的向量空間配置了實數內積就是實數內積空間;佈於 C 的向量空間配置了複數內積就是複數內積空間。內積要求:

(1) 對稱或共軛對稱, 實數內積要求對稱性, <u, v> = <v, u>; 
    複數內積則順序相反結果變共軛, 即 <u, v> = <v, u>*, 這裡右上角 * 表示複數取共軛。

(2) 對第一個引數 (運算元) 是線性的: 即
        <au + bv, w> = a<u, w> + b<v, w>
    有些領域或有些作者可能採用「對第二個引數是線性的」的定義, 這在複數內積和前一種定義有差異.

(3) 正確定 (positive defitness): <v, v> ≧ 0, 且 <v, v> = 0 當且僅當 v = 0。

在函數向量空間,以積分來定義內積,將使得「正確定性」不成立,而只能是半正定性(或正半定,positive semi-definite),像這種情形就不符合上面內積的定義,需要如前面說的,把一些「沒有實質不同的」歸併為同一個等價班。而 <v, v> 的非負確定(正確定與正半定)使得 √<v,v> 可以做為半範數的定義,正確定使其可以做為範數的定義:

佈於 F 上的向量空間 V 上的一個半範數是 V 到 R 的一個函數 p, 滿足:
(1) p(v) 非負;
(2) p(av) = |a| p(v);
(3) p(u+v) ≦ p(u) + p(v)
若 (1) 加上 p(v) 僅在 v = 0 時取值 0, 即
   p(v) = 0 當且僅當 v = 0
則 p 是範數.

就上面的內積而言,

<u+v, u+v> = <u, u> + <v, v> + <u, v> + <v, u>

依複數內積的定義,<u, v> 與 <v, u> 共軛,兩者2相加是實數。取實數 t , 得

0 ≦ <u+tv, u+tv> = <u, u> + t(<u, v> + <v, u>) + t^2<v, v>

可得

(<u, v> + <v, u>)^2 ≦ 4 <u, u> <v, v>

<u+v, u+v> ≦ (√<u, u> + √<v, v>)^2

如果 p(v) = || v || = √<v, v>, 則以上證明了 p(u+v) ≦ p(u) + p(v),這證實了 ||v|| = √<v,v> 定義了 V 上的一個範數。

如果所論向量空間是有限維的,dim(V) = n < ∞,則 V 同構於 C^n(如果 V 佈於 R, 則是 R^n), 因為我們可以取 n 個線性獨立向量做基底,把 V 中的元素(向量)座標化;對固定有序基底,座標化是 1 對 1 的,而唯有 0 向量座標化的結果是 C^n 中的 0。在座標化後,內積 <x, y> 對 x 線性表示對每個 y,存在 1×n 矩陣 a(y)' 使

<x, y> = a(y)'x

而對第二個引數,

<x, ay + bz> = <ay + bz, x>* = (a<y, x> + b<z, x>)*
   = (a<y, x>)* + (b<z, x>)* = a*<x, y> + b*<x, z>

對第二個引數是「共軛線性 (conjugate linear)」。對一個從 C^n 到 C 的共軛線性函數,我們也可以用作矩陣運算來表示:

<x, y> = y*b(x)

但固定 y 則 b(x) 對 x  應該是線性的,是從 C^n 到 C^n 的線性變換,可以表示成 b(x) = Ax。但「b(x) 對 x  應該是線性的」只是想當然;而且雖然 b(x) 應與 y 不相干,但怎麼證明?不過不管 V 是 C^n 採用標準基底,或 V 中向量經一有序基底座標化而成的 n×1 矩陣,也就是 C^n 的元素。設有序基底為 [e_1, ..., e_n],而

x = [x_1, ..., x_n]' = x_1 e_1 + ... + x_n e_n 
y = [y_1, ..., y_n]' = y_1 e_1 + ... + y_n e_n

式中 ' 是轉置,因 C^n 中向量我們依慣例以 n×1 行向量表示,寫成 1×n 列向量再轉置只是便於表示。利用 <x, y> 對 x 線性,對 y 共軛線性,得

<x, y> = <Σ_i x_i e_j, Σ_j y_j e_j>
       = Σ_i Σ_j x_i y_j* <e_i, e_j>

用 A(ij) = <e_i, e_j> 構成的矩陣用 A 表示,則因

A(ji) = <e_j, e_i> = <e_i, e_j>* = A(ij)*

 故 A* = A, 稱此種矩陣為自伴隨的,把一個矩陣 B 經轉置共軛運算找到的 B* 是 B 的伴隨矩陣,因為

<Bx, y> = <x, B*y>

此處 A 的伴隨矩陣等於自身,所以有上述稱呼;不過更多時侯我們稱 A* = A 這樣的矩陣是厄米特的 (Hermitian)。由於依定義 <x, x> 正確定,故 A 可逆。厄米特矩陣可么正對角線化,意謂存在么正矩陣 (unitary matrix) P* = P^{-1} 使 P*AP = diag(λ_1, ..., λ_n)。由於 A 正確定,諸 λ_i 都是正實數。

線性模型 Y = Xβ + ε 的最小平方解要求

minimize_β  || Y - Xβ ||^2

其解 β = b,以幾何方法來講,

|| Y - Xβ ||^2 極小化於 Xβ 是 Y 在 X 之行空間 C(X) 的正交投影,也就是說

Y - Xβ ⊥ Xb  for all b

在所論內積空間,就是

<Y - Xβ, Xb> = <Xb, Y - Xβ>* = 0  for all b

因為要求兩向量內積是 0,是實數,所以中間式不取共軛也沒差別。上列條件又等於

<Xb, Y> = <Xb, Xβ>

線性模型用矩陣運算 Xβ 表示,資料 Y 是 R^n 或 C^n 中的向量,則內積可用矩陣運算表示

<x, y> = y*Ax,     A* = A

故 β 的最小平方解應滿足

Y*AXb = (Xβ)*AXb  for all b

把 Y*AX 和 (Xβ)*AX 視為把 b 送到 C 的線性映射,或稱線性泛函 (linear functional),則上式表示此兩線性映射是相同的,於是

Y*AX = β*X*AX ,  或即  X*AXβ = X*AY

這就是最小平方法的標準方程式 (normal equation, 或譯:法線方程式)。如果 X 是行滿秩的,則 X*AX 可逆,得 β 之最小平方解

b = (X*AX)^{-1}X*AY

而 Xb = X(X*AX)^{-1}X*AY。

當 X 非行滿秩時, X*AX 不可逆。令 P = X(X*AX)^-X*A,其中 M^- 是 M 的廣義反矩陣,則 PY = Xα 在 C(X) 中,並且若 Y = Xα, 即 Y 在 C(X), 則 PY = Y, 事實上 PX = X:

設 y = u + v 其中 u = Xα, v⊥C(X) in the sense that <Xγ, v> = 0 for all γ, 故 v*AX = 0。則

y*APX = (α*X* + v*)AX{X*AX)^-X*AX
      = α*X*AX{X*AX)^-X*AX + v*AX{X*AX)^-X*AX
      = α*X*AX + v*AX = (α*X* + v*)AX = y*AX

因 y* 任意,故 APX = AX。但 A 可逆, 故 PX = X。

以上表示:P 是在 C(X) 上的一個投影矩陣,但在前面定義之內積下,這投影是正交(垂直)的:

對任意 u, u-Pu 在 <x,y> = y*Ax 內積之意義下,與任意 Xv 垂直.

[證] <u-Pu, Xv> = v*X*A(I-P)u
             = v*[X*A - X*AX(X*AX)^-X*A]u
             = v*[X* - X*AX(X*AX)^-X*]Au
             = v*(X - PX)*Au = 0

所以,即使 X 非行滿秩,β 之最小平方解非唯一確定,但 Xβ 之最小平方解為

Xb = PY = X(X*AX)^-X*AY

這形式與實數資料之加權最小平方法類似,只是在該類問題我們考慮的是 ε~(0, σ^2 V) 而取 V^{-1} 取代本文的 A, 且因只考慮實數因此 X* 被 X' 取代。而此處完全不理會誤差項的分布,權量矩陣完全是內積定義。

在上述內積定義下,最小平方法是選擇複數向量 β 以極小化

Q(β) = {Y-Xβ)*A(Y-Xβ)

令 β = γ + i η, 其中 γ 是 β 的實部,η 是其虛部,則

Q(β) = (Y*-γ'X*+iη'X*)A(Y-Xγ-iXη)

用微分的方法,

▽_γ = -X*A(Y-Xβ) - X'A'(Y*-β*X*)'
▽_η = iX*A(Y-Xβ) - iX'A'(Y*-β*X*)'

式中 "'" 表示做矩陣轉置,不取共軛,實際上式中是做了轉置共軛又轉置一次,等於只對其中元素取共軛。 ▽_γ 是對 γ 的偏微,以行向量表示;▽_η 則是對 η 的偏微。最小平方法要滿足兩組偏微都是 0,

 X*AY + X'A'Y*' =  X*AXβ + X'A'X*'β*'
-X*AY + X'A'Y*' = -X*AXβ + X'A'X*'β*'

兩式相減,得標準方程式

X*AY = X*AXβ

和前面投影法相同。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()