2009 年 Eriksson, Jan; Ollila, Esa; Koivunen, Visa 發表了一篇 "Statistics for complex random variables revisited." (2009 IEEE International Conference on Acoustics, Speech and Signal Processing. Taipei, Taiwan: Institute of Electrical and Electronics Engineers. pp. 3565–3568.) 指出複數值隨機訊號資料在一些方面的應用日漸重要,但相關的數學基礎卻很散亂。

從定義來看,一個複數值隨機變數只是兩個實數值隨機變數對 X = (X_R, X_I) 或 X_R + i X_I;但從應用層面,我們必須把 X 看成一個數值性隨機變數,而非只是一個二維度向量值隨機變數,因為向量值的運算基礎是數值性的矩陣運算,而複數卻另有一套運算規則——兩複數相加減如同同維度向量相加減,但兩複數自有其一套乘除法則;另外複數可以進行如指數、對數等操作,只不過有些問題需要特別注意及處理,例如 e^z 或表示為 exp(z) 是唯一定義的,但 ㏑(z) 則有無窮多個分支,需要擇一做為主值;又如指數律 z^r.z^s = z^{r+s} 等在 z 是複數時並不當然成立。不過,本文不考慮這些問題,有關複變數函數 f(z) 種種,自有專書專課討論;本文僅粗略地來談談隨機變數分布、平均數(期望值)和變異數共變異數的問題。

不管實數值、複數值、向量值或其他隨機變數,其分布總是回到原始機率空間的機率分布 P。也就是說,P 是原始機率空間所設定的機率分布,不管它是如何設定的,機會均等的、主觀的、統計頻率的、或其他方式,反正必須符合 Kolmogorov 1933 年提出的公理(公設)體系,而隨機變數 X 的分布是

P_X(A) = P[X in A] = P{ω in Ω: X(ω) in A} = P{X^{-1}(A)}

如果 X 是離散的,意味存在一僅含可數點的集合 A 使 P_X{A} = 1,稱之為 X 之分布的支撑(集) (support),則 X 的分布可以用 A 中各單點的機率值表示:

p_X(x) = P_X({x}) = P[X = x],   x in A

雖然在 C 中不可能定義出與在 R 中一致的順序關係,但對複數值 X 我們的分布遍及整個複數平面 C,但仍可採用複數的向量性質(複數 C 是佈於實數體 R 上的向量空間)採用向量上的自然偏序關係

P[X ≦ x] = P[Re(X) ≦Re(x), Im(X)≦Im(x)]

把它看成是 X 的分布函數 F_X(x)。如果 X 的分布是「連續型」,我們可能找到一個「機率密度函數」

f(x) > 0  when x in A,  ∫_A f(x) dx = 1

但上列積分不是複變函數中的柯西積分,而是必須看成對 (Re(X), Im(X)) 的二元積分:

F_X(x) = P[X ≦ x] = ∫∫_[u≦Re(x), v≦Im(x)] f(u,v) d(u,v)

也就是說:複值隨機變數的分布通常必須以其實部和虛部的聯合分布來表現。以連續型分布且有 p.d.f. 的情形,其分布如上用二元積分由 p.d.f.  f(x) 得分布函數,而由分布函數 F(x) 則經第二階交叉偏微分得到:

f(x) = f(u+iv) = D_u D_v F(u+iv)

例如複數值常態分布,假設 X = U + i V, 故 E[X] = μ + i ν, Var[U] = σ^2, Var[V] = τ^2, Cov(U, V) = ρστ,

f(x) = 1/[2πστ√(1-ρ^2) exp{-Q/2]
   Q = {(U-μ)^2/σ^2 - 2ρ(U-μ)(V-ν)/(στ) + (V-ν)^2/τ^2}/(1-ρ^2)

如果令變異數 Var(X) = E[(X-E[X])(X-E[X])°] = E[|X-E[X]|^2],其中上標 ° 代表複數取共軛;又令 Pvar[X] = E[(X-E[X])^2],稱為 X 的偽變異數 (pseudo variance),則

v = Var[X] = E[(U-μ)^2 + (V-ν)^2] = σ^2 + τ^2

c = Pvar[X] = E[(U-μ)^2 - (V-ν)^2 + 2i(U-μ)(V-ν)] = σ^2 - τ^2 + 2i ρστ

變異數永遠是正的,除非 X 退化至一點 P[X = z] = 1。由 v 和 c 可計算 U 和 V 的變異數和相關係數:

σ^2 = (v + Re(c))/2 = (2v + c + c°)/4
τ^2 = (v - Re(c))/2 = (2v - c - c°)/4
ρ = Im(p)/(2iστ) = (c - c°)/(4iστ)  或 Cov(U,V) = (c - c°)/(4i)

換言之,複數值隨機變數 X 的變異數與偽變異數可重建 X 的實部和虛部的共變異矩陣。代入 f(x), 前面分母部分的平方去掉 π 的部分:

4σ^2τ^2(1-ρ^2)
    = 4(2v + c + c°)(2v - c - c°)/16 - 4(c - c°)^2/(-16)
    = v^2 - cc°

而指數部分,先假設 μ = 0 = ν 以資簡化算式,

Q = {U^2/σ^2 - 2ρUV/(στ) + V^2/τ^2}/(1-ρ^2)
   = [U  V] Δ^{-1} [U  V]'
   = (U^2τ^2 + V^2σ^2 - 2ρστUV)/[σ^2τ^2(1-ρ^2)]
   = {U^2(2v-c-c°) + V^2(2v+c+c°) + 2UVi(c - c°)}/(v^2 - cc°)
   = {(U^2+V^2)(2v) - (U^2-V^2)(c+c°) + 2UVi(c - c*°)}/(v^2 - cc°)
   = [X°  X] Σ^{-1} [X  X°]'

式中 Δ 代表 (U ,V) 的共變異矩陣;Σ 矩陣如下:

Σ = [ v   c ]    Σ^{-1} = [  v   -c ]
    [ c*  v ]             [ -c*   v ]/(v^2 - cc°)

因此複數常態隨機變數 X 的 p.d.f.  可以寫成

f(x) = 1/[π√(det Σ)] exp^{- Q/2}

Q =  [ (X-E[X])°  (X-E[X]) ] Σ^{-1} [ (X-E[X])° (X-E[X])° ]'

因此一個複數常態分布有3個參數:期望值,變異數,虛擬變異數;按實部和虛部分開,則有5個參數;與隨機變數的實部和虛部分開看,但考慮其聯合分布,兩者之間可以一對一對應。

如果 X, Y 是複數值隨機變數,類似變異數,我們定義兩變數間的共變異指標:

共變異數  Cov(X, Y) = E[(X - E[X])(Y - E[Y])°]

偽共變異數  Pcov(X, Y) = E[(X - E[X])(Y - E[Y])]

以上是單複數值隨機變數期望值、變異數及偽變異數, 我們也考慮兩個複數值隨機變數的共變異數及偽共變異數,同時我們以常態分布為例,其分布實際上可看成實部和虛部落都是實數值隨機變數)的聯合分布,但透過複數計算,也可以用複變數函數表現。但如果是多變量,也就是說同時要考慮多個複數值隨機變數,或即考慮複數隨機向量呢?

對於複數隨機向量,即複數值隨機變數向量 X

Cov(X) = E[(X - E[X])(X - E[X])*]

Pcov(X) = E[(X - E[X])(X - E[X])']

共變異矩陣 Cov(X) 為非負確定,主對角線元素都是非負實數,式中上標 * 代表矩陣轉置並對矩陣中元素取共軛複數;而偽共變異矩陣則無此性質,但它是對稱的。兩複數值隨機向量 XY 之交叉共變異矩陣與偽共變異矩陣類似定義如下:

 Cov(X, Y) = E[(X - E[X])(Y - E[Y])*]

Pcov(X, Y) = E[(X - E[X])(Y - E[Y])']

由上列定義,Cov(, ) = [Cov(X, Y)]*,而 Pcov(, ) = [Pcov(X, Y)]'。當 Y = X 也就是上面單一隨機向量的共變異指標,Cov(X) 是厄米特的 (Hermitian),而 Pcov(X) 是對稱的複數矩陣。

設  X = U + iV,也就是說:U = Re(X), V = Im(X)。又先假設 E[X] = μ0 以簡化式子。則

Γ = Cov(X) = E[X X°] = Cov(U) + Cov(V) + i (Cov(V, U) - Cov(U, V))
C = Pcov(X) = E[X X'] = Cov(U) - Cov(V) + i (Cov(V, U) + Cov(U, V))

同時可得

      Cov(X°) = E[X° X'] = Cov(U) + Cov(V) - i (Cov(V, U) - Cov(U, V)) = Γ°
      Pcov(X°) = E[X° X*]  =  Cov(U) - Cov(V) - i (Cov(V, U) + Cov(U, V)) = C°

在 Cov(X°) 中,° 做轉置共軛得 (X°)* = ((X°)°)' = X' ,在 Pcov(X°) 中 (X°)' = X*。由 Γ, C 可解得 UV 的共變異矩陣及兩隨機向量的共變異:

Cov(U) = (Re(Γ) + Re(C))/2 = (Γ + Γ° + C + C°)/4
Cov(V) = (Re(Γ) - Re(C))/2 = (Γ + Γ° - C - C°)/4
Cov(V,U) = (Im(Γ) + Im(C))/2 = (Γ - Γ° + C - C°)/(4i) = (Cov(U,V))’
Cov(U,V) = (Im(C) - Im(Γ))/2 = (C - C° - Γ + Γ°)/(4i)

若 X 是 n 複數值變量常態分布,其機率密度

f(x) = 1/[π^n√(det K)] exp(-Q/2}

                              [  x - μ  ]
Q = [(x°-μ°)' (x-μ)'] Σ^{-1} [         ]
                              [ x° - μ° ]

    [ Γ   C  ]  Γ P
Σ = [        ]  P = Γ° - C*Γ^(-1}C
    [ C°  Γ° ]

首先,Q 的部分參考單複數值變量的情形,當 μ = 0 時

Q = [ UV'] Δ^{-1} [ U'  V']'
   = [ X*  X' ] Σ^{-1} [ X'  X* ]'

式中 Δ 是 [ U'   V' ]' 的共變異矩陣,故 E[Q] = 2n,因為 UV 各有 n 個。則依最後一式

E[Q] = tr(Σ^{-1} E[ [ X'  X* ]' [ X*  X' ] ])

Σ = E[ [ X'  X* ]' [ X°  X' ] ],得前面的結果。至於 K,由以 UV 表示的 p.d.f. 中可 K = 2^{2n} Δ。將 det K 化簡,並分解成兩較簡單行列式:得

det K = (det Γ)(det )Γ* - C*Γ^{-1}C))

但 C 對稱,C° 亦然,故 C° 也可以寫成 C*,C 的轉置共軛矩陣。

為複數值隨機向量,Y = AX 為新的複數值隨機向量,則

E[AX] = E[A (+ iV)] = A E[U + iV] = A E[X]

與實數值隨機向量及實矩陣變換沒什麼差別。再者,若 XY 為任意存在二階動差的複數值隨機向量,A, B 為適當大小的矩陣,則

Cov(AXBY) = A Cov(XYB*
Pcov(AXBY)  = A Pcov(XYB'

考慮線性模型 Y =  + ε,在反應資料 Y 是複數值隨機變數,隨機誤差項 ε 也是複數值,模型或設計矩陣亦可以是複數元素,則迴歸係數 β 也是複數。任一個可估函數 λ'β = ρ' 之線性估計式為 a'Y(或 a_0 + a'Y),我們希望它是不偏的,則

ρ' = E[a'Y] = a'  for all β

則必須  a'X = ρ'X(也因不偏的要求自動免去 a_0 常數項,因為 β = 0 時估計式的期望值必須是 0,若 a_0 ≠ 0 是不可能的。)線性不偏估計 a'Y 的變異數

Var[a'Y] = a' Cov(Ya° = a' Cov(ε

如果我們要「極小化變異數」, 在複數值隨機變數/向量的情形只能極小化上列數值,偽變異數通常不是實數,所謂「極小」意義難明。在上述模型,假設 Cov(ε) = σ^2 V,其中 σ^2 可以未知但 V 已知;又假設  的最小平方估計是

Xb PY = X(X*AX)^-X*AY

則 λ'β = ρ' 的最小平方估計就是

ρ'PY = ρ' X(X*AX)^-X*AY = λ' (X*AX)^-X*AY

則線性不偏估計 a'Y 的變異數可以表示成

Var[a'Y] = Var[ρ'PY + (a'-ρ'P)Y]
    = Var[ρ'PY] + Var[(a'-ρ'P)Y]
        + Cov(ρ'PY, (a'-ρ'P)Y) + Cov((a'-ρ'P)Y, ρ'PY)

共變異數,兩項是互為共軛複數,

Cov((a'-ρ'P)Y, ρ'PY) = (a'-ρ'P) (σ^2 VP*ρ° = σ^2(a'-ρ'P)VAX(X*AX)^-X*

如果取 A = V^{-1},則

Cov((a'-ρ'P)Y, ρ'PY) = σ^2(a'-ρ'P)X(X*AX)^-X* = 0

因為 (a'-ρ'P)X = 0。結果

Var[a'Y] = Var[ρ'PY] + Var[(a'-ρ'P)Y] ≧ Var[ρ'PY]

所以最小平方估計有最小的變異,換言之,以隨機誤差項共變異矩陣為權量矩陣的最小平方估計,是所有線性不偏估計裡面變異數最小,或說是 BLUE (Best Linear Unbiased Estimator),這就是複數資料版本的高斯馬可夫定理 (Gauss-Markov Theorem)。

複數值隨機變數或隨機向量的分布,只是其實部和虛部的聯合分布,因此隨機向量 X = U + i V 的分布的特性函數 (ch.f.) 應是

φ(u) = φ(t+is) = E[e^{i(t'U+s'V)} = E[e^{i Re(u*X)}

以前述多複數值變量常態分布而言,其 ch.f.  在 u = t + i s 處得

φ(u) = e^{i Re(u*μ - (u*Γu + Re(u*Cu°))/4}

式中 μ 是 X 的期望值向量,Γ 是共變異矩陣,而 C 是偽共變異矩陣,如前所述。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()