隨機變數,本文特指實數值隨機變數,是指定義在一個機率空間的實質實數值可測函數。本文談的將隨機變數視為向量,考慮的不是單一隨機變數,也不考慮特定分布的隨機變數,而是考慮定義在同一機率空間的任意隨機變數。向量,指的不是物理上的力或幾何上的平面或空間甚至 n 維歐氏空間向量,而是向量空間意義的向量。

隨機變數要看作是向量,首先要談向量的加法運算,在這裡也就是說需要問:隨機變數的加法是封閉的嗎?或者說:兩隨機變數 X, Y 相加,結果仍是隨機變數嗎?在初級入門課程,隨機變數只是「定義在樣本空間的實數值函數」,所以「兩隨機變數相加結果仍是隨機變數」是無可置疑的;在正式定義中,有可測性的問題,有「實質」有限的問題(正式定義允許隨機變數值為正負無窮,只是其機率為 0),不過,仍不難證明封閉性是成立的。由於允許隨機變數的值是 ±∞,考慮兩隨機變數相加時,免不了遇到 +∞ + -∞ 或 -∞ + +∞ 這種無法定義的情形,但若遇到這種情形,由於機率 0,任意指定其相加結果的值,結果仍是符合隨機變數的條件,而其機率性質(隨機變數的機率分布)不受影響。

令 V 是定義在機率空間 (Ω, F, P) 上的所有實數值隨機變數所形成的集合,則 V 在加法運算下,符合交換律、結合律,有加法單位元素 0,任一隨機變數 X 有反元素 -X,也就是說, (V, +) 構成一個「加法交換群 (commute group)。

另外,考慮純量體 (field) (R, +, .), 有一「向量的純量乘法 (scalar multiplication)」*,設 a 屬於 R 而 X 屬於 V,則 a*X 把 Ω 中的 ω 映至 a*X(ω)。當 X(ω) 的值是 ±∞ 時,其規則是

若 a > 0, 則 a * +∞ = +∞,  a * -∞ = -∞;
若 a < 0, 則 a * +∞ = -∞,  a * -∞ = +∞;
若 a = 0, 則 a * ±∞ = 0

 最後一式的定義是有點任意,但又合理的。這裡 a = 0 是真正的 0,不是微積分不定式中那種「趨於 0」; ±∞ 也是「真實的」±∞,不是「趨於 ±∞」。則此種連繫純量和向量的運算 * 滿足:

(1) 對任意 V 中的 X,有 1*X = X;

(2) 對任意 V 中的 X, Y, 對任意 R 中的 a, 得 a*(X + Y) = a*X + a*Y;

(3) 對任意 V 中的 X, 對任意 R 中的 a, b, 得 (a + b)*X = a*X + b*X;

(4)  對任意 V 中的 X, 對任意 R 中的 a, b, 得 a*(b*X) = (a.b)*X。

如果涉及的隨機變數完全就是實數值,即不存在無限值的定義,那麼 * 只是一般實數值函數的放大縮小,上列諸性質是當然成立,有可能產生問題的是隨機變數有 ±∞ 時有時候會有一點混亂,例如遇到

(a + b) * ±∞ = (a * ±∞) + (b * ±∞∞)

是否成立的問題。基於前面說 +∞ + -∞ 或 -∞ + +∞ 可任意定義的做法,遇到這種情形把右式的結果直接指定為左式的結果即可;另外一種方式是把隨機變數的「相等」重新定義:

P{ω in Ω: X(ω) = Y(ω)} = 1 則隨機變數 X, Y 稱為相等,記為 X = Y。

上列 X = Y 的條件通常簡單地表示為 P[X = Y] = 1,事件 [X = Y] 就是 {ω in Ω: X(ω) = Y(ω)} 的簡單表示法。在這定義之下,兩隨機變數的相等是機率意義上的相等,而不是逐點相等。所以一個隨機變數 X 可能代表的是無數個在逐點比較上是不相等的隨機變數,但它們兩兩之間的差異只在一些點的定義不同,而這些使兩隨機變數之值不同的點都在 Ω 的一個具機率 0 的子集(事件)中,例如前面說 V 中有加法單位元素 0,也就是 0 做為一個隨機變數,現在它的意義是一個隨機變數 X 滿足 P[X = 0] = 1, 所有這樣的隨機變數都當成一個,也就是 0。在這樣定義之下,如前正負無窮相加結果任意定義,逃不出「相等」的條件,完全解決「向量加法」和「向量的純量乘法」所可能遭遇的困難。這裡對 V 中元素相等的重新定義,也就相當於把 V 重新做了定義,把其中在機率意義上相等的諸多隨機變數都歸為一個,在這緊縮之後,所有機率意義上相等於 0 的隨機變數縮減為一個代表的 0,因此 ,加法單位元素 0 也代表了不只一個隨機變數卻仍視為一個隨機變數,結果還是「唯一」的。

以上闡明了 V 是佈於 R 的一個向量空間。將 V 做個限制得

V' = {X in V: E[X] 存在}

對於 V' 中任意 X, Y ,對於 R 中任意 a,  可證得 X + Y, a*X 都仍在 V' 中,也就是說 V' 是 V 的一個子空間。在 V 中期望值 E[X] 不一定在在,只有在 V' 中定義期望值才有意義,而且它成為 V' 到 R^1 的一個線性映象 (linear mapping), 或 V' 上一個線性泛函 (linear functional).

將 V' 再做限制,

V" = {X in V: E[X^2] < ∞}

在 V' 中包含了所有存在期望值的隨機變數,也就是所有存在一階動差的隨機變數;V" 則包含了所有存在二階動差的隨機變數。若 X 在 V" 中,a 在 R 中,則顯然 a*X 也在 V" 中;另外,設 X, Y 都在 V" 中,則

E[(X+Y)^2] = E[X^2 + Y^2 + 2XY]

其中 XY 採行的是一般兩函數相乘的定義,所以雖不在前面有關「向量」的運算之中,它仍然定義明確,而且

|2XY| ≦ X^2 + Y^2

由於 X^2, Y^2 期望值都存在,2|XY| 期望值也存在,從而 (X+Y)^2 期望值也存在,也就是說 X + Y 仍在 V" 中。所以,V" 是 V' 及 V 的子空間。

由於 V" 中的隨機變數 X 存在二階動差,於是可以定義視為向量之 X 的模 (norm) 或稱向量 X 的大小:

|| X || = √E[X^2]

又可定義兩「向量」X, Y 的「點積 (dot product)」

(X.Y) = E[XY]

及夾角 θ:

cos(θ) = (X.Y)/(||X|| ||Y||)

由於餘弦函數在 [0, π] 之間是嚴格遞減,因此可定義反函數,所以

θ = arc cos((X.Y)/(||X|| ||Y||))

由期望值定義的點積是對稱的,(X.Y) = (Y.X),所以其夾角也是無方向性的,從 0 到 π。當夾角為 0 時,X 與 Y 同向;夾角為 π 時,X 與 Y 反向;夾角是 π/2 時,X 與 Y 垂直。注意這裡的「垂直」只是在目前的定義上,與一般說隨機變數間的「正交」關係不同。另外,值得注意的是:在此處「夾角」的定義下,常數隨機變數,或單點質量分布的隨機變數,P[X=c] = 1,除 0 以外相互不是同向就是反向,所以它們「共線」。隨機變數 X in V" 若期望值為 0, 則 X 與任意非 0 常數隨機變數垂直。任意 V" 中隨機變數 X 與常數隨機變數的夾角是

θ = arc cos(E[X]/√E[X^2])

分母根號內是 Var[X] + (E[X])^2,除非 X 是常數隨機變數,|cos(θ)| < 1。定義 Y 在 X 上的投影 (projection) 為

Proj_X(Y) = ((Y.X)/||X||^2)*X

或者,以 u(X) = X/||X|| 代表 X 的方向,則

Proj_X(Y) = Proj_{u(X)}(Y) = (Y.u(X))*u(X)

上面所述的投影是垂直投影,以 Y^ 表示 Y 在 X 方向的投影,則

(1) Y^ 與 X 同向或反向;
(2) Y - Y^ 與 X 垂直;
(3) ||Y - Y^||^2 + ||Y^||^2 = ||Y||^2;
(4) ||Y - Y^|| = min_a ||Y - aX||

上列第一個性質是「投影」的本意;性質 (2) 則是此投影所以稱「垂直」的原由;由於採用「點積」,由於垂直,所以畢氏定理成立,得 (3);而 (4) 也是歐氏距離的結果:點到線以垂直距離為最短;同時這也是「最小平方法」的呈現。

投影的觀念還可以擴充到多個隨機變數所在的空間,具體地說,如果 V" 中的 X1, ..., Xm 張開一個子空間 W:

W = { Σ a_i*Xi:  a_i in R, i = 1, ..., m}

則 Y 在 W 的垂直投影。把這些隨機變數集成行向量 X, 則 W 的元素可以表示成 a'X 或 X'a,則

Q(a) = ||Y - a'X||^2 = (Y.Y) - 2(Y.a'X) + ||a'X||^2

點積是一種雙線性函數,意即:把 (X.Y) 看成一個函數 f(X,Y),則 f 對 X 和對 Y 分別都是線性的。所以:

(Y.a'X) = a' (Y.X),  || a'X ||^2 = a' (X.X') a

式中 (Y.X) 是元素為 (Y.Xi) 的行向量, (X.X') 是元素為 (Xi.Xj) 的 m×m 矩陣。所以 Q(a) 可以配方成

Q(a) = (a - (XX')^{-1} (Y.X))' (X.X') (a - (XX)^{-1} (Y.X))
               + [Y.Y - (Y.X)' (XX)^{-1} (Y.X)]

第二項是固定的,所以求上式極小,其解是

a = (XX')^{-1} (Y.X)

如果 (XX') 不可逆,把反矩陣改成廣義反矩陣,仍可得 Q(a) 極小,只是此時 a 的解不唯一。(XX') 不可逆,其實就是 X1, ..., Xm 不是線性獨立;因為不是線性獨立,不同的線性組合可以表現相同的向量,也就是說雖然 a 是不同的,但 a'X 是相同的。為了便於說明和理解,假設樣本空間 Ω 是個有限集,

Ω = {ω_1, ..., ω_n},  P{ω_j} = p_j > 0  for all  j

所以 Y 的值有 Yij j = 1, ..., n, 而 Xi 的倥 Xi1, ..., Xin, 令 Y, Xi 各是其值組成的行向量,P 是諸 p_j 構成的對角線矩陣,所以

(Y.Xi) = Y' P Xi,    (Xi.Xj) = Xi' P Xj

所以 X 是 m 列 n 行的矩陣,X'a 是 n×1 行向量,所以

當 a = (XX')^- (X.Y)  則 X'a ='(XPX')^- XPY = A Y

式中上標 - 代表矩陣的廣義反矩陣。當 X 被當成資料矩陣而非隨機變數向量時,矩陣 A = '(XPX')^- XP 是在 X' 的行空間(相當於 X 的列空間)上的一個投影矩陣,只是對諸 Xi  資料向量所張開的空間而言,A 是一個投影矩陣,但似非垂直投影?不過,既然點積 (X.Y) 被定義為 X'PY,則

(Y - Y^.Y^) = Y'(I-A)'AY = 0

所以 A Y 視為 Y 在 W 的投影確實是垂直的。就一般情形,

 X'a =  X' (XX')^- (Y.X)

是 Y 在 W 上的唯一垂直投影。

我們在具有二階動差的隨機變數空間 V" 定義了點積,也可以稱之為內積 (inner product) 或純量積 (scalar product)。注意不要和先前的「純量乘法」混淆了,純量積是指兩向量相乘結果為純量;而純量乘法則是一純量與一向量相乘,結果是在同一空間的向量。對一個佈於 R 的向量空間,如此處的 V",定義其上的內積是定義在 V"×V" 的一個實數值函數 f(X,Y), 通常記為 <X, Y>, 滿足:

(1) 對稱性:對所有 X, Y 屬於 V" 均得 <X, Y> = <Y, X>;

(2) 雙線性:對所有 X, Y, Z 屬於 V" 得 <X +Y, Z> = <X, Z> + <Y, Z>, 
                   對所有 a 屬於 R,<a X, Z> = a <X, Z> = <X, a Z>;

(3) 非負性:對所有 X 屬於 V" 均得 <X, X> ≧ 0;

(4) 非退化:<X, X> = 0 當且僅當(若且唯若)X = 0。

在 (2) 中 a X 前面表示為 a*X 強調運算 * 的地位,此處依習慣省略。由於對稱性,(2) 的雙線性真正寫出的只有對第一運算元的線性;又除 <0, 0> = 0 之外,(3) 和 (4) 可合併為「正確定性 (positive difiniteness)」, 原本的 (3) 只說明 f(X,Y) = <X, Y> 是非負確定的 (nonnegative definite)。但由於 f(X,Y) 是線性的,

<0, X> = <Y - Y, X> = <Y, X> - <Y, X> = 0

似乎 (3), (4) 原本就可合併成「正確定性」,也不需特別規定 <0, 0> = 0。向量空間 V" 配備了上述內積運算,我們稱 V" 是一個(實數)內積空間。

這裡我們假設 V 中是實數值隨機變數,所以內積自然也是實數值內積。如果 V 考慮複數值隨機變數,則 V 可考慮為佈於複數體 C 的向量空間,而內積的定義,為了 <X, X> 必須是非負實數,必須 <X, Y> = <Y, X>*, 這裡 "*" 表示複數的「共軛 (conjugate)」, 這也使得

<aX, Y> = a <X, Y> = <X, a* Y>

上式 a* Y 是指 a 的共軛依向量的純量乘法乘以 Y,而非 a 乘以 Y。所以此時「內積」對第一運算元是線性的,對第二運算元則是共軛線性 (conjugate linear),所以複數向量空間內積的要求是共軛雙線性 (conjugate bilinear);而第一個性質是共軛對稱 (conjugate symmetry)。對於共軛雙線性的條件,另一種定義方式是對第二運算元線性,而對第一運算元共軛線性。若以 C^n 的點積並以向量來表示,則後一定義是

<u, v> = (u.v) = (u'*)v

而前一定義是 <u, v> = (u')(v*),此處 u' 表 u (行向量)的轉置(成列向量),* 是將向量內(複數值)元素取共軛(複數),而不是標準符號 * 代表轉置共軛。也就是說,對於複內積空間中內積的定義,一種是運算時對第二運算元取共軛,另一種是對第一運算元取共軛。

回到實值隨機變數空間 V",我們在其上定義了一個內積 <X, Y>,則 X 的模可以定義為

|| X || = √<X, X>

兩隨機變數的夾角是

θ = arc cos(<X, Y>/(||X|| ||Y||))

隨機變數 Y 在 X 方向的(垂直)投影是

Proj_X(Y) = (<Y, X>/||X||^2) X

<Y - Proj_X(Y), Proj_X(Y)>
    = <Y, Proj_X(Y)> - || Proj_X(Y) ||^2
    = (<Y, X>/||X||^2) <Y, X> - (<Y, X>/||X||^2)^2 ||X||^2
    = 0

換言之,前項 Y 在 X 方向的投影是垂直投影。如果考慮 Y 在 X1, ..., Xm 所張開的空間 W 的垂直投影 Y^ = X'a,其中 X 是 [X1, ..., Xm]', 由諸 Xi 構成的行向量,則

Y^ =  X' <XX'>^- <Y, X>

前面點積的公式換成內積公式而已。

舉個簡單的例子,X' = [1 X], 內積假設就是前面的點積,則

<X, X'> = [   1   E[X]   ]   <Y, X> = <X, Y> = [ E[Y]  ]
          [ E[X]  E[X^2] ]                     [ E[XY] ]

除非 X 是常數隨機變數,否則 <X, X'>  是可逆的,

<X, X'>^{-1} = [ E[X^2]  -E[X] ] 
               [ -E[X]     1   ]/(E[X^2] - E[X]^2)

a = [ (E[X^2]E[Y] - E[X]E[XY])/(E[X^2] - E[X]^2) ]
    [    (E[XY] - E[X]E[Y])/(E[X^2] - E[X]^2)    ]

故,令 β = (E[XY] - E[X]E[Y])/(E[X^2] - E[X]^2),則

Y^ = (E[X^2]E[Y] - E[X]E[XY])/(E[X^2] - E[X]^2)
              +  (E[XY] - E[X]E[Y])/(E[X^2] - E[X]^2) X
     = (E[Y] - β E[X]) + β X

這是 Y 對 X 的擬線性關係,也是 Y 對 X 符合直線迴歸關係時迴歸式的群體版本。

將隨機變數視為向量,可以很好地理解多元尺度法中將評價者用於評價物件之間距離的認知變數以向量形式表現在表示物件相對位置的知覺圖的意思。物件位置的知覺圖座標軸代表知覺空間的基底,而每一個認知變數是一個隨機變數,將它們投影在知覺圖上,就是知覺圖中表現認知變數的方法。

 

[附:一些可測性的問題]

關於可測性有幾個基本定理:

(1) 若 T 是 F/F' 可測,T' 是 F'/F" 可測,則 T'。T 是 F/F" 可測。

(2) 若 f: R^m → R^n 連續,則 f 可測。

(3) 若 f_j : Ω → R, j = 1, ..., k 皆 F 可測且 g: R^k → R 可測,則 g。(f_1,...,f_k) 是 F 可測。

在 (1) 中是否可測涉及定義域中的可測集域(σ-field, σ-場,σ-體)與對應域的可測集域,因此敘述中將兩者皆明示出來;(2) 中 R^n, R^m 沒特別指定都是採用 Borel 域為其可測集域,因此不需要明示;(3) 中同理只明示定義域中之可測集域。其實還需要一個更基本的:

兩或多個定義域與對應域相同的可測函數聯合來看也可測。

可以縮減至只看兩個函數的問題:

If f, g measurable F/F*, then (f, g) is measurable F/(F*×F*)

[Proof]
σ-field F*×F* 指的不只是笛卡爾乘積,而是指 σ(F*×F*),包含笛卡爾乘積 F*×F*。
令 h = (f, g),我們需要證明的是:若 A 在 σ(F*×F*) 中,則 h^{-1}(A) 可測。
令 G = {A in σ(F*×F*): h^{-1}(A) 可測},則對任意 E, F in F*,
    {ω in Ω: f(ω) in E, g(ω) in F}
      = {ω in Ω: f(ω) in E}∩{ω in Ω: g(ω) in F}
可測,也就是說笛卡爾乘積 F*×F* 包含於 G,特別是 Ω*×Ω* 在 G 中,其中 Ω* 是 f, g 的共同對應域,產生 F* 這 σ_域的樣本空間。
設 A 在 G 中, 依 G 之定義,h^{-1}(A) 可測,故其補集 (h^{-1}(A))' 也可測。但
    (h^{-1}(A))' = h^{-1}(A')
也就是說 h^{-1}(A') 可測,所以 A' 也在 G 中。
設 A1, ..., An, ... 都在 G 中,則所有 h^{-1}(An) 皆可測,所以 ∪_n h^{-1}(An) 也可測。但
    ∪_n h^{-1}(An) = h^{-1}(∪_n An)
故 ∪_n An 也在 G 中。
以上顯示 G 是包含 F*×F* 的一個 σ-域。而依定義,G 是 σ(F*×F*) 的子集,而 σ(F*×F*) 又是包含 F*×F* 的最小 σ-域,所以 G = σ(F*×F*),意即 h 可測。

上列證明示範了測度/機率論中常用的一種證明方式:我們希望證明某種結果 p 在某個 σ-域 F 成立,假設很容易知道它在某個集合族 A 成立,而 A 產生 F,即 F = σ(A)。於是,考慮 F 中使 p 成弈的集合族 G,首先因為 p 在 A 中都成立,所以 G 包含 A,所以 G 非空。接下來證明 G 是包含 A 的一個 σ-域,所以它包含 F = σ(A);但依假設 G 包含於 F,所以 G = F,這表示 p 在整個 F 成立。以可測函數為例,若 F = σ(A),其中樣本空間在 A 中,則我們可以證明:在一函數 h 可測的問題上,若 F = σ(A) 而 A 包含有樣空 Ω,則只要證明 h^{-1}(E) 可測,對任意 E 在 A 中。如上述,設 G  是 F 中使 h^{-1}(E) 可測的集合 E,假設 E 在 A 中則 h^{-1}(E) 可測,又假設 A 含有樣空 Ω。設 E 在 G 中,則其補集 E' 也在 G 中;若 En 在 G 中, n = 1, 2, ...,則 ∪En 也在 G 中,所以 G 是一個 σ-域,包含 A,所以 G = F。

回到最初的三個基本定理。首先:

(1) 若 T 是 F/F' 可測,T' 是 F'/F" 可測,則 T'。T 是 F/F" 可測。

對任意 A" 屬於 F",A' = T'^{-1}(A") 在 F',故 A = T^{-1}(A') 在 F 中。由於

T^{-1}(T'^{-1}(A") = (T'。T)^{-1}(A")

這證明了 T'。T 是 F/F" 可測。

其次,關於

(2) 若 f: R^m → R^n 連續,則 f 可測。

由於在 R^m/R^n 的 Borel 域(field, 場,體)可以有幾種產生的方法,一種是所有半開形區間 (a, b], 即 a_i < x_i ≦ b_i, i = 1, ..., m/n;另一種是閉區間 [ab];或開區間 (ab);或左下無界開區間 (-∞, b) 或左下無界閉區間 (-∞, b];所有閉集合;所有開集合等等。設 f = (f_1, ..., f_n) 每個 f_i 都是 R^m 到 R^1,由於 f 連續若且唯若每個 f_i 連續,並且所有 f_i 可測則 f 可測,因此只要證明 f_i 連續則可測即可。但

f_i^{-1}((-∞, b]) 是閉集合,因為 (-∞, b] 是閉集合,而 f_i 連續。

所有閉集合都是 Borel 集,所以 f_i 可測。這也證明了 f 可測。

設 f_j: Ω → R 都 F 可測,則 f = (f_1, ..., f_k) 從 Ω 映至 R^k 可測;若 g: R^k → R 可測,則由 (1) 得

(3) 若 f_j : Ω → R, j = 1, ..., k 皆 F 可測且 g: R^k → R 可測,則 g。(f_1,...,f_k) 是 F 可測。

如函數 g(x, y) = x+y, xy, ... 許多函數都是連續函數,因此,若 X, Y  是隨機變數,則 X + Y, XY, X/Y 等都是可測函數,當然其中涉及 R 的改成延伸實數集 R*,上面有關連續和可測的結論仍成立。至於 X + Y, XY 仍是隨機變數,只需證明 P[|X+Y| < ∞] = 1, P[|XY| < ∞] = 1,

P[|X+Y| < ∞] ≧ P([|X} < ∞]∩[|Y| < ∞]) = 1

P[|XY| < ∞∞]  ≧ P([|X} < ∞]∩[|Y| < ∞]) = 1

對於 X/Y, 則 X/Y 仍為隨機變數若且唯若 P[Y = 0] = 0。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()