設 F(x) 是一單變量機率分布函數,也就是說 F 是單調遞增、右連續(有些作者定義分布函數是左連續,差別是 F(x) 定義為 P[X≦x] 或 P[X<x])、F(-∞) = 0 且 F(∞) = 1。

今令 F*(x) = F(x)φ(x), 只要 φ 非降、非負、右連續且 φ(∞) = 1 而 φ(-∞) 有限, 則 F*(x) 也滿足一個機率分布的條件。反過來說,φ(x) = F*(x)/F(x), 其中 F* 與 F 都是機率分布函數,則 φ(x) 非負,右連續,且 φ(∞) = 1;但 φ 不一定單調,φ(-∞) 也不一定有限。不過,如果可能,除非有特定要求,想找一個函數 φ(x) 透過 F*(x) = F(x)φ(x) 由 F 建構 F*, 則選擇的 φ(x) 當然是找非降、非負、右連續且 φ(∞) = 1 而 φ(-∞) 有限。

如果是雙變量或多變量分布,右連續是針對每個變量的;單調遞增以雙變量為例就是對向變量的單調遞增再加上

ΔF(x,y) ≡ F(x+Δx,y+Δy) - F(x,y+Δy) - F(x+Δx,y) + F(x,y) ≧ 0

另外,F1(x) ≡ F(x,∞), F2(y) = F(∞,y) 是各變量的邊際分布;當然若更多變量,所謂邊際分布、聯合分布,情形就複雜了,例如三變量分布 F(x,y,z) 則 F13(x,z) = F(x,∞,z) 就變量 x, z 而言是這兩變量的聯合分布,就 x,y,z 而言則是 xz-邊的邊際分布,所以這種區分的稱呼不是很重要,只需知道談的是哪個或哪些個變量的分布就好。另外,F(-∞,y) = F(x,-∞) = 0, 即各變量趨於 -∞ 則分布函數值趨於 0。

設 F*(x,y) = F(x,y)φ(x,y),則

ΔF*(x,y) = F*(x+Δx,y+Δy)-F*(x,y+Δy)-F*(x+Δx,y)+F*(x,y)
          = F(x+Δx,y+Δy)φ(x+Δx,y+Δy)-F(x,y+Δy)φ(x,y+Δy)
              -F(x+Δx,y)φ(x+Δx,y)+F(x,y)φ(x,y)
          = F(x+Δx,y+Δy)φ(x+Δx,y+Δy)-F(x,y+Δy)φ(x+Δx,y+Δy)
                   +F(x,y+Δy)φ(x+Δx,y+Δy)-F(x,y+Δy)φ(x,y+Δy)
              -F(x+Δx,y)φ(x+Δx,y)+F(x,y)φ(x+Δx,y)
                     -F(x,y)φ(x+Δx,y)+F(x,y)φ(x,y)
          = F(x+Δx,y+Δy)φ(x+Δx,y+Δy)-F(x,y+Δy)φ(x+Δx,y+Δy)
                -F(x+Δx,y)φ(x+Δx,y+Δy)+F(x,y)φ(x+Δx,y+Δy)
             +F(x+Δx,y)φ(x+Δx,y+Δy)-F(x,y)φ(x+Δx,y+Δy)
                 -F(x+Δx,y)φ(x+Δx,y)+F(x,y)φ(x+Δx,y)
             +F(x,y+Δy)φ(x+Δx,y+Δy)-F(x,y+Δy)φ(x,y+Δy)
                 -F(x,y)φ(x+Δx,y+Δy)+F(x,y)φ(x,y+Δy)
             +F(x,y)φ(x+Δx,y+Δy)-F(x,y)φ(x,y+Δy)
                   -F(x,y)φ(x+Δx,y)+F(x,y)φ(x,y)
          = (ΔF(x,y))φ(x+Δx,y+Δy) + F(x,y)(Δφ(x,y))
             +(F(x+Δx,y)-F(x,y))(φ(x+Δx,y+Δy)-φ(x+Δx,y))
             +(F(x,y+Δy)-F(x,y))(φ(x+Δx,y+Δy)-φ(x,y+Δy))

這結果有點像二階交叉偏導式的乘法規則

  Dxy(fg) = (Dxy f) g + f (Dxy g) + (Dx f)(Dy g) + (Dy f)(Dx g)

也可說是上列交叉偏微的離散型式:

Δ(Fφ) = ΔF φ + F Δφ + (Δx F)(Δy φ) + (Δy F)(Δx φ)

如果三變量則 ΔF(x,y,z) 相當於 Dxyz F(x,y,z), 對 F 各變量偏微一次的交叉偏導的離散版本;n 變量以此類推。

如果 φ 也是雙變量單調遞增、右連續,則前項 F* = F.φ 也將是單調遞增、右連續。反之,若 φ = F*/F 是兩分布函數的比值,則它是非負、右連續的,且 φ(∞,∞) = 1;不保證 φ 單調遞增,但如單變量的情形,沒有特殊要求,且 F 不確定,為了保證 F* = Fφ 是機率分布函數,我們會希望 φ 有界、非負、單調遞增、右連續,且 φ(∞,∞) = 1。多變量情形類似。

如果 G(x), H(y) 分別是隨機變數 X, Y 的(邊際)分布函數,則有無數方法建構出 X, Y  的聯合分布:

F(x,y) = G(x)H(y)φ(x,y)

其中 φ(x,y) ≡ 1 on R^2 得到 F(x,y) = G(x)H(y), 表示 X, Y 相互獨立。但我們可選擇適當 φ(x,y) 使結果 F(x,y) 具有 X, Y 之邊際分布函數分別是 G(x), H(y)。如前述 φ(x,y) 被要求有界、非負、右連績、單調遞增,並且 φ(∞,∞) = 1。但為了滿足邊際分布的要求,事實上需要 φ(∞,y) ≡ 1 ≡ φ(x,∞):

φ(∞,y) = F(∞,y)/(G(∞)H(y)) = H(y)/H(y) = 1
φ(x,∞) = F(x,∞)/(G(x)H(∞)) = G(x)/G(x) = 1

反之,符合上述要求的 φ(x,y) 即能構建一個 X, Y 的聯合分布具有給定的邊際分布。可惜的是:想找這樣的一個函數 φ 並不容易。如果沒有邊際分布的限定,至少如果 φ 本身是個雙變量分布函數,則 G(x)H(y)φ(x,y) 也是一個雙變量分布函數;但有邊際分布 G(x), H(y) 的限制,也就是需要滿足 φ(∞,y) ≡ 1 ≡ φ(x,∞),就很難要求上述 Δφ(x,y) ≧ 0 的要求。不過我們的目的是 G(x)H(y)φ(x,y) 具有邊際分布 G(x), H(y), 因此可以不要求 Δφ(x,y) ≧ 0,只要求 G(x)H(y)φ(x,y) 仍是個分布函數。

考慮一個例子,針對 G(x), H(y), 取 φ(x,y) = 1-α(1-G(x))(1-H(y)), 0 ≦ α ≦ 1。由於 G(x), H(y)  是單變量分布函數,φ(x,y) 對變量 x, y 個別都是非負、單調遞增、右連續的有界函數,而且 φ(∞,y) ≡ 1 ≡ φ(x,∞), 但它不是前面說的雙變量單調遞增 (Δφ ≧ 0)。如果令 F(x,y) = G(x)H(y)φ(x,y),它是不是一個雙變量分布函數?

  F(x,y) = G(x)H(y)φ(x,y) = G(x)H(y)(1-α+αG(x)+αH(y)-αG(x)H(y))
              = (1-α)G(x)H(y) + α(G^2(x)H(y)+G(x)H^2(y)-G^2(x)H^2(y))

兩個別單變量函數乘積之雙變量增量運算符 Δ(g(x)h(y)) 展開再經整理可得 (Δg(x))(Δh(y)),兩個別單變量函數增量相乘,這類似微分公式 Dxy(g(x)h(y)) = f'(x)g'(y)。故可得 F(x,y) 之雙變量增量

 ΔF(x,y) = (ΔG(x))(ΔH(y)){(1-α)+α[G(x+Δx)(1-H(y+Δy))+H(y+Δy)(1-G(x))
                                               +G(x)(1-H(y+Δy))+H(y)(1-G(x+Δx))]}

注意式中每一項都非負,故 ΔF(x,y) ≧ 0,也就是 F(x,y) 確是雙變量單調遞增,是一個雙變量分布函數。

機率與統計中我們總是說:幾個事件的相互獨立不能由其任一較小部分的相互獨立證得;隨機變數也一樣。例如 X, Y, Z 三個隨機變數兩兩的獨立性,不能推證三個隨機變數相互獨立。對這一命題或敘述,我們只需舉個例子就夠了:舉一個兩兩獨立但並非相互獨立的反例,就是兩兩獨立不能證得相互獨立的證明。因為這個命題的意思就是:存在三個隨機變數或事件,它們兩兩獨立,但並不相互獨立。數學上要證明「存在 x 使 p」就是找到一個 x 使 p 成立,或者建構一個 x 使滿足 p。但如果我們現在知道 X, Y, Z 三隨機變數的邊際分布 F(x), G(y), H(z), 並且知道它們兩兩獨立,雖然不能知道 X, Y, Z 的聯合分布,是不是可以建構一個「或許可能是」它們的聯合分布?仿以上由 G(x), H(y) 建構 F(x,y) 的方法,我們考慮

P(x,y,z) = F(x)G(y)H(z)[1-α(1-F(x))(1-G(y))(1-H(z))]

可以發現任一變數值趨於 ∞ 則 P(x,y,z) 趨於另兩變量的邊際分布的乘積,在成對獨立的假設之下也就是兩變量的聯合分布。不過,要證明這方法可行,還需證明 ΔP(x,y,z) 非負。另外,需注意這只是那「或許可能」的一個方向,實際上我們完全不知道 X, Y, Z 的真實分布模樣。也就是說:只有聯合分布才能提供多個隨機變數的完整分布訊息,想用較少的訊息推論完整的分布是不可能的。

設  X, Y, Z 三隨機變數的邊際分布 F(x), G(y), H(z), 仿先前方法,似可考慮

P(x,y,z) =  F(x)G(y)H(z) [1-α(1-F(x))(1-G(y))] [1-β(1-G(y))(1-H(z))] [1-γ(1-F(x))(1-H(z))]

不過如此定義的 P(x,y,z) 是否確實是一個分布函數有待驗證——想證明 ΔP(x,y,z) 非負,其運算太複雜了。但如果能驗證上列 P(x,y,z) 確實是一個分布函數,它就是具有預定單變量邊際分布的一個三變量聯合分布,其任兩變量之邊際聯合分布如前面由兩單變量分布建構的雙變量聯合分布。但若不能得證上列 P(x,y,z) 構成一個聯合分布函數,表示需另求他法,畢竟上列建構式只是相當任意的一種嘗試,前面由 G(x), H(y) 建構 F(x,y) 的方式只是「或許可能」的一種,真正的 F(x,y) 可有無數種、無法得知的構成。

以三隨機變數 X, Y, Z 為例,我們可能有 F(x,y), G(y,z), H(z,x) 三個雙變量邊際聯合分布,此時又如何構建出具有這些邊際分布的 P(x,y,z) 是其完整的聯合分布?當隨機變數更多時,問題更複雜,我既無解,就此停筆了。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()