設隨機變數 X 之分布函數 F(x) 並非在單一區間嚴格遞增,例如離散型分布之階梯型分布函數,如圖:

非嚴格遞增分布函數及其虛擬反函數

 

這樣的分布函數 F(x) 蕭‵並沒有反函數,因為一段段的「平台」表示這不是一對一的,因此不可能定義出一個反函數 G(x) 使

  F(G(p)) = p for all p in (0,1)  且  G(F(x)) = x for all x in R.

不只離散型的分布函數會有平台,連續型如其支撑 (support) 不是單一區間,例如是兩個或三個分離的區間,也會產生平台,也無嚴格意義的反函數。

另外,上述階梯函數不只有平台,它還有許多「跳躍 (jump)」的不連續點,使得 F 的值域並不是整個 [0,1] 因而定義在 [0,1] 的任意函數 G 都不可能滿足 

  F(G(p)) = p for all p in (0,1)

這種問題不只離散型存在,還有混合型也存在跳躍的不連續點。因此,我們必須擴充「反函數」的觀念,在 [0,1] 或 (0,1) 定義一個函數 G(p) 使其具有某些我們要的性質。

考慮分布函數變換 Y = F(X),如果 F 是連續型的,其值域是整個 [0,1],而我們希望 Y = F(X) 在 [0,1] 是均勻分布,也就是

  P[ F(X) ≦ p ] = p, for all p in [0,1]。

如果分布函數 F 的支撑是單一區間 [a,b] (或 (-∞,b], 或 [a,∞) 或 (-∞,∞)),F 在 [a,b] 嚴格上升,則 F 及其反函數 F^(-1) 都是連續的,其中

  F^(-1)(p) ≡ arg { x: F(x) = p }

此式意思是:F^(-1)(p) 被定義為:使 F(x) = p 的 x。由於 F 及 F^(-1) 的連續性,

  F(x) = inf{x; F(x) > p} = inf{x; F(x) ≧ p}

    = sup{x; F(x) < p} = sup{x; F(x) ≦ p}

所以,對於一般分布函數的虛擬反函數 (pseudo inverse function) 我們有 4 個候選者:

  inf{x; F(x) > p} ;  inf{x; F(x) ≧ p} ;  sup{x; F(x) < p} ;  sup{x; F(x) ≦ p}

在矩陣代數,任何一個實數矩陣都 A 可以定義其「廣義反矩陣 (generalized inverse)」 G,滿足 AGA = A。在這裡我們想定義 F 的虛擬反函數 G,也要求

  F(G(F(x))) = F(x) for all x in R.

以上面的圖為例,若定義

  G(p) = inf{x; F(x) > p}, p in (0,1)

可發現

  F(G(F(2))) = F(G(0.4)) = F(4) ≠ F(2)

因此對存在跳躍不連續點的分布函數 F 來說,第一個定義顯然不符 FGF = F (此處 FGF 是函數合成而非相乘)的要求。類似地很容易驗證第四種定義

  G(p) = sup{x; F(x) ≦ p}

也不符合。因此,只剩下 inf{x; F(x) ≧ p} 或 sup{x; F(x) < p} 可用來定義 G(p)。

事實上剩下兩個可能定義是等價的,也就是說:

  U(p) = {x; F(x) ≧ p},  V(p) = {x; F(x) < p},  則

  inf U(p) = sup V(p) for all p in (0,1)

顯然對每個 p 在 (0,1) 之中,U(p), V(p) 構成數線 R 的一個分割。由於 F 的單調遞增及右連續性,前者在右是一閉區間,後者在左是一開區間。既然是數線的一個分割,分割點也就是前者的「下確界 (infimum)」後者的「上確界 (supremum)」。所以 F(x) 的虛擬反函數就定義為

  G(p) = inf{x; F(x) ≧ p} = sup{x; F(x) < p},  p in (0,1) 或 [0,1]

對於任意 p 在 (0,1) 中,可證得 F(G(p)) ≧ p, 且若存在 x 使 F(x) = p, 則 F(G(p)) = p, 也就是說 F(G(F(x))) = F(x) 對任意實數 R 都成立。另一方面,由定義容易得到 G(F(x)) ≦ x 對所有實數 x 成立,等式成立的條件是對所有 z < x 均得 F(z) < F(x),換言之,在 x 處不存在平台,或 x 是所在平台最左邊的點。

回頭來看分布函數變換 Y = F(x), 設某個 x 使 F(x) = p,

  P[ Y ≦ p ] = P[ F(X) ≦ F(x) ]  ≦ P[ G(F(X)) ≦ G(F(x)) ] 

       ≦ P[ G(F(X)) ≦ x ] = P[ X ≦ x ] + P[ G(F(X)) ≦ x < X ] 

       ≦ p + P[ F(X) ≦ F(x) ≦ F(X) ] = p + P[ F(X) = F(x) ]

最後一式的 P[ F(X) = F(x) ] 即是所有使 F(y) = F(x) 的點  y 所形成的黠集的機率,等於 P[ X = x ]。在 F 之連續點 x,上式等於說 P[ Y ≦ p ] ≦ p。

另一方面,

  P[ Y ≦ p ] = P[ F(X) ≦ F(x) ] ≧ P[ X ≦ x ] = p.

所以,在 F 的連續點 x 得 P[ Y ≦ F(x) ] = F(x),若 F 是連續型分布函數,即使其支撑不是單一區間,分布函數變換也將任意分布轉成在 [0,1] 的均勻分布。

如前述 G(F(x)) 其實是對應 p = F(x) 的最小 x 值,以 x* 表示之。就跳躍之不連續點來說,或者它就是平台最左邊的 x*,或者在此處是嚴格遞增的。

  P[ Y ≦ p ] = P[ F(X) ≦ F(x) ]  ≦ P[ G(F(X)) ≦ G(F(x)) ]

       = P[ G(F(X)) ≦ x* ] ≦ P[ F(X) ≦ p]

所以,即使在跳躍不連續點,若 p 在 F 的值域中,分布函數變換也將得到 P[ Y ≦ p ] = p, 因此,如上面那個例子,分布變換 Y = F(X) 後 Y 的分布函數圖示如下:

 

非嚴格遞增分布函數及其虛擬反函數

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()