兩年多前,做為統計假說檢定的一種程序,我們曾談過 p-值,。本文想再仔細談談 p-值這個令人又愛又恨的概念。

P-值 (p-value) 的一個定義是:

以當前手上的資料,能拒絕虛無假說 H 而接受對立假說 K 的最小顯著水準。

眾所熟知的,顯著水準愈小代表拒絕域愈小,因此以當前資料 x 而言,較大的顯著水準下 H 可能被拒絕,較小顯著水準下可能就不會被拒絕;反之,若在較小顯著水準下能拒絕 H,則在較大顯著水準下,H 當然也會被拒絕。通常用的顯著水準都相當小,因為顯著水準太大表示犯型Ⅰ誤的機率高,即使 H 被拒絕也不能說服人說 K 是正確的。但形式上顯著水準可以小至 0 或大至 1;若顯著水準為 0 則幾乎任何資料都不可能拒絕 H;另一方面若顯著水準為 1  則幾乎任何資料都可以拒絕 H。所以

{α: 在顯著水管 α 之下,資料 x 落在拒絕域 C(α)}

是區間 [0, 1] 的一個非空子集,具體地說是 [p,1] 這樣的區間集,當顯著水準 α < p 時 H 不被拒絕,當 α > p 時 x 使得 H 被拒絕。當 α = p 時因為數學上的原因 H 也被拒絕,所以 p 值擔得起「最小」的名義。

實務上的許多統計檢定常依賴所謂「檢定統計量」T(X),將代表資料的隨機變數 X 以實際資料 x 代入,就是當前的統計量值 T(x) = t,而 α 水準檢定的拒絕域可以表示為

C(α) ={x: T(x) > c(α)}

其中 c(α) 稱為檢定統計量 T(X) 的 α-臨界值,顯著水準 α 愈小則臨界值 c(α) 值愈大,拒絕域 C(α) 範圍愈小。所謂 α 水準檢定就是符合顯著水準 α 的檢定,也就是說

P[ X in C(α); θ ] ≦ α   for all  θ in H

這裡,H 和 K 我們同時用於代表兩個假說及它們代表的參數子集。設在資料是 x 的情形下 p-值是 p, 意謂當 α ≧ p 時 x 在 C(α) 中;而當 α < p 時 x 卻不在 C(α) 中。所以

T(x) > c(α) 當 α ≧ p;   ≦ c(α) 當 α < p

回想 p-值是使 x 落在拒絕域的最小顯得水準,因此

P[ X in C(p); θ] = P[T(X) > c(p); θ] ≦ p  for all  θ in H

而 T(x) ≧ c(p),因此

P[T(X) ≧ T(x); θ] ≦ P[T(X) > c(p); θ] ≦ p  for all  θ in H

另一方面,假設 α < p,又設 θ° in H 使得 P[T(X) ≦ c(α); θ°] = α,則

P[T(X) ≧ T(x); θ°] ≧ P[T(X) > c(α); θ°] = α

其中不等式因 T(x) < c(α)。但上述 α 是任意比 p 小的正值,所以,

sup_{θ in H} P[T(X) ≧ T(x); θ] ≧ p

這導出一個結論:

若任意顯著水準 α 都是可達到的,也就是存在 θ° in H 使得 P[X in C(α); θ°] = α,則 p-值可定義為
     p-value = sup_{θ in H} P[T(X) ≧ T(x); θ]

上列機率形式 sup_{θ in H} P[T(X) ≧ T(x); θ] 就成為 p-值最常用的定義,也常被表示成:

所謂 p-值,就是觀察到如當前資料,或比當前資料更極端的資料的機率(的最大值)。

所謂「比當前資料更極端的資料」就是 T(X) > T(x)。

上面圴討論拒絕域定義為 C(α) = {x: T(x) > c(α)},但如果拒絕域是 C(α) = {x: T(x) ≧ c(α)},p-值仍是

p-value = sup_{θ in H} P[T(X) ≧ T(x); θ]

當然這是假設任意顯著水準都是可達到的。如果檢定統計量 T(X) 的分布是連續型的,則任意顯著水準確實都是可達到的。如果檢定是不偏的,也就是說

θ° in H, θ' in K, 則 P[X in C(α); θ°] ≦ P[X in C(α); θ']

當任意顯著水準 α 都是可達到的,則是

θ° in H, θ' in K, 則 P[X in C(α); θ°] ≦ α ≦ P[X in C(α); θ']

如果 P[X in C(α); θ] 是 θ 的連續函蜈,而參蜈空間 Θ = H∪K 是 R 或 R^k 上一個連通區域,則當 θ = θ° 在 H 和 K 的共同邊界上時,P[X in C(α); θ°] = α。故

p-value = P[T(X) ≧ T(x); θ°],   θ° 在 H 和 K 的共同邊界上。

一般,如果 H 中有一個 θ° 使得

sup_{θ in H} P[T(X) ≧ c(α); θ°] = P[T(X) ≧ c(α); θ°] = α

則 p-value = P[T(X) ≧ T(x); θ°] 成立,也就是說 p-值可以用 θ = θ° 時「觀察到如當前資料或比當前資料更極端的資料的機率」來定義。當 p-值能用一實數值統計量在特定 θ 值 θ° 的機率來定義時,把這樣的 p 值當作 x 的函數,則 p(X) 是一個隨機變數,類似 T(X) 的分布函數變換,對連續型的 T(X) 而言相當於該變換的 1-補數,具 [0, 1] 上的均勻分布。

當 T(X) 的分布不是連續型時,不是任意顯著水準 α 都可達到,這時 P[T(X) ≧ T(x); θ°] 當作 p-值的定義又如何呢?假設無論 c 是多少, P[T(X) ≧ c; θ] 在 θ in H 的範圍內都是 θ = θ° 時最大,否則利用 p-值做 α-水準檢定時難以捶制型Ⅰ誤不超過 α。由於檢定規則是 p(x) ≦ α 時拒絕 H 而 p > α 時不拒絕,p-值仍是「當前資料 x 可拒絕 H 的最小顯著水準,即使不是任意顯著水準 α 都是可達到的。例如在二項群體比例檢定問題,H: p ≦ p° 對 K: p > p°,用二項分布統計量 T~Bin(n, p), 可證得對任何 c,P[T>c; p] 都是 p 的增函數,因此在 H 中以 p = p° 時機率值最高,卹以 p-值是 P[T(X)≧T(x); p°]。由於二項分布是離散型,不是任意顯著水準 α 都可達到,但 p-值仍是可達到的最小顯著水管。

假設不論以任何方式定義了 p-值 p(x; θ°),符號意謂當前資料為 x;計算前項 p-值用到 H 中, 個特定參數值 θ°。而檢定程序是:

若 p(x; θ°) ≦ α 盯拒絕 H;否則不拒絕 H。

這樣的檢定是 α-水管檢定的條件是:

P[ p(x; θ°) ≦ α; θ] ≦ α,  for all  θ in H

意即犯型Ⅰ誤機率都控制不超過顯著水準 α。如果對所有 α in (0, 1),上述檢定都是正確的,p(x; θ°) 就稱為是一個有效的 (valid) p-值。例如在一般單參數雙邊對立假說檢定問題,常用「雙倍單邊 p-值」的方法定義 p-值,例如前述二項比例檢定問題,如果 H 是 p = p° 而 K 是 p ≠ p°,雙倍單邊 p-值定義為

p(x) = min{1, 2 Min{P[T(X) ≧ T(x); θ°], P[T(X) ≦ T(x); θ°]}

然後用上列 p(x) 與顯著水準 α 比較以決定拒絕 H 與否。下列是一個簡單的數值例子:

θ°=1/3, T~Bin(5, θ)        
t 0 1 2 3 4 5
P[T=t] 0.131687 0.329218 0.329218 0.164609 0.041152 0.004115
P[T≦t] 0.131687 0.460905 0.790123 0.954733 0.995885 1
P[T≧t] 1 0.868313 0.539095 0.209877 0.045267 0.004115
p-value 0.263374 0.921811 1 0.419753 0.090535 0.00823

在一些特定顯著水準下,真實的型Ⅰ誤機率差異很大:

α {x: p(x)≦α} P{type Ⅰ err} p-value
0.004115 {} 0.000000 0.000000
0.008230 {5} 0.004115 0.008230
0.045267 {5} 0.004115 0.008230
0.090535 {4,5} 0.045267 0.090535
0.176955 {4,5} 0.045267 0.090535
0.263374 {0,4,5} 0.176955 0.263374
0.341564 {0,4,5} 0.176955 0.263374
0.419753 {0.3,4,5} 0.341564 0.419753
0.670782 {0.3,4,5} 0.341564 0.419753

例如,顯著水準為 0.0453 時,只有 x = 5 時的 p-值符合,所以拒絕域是 { 5 },而在 p° = 1/3 時 P[T = 5] = 0.0041,遠低於名目水準,也低於對應的 p-值。所以此 p-值是有效的;另外,此例也顯示 P-值與可拒絕 H 的最小顯著水準一致,這只是巧合抑或必然?假設一個 P-值是有效的,

P[ p(X) ≦ α; θ] ≦ α,  for all  θ in H,  for any α in (0, 1)

而我們 reject H if and only if p(x) ≦ α。令 α = p(x), 則 H 被拒絕;若 α < p(x),則 H 不被拒絕。所以檢定規則 " reject H if and only if p(x) ≦ α" 本身就蘊涵了 p(x) 是在當前資料 x 能拒絕 H 的最小顯得水準。反過來說,把 p-值定義為「在當前資料 x 能拒絕 H 的最小顯得水準」, 也意謂如果 p(x) ≦ α 則 H 被拒絕,反之如果 α < p(x) 則 H 不被拒絕,所以 p-值成為 α-水準檢定的標準化檢定統計量,不論 p-值是否依機率形式定義。

如果檢定統計量 T(X) 並不滿足存在 θ° in H 使 P[T(X) > c; θ]  在 θ° 最大化,p-值的定義如前文所貞是

p(x) = sup_{θ in H} P[T(X) ≧ T(x); θ]

這是一個有效的 p-值,因對於 H 中任意 θ°,

p(x) ≧ P[T(X) ≧ T(x); θ°] = P[ -T(X) ≦ -T(x); θ°]

上式右邊是 -T(X) 的分布函數變換,令 u(x) 代表右式,則 Y = u(X) 是 -T(X) 的分布函數變換,在「非嚴格遞增分布函數及其虛擬反函數」一文我們得知

P[Y ≦ p; θ°] ≦ p,  for all  p in (0, 1)

但 p(x) ≧ u(x) for all x, 因此

P[p(X) ≦ p; θ°] ≦ P[u(X) ≦ p; θ°] ≦ p,  for all  p in (0, 1)

但上列 θ° 是 H 中任取的,因此證明了此 p(x) 是有效的。

再看雙倍單邊 p-值,前面的例子顯示它是有效的,是否在其他例子仍然有效?其實,雙倍單邊 p-值相當於根據檢定統計量 T(X) 的等雙尾檢定——兩尾各取 α/2 的雙尾檢定。除去 p(x) = 1 的部分,p(x)/2 等於左尾 P[T(X)≦T(x)] 或 P[T(X)≧T(x)],依 T(x) 是在 T(X) 分布之左半或右半而定。所以用此 p(x) 做 α-水準檢定,相當於以 p(x)/2 做兩個 α/2-水準檢定,一是左謗對立假說,另一是右邊對立假說。以前面的例子來說,是做

H': p ≧ 1/3  vs.  K': p < 1/2,   C' = {x: T(x) < c'}

H": p ≦ 1/3  vs.  K": p > 1/3,  C" = {x: T(x) > C"}

第一個檢定的 p-值是 p'(x) = P[T(X) ≦ T(x); p° =1/3];第二個檢定的 p-值是 p"(x) = P[T(X) ≧ T(x); p° =1/3]。只要 p'(x) ≦ α/2 或 p"(x) ≦ α/2 即拒絕 H = H'∩H"。故

P[p(X) ≦ α; p°] = P[p'(X) ≦ α/2; p°] + P[p"(X) ≦ α/2; p°] ≦ α

因中暑式兩項都不超過 α/2

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()