兩年多前,做為統計假說檢定的一種程序,我們曾談過 p-值,。本文想再仔細談談 p-值這個令人又愛又恨的概念。
P-值 (p-value) 的一個定義是:
以當前手上的資料,能拒絕虛無假說 H 而接受對立假說 K 的最小顯著水準。
眾所熟知的,顯著水準愈小代表拒絕域愈小,因此以當前資料 x 而言,較大的顯著水準下 H 可能被拒絕,較小顯著水準下可能就不會被拒絕;反之,若在較小顯著水準下能拒絕 H,則在較大顯著水準下,H 當然也會被拒絕。通常用的顯著水準都相當小,因為顯著水準太大表示犯型Ⅰ誤的機率高,即使 H 被拒絕也不能說服人說 K 是正確的。但形式上顯著水準可以小至 0 或大至 1;若顯著水準為 0 則幾乎任何資料都不可能拒絕 H;另一方面若顯著水準為 1 則幾乎任何資料都可以拒絕 H。所以
{α: 在顯著水管 α 之下,資料 x 落在拒絕域 C(α)}
是區間 [0, 1] 的一個非空子集,具體地說是 [p,1] 這樣的區間集,當顯著水準 α < p 時 H 不被拒絕,當 α > p 時 x 使得 H 被拒絕。當 α = p 時因為數學上的原因 H 也被拒絕,所以 p 值擔得起「最小」的名義。
實務上的許多統計檢定常依賴所謂「檢定統計量」T(X),將代表資料的隨機變數 X 以實際資料 x 代入,就是當前的統計量值 T(x) = t,而 α 水準檢定的拒絕域可以表示為
C(α) ={x: T(x) > c(α)}
其中 c(α) 稱為檢定統計量 T(X) 的 α-臨界值,顯著水準 α 愈小則臨界值 c(α) 值愈大,拒絕域 C(α) 範圍愈小。所謂 α 水準檢定就是符合顯著水準 α 的檢定,也就是說
P[ X in C(α); θ ] ≦ α for all θ in H
這裡,H 和 K 我們同時用於代表兩個假說及它們代表的參數子集。設在資料是 x 的情形下 p-值是 p, 意謂當 α ≧ p 時 x 在 C(α) 中;而當 α < p 時 x 卻不在 C(α) 中。所以
T(x) > c(α) 當 α ≧ p; ≦ c(α) 當 α < p
回想 p-值是使 x 落在拒絕域的最小顯得水準,因此
P[ X in C(p); θ] = P[T(X) > c(p); θ] ≦ p for all θ in H
而 T(x) ≧ c(p),因此
P[T(X) ≧ T(x); θ] ≦ P[T(X) > c(p); θ] ≦ p for all θ in H
另一方面,假設 α < p,又設 θ° in H 使得 P[T(X) ≦ c(α); θ°] = α,則
P[T(X) ≧ T(x); θ°] ≧ P[T(X) > c(α); θ°] = α
其中不等式因 T(x) < c(α)。但上述 α 是任意比 p 小的正值,所以,
sup_{θ in H} P[T(X) ≧ T(x); θ] ≧ p
這導出一個結論:
若任意顯著水準 α 都是可達到的,也就是存在 θ° in H 使得 P[X in C(α); θ°] = α,則 p-值可定義為
p-value = sup_{θ in H} P[T(X) ≧ T(x); θ]
上列機率形式 sup_{θ in H} P[T(X) ≧ T(x); θ] 就成為 p-值最常用的定義,也常被表示成:
所謂 p-值,就是觀察到如當前資料,或比當前資料更極端的資料的機率(的最大值)。
所謂「比當前資料更極端的資料」就是 T(X) > T(x)。
上面圴討論拒絕域定義為 C(α) = {x: T(x) > c(α)},但如果拒絕域是 C(α) = {x: T(x) ≧ c(α)},p-值仍是
p-value = sup_{θ in H} P[T(X) ≧ T(x); θ]
當然這是假設任意顯著水準都是可達到的。如果檢定統計量 T(X) 的分布是連續型的,則任意顯著水準確實都是可達到的。如果檢定是不偏的,也就是說
θ° in H, θ' in K, 則 P[X in C(α); θ°] ≦ P[X in C(α); θ']
當任意顯著水準 α 都是可達到的,則是
θ° in H, θ' in K, 則 P[X in C(α); θ°] ≦ α ≦ P[X in C(α); θ']
如果 P[X in C(α); θ] 是 θ 的連續函蜈,而參蜈空間 Θ = H∪K 是 R 或 R^k 上一個連通區域,則當 θ = θ° 在 H 和 K 的共同邊界上時,P[X in C(α); θ°] = α。故
p-value = P[T(X) ≧ T(x); θ°], θ° 在 H 和 K 的共同邊界上。
一般,如果 H 中有一個 θ° 使得
sup_{θ in H} P[T(X) ≧ c(α); θ°] = P[T(X) ≧ c(α); θ°] = α
則 p-value = P[T(X) ≧ T(x); θ°] 成立,也就是說 p-值可以用 θ = θ° 時「觀察到如當前資料或比當前資料更極端的資料的機率」來定義。當 p-值能用一實數值統計量在特定 θ 值 θ° 的機率來定義時,把這樣的 p 值當作 x 的函數,則 p(X) 是一個隨機變數,類似 T(X) 的分布函數變換,對連續型的 T(X) 而言相當於該變換的 1-補數,具 [0, 1] 上的均勻分布。
當 T(X) 的分布不是連續型時,不是任意顯著水準 α 都可達到,這時 P[T(X) ≧ T(x); θ°] 當作 p-值的定義又如何呢?假設無論 c 是多少, P[T(X) ≧ c; θ] 在 θ in H 的範圍內都是 θ = θ° 時最大,否則利用 p-值做 α-水準檢定時難以捶制型Ⅰ誤不超過 α。由於檢定規則是 p(x) ≦ α 時拒絕 H 而 p > α 時不拒絕,p-值仍是「當前資料 x 可拒絕 H 的最小顯著水準,即使不是任意顯著水準 α 都是可達到的。例如在二項群體比例檢定問題,H: p ≦ p° 對 K: p > p°,用二項分布統計量 T~Bin(n, p), 可證得對任何 c,P[T>c; p] 都是 p 的增函數,因此在 H 中以 p = p° 時機率值最高,卹以 p-值是 P[T(X)≧T(x); p°]。由於二項分布是離散型,不是任意顯著水準 α 都可達到,但 p-值仍是可達到的最小顯著水管。
假設不論以任何方式定義了 p-值 p(x; θ°),符號意謂當前資料為 x;計算前項 p-值用到 H 中, 個特定參數值 θ°。而檢定程序是:
若 p(x; θ°) ≦ α 盯拒絕 H;否則不拒絕 H。
這樣的檢定是 α-水管檢定的條件是:
P[ p(x; θ°) ≦ α; θ] ≦ α, for all θ in H
意即犯型Ⅰ誤機率都控制不超過顯著水準 α。如果對所有 α in (0, 1),上述檢定都是正確的,p(x; θ°) 就稱為是一個有效的 (valid) p-值。例如在一般單參數雙邊對立假說檢定問題,常用「雙倍單邊 p-值」的方法定義 p-值,例如前述二項比例檢定問題,如果 H 是 p = p° 而 K 是 p ≠ p°,雙倍單邊 p-值定義為
p(x) = min{1, 2 Min{P[T(X) ≧ T(x); θ°], P[T(X) ≦ T(x); θ°]}
然後用上列 p(x) 與顯著水準 α 比較以決定拒絕 H 與否。下列是一個簡單的數值例子:
θ°=1/3, | T~Bin(5, θ) | |||||
t | 0 | 1 | 2 | 3 | 4 | 5 |
P[T=t] | 0.131687 | 0.329218 | 0.329218 | 0.164609 | 0.041152 | 0.004115 |
P[T≦t] | 0.131687 | 0.460905 | 0.790123 | 0.954733 | 0.995885 | 1 |
P[T≧t] | 1 | 0.868313 | 0.539095 | 0.209877 | 0.045267 | 0.004115 |
p-value | 0.263374 | 0.921811 | 1 | 0.419753 | 0.090535 | 0.00823 |
在一些特定顯著水準下,真實的型Ⅰ誤機率差異很大:
α | {x: p(x)≦α} | P{type Ⅰ err} | p-value |
0.004115 | {} | 0.000000 | 0.000000 |
0.008230 | {5} | 0.004115 | 0.008230 |
0.045267 | {5} | 0.004115 | 0.008230 |
0.090535 | {4,5} | 0.045267 | 0.090535 |
0.176955 | {4,5} | 0.045267 | 0.090535 |
0.263374 | {0,4,5} | 0.176955 | 0.263374 |
0.341564 | {0,4,5} | 0.176955 | 0.263374 |
0.419753 | {0.3,4,5} | 0.341564 | 0.419753 |
0.670782 | {0.3,4,5} | 0.341564 | 0.419753 |
例如,顯著水準為 0.0453 時,只有 x = 5 時的 p-值符合,所以拒絕域是 { 5 },而在 p° = 1/3 時 P[T = 5] = 0.0041,遠低於名目水準,也低於對應的 p-值。所以此 p-值是有效的;另外,此例也顯示 P-值與可拒絕 H 的最小顯著水準一致,這只是巧合抑或必然?假設一個 P-值是有效的,
P[ p(X) ≦ α; θ] ≦ α, for all θ in H, for any α in (0, 1)
而我們 reject H if and only if p(x) ≦ α。令 α = p(x), 則 H 被拒絕;若 α < p(x),則 H 不被拒絕。所以檢定規則 " reject H if and only if p(x) ≦ α" 本身就蘊涵了 p(x) 是在當前資料 x 能拒絕 H 的最小顯得水準。反過來說,把 p-值定義為「在當前資料 x 能拒絕 H 的最小顯得水準」, 也意謂如果 p(x) ≦ α 則 H 被拒絕,反之如果 α < p(x) 則 H 不被拒絕,所以 p-值成為 α-水準檢定的標準化檢定統計量,不論 p-值是否依機率形式定義。
如果檢定統計量 T(X) 並不滿足存在 θ° in H 使 P[T(X) > c; θ] 在 θ° 最大化,p-值的定義如前文所貞是
p(x) = sup_{θ in H} P[T(X) ≧ T(x); θ]
這是一個有效的 p-值,因對於 H 中任意 θ°,
p(x) ≧ P[T(X) ≧ T(x); θ°] = P[ -T(X) ≦ -T(x); θ°]
上式右邊是 -T(X) 的分布函數變換,令 u(x) 代表右式,則 Y = u(X) 是 -T(X) 的分布函數變換,在「非嚴格遞增分布函數及其虛擬反函數」一文我們得知
P[Y ≦ p; θ°] ≦ p, for all p in (0, 1)
但 p(x) ≧ u(x) for all x, 因此
P[p(X) ≦ p; θ°] ≦ P[u(X) ≦ p; θ°] ≦ p, for all p in (0, 1)
但上列 θ° 是 H 中任取的,因此證明了此 p(x) 是有效的。
再看雙倍單邊 p-值,前面的例子顯示它是有效的,是否在其他例子仍然有效?其實,雙倍單邊 p-值相當於根據檢定統計量 T(X) 的等雙尾檢定——兩尾各取 α/2 的雙尾檢定。除去 p(x) = 1 的部分,p(x)/2 等於左尾 P[T(X)≦T(x)] 或 P[T(X)≧T(x)],依 T(x) 是在 T(X) 分布之左半或右半而定。所以用此 p(x) 做 α-水準檢定,相當於以 p(x)/2 做兩個 α/2-水準檢定,一是左謗對立假說,另一是右邊對立假說。以前面的例子來說,是做
H': p ≧ 1/3 vs. K': p < 1/2, C' = {x: T(x) < c'}
H": p ≦ 1/3 vs. K": p > 1/3, C" = {x: T(x) > C"}
第一個檢定的 p-值是 p'(x) = P[T(X) ≦ T(x); p° =1/3];第二個檢定的 p-值是 p"(x) = P[T(X) ≧ T(x); p° =1/3]。只要 p'(x) ≦ α/2 或 p"(x) ≦ α/2 即拒絕 H = H'∩H"。故
P[p(X) ≦ α; p°] = P[p'(X) ≦ α/2; p°] + P[p"(X) ≦ α/2; p°] ≦ α
因中暑式兩項都不超過 α/2