根據 Wikipedia, p 值計算最早可推至 18 世紀初,1710 John Arbuthnot 研究人類出生性比是否為 1 : 1,檢查了 1629-1710 共 82 年倫敦每年出生紀錄,發現女嬰數都少於男嬰數。假設男女嬰出生機會相同,發生這種現象的機率是 1/2^82, 這機率太小以致他不認為純屬偶然:"From whence it follows, that it is Art, not Chance, that governs."  這被認為是顯著性檢定的首次使用。不過,p 值的正式引用是 Karl Pearson, 在他的卡方檢定 (chi-squared test) 中,應用卡方分布 (chi-squared distribution) 並以大寫字母 P 表示。W. P. Elderton 計算了卡方分布機率表並收錄在 Pearson 1914 的數值表列中。Ronald A. Fisher 計算 p = 0.99, 0.98, 0.95, 0.90, ..., 0.10, 0.05, 0.02, 0.01 所對應的卡方值,這使得卡方的計算值(觀測值)可以直接和這些臨界值比較從而知道 p 值在哪個範圍,傾向於用某些 p 值(顯著水準)為切割點而非報告 p 值。不過,在他 1935 出版的 The Design of Experiments 一書中,有名的「品茶實驗」例子中,仍明白地以 p 值完成其推論。雖然,他其實傾向於固定顯著水準的檢定決策,在其後來的版本中,明白地反對使用 p 值做結論,雖然不反對 p 值的使用。強調使用 5%, 2%, 1% 的方便性,以及檢定程序需要明確的判定。

R. A. Fisher 和 K. Pearson 都是偉大的統計學家,後者可說是早期大樣本時代的領軍人物,前者則對近代統計理論有重要影響,顯著水準 0.05 的廣泛使用據文獻看來主要是受他的影響。然而,偉大不表示不會犯錯,事實上他們都曾有些基本的錯誤被後來的學者一再討論(當然也有其忠誠信徒試圖為他們的「錯誤」做出新的解釋),因此我們不必拘泥於他們的意見。從提供給讀者的資訊量來說,固定顯著水準 α 的檢定結論不如 p 值及對應的 1-α 信賴區間,因為後兩者都可以做成水準 α 的檢定結論。至於 p 值與固定水準信賴區間,則無法比較。

從前面簡述的歷史可推知 p 值的一個定義:

  • P 值是在虛無假說成立的前提之下,資料可能出現如目前觀察到的,或比目前看到的更極端的機率。

在使用上,欲使用 p 值做結論必須與顯著水準比較,p 值小於或等於顯著水準就拒絕虛無假說 H0,否則就不拒絕。因此,p 值有另一等價的定義:

  • P 值是現有資料能拒絕虛無假說的最小顯著水準。

當 p = α (顯著水準) 時(雖然這種可情形很少發生),按上述說法是會拒絕虛無假說,但如果是 p < α 才拒絕,則 p 值的前項等價定義應是:

  • P 值是現有資料使虛無假說不被拒絕的最大顯著水準。

不管如何定義,p 值的確定或計算顯然都依賴於檢定統計量和拒絕域的方向。例如檢定統計量是 T(X), 拒絕 H0 的條件是 T(X) > t1, 則依原始定義

  p 值 = P[ T(X) ≧ T(x) ; H0 ]

T(X) 是一統計量,是樣本資料 X 的函數;T(x) 是根據現有樣本 x 計算的 T 統計量的值。如果判決規則(由對立假說 H1 所決定)是 |T(X)| > t2,則

  p 值 =  P[ |T(X)| ≧ |T(x)| ; H0 ]  當 T(X) 的虛無分布對稱於 0;

      = 2 min{P[T(X)≧T(x) ; H0], P[T(X)≦T(x); H0]}  一般.

一般情形 (非對稱情形)的 p 值計算是建立在「等尾機率」之下的,也就是顯著水準是 α 則兩尾各給予 α/2 機率決定臨界值。

P 值是樣本資料 x 的函數,也就是說,在資料還沒被觀測時,它是隨機變數 X 的函數,它本身有一個機率分布。如果檢定統計量 T 是連續的,則  p 值是 P[T≦t], P[T≧t] 或 2 min{P[T≦t], P[T≧t]),根據對分布函數變換的了解,我們知道 p 值的虛無分布是 [0,1] 間的均勻分布。若 T 是離散型,則 p 值也是離散型,在每個跳躍點跳至 45° 線對應的點。至於對立假說下 p 值的分布,討論起來太複雜,不過可以確定是偏小的:

  P[ P ≦ p ; H1 ] < P[ P ≦ p ; H0 ] = p, p in [0,1].

中括號內大寫 P 代表隨機變數形態的 P 值。以所謂「左尾檢定」而為例, p 值被定義為 P[T(X)≦T(x) ; H0]。在 H1 成立之下,T(x) 將偏低,因而算出的 p 值偏低。這也就是說,根據虛無分布算出的 p 值視為隨機變數時,其真實分布應比均勻分布偏左。

由定義或計算式可以知道 p 值是「在虛無假說成立的條件下」,理論上資料比現有資料「極端」或一樣極端的機率,所以它被解釋為「支持虛無假說的證據強度」。當 p 值太小,我們認為不足以支持 H0 這個假說了,所以放棄 H0 轉而支持 H1。但「證據強度」不是機率,絕不能把它當成 H0 成立的機率——在頻率論或稱古典、傳統統計方法裡,涉及群體參數的敘述都沒有機率可言;就像在信賴區間之推論方法中信賴度與信賴水準不能被解釋為機率。

J. T. Hwang (黃俊宗) 等 (1990) 用了一種不同觀點來考慮假說檢定問題並檢討 p 值的良窳。他們把檢定問題

  H0: θ in Θ0 ;   H1: θ in Θ1

當做指標函數 I_{Θ0}(θ)  ( = 1 當 θ in Θ0; = 0 當 θ in Θ1 ) 的估計問題。傳統檢定試圖以 {0, 1} 值函數做為決策函數,p 值可看成是一 0~1 值的估計式。他們考慮了兩種檢定:

  單邊對立假說: H0: θ ≦ θ0  versus  H1: θ > θ0

  雙邊對立假說: H0: θ0≦θ≦θ1  versus  H1: θ<θ0 or θ>θ1

結論說:採用平方誤差損失,在單邊對立假說問題,p 值當做前述指標函數的估計式是容許的 (admissible),意思是不存在另一個估計式其風險值一致地比 p 值低;但在雙邊對立假說問題,p 值卻是不容許的 (inadmissible),存在風險一致較低的估計式。不過,即使在雙邊對立假說,正式的貝氏估計 (proper Bayes rule) 並不能一致性地優於 p 值,只有廣義的 (generalized, improper Bayes rule) 可以一致性地優於 p 值。因此 p  值是衡量支持 H0 證據的一個可行指標。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()