統計處理非確定性的、隨機的訊息,或更明確地說是藉由收集到的不完整的、但被認為具有隨機性代表性的樣本資料,推論那未知的、本質上不可能確知的群體模樣、特性或參數,實際上不可能「證明」任何事,但我們總希望統計能為我們證明一些事。這似乎有點矛盾?不過如果把兩個「證明」做不同解讀,那就可行了。統計不能像數學那樣證明某些事是事實,這就是之前說的:統計不可能證明任何事的原由。然而,統計確實能提供「對某事有足夠證據」的說法,統計假說檢定 (testing statistical hypotheses) 就是做這樣的事,雖然它做的不完全,有時它能提供足夠的證據,有時不行。
統計假說檢定 H0 對 Ha,在所謂頻率論的方法是設定一個顯著水準 α,明確地說是在實際狀況是 H0 之下會拒絕 H0 的機率上限,也就是說犯這所謂型Ⅰ錯誤的機率不超過 α。而檢定結果如果拒絕 H0,我們說結果顯著或差異顥著。之所以說「差異」顯著,因為 H0 常是 θ = θ0 的形式,而 Ha 則代表 θ 和 θ0 有差異。不過,這「差異顯著」說的其實不是 θ 與 θ0 的差異足夠大。差異顯著的檢定結果只是說:
我們承認 θ 和 θ0 有「差異」,因為有「顯著」證據顯示假設 θ = θ0 是有問題的。
所以,「差異顯著」其實是容易誤導讀者的報告方式,說「達到統計上的顯著性」似乎是比較好的說法。
我們說拒絕 H0 表示「有顯著證據」顯示 H0 這假說有問題,也就是說:
從統計上來看,在允許一些機會可能犯型Ⅰ錯誤之下,我們認為有足夠證據說 Ha 是對的。
這就是統計上的證明。如果檢定結果是拒絕了 H0,就相當於在統計上我們證明了 Ha 成立。但反過來,不拒絕 H0 不表示支持 H0 拒絕 Ha,所以通常我們不說「接受 H0」, 而是說「 不能拒絕 H0」或類似說法。因此,統計上只能「證明」Ha,卻不能「證明」H0,甚至連「支持 H0」在傳統檢定方法,或更正確的稱呼:頻率論檢定方法中都不能說。所以統計人會告訴用統計的人如何設定 H0 和 Ha:
H0 就是你想推翻,但又必須保護的假說。
想推翻,因為你懷疑它說的不對;必須保護,因為任意懷疑它算是嚴重的問題。就好像懷疑一個人做錯了事,那麼,拿出證據吧!否則隨便懷疑人是很嚴重的。
但是,有時候我們希望能「證明」H0 所陳述的 θ = θ0,那怎麼辦?例如某種專利藥專利到期了,其他藥廠也想分一杯羹,那麼原廠當然反對了。但你已經享受了足夠久的專利了,又憑什麼限制別人不得生產?於是藥品主管機關發話了:可以,只要你證明你的藥是可用的,在生體上(人體生理上)你的藥和原廠藥有「一樣」的表現。這就是說:你必須證明 θ = θ0。真的證明 θ = θ0 在統計上是辦不到的,因此就統計上來說,以平均數而言,就是規定適當的 Δ,欲生產出售該學名藥的廠商必須證明 Ha: θ0-Δ < θ < θ0+Δ。實際上如何做呢?原本問題是:
H0: θ≦θ0-Δ 或 θ≧θ0+Δ Ha: θ0-Δ<θ<θ0+Δ
實際的做法可能是:把上列檢定問題變成兩個單邊檢定問題:
H01: θ ≦ θ0-Δ Ha1: θ > θ0-Δ
H02: θ ≧ θ0+Δ Ha2: θ < θ0+Δ
證明了 Ha1 和 Ha2,也就證明了 Ha;反過來說,要證明 Ha,也就要證明 Ha1 和 Ha2。當然也可能因問題特性不是採用對稱區間,而是取 θ1 < θ0 < θ2,原問題是:
H0: θ ≦ θ1 或 θ ≧ θ2 Ha: θ1 < θ < θ2
而拆開的單邊對立假說問題是
H01: θ ≦ θ1 Ha1: θ > θ1
H02: θ ≧ θ2 Ha2: θ < θ2
不過,這其中有個問題:H0 對 Ha 的檢定如果是水準 α,則在 θ = θ1 或 θ2 時,拒絕 H0 的機率要不超過 α;反過來說,在 θ 大於 θ1 並且小 θ2 的某點 θ* 時,拒絕 H0 的機率至少要達到某個預定的檢定力 1-β。而分解為兩個檢定問題,也必須保證這件事。
假設檢定統計量 T 在兩單邊檢定問題拒絕域分別是 T > t1 與 T < t2,則在原檢定問題拒絕域是 t1 < T < t2。因此,我們要求
P[t1<T<t2; θ=θ1 或 θ2] ≦ α, P[t; 1<T<t2; θ=θ*] ≧ 1-β
而實際上採用兩個單邊對立假說來決定 t1, t2,如果都是 α 水準的檢定:
P[T > t1; θ = θ1] = α1 ≦ α, P[T > t1; θ = θ*] = 1-β1
P[T < t2; θ = θ2] = α2 ≦ α, P[T < t2; θ = θ*] = 1-β2
則
P[t1 < T < t2; θ = θ1] ≦ α1 ≦ α, P[t1 < T < t2; θ = θ2] ≦ α2 ≦ α
顯示兩檢定整體代替原檢定的型Ⅰ錯誤機率仍控制在 α 水準。但在檢定力方面,
P[t1 < T < t2; θ = θ*] = P[T < t2; θ = θ*] - P[T ≦ t1; θ = θ*] = (1-β2)-β1
也就是說兩檢定用來代替原來要做的檢定,在計算點 θ* 的檢定力是 1-β1-β2,或說其型Ⅱ誤機率是兩單邊對立假說型Ⅱ誤機率之和。例如採用兩單邊檢定如各有 95% 檢定力,總檢定力為 90%。不過,兩檢定之檢定力可能不會相等,這增加了檢定力計算及控制的複雜性。我們以 θ1, θ2 取 θ0±Δ 為例,設 θ* = θ0 時兩檢定各有 1-β0 的檢定力,0<δ<Δ,則
P[T > t1; θ = θ0-δ] < P[T > t1; θ = θ0] = 1-β0 < P[T > t1; θ = θ0+δ]
P[T < t2; θ = θ0-δ] > P[T < t2; θ = θ0] = 1-β0 > P[T < t2; θ = θ0+δ]
也就是說:如果在 θ0 處兩單邊檢定能達到相等檢定力,則在計算點不是 θ0 時,兩單邊檢定的檢定力將不等。以常態群體(單樣本)平均數檢定為例,取 θ0±Δ 為 Ha 兩端點,α 水準 t 檢定將分別得到 t1 = θ0-D 與 t2 = θ0+D, 其中 D 是由 t 分布臨界值與樣本平均數標準誤計算得的一個統計量。基於對稱性,在 θ0 處兩單邊檢定確實可得相等檢定力,但在其他點則否。那麼我們是否非得在 θ0 處計算檢定力?
在上述檢定,δ 或 θ1, θ2 應是就問題本身的實務意義定的,而 t1 < t2 則是由顯著水準 α 所決定。‵但要得到 t1 < t2,則樣本大小 n 要足夠大,這是檢定能進行的先決條件。至於要達到一定的檢定力,則需要在前述 n 的基本條件上考慮是否需要增大。由於這通常涉及非置(非中心,noncentral)或更複雜分布,可能需要疊代計算,或只能做近似計算。
或許我們可不用分兩個單邊檢定,以常態群體平均數檢定為例,把原問題改寫一下:
H0: |θ-θ0| ≧ Δ, Ha: |θ-θ0| < Δ
原先用 t 分布來決定臨界值 θ0±D,如今可改用 F 分布來決定;檢定力則可在任意 |θ-θ0|<Δ 的地方以非置中 F (non-central F) 計算(原先是非置中 t)。
留言列表