怎樣「證明」虛無假說？

統計處理非確定性的、隨機的訊息，或更明確地說是藉由收集到的不完整的、但被認為具有隨機性代表性的樣本資料，推論那未知的、本質上不可能確知的群體模樣、特性或參數，實際上不可能「證明」任何事，但我們總希望統計能為我們證明一些事。這似乎有點矛盾？不過如果把兩個「證明」做不同解讀，那就可行了。統計不能像數學那樣證明某些事是事實，這就是之前說的：統計不可能證明任何事的原由。然而，統計確實能提供「對某事有足夠證據」的說法，統計假說檢定 (testing statistical hypotheses) 就是做這樣的事，雖然它做的不完全，有時它能提供足夠的證據，有時不行。

統計假說檢定 H0 對 Ha，在所謂頻率論的方法是設定一個顯著水準 α，明確地說是在實際狀況是 H0 之下會拒絕 H0 的機率上限，也就是說犯這所謂型Ⅰ錯誤的機率不超過 α。而檢定結果如果拒絕 H0，我們說結果顯著或差異顥著。之所以說「差異」顯著，因為 H0 常是 θ = θ0 的形式，而 Ha 則代表 θ 和 θ0 有差異。不過，這「差異顯著」說的其實不是 θ 與 θ0 的差異足夠大。差異顯著的檢定結果只是說：

我們承認 θ 和 θ0 有「差異」，因為有「顯著」證據顯示假設 θ = θ0 是有問題的。

所以，「差異顯著」其實是容易誤導讀者的報告方式，說「達到統計上的顯著性」似乎是比較好的說法。

我們說拒絕 H0 表示「有顯著證據」顯示 H0 這假說有問題，也就是說：

從統計上來看，在允許一些機會可能犯型Ⅰ錯誤之下，我們認為有足夠證據說 Ha 是對的。

這就是統計上的證明。如果檢定結果是拒絕了 H0，就相當於在統計上我們證明了 Ha 成立。但反過來，不拒絕 H0 不表示支持 H0 拒絕 Ha，所以通常我們不說「接受 H0」, 而是說「不能拒絕 H0」或類似說法。因此，統計上只能「證明」Ha，卻不能「證明」H0，甚至連「支持 H0」在傳統檢定方法，或更正確的稱呼：頻率論檢定方法中都不能說。所以統計人會告訴用統計的人如何設定 H0 和 Ha：

H0 就是你想推翻，但又必須保護的假說。

想推翻，因為你懷疑它說的不對；必須保護，因為任意懷疑它算是嚴重的問題。就好像懷疑一個人做錯了事，那麼，拿出證據吧！否則隨便懷疑人是很嚴重的。

但是，有時候我們希望能「證明」H0 所陳述的 θ = θ0，那怎麼辦？例如某種專利藥專利到期了，其他藥廠也想分一杯羹，那麼原廠當然反對了。但你已經享受了足夠久的專利了，又憑什麼限制別人不得生產？於是藥品主管機關發話了：可以，只要你證明你的藥是可用的，在生體上（人體生理上）你的藥和原廠藥有「一樣」的表現。這就是說：你必須證明 θ = θ0。真的證明 θ = θ0 在統計上是辦不到的，因此就統計上來說，以平均數而言，就是規定適當的 Δ，欲生產出售該學名藥的廠商必須證明 Ha: θ0-Δ < θ < θ0+Δ。實際上如何做呢？原本問題是：

H0: θ≦θ0-Δ 或 θ≧θ0+Δ Ha: θ0-Δ<θ<θ0+Δ

實際的做法可能是：把上列檢定問題變成兩個單邊檢定問題：

H01: θ ≦ θ0-Δ Ha1: θ > θ0-Δ
H02: θ ≧ θ0+Δ Ha2: θ < θ0+Δ

證明了 Ha1 和 Ha2，也就證明了 Ha；反過來說，要證明 Ha，也就要證明 Ha1 和 Ha2。當然也可能因問題特性不是採用對稱區間，而是取 θ1 < θ0 < θ2，原問題是：

H0: θ ≦ θ1 或 θ ≧ θ2 Ha: θ1 < θ < θ2

而拆開的單邊對立假說問題是

H01: θ ≦ θ1 Ha1: θ > θ1
H02: θ ≧ θ2 Ha2: θ < θ2

不過，這其中有個問題：H0 對 Ha 的檢定如果是水準 α，則在 θ = θ1 或 θ2 時，拒絕 H0 的機率要不超過 α；反過來說，在 θ 大於 θ1 並且小 θ2 的某點 θ* 時，拒絕 H0 的機率至少要達到某個預定的檢定力 1-β。而分解為兩個檢定問題，也必須保證這件事。

假設檢定統計量 T 在兩單邊檢定問題拒絕域分別是 T > t1 與 T < t2，則在原檢定問題拒絕域是 t1 < T < t2。因此，我們要求

P[t1<T<t2; θ=θ1 或 θ2] ≦ α, P[t; 1<T<t2; θ=θ*] ≧ 1-β

而實際上採用兩個單邊對立假說來決定 t1, t2，如果都是 α 水準的檢定：

P[T > t1; θ = θ1] = α1 ≦ α, P[T > t1; θ = θ*] = 1-β1
P[T < t2; θ = θ2] = α2 ≦ α, P[T < t2; θ = θ*] = 1-β2

則

　　P[t1 < T < t2; θ = θ1] ≦ α1 ≦ α, P[t1 < T < t2; θ = θ2] ≦ α2 ≦ α

顯示兩檢定整體代替原檢定的型Ⅰ錯誤機率仍控制在 α 水準。但在檢定力方面，

　　P[t1 < T < t2; θ = θ*] = P[T < t2; θ = θ*] - P[T ≦ t1; θ = θ*] = (1-β2)-β1

也就是說兩檢定用來代替原來要做的檢定，在計算點 θ* 的檢定力是 1-β1-β2，或說其型Ⅱ誤機率是兩單邊對立假說型Ⅱ誤機率之和。例如採用兩單邊檢定如各有 95% 檢定力，總檢定力為 90%。不過，兩檢定之檢定力可能不會相等，這增加了檢定力計算及控制的複雜性。我們以 θ1, θ2 取 θ0±Δ 為例，設 θ* = θ0 時兩檢定各有 1-β0 的檢定力，0<δ<Δ，則

　　P[T > t1; θ = θ0-δ] < P[T > t1; θ = θ0] = 1-β0 < P[T > t1; θ = θ0+δ]
　　P[T < t2; θ = θ0-δ] > P[T < t2; θ = θ0] = 1-β0 > P[T < t2; θ = θ0+δ]

也就是說：如果在 θ0 處兩單邊檢定能達到相等檢定力，則在計算點不是 θ0 時，兩單邊檢定的檢定力將不等。以常態群體（單樣本）平均數檢定為例，取 θ0±Δ 為 Ha 兩端點，α 水準 t 檢定將分別得到 t1 = θ0-D 與 t2 = θ0+D, 其中 D 是由 t 分布臨界值與樣本平均數標準誤計算得的一個統計量。基於對稱性，在 θ0 處兩單邊檢定確實可得相等檢定力，但在其他點則否。那麼我們是否非得在 θ0 處計算檢定力？

在上述檢定，δ 或 θ1, θ2 應是就問題本身的實務意義定的，而 t1 < t2 則是由顯著水準 α 所決定。‵但要得到 t1 < t2，則樣本大小 n 要足夠大，這是檢定能進行的先決條件。至於要達到一定的檢定力，則需要在前述 n 的基本條件上考慮是否需要增大。由於這通常涉及非置（非中心，noncentral）或更複雜分布，可能需要疊代計算，或只能做近似計算。

或許我們可不用分兩個單邊檢定，以常態群體平均數檢定為例，把原問題改寫一下：

H0: |θ-θ0| ≧ Δ, Ha: |θ-θ0| < Δ

原先用 t 分布來決定臨界值 θ0±D，如今可改用 F 分布來決定；檢定力則可在任意 |θ-θ0|<Δ 的地方以非置中 F (non-central F) 計算（原先是非置中 t）。

等死的老賊

劉應興的部落格

等死的老賊發表在痞客邦留言(0) 人氣(5)

劉應興的部落格

歡迎光臨劉應興在痞客邦的小天地由側欄的文章分類可以知道這個部落格的主題。