假設我們做如下假說問題的檢定:H0: θ in Θ0 對 H1: θ in Θ1。在 Θ0,我們考慮一點 θ0,在此點
α ≧ P(拒絕 H0 | θ = θ0) ≧ P(拒絕 H0 | θ = some value in Θ0)
例如在平均數檢定 H0: θ1 ≦ θ ≦ θ2 對 H1: θ < θ1 or θ > θ2,則 θ0 將是 θ1 或 θ2,看在哪一點拒絕 H0 的機率最大。在我們通常遇到的假說檢定問題和採行的檢定程序,在所有 θ in Θ0 中,拒絕 H0 之機率最大總發生在 Θ0 的邊界。之所以如此,是因我們採行的檢定程序通常符合「不偏性 (unbiasedness)」的要求:
檢定力 (power of the test) 不小於型Ⅰ誤機率。
當 θ 在 Θ0 之內時拒絕 H0 就是犯了型Ⅰ誤,因此我們希望它發生的機率愈小愈好;而 θ 在 Θ1 之內時拒絕 H0 是正確的,其機率就稱為檢定力,當然是愈大愈好。當參數空間是連續區間或連續區域時,拒絕 H0 的機率通常是 θ 的連續函數,所謂連續函數以形象描述就是不間斷,因此如果拒絕 H0 的機率在 Θ0 之中總是小於某個值,設為 α,而在 Θ1 之中卻總是大於這個值 α,連接分別在這兩部分的兩點,其機率值變化從小於 α 到大於 α,則在穿過 Θ0, Θ1 的共同邊界時將等於 α,等於型Ⅰ誤機率的最大值,這個值又稱為檢定大小 (size of the test)。實務上的檢定或許型Ⅰ誤機率沒有在 Θ0 邊界一致地等於此檢定的大小,那如果不是拒絕 H0 的機率不連續,就是此檢定程序不完全符合不偏性。
為了控制型Ⅰ誤機率,一個檢定程序會預先訂定顯著水準 (significant level),要求型Ⅰ誤機率不得超過顯著水準,所以檢定大小也就不大於顯著水準。所以顯著水準可以說是名目水準,檢定大小才是真實水準。在離散型檢定統計量相關的檢定問題,如二項群體比例之檢定問題,不管用正確機率算法,或大樣本近似法(常態近似法),檢定大小和顯著水準常不一致,前者在非隨機化檢定之下稍嫌過於保守(真實水準小於顯著水準),後者則不能保證顯著水準符合(真實水準可能大於顯著水漳。「過於保守」有什麼不好?過於保守就使得 Θ1 中靠近 Θ0 的 θ 點上檢定力小於顯著水準;不僅如此,整個檢定力函數曲線都被拉低,離 Θ0 較遠的 θ 點,其檢定力也比採行一個(比過度保守的檢定程序)檢定大小更接近名目水準的檢定程序所具有的檢定力低。型Ⅰ誤機率固然愈小愈好,但代價卻是檢定力的降低,因此並不是無條件的。所以,根據需要訂定一個適當的顯著水準並力使檢定大小等於檢定水準,是最適當的做法。
一般說虛無假說 (null hypothesis) H0 成立時檢定統計量的抽樣分布叫虛無分布 (null distribution) 其實不很準確。如果 Θ0 不只含一點,或更精確地說檢定統計量在 Θ0 的抽樣分布不是唯一的,不明定虛無分布檢定程序如何進行?所以實際進行檢定時,虛無分布就是使型Ⅰ誤機率最大的那個分布,也就是 θ = θ0 時檢定統計量的抽樣分布。這裡必須強調的是:在一個檢定程序中,檢定統計量只有一個,而它在不同 θ 值分布會有所不同,使得拒絕虛無假說的機率也有所不同。拒絕虛無假說的機率是參數點 θ 的函數,稱之為檢定力函數 (power function),但只有 θ 落在 Θ1 其值才稱檢定力;因為 θ 在 Θ0 時檢定力函數的值是犯錯(型Ⅰ誤)的機率,當然不適合以檢定力稱之。
以常態群體平均數 t 檢定為例,假說 H0: μ = μ0 和 H1: μ ≠ μ0 即
Θ0 = {(μ,σ): μ = μ0, σ > 0}, Θ1 = {(μ,σ): μ ≠ μ0, σ > 0}
虛無假說的參數子空間 Θ0 不是僅有一點,因此不是簡單假說 (simple hypothesis) 而是複合假說 (composite hypothesis)。不過如果是常態群體,檢定統計量
T = √n (Xbar - μ0)/S = [√n (Xbar - μ0)/σ]/(S/σ)
的抽樣分布和群體標準差 σ 無關,因此在 Θ0 中它的抽樣分布是唯一的,當然就是虛無分布,正是我們熟知的 t 分布的一員。在 Θ1,檢定統計量 T 的分布是「非中心 t 分布 (non-central t distribution)」, 其「非中心參數 (noncentrality parameter)」
δ = √n(μ-μ0)/σ
凡統計機率分布加個「非中心」就代表了它的機率密度、分布函數的表現式將會很複雜,我個人是沒興趣研究,雖然它很重要,因為計算檢定力都要靠它。非中心 t 分布也不例外,它的 p.d.f. 最簡單的表現式是一個積分式,一般可能用 incomplete beta function 的無窮級數表現(參見 Wikipedia: noncentral t-distribution),而計算則靠統計軟體,例如 R 的 dt 計算 p.d.f. 的值,pt 計算 d.f. 的值即機率值,qt 計算分位數即某個機率對應的 t 值,而 rt 產生亂數,這些函數都可用非中心 t 分布。
雖然不是必要,但統計假說檢定的做法,總是選用一個檢定統計量 T(X),而後如前面所述選取 Θ0 邊界的一點 θ0,利用在此點的虛無分布劃分樣本空間的一個部分,例如 C = {x; T(x)>c},樣本值落在 C 則拒絕 H0,否則不拒絕,故稱 C 為拒絕域 (rejection region),其補集 A 稱接受域 (acceptance region),不過當樣本落入 A 時我們不會說「接受 H0」只會說不拒絕,這是因為在這裡描述的這種所謂「顯著性檢定」或古典(傳統)檢定程序,當拒媚虛無假說時是因為我們認為有足夠證據可以否認其正確性,為此我們犯型Ⅰ誤的機率控制在低水準,α 以下;相對地,如果檢定的結果是不拒絕虛無假說,我們可能犯了型Ⅱ誤,但我們不知道究竟有多少機率會犯型Ⅱ誤。之所以不拒絕虛無假說,只是因為證據不足以證明其錯誤。在統計品質管制,不拒絕虛無假說的結論也被稱為「允收」,既然不能證明這批貨不合格該拒收,就只能允收了。製程品管則稱「管制中」,表示沒有異常(脫離管制)。像上述拒絕域以 T(x) > c 做判定,則 c 稱為「臨界值 (critical value)」或臨界點。以前計算不易,做統計推論常依賴前人算好的數值表;後來套裝軟體被廣泛運用,而現在計算更便利而且成本低廉,於是查表取得臨界值並與統計量觀測值比較以定結論的做法被 p 值取代。P值事實上可視為標準化檢定統計量,採用 p 值則無論何種檢定程序都可以直接根據 p 值做結論:p 值小於顯著水準則拒絕 H0,否則不拒絕。
假說檢定可能發生兩種錯誤,型Ⅰ誤和型Ⅱ誤,當檢定結論是拒絕虛無假說 H0 時,可能是正確的,也可能犯了型Ⅰ誤;另一方面,如果不拒絕 H0,可能是正確的決定,也可能犯了型Ⅱ誤。這是就檢定做成的結論來看,若就群體狀態或事實來看,當 θ 是在 Θ0 時,有一定的機率犯了型Ⅰ誤,不過我們的檢定程序把它控制在一個較低的水準,希望不超過顯著水準 α;若 θ 是在 Θ1,就既定的樣本設計而言,可以說沒有控制,而前面也說過:如果 θ 很接近 Θ0 的邊界,檢定力可能接近 α,也就是說這時犯型Ⅱ誤機率可能接近 1-α,極高的錯誤機率。因此,如果要談控制型Ⅱ誤機率,或相反地要討論檢定力,必須限制 θ 不能太靠近 Θ0。換個角度來看, θ 如果很靠近 Θ0,例如某新藥對某疾病的療效從舊藥的 75% 改進到 76%,這樣的差異說是「顯著」是不是有點奇怪?但要說「不顯著」卻又不對,因為我們現在談的是群體參數,而檢定中談的統計顯著性指的是樣本上的差異能否歸因於隨機誤差,因隨機抽樣而產生的與群體之間的差異。因此,我們有必要在離 θ0 或 Θ0 一段距離的地方找一個參數點(值) θ1,
(一) θ1 在 Θ1, 它與 θ0 或 Θ0 的差異被認為是有意義的;
(二) 在 θ1 將控制型Ⅱ誤機率不大於 β, 即檢定力至少 1-β。
考慮 θ1 而不考慮比它離 Θ0 更近的點,是因為認為達到像 θ1 這樣的距離,具有實質意義上的「顯著差異」,而比它靠近 Θ0 的參數點,差異就不算顯著了。當然,這裡可能有人會懷疑:例如 80 和 70 算差異顯著,79 和 70 就不能算嗎?這就好像學生成績 60 分算及格, 59 分的埋怨只差 1 分何必這麼狠心?但若給 59 分的學生,58 分的是不是又有意見?在必須決斷的場合,终歸是要有一個切割點。所以如果在 Θ0 周圍,Θ1 中的一點 θ1 經評估將用來做前述用途,我們可以認為它是「最小實質顯著差(的參數點)」(請注意勿與多重比較的「最小顯著差」混淆了。) 那麼誰來選定這個 θ1?就像顯著水準不是統計人員決定的,除非是統計人員個人的研究,α,β 及 θ1 都是所研究或討論的領域專業人員、研究人員、決策或應用者所選定的。
對一個已決定了樣本數,或已完成抽樣或實驗準備,甚至已完成調查或實驗的檢定問題而言,我們在決定了顯著水準之後,對檢定力或型Ⅱ誤機率已無法控制,只能選定 θ1 計算其型Ⅱ誤機率 β 或檢定力 1-β。但這計算只能算是檢定程序效能的一個事後評估,
事後評估的方式還有一種,是最近從一個工業界的朋友那裡學到的。與前一做法相反,並不是選定 θ1 而後計算 β,而是先決定 β,計算 θ1 要離 Θ0 多遠才能達到預定的檢定力 1-β 或型Ⅱ誤機率 β。如果計算出來 θ1 離 Θ0 頗近,這是個愉快的結果。相反地如果距離頗遠,就可了解到這個檢定的效果不好。當然其實通常不是檢定方法不好,而是樣本誤差太大,或更直白地說,是樣本太小。
事後評估結果滿意皆大歡喜,但如果計算結果在 θ1 檢定力不高,難道違心地重新選擇一個離 Θ0 較遠的 θ2 計算檢定力,然後宣稱「我們在 θ2 計算檢定力結果令人滿意」?重利益者很可能這麼做,但以統計人員的立場,是不情願這麼搞的。統計人員的方法是:事先請決策者會同專家選定 α,然後選定 θ1 及 β (或 1-β),以此決定樣本大小,確保達到控制型Ⅰ、Ⅱ誤機率的要求。
以常態群體平均數單邊對立假說為例,H0: μ = μ0 against H1: μ > μ0, 假設群體標準差 σ 已知。檢定統計量 T = √n(Xbar-μ0)/σ, 則臨界值是 z(1-α)。在 μ1 > μ0,假設標準差是 τ,不一定等於 σ;或者,可能標準差是平均數的函數 τ(μ),而 τ(μ0) = σ。不管如何,檢定力是
1 - β = P[ T > z(1-α); μ1 ]
= P[ √n(Xbar-μ1)/τ > {z(1-α)σ-√n(μ1-μ0)}/τ; μ1]
= P[ √n(Xbar-μ1)/τ > z(β); μ1]
也就是說:
{z(1-α)σ-√n(μ1-μ0)}/τ = z(β) = -z(1-β)
這個方程式建立了四個量 n, α, β, μ1 的關係,n 固定時,知道 α 和 μ1 及 τ,得到 z(β), 也等於得到 β 或 1-β;知道 α, β 則
√n(μ1-μ0) = z(1-α)σ + z(1-β)τ
如果 τ 與 μ 值無關則直接由上式得 μ1,否則還要求上列方程式的公式解或數值解。若事先設定好 α, β, μ1 , 則
n = [z(1-α)σ + z(1-β)τ]^2/(μ1-μ0)^2
如二項群體 σ = √[p(1-p)] (此處起不再以 τ 代表非 null distribution 之標準差,上面只是為了避免使用下標)或 Poisson 分布 σ = √μ,前者可能在 n 夠大,後者 nμ 夠大時使用常態近似,因此群體標準差可以確定。如果是常態群體,或「一般」群體,標準差即使與平均數有關,可能也不是可完全確定的。因此我們考慮群體標準差未知時的 t 檢定:假設群體是常態,標準差固定 ( σ ) 但未知,使用 t 統計量 T = √n (Xbar - μ0)/S。則前一檢定問題的臨界值為 t(1-α,n-1) 簡記 t(1-α),其中 n-1 是自由度,在這個檢定上它是 n-1 是因為樣本標準差是普通 n 個樣本觀測值的樣本標準差;如果所用的 S 不是這樣的,而是另有其他估計量,但仍有 νS^2/σ^2 ~ χ^2 的性質,ν 是卡方自由度,則 t 統計量的自由度就是 ν。由於 t 統計量在 μ≠μ0 時的分布是非中心 t,因此
1 - β = P[ T > t(1-α); μ1 ] = P[ T > t(1-β,δ); μ1]
其中 δ = √n(μ1-μ0)/σ 是非中心 t 私非中心參數
所以建立了方程式
t(1-α, 0, n-1) = t(1-β, √n(μ1-μ0)/σ, n-1)
給定 n, α, μ1, 計算檢定力用的是非中心 t 分布的分布函數 pt(t(1-α), δ, n-1),而這時計算所需的各項變數值除 σ 外皆已給定,而 σ 可用樣本標準差 S 代入。因此只要有非中心 t 分布計算機率的程式如 R 的 pt 函數,計算檢定力自無問題。事實上 R 另有一專門的函數 power.t.test 也可用於計算 t 檢定的檢定力。若在給定 n, α, β 的情況下要計算 μ1, 則可以用疊代法解上列方程式: 左邊固定,右邊以假設的 μ1 及其他各項參數代入,用例如 R 的 qt 函數計算 t(1-β,δ,n-1),然後視其比左邊固定值大或小以及差距,對假設的 μ1 做適當調整。或者,以相同方法解 1-β = pt(t(1-α), δ, n-1)。後者也可用來求解所需樣本大小 n,如果使用 power.t.test 函數,就不需自行疊代了,該函數可直接回答所需樣本數。
先前我們假設在 μ0 及 μ1 時群體標準差 σ 相同,但事實上中心 t 分巾是與 σ 無關的;而 S 又是群體標準差的估計,它算是一個良好估計。如果計算檢定力時指定一個特定的 σ 值,影響到的是非中心參數,而由其公式可看出假設的 σ 值愈小,非中心參數離 0 愈遠,結果算出的檢定力將愈大。既然樣本標準差是群體平均數的良好估計,而我們假設的參數值只是因對群體不了解才做假設,那麼假設一個明顯不是當前群體所具有的值顯然是不當的,以 S 代入未知的 σ 應是適當做法,比任意取一個特別小的 σ 值提高檢定力數值,或假設一個偏大的 σ 值以致得到偏低的檢定力數值更適宜。如果真必要以假設的 σ 值計算,個人認為應該考慮 σ 的某種信賴界限,並且兩端點都考慮,以達成所要目的同時了解其敏感性。
至此我們僅考慮所謂「右邊對立假說」的檢定問題。由於常態分布和 t 分布是對稱的,所以如果是檢定左邊對立假說,將得到與右邊對立假說對稱的結果,例如臨界值從 z(1-α) 或 t(1-α) 分別變成 z(α) = -z(1-α) 與 t(α) = -t(21-α),非中心參數由正值變成負值,非中心 t 分布由右偏變成左偏。一切只是左右反旖來而已。那如果是雙邊對立假說呢?臨界值將是左右對稱各一個,σ 已知時是 z(α/2) 和 z(1-α/2),σ 未知時是 t(α/2) 和 t(1-α/2)。與 μ0 距離相同的左右兩點計算檢定力結果相等,因此考慮一邊取點即可。例如在 θ0 右邊取點 θ1,在 σ 已知時得
1 - β = P[ T > z(1-α/2); μ1 ] + P[ T < z(α/2); μ1 ]
≒ P[ √n(Xbar-μ1)/τ > {z(1-α/2)σ-√n(μ1-μ0)}/τ; μ1]
= P[ √n(Xbar-μ1)/τ > z(β); μ1]
上列第二個近似等式只保留前一式的第一項是因此時第二項的值將很小,所以一般計算都將其忽略。結果我們得方程式
√n(μ1-μ0) = z(1-α/2)σ + z(1-β)τ
藉此 n, α, β, μ1 四個數值給其三則可計算第四個。若群體標準差未知,採用 t 檢定,則
1 - β ≒ P[ T > t(1-α/2); μ1 ] = P[ T > t(1-β,δ); μ1], μ1 > μ0
或
t(1-α/2, 0, n-1) = t(1-β, √n(μ1-μ0)/σ, n-1), μ1 > μ0
同單邊對立假說時一樣,可以計算特定參數點的檢定力,也可以用解方程式的數值方法求得對應某個特定檢定力的 μ1,或計算為控制兩型錯誤之機率所需樣本大小。
兩樣本問題其實與單樣本差不多,多樣本問題、多變量問題較複雜就不談了。如果是成對的兩樣本,直接計算成對觀測值的離差 Di = Xi - Yi, 結果完全與單樣本沒兩樣。如果是獨立兩樣本,以 Xbar - Ybar 為檢定統計量,結果與單樣本以 Xbar 為檢定統計量沒差別,例如臨界值,單樣本是
Xbar + (或 -, 或 ±) t* (Xbar 的標準誤)
獨立兩樣本是
(Xbar - Ybar) ± t*( Xbar - Ybar 的標準誤 )
本質上是一樣的,只是標準誤的計算式做些修改,如果是 t 則自由度涉及單樣本或兩樣本的差別。如先前單樣本說過的,這裡的標準誤計算還可引用其他資料,而自由度也相應地有所變化。其他如非中心 t 與檢定力計算問題也類似,就不贅述了。
留言列表