統計推論之開端應是點估計:猜測統計所謂群體之未知參數的值。然而很多時候在實務應用上我們對參數的確實值,而是需要做個判斷、決定,例如︰職員是否合格?藥品是否允許上市。用統計的話來說,就是判斷要「接受」H0,或拒絕它而認為 H1 才正確。
從決策理論的觀點來說,可以衡量:H0 成立而拒絕它卻接受 H1,以及 H1 是正確的卻沒有拒絕 H0 各自將造成何種損失,然後以頻率論觀點或貝氏觀點來計算風險或期望損失,然後選擇最適決策。以貝氏分析而言,是給予 H0, H1 各自一個先驗機率,而後根據樣本資料計算後驗機率,最後根據後驗機率及決策者偏向(或事先決定的切割點)來做成決策,判定接受H0 或 H1。而傳統之統計方法則是,考慮所謂犯錯機率,並事先決定一個標準,要求犯某種錯誤的機率不超過這個標準。這就是以「顯著水準」為依據的統計假說檢定方法,顯著水準就是規範犯某種錯誤,具體地說就是犯型I(錯)誤的機率上限。所以理論上如果「在 0.05 顯著水準下 ...」就是說如果 H0 是正確的,會錯誤地做成「拒絕 H0」這決定的機會不超過 0.05, 也就是 5%。
決策理論或貝氏方法雖然透過損失的設定等仍對 H0, H1 有所偏向,但在方法上仍是對稱的,也就是並不必嚴格區分何者是 H0 何者是 H1,只單純地把它們當成參數空間的兩個互斥的部分,但所謂「傳統」或「古典」方法卻不然,何者為 H0 何者是 H1 是很重要的,特別在所謂「單尾檢定」或更正確的說法是「單邊對立假說」時,這常是很多人感到困擾的。H0 與 H1 之分所以重要,是因在固定樣本下我們只能控制犯型I誤機率不超過顯著水準,而不能控制型Ⅱ誤(機率),後者的控制是在抽樣或實驗設計之前,可根據所要的檢定力或容許犯型Ⅱ誤機率計算所需的樣本大小。所以在既定樣本之下,型Ⅱ誤機率不受控制;而另一方面型Ⅰ誤卻限制在顯著水準之下,而通常顯著水準是「極低」的,所以,H0 常被認為是「被保護的假說」。於是,當參數空間被按目的分割為兩部分之後,何者是 H0 何者為 H1 就很清楚了: H0 是「我們想推翻它,又必須保護它」的那一部分。對新藥開發上市而言,除副作用問題外,療效是一個重點,將療效分割成兩個區域, 一為「無(更好)療效」一為「有(更好)療效」,因新藥可‵能有不明的短、長期不良副作用需慎重,因此藥廠雖欲推翻「無(更好)療效」之假說,卻因潛在問題而需要保護此一假說,所以它就是 H0,相對地,「有(更好)療效」就是 H1。
如果參數空間只有兩個點 θ0 與 θ1,例如療效不是 0% 就是 100%,或者不是 30% 就是 70%,那麼決策規則確定了型Ⅰ誤的機率同時也確定了型Ⅱ誤的機率,此消彼長,不同決策切割點(樣本證實療效比例多少以上判定療效符合‵要求)同時決定了犯兩種錯誤的機率,所以何者是 H0 何者是 H1 其實並不重要,重要的是在不同錯誤機率組合下做一個決定,選擇可姒接受的切割點。然而,事實上我們面對的問題參數空間 Θ 通常含有無數的,甚至不可計數而且相互毗連的點。例如療效不說 0-100% 也可能是 30-70%,而我們要的可能是 θ > 60%。於是 H0: θ ≦ 60%, H1: θ > 60% 這樣一對統計假說被提出來,而我們的決策規則使
p(θ) = P{拒絕 H0 | θ)
是參數值 θ 的連績函數,意思是型Ⅰ誤機率被控制在顯著水準 α 之內時,型Ⅱ誤機率將高達 1-α (當療效略大於卻又靠近 60% 時)。例如在顯著水準是 0.05 時,型Ⅱ誤機率可以高達 0.95,只當真實 θ 值遠離參數空間之切割點(例如本例之 60%」時,型Ⅱ誤機率得以降低,而降低之速度則依樣本大小而定,樣本不大時可能在真實療效是 70% 時仍有 0.4 以上的型Ⅱ誤機率,也就是此處檢定力在 0.6 以下。所以在實驗設計之初就要根據所要的檢定力,例如 θ = 0.65 時 0.8, 或 θ = 0.7 時 0.9 以上,以此決定所需最小樣本。
上述傳統檢定,著眼於檢驗「是否有足夠證據可以判定 H0 不應被接受」,因此當檢定結果是
「不拒絕 H0」時,謹慎的統計人員不會說「接受 H0」,只是不拒絕 H0。倒是 H0 被拒絕時可以說「接受 H1」,因為認為證據足夠說 H0 不成立了。然而,不管是上述傳統檢定,或是貝氏方法,或是基於決策理論的方法,都無法避免以下問題:
。當 H0 被拒絕時,即使犯型Ⅰ誤的機率被控制在顯著水準之下,誰也無法保證 H0 是錯的。何況所謂「型Ⅰ誤機率被控制在顯著水準之下」也只不過是基於分析時設定的模型,沒人可確保所設定的模型是正確無誤的。
。當 H0 不被拒絕時,它其實是錯的可能性還是很高的,如前面說過犯型Ⅱ誤機率可以高達 1-α,顯著水準愈小型Ⅱ誤機率愈高。而且,與前述型Ⅰ誤相同,即使在遠離假說邊界(參數空間切割點,如前例 θ = 60%)型Ⅱ誤機率可能不高,但仍不能避免型Ⅱ誤的發生。
。當 H0 被拒絕而且 H0 真的是錯的時,真實 θ 值可能離 H0 邊界很近,近到這種差距沒有實質意義。例如舊藥療效是 60% 而新藥是 61% 並且 H0 被拒絕,那麼宣揚新藥療效比較好有意義嗎?
注意這些問題是統計方法所固有的,也是現實世界所固有的。所以,並不是以顯著水準做判決依據所帶來的副作用,其實也不是統計方法的不足才造成這樣的弊端,歸根究底還是因為現實世界不是人們可以完全掌控的機械世界。以藥品療效為例,一顆藥服下去對身體會有什麼樣的效果不能百分之百被瞭解,所以只能用統計方法分析「大致會怎樣怎樣」.「平均會如何如何」,所以想對這樣的藥品做出核准上市與否的決策,是顯著水準檢定程序的錯?是統計方法的錯?或是醫藥界.生物界的錯?不如說是老天的錯、上帝的錯!即使機器生產產品,大致來說一模一樣,若測量更精確,也會有些許誤差,所以有品管、良率這些名詞。
做假說檢定採用顯著水準 α,就是型Ⅰ誤機率控制在 α 以下?對,也不對。怎麼說?不談大樣本漸近法、近似法的誤差,學過或用過「變異數分析 (ANOVA)」的可能也知道「多重比較」,是說多組平均數相互兩兩比較以確定平均數之間差異是否「在水準 α 之下顯著」不能單純兩兩之間做 t 檢定,而需考慮控制總體「實驗誤差率」.在這些要比較的是一個大群體之下的多個次群體的情況,有用 ANOVA 做整體 F 檢定的,有考慮「資料偷窺」效果的 Scheffee 法、Tukey 法,有適用性更廣但比較適合較少組比較(對比)的 Bonferroni 法。我們不去談這些方法的細節及優劣,只談一個觀念:當你看過資料再來決定怎麼分析資料,做什麼檢定,或是你的研究、決策依據不只做一個假說檢定,其實所謂「顯著水準」只是名義上的 (nominal level),真實的型Ⅰ誤機率 (actural level) 可能是名目水準的幾倍甚至幾十倍。舉個簡單的例子:如果一篇研究報告你做了數十個「顯著水準 0.05」的假說檢定,其中有少數幾個是顯著的,它們真的應該拒絕 H0 嗎?不!如果你做了 20 個假說檢定,不管有沒有寫進報告裡,那麼在這些檢定的 H0 實際上都不應被拒絕的情況,我們期望有一個結果會是「差異顯著 ( H0 應被拒絕)」, 40 個檢定期望有 2 個得顯著結果。也就是說,一些研究報告的「實驗誤差率」比名目水準 α 大多了!甚至達到或接近 100%,也就是必然會發生型Ⅰ誤。這意味著:除非研究者原先就只決定做一個檢定,實際上也只做那個檢定,否則所謂「顯著水準 α」終究只是個名目水準,實際上型Ⅰ誤機率根本不受控制!