假說檢定的最佳性－劉應興的部落格

統計雖分成敘述統計與推論統計，一般談論的重點仍放在推論統計，而且主要是基於機率理論的統計推論。統計推論又分為：點估計、區間估計、假說檢定、與預測，但「預測」與前三者不同的是：前三者是在對群體的參數，也就是描述群體性狀的指標做猜測；而預測是在猜測尚未發生的現象，數學上來講就是對一個隨機變數做猜測，也包含點預測與區間預測。但要預測的隨機量 X 常可以表示成 X = m + ε，其中 m 是「理論值」而 ε 是隨機誤差，做 X 的點預測相當於做 m 的點估計，只是考慮預測誤差時要把 ε 也考慮進去，例如 Var(X^) = Var(m^) + Var(ε)，所以對 X 最好的預測和對 m 最好的估計合一。區間估計可以視為點估計加減一個容許誤差界限，並以一個數值來衡量我們對真實參數值落在這範圍內的「信賴」程度。區間估計程序和假說檢定程序又可視為一種程序的兩個表現

在假說檢定程序不被棄卻的虛無假設參數值，構成區間估計程序的信賴集；反之，區間估計之信賴集中的參數值，當做假說檢定之虛無假說參數值時將不被棄卻。

當然，上述對應是在同樣「水準」：假說檢定之 α 顯著水準，與區間估計之 1-α 信賴水準相對應。由此看來，統計推論問題可歸納為兩個問題：點估計問題與假說檢定問題。

點估計問題以一個依樣本資料 X 而定的點 δ(X) 試圖猜測真實而未知的參數值 θ；而假說檢定問題一般地設定是猜測 θ 在 Θ_0 中，稱之為「虛無假說 (null hypothesis)」; 其對立面就是 θ 不在 Θ_0 中，或說 θ 在 Θ_1 中，稱為「對立假說 (alternative hypothesis)」。最簡單而典型的虛無假說是 θ = θ_0，明確指出 θ 是某特定值，前述區間估計與假說檢定之對應即這種參數值等於某特定值之虛無假說的檢定。

做點估計時，為評估點估計量，也就是估計方式的好壞，會考慮估計量 δ(X) 與真實而未知的參數值 θ 之間的差距指標，而以其期望值做評估。用決策理論的術語，就是定出損失函數 l(θ,δ(X))，相當於 δ(X) 與 θ 之間的距離，而後對 X 求期望值得風險函數 (risk function) R(θ, δ)；或在固定 X 觀測值 X = x 之下對 θ 做平均，得後驗期望損失 (posterior expected loss) r(δ(x))。理論上我們需要衡量決策錯誤，在點估計問題就是 δ(X) ≠ θ 的事實造成多大的具體損失；實際上所有統計應用採用的損失函數都是「任意」的，雖有些合理性但是否切合事實只有「天曉得」。

但在假說檢定問題，如果我們只關心 θ 在 Θ_0 之中與否，其問題可說較簡單，不是第一型錯誤就是第二型錯誤：

型Ⅰ誤：當 θ 實際在 Θ_0，卻誤判為 θ 在 Θ_1;

型Ⅱ誤：當 θ 實際在 Θ_1，卻誤判為 θ 在 Θ_0。

用 δ(X) = 0 表示判定 θ 在 Θ_0，δ(X) = 1 表示判定 θ 在 Θ_1，則

θ 在 Θ_0 時，P[δ(X) = 1; θ] 是犯型Ⅰ誤機率；

θ 在 Θ_1 時，P[δ(X) = 0; θ] 是犯型Ⅰ誤機率。

參數值 θ 在整個參數空間 Θ = Θ_0∪Θ_1,（為方便，後文改以 Θ° 代替 Θ_0，Θ' 代替 Θ_1，故 Θ = Θ°∪Θ'）自由變動，

α(θ) = P[δ(X) = 1; θ] = 棄卻 Θ° 機率

可能是決策正確機率（當 θ 在 Θ' 時）, 也可能是犯型Ⅰ錯誤機率（當 θ 在 Θ° 時）；另一方，

β(θ) = P[δ(X) = 0; θ] = 不棄卻 Θ° 機率

也是可能正確決策機率（當 θ 在 Θ° 時）, 也可能是犯型Ⅱ錯誤機率（當 θ 在 Θ' 時）。我們希望型Ⅰ誤及型Ⅱ誤的機率都儘可能低，但

α(θ) + β(θ) = P[δ(X) = 0 或 1; θ] = 1 for all θ in Θ

當 θ 在 Θ° 時 α(θ) 是犯型Ⅰ誤機率，β(θ) 是正確決策機率；當 θ 在 Θ' 時 α(θ) 是正確決策機率，而 β(θ) 是犯型Ⅱ誤機率。決策函數 δ(X) 是 0 或是 1 完全看 X 落在哪個範圍。我們不知道 θ 的值，所以才需要猜測（推論），只能把資料空間劃分成兩個互斥的部分：

S = C∪A, δ(X) = 1 if and only if X in C

區域 C 稱棄卻域 (reject region)，若資料落在棄卻域，就棄卻虛無假說 H: θ in Θ° 而接受對立假說 K: θ in Θ'；反之，若資料落在「接受域 (acceptance region)」，就不能棄卻虛無假說 H 去接受對立假說 K。要降低型Ⅰ誤機率，應擴大 A 而縮小 C，但如此一來就提高了型Ⅱ誤機率；反之，若縮小 A 而擴大 C，則可降低型Ⅱ誤機率，卻擴大了型Ⅰ誤機率。總而言之，就是：降低型Ⅰ誤機率和降低型Ⅱ誤機率一般來說是相衝突的，兩者難以兼顧，必須有所取捨。

降低型Ⅰ誤機率和降低型Ⅱ誤機率是否絕對相衝突？由於它們不是同時發生，在一個 θ 值只能出現兩種錯誤之一。另方面在 X 所在區域，不同 θ 值使得同一區域發生的機率不同。在 X 所在的同一個區域 Q，若將其放入棄卻域，當 θ ＝ θ° 在 Θ°, 就對型Ⅰ誤機率有 P[X in Q; θ°] 的貢獻，而當 θ = θ' 在 Θ' 時則對決策正確機率有 P[X in Q; θ'] 的貢獻。把 θ' 在 Θ' 時決策正確的機率稱為「檢定力 (power of test)」, 則 P[X in Q; θ']/P[X in Q; θ°] 表示冒著犯一單位型Ⅰ誤機率的危險可以獲得犯錯危險幾倍的檢定力。反過來說，若將 Q 放入接受域，則 P[X in Q; θ']/P[X in Q; θ°] 表示犧牲一單位正確決策的機率將遭致幾倍犯型Ⅱ誤的風險。所以：

如果 P[X in Q; θ']/P[X in Q; θ°] 較大，則 Q 放入棄卻域較合理；反之，如果該機率比偏低，則可將 Q 放入接受域。

不能同時把型Ⅰ誤和型Ⅱ誤機率都降到最低，我們只能用投資成本效益的想法來看：以型Ⅰ誤機率當投入成本，檢定力當產出，在控制總投入成本（型Ⅰ誤機率）之下尋求最大化報酬，另方面，把型Ⅱ誤機率當成投入，正確判定 H 的機率當成效益，同樣要求列入接受域，也就是會判決 H 的區域 P[X in Q; θ°]/P[X in Q; θ'] 愈大愈好，也就是其倒數 P[X in Q; θ']/P[X in Q; θ°] 愈小愈好。不過，投資的資金是有限的，要想獲得最大的總效益（報酬）, 當然是儘可能將資金都投資出去，因為閒置資金等於把資金放到零效益的投資項目。可是，投資標的如果不可分割，有如此處考慮一整個區域 Q，依上列原則不一定能達到總效益最大化，所以上列區域 Q 的劃分愈細愈好，最細時 Q 只包含一點 X = x，機率改為密度，依 f(x; θ')/f(x; θ°) 決定 x 要放到 C 或 A。如果仍有問題，也就是投資標的已經儘量細分，仍有資金，卻又不足以投到依次應投資的標的，在真正的投資問題可以找人合作，採股份制；在此處的檢定問題，則可以採取「隨機化檢定 (randomized test)」, 意思是：再做一個隨機性試驗（成功率可控制）以泱定選擇 K 或 H。

頻率論或古典的統計檢定思考是要求型Ⅰ誤及型Ⅱ誤機率儘可能小的雙目標問題。對於多目標問題，通常做法有兩種，一是各目標都是量化目標且可加總時，採加權戀和目標法

optimize Σ_j w_j f_j(x)

式中諸 f_j(x) 是各目標的目標函數，其中 x 是可操作的變數，用以達成目標的最優化；w_j 是賦予目標 f_j(x) 的權量，如果諸 f_j 都是同向的，即都要愈大愈好，或都愈小愈好，則諸 w_j 都取正數，而以加權和之極大或極小來替代原來期望的多目標同時達極大或同時達極小。如果多目標同時最優化是可能的，加權總和最優化的解也就是多目標同時最優化的解。這種情形也就是說諸 f_j(x) 都在同一個 x = x* 達到最優，是比較少見的。通常，各 f_j(x) 最優化的解發生在不同x = x*_j 處，所以加權總和目標的最優化解 x = x* 與諸 x*_j 可能都不相同，形成無任何目標被最優化的現象。例如最小平方回歸函數沒有通過任何一個樣本點 (x_i, y_i), 即使 y'_i = y_i 表示對第 i 資料點而言是最優配適：

(y_i - y_i)^2 = 0 = min_{y'_i} (y_i - y'_i)^2

但使 y'_i = y_i 的配適規則並不能極小化 Σ_i (y_i - y'_i)^2。

多目標問題的另一典型方法是控制幾種目標達成到某種預定程度，只留下單一目標進行最優化。古典統計假說檢定問題是許多統計問題的一個典型：

控制型Ⅰ誤機率不超過預定的顯著水準，求檢定力最大化。

在古典的假說檢定想法中，虛無假說是一向被認為是事實的存在，但基於觀測到的資料，我們懷疑這一向被認為是事實的假說可能是錯的，但如果沒有足夠的證據，是沒有理由放棄舊有的認知而接受新的假說的。於是一個簡單的假說檢定問題成立：

H:: θ = θ° against K: θ = θ'

根據觀測資料 X，統計人員面臨 θ = θ° 或 θ' 的選擇。如果 θ = θ° 是對的，卻判斷成 θ = θ'，就犯了型Ⅰ誤；反之，實際上是後者卻判斷是前者，則犯了型Ⅱ誤。如果訂定損失函數如下：

l(θ,d) = l° if θ = θ°, d = 1;
= l' if θ = θ', d = 0;
= 0 otherwise.

檢定規則 δ(X) 依 X 落在 C 或 A 而設定 δ(X) 為 1 或 0，則

R(θ, δ) = l° α(θ°) if θ = θ°;
= l' β(θ') if θ = θ'.

決策理論的做法或者依上列風險函數取大中取小解 (minimax rule) 或取極小化平均風險解 (Bayes rule)；但古典檢定方法同時想極小化 α(θ°) 和 β(θ') 雙目標，前項極小化平均風險解即相當於前述多目標問題的加權總和解法，而古典方法是

minimize β(θ') , subject to α(θ°) ≦ α

上列右邊限制式右式的 α 是預先給定的定值，所謂「顯著水準 (significant level)」, 函數 α(θ) 在 θ' 的值等於 1-β(θ') 則是檢定力，極小化型Ⅱ誤機率 β(θ') 即是極大化檢定力，故符合上列問題解的檢定稱最強力檢定 (most powerful test)。於是，依先荊以投資成本效益的想法，令決策函數，或此處特稱決定函數 (critical function) δ(x) 的值不只是 0 或 1，而是 [0, 1] 區間的任意值，代表棄卻虛無假說 H:: θ = θ° 的機率，故 δ(x) = 1 仍是棄卻 H 而 0 代表不棄卻。於是，我們有下列 Neyman-Pearson 引理：

在 H:: θ = θ° 對 K: θ = θ'的檢定問題上，存在一檢定，即一決定函數 δ(X) 和一常數 k 具檢定大小 E[δ(X); θ°] = α 具下列形式：

δ(x) = 1 當 f(x; θ') > k f(x; θ°);
= 0 當 f(x; θ') < k f(x; θ°).

此檢定是顯著水準 α 之最強力檢定。反之，顯著水準 α 之最強力檢定必具有上列形式，並且除非有一檢定大小小於 α 的檢定具有檢定力 1，否則前項最強力檢定的大小也是 α。

上列引理是統計假說檢定最基礎的定理，其中我們用了一個新術語：檢定大小 (size of a test)。注意幾個相關的名詞：型Ⅰ誤機率是在某個特定 θ 值計算的棄卻虛無假說 H 的機率，即前面定義的 α(θ)，但只有 θ 在虛無假說範圍內才算型Ⅰ誤機率；檢定大小就是型Ⅰ誤機率的最大值；顯著水準 α 則是人為設定的，限制檢定大小或型Ⅰ誤機率的上限。另外，p-值又稱「顯著機率 (significancy probability)」說是機率又不是機率，它是

依照預定的檢定法，使現有資料可棄卻 H 的最小顯著水準；

但它也被定義為

依預定之檢定規則在 H 之下出現如當前結果或更極端結果的機率之最大值。

用數學式表示：

型Ⅰ誤機率: θ in H 時的 P[reject H; θ] = α(θ)
檢定大小: α* = max_{θ in H} α(θ)
顯著水準: α, an upper limit for α*
p-value: α° = min {α': H is rejected under current data, x, at level α'}
or: max_{θ in H} P{X in {y: H is rejected at y if H is rejected at x}}; θ}

其中 p-值的第二種描述描寫得較難理解，但在實務上較容易，因為實務上的檢定常應用檢定統計量 T(X)，當前觀測值代進去得 T(x)，檢定的棄卻域是

C = {x in S: T(x) > c} for some c

而 p-值因此定義為

p-value: = max_{θ in H} P[T(X) > T(x); θ]

至於「最小顯著水準」的定義，因為顯著水準愈高，允許棄卻域 C 愈大，所以考慮什麼樣的顯著水準可以讓 x 落入 C，這就是 p-值。

Neyman-Pearson 引理的證明不難，例如參見 Lehmann, E. L. 的 Testing Statistical Hypotheses 專書。像「引理」中那樣虛無假說 H 和對立假說 K 都只有單一參數點，所謂簡單假說 (simple hypothesis) 對簡單假說的檢定問題幾乎不存在，至少對立假說會包含一堆參數點，也就是「複合假說 (composite hypothesis)」。假設 K 仍只有一個參數點，而 H 卻是複合假說，則對每一個 θ° in Θ°，對 K: θ = θ' 的最強力檢定形式是

δ(x) = 1 當 f(x; θ') > k f(x; θ°);
= 0 當 f(x; θ') < k f(x; θ°)

並且滿足 E[δ(X); θ°] = α。現在假設 δ'(X) 是 θ°' 對 θ' 之大小為 α 的最強力檢定，如果

E[δ'(X); θ°'] = E[δ'(X); θ°"] = α

它和基於 θ°" 對 θ' 的大小 α 的最佳檢定 δ"(X) 相比為何？假設也成立

E[δ"(X); θ°"] = E[δ"(X); θ°'] = α

依 δ'(X) 是 θ°' 對 θ' 之最強力檢定的結論，E[δ'(X); θ'] ≧ E[δ"(X); θ']；但依 δ"(X) 是 θ°" 對 θ' 之最強力檢定的結論，方向應該相反，但基於 MPT 形式的特殊性，此兩檢定似是等價。另一種情形，如果

E[δ'(X); θ°"] > E[δ'(X); θ°'] = α

則 δ' 在 H 對 K 的檢定並不符合 level α 的要求，必須縮小其大小，也就是縮小 δ'(x) = 1 的範圍。另一方面 δ"(X) 是 θ°" 對 θ' 之大小 α 的最強力檢定，δ'(X) 經調整後符合水準 α，則其檢定力不及 δ"(X) 或最多相等。反之，若

E[δ'(X); θ°"] ＜ E[δ'(X); θ°'] = α

則兩檢定對虛無假說兩參數點而言都是水準 α 檢定，所以 δ'(X) 是比 δ"(X) 更強力的水準 α 檢定。所以在虛無假說 H 是複合假說而對立假說 K 是簡單假說的情況，要找最強力檢定就是逐一考慮 H 中每個 θ° 對 θ' 的大小 α 的最強立檢定，挑出其中對整個 H 符合水準 α 的，結果實質上應該只剩下一個，那就是問題所要的最強力檢定。

上面複合假說 H 對簡單假說 K 的最強力檢定未免色太複雜，但如果 θ 是實數值的，而且

若 θ < θ' 則概度比 f(x' θ')/f(x; θ) 是統計量 T(x) 的單調增函數，則稱分布族 { f(x; θ): θ in Θ} 具單調概度比 (motone likelihood ratio, MLR)。

如果在前面複合假說對簡單假說的檢定中，對立假說的 θ' 大於 H 的所有 θ°，或者我們甘脆考慮

H: θ ≦ θ° 對 K: θ > θ°

這所謂單邊對立假說檢定，是一個複合假說對複合假說的檢定問題。從 θ° 對某個大於 θ° 的 θ' 的檢定開始，由於

f(x; θ')/f(x; θ°) = ψ(T(x)) 其中 ψ↑

故要 ψ(T(x)) > k 則需要 T(x) > c, 其中 c 當然由 k 決定。所以 θ° 對 θ' 的最強力檢定是

δ(X) = 1 if T(X) > c;
= 0 if T(X) < c

而 T(X) = c 時則取一個 γ 值使 E[δ(X); θ°] = α。於是，θ < θ° 時，

E[δ(X); θ] = E[δ(X) (f(X; θ)/f(X; θ°)); θ°]
= E[δ(X) ψ(T(X)); θ°]
≦ E[δ(X); θ°] E[ψ(T(X)); θ°]
= E[δ(X); θ°] E[f(X; θ)/f(X; θ°); θ°]
= E[δ(X); θ°] E[1; θ] = α

當 θ > θ° 時 f(x; θ)/f(x; θ°) 是 T(x) 的增函數，所以 θ < θ° 時 f(x; θ)/f(x; θ°) 就是的減函數；而 δ(x) 是 T(x) 的增函數，於是 δ(x) 與概度比 f(x; θ)/f(x; θ°) 是相反關係，故有上列不等式。於是，我們得下列結論：

1) θ° 對 θ' 的最強力檢定也是 θ≦θ° 對 θ' 同一顯著水準的最強力檢定；

2) 上列最強立檢定與 θ' 無關，只需 θ' > θ°

上列第 2) 點說明 1) 的檢定對 K 的每個 θ' 都具有最強檢定力，於是我們說此檢定是 H: θ≦θ° 對 K: θ>θ° 的一致最強立檢定 (uniformly most powerful test, UMPT)。

如果 f(x; θ) 是指數族

f(x; θ) = C(θ) Q(x) e^{Σ_{j=1~k} θ_j T_j(x)}, x in A

其中分布的支撑集 (support) 與 θ 無閞，θ 及 x 都可以是向量，θ_j 是 θ 的第 j 成分，x 是樣本資料向量。於是，{T_j(X), j = 1, 2, ..., k} 是 θ 的極小充分統計量，對每一 θ_j, 都具 MLR，但是，除非 k = 1, 即單實數參數，而且是單邊對立假說如前述，或一種特殊的「雙邊」檢定：

H: θ ≦ θ°' or θ ≧ θ°" 對 K: θ°' < θ < θ°"

否則通常找不到 UMPT。上列存在 UMPT 的檢定問題如『怎樣「證明」虛無假說』一文所談的，在單一實參數 θ 指數族中，其 UMPT 正是

δ(X) = 1 if C' < T(X) < C";
= 0 if T(X) < C' or T(X) > C"

其中 C'. C" 兩臨界值，以及 T(X) 正好等於兩臨界值之一時 δ(X) （棄卻 H 的機率）值的決定，是由條件

E[δ(X); θ°'] = E[δ(X); θ°"] = α

所完成的。當然，除了 T(X) 的分布具對稱性情形以外，實務上可能採用「證明虛無假說」文所採取的拆解成兩個單邊假說的問題。

前段說即使在指數族，只有當參數為單一實數值，且對立假說是單邊或前述區間型時 UMPT 存在，反過來說一般或雙邊對立假說如

H: θ = θ° 對 K: θ ≠ θ°

或參數是向量型 θ = (θ_1, ..., θ_k) 時，UMPT 並不存在。不過，如果加上要求檢定（函數 δ(X)）滿足

E[δ(X); θ] ≧ ,α for all θ in K

則可能在這類檢定中找到最佳的。為什麼有上列要求（限制）？因為如果 UMP 檢定存在，則其檢定力當然不比下列無聊的檢定差：

δ°(x) = α for all x in S

即不管資料如何，都以 α 機率棄卻 H。顯然，δ° 的檢定大小是 α, 它在任意 K 中之 θ 點的檢定力也是 α。所以依 UMPT 的定義，其檢定力處處大於，至少等於 α。所以很合理地，我們限制自己在

E[δ(X); θ] ≦ α 當 θ in H; ≧ α 當 θ in K

的 δ 範圍內找最佳的。符合上列條件的檢定是水準 α 的不偏檢定 (unbiased test)，它其實也可以由所謂「風險不偏 ( risk unbiased )」或對損失函數不偏 (L-unbiased) 得到。在單實參數指數族模型做

H: θ°' < θ < θ°" 對 K: θ ≦ θ°' or θ ≧ θ°"

檢定，可得一致最強力不偏檢定 (UMP unbiased test, UMPUT) 是

δ(X) = 1 if T(X) < C' or T(X) > C";
= γ' if T(X) = C' ;
= γ" if T(X) = C";
= 0 if C' < T(X) < C"

其中 C', C" 及 γ', γ" 由

E[δ(X); θ°'] = E[δ(X); θ°"] = α

決定。如果是 H: θ = θ° 對 K: θ ≠ θ° 的檢定，UMPUT 的形式如上，而 C', C" 及 γ', γ" 則由

E[δ(X); θ°] = α 及 E[T(X)δ(X); θ°] = α E[T(X); θ°]

決定。

上述在單（實）參數指數族區間對立假說的 UMPT 及雙邊對立假說的 UMPUT 導得，是來自 Neymann-Pearson 引理的推廣：

N-P 引理是在 E[δ(X); θ°] = α 條件下，極大化 E[δ(X); θ'];
現在把限制條件改為多個，例如 E[δ(X); θ°'] = E[δ(X); θ°"] = α，仍求 E[δ(X); θ'] 極大化。結果存在 a, b, 最佳 δ(X) 之解要滿足

δ(x) = 1 if f(x; θ') > a f(x; θ°') + b f(x; θ°")
= 0 if f(x; θ') < a f(x; θ°') + b f(x; θ°")

當然，雙邊對立假說問題之 UMPUT 可以直接由區間對立假說之 UMPT 推出。不過，在多參數指數族檢定單一參數，如在雙參數（平均數、變異數）常態分布檢定平均數，則問題中存在干擾參數 (nuisance parameter) 即變異數，上列推導方法仍不夠，需要新的概念。

考慮指數族 f(x; θ) = C(θ) Q(x) e^{Σ_{j=1~k} θ_j T_j(x)}, 假設參數 θ 的空間包含一非退化 k-維矩形體區域，非退化在 k = 2 指具正值高、寬度的長方形（矩形）區域，在 k = 3 則是具正值高、寬、深度的長方體區域，以此類推。又假設 T_j(x), j = 1, ..., k 是線性獨立的。在這種惰形，T = (T_1, ..., T_k) 對 θ = (θ_1, ..., θ_k) 是完備充分的 (complete sufficient)。不只如此，把 θ 分割成兩部分，θ = (η, ζ), 相應地 T 也分成 (U, S) 兩部分。用一般行向量表示法，

f(x; θ) = C(θ) Q(x) e^{θ'T(x)} = Q(x}C(η,ζ) e^{η'U(x) + ζ'S(x)}

則 U 是 η 的完備充分統計量，而且給定 U(X) = u, 則 S(X) 的條件分布仍是一個指數族：

g(s|u; ζ) = C*(ζ) Q*(s; u) e^{ζ's}

現在我們如果要檢定指數模族模型中之單一參數，把其他參數都視為干擾參數，為了方便，我們把符號重新安排：

f(u, t; θ, η) = C(θ, η) Q(u, t) e^{θ u + Σ_{j=1~k} η_j t_j}

原資料 X 就不看，直接考慮所有參數，一個 θ, 一或多個 η_j，的完備充分統計量的分布。由於我們要做的檢定只涉及 θ：

θ ≦ θ°  against  θ > θ°;
θ ≧ θ° against  θ < θ°;
θ ≦ θ°' or θ ≧ θ°"  against  θ°' < θ < θ°";
θ° ≦ θ ≦ θ°"  against  θ < θ°' or θ > θ°";
θ = θ°  against  θ ≠ θ°.

因此我們可考慮：依給定 T = t = (t_1, ..., t_k) 後 U 的條件分布來進行 θ 的上列各種檢定，如果可以這樣做，則依前面所述，以上問題或者能找到基於 U 給定 T = t 之條件分布的 UMPT 或 UMPUT。但我們想要的其實是基於 X，或者簡化一點（因為 (U, T) 對 (θ, η) 的聯合充分性），基於 (U, T) 的聯合資料對上述諸假說檢定做水準 α 的「最佳」檢定。也就是說，我們需要的是：在所有

E[δ(U,T); (θ, η)] ≦ α for all (θ, η) in H

的檢定 δ(U,T) 中，找到只要 (θ, η) 在 K 中，其檢定力都達到最大。由於是指數族，可以證明任意檢定的檢定力函數 (power function)，即在不同參數點棄卻虛無假說 H 的機率，以目前的設定用前面的符號表示就是

α(θ, η) = E[δ(U,T); (θ, η)], (θ, η) in Ω

虛無假說 H 和對立假說 K 共同的邊界是 ω，是 Ω 中 θ 等於邊界值，前述各假說中 θ°, 或 θ°' 與 θ°"，的參數點構成的集合。由於檢定力函數連續，如果要求 δ(U, T) 必須是不偏的，則

α(θ, η) = E[δ(U,T); (θ, η)], for all (θ, η) in ω

符合上列條件的檢定稱為對 ω 而言是相似的 (similar)。所以，在此處的設定之下，一個檢定是不偏的水準 α 檢定，則它（對 H 和 K 的共同邊界 ω）是相似的。也就是說：顯著水準和檢定大小都是 α 的（對 ω）相似的檢定可能比同顯著水準的不偏檢定來得多，絕不會比較少。因此，若在所有水準 α 的相似檢定中找到一個檢定是一致最強力的，而它又是不偏的，那麼它就是所有水準 α 的不偏檢定中一致最強力的，也就是我們要的 UMPU 檢定。

由條件期望值恆等式，

E[δ(U,T); (θ, η)] = E[E[δ(U,T) | T; θ]; η,]

由於 T 對 η 是完備充分的，E[δ(U,T) | T; θ] 是 T 的函數，且不涉及 η，則由 T 對 η 的完備性，

E[δ(U,T) | T; θ] = α, αa.s.

這也就是說：把檢定 δ(U,T) 在 T = t 時，當做一個以 U|T=t 之條件分布為基礎的條件性檢定，則此條件性檢定在 H 和 K 的共同邊界（此時 H 和 K 視為只是 θ 之空間 Θ 的分割）的型Ⅰ誤機率也是等於 α。進一步，由於 U|T=t 的條件分布是單參數指數族，所以依單參數指數族檢定先前所列各對假說找出的最佳檢定 (UMPT 或 UMPUT) 是水準 α，因此，假設找到的條件最佳檢定 (UMPT 或 UMPUT) 是 δ(U, t) 則

E[δ(U, T]] ≦ α 當 (θ, η) 在 H 中; ≧ α 當 (θ, η) 在 K 中.

檢定 δ(U, T) 在給定 T = t 時是所有相似檢定中最佳的，則在不給定 T = t 時做比較，當然也是最佳的（一致最強力的）。前面說過所有（水準及大小為 α 的）相似檢定集合比同檢定大小的不偏檢定只多不少，而且上列 δ(U, T) 又是不偏的，所以它就是我們所要的 UMPUT。

以上是古典檢定方法考慮的最佳性：在顯著水準限制下，期望對對立假說中的參數點有最強檢定力；在對立假說是複合假說時，我們希望有一個檢定對於對立假說的每個參數點一致地有最強檢定力；如果一致最強做不到，我們將比較的範圍放在那些具有不偏性的檢定上。不過，實際上我們也只能對指數族有一個解法；至於非指數族，只能逐個去考慮了。但實際上，即使 UMPUT，也不必然存在的，所以如概似比檢定 (likelihood ratio test), 並沒有「最佳」的想法，只是也運用 N-P 引理的概念，結果在正規條件下，大樣本情形也常能得到不錯的表現。