在統計假說檢定問題中,如果虛無假說 H° 和對立假說 H' 都是簡單假說,H° 是 θ = θ°,H' 是 θ = θ',Neyman-Pearson 引理告訴我們:最佳檢定是選取 L(θ'; x)/L(θ°; x) 最大的部分當拒絕域。具體做法就是選擇一個臨界值 c 當資料 x 落在 C = {x:  L(θ'; x)/L(θ°; x) > c} 時就拒絕 H°: θ = θ° 而接受 H': θ = θ'。臨界值 c 的值決定了這個檢定犯型Ⅰ誤機率 P_{θ°}{C} 的大小。但因為檢定力P_{θ'}{C} 的大小和 P_{θ°}{C} 的大小是同向的,因為是同一個事件「拒絕 H°」的機率,只是用於計算機率的機率分布不同。所以,為了極大化檢定力,c 的選擇是使型Ⅰ誤機率在不超過顯著水準的要求下儘量放大,在可能情況使二者相等。如果對立假說是複合假說,即包含不只一組參數值,理想情況是上述 NP 檢定對於對立假說中的任一組參數值都相同,即所謂「一致最強力檢定」;或是在某些合理限制下,如限制不偏檢定,或在某種變換群之下不變的焮定,希望其中可找酊一致最強力的檢定。當虛無假說也是複合假說時,除了在虛無假說的每一點,即每一組參數值,其型Ⅰ誤機率一致被要求不超過顯著水準之外,基本上沒什麼不同,一切都是從 NP 引理始。

然而,即使加上不偏、不變的限制,其中也不一定有一致最強力檢定。例如,以統計資料分布族中的乖乖牌,指數族來說,假設最簡單的,獨立雙變量資料,其機率密度

f(x; y; θ, η) = C(θ)e^{θ T(x)} K(η) e^{η U(y)}

則 H°: θ = a, η = b 對 H': θ ≠ a, or η ≠ b 這檢定並不存在一致最強力不偏檢定。甚至,若欲檢定的假說是

H°: θ ≦ a, η ≦ b 對 H': θ > a, or η > b

則唯一的不偏檢定是:無論看到的資料是什麼,一律以 α 檮率拒絕 H°。(以上例子都取自 E. L. Lehmann 的 Testing Statistical Hypothrses 習題。)

就一般檢定問題而言,概度比檢定無疑是最常被考慮的,就如在點估計問題,最大概似法是最常被考慮的估計方法。當然,這方法「看似合理」,至於最優性,並不是絕對的。從 NP 引理來看,如果不考慮顯著水準,以 c = 1 為判決之臨界值,選擇支持 θ = θ° 或 θ = θ',不就和 MLE 估計 θ 值一樣嗎?只不過 NP 引理考慮的參數空間只有兩個元素:Ω = {θ°, θ'},而 MLE 是從許多元素,甚至通常是無窮多元素中選取一個貌似最合理的 θ*。再者,NP 引理看

r = L(θ'; x)/L(θ°; x) = f(x; θ')/f(x; θ°)

擇其大者放入拒絕域 C = {x:  L(θ'; x)/L(θ°; x) > c};當 c ≧ 1 時,

C = {x: L(θ°' x)/max{L(θ°; x), L(θ'; x)} < 1.x}

上式中,概度比分子是 θ = θ° 的概似度,分母是 θ = θ*, θ 之 MLE 的概似度。推至一般檢定問題,

H°: θ in ω    against   H': θ in Ω  but not in ω

令 θ° 使概似函數 :(θ; x) 在 ω 中達到最大;θ* 使 :(θ; x) 在 Ω中達到最大。換句話說,θ* 是 θ 在整個參數空間 Ω 找到私 MLE;而 θ° 是在 H° 限制的參數空間 ω 中找到的 MLE。概度比檢定就是比較兩個概似度的差距是否足夠大。

概度比檢定、有效分數檢定及華德 (Wald) 檢定

如上圖,概似度改用對數尺度顯示:l(θ) = ㏑(L(θ; x)),故

l(θ*) - l(θ°) = - ㏑(L(θ°; x)/L(θ*; x))

若 H° 正確,限制在 ω 計算的最大概似度不應與其最大值,在全空間 Ω 計算的最大概似度相差太多。反過來說,若兩者相差太大,暗示 H° 的限制 θ in ψ 是不合理的,與資料不相符的。

如果(對數)概似函數對於其變量 θ 是可二階微分的,

l(θ°) - l(θ*) ≒ (θ° - θ).▽l(θ*) + (θ° - θ*)' H (θ° - θ*)/2

令 λ = (L(θ°; x)/L(θ*; x),在正規條件下 l(θ) 在 θ* 的梯度 ▽l(θ*) 是 0 向量,所以

-2 ㏑(λ) ≒ (θ° - θ*)' H* (θ° - θ*) ≒ (θ° - θ*)' H (θ° - θ*)

以上兩式的 H* 是 l(θ) 在 θ = θ* 的二階偏導數矩陣,H 則是在 θ 的真值的二階偏微,或者代之以 E[H*],即 H* 矩陣的期望值。因此,

G^2 ≡ - 2 ㏑(λ)

當樣本數夠大時,接近是 θ° - θ* 的二次式。但在適當正規條件下,MLE 是漸近常態並且漸近有效的,也就是說 (E[H*])^(-1) 是 θ* 的漸近共變異矩陣,所以 G^2 漸近服從卡方分布,自由度是

df = (θ° 的有效維度數) -  (θ° 的有效維度數)

估計量的有效維度數,即參數在參數空間的獨立個數。例如兩個常態群體有相同變異數,參數是 (θ, η, σ^2),

Ω = { (θ, η, σ^2): -∞ < θ, η < ∞, σ^2 > 0}

有獨立參數 3 個,其在 Ω 的 MLE 有效維度數是 3;如果 H° 是 θ = η,則

ω = { (θ, η, σ^2): -∞ < θ = η < ∞, σ^2 > 0}

因為 θ = η 的限制,獨立變動的參數只有 2 個, (θ, η, σ^2) 在 ω 的 MLE 也要滿足 θ° = η° 因而有效維度是 2。所以如果這問題用概度比檢定,則檢定統計量 -2 ㏑(λ) 的大樣本分布是 χ^2(1)。當然實際上此例的概度比檢定等頜於 t 檢定,而 t 的自由度是兩獨立樣本數減 2;但是兩樣本不太小時,t 的分布接近於標準常態 z,而 z^2 的分布就是 χ^2(1)。

在前面的圖中,概度比檢定就是看 l(θ°) 與 l(θ') 的差距,G^2 檢定統計量就是高度差的兩倍。而要說明 G^2 的大樣本分布是卡方,我們說它在大樣本時接近 θ° - θ* 的二次式,接近用 θ* 的共變異矩陣做標準化的平方距離。但後者本身也是衡量 H° 合理性的指標

W^2 = (θ° - θ*)' (Cov(θ*))^{-1} (θ° - θ*)

稱為華德統計量 (Wald statistic),如圖中橫向 θ° 與 θ* 的差距,例如樣本平均數與虛無假說參數值 θ°,又如兩獨立樣本(先前兩常態群體之例) t 檢定統計量,ANO(VA 中燖 F 統計量。差別是 W^2 衡量的是平方距離;t 統計量因僅一維度,距離沒有平方;F 統計量分子多除以其自由度,因此大樣本(分母自由度夠大)其極限分布是 χ^2/df。舉個實例:在列聯表獨立性檢定中,假設無控制的觀測,n(i,j) 的分布是 μ(i,j),虛無假說

㏑(μ(i,j)) = μ + α(i) + β(j)

在上列 H° 之下 μ(i,j) 的 MLE μ°(i,j) 是 n(i+)n(+j)/n(++), 註標 + 表示變動對應位置的註標而做加總,即熟知的

理論次數 m(i,j) = (行和)×(列和)/(總和)

而在 Ω,μ*(i,j) = n(i,j), 則

W^2 = ΣΣ (m(i,j) - n(i,j))^2/n(i,j)

與常用的 Pearson 卡方公式不同。另一方面,

G^2 = -2 ㏑(λ) = ΣΣ n(i,j) ㏑(n(i,j)/m(i,j))

把  ㏑(n(i,j)/m(i,j))  表示成 - ㏑(1 - (n(i,j) - m(i,j))/n(i,j)) 並做泰勒展開,在 n(i,j) - m(i,j) 相對於 n(i,j) 數值較小的情況,拋卻高次項,則得 G^2 ≒ W^2。在兩二項比例檢定問題,與 W^2 相對應的,或者稱 W 統計量,是

W = (X_1/n_1 - X_2/n_2)/σ* 其中
    σ* = √[(X_1/n_1)(1 - X_1/n_1)/n_1 + (X_2/n_2)(1 - X_2/n_2)/n_2]

但較常用的 z 檢定統計量是把上列 S 用

σ° = √[p°(1-p°)(1/n_1+1/n_2)]   其中  p° = (X_1+X_2)/(n_1+n_2)

取代。注意 W^2 或 W 用的是在 Ω 之下,或在 θ* 處估計的誤差;而 Pearson 卡方底上列兩比例差的 z 檢定用的是在 ω 之下或即 θ° 處估計的誤差。

前面的示意圖中,在 θ° 處的「切線」其斜率在多參數問題是對各參數的偏微分,整合成梯度向量 ▽l(θ°),在「情報量與情報不等式」一文中說明了它如何能代表概似函數所攜帶的關於 θ 的訊息,在這裡我們知道的是,正規條件下 S = ▽l(θ) 在 θ = θ* 處是 0 向量,但在 θ° 處當然不是,而被稱為有效分數 (efficient scores)。不過,如果 S 在 θ° 很接近 0 向量,表示 H° 貌似合理,沒有理由推翻它;反之,若 S 在 θ° 處與 0 向量相距太遠,意謂 H° 的假說是很可疑的,至少資料並不支持它,而是支持對立假說。以列聯表獨立性檢定的例子,在獨立 Poisson 觀測值的例子,

l(θ) = ΣΣ [n(i,j) ㏑(μ(i,j)) - μ(i,j) - ㏑(n(i,j)!)]

對  μ(i,j) 的偏微分為 S(i,j) = ▽_{i,j} l(θ) = n(i,j)/μ(i,j) - 1, 其變異數為 1/μ(i,j),諸 S(i,j) 在獨立 Poisson 觀測值的設定之下無共變異,故有效分數檢定在「行列變數相互獨立」假說下,檢定統計量是

ΣΣ (n(i,j)/m(i,j) - 1)^2/(1/m(i,j)) = ΣΣ (n(i,j) - m(i,j))^2/m(i,j)

正是常用的 Pearson 上方統計量。有效分數統計量是以全模型 (θ in Ω) 來看對數概似函數 l(θ) 的梯度,但計算是在 θ° in ω 完成。也就是說,使用有效分數檢定,全模型是以理論方式得知梯度的模樣,但所有數值計算都在虛無假說之下完成。因此,採用有效分數檢定只需配適 (fitting) 縮減模型 H°: θ in ω;不像概度比檢定與華慫檢定,都是把全模型和縮減模型都配適出來,才能計算檢定統計量。

概度比檢定,以 G^2 統計量來說,擁有相加性:如果 M_0 > M_1 > M_2 是層層縮減的模型,則

G^2(M_2|M_0) = G^2(M_1|M_0) + G^2(M_2|M_1)

意謂在全模型 M_0 之下做虛無假說 M_2 的橡定,其 G^2 統計量等於在 M_0 之下檢定 M_1, 加上在 M_1 之下檢定 M_2。華德檢定有個優點是不論 H° 成立與否,對差距 θ° - θ* 的誤差衡量都是較少偏誤的,因為其誤差估計是以 θ 在 Ω 為準。但較少偏誤不代表均方誤較小。也有論文闡述華德檢定在 H° 偏離資料,即 H' 成立時,大的偏離反而有較小的檢定力。有效分數檢定如前述只需計算縮減模型 G°,再者,我們常用的一些檢定事實上都在 H° 成立之下計算統計量誤差,與有效分數檢定做法一致。畢竟在判決是否拒絕 H° 時,我們只看虛無分布,即在 H° 之下評估檢定統計量是否異常。但有效分數能有效進行的基本絛件是(對數)概似函數處處可微分,MLE 是偏微分等於 0 的地方。三種檢定都是在大樣本情況,假設中央極限定理可以引用,而所應用的大樣本結果甚至需要滿足所謂正規僚件。所以,理論上三種檢定應得到相近的結果;但實務上可能有的檢定支持 H° 而另一種檢定卻支持 H',而且並不是處在拒絕或不拒絕的決策邊緣。這種情形很可能表示:中央極限定理的引用是有問題的,依現有樣本數,要近似常態(或卡方)是有疑慮的。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()