在學習統計學,或應用統計方法,有些名詞或概念常被誤解為機率。

在點估計,一個和機率有關卻又不是機率的概念或名詞是概似度 (likelihood) 或概似函數 (likelihood function)。純應用統計方法者可能不會有問題,但若涉及「找最大概似估計 (MLE)」就會涉及到概似函數。概似函數現在通行的定義是樣本的聯合機率密度函數 (probability density function) 或機率質量函數 (probability mass function),這暗示群體只能是完全的連續型或完全的離散型;另外就是它通常用在參數化模型 (parametric model),非參數化模型 (non-parametric model) 相當於無限維參數,其 MLE 不是未能唯一決定就是資料的完全配適,例如以樣本分布為群體分布之估計。所以實務上會限制參數空間(等於以比樣本數少的參數來參數化群體模型),並允許此限制隨著樣本數成長。例如將資料分經組邢估計各組的機率,這等於直方圖的方法;另外核密度估計也是一種。不過這些不是本文要談的,我們的重點是:概似函數來自機率分布,但它本身不是機率分布。

R. A. Fisher 曾試圖把概似函數解釋成參數的 fiducial distribution.  以常態群體平均數 μ 而言,它的極小充分統計量,樣本平均數 T,也是常態分布,p.d.f. 是

  g(t; μ,σ^2) = n/√(2κσ^2) e^{-n(t-μ)^2/(2σ^2)}

注意它和全樣本的聯合 p.d.f. 很像:

  f(x; μ,σ^2) = 1/(2πσ^2)^(n/2) e^{-[Σ(xi-t)^2+n(t-μ)^2]/(2σ^2)}

事實上如果把 σ^2 當成已知,則 f(x; μ,σ^2) = g(t; μ,σ^2)) h(x; t,σ^2),  其中 h 和 μ 無關,也就是資料中和 μ 有關的訊息都在 t 的 p.d.f. 中,這就是其樣本平均數是 μ 的充分統計量名稱的由來。T 的 p.d.f. g(t; μ,σ^2) 換個角度來看,就是 μ 的概似函數,它和由全樣本得到的概似函數 f(x; μ,σ^2) 只差了一「常數倍」(因 h(x; t,σ^2) 與 μ 無關),所以對估計 μ 「沒有作用」。

就形式來看, g 對 μ 和 t 而言是對稱的。它是 T = t 的 p.d.f., -∞>t>∞; 對 μ 而言看來也像一個 p.d.f., -∞<μ<∞, 然而它不是!Fisher 或許因為常態群體平均數這個例子使他想到了 fiducial probability 這樣的想法,然而在其他例子他自己也發現到這個問題。

所以,參數的概似函數不是參數的機率密度或質量函數,所以對某特定參數值的概似度就只能是概似度,不是機率也不是機率密度。找最大概似估計只是找最大概似度所當的參數值,不是找機率分布的眾數。

不了解概似度和機率及機率密度的差別對統計應用者是不重要的,因為通常不會接觸到,也不會涉及結果的解釋。但在區間估計或信賴區間,信賴度、信賴係數和信賴水準是推論或報告的一部分,就不能不做切實的了解了。

信賴度和信賴係數是同一個意思,信賴水準則是在找信賴區間時規定的一個下限:信賴區間的信賴度至少應達到設定的信賴水準。如果模型是正確的,如果推論程序是正確的,通常這個要求是滿足的;如果用來建構信賴區間的統計量具有連續型分布,通常信賴度也會等於信賴水準。因為較高的信賴度意味較寬的信賴區間,也意味提供的參數訊息更模糊,因此信賴度達到信賴水準就可以了。然而,我們有時使用大樣本方法或近似方法,因此實際的信賴度可能並沒有達到信賴水準的要求,例如二項群體 p 的區間估計,最常被使用的是所謂 Wald 法:

  [ phat - z* √[phat(1-phat)/n], phat + z* √[phat(1-phat) ]

很多時候其實際信賴度遠低於名目的信賴水準。做連續性校正得到較寬的信賴區間,也稍為改善了信賴度不足的問題。有一個簡嗥的修正,是將上述 phat = x/n 改為 ptilde = (x+2)/(n+4), Agresti 與 Coull (1998) 提出的,模擬結果顯示除了在極端情形,其表現還不錯。

信賴度是什麼?信賴度來自機率,但它本身不可解釋為機率。

當我們談到信賴區間時,在實務上它是指我們根據樣本計算出的樣本結果,是一個確定的區間,例如 [0.60,0.80],如果這是指 p 的信賴區間,或者 p 確實在其中或者不在其中。這裡沒有隨機的成分,只有未知。如果 p 確實在 [0.60,0.80] 這區間中,我們做了正確的推論(但我們不知道,沒人知道);否則,我們做了錯誤的推論(同樣沒人知道)。所以我們說 [0.60,0.80] 覆蓋(或:包含) p 的信賴度是 95% (或說有 95% 信心),只是「信心」,不是機率。當然,信心來自機率,但對我們得到的確定結果而言,我們只能說對於所做成的結論有 95% 信心,絕不可說 p 有 95% 機率落在 [0.60,0.80]。

那麼憑甚麼我們得到信賴度?或者我們憑甚麼說是在某個信賴水準下做成的結論?那就是:我們所依據的程序產生的信賴區間,能覆蓋參數的機率(理想上)至少達到預設的信賴水準。也就是說:重複地做隨機抽取樣本,計算信賴區間,這些區間有覆蓋到真實參數值的比率(覆蓋機率)至少達到信賴水準。前面我們說 Agresti & Coull 的方法表現不錯,就是模擬結果估計覆蓋機率即使沒達到信賴水準也所差不多,也就是說估計其信賴度即使不在信賴水準之上,也比信賴水準低不了多少。覆蓋機率是針對參數空間中一特定點,也就是特定一組參數值來說的;而信賴度或信賴係數則是考慮參數空間各可能參數值後取其最小值。

所以信賴度是在說我們有多少信心我們採用的程序可以得到正確結論,落實到具體事務就是說有多少信心來宣稱信賴區間包含了正確參數值,卻不是說正確參數值落在所給的信賴區間機率有多大。

在假說檢定中,我們常說「型Ⅰ誤機率」、「型Ⅱ誤機率」、「檢定力」,這些確實是機率,但和當前樣本無關,它們都是研究設計之初要定的,是關於整個統計程序的指標。顯著水準是規範型Ⅰ誤機率的,從而也影響型Ⅱ誤機率及檢定力。它也不受結論的影響,反而是它影響結論。而在檢定中,來自機率又容易被誤解,不宜以機率解釋的就是 p 值。

P 值有用大寫 P 表示,也有用小寫 p 表示。如前面文章說過,它可以定義為:在 H0 成立之下產生(抽得)如當前資料或更極端資料的機率。其實這樣定義也不完全正確, H0 不一定只包含參數空間中的一點,所以此定義更適當的應改成:

  p 值 = max{P[T(X) = T(x) or more extreme ; θ] : θ in Θ0}

通常這最大機率值就發生在 Θ0 或說是 H0 的邊界點,例如 θ0,所以實際計算時常直接代 θ = θ0 進行計算。另外,前文說過 p 值也可定義成當前資料能拒絕 H0 的最小顯著水準,就這定義來說,可以說 p 值是:如果拒絕 H0, 型Ⅰ誤機率的上限。這似乎和前面的說法有矛盾?前面說結論不影響型Ⅰ誤機率,但現在又說 p 值是拒絕 H0 時型Ⅰ誤機率上限?不!不能這樣解讀,真正的意思是說:

  如果判準設定使當前資料能拒絕 H0,這樣的程序其型Ⅰ誤機率不超過 p 值。

要知道在檢定方法確定後,判準或拒絕/不拒絕 H0 的臨界點與顯著水準是一體的兩面,確定了顯著水準就是確定了臨界點,反之亦然。而顯著水準本就是型Ⅰ誤機率上限,所以並非和前面矛盾的說法,而是強調:

  p 值是如果重複整個程序,在 H0 成立的條件下 ...

而不是關於當前樣本或檢定結論的機率。對當前樣本、檢定結論及參數可能值而言, p 值都不能以機率論。

P 值不是關於參數的機率,也不是當前樣本出現的機率(就連績型分布而言,當前樣本出現機率是 0, 也就是說出現與當前樣本一模一樣之樣本結果的機率是 0。即使是離散型群體,或實務調查的有限群體,出現與當前樣本一模一樣的機率通常也極小)。倒是把 p 值看成是「當前樣本對 H0 之支持度」或「證據」指標是可行的。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()