在數理統計中,常見「最佳」的要求或討論,如最佳不偏估計(一致最小變異不偏估計),最佳線性不偏估計,最佳檢定(一致最強力檢定),最佳不偏檢定。頻率論方法希望找到在某一損失函數下風險函數整個達到最低值的決策規則,因不可能,故而只在符合某種條件的決策規則中尋找;再退而求其次,採用競賽理論中的觀念,大中取小,極小化最大風險。貝氏學派的方法較簡易,不承認隨機樣本資料的隨機性,反而認為那看不見理不清的群體才應該視之為隨機,並堅信可以用一個機率分布描述它,於是很簡單的只要找基於設定的,描述群體隨機性的機率分布(先驗分布),期望(後驗)損失最小的決策就好了。因為不考慮因隨機抽樣或實驗中可能出現而未出現的資料,不需考慮具體抽樣架構;因為那看不清的群體的不確定性被確定的先驗分布給描述、給平均了,「決策」只是單一決策而不需論及它的函數意義,因為根據給予的先驗分布把所有可能的群體做了平均彙總,期望損失只是單一數值。

但是,學到現在我們發現:所謂「最佳」都不是真的。線性模型的最佳線性檢定只是因為採用平方誤差損失,如果不是平方誤差損失,它還是最佳嗎?更別說不偏的要求和限制估計量為觀測值的線性組合,也只因為是線性模型而合理。一致最小變異不偏估計同樣是平方誤差損失的結果,更因不偏性的要求排除了大量的估計量,甚至因許多問題不存在不偏估計量,而被學者所詬病,把以前被認為是估計量一個優良與否的判準,反當做是無必要的限制。檢定方法的判準,除貝氏學派外大抵還依循 Neyman-Pearson 控制型Ⅰ誤機率而後極小化型Ⅱ誤機率的套路,但決策理論也試圖用損失函數來處理,那麼不同損失函數之下「最佳」結果的不同將再次出現。從頻率論來看決策理論,無限制的一致最佳是不可能達到的,因此對決策函數做限制,如某種不偏性的要求、特殊架構之下的不變性或等變性要求是一法,更多為了某種決策函數是否 admissible (容許的) 費盡力氣去探討。而論大中取小法則,考慮風險函數的最大值而取其小,先決條件是存在風險有界的決策函數。而這些,也和損失函數如何定有關,在一種損失函數下容許的決策函數,換了另一個損失函史是否依然具容許性?一種損失函數下的大中取小決策函數,是否換成另一個損失函數仍然是大中取小?即使用貝氏學派的想法,損失函數的不同仍可能造成期望損失最低點的不同,也就是貝氏決策將因損失函數而變。事實上頻率論決策方法如果採「平均風險」值做為選擇決策函數的判準,結果等同於在每一可能的隨機抽樣或實驗結果找貝氏決策。不同損失函數得出不同風險函數,不只在於其絕對數值,也在於不同決策函數間的比較:

E[L1(δ1,θ)] < E[L1(δ2,θ)]   ==\=>  E[L2(δ1,θ)] ≦ E[L2(δ2,θ)]

而 arg min_δ E[L1(δ,θ)]  ≠  arg min_δ E[L2(δ,θ)]。有些時候,問題做某些限制,可能在一籃子損失函數中,「最佳決策(函數)」都是相同的,例如在所有平方型誤差損失,或甚至在所有凸(誤差)損失函數 (convex loss functions) 中得到一致的結論,但一般而言卻不是這樣。例如在線性模型,加權最小平方估計的權量結構要適當搭配誤差項的變異數甚至相關性結構才能得到平方誤差損失之下的線性不偏估計量中最佳,能期望它在不同損失函數中也最佳嗎?

那麼,有必要汲汲於「最佳」嗎?放棄不偏性讓我們迷惑於「真的不需要不偏嗎?」放棄最佳也必然導致「我們該何去何從?」的困惑。但從實務上來考慮,個人認為真的不需要汲汲於最佳。與其追求最佳,不如要求「合理」。欲估計群體平均數,用樣本平均數,欲檢定關於群體平均數的假說,用樣本平均數做基礎,與假設的群體平均數相比。我們一直都這樣做,不是嗎?有時我們覺得中位數比平均數適當,那就用樣本中位數估計群體中位數,或拿樣本中位數與假設的群體中位數比較,做關於群體中位數的假說檢定。合理的方法不會太離譜,合理的方法通常是簡單的。在做信賴區間時我們可能有興趣於最短長度的信賴區間,但實務上仍是採取兩尾各 α/2 的 1-α 信賴區間,也很難看到有檢討等尾機率法因此使信賴區間長度膨脹多少的討論,卻有無數論文用不同損失函數試圖找大中取小決策函數,證明某一決策函數的容許性等等。就像 α = 0.05 的是否拒絕 H0 的判準令人懷疑而有只報告 p-值不做結論之議,或許我們可減少對「最佳」的重視,而多關注統計方法的「合理」。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()