Nature 2019年3月號一篇 "Scientists rise up against statistical signifance" 再次掀起對  "統計顯著性" 甚至對 "p 值", "信賴區間" 等的反對聱浪,而在中文網路,它又似乎被認為是對 "p 值" 的反對,是統計基礎的崩塌。

究竟我們從 "統計資料"  中想獲得什麼? 只是陳列觀測數據, 或是看出一些關於這些數據的規則, 或是由局部 (樣本, sample) 推測全體 (群體, population).  很多的統計關注、應用都來自於從樣本推論群體,因而很多的爭議也來自於此。

認真說起來,,統計是令人很無力的。統計資料充滿了不確定性及誤差,從群體到樣本又是一些偏誤和誤差。理想的統計學不考慮抽樣隨機誤差以外的各種誤差、偏誤及不確定性,但究抽樣隨機誤差一項就無數風雨了。不說什麼,單 "隨機" 二字就愁煞了人,無人可解釋清楚什麼是 "隨機",即使專業是統計的人都總是誤解,更遑論對統計一知半解或全然不懂的人?

現今的爭論起因於以樣本推論群體,而淡始則是抽樣隨機誤差。當然這中間也有因為對群體的 "無知",這裡指的不是全然無知而是不全知。但是沒有隨機誤差只要有了樣本就能 "知" 群體了,就因為有隨機誤差所以由樣本仍只能對群體做猜測而不能得 "知"。

傳統或稱古典的統計學認為群體就在那裡,是確定但未知的。為了根據樣本推測群體,就有些指標,除了猜測群體 "可能" 是怎樣的,還要描述前者 (對群體的推測 "可能離多遠"。於是,標準誤、信賴區間出來了。

統計應用有時需要做一個判決,例如這個藥該不該給它過?那個人該不該獎勵。於是,怎樣做這種判決以及相關的指標被提了出來。p值就是商樣的指標,它描述的是

    如果被定為 "虛無假說" 這個關於群體可能是怎樣的假說成立的話,樣本會有怎樣的表現?

    具體地說就是看到當前的樣本表現或更極端的機率有多少?

至於用來做成判決的 "顯著水準" 干統計何事?充其量是統計學家曾經提過幾個參考值並給予在這些參考值之下判定 "虛無假說似乎與資料不符" 者相應的描述語罷了。為了避免武斷地選擇一個不合適的 "顯著水準" 做判決依據,統計學家還提出了

    你應該根據決策與事實不符將產生的損失建立損失函數據以做決策

的意見和理論。

而今反對做決策?問題是泱策必須做。反對根據 p 值做決策?那根據什麼? Bayesian 的 B factor? 一個揉合主觀設定與古典統計學基礎不同的指標,它真能更真確表達出群體真實的樣貌。在反對 p 值之後,接下來是否該反對 "信賴區間"?它也如 p 值一樣其意義總是被誤解。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()