雖然學了多年統計,這一生也除了略知統計皮毛外其他什麼都不會,但說到統計推論之基礎,其實我還沒資格談論。但基於「反對 p 值」等相關評議,又有些話想一吐為快。因此,就在這算私人園地亂談幾句。

統計推論的問題是:有一個我們或全無瞭解或所知不足的「群體」,我們希望藉由蒐集關於這群體的「資料」,對這群體做「推論」。

統計的方法是直接蒐集所要探知的群體的資料,統計推論是直接根據樣本結果推及群體。例如,我想知道全國 20-50 歲人口的身高體重分布,「全國 20-50 歲人口的身高體」就是我的群體,統計方法就是取得這一個群體的少數個體為樣本,根據這樣本的數據推論群體分布有什麼特性。

所以,統計方法是直接的,它不會找一些人問:「你覺得國人身高體重.....」「據你的觀察......」等間接的方法來探知或推論群體的特性。當我問「你覺得......」時,我的目標群體就是人們心中的想像、想法,而不是問「覺得......」的內容。實務應用上要探究 P 可能透過 Q 去推論 P,也可能通過 A 對 P 的描述來推論 P,但這不是統計方法。如果利用 Q 推論 P,統計方法可能用在對 Q 的探究;通過 A 對 P 的描述來推論 P 也可能應用統計方法來探究 A 對 P 會有怎樣的描述,因此我們可以說在對 P 的研究上用了統計方法,卻不能說整個研究用的是統計方法。

所以,統計方法在概念上是簡單的,在實務應用上常常是幕後的甚至渺小的。不過,這不是本文的重點,這只是想釐清統計方法的本質:用樣本 S 推論群體 P,而 S 就是取自 P。

為了由樣本 S 推論群體 P,樣本必須有「代表性」.什麼是代表性?不同人可能有不同要求,不同應用問題所需的代表性也不同。「立意選樣」就是體現主觀認定的代表性的一種方法。但真正的統計推論不能建立在主觀的代表性上面,因為它的誤差或偏誤難以評估,而且不同人觀點不同,哪是科學思想所能接受的。再說,主觀的代表性充其量能代表群體的一兩個性狀,而其他不能代表的性狀難道不重要?統計所要的是全面的代表性,明言之:群體是什麼樣的性狀,樣本也應該要有什麼樣的性狀。唯有這樣,由樣本推論群體才有根據。而樣本要能全面代表群體,就必須採隨機樣本,而且樣本數足夠大。

古典的統計考慮的是一個固定的群體,這個群體對統計人員來說是未知的,統計人員能觀察的是取自這個群體的一個隨機樣本,根據這樣本的性狀猜測群體的性狀,這就是統計推論。例如,根據樣本算出樣本平均數 Xbar,就猜測:群體平均數 μ 應該也就差不多是 Xbar 吧!於是,把 Xbar 當做 μ 的「估計值」, 這就是點估計。只有乾巴巴地用 Xbar 估計 μ,或一般地,用樣本資料計算出的「統計量」 T 估計一個群體「參數」θ 顯然是不夠的,你說 μ 「差不多」等於 Xbar,那究竟是差多少呀?總要給個數吧。於是,用一個統計量估計群體參數,還要伴隨著誤差的計算或估計,所謂估計量的「標準誤」或「均方根誤差」總是伴隨著做為估計量的統計量出現。但是,統計是要應用於實務的,「標準誤」或「均方根誤差」這種指標並不好對非統計人員解釋清楚,「區間估計」或所謂「信賴區間」更好地說明了對群體參數的猜測:「我們有 95% 的信心認為 μ 在 xxx 至 xxx 之間」這樣的敘述比「估計 μ = xxx 標準誤 xxx」給人更清楚的關於 μ 的猜測,不是麼?等等!「有 95% 的信心」是什麼鬼?為什麼是 95% 信心不是 99% 或 99.9%?種種疑問和誤解也就出現了。

點估計、區間估計是對參數數值的猜測,但應用統計的人是不會就此滿足的。你給我 μ 或 θ 的猜測值,或給我一個範圍說 μ 或 θ 應該就在裡面了,但是你無法肯定地告訴我 μ 或 θ 究竟是多少,我怎麼知道 xx 藥品是不是更有效? xx 訓練是不是提升了效率?諸如此類,統計應用者希望統計能幫他做成決策。然而,統計應用機率理論而能計算出樣本結果與群體特性值之間大致會有怎樣的誤差,卻永遠也不可能切實知道群體特性值的真值,所以,在應用統計做決策這條路,也就是「統計假說檢定」,統計人員只能說:如果你能容忍 xx 的誤差,你的判決標準要怎麼做。這「容忍 xx 的誤差」就是「顯著水準」,於是許多應用統計的研究都有類似的敘述:「在 xx 顯著水準下,拒絕/不拒絕虛無假說」。但是研究者不一定是最終決策者,所以「p 值」成了一個評估指標,統計人員或研究人員計算出 p 值,決策者根據他認定的顯著水準做決策、做判定。

統計學家又提出了一套理論:所有統計問題,應該可看成一個決策問題。事實狀況有多種可能 ( Θ ) 但我們不知道是哪種會出現或哪個才是真的 ( θ ),我們的行動 ( a ) 也有多種可能 ( A ) 。在事實是 θ 時採取行動 a 將造成損失 L(a,θ)。我們的行動 a 是根據樣本資料 X = x 在行動規則 d 之下做的,也就是說 a = d(x)。統計學的研究就是在所有可能的決策規則 ( D ) 中找出一個合適的 d,使得「期望損失」或平均損失 R(θ,d) = E[ L(d(X),θ) ] 儘可能地小。於是,點估計、區間估計、假說檢定、預測,種種統計問題都可以套用這所謂「統計決策理論」; 選定一個損失函數 L(a,θ),找出在某些意義上「優良」甚至「最優」的決策規則 d(X)。

以上不管古典統計理論或統計決策理論的介紹,都是被歸為「頻率論者 (frequentist)」或頻率學派。在這一學派,群體 P 以至於群體參數 θ 都被認為是固定在那裡,只是統計人員不知確切的群體性狀或參數值,因此要用樣本來推論,並且,推論的誤差或推論規則的評估都是對所有可能的樣本資料 X 做平均,例如估計量的均方誤差 MSE = E[ ( T-θ )^2 ],風險函數 R(θ,d) = E[ L(d(X),θ) ] 都是在樣本資料 X 是隨機而參數 θ 固定的設定之下取期望值。

 不是所有統計學家都遵從頻率論者的想法,「貝氏學派 (Bayesian)」是一個龐大的勢力,也許個別統計學家或統計人員並不是真正貝氏學派的信徒,卻不妨礙他們採用貝氏學派的方法推出他們認為優良的統計方法或從事實際資料的分析。這學派認為:資料 x 是已觀測到的,是固定的;倒是參數 θ 是未知的。所以我們應該把 θ 當隨機變數,而不是假想我們沒觀測的 X。給予 θ 一個「先驗的 (a priori)」分布, 配合資料的概似度 (likelihood),可以導出 θ 「後驗的 (a posteriori)」機率分布。這其實是「貝氏定理 (Bayes Theorem)」的一個形式,將 θ, X 都看成隨機變數, θ 的先驗分布 π(θ) 與 X 的分布 f(x|θ) 相乘就是 θ 和 X 的聯合分布,對 θ 積分(加總)成為 X 的邊際分布,然後可得給定 X = x 後 θ 的條件分布 π(θ|x)。至此要進行貝氏推論很簡單,或者直接考慮此後驗分布的眾數、中位數、或平均數,或者根據損失函數計算貝氏損失

  l(d(x)) = ∫ L(d(x),θ) dπ(θ|x)

由於 x 是固定而且已知的,θ 被平均掉了,給予任意一個決策函數 d(x) 算出來的貝氏損失都只是一個數值,不同決策函數間的選擇只是單純一些數值的比較。不像在頻率學派不管傳統的誤差指標或決策理論的風險函數,每個決策函數都得到一個與未知參數 θ 值相關的函數,因而選擇適當的決策函數相當麻煩。

貝氏推論或貝氏分析顯然比頻率論的方法簡單,而且目前的後驗分布可以當做後續資料更新重新做分析時的先驗分布,是以除非是忠誠的頻率論者或其他學派學者,紛紛投入貝氏的懷抱。

貝氏推論依賴先驗分布,貝氏學派學者極力主張 π(θ) 的取得毫無問題,因為每個人必可由一系列的評估問答得出其主觀上的先驗分布。什麼,你說不要主觀要客觀,那也沒問題啊!Uninformative prior, conjugate prior 在不要主觀的思潮之下被廣泛用於理論的、實務的貝氏分析。此外,有「經驗貝氏 (empirical Bayes)」的主張,接受 Bayesian 的架構,但主張先驗分布要用資料來估計。一個典型的例子是在同時推論多群體時,資料 Yi 來自具參數 θi 的次群體,而諸 θi 來自具超參數 η 的分布或一個未參數化的未知分布。用諸 Yi 估計 θi 的先驗分布或其參數,然後套入諸 θi 的估計式得諸 θi 的 eB 估計。

R. A. Fisher, 著名的統計學家,他反對貝氏方法,卻試圖將「概似度」解釋為機率,稱之為 fiducial probability。如不考慮機率中「總機率為 1」的公理(公設),給予先驗分布 π(θ) = 1,則後驗分布

  π(θ|x)  proportional to l(θ|x)

概似度函數 l(θ|x) 也就是樣本聯合機率密度/質量函數 f(x;θ)。所以,除了它對 θ 積分或加總不一定有限以外,其實跟貝氏方法還是有些關聯。不過,通常如未經調整使其積分或加總結果為 1,是不可能解釋為機率的。反過來說,如果能調整使成 θ 的一個機率分布,它相當於採用「均勻分布」當參數的先驗分布,不管合理不合堊,總是一個 θ 的後驗分布。因此,廣泛被採用的最大概似估計,其實相當於取後驗眾數當點估計值。

概似函數在統計理論基礎上有無與倫比的重要性,統計推論基礎原則之一:「概似度原則 (likelihood principle)」說:

 (樣本)資料中所有與推論 θ 有關的訊息都在概似度中。

因此,若兩個概似度成比例(可能和 x 有關但和 θ 無關,則其對 θ 之推論應相同。例如在二項群體,一個是重複獨立 n 次 Bernoulli 試作,一個是試作至 r 次成功為止,若結果兩個實驗都是 r 次成功 k 次失敗,那麼兩個實驗對 p 所做成的推論結果應相同。貝氏學派攻撃頻率論最有力的一點就是後者並不符合概似度原則。前者立基於後驗分布,只看眼前的資料,而先驗分布和資料無關,當然成比例的概似度結論一致。但在頻率論的方法,或許點估計值本身一樣,但對誤差或風險的考慮必須考慮理論上所有可能的樣本結果 X 而不只當下的結果 x,所以至少在誤差或風險的描述上不可能符合概似度原則。然而,概似度原則是真理嗎?統計推論真的可以無視抽樣方法差異所導致的機率模型不同嗎?真的可以忽視抽樣的隨機變異(可能產生不同資料)嗎?

貝氏學派要表現其「優越性」,常拿比如貝氏分析的誤差指標與頻率論的誤差指標比較,其實這完全是把兩種不同東西拿來相比。頻率論的誤差指標是考慮抽樣的隨機變異而得;貝氏分析的誤差指標是基於分析時假設的 θ 的變異性 (先驗分布)經實際資料修正而得。一個是統計量的變異性,一個是 θ 的變異性,不同向度的東西如何相比?相對比較合理的比較是糅合 θ 與 X 的模擬比較,等於貝氏損失再對 X 做平均,頻率論的風險函數再對 θ 求平均,兩者都是所謂的「貝氏風險值 (Bayes risk)」當然是可以比較,可是卻不是公平的比較。想想,貝氏方法的結果是在其所設定的先驗分布下最優的選攆;而頻率論方法卻不考慮先驗分布,雖然只針對一個 θ 卻又考慮所有可能的 θ。結果當然貝氏方法表現較好。如果相同的兩個決策函數在不同先驗分布下貝氏都佔優,那才是真的貝氏方法優勝。然而,立基於一個先驗分布導出的最優決策函數,換一個先驗分布產生 θ 及 X 資料,其表現如何卻值得思考。

雖然不只頻率論和貝氏推論兩種方法,但目前似乎以這兩種為主。兩種方法的觀點基本不同是頻率論者認為群體或其 θ 固定,可變的是隨機抽樣導致 X = x 只是看到的一種可能;而貝氏推論者卻把只管當下的資料 x 而且把 θ 看成是隨機的。前者考慮因抽樣的隨機變異產生的誤差;後者卻用假設的 θ 的隨機性當做誤差的指標。如何取捨,其實值得深思。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()