詭論 (paradox),或譯悖論,英文字典的解釋是:
"a situation or statement that seems impossible or is difficult to understand because it contains two opposite facts or characteristics"
一般指自相矛盾的情況,似非而是的說法。不過個人看來,統計上的詭論其實算不上詭論,只是一些謬誤,或直觀上令人疑惑但並不難理解的現象。像羅素詭論 (Russell Paradox) 又稱理髮師詭論那樣,才是真正的詭論。

辛普森詭論 (Simpson's paradox) 可說是最廣為人知的統計上的詭論,它呈現一種狀況:某變數 Y 與另一變數 X 呈現某種方向的關聯,但在考慮第三變數 Z 之後呈現的可能是另一方向的關聯,如下表的例子:

      美國 Florida 1976-1987 殺人案死刑判決

   死者種族    不區分   白 人   黑 人
   被告種族   白人 黑人  白人 黑人  白人 黑人
  死 刑      53    15    53    11     0     4
  非死刑     430   176   414    37    16   139
  死刊率(5)   11.0   7.9  11.3  22.9   0.0   2.8

引自:Alan Agresti (2002) Categorical Data Analysis, 2nd ed, p.48. Wiley & Sons, N.J.

如果只看被告種族(膚色)與判決結果,會發現白人被判死刑比例高於黑人被告;然而按案件死者種族區分來看,竟完全反過來,不管死者是黑人或白人,黑人被告被判死刑比例均高於白人。既然不論死者種族,被告是黑人者判死刑比例都高於白人,不區分死者種族時,死刑比例應只是被區分後之比例的平均,其差異方向為何會反過來?就好像學生甲各科成績都比學生乙好,但看總平均卻是乙比甲高,這寧非怪事?若兩人成績科目都相同,平均時各科權量也一致,平均結果當然不可能反轉;但若兩人各科權量不同,則反轉機會是存在的。以上表數字來看,死者是白人的案子是多數,死者是白人的案件數是黑人的數倍,而死者是白人的被告絕大多數是白人,死者是黑人的被告也大都是黑人,所以在平均時,被告是黑人的按死者種族分的權值分配與被告是黑人者截然不同。從變數關聯來說,被告種族 X 與死刑判決 Y 的關聯如果在控制 Z 之下以 + 表示,死者種族 Z 與死刑判決的關聯則是 -,而 X 與 Z 的關聯又是 +;不控制 Z 時它與 Y 的關聯因 Z 與 X 的關聯而被併入 X 與 Y 的關聯,但 X-Z-Y 這條線的關聯是負的而且很強,合併後蓋掉原本 XY 之間的關聯,使得合併的關聯呈現負的狀態。如果用 Y 對 X, Z 的迴歸來看比前例類別變數間的關聯容易理解。在迴歸分析中,我們也常遇到考慮某控制變數 Z 與不考慮該控制變數時 X 對 Y 的影響方向(迴歸係數正負)反轉的情況。這種情形 Z 又被稱為「曲解變數」(參見:徐正光、黃順二(民81,譯, Rosenberg 原著)調查分析的邏輯, 2nd ed.(民68初版),臺北: 黎明文化。Morris Rosenberg (1968) Logic Of Survey Analysis, 1975 9th printing, First published June 1, 1968.)

有一種情形是:未考慮 Z 時 X, Y 之間貌似無關聯,但控制 Z 之後 X, Y 之間的關聯得以顯現。個人認為這也可歸入 Simpson 詭論,但論者亦有將其區別對待的,如 http://libir.tmu.edu.tw/bitstream/987654321/57427/2/04-01+The+Reversal+Paradox+%E7%B5%B1%E8%A8%88%E6%82%96%E8%AB%96.pdf。前引書稱此種變數 Z 為「抑制變數」,也是把它與曲解變數區分。

統計本身只能處理變數間的關聯,卻不能區分因果關係。例如 X 可能有兩條線影響 Y,一是直接影響;二是透過 Z 影響 Y;當然也可能只有走其中一條線。如果 X 有透過 Z 影響 Y,則 Z  被(前引書)稱為「中介變數」。當中介變數存在時,在資料上的表現可能呈現:只是影響 XY 之間的關聯強度,可能呈現 suppression 現象,也可能扭轉 XY 關聯方向呈現典型的 Simpson 詭論。然而 Simpson 詭論中 X 與 Z 之間可能只是單純的統計關聯,X, Z 是影響 Y 的邏輯上或說因果上的獨立變數,甚至有可能 Z 是 X 對 Y 影響上的前導變數而它對 Y 也有直接影響。類似地,如果不控制 Z 看不出 XY 間存在關聯,但控制 Z 之後關聯呈現,Z 是 XY 關聯的抑制變數;從因果關聯或影響方向,也可能 X 對 Y 的影響透過中介(變數)Z 的影響力與直接影響力持平。

Simpson 詭論描述的是控制第三變數 Z 後原本的 XY 關聯呈現反轉的現象,也可能可以包含 suppression 的現象;另外一種相反的是未控制 Z 時貌似 XY 之間有關聯,但控制 Z 之後發現 XY 之間關聯消失了。以因果關係來看,這可能是 X 完全透過中介 Z 影響到 Y;但也可能本來的 XY 關聯是虛假的,Z 是一個外加變數,同時影響 X 和 Y,造成 X, Y 有關聯的假象。這種現象稱為虛假相關,Z 稱為「外加變數」(參見「https://yhliu2k.pixnet.net/blog/post/87106996虛假相關與外加變數」)也有人把這種現象歸入伯克森詭論,但伯克森詭論指的應是另一種現象,如 https://www.twblogs.net/a/6018bbc2e83ad4e1f40a009b

伯克森詭論 (Berkson's paradox) 也稱「伯克森偏見」。望文生義,可以知道它所描述的現象是由「偏見」,或更具體的是選擇性偏差產生的。例如看某名校錄取學生的考試成績,可能有「數理與文史表現是負相關」這樣的看法(只是舉例,個人未曾實際看過成績資料;但網路上可以找到許多此詭論的介紹)。然而,這只是選擇性偏差或在此例可更具體地說是倖存者偏差的結果,實際上普通人(未篩選過的學生)數理和文史科目的成績可能是正相關、零相關或負相關,這要對所有學生做調查才能得知。統計上經常強調要隨機抽樣,要有代表性,就是要避免選擇性偏差。如果某種篩選程序如學校入學是採取擇優入學,則入學者或是各科皆優或者至少某科較優,則各科未能達標者被摒棄,倖存者(錄取者)儘是一個雙變量或多變量分布的右方、上方,當然呈現負相關的模樣。醫院病患資料的觀察同樣會呈現 Berkson 詭論現象,觀察者很容易有患 A 病者較少患 B 病,患 B 病者較少患 A 病的誤解。實際上是:健康者不會在醫院留下「病歷」,醫院患者病歷資料是選擇性的結果。

低出生體重詭論 (Low birth-weight paradox) 這是至今仍在討論,未被確定如何解釋的一個現實現象。此詭論呈現的資料是:觀察一個地區或一個國家一定期間內的新生兒資料,會顯示:抽菸的母親比較容易生出低出生體重兒(例如出生體重低於 2500g), 但低出生體重兒(一年內)死亡率卻是抽菸群低於非抽蔠群;但抽菸群的總嬰兒死亡率 (infant mortality) 高於非抽蔠群;而不分組低出生體重兒也比正常出生體重兒有較高死亡率。用下列圖表來表示:

母親抽菸與出生體重及嬰兒死亡率關係

  抽菸?    不區分    是      否

  LBW?    是  否  是  否  是  否
   比例           高      低

  I.M.    高  低  低      高
                   高      低

論者把這詭論看成是 Simpson 詭論的一個例子,但依個人網路上看到的內容似乎不是?如果正常體重的嬰兒死亡率也是抽菸組較低,那才是 Simpson 詭論的例子。或者,控制第三變數後只要部分組別扭轉不控制時的關係就算符合該詭論?個人認為不是的。稱詭論至少要有點難以常理處之的現象,而不管是抽菸與否當控制變數或低出生體重當控制變數,控制後結果與不控制之綜合(平均)結果並無違和現象。此詭論之所以為詭論,只是在低出生體重嬰兒中,母親抽菸者比未抽菸者有較低死亡率,與「抽菸有害健康」之常識及其他統計結果(如不分出生體重之死亡率)不符而已。對於這詭論,許多研究試圖從該不該控制出生體重分組,或從控制更多影響因素,或從因果架構予以解釋,可是好像並沒有(也許只是我見譜淺薄)從倖存者偏誤去了解。且不說嬰兒父親健康狀態等其他因素,也不論母親抽菸是否影響受胎,單說成胎後還有流產死產等把胎兒樣本排除,只看活產的死亡率,是不是等於只看倖存者?從選擇性偏誤的觀點,活產者低出生體重也是一個篩選,抽菸者的低出生體重兒部分是被篩選倖存者,部分又是從健康嬰兒因出生體重而篩下的,所以其死亡率低於未抽菸者其實沒那麼奇怪難解,更不能作「母親抽菸不僅無害嬰兒反而有利」的解釋。

洛德詭論 (Lord's Paradox),由 Frederic M. Lord 提出的一個關於統計分析方法結論不一致的問題。考慮的是分組樣本前後測資料,採用增量比較 t 檢定或 ANCOVA,至少在特定設計的資料會產生結論不一致的現象。個人看法參見「前後測資料分析問題」,合理的不同分析方法因為統計方法的特性可能結果不一致是很可能的,特別是在固定顯著水準的假說檢定,兩種合理方法可能其 p 值一在統計顯著標準之上一在其下,因此一個拒絕虛無假說一個則否。至於 Lord 所提的情形,可能 ANOVA 才是合適的分析法,或者增量法與 ANCOVA 分析的是不同意義的目標,所以這其實不算是真正的詭論。

林德利詭論 (Lindley's paradox),此詭論涉及頻率論者 (frequentist) 和貝氏學派 (Bayesian) 之爭,而其內容也是貝氏學派攻擊頻率論者的一個殺招。其要點是:在做任一參數單值檢定 H0:θ=θ0 對 Ha: θ≠θ0 之檢定時,只要樣本足夠大,「頻率論者幾乎確定可以推翻虛無假說。」而貝氏分析假設在 θ0 有單點正機率(通常設定 π(θ0) = 1/2), 其餘機率分散至整個對立假說或整個參數空間,結合此先驗分布和樣本資料,可以得到一個合理的後驗分布,給出 π(θ0|x) 用以決定支持或拒絕虛無假說。然而,所謂「頻率論者幾乎確定可以推翻虛無假說」的前提是實際上 θ≠θ0,雖然這可能是事實,因為 θ0 通常只是理論的,理想化的,或過去的經驗值;但若真實 θ=θ0, 哪怕樣本再怎麼大,H0 被拒絕的機率都不會超過設定的顯著水準。除了巨量資料問題,統計假說檢定常有樣本不夠大的問題,少有樣本大到幾乎確定可以推翻 H0 的「極限」情形,能有足夠樣本使得 θ 在與 θ0 的差距達實用價值時達到滿意的檢定力(例如 0.9 或至少 0.8)已經是燒高香了。真遇到超大樣本,我們也可用降低顯著水準,或採用鄰近區間取代單值的虛無假說以期更符合實際。而就貝氏學派的方法而言,θ 可能值可能無限,卻單獨給 θ0 一個不小的先驗機率,這也能當標準嗎?

輔助(統計量)詭論 (ancillary paradox), 或稱 Brown 詭論,那就是「輔助統計量 (ancillary statistic)」的使用。貝氏學派強調統計決策應依據概似原則 (likelihood principle)、充分性原則等。前者是說關於 θ 的訊息都在概似函數中,兩資料不管其實驗或抽樣設計,只要其概似函數成比例,則應得到相同的決策(相同的統計結論)。後者進一步說:關於 θ 的訊息都在充分統計量中,所以兩樣本如果其充分統計量的值相等,則統計決策結論也應相等。而輔助統計量的分布不依賴未知參數,也就不含 θ 的訊息,在貝氏分析中當然不必也不會用到。但在頻率論方法中,很多時候需要用到輔助統計量,例如考慮均勻分布群體 U(θ-1/2,θ+1/2), 抽出大小為 n 的(簡單)隨機樣本 X1,...,Xn,其順序統計量為 (Y1,...,Yn),而最小充分統計量 (minimal sufficient statistic) 是 (Y1, Yn)。令 T1 = (Y1+Yn)/2, T2 = Yn-Y1,則 U = T1-θ是一個樞軸量 (pivotal quantity),而 T2 是一個輔助統計量。而 T1 與 T2 的聯合 p.d.f. 是

g(t1,t2) = n(n-1)(t2^(n-2), 0<t2<1, θ-1/2+t2/2<t1<θ+1/2-t2/2

由此可得 U 的 p.d.f. 是

h(u) = n(1-2|u|)^(n-1),  -1/2 < u < 1/2

依此建立 θ 的最短長 1-α 水準信賴區間是

[T1-(1-α^(1/n))/2, T1+(1-α^(1/n))/2]

但給定 T2 = t2 時,U 的 p.d.f. 是

h(u|T2=t2) = 1/(1-t2),  -(1-t2)/2 < u < (1-t2)/2

這是在 [-(1-t2)/2, (1-t2)/2] 的均勻分布。取區間

T1-(1-T2)(1-α)/2, T1+(1-T2)(1-α)/2]

則得 θ 之另一 1-α 水準的信賴區間,其期望長度為 (1-α)/(n+1),對所有 0<α<1, 所有 n,兼用 T1, T2 所建構的信賴區間期望長度都短於只用 T1 建構的區間長度。然而,T2 是個輔助統計量,雖然它是極小充分統計量的函數,它本身不帶參數 θ的訊息。一個不帶 θ 訊息的統計量可以用來改善信賴區間長度,則比其他統計詭論更適合稱為詭論。也許「條件性原則 (conditionality principle)」可以合理化我們將輔助統計量 T2 用在統計推論上,該研者初衷是說如果隨機化地在幾種實驗程序中選攆一種實施,則結果的統計推論只需考慮實際採用的程序,無需考慮未採用的;進一步的論證說:如果有一個(分布和參數無關的)輔助統計量,則統計推論應在該統計量已實現觀測值下進行,也就是說,在前述例子把 T2 考慮進去(在 T2=t2 給定下考慮)信賴區間才是符合氣件性原則,只用 T1 反而不符條件性原則。

弗里德曼詭論 (Freedman's paradox) 是 David Freedman 於 1983 在 The American Statistician 發表的一篇文章 A Note on Screening Regression Equations 所提出的一個問題:在一個不具堅強理論架構之下篩選解釋變數建立迴歸模型,即使解釋變數其實與反應變數無關,如果模型中解釋變數很多,其 R^2 也可能相當高;把 t 值(絕對值)偏低的變數去除,R^2 仍保持相當高的水準,而整體的 F 檢定顯著。Freedman 以模擬及漸近計算的方法演述這種現象。假設有 k+1 個相互獨立常態變量 Y, X1, ..., Xk, 有 n 觀測值,Y 對諸 Xj 做迴歸。若 k/n = ρ 固定而 n, k 同時趨向無窮,則 R^2→ρ, F→1, 虛假顯著解釋變數趨於 αk 其中 α 是進行變數篩選之顯著水準。以有限樣本來說,不管是真實抽樣或模擬,諸 Xj 與 Y 之間總會有些關係的,特別是 k/n 高的話,就好像一個 X 和 Y 之間要建立迴歸直線,卻只希三或四個觀測值供配適 (fitting) 迴歸直線,即使 Y 與 X 之間獨立,少數資料點仍然會得到一條有斜度的迴歸直線。如果比率 ρ 的值不高,R^2→ρ, 其陳述不能說 R^2 相當高。而 F→1 意謂整體 F 檢定應該不顯著。至於 t 值虛假顯著的個數更好理解:做了 k 個檢定,如果它們的 H0j: βj = 0 都是對的,依所允許的 α 型Ⅰ錯誤機率來說,平均有 kα 呈現顯著結果是大數法則的結果。此詭論實際上提醒統計人員或利用統計方法的研究人員:

(1) 相對於變數個數,樣本數要足夠大。試圖以很少樣本建立許多變數的關聯,可能只是自欺欺人之舉。
(2) 如果不是在研究主題有明確堅實的理論架構,試圖在茫茫變數海洋中通過變數篩選建立模型,可能只是得到一個虛假的關聯模型。
(3) 做了一大堆統計假說檢定,有少數得到「顯著」結果,可能只是型Ⅰ錯誤的必然結果,不值得以此大做文章。

阿伯爾森詭論 (Abelson's paradox), 由 Robert P. Abelson 所提出的一個棒球運動統計呈現的問題,依他的計算,是否安打的隨機變異可歸因於技術水準的變異比例,相當於迴歸中的 r^2 或 R^2,只有 0.003, 不到 1%。可是平均打撃率是被認為成功(打擊?)最顯著、必要的特性。這樣的矛盾現象不只在 Abelson 文章關心的棒球運動問題,在一些社會現象的研究,用了多個解釋變數而迴歸模型的 R^2 仍然不高的情形在個人以前看過的社會學研究報告中並不少見,雖然不是 0.003 那麼誇張,或許這可能是我個人所見範圍太狹窄、太少所致。無論如何,R^2 的偏低顯示我們根本沒找到對反應變數有絕對影響力的決定因素。

準確率詭論 (accuracy paradox) 說明有時「準確率」並不是一個好指標。這裡說的準確率其實是在二元反應問題中「預測結果正確率」。如果某事發生的機率極低,則不管訊息如何直接預測該事不會發生,其預測準確率也是極高的。在醫學統計中,疾病檢查對象狀態和檢查結果交叉分類成四種情況:

  狀態   有病    無病
結果
  陽性       tp      fp
  陰性       fn      tn

其中 tp 是真陽性,fp 是偽陽性,tn 是真陰性,fn 是偽陰性。則

準確率 (accuracy) = (tp+tn)/(tp+fp+tn+fn)
精確率 (precision) = tp/(tp+fp) = positive predictive value (PPV)
靈敏度 (sensitivity) = tp/(tp+fn) = recall rate =  true positive rate = hit rate
特異度 (specificity) = tn/(tn+fp)

靈敏度和特異度都很高,則準確率也高;但準確率高不表示靈敏度和特異度都高。如果有病的很少,靈敏度再高也影響不了大局,反而特異度高低決定了準確率高低;反之,幾乎都有病,那麼靈敏度高低就幾乎決定了準確率的高低,特異度作用很小。如果有病無病的分布差異很懸殊,顯然準確率不足以評估這檢驗的好壞或實用性。而精確率看的是檢驗為陽性的人中有多少比例是真的患了病,這是從另一個方向來看檢驗的有效性或可用性。有病無病是不清楚的,但如果精確率很高,檢驗有病後接受治療出錯的機會不大。在其他領域也有類似的觀念,或許稱呼不同,但觀念是一樣的。

基本比率謬誤 (base rate fallacy) 或稱基本比率忽略或基本比率偏誤,可能也會被當作是一種詭論,但它其實是一種謬誤,是錯誤應用統計結果或錯誤解釋統計結果的一種現象。例如在一個大多數人注射過疫苗的地區,發現感染 COVID 住院治療的人多數打過疫苗,這可能導致有人懷疑疫苗的作用,但這就犯了基本比率謬誤,正確的比較應該看有打過疫苗和沒打過疫苗的各有多少比例的人被感染並且注院;或者,以感染 COVID 住院治療的人打過疫苗比例對比全人口打過疫苗比例,對痠苗效果做間接推論。

假陽性詭論 (false positive paradox) 算是基本比率謬誤的一個例子。如果一個疾病篩檢的特異度不是百分之百,而有病者只是人口中的少數,那麼全民普篩將出現假陽性可能比真陽性多出幾倍的情形。例如全人口 2000 萬,患病率 0.1%, 也就是真陽性 2 萬人;若特異度 99%,也就是 1% 的未患病人口會出現,也就是近 20 萬的假陽性。也就是說:用於檢測是否患病的手段,呈現的陽性結果卻絕大多數是假陽性,陽性結果之中真有病的只有 10%。所以普篩的方法如果需要,只能做為預篩之用,篩出陽性者再經正式檢驗。又如交警執法,為預防醉酒駕駛肇禍,只能就貌似嫌疑者做酒測,如果交警隨意攔車做酒測,除非其檢測設備 100% 準確,否則可能出現假陽性的情形,而且可能比真陽性案例還多。

斯坦詭論 (Stein's paradox) 通常稱 Stein 現象 (Stein's phenomenon),其實不是詭論,只是 Charles Stein 1955 發現如果同時估計變異數已知的三個以上的群體平均數,有比傳統的 MLE 也是 UMVUE 一致更好,其均方誤差和更小的點估計。眾所熟知的,在單群體時我們採用樣本平均數估計群體平均數是最好的策略,但 Stein 卻發現在多群體 (k≧3) 時,有其他估計式不管群體均數在哪裡,新估計式都比各自取樣本平均數有較低的期望平方誤差和。

奧基詭論 (Okie paradox) 或 Will Rogers 現象(https://en.wikipedia.org/wiki/Will_Rogers_phenomenon),起源於喜劇演員 Will Rogers 在 1930 年代關於大蕭條時期移民的一個笑話:

When the Okies left Oklahoma and moved to California, they raised the average intelligence level in both states.

但 "Will Rogers phenomenon" 這名詞卻是臨床醫師 Alvan Feinstein 於 1985 在癌症階段遷移中發現的現象而命名。由於更好的檢測方法把原先錯誤歸類為健康的病例改歸到不健康,結果是兩個病患群的平均壽命都提高。這其實不能算詭論,而是自然的:如果 A 群數值資料平均值比 B 群高,如果 A 群存在一個個案其值低於 A 的平均但卻高於 B 的平均,那麼把這個案從 A 群移到 B 群,則兩群的新平均值都將高於原平均值。

友誼詭論 (friendship paradox) 是社會學家 Scott L. Feld 在 1991 首次觀察到的現象:平均而言,一個人的朋友擁有比他擁有的更多的朋友。說得有點繞口,舉例來說,A 有 f 個朋友,他的這些朋友各有 f_i 個朋友,則這些人的平均朋友數是 fbar = Σi f_i/f 多數情形比 f 大。實例可以參看『神秘的「友誼悖論」,解開為什麼我們總覺得自己的朋友很少! 』或『筆記系列:「別人的朋友都比我多」』。雖然可以用數學方法理解,但這種現象並不是必然,因而也不存在所謂證明;只是現實的朋友網絡很容易出現這樣的現象而已。

電梯詭論 (elevator paradox) 據說來自物理學家 Marvin Stern 和 George Gamow ,他們在同一個大樓設有辦公室,前者的辦公室靠近頂樓而後者接近底部。Stern 注意到第一部停在他所在樓層的電梯常是上升的。(也可以參考這裡:https://book.huihoo.com/paradox-box/0028.html)如果只有一部電梯,如果這電梯都是從最底下上到最頂層,再從最頂層下來,則這種現象其實很好理解:在靠近頂層的樓層,只有較少的機會見到剛上頂層而後下來的,大多是在等「下一班」電梯;類似地住在靠近底層的,如果電彬上上下下忙個不停,那麼他耍看到剛從底層上來的電梯也是比較難的,通常要等下一班從頂層下來,到底層後再上來。當然如果電梯不是一定上到最頂層再下來,下到最底屠再上來,那麼問題會比較複雜。如果多部電梯,那麼情形當然也更複雜。如果固定運行時間表而且各電梯時間錯開,那和一部電梯的分析方式也差不多,只是班次更密集而最終上下行的機率可以接近 1/2。但如果不是固定時間表而且是按需求停靠(欲搭電梯者或欲出電梯者按鈕叫停),那就複雜了。

以上統計的各種「詭論」,有些只是謬誤或統計結果的誤用,有的是統計方法使用的疑惑罷了,有的只是被注意到的現象,有的更是必然,竟無一個真正可稱詭論的。或許,還算詭論而與統計有關的是機率方面的詭論吧?例如有一個可能是叫「禮物詭論」,或者我更願意稱之為「交換詭論」的,如下:

A, B 各獲得一個紅包,其中一個是另一個的兩倍,但不知誰的多。

A問B: 「要不要互換?」

B想:我的紅包內如果有 x 元,換的話有 1/2 機會變成 2x,1/2 機會變成 x/2,所以換的結果期望值是 5x/4,顯然交換對我有利。

可巧A也是這麼想的。

可是,交換結果怎麼會對兩人都有利?特別是交換後兩個紅包總額並沒改變。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()