Meta analysis 有很多中文譯名,最初見「後設分析」之名,有點怪異感;後見「統合分析」, 覺得:嗯!以後就用這個中譯了。如今,較時髦的稱呼也許是「元分析」吧?因為「元宇宙 (metaverse)」嘛!其他中譯,維基列的還有薈萃分析、整合分析、綜合分析,也可能還有其他譯法。

其實筆者沒學過這方法,沒看過任何一篇論文,更沒用過這種方法於實際資料分析。以前在公家機關曾幫機關首長跑過多次調查的整合資料分析,但那與一般統合分析不同,在那次分析等於是把代表不同(時間)群體的樣本放在一起分析而已,算是多群體之樣本的聯合分析。所用的是該機關不同時間調查,各代表調查時間之群體的原始資料,針對一個主題以各調查都有蒐集的資料做分析,且主要目標是探討某些反應變數隨時間的變化。

統合分析,其實是就某一主題,以多個已發表結果之樣本,通常只能應用已發表之統計結果,湊成一個擴大樣本的分析。在此種分析,目標群體是唯一的,含蓋各樣本所含蓋範圍及時間。也就是說,其基本假設是所蒐集到的已發表結果,都只是單一目標群體的不同樣本結果而已。根據 Wiki, 或 R. L. Plackett (1958) "Studies in the History of Probability and Statistics: Vii. The Principle of the Arithmetic Mean". Biometrika. 45 (1–2): 133. 統合分析最早可追溯到 17 世紀的天文學研究;統計文獻上的統合分析最早應是 K. Pearson (1904) "Report on Certain Enteric Fever Inoculation Statistics". British Medical Journal. 2 (2288): 1243–1246。"Meta analysis" 名詞則是 1976 G. V. Glass 所創。

統合分析基本假設所蒐集到的已發表結果,都只是單一目標群體的不同樣本結果。但因各結果各樣本實際上有許多不同(研究時間、地理範圍、研究人員、設計等等),統合分析也不是直接給出一個合併樣本的統計推論結果,而會同時呈現各原始研究結果的異質性 (heterogeneity),也就是這些研究結果的差異性。對於各研究之間的異質性,有些人(如英文 Wiki)似乎傾向於採用隨機效應模型 (random effects model) 來描述,把不同研究間的差異歸之於隨機效應:

θ_i = θ + a_i,  i = 1, ..., k 

其中 θ 是統合分析假設的目標群體效應,算是一個綜合或平均的效應;而 θ_i 是各研究得到的效應與綜合效應之間的差,通常假設是 i.i.d. 的隨機變數。隨機效應模型似乎很合理?但是,這就像貝氏分析把群體參數當做一個隨機變數一樣,也許有其合理性,但它是否就是最好的假設?固定效應模型 (fixed effect model) 則假設

θ_i = θ + α_i,  i = 1, ..., k

與隨機效應模型不同的是各研究得到的效應與綜合效應之間的差 α_i  被認為是固定而未知的參數。由於 α_i 是固定的,如果它們被認為是重要的,那麼將開啟進一步的分析或研究:為什麼 A 研究得到的效應 θ + α_i 比 B 研究高?例如在醫藥研究,這是否意謂 A 研究所考慮的人群比 B 研究適用某種醫療方案或藥劑?如果兩研究對象相同卻得到不同(差異顯著)的效應,是否分析該項效應所採用的模型錯了?反觀隨機效應模型,前述應予歸因的問題都不成問題,只是隨機現象罷了!另外,隨機效應模型對 a_i 需要假設一個機率分布,且不說此分布如何假設的問題,它假設各個別研究都是從一個包含所有研究的群體中隨機抽出的樣本,但統合分析的資料(研究)來源是這樣的嗎?

在統計上我們知道必須有代表性的樣本,如果做調查時有部分樣本觀測資料出問題,例如調查人員未依規範詢問甚或造假,或自填問卷受查者誤解題意,這都造成部分資料不可用而必須重新調查並對這部分樣本做特殊處理(因為這部分重新調查個案可能因調查方式變更而得到不同結果)。統合分析是聯合多樣本(結果)的分析,如果原樣本或其報告結果有問題,統合分析結果也將造成偏誤。有好的(具代表性的、真實的)資料才能有好的(反映實況的)分析結果,這在一般統計分析如此,在統合分析也一樣,不能找到數據就用,還需考量其資料蒐集方法、統計方法是否適當。

統合分析樣本的另一個問題是選擇性偏差,特別是因個別研究顯著性不夠高因而想藉統合分析聯合小樣本成大樣本以提高顯著性時為然。如果統合分析的目的是綜合結果很明顯的研究分析其共通性及變異性,藉以發現一些新結果,如前面醫藥研究的例子分析哪種醫療方式更適合哪種人群,則選擇性偏差可能較小或較不重要,就好像研究大企業盈利率而發現不同行業盈利率有差,雖然不代表小企業也有相同盈利率和相同,但研究的就是幾個列入研究的大企業,並不要求他們代表所有企業,甚至也不要求代表「大企業」。從這點來看也更突顯隨機效應模型不適當,因為所選的並不是哪個大群體的隨機樣本。如果把統合分析的目的放在提高顯著性,這問題就嚴重了。如果個別研究本來就顯著性很強,例如總是達到 0.001 或至少 0.01 水準的顯著性,還需要提高嗎?就算提高至 0.00001 或更高,在統計上那也沒什麼意義,在實務上有意義的是效應大小,而這並不是擴大樣本大小能改變的,樣本擴大只能讓效應的估計更精確。而統合分析做為一種提高顯著性的手段,也就是擴大樣本的手段,等於有意地選擇樣本個案,如何能代表群體?例如某種新藥其實沒有比舊藥好,但一堆人做實驗,總有少數是顯著的,其中又有一部分是發表出來的,於是聯合這些被發表出來的樣本,顯著性更高了,例如一個統合分析集結四篇樣本數相仿的研究結果,每個 t 值都在 2.5 左右,都達 0.05 水準顯著性;聯合樣本等於樣本數擴大為 4 倍,因此 t 值成為 5 左右,顯著性超越 0.01,但這樣的結果有意義嗎?

統合分析的具體程序與方法,或網路容易查到或需看專門的書,筆者亦不甚了了,就不談了。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()