統計的本質是什麼?是大量資料的分析。雖然小樣本方法被提出後,有三五個數字資料就想來個統計分析的屢見不鮮,但大量資料的分析似乎才是統計的本義。

大量資料怎麼看?類別資料單一分類大概只能看看資料所代表的個體是否集中在哪幾類,或關注有哪些稀有類別,從而歸納出一些結論。如果類別是有順序的,我們不免會看看個體在這些有序類別之間的分布是否有些特殊規律?如果有兩種或多種分類方式,我們可能考慮做交叉分類,看看個體的交叉分類分布是否呈現什麼規則?對於數值性資料,我們可以觀察其分布形狀,其集中趨勢或中心位置,也可以看其分布廣度,或看有沒有特殊的、遠離其他資料的資料點;也可以看看這些資料是不是可以看成是兩個以上的群體併在一起的。如果有分類變數將資料分群,或本來就是多組資料合併進行分析,可以比較這些次群體資料分布有沒有明顯差異,對有序分群的資料還可觀察次群體間的差異有沒有特定規律。主要數值資料之外還伴隨有相關變數的資料,可以觀察主變數與相關變數的散佈情形、關聯情形。

以上描述了一些「統計分析」所做的,歸納起來就是尋找資料中蘊藏的規律和變異,以及發現異常。規律是常,變異是變,但變也是常,沒有變異就不是統計資料了。規律又是平均,變異指的是正常存在的變化,是正常範圍。而「異常」就是例外,是「正常」狀態下不應出現的,如一群資料中出現極少數離群點,這些離群點是不應存在的,它們的存在想來必然有特殊原因。統計假說檢定就是一種評判資料是否異常的程序,這種程序是事先定了所謂的「正常」是什麼(H0),而評判資料是否異於這所謂的「正常」。不談涉及評判的統計假說檢定,只談所謂的規律或常,例如平均,移動或滾動平均,迴歸函數方法,這等於是資料的平滑。換句話說,統計從資料中尋找規律的方法,就是一種平滑化的方法。計算平均數、分位數等來描述資料,也是潛在假設資料是規律性的。資料的平滑化操作就是想把資料的規律描述、表現出來。

尋找資料中蘊藏的規律和變異,以及發現異常,是所謂敘述統計的主體,推論統計則假設了一個未知的群體、模型,資料分析重點放在推估群體(參數)、配適模型(估計模型參數)。估計做得好不好,需要適當的評估準則,選擇估計方法或所謂估計式、估計量的要求是在給定準則下儘量與未知參數「接近」。但參數既是未知的,資料又假設是抽樣而得因此是隨機的,所以就產生了困難,也產生了統計基礎的分歧:傳統的,或所謂頻率論者對抽樣所引起的隨機變異進行平均(其結果依賴未知群體、未知參數),並期望它在每一組可能的未知參數值之下都表現良好;貝氏學派卻不管抽樣機制,只以現有資料為準,對所有未知參數值做平均。不管學派之爭,這是要求「估計量」或估計模型能接近真實、未知的模型;另方面我們也可能希望估計量或估計模型能配合資料,如最小平方、最小平均絕對離差、最小卡方等。也就是說:統計推論(估計)架構是:

資料(隨機) --> 估計模型(估計量) --> 理論模型(假設模型)(參數)

而選擇估計模型或估計量的方法,一是依據估計模型和理論模型之間差距的評估,目標是差距愈小愈好,可稱此為參數估計準則;另一方是資料與估計模型之間的差異,目標也是愈小愈好,稱此為資料配適準則。如果「資料」「估計模型」和「理論模型」之間可以用一直線相連,而估計量介於資料和理論模型之間,那麼估計模型靠近理論模型當然就離資料稍遠,反之離資料近則離理論模型較遠。不過,相對於不在資料與理論模型連線段中間的估計模型,在兩者連線段中間的估計則可能同時改善了估計模型與兩者的差距。例如線性模型中,基於最小平方(估計量與資料差距最小)在某種意義(線性、不偏)下也是最靠近未知參數(最小變異)。通常我們只考慮資料配適準則或參數估計準則之一,前者是資料與資料轉化結果之差異,只是數學上求極值;後者涉及隨機量與未知參數,要考慮較多層面(如頻率論方法與貝氏學派方法)。有時也用資料配適準則找估計量,而後檢討其在參數估計準則的表現,如前述線性模型最小平方法所做。更有人將兩種準則綜合,試圖找到兩目標兼顧的估計。

統計是什麼?從敘述統計的觀點主要是資料的平滑化,藉以得到資料的規律和變化,同時發現異常;從推論統計來說,無非是利用資料配適假設的理論模型,等於在資料與理論模型之間架一座橋連接兩者。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()