統計是什麼?這是統計入門教本必有的一問。
有人說:統計,就是讓數字說話。然而,要讓數字說話首先得有數字,然後得有讓數字說話的方法。
統計還是個騙子, Mark Twain 說:“There are three kinds of lies: lies, damned lies, and statistics.” 有專書談到統計如何成了該死的謊言,或者說是騙子,Joel Best 的 “Damned Lies and Statistics: Untangling Numbers from the Media, Politicians, and Activists” 是個例子。
到底統計是什麼?統計,做為名詞,它代表某些事發生的次數,或存在的數量,或其他數量化的事實;或一個代表某些事物或某些狀態,提供給我們關於各該事務、狀態一些訊息的數字;它也可以代表如何從所研究的數字中找尋訊息,或如何蒐集、研究那些可以給出特定事物訊息的數字的科學。這是 statistic ( statistics) 這個英文單字的解釋。
引用較早的統計教本的解釋:統計或統計學,是蒐集、整理、呈現、分析及解釋統計資料的科學。較新的解釋:統計是在不確定情況下幫助決策的科學。或者更完整地說:
統計是蒐集、整理、呈現、分析及解釋數量化資料, 期能由資料中擷取訊息, 以協助在情況不確定下做出更有效決策的科學。
上面的解釋是一般統計入門課程的解釋,然而其中蒐集資料在課程中所談不多,也不容易談,還需要對統計有些認識才能說一些,但還有更多是在專門課程及實踐中學習。整理資料是個水磨工夫,除了一些基本程序和要注意的事項,沒什麼好談。解釋統計資料就統計本身而言只是結果如平均數、分位數的意義,標準差的意義,點估計的意義,統計顯著與否的意義,p 值的解釋,信賴區間及信賴水準的意義,迴歸係數的意義等等,落到實際統計結果的解釋是比教科書的解釋更具體些。但真要論解釋統計結果,還需要在其應用之領域的專業知識,例如治療某特定疾病的新法與舊法比較結果之差異代表什麼意義?重要性如何?民意調查民眾對某政策的意見反應代表了什麼意義,政府施政是否需要改變,或如何向民眾解釋尋求支持等等,也不是統計學課程所能涵蓋。所以統計學一年或一學期課程,或更多統計課程,除了在入門課程有專門談及統計結果的呈現:表、圖、統計量數,此外大部分內容可以說都放在如何分析資料這事上。實際上也確實需要花許多時間在如何分析資料這事,除了基本的估計、檢定方法,資料有許多型態,不同型態需要不同方式對待,例如橫剖的調查資料與時間數列截然不同,例如完整資料與設限資料 (censored data) 的不同,例如不同實驗設計需要不同模型等等。有些方法在不同資料間可以借鑒與修訂,例如一般資料的線性模型到特殊不適用線性模型如二項資料、計數資料的廣義線性模理,例如時間數列(一個維度)到地理資料兩個維度)到空間資料(三維度)分析方法的模仿與修改。資料千變萬化,模式及分析方法也要跟著變。
但在各種各樣的方法中,理應有個基本的東西,那就是:統計(分析)究竟是在做什麼?點估計、區間估計、檢定、預測,其實只不過是表現分析結果的方式而已,統計最根本在做的事就是資料的平滑化,或說資料的修勻,不管是敘述統計或推論統計,不管是參數化方法(有母數方法)或非參數化方法(無母數方法),都是看資料修勻結果及資料點與修勻結果之間的離差。 敘述統計只看當前的資料,修勻結果是資料大勢,離差是個別變異;推論統計將樣本資料修勻結果用來推論群體理論模式,離差反映了隨機誤差。非參方法直接對資料修勻,好像看著資料點隨手畫出資料大勢應是如何;參數化法就像拿著雲板在資料點上畫曲線,參數真值就是雲板應該放的位置、方向,而估計就是看著資料點決定雲板放的位置和方向。
上述說法用數學式表示就是:
資料觀測值 = 理論值(大勢) + 個別變異, 或
樣本觀測值 = 群體大勢 + 隨機誤差項
第一式是敘述統計的模式,沒有群體、樣本之分;第二式是推論統計模式,我們用有限的樣本觀測值來猜測可能無限個群體觀測值共同的大勢。資料(樣本)觀測值中因為混雜了個別變異或隨機誤差,因此想知道資料中蘊藏的(群體)大勢不容易,尤其資料量不多時。統計方法就是試圖找出較好的方法從混雜了個別變異或隨機誤差的觀測值中把「大勢」描繪出來。非參數方法對「大勢」沒有具體的想法,例如迴歸關係在非參數方法只是認定 y = f(x) , 對 f(x) 頂多是要求連續、可微分之類的條件;參數化方法則直接設定 f(x) = a + bx 或 f(x) = a + bx + cx^2 之類,留下 a, b, c 這些「參數」待利用資料配適 (fitting)。
以時間數列為例,古典方法把時間數列 X1, X2, ..., XT 認為是四個成分的組成:
觀測值 = 長期趨勢 + 循環變動 + 季節變動 + 誤差
其中 (長期趨勢 + 循環變動 + 季節變動) 就是「大勢」,統計分析要把大勢找出來;因為大勢假設有三個成分,所以還要設法分解出這三個成分。現在幾乎已沒有人用這方法分析,而是採用 Box and Jenkins 的 ARIMA 模式,或雙數列的 Transfer Function 之類的模式:
φ(B)Yt = δ + θ(B)at
式中 B 為時間遲延運算子,B(Yt) = Y(t-1),Yt 為時間數列觀測值,at 稱為 white noise, 其實就是隨機誤差。在這模型中,φ(B)Yt = δ 就是大勢,,它表明了數列觀測值之間「自迴歸」的關係,如一階自迴歸一階移動平均模型,或用 ARMA(1, 1) 表示:
Yt = δ + φ1Y(t-1) + at - θ1a(t-1)
大勢是 Yt = δ + φ1Y(t-1),同時誤差項有本期白噪音,還有前期白噪音的殘留影響。而大勢是自迴歸部分 Yt = δ + φ1Y(t-1) ,個別變異或隨機誤差是關於白噪音部分,θ(B)at 。統計分析除了分離出自迴歸部分,估計出自迴歸係數和常數項之外,也關心誤差項的組成。
如同談預測時說的, 誤差不一定是相加的,也就是說真正的資料模式可能是
資料觀測值 = f(理論值(大勢), 個別變異), 或
樣本觀測值 = f(群體大勢, 隨機誤差)
但在沒有個別變異或隨機誤差時,右邊就是(群體)大勢,因此把模式表為「大勢 + 誤差」,在不考慮估計方法之時,用相加模式似無不可