談統計預測－劉應興的部落格

統計上說預測是什麼意思？

一般意義的預測是預測未來將發生的事，統計上當然也接受這種想法，時間數列的預測通常就是這麼一回事。不過，統計上的預測其實含義更廣些，舉凡對我們所未觀察到的事做猜測，都可以說是預測。這樣說還有些模糊，我們用資料模型來說明比較具體。

統計上的資料，可以說是參數和誤差的函數： Y = f(θ,ε)。一般統計調查、實驗，是自群體 Yj, j = 1, 2, ... 中隨機抽取 n 個： Xi, i = 1, 2, ..., n 。這是靜態、同質群體，假設 Yj = f(θ, εj)，而 Xi 可以 f(θ, εi) 表示。這樣的群體和樣本，資料的構造方式 f 是固定的，參數值 θ 也是固定而未知的。統計中的單一樣本推論問題，就是在這樣的資料架構下用隨機樣本的結果猜測未知參數 θ 的值。當 f 是已知時，例如常態群體 Yj = μ + σ εj, 又如二項分布群體 bin(k,p), Yj = Z1j+...+Zkj, 其中 Zij = p + εij, 這就是參數化模型。當 f 未知（是不知其構造，不是不知如何表示其構造）就是非參數化模型。

學／聽／用過統計分析的都知道還有兩樣本、多樣本、迴歸模型等非時間數列模型，我們仍可用類似上述表示式來描述群體及樣本資料的構造： Yi = f(xi,θ,εi)，其中 xi 可以是兩樣本（群體）或多樣本（群體）中的群體標籤，或是迴歸模型中的解釋變數（變項）。對於時間數列，則群體模型是 Yt = f(Y(-t),θ,εt), 樣本模型是 Xt = f*(X1,...,Xt-1,θ,εt)，其中 f* 可能是 f 或 f 的一個縮影， Y(-t) 表示 t 時以前的歷史。所有這些，不管是同時性單／多樣本（群體），或時間數列有時序之分，資料都是由參數 θ, 隨機誤差 ε 透過某種已知或未知程序 f （可能附帶一些解釋變數）所構成。統計推論一般指的是用樣本資料來推估參數 θ，而預測就是對群體（同時性單／多群體或時序性群體）中樣本之外的單一個體觀測值 Yj 的猜測。所以預測不只是時序性群體未來會出現之觀測值的猜測，在同時性群體對一個體觀測值的猜測，也是統計上的預測。

如果誤差項 ε 是相加的，也就是說 Y = f(θ) + ε, 對 Y 的預測值是 Y', 則

E[(Y'-Y)^2] = E[(Y'-f(θ))^2] + E[(Y-f(θ))^2] - 2E[(Y'-f(θ))(Y-f(θ))]

預測值 Y' 是根據樣本資料做成的；假設 Y 之誤差項 ε 在已知樣本值時期望值是 0，則交叉乘積項的期望值是 0。因此，均方預測誤差 E[(Y'-Y)^2] 被分成兩部分，一是理論值（被預測個體之期望值）之均方估計誤差 E[(Y'-f(θ))^2] 與和如何預測無關的，Y 之誤差項均方 E[(Y-f(θ))^2] = E[ ε^2 ]。因此，我們得到一個結論：

以均方誤差來衡量，最佳預測即理論值（期望值）之最佳估計。

當然因誤差不一定是相加的，也就是資料與誤差的關係不是單純的「資料 = 理論值 + 隨機誤差」，我們上述假設只是一個近似；另外預測誤差的衡量也不一定要用期望均方誤差，因此上述簡單關係就是一個參考而灸是定論。不過，均方誤差是統計上常用的；把資料表示為理論值加誤差項很多時候也是一個不錯的近似方法。因此，上述結論仍是極具參考價值的。