統計上說預測是什麼意思?
一般意義的預測是預測未來將發生的事,統計上當然也接受這種想法,時間數列的預測通常就是這麼一回事。不過,統計上的預測其實含義更廣些,舉凡對我們所未觀察到的事做猜測,都可以說是預測。這樣說還有些模糊,我們用資料模型來說明比較具體。
統計上的資料,可以說是參數和誤差的函數: Y = f(θ,ε)。一般統計調查、實驗,是自群體 Yj, j = 1, 2, ... 中隨機抽取 n 個: Xi, i = 1, 2, ..., n 。這是靜態、同質群體,假設 Yj = f(θ, εj),而 Xi 可以 f(θ, εi) 表示。這樣的群體和樣本,資料的構造方式 f 是固定的,參數值 θ 也是固定而未知的。統計中的單一樣本推論問題,就是在這樣的資料架構下用隨機樣本的結果猜測未知參數 θ 的值。當 f 是已知時,例如常態群體 Yj = μ + σ εj, 又如二項分布群體 bin(k,p), Yj = Z1j+...+Zkj, 其中 Zij = p + εij, 這就是參數化模型。當 f 未知(是不知其構造,不是不知如何表示其構造)就是非參數化模型。
學/聽/用過統計分析的都知道還有兩樣本、多樣本、迴歸模型等非時間數列模型,我們仍可用類似上述表示式來描述群體及樣本資料的構造: Yi = f(xi,θ,εi),其中 xi 可以是兩樣本(群體)或多樣本(群體)中的群體標籤,或是迴歸模型中的解釋變數(變項)。對於時間數列,則群體模型是 Yt = f(Y(-t),θ,εt), 樣本模型是 Xt = f*(X1,...,Xt-1,θ,εt),其中 f* 可能是 f 或 f 的一個縮影, Y(-t) 表示 t 時以前的歷史。所有這些,不管是同時性單/多樣本(群體),或時間數列有時序之分,資料都是由參數 θ, 隨機誤差 ε 透過某種已知或未知程序 f (可能附帶一些解釋變數)所構成。統計推論一般指的是用樣本資料來推估參數 θ,而預測就是對群體(同時性單/多群體或時序性群體)中樣本之外的單一個體觀測值 Yj 的猜測。所以預測不只是時序性群體未來會出現之觀測值的猜測,在同時性群體對一個體觀測值的猜測,也是統計上的預測。
如果誤差項 ε 是相加的,也就是說 Y = f(θ) + ε, 對 Y 的預測值是 Y', 則
E[(Y'-Y)^2] = E[(Y'-f(θ))^2] + E[(Y-f(θ))^2] - 2E[(Y'-f(θ))(Y-f(θ))]
預測值 Y' 是根據樣本資料做成的;假設 Y 之誤差項 ε 在已知樣本值時期望值是 0,則交叉乘積項的期望值是 0。因此,均方預測誤差 E[(Y'-Y)^2] 被分成兩部分,一是理論值(被預測個體之期望值)之均方估計誤差 E[(Y'-f(θ))^2] 與和如何預測無關的,Y 之誤差項均方 E[(Y-f(θ))^2] = E[ ε^2 ]。因此,我們得到一個結論:
以均方誤差來衡量,最佳預測即理論值(期望值)之最佳估計。
當然因誤差不一定是相加的,也就是資料與誤差的關係不是單純的「資料 = 理論值 + 隨機誤差」,我們上述假設只是一個近似;另外預測誤差的衡量也不一定要用期望均方誤差,因此上述簡單關係就是一個參考而灸是定論。不過,均方誤差是統計上常用的;把資料表示為理論值加誤差項很多時候也是一個不錯的近似方法。因此,上述結論仍是極具參考價值的。
留言列表