去年筆者遮「點估計的方法」即提到估計方法中兩類重要的方法,一是資料配適 (data fitting, 按:fitting 目前多譯為「校估」,筆者先入為主偏愛「配適」),一為誤差評量。今年年初,「思考:統計是什麼?怎麼做?」闡釋統計無非是在「資料」」與「假設模型」之間取一「估計模型」。年中「樣本分位數的大樣本漸近分布」一文以中位數迴歸模型例示在 data fitting 準則下,計算不同群體模型之下的誤差評量。本文要再對資料配適與誤差評量做一說明。
假設資料是 Y1, . . ., Y_n,或許有配對的輔助資料 X_1, . . ., X_n 如迴歸模型,或時間順序 t = 1, ..., n 如時間序列。而假設的模型或參數可以簡單地用 θ 表示,而這裡則要反映到與「資料」相組配;同時,配適或估計的模型或參數 θ^ 也可以反映到資料上。因此,我們有:
觀測的樣本資料: Y_1, . . . , Y_n
目標(模型、參數): Y(θ)_1, . . . , Y(θ)_n
估計或配適值: Y'_1, . . . , Y'_n
資料配適的準則是
optimize Q((Y_1,...,Y_n), (Y'_1,...,Y'_n))
通常 Q((Y_1,...,Y_n), (Y'_1,...,Y'_n)) = Σ_i Q*(Y_i, Y'_1),為個別 Y_i 與 Y'_i 間配適情況評量的彙總;而 optimize 是取 minimize。誤差評量的準則是
minimize Risk((Y_'1,...,Y'_n), (Y(θ)_1,...,Y(θ)_n))
通常 Risk((Y_'1,...,Y'_n), (Y(θ)_1,...,Y(θ)_n)) 某種損失函數的期望值
R(Y', Y(θ)) = E[L(Y', Y(θ)); θ]
= E[L((Y_'1,...,Y'_n), (Y(θ)_1,...,Y(θ)_n)); θ]
而損失的衡量也較少著眼於個別 Y'_i 與 Y(θ)_i 的評量,而是模型參數估計(值)θ^ 與參數真值 θ 間的差距造成的損失。當然,「較少」不等於「沒有」,更不代表「不可以」。
以簡單直線迴歸為例,Y(θ)_i = μ_i = α + β X_i, 而 Y'_i = a + b X_i 是 Y(θ)_i 的估計,也是資料點 Y_i 的配適或修勻值。最小平方準則
Q(Y, Y') = Σ_i [Y_i - (a + b X_i)]^2
平方誤差損失之誤差評量準則
R(Y', Y(θ)) = Σ_i E{[(a + b X_i) - (α + β X_i)]^2; θ = (α,β)}
雖然這準則似乎不同於尋常所見,但在迴歸分析中我們要求在不偏的限制下極小化 Var(a; θ) 與 Var(b; θ),在一般線性模型中我們在不偏性限制下要求極小化任何可估函數 αu + βv 之線性估計的變異數,雖然在一般損失之下極小化類似上列總和風險評估不等於個別評估或「所有情況都適用」的整體評估,但在一般線性模型之下,採平方誤差損失,要求估計式是線性且不偏等諸多條件之下,上列準則正合適。需知:基於損失(風險)或誤差的評量準則,必然要對諸 Y'_i 或 Y' 做限制(如上述不偏的限制),或者沒有一種「最佳」解。
如上所述,資料 Y 是已知的,但我們(或說頻率論者)認為它的隨機性在統計分析要列入考慮;目標 Y(θ) 是確定而未知的,因此貝氏學派認為要把它看成是隨機的。統計分析,不管是敘述統計或推論統計,不管是參數化或非參數化方法,不管是頻率論者或貝氏學派,都在找一個「良好的」Y' 代替未知的 Y(θ) 並把它當做 Y 的修勻值,修勻的目的是更接近 Y(θ),但情理上我們認為修勻結果應順著 Y 的模樣而不是‵天馬行空,更不能扭曲 Y 的樣貌。只是如何選擇 Y', 就有偏資料的資料配適與偏模型及參數的誤差評估兩類觀點。也有學者同時考慮兩種觀點,本文不考慮此折衷或兼顧的想法。
就已知的 Y 和固定的 Y(θ) 來說,給予一個距離函數,d(Y, Y(θ)) 是個定值,但因 θ 或說 Y(θ) 未知而取 Y' 代之,
d(Y, Y(θ)) ≦ d(Y, Y') + d(Y', Y(θ))
如果等式成立,那麼 Y' 偏向資料 Y 就遠離「真值」Y(θ),如果 Y' 偏向 Y(θ) 就離 Y 遠些,就算取期望值,
d(Y, Y(θ)) = d(Y, Y') + d(Y', Y(θ))
==> E[d(Y, Y(θ))] = E[d(Y, Y')]+E[d(Y', Y(θ))]
如此看來似乎是矛盾的?但在線性模型中 Gauss-Markov 定理卻告訴我們:
根據最小平方準則的資料配適,在平方誤差損失下卻有某種最佳性。
這裡的「某種」是指 Y' 的選擇範圍限制在線性、不偏。雖然不是距離 d,但最小平方解卻使得距離平方成立等式:
d^2(Y, Y(θ)) = d^2(Y, Y') + d^2(Y', Y(θ)) (θ))
那麼為什麼極小化了上式右邊第一項,卻又同時極小化了第二項的期望值?令 μ = Y(θ), 則
|| Y - μ ||^2 = || Y - Y' ||^2 + || Y' - μ ||^2 + 2(Y - Y').(Y' - μ )
只有 (Y - Y').(Y' - μ ) = 0 即殘差向旺與估計誤差向量正交(垂直)等式才成立,而 (Y' - μ ) 是在 μ 所在的子空間,最小平方解正是要求殘差向量 (Y - Y') 垂直此子空間。也就是說:其他可選的 Y' 或是不能極小化 Y 與 Y' 的距離,或者不能極小化 E[|| Y' - μ ||^2; θ];而正是那極小化前者的解同時極小化了後者。
在絕對離差和迴歸,
d(Y, Y(θ)) = |Y - Y(θ))| ≦ |Y - Y'| + |Y' - Y(θ)| = d(Y, Y') + d(Y', Y(θ))
式中 |.| 代表絕對值和,即向量的 1-norm(前面 ||.|| 是 2-norm,即平方和之平方根,或歐氏距離)。如果等式要成立,就是 Y' 恰在 Y 與 μ = Y(θ) 兩點連線中間,但我們不知 μ,也無法保證如此選擇的 Y' 能極小化殘差 Y - Y' 的 1-norm,絕對離差和也就是此 1-norm 的解也無法保證極小化 |Y' - Y(θ)| 的期望值。
總之,我們要在資料 Y 與未知的 Y(θ) 中間取一個 Y',可以採用相同的距離模樣的量度,或兩者分取不同的差距評估準則,我們既希望 Y' 是儘量,平均而言,接近 Y(θ),但同時也希望 Y' 不要離 Y 太遠。直觀上偏向一邊可能違背另一邊的要求,但很難兼顧。資料配適的準則就資料來看似乎「合理」的方法,而誤差評估準則似乎是直擊目標的方法,但不管基於哪一方得到結果,都要再看另一方的表現,如果結果表現不能令人滿意,其實也就是假設的,做為分析基礎的模型,與資料差距太大,d(Y, Y(θ)) 太大,不是 d(Y, Y') 太糟就是 d(Y', Y(θ)) 太大,甚至兩者都表現不好,因為無論如何 Y' 在遷就一邊時還是受另一邊的影響。