支持向量機 (support vector machine, SVM, 或譯:支搼向量機、支援向量機),又名支持向量網路 (support-vector network),是一種監督式學習網路,也是一種二分法分類技術。
此法先假設待分類物件(多維度空間的點)可以用兩個平行的超平面完全隔開:
Σ_i w_i x_i - b ≧ 1 if y = 1; Σ_i w_i x_i - b ≦ -1 if y = -1
支持向量機 (support vector machine, SVM, 或譯:支搼向量機、支援向量機),又名支持向量網路 (support-vector network),是一種監督式學習網路,也是一種二分法分類技術。
此法先假設待分類物件(多維度空間的點)可以用兩個平行的超平面完全隔開:
Σ_i w_i x_i - b ≧ 1 if y = 1; Σ_i w_i x_i - b ≦ -1 if y = -1
假設有一個數列 a(i), i = 1, ..., n, 代表一個有序的觀測資料,例如一個時間序列。假設這些資料有一些雜訊,或統計上常假設是隨機誤差:
a(i) = m(i) + e(i), i = 1, 2, ...
我們比較關心的是 m(i), 但它和 e(i) 糾纏在一起,我們怎樣得到 m(i)?迴歸模型 (regression model) 的方法就是假設 m(i) 是某種平滑函數,在極小化某種誤差函數如最小平方法
假設有成對資料 (Xi, Yi), 其中 Yi 稱為「反應觀測值 (response observations)」而 Xi 是「「輔助觀測值 (auxiliary observations)」, 我們常希望建立一個函數關係來表現兩者間的關係:
Yi = g(Xi)
在統計上假設
對線性方程組 Ax = b,其中 A 是 m×n 矩陣,x 是 n×1 行向量,b 是 m×1 行向量,如果 m = n,A 可逆 (invertible),則 x = A^{-1}b 是唯一解;但 A 不可逆,甚至 m≠n 時,x 不一定有解,一般而言,x 可能無解、唯一解、或無窮多組解。用矩陣基本列運算 (elementary row operation),或相當於高斯消去法 (Gaussian elimination),有解的線性方程組 Ax = b 等價於方程組 y + (A*)z = b*,其中 y, z 是 x 分割成兩部分(可能要加上順序重整),若沒有 z 部分,就是 y = x,相當於增廣矩陣 (augmented matrix) [ A b ] 經一連串基本列運算後,前 n 個非零列為 [ I b* ]。令 P 為這些基本列運算對應的基本矩陣 (elementary matrix) 的乘積,則
[ I b* ] = [ I 0 ] P [ A b ]
或即 [ I 0 ] P 從左邊乘上 A 得單位矩陣 I,我們稱矩陣 [ I 0 ] P 是 A 的左逆(左反,left inverse)矩陣,記為 A^L = [ I 0 ] P。若 A 有左逆矩陣 A^L,上述線性方程組的解似乎因此變成 x = A^L b。但
除美麗島民調可查到元月 11-12 日調查結果外,其他都是封關前民調。民調及實際得票結果如下:
調查機構 | 民調支持率 | 估計得票比 | ||||
賴蕭 | 侯康 | 柯盈 | 賴蕭 | 侯康 | 柯盈 | |
實際得票率 | 28.58 | 23.89 | 18.88 | 40.05 | 33.49 | 26.46 |
聯合報 | 32.00 | 27.00 | 21.00 | 40.00 | 33.75 | 26.25 |
etTODAY | 38.90 | 35.80 | 22.40 | 40.06 | 36.87 | 23.07 |
2024選舉溫度計 | 38.33 | 37.05 | 24.61 | 38.33 | 37.05 | 24.61 |
tvbs | 33.00 | 30.00 | 22.00 | 38.82 | 35.29 | 25.88 |
鏡新聞 | 35.60 | 24.10 | 24.20 | 42.43 | 28.72 | 28.84 |
三立 | 30.90 | 27.90 | 23.80 | 37.41 | 33.78 | 28.81 |
菱傳媒 | 36.89 | 32.83 | 28.64 | 37.51 | 33.38 | 29.12 |
台灣民意基金會 | 32.40 | 28.20 | 24.60 | 38.03 | 33.10 | 28.87 |
美麗島 | 39.60 | 28.50 | 18.90 | 45.52 | 32.76 | 21.72 |
美麗島(1/11-`12) | 35.40 | 24.70 | 19.90 | 44.25 | 30.88 | 24.88 |
民眾党(求真) | 27.20 | 26.40 | 26.90 | 33.79 | 32.80 | 33.42 |
國民党(市+手) | 27.20 | 25.60 | 22.40 | 36.17 | 34.04 | 29.79 |
國民党(市話) | 29.20 | 30.20 | 14.30 | 39.62 | 40.98 | 19.40 |
國民党(手機) | 23.50 | 17.10 | 37.40 | 30.13 | 21.92 | 47.95 |
表中得票結果對應民調支持率的是得票率,是以總選舉人數為母數的得票率;另外得票比例(以有效票數為母數)對應民調所謂「估計得票比」,即民調中有表態支持哪一組的人為母數。但民調中未表態人比例並不等於未投票及廢票比例,兩者雖有相關,但完全是不同概念。不考慮民調與投票日至少相差 11 日,中間民意當然會有變化,也不考慮投票率高低嚴重影響投票結果,單以最終結果來說,顯然聯合報結果最準確,百分率至小數點之後才‵有差異。除三党內參民調之外,僅鏡新聞對侯康配一組結果偏低,另兩組雖略偏高但大致在誤差範圍——因剔除未表態的,民調結果之「估計得票比」之統計誤差當然高於支持率,如果民調支持率的誤差大約 3 個 % 的話(樣本數略多於 1000),得票比的誤差大約高出 20-40%。很遺憾的是三党的內參民調(如果美瓏島民調是民進党內參)都與投票結果不一致,是因選舉策略而對外做誇大己身支持率,或是因封關民調與投票日有差距民意改變,或是投票率所致,或是支持意向與投票行為之間的落差則不得而知。反過來說,因為民意改變、投票率偏低、棄保心理等因素,上述民調結果與投票結果的吻合,反而是很奇怪的現象,如果這是「理所應當」,那是否意謂民調封關後那十天的競選活動、棄保操作都無效?而且民調未表態與不投票行為幾乎可以等同?
再看三家內參民調,參考國民党市話和手機民調的結果,美麗島民調也是全市話,和國民党全市話民調相比,賴蕭偏高而侯康偏低,至於柯盈估計得票比偏低的現象倒是符合市話民調的特色。國民党內參民調長達兩週12月15日至28日,在瞬息即變的選舉民意,這樣的調查是很奇怪的,如果調查順序與地區、人口特性無關,算是調查期間的民意表現吧,但結果也算是離投票日較遠了,按理其結果應有較大差異。民眾党內參民調兼採市話和手機,其結果介於國民党內參民調市話和手機之間,這是合理的。不過民眾党上列封關前最後一次民調結果是三足平衡鼎立,和實際得票比差異不可謂不大,引來「做假騙票」之疑。然而民調花費不小,沒有人會花錢做假資料騙自己,假設民眾党真的發佈的是假結果,因其宣稱原始資料都可公開,是否意謂其所公布資料自始都是假的?若真如此,為何都無流言傳出?以下為民眾党內參民調在登記日後各次結果:
在「分層抽樣與加權-談民調結果加權 」一文,我們談到現行民調常不能得到真正具代表性的樣本,最基本的就是:樣本個案(人)的人口學特性與群體不一致,例如台灣選舉民調被詬病的,市話樣本偏老人而手機樣本偏年輕人。為校正樣本人口學結構上的偏差,常需要對幾種易取得群體結構如性別、年齡組別、教育程度別等做 raking,或說多重反覆加權,又稱迭代比例配適法 (Iterative Proportional Fitting)。不加權相當於用樣本權重加權
Y.sr = (Σ_h Σ_j Y{hj})/n = Σ_h (n_h/n) Y(h.}
加權目標是計算
本文試圖談一談類神經網路的感知機。簡單感知機網路模型即統計的線型判別模型,是多個輸入變數,經線性組合,結果以閥值 b 為分界。統計上來說,有隨機變數 X_1, ..., X_k,
若 w_1 X_1 + ... + w_k x_k ≧ b 則歸第一類;
若 w_1 X_1 + ... + w_k x_k < b 則歸第二類。
本文是一般線性模型的書籍主要談的模型,算是補足「線性模型:誤差項共變異非滿秩問題」。為什麼前引文只談一般少見人談的誤差項共變異矩陣 σ^2 V 非滿秩的情況?因為更早曾談過一般線性模型,其中 V 假設是滿秩的 (full rank)。不過,該文未特別討論 V = I 的特殊情況,即最基本情況;而且重點是模型的參數估計,或所謂模型配適 (model fitting, 今多譯為「模型校估」, 此處譯「配適」算是先入為主及個人偏好),未考慮參數檢定或模型比較問題。
線性模型 (Linear models) 指(矩陣表示):
Y = Xβ + ε, E[ε] = 0, Cov(ε) = σ^2 V, V 已知
本文「邏輯斯網路模型」指的是「邏輯斯迴歸與類神經網路」所談的,從輸入進行加權加總,再經由 logistic 曲線轉換成 0-1 間數值傳到隱藏屠或輸出層,或從前一隱藏屠以相同機制傳至下一隱藏層或輸出層的網路架構。權量,指的是 logistic 曲線轉換前對前一層加權加總所用的權量。從統計上來說,也就是二元反應或比例之 logistic 迴歸或多重 logistic 迴歸的模型。而統計上,單層 logistic 迴歸模型是線性預測子 x'β 做一嚴格遞增函數變成反應變數 Y 的期望值,由廣義線性模型的一般理論知若群體分布屬指數族,則概似方程式的解是其自然參數的 MLE,也就是說自然參數的概似函數或對數概似函數是凹性的 (concave),或至少在概似方程式的解那裡是凹性的(凹面向下的)。另一方面,在二元反應或比例的機率模型,自然參數就是 logit(p) = ㏑(p/(1-p)),而它是 β 的線型式,因此對參數 β 而言,其概似函數或對數概似函數,王少在概似方程式的解附近是凹性的,所以找 MLE 就是找概似方程式的解。
在單層邏輯斯網路,其實就是 logistic 迴歸模型,但 ANN 採用的目標函數是誤差平方和:
Q(W) = (1/2) || Y - f(X W) ||^2
在中位數 m 使 e(a) = E[|X-a|] 當 a = m 時最小的問題中, 如果試圖用微分法證明,則將遭遇所謂積分式之微分問題。當 X 之分布屬連續型時,
e(a) = E[|X-a|] = ∫_R |x-a| f(x) dx
= ∫_(-∞, a] (a-x) f(x) dx + ∫_[a, ∞) (x-a) f(x) dx