世新發表了一份最新民調,是關於「藍白合」對「賴蕭配」的民意問題。

這民調結果應如何看?據新聞報導,柯侯配的比例超過侯柯配誤差+1%。不談加權問題,如以簡單隨機抽樣的算法,假設沒有其他對手,假設無資料遺失,應考慮下列 2×2 表

  柯侯 賴蕭
侯柯 n(11) n(10)
賴蕭 n(01) n(00)

設「侯柯」組勝選比例是 p(1+),「柯侯」組是 p(+1), 則

p(1+)^ = (n(11)+n(10))/n,   p(+1)^ = (n(11)+n(01))/n

其中 n = ΣΣ n(ij) 是總樣本數。則

Var[p(+1)^ - p(1+)^] = Var[ (n(01) - n(10)/n ]
    = [p(01)(1-p(01)) + p(10)(1-p(10)) + 2 p(01) p(10)]/n
   ^= [n(01)(n-n(01)) + n(10)(n-n(10)) + 2 n(01)n(10)]/n^3

最後一式 ^= 代表用右式估計。這除總樣本數外,只涉及在兩組藍白配與賴蕭配對抗的選擇中,一題選藍白另一題選賴蕭。上面算法有個大問題是前面的假設:無其他選項及無漏答。但從發表的比例來看,這假設明顯不對。不過,重點只放在柯侯和侯柯組合在兩題得到的比例,把上列 2×2 表修改一下,「賴蕭」改成「非藍白配」,則結果正確。

上列比例差之變異數公式可以說一說幾個基本觀念:首先,如果兩個統計量相互獨立的話,

Var[T1 - T2] = Var[T1] + Var[T2]

但 Se(T1 - T2) ≠ Se(T1) + Se(T2),如果 T1 和 T2 有相同誤差,則其差 T1 - T2 的標準誤是單一統計量的 √2 ≒ 1.4 倍而非 2 倍。其次,此處 p(1+)^ 和 p(+1)^ 之間可能有正相關,則

Var[T1 - T2] = Var[T1] + Var[T2] - 2ρ(T1,T2)√(Var[T1]Var[T2])

因此,T1 - T2 的誤差其實比它們相互獨立時要少。不過,由於 p(1+)^ 和 p(+1)^ 的成分相互都有負相關,究竟兩比例是否真有正相關仍需計算才知:

Cov(p(+1)^ , p(1+)^) = Cov(p(11)^ + p(01)^, p(11)^ + p(10)^)
   = Var[p(11)^] + Cov(p(11)^ , p(10)^)
                  + Cov(p(11)^ , p(01)^) + Cov(p(10)^ , p(01)^)
   = p(11)(1-p(11))/n - p(11)p(10)/n - p(11)p(01)/n - p(10)p(01)/n
   = (p(11) - p(1+)p(+1))/n

故邊際比例 p(1+)^ 與 p(+1)^ 之相關

Corr(p(+1)^ , p(1+)^) = (p(11) - p(1+)p(+1))/√[(p(1+)-p(1+)^2)(p(+1)-p(+1)^2)]

看 p(1+)^ 與 p(+1)^ 之間的相關,相當於兩邊際選擇(0-1 隨機變數)之間的相關。就一般問題而言,倒不會因為兩邊際比例有共同成分 p(11)^ 就有正相關,而要看兩邊際變數內容。這是合理的,如果把一個變數的兩分類對調而另一個不變,其相關就應得相反結果,雖然兩邊際比例仍有共同成分。不過,就此處的實際問題而言,侯柯或柯侯都代表藍白合,所以 p(1+)^ 與 p(+1)^ 是正或負相關,看的是在兩問項回答的是一致的(同是贊成或反對藍白合)比較多,還是不一致的(因正副問題而一贊成一反對藍白合)比較多?個人的猜測是一致的較多,也就是說相關係數是正的,結果如同原先的猜想,但理由不是因為存在共同成分。利用 p(1+)^ 和 p(+1)^ 的共變異數來計算兩比例差之變異數,得

Var[p(+1)^ - p(1+)^] = p(+1)(1-p(+1)) + p(1+)(1-p(1+)) - 2(p(11)-p(+1)p(1+))

相較而言,p(1+)^ 與 p(+1)^ 兩者之差變成 p(10)^ 與 p(01)^ 之差的算法,一則不是用總比例計算而是用小得多的比例計算誤差,對目標之誤差而言是個減項;但 p(10)^ 與 p(01)^ 之負相關,對 p(+1)^ - p(1+)^ 之誤差又是個增項。結果倒不易說 Var[p(+1)^ - p(1+)^] 是比兩比例相互獨立時大或小。

有一複雜的比較法來看哪種組合方式較有優勢,假設統計結果如下

  柯侯 賴蕭 其他 合計
侯柯 n(11) n(12) n(13) n(1+)
賴蕭 n(21) n(22) n(23) n(2+)
其他 n(31) n(32) n(33) n(3+)
合計 n(+1) n(+2) n(+3) n

有人以 p(+1)^ - p((+2)^ 與 p(1+)^ - p(2+)^ 來看被調查者較支持柯侯組或侯柯組。若無第三選項(其他)之回答,則兩比例差之差只是擴大兩比例之差為兩倍罷了:

p(+1) - (1 - p(+1)) = 2 p(+1) - 1,    p(1+) - (1 - p(1+)) = 2 p(1+) - 1

此處因有第三選項且 p(+3)^ 通常與 p(3+)^ 不等,因此其效果不是把差距擴大為二倍,但 p(+1)^ 與 p(+2)^ 有負相關,且兩比例相減,結果標準誤將增長很多;另一個邊的比例差也一樣,故比例差之差將擴大許多(抽樣)誤差:

Var[(p(+1)^ - p(+2)^) - (p(1+)^ - p(2+)^)]
   = Var[p(+1)^ - p(+2)^] + Var[p(1+)^ - p(2+)^]
       - 2 Cov(p(+1)^ - p(+2)^ , p(1+)^ - p(2+)^]
   = [p(+1)(1-p(+1)) + p(+2)(1-p(+2)) + 2p(+1)p(+2)]/n
        + [p(1+)(1-p(1+)) + p(2+)(1-p(2+)) + 2p(1+)p(2+)]/n
        - 2 (Cov(p(+1)^ , p(1+)^) - Cov(p(+1)^ , p(2+)^)
               - Cov(p(+2)^ , p(1+)^) + Cov(p(+2)^ , p(2+)^))
   = [p(+1)(1-p(+1)) + p(+2)(1-p(+2)) + 2p(+1)p(+2)]/n
        + [p(1+)(1-p(1+)) + p(2+)(1-p(2+)) + 2p(1+)p(2+)]/n
        - 2 [(p(11)-p(1+)p(+1)) - (p(12)-p(1+)p(+2))
               - (p(21)-p(2+)p(+1)) + (p(22)-p(2+)p(+2))]/n
   = {[(p(+1)+p(+2)+p(1+)+p(2+)) - (p+1)-p(+2))^2 - (p(1+)-p(2+))^2
        -2(p(11)-p(12)-p(21)+p(22)) + 2(p(1+)-p(2+))(p(+1)-p(+2))]/n

相當複雜 . . . 單看 Var(p(+1)^ - p(+2)^),如果單一比例是 0.45, 其變異數是 0.2475/n;單一比例 0.35, 其變異數是 0.2275/n;則兩比例之差的變異數為 0.79/n,以 n = 1112 而言,標準誤 √(0.79/1112) = 0.0267, 即 2.67 個 %;信賴水準 95% 的誤差界限是 5.2 個 %;而兩比例差之差,如果忽略兩比例差之相關性,其標準誤是 3.77 個 %,取信賴區間其誤差界限是 7.4 個 %。兩比例差之共變異數是

[(p(11)-p(12)-p(21)+p(22)) - (p(1+)-p(2+))(p(+1)-p(+2))]/n

分子第一項在此調查應是正的,多少則未知。第二項如果以兩選項差兩邊皆是 10% 來算是 0.01;以世新報告而論一為 13.79% 一為 4.96%,則得 0.0068。整體而言可猜測一如 p(11)-p(1+)p(+1) 一般,兩邊比例差也有正相關,但能減免兩比例差之差的抽樣誤差則不得而知,但單一比例差之標準誤達 2.67%,比之單一比例的 1.43-1.5% 高了 70%,雖然擴大了差異,卻也擴大了誤差,就統計效率而言並不可取。

若藍白合,究竟要「柯侯」或是「侯柯」,其實更有意義的是:有哪一組的組合可以勝選?依世新民調發表的數據,侯柯配對賴蕭配是 40.82% 對 35.86%,差距 4.96 個 %,以不加權簡單隨機抽樣計算,

Var[p1^ - p2^]
   = [(0.4082)(0.5918) + (0.3586)(0.6414) + 2(0.4082)(0.3686)]/1112
   = 0.0262^2

即標準誤 2.62%,差距 4.96% 得 z 值 1.89,也就是說如果現在以侯柯配出來競選,如果這調查結果確能代表選民意志,現在投票的話侯柯配雖看似勝算大,但卻,不一定真能勝選,因為民調結果可能是抽樣誤差才呈現侯柯勝賴蕭的結果。另一邊,柯侯配對賴蕭配 46.01% 對 32.22%,計算得差距 13.79 個 %,而其標準誤四捨五入後也是 2.62%,所以 z 值是 5.26,可以說顯著性沒問題,此差距明顯不是抽樣誤差所能解釋。不過,現在勝不代表投票時也勝選,畢竟時日還長,競選活動能導致什麼改變還很難說,只能說目前柯侯配的支持度是明顯比較高的。

 

(民112.11.29)

關於同調查兩問項兩二元比例差之統計誤差設算:以邊際比例0.46和0.41為準,假設不同之同時支持比例 (0.2~0.35)。從試算結果可知:若同時支持的比例夠高(相對於邊際比例),比例差之統計誤差更可能小於單一比例之誤差。當然,下列試算沒考慮負相關的情況,也就是說支持其一就傾向不支持另一的情況,例如若同時支持兩組的比例低於 0.1,則兩比例差之統計誤差需要 0.05 或更高,但就本文談的兩問項,可能出現那樣的結果嗎?

               
0.2 0.26 0.46 0.498397 比例1及其(標準誤*√n)  
0.21 0.33 0.54          
0.41 0.59 1          
0.491833     0.0114        
比例2及其(標準誤*√n) 0.046506 0.041428 兩比例差之誤差界限, 以單一比例0.03計
      兩比例之相關係數      
0.25 0.21 0.46 0.498397        
0.16 0.38 0.54          
0.41 0.59 1          
0.491833     0.0614        
      0.250481 0.036731      
               
0.3 0.16 0.46 0.498397        
0.11 0.43 0.54          
0.41 0.59 1          
0.491833     0.1114        
      0.454456 0.031337      
               
0.35 0.11 0.46 0.498397        
0.06 0.48 0.54          
0.41 0.59 1          
0.491833     0.1614        
      0.65843 0.024796      
arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()