所謂「抽樣調查」, 指的是以隨機抽樣程序從符合研究目
的之特定群體 (抽樣群體) 抽取樣本。為簡單計, 這裡專
指簡單隨機樣本, 並假設:
(1) 群體相對於樣本很大, 例如 50 倍以上。因此可以當
    做無限群體看待, 而不需區分抽樣是採抽出後放還法
    (with replacement),或採抽出後不放還法 (without
    replacement)。
(2) 假設抽樣群體和目標群體一致。雖然實務上很難完全
    一致; 但一個嚴謹的調查計畫通常會儘力找到相當一
    致的抽樣群體。

所謂「(問卷)回收率」或「(問項)回覆率」, 指原抽選樣
本個案中, 有填寫可用資料, 且對所論問項有給出回答的
個案所佔比例。有替代樣本的抽樣調查, 其替代樣本係事
先與正選樣本同時抽出, 並在當時即訂定嚴格的替代程序。
在此情況下, 回收率是以正選樣本數加上考慮過的替代樣
本數 (不論是否有去訪, 是否有完訪) 為分母計算的。

一般對調查資料之分析, 是以所獲得樣本結果直接當做群
體的代表。這其實隱涵一個假設:
  樣本個案是否接受調查, 以及是否回答所論問項, 與
  個案本身的特質是無關的。
以統計上的術語來說, 就是假設「完全隨機遺失(missing
completely at random)」。 有許多關於「遺失資料」的
統計校正方法, 則是假設
  樣本個案是否回答所論問項, 在控制某些基本特性之
  後, 與個案的其他特質 (尤其是反應本身) 是無關的。
統計上的術語稱這種資料遺失是「隨機遺失」。然而, 事
實上, 我們常缺乏足夠的知識來証實遺失是隨機的; 相反
地, 許多情況遺失是不可忽略的 (non-ignorable)。


若所論問項的回應屬計量資料, 假設問項回覆率 (回覆者
佔全抽選樣本比例) 是 r。假設回覆者回覆的平均值是 m1,
標準差 s1; 未回覆者若回覆, 其平均值是 m0, 標準差 s0。
因此, 若回覆率 100%, 則樣本平均值
    m = r*m1+(1-r)*m0
樣本變異數 (假設樣本數夠大, 不需計較計算樣本變異數
時分母是 n 或 n-1 的問題)
    s^2 = r*s1^2+(1-r)*s0^2 + r(1-r)(m1-m0)^2

假設回覆樣本有完全的代表性, 即完全隨機遺失 (MCAR),
則以 m1 估計群體平均, 其標準誤以 s1/sqrt{nr} 估計之,
其中 n 是抽出樣本大小, 而 nr 即是實際回覆所論問項之
樣本大小。然而, 如前述, 假設 MCAR 並無充分証據; 因
此事實上以 m1 估計群體平均(=E[m]) 有偏誤。在隨機抽
樣的假設下 m 是不偏的 (但不可觀測), 故 m1 的偏誤可
表現為
       bias ~ m1-m = (1-r)(m1-m0)
和回覆/未回覆差異 (m1-m0) 及未回覆率 (1-r) 都成正比。

這樣講可能難以明白....只看到一堆符號....讓我們以數
字來表現其差距。

假設回覆率 r=90%, 回覆者的平均反應是未回覆者的 85%,
即 m1=0.85*m0, 則偏誤大約是
   (1-0.90)*(0.85*m0-m0)= -0.015 m0
而不偏樣本結果應是
   0.90*(0.85*m0) + 0.10*m0 = 0.865 m0
因此相對偏誤為 1.7% (=0.015/0.865)。

若回覆率沒那麼高, 例如 r=70%。不同回覆率我們不一定
能假設回覆/不回覆的相對或絕對差距維持一樣。先假設
m1=0.85*m0, 故
   偏誤~(1-0.70)*(0.85*m0-m0)= -0.045 m0
而不偏樣本平均應是
    0.70*0.85m0 + 0.30*m0 = 0.895 m0
相對偏誤為 5.0%。

在回覆者反應偏低的情況, 即反應值高者不回覆機會較大。
高回覆率通常代表調查執行者努力爭取回覆。若反應值較
低的回覆率已高, 而反應值高者回覆率較低, 那麼, 可能
調查者的努力會縮減 m1 與 m0 間的差距。相對地,在90%
回覆率兩者相對差 15%(=1-0.85), 表示回覆率 70% 時兩
者之間的差異可能不只 15%。例如假設 m1=0.80*m0, 則
   偏誤~(1-0.70)*(0.80m0-m0) = -0.06m0
   不偏樣本平均 = 0.70*0.80m0+0.30*m0 = 0.86m0
故偏誤率為 7.0%。

若回覆率甚至只有 r=50%。則在 m1=0.85*m0 的假設下
    偏誤~(1-0.5)*(0.85*m0-m0)= -0.075m0
    不偏樣本平均 = 0.50*0.85m0+0.50*m0 = 0.925m0
    偏誤率 = 8.1%
但若假設 m1 與 m0 差距同時因回覆率低而擴大, 如假設
m1=0.75*m0 時:
    偏誤~(1-0.5)*(0.75*m0-m0)= -0.125m0
    不偏樣本平均 = 0.50*0.75m0+0.50*m0 = 0.875m0
    偏誤率 = 14.3%。

若反過來, 回覆者的反應值高於未回覆者, 其偏誤情形,
除方向相反 (變成高估) 之外, 基本型態是類同的。

一個回覆不足的調查, 即使是隨機樣本, 能有多少可信度?


我們可以從 "區間估計"(信賴區間) 的觀點來看回覆率對
調查結果的可信程度。雖然可以一般式來表示, 但那樣不
容易理解; 因此我們只用數字例來觀察, 雖然這樣的觀察
只是片面的、局部的, 但較易理解。

假設 n=1000, 回覆率 r=90%, 回覆者的平均反應是 m1,
而標準差 s1; 未回覆者平均反應 m0 最低可能 0.90*m1,
最高可能 1.20*m1, 而標準差是 1.1*s1 (比回覆者高,意
謂我們假設未回覆者反應較分歧)。那麼, 假設我們要95%
信賴水準的信賴區間, 用常態近似。

若未回覆者 m0=0.90*m1, s0=1.20*s1。則
  不偏樣本平均 m = 0.90*m1+0.10*(0.90*m1)=0.99m1 (太好了! m1 幾乎不偏)
  全樣本變異數 s^2 = 0.90*s1^2+0.10*(1.10*s1)^2
                        +0.90*0.10*(m1-0.90*m1)^2
                   = 1.021*s1^2+0.0009*m1^2
為了得到更明確的結果, 再加個假設: 回覆樣本之變異係
數 (CV, 即 coefficient of variation) 假設為 1(這是
群體變異係數的粗估值; 而群體變異係數依群體特性或所
論問項特性而定, 可能小於 1, 也可能遠大於 1)。則
   s1=m1,  s^2 = 1.0219*s1^2 = 1.0219*m1^2
故全樣本標準差是 s=1.0109*s1 = 1.0109*m1。故群體平
均數之95%水準的信賴區間界限為
   0.99m1 ±1.96*1.0109m1/sqrt{1000}
        = 0.99m1 ±0.063 m1
即 (0.927m1,1.053m1)。

若 m0=1.20*m1, s0 如前, 則
  不偏樣本平均 m = 0.90*m1+0.10*(1.20*m1)=1.02m1 (看起來不錯!)
  全樣本變異數 s^2 = 0.90*s1^2+0.10*(1.10*s1)^2
                        +0.90*0.10*(m1-1.20*m1)^2
                   = 1.021*s1^2+0.0036*m1^2
                   = 1.0246 s1^2 或 1.0246 m1^2
  全樣本標準差是 s=1.0122s1 或 1.0122m1。依此計算則
群體平均數之95%水準信賴區間界限是
   1.02m1 ±1.96*1.0122m1/sqrt{1000}
        = 1.02m1 ±0.063 m1
即 (0.957m1,1.083m1)。

因此, 依回覆率 r=90% 的結果推測, 在前述設定下, 若回
覆率 100%, 可得到群體平均數之95%水準信賴區間
  從 (0.927m1,1.053m1) 到 (0.957m1,1.083m1)。


若回覆率只有 70% 呢? 仍假設 s1=m1, s0=1.1*s1, m0 可
能範圍是 0.90*m1~1.20*m1。

當 m0=0.90*m1 時,
  不偏樣本平均 m = 0.70*m1+0.30*(0.90*m1)=0.97m1 (喔! 還好, 不算太差!)
  全樣本變異數 s^2 = 0.70*s1^2+0.30*(1.10*s1)^2
                        +0.70*0.30*(m1-0.90*m1)^2
                   = 1.063*s1^2+0.0021*m1^2
                   = 1.0651 s1^2 或 1.0651 m1^2
當 m0=1.20*m1 時,
  不偏樣本平均 m = 0.70*m1+0.30*(1.20*m1)=1.06m1 (喔! 哦...不是很好!)
  全樣本變異數 s^2 = 0.70*s1^2+0.30*(1.10*s1)^2
                        +0.70*0.30*(m1-1.20*m1)^2
                   = 1.063*s1^2+0.0084*m1^2
                   = 1.0714 s1^2 或 1.0714 m1^2
於是, 推測在回覆率100%時95%水準信賴區間
  低估計: 0.97m1 ±1.96*sqrt{1.0651/1000}*m1
           = (0.97 ±0.0640)m1 = (0.906m1,1.034m1)
  高估計: 1.06m1 ±1.96*sqrt{1.0714/1000}*m1
           = (1.06 ±0.0642)m1 = (0.996m1,1.124m1)
因此, 事實上由這樣的樣本來推論群體, 95% 水準的信賴
區間應該是 0.906m1~1.124m1。若因回收率只有70%, 回
覆者與未回覆者的差距不只如這裡假設的, 其真實信賴區
間範圍更大!


假設回覆率只有50%呢? 同樣假設 s1=m1, s0=1.1*s1, m0
可能範圍是 0.90*m1~1.20*m1。

當 m0=0.90*m1 時,
  不偏樣本平均 m = 0.50*m1+0.50*(0.90*m1)=0.95m1 (嗯! 不是很好, 馬馬虎虎啦!)
  全樣本變異數 s^2 = 0.50*s1^2+0.50*(1.10*s1)^2
                        +0.50*0.50*(m1-0.90*m1)^2
                   = 1.105*s1^2+0.0025*m1^2
                   = 1.1075 s1^2 或 1.1075 m1^2
當 m0=1.20*m1 時,
  不偏樣本平均 m = 0.50*m1+0.50*(1.20*m1)=1.10m1 (...)
  全樣本變異數 s^2 = 0.50*s1^2+0.50*(1.10*s1)^2
                        +0.50*0.50*(m1-1.20*m1)^2
                   = 1.105*s1^2+0.010*m1^2
                   = 1.115 s1^2 或 1.115 m1^2
於是, 推測在回覆率100%時95%水準信賴區間
  低估計: 0.95m1 ±1.96*sqrt{1.1075/1000}*m1
           = (0.95 ±0.0652)m1 = (0.885m1,1.015m1)
  高估計: 1.10m1 ±1.96*sqrt{1.115/1000}*m1
           = (1.10 ±0.0654)m1 = (1.035m1,1.165m1)
因此, 這樣的樣本在 95%信賴水準要求下, 我們只能推論
群體平均數在 0.885m1 至 1.165m1 之間。

實際上, 如前文, 在回覆率這麼低的情況, 相對於高回覆
率, 我們有理由推測回覆者與未回覆者的反應差異要更大
些。假設 m0 在 m1 的 0.8~1.5倍之間, 並且s0=1.2*s1。
仍假設 n=1000, s1=m1。

在 m0=0.8*m1 時,
  不偏樣本平均 m = 0.50*m1+0.50*(.80*m1)=.90m1
  全樣本變異數 s^2 = 0.50*s1^2+0.50*(1.20*s1)^2
                        +0.50*0.50*(m1-.80*m1)^2
                   = 1.22*s1^2+0.01*m1^2
                   = 1.23 s1^2 或 1.23 m1^2
在 m0=1.5*m1 時,
  不偏樣本平均 m = 0.50*m1+0.50*(1.50*m1)=1.25m1
  全樣本變異數 s^2 = 0.50*s1^2+0.50*(1.20*s1)^2
                        +0.50*0.50*(m1-1.50*m1)^2
                   = 1.22*s1^2+0.0625*m1^2
                   = 1.282 s1^2 或 1.282 m1^2
信賴區間之推估:
  低估計: 0.90m1 ±1.96*sqrt{1.23/1000}*m1
           = (0.90 ±0.0687)m1 = (0.831m1,0.969m1)
  高估計: 1.25m1 ±1.96*sqrt{1.282/1000}*m1
           = (1.25 ±0.0702)m1 = (1.180m1,1.320m1)
單純以50%回覆樣本計算的信賴區間是
    m1 ±1.96*s1/sqrt{.5*1000} = m1 ±.0877 s1
        = (.912m1, 1.088m1)
但除非 MCAR 假設成立, 否則它能涵蓋真實群體平均數的
機率將遠低於要求的信賴水準; 而能保証 95% 信賴水準的,
如果上述對未回覆者的假設不太離譜, 信賴區間應取
(0.831m1, 1.310m1), 區間寬度遠大於不完整的、很可能
有偏的樣本結果。而這樣的信賴區間, 實在是太寬了!


以計量資料來觀察回覆率的影響太複雜, 有許多參數需要
假設。如前面的例子, 我們需考慮兩組 (回覆 與 未回覆)
平均數的關係、標準差的關係, 以及標準差與平均數的關
係。若考慮屬質或二元變數, 即問項的反應只考慮(是/否),
問題就簡單很多。而且這樣的資料, 也是調查中常見的,
例如民意調查中的支持與否, 流行病學調查的有病與否,
臨床實驗的治療有效與否等等。對二元變數, 通常把我們
想探討的一類以 "1" 表示, 另一類就以 "0" 表示。例如
對疾病之危險因子的研究, "1" 代表有該疾病, "0" 代表
沒有。臨床研究治療成效, "1" 代表治癒或好轉, "0" 代
表未治癒或未好轉。當然實際上兩類何者視為 "1", 何者
視為 "0", 並不是很重要, 只是研究者敘述的方便, 或給
讀者或聽者的感覺比較自然。

假設 n=1000, 回覆率 90%。令 p1 代表回覆者反應 "1"
的樣本比例, p0 為未回覆者若回覆其反應 "1" 的機率。
如果100%回覆, 在上列設定下全樣本反應 "1" 的比例是:
     p = 0.9*p1 + 0.1*p0 = p1 + 0.1*(p0-p1)
以 p1 估計與以 p 估計比較, 偏誤為 (假設全樣本不偏)
     bias = p1 - p = 0.1*(p1-p0)
一般, 回覆率是 r 時,
     p = p1 + (1-r)*(p0-p1)
而以回覆者實際反應 "1" 比例 p1 估計的偏誤是
     bias = p1 - p = (1-r)*(p1-p0)
回覆率達 90% 這樣高標準時, p1 與 p0 即使有 20 百分
點的差距, 對總估計的影響也只有 2 個百分點。 但同樣
假設回覆者與未回覆者反應 "1" 比例差距 20 個百分點,
當回覆率 70% 時, 偏誤達 6 個百分點, 這樣的偏誤已不
算小! 而若回覆率僅 50% 時, 偏誤可達 10 個百分點!

假設某問項 p1=.70 而 p0 在 .50 至 .80 之間, 則全樣
本比例 p = p1 + (1-r)*(p0-p1), 當回覆率 r=90% 時,
其值在 .68 至 .71 之間。當 n=1000 時, 計算群體比
例π的 95% 近似信賴區間得
   (.68-1.96*sqrt{.68*.32/1000},
         .71+1.96*sqrt{.71*.29/1000})
     = (.68-.0289, .71+.0281) = (.651, .738)
假設回覆率由 90% 降為70%, 但反應差幅維持不變, 則全
樣本比例 p 在 .64 到 .73 之間。故 95% 信賴水準之信
賴區間為
   (.64-.0298, .73+.0285) = (.610, .758)
若回覆率只有 50%, 同樣的反應差幅, 則全樣本比例 .60
到 .75。故, 95% 水準之信賴區間為
   (.60-.0304, .75+.0268) = (.570, .777)
這樣的區間是否可接受?(注意這個區間的寬度並不能以提
高樣本數做有效縮減!)未回覆者與回覆者的反應差距可能
比這裡假設的大或小?(我們無法獲得未回覆者的可能回應,
能保証回覆者與未回覆者之間的反應差距夠小嗎?)


對於流行病學調查來說, 有些問項可能是低比例反應 "1"
的, 也就是說: 群體中反應 "1" 的比例π很小。

如果反應 "1" 和 "0" 的回覆率有很大差異, 則低回覆率
暗示調查結果將會有很大的相對偏誤。

假設π=0.1(還不算太小), 則n=1000時,有大約95%的機會
樣本比例 p 介於 .081 到 .119 之間 (樣本中反應 "1"
的人數 81人至 119人之間), 與真實比例 0.1 相差約 2
個百分點, 相對誤差約 20%。

假設 p=0.1, 也就是 1000名樣本個案中反應為 "1" 的人
數是 100人。當然實際上我們並沒看到這個結果, 因為回
覆率不是 100%。設反應 "1" 與 "0" 的回覆率分別是 r1
與 r0。當總回覆率大約 90% 時,
    0.1*r1 + 0.9*r0 = 0.9
若 r1=100%, 則 r0=89%; 若 r1=0%, 則 r0 必須是100%。
當 r1=100% 時, 回覆者反應 "1" 的比例是
    p1 = 0.1*1/(0.1*1+0.9*.89) = 0.1/.901 = .111
當 r1=0% 時, 回覆者反應 "1" 的比例是 p1=0。

實務上大概不會如此極端。那麼, 何種假設比較能切合實
際情形? 我們大概可以同意: 在大多數情況, 多少有些回
覆是容易的; 但要達到極高的回覆率卻很難。我們假設在
任一子群 95% 的回覆率算是高限。則
  r0=95% 時 r1=45%, 總回覆率 r=90%,
    回覆者反應 "1" 之比例 p1 = .1*.45/.90=.050
  r1=95% 時 r0=89.4%, 總回覆率 r 接近 90%
    回覆者反應 "1" 之比例 p1 = .1*.95/.90=.106
這意謂在回覆率很高而所論反應是稀有反應時, 回覆樣本
之統計結果易低估但不易高估。

在總回覆率 r 大約 70% 的情況, r1 與 r0 的範圍是:
  r1 最低 0%, r0 最高 77.8%, 此時 p1=0
  r1 最高 100%, r0 最低 66.7%, 此時 p1=.143
  r1=95% 時 r0=66.1%, 此時 p1=.136
  r1=90% 時 r0=67.8%, 此時 p1=.129
回覆樣本之統計結果比高回覆率時更容易低估真實比例;
而且存在嚴重高估 (.136 vs. .1 或 .129 vs. .1) 的可
能性。

若總回覆率 r 大約 50%, 則
  r1 最低 0%, r0 最高 55.6%, 得 p1=0
  r1 最高100%, r0 最低 44.4%, 得 p1=.200
  r1=95% 時 r0=45%, 此時 p1=.190
  r1=90% 時 r0=45.6%, 此時 p1=.180
  r1=80% 時 r0=46.7%, 此時 p1=.160
這些結果蘊涵的意義是: 低回覆率的情況, 僅根據回覆者
的反應情況做推論, 有極高風險其結果幾乎可說完全乖離
事實!

回頭來看中等水準的π值, 假設π=0.4。則 n=1000 得到
的 p 有大約 95% 的機會介於 0.370 和 0.430 之間。我
們仍假設 p 等於中心值 0.4。則: r=.4*r1+.6*r0,
總回覆率 90% 時,
  r1 最低 75%, r0 最高 100%, p1=.4*.75/.9=.333
  r1 最高 100%, r0 最低 83.3%, p1=.4/.9=.444
  r0=95% 時 r1=82.5%, 此時 p1=.33/.9 = .367
  r1=95% 時 r0=86.7%, 得 p1=.38/.9=.422
此時根據回覆樣本的反應做推論, 偏誤大概可被容忍。若
總回覆率是 70%, 則
  r1 最低 25%, r0 最高 100%, p1=.4*.25/.7=.143
  r1 最高 100%, r0 最低 50%, p1=.4/.7=.571
  r0=95% 時 r1=32.5%, 此時 p1=.13/.7 = .186
  r1=95% 時 r0=53.3%, 得 p1=.38/.7=.543
  r0=90% 時 r1=40%, p1=.16/.7=.229
  r1=90% 時 r0=56.7%, p1=.36/.7=.514
即使限定兩種反應回覆率各不超過 90%, 回覆樣本與全樣
本之反應 "1" 的比例仍有極大的差距! 由此可以推知:若
總回覆率降至 50%, 回覆樣本很容易就會發生高偏誤! 而
這種高偏誤, 與前文直接假設回覆者與未回覆者之間的反
應差距設定相比, 前文的假設顯然過於保守而致低估偏誤!

花了很多時間寫這一個主題, 應該給一個結束了。

統計人員很強調取得的樣本是否具代表性。立意選樣固然
不被排斥, 但極少見到統計學者討論。蓋因既非隨機樣本,
其樣本代表性缺乏理論論証基礎。至於非嚴謹立意或判斷
的主觀樣本, 或隨意找人湊數而已的便利樣本, 學習統計
的人大概沒有人可能接受!

然而即使在抽樣時做得很好, 是完全符合代表性要求的隨
機樣本; 若在執行調查階段不做好嚴格控管, 結果仍可能
一塌糊塗, 完全不可信。

統計分析上有所謂 Simpson's paradox; 此詭論在研究方
法論上可能給予不同稱呼, 例如有一本書:"調查分析的邏
輯" (徐正光/黃正二譯, Rosenberg 原著, 黎明, 民81),
稱此現象為存在 "曲解變項"。一個實例如下:

(取自 Agresti, A. 1996,
       An Introduction to Categorical Data Analysis,
                                 pp.54-57. Wiley.)
美國 Florida 1976-1987 凶殺案判決資料
                        死 刑 判 決
  被害者   被  告      是         否     死刑率(%)
   白人     白人       53        414       11.3
            黑人       11         37       22.9
   黑人     白人        0         16        0.0
            黑人        4        130        2.8
   合計     白人       53        430       11.0
            黑人       15        176        7.9

不考慮被害者身分, 白人被告死刑率 11.0%, 高於黑人被
告的 7.9%。然而, 若控制被害者身分 (膚色), 不論被害
者是白人或黑人, 白人被告死刑率都低於黑人被告!

真象是甚麼? 很多現象都是錯縱複雜, 撲溯迷離的。從以
上資料來看, 我們當然不會認為不分被害者而只看總比例
是適當的。但控制被害者膚色所顯示的白人被告死刑率低
於黑人被告, 是否就是真象? 或者, 還有其他的檢定因子
(控制變數) 需要檢查? 其他的重要因素都可觀察嗎?

將控制變數的觀念拿來用在抽樣調查的結果。如果我們能
完全掌握影響所論反應變數的因素, 也就是可觀測且已觀
測的變數幾乎可完全預測反應, 那麼即使回覆率有不均等
情形, 即使回覆率不是高達 90% 以上, 仍可做適當分析,
甚至藉由其他資料調整樣本權重而推估群體平均反應。但
事實上, 或者反應直接影響回覆率, 或者有不可觀測或未
被發現的因素同時影響回覆率及反應分布, 因而回覆與不
回覆樣本事實上有不同反應。並且, 尤其人的態度行為等
反應變數, 通常無法被已知可測量因素充分解釋, 也就是
有很大部分的反應差異應是來自未被發現或觀測的隱藏變
數。在上列死刑判決資料, 若沒有被害者身分資料, 我們
未能得知事實上被害者膚色 (種族) 與被告膚色 (種族)
間極強的關聯, 也無從得知按被害者種族分的死刑率有很
大的差距。這兩種關聯就是造成只看被告與死刑判決的邊
際關聯, 和控制版害者種族後的條件關聯方向完全相反的
原因。但沒有被害者種族這變數的資料, 我們並不知道這
些!

抽樣調查回覆率對結果的影響就像我們欠缺重要控制變數
資料因而無法正確評估。如果我們對所研究的現象已經瞭
如指掌, 則無所謂; 但就因為有許多未知的, 所以需要做
調查。 因此, 除了嚴格要求高問卷回收/問項回覆率, 我
們還有甚麼辦法保証調查結果的可信度?

 

[意見] 學校中的調查

今時學生權利意識高漲, 學校各種措施理應考量學生意見.
即使不談高漲的學生權利意識, 而假裝 "高尚" 些的說詞,
"尊重學生", "照顧學生需求", 也不得不考慮學生的意見.

因此, 學校應該常做學生的意見調查. 例如學校內餐廳辦
得如何? 學生對選課的意見? 學生對宿舍設施及管理的看
法等. 不管學生意見, 而只是少數人 "想當然" 地悶頭去
做, 吃力不討好, 也無法讓多數學生服氣.

這不只學校的行政如此, 學生自己的組織如學生會等, 也
同樣適用.

或許, 學校或學生組織行政部門會說: 我們有做意見調查!

然而, 即使有做問卷調查, 是怎麼做的?

最佳情況是真正弄了大量問卷儘量散發, 或每班發幾份問
卷. 現在流行的是利用調查網頁.

後者是自願性回覆樣本, 其道理及缺失先前已討論過, 不
再贅言. 而全面發問卷或每班配額的問卷調查可行嗎?

配額樣本的想法, 是缺乏群體名冊, 又沒有足夠資源可從
事好的抽樣設計, 而採用將群體分層, 希望各層內成員很
相近, 任一成員都可代表該層. 然而實際上是否層內變異
足夠小? 這是配額樣本是否具有合理的代表性的關鍵. 就
學校學生來說, 以科系或班級為層做配額, 層內差異真的
夠小嗎? 這恐怕很有爭議性.

再來看全面發問卷, 即普查的方式. 且不談學校內不論學
校行政單位或學生組織做問卷調查時沒有適當控管品質,
回答者可能亂填; 更常見的是低答覆率! 很多時候, 完成
率甚至遠低於一半.

不論任何調查, 普查或抽樣調查, 低完成率的調查結果總
是不可信的. 這正如自願回覆式樣本, 調查者所關心的反
應, 事實上左右了正確回答機率.
    若具 A 特性者回覆率 80%;
    不具 A 特性者回覆率 40%.
設應回答者 (普查=群體, 抽查=樣本) 有 p 比例具 A 特
性. 則
   p=90% 時, 完成率 = 80%*0.9+40%*0.1 = 76%
             回覆者具 A 特性比例 = 94.7%
   p=80% 時, 完成率 = 80%*0.8+40%*0.2 = 72%
             回覆者具 A 特性比例 = 88.9%
   p=70% 時, 完成率 = 80%*0.7+40%*0.3 = 68%
             回覆者具 A 特性比例 = 82.4%
以此類推,
    理論樣本具               實際樣本具    絕對
    A 特性比例    完成率     A 特性比例    偏誤
    ==========    ======     ==========   ======
        0.9        0.76         0.947      0.047
        0.8        0.72         0.889      0.089
        0.7        0.68         0.824      0.124
        0.6        0.64         0.750      0.150
        0.5        0.60         0.667      0.167
        0.4        0.56         0.571      0.171
        0.3        0.52         0.462      0.162
        0.2        0.48         0.333      0.133
        0.1        0.44         0.182      0.082

當然, 這只是假設的例子. 但我們不知道實際上具有所關
心之特性者與不具該特性者會回答問卷的比例差多少; 可
以知道的是: 低完成率使結果不可信! 換個方式來看: 假
設答覆者具 A 特性比例與未答覆者不具 A 特性比例相差
20個百分點 (例如 0.8 vs. 0.6 或 0.6 vs. 0.4). 則
  完成率 90% 時,
    實際樣本具A 特性比例與 100% 完成率時相差
        (1-90%)*0.20 = 0.02 (2個百分點)
  完成率 80% 時 差距 = 0.04
         70%           0.06
         60%           0.08
         50%           0.10
         40%           0.12

這是假設填覆問卷者與未填覆問卷者具A特性比例是常數;
實際上可能該項差距隨完成率成反向變動, 則低回覆率時
完訪樣本與100%完成樣本相比, 其差距比上列計算結果還
大.

然而, 低回收率固非普查(全面散發問卷)所特有, 卻幾乎
是採用此法之常態. 執行者總以為只要回收 "足夠多" 的
問卷就可以分析、可以做結論、具有代表性; 卻不知所謂
"代表性" 重點不是 "足夠多份回收問卷", 而是 "具代表
性的抽出樣本", 以及足夠高的完成率.

事實上, 要提高普查的完成率比較提高小而具代表性樣本
之完成率更困難. 例如一個不算很大的學校, 學生數5000
人. 若抽樣調查抽取 12%, 600人. 要對這 600 人催收問
卷, 顯然比催收5000人容易些. 而在一個學校中, 學生資
料有完整名冊檔案, 可說很容易執行隨機抽樣工作; 而透
過各班班代叮緊被抽出之樣本, 是對學生之問卷比對一般
人口調查更容易的理由之一.

與其做一個回收不足的普查, 不如抽取一個適度大小的隨
機樣本, 並力求提高樣本之回覆率.

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()