Bootstrapping 或 Bootstrap 在不同領域有不同意義,統計上它就是從當前樣本再做抽樣以進行統計推論的方法,中譯名稱是自助重抽法、自助抽樣法、自助法或拔靴法。
基本的方法是:自當前樣本 X1, X2, ..., Xn 以抽出後放回的方式抽取大小為 n 的簡單隨機樣本,稱為一個 bootstrap sample. 這樣的過程將重複 B 次。這是「重抽法 ( resampling )」的一種而非全部,如 Jackknifing ( 摺刀法 ), permutation test ( 排列檢定,或譯置換檢定 ), cross-validation ( 交叉驗證 ), subsampling ( 二次抽樣,或子樣本抽樣 ) 都被歸為重抽法。Bootstrpping 與其他重抽法有三點不同:
(1) 重抽之樣本大小與原樣本大小相同;
(2) 採抽出後放回的隨機抽樣;
(3) 可自與樣本有些差異的群體抽樣。
如交叉驗證和二次抽樣通常都是自原樣本抽出一個較小的子集,摺刀法和排列檢定原意不是重新隨機再抽樣,如摺刀法可能考慮原樣本少 k 個觀測值的所有可能樣本變化,排列檢定於兩樣本之例是考慮兩樣本混合後再重新分開的所有可能排列,只是這些可能變化數太大時用其(所有這些變化的)隨機樣本取代。而 bootstrapping 是在模仿原樣本,藉以了解原樣本統計量的可能變異,因此每一 bootstrap sample 大小都仍是 n,這樣一來就不能不採抽出後放回的隨機抽樣方式。而前面所舉的方法除 bootstrapping 以外,都是自原樣本取子樣本或做排列變化;bootstrapping 則除了從原始樣本抽樣以外,還可能對這個 bootstrap 群體做些調整,例如允許每個觀測值加上一些誤差的 smooth bootstrapping ( 相當於對核密度抽樣 );也可以自原樣本所配適出來的群體分布抽樣,是為 parametric bootstrapping。
於點估計,自助重抽法用於建立點估計量的抽樣分布,藉以了解點估計量的偏誤、誤差及分布特性。於檢定問題,B 個自助重抽樣本有多少比例和原樣本之檢定統計量相等或更偏向對立假說,就是 p 值的 bootstrapping 估計。不過,自助重抽法可以做得精細些:如果可能,假設 θ = θ0, 由原始變量建立一個分布和參數無關或近乎無關的新變量,即:將 Xi 變成 Zi, i = 1, ..., n. 對諸 Zi 這堆資料抽取自助樣本 Zj*,再轉回 Xj*, 而後計算自助樣本的檢定統計量,以之估計檢定統計量的虛無分布。如果在由 Zj* 轉成 Xj* 的過程,θ 代入對立假說的某個 θ1,就可估計此檢定程序在 θ1 的檢定力。
於區間估計問題,自助重抽法可能:
(1) 直接用 B 個自助樣本之分布的 α/2 和 1-α/2 分位數做區間端點;
(2) 「點估計量±容許誤差」的想法, 用 t 分布決定容許誤差大小:
P[ T - t*.se(T) ≦ θ ≦ T + t*.se(T) ] ≒ 1-α
(3) 反轉分位數區間法: 假設估計誤差 T-θ 的分布 p 分位數是 q(p)-θ, 因此
P[ q(α/2)-θ ≦ T-θ ≦ q(1-α/2)-θ ] = 1-α,
兩端的未知 θ 用點估計量代, 然後解 θ, 得
P[ 2T-q(1-α/2) ≦ θ ≦ 2T-q(α/2) ] ≒ 1-α
(4) 其他:例如校正偏誤而後建構信賴區間。
如果原樣本是複雜的抽樣設計而不是簡單隨機樣本,一般的統計分析幾乎都可能是錯的,例如最簡單的分層樣本,全群體比例 P = ΣWhPh, Wh 為第 h 層權量。採最簡單的比例配置樣本,
全樣本比例 Y = ΣWhYh, Var(Y) = ΣWhPh(1-Ph)/n < P(1-P)/n
結果統計量的誤差被高估,信賴區間被無謂地放大,型Ⅰ誤機率低於顯著水準,檢定力也因而降低。另一方面,有些抽樣設計其抽樣誤差高於簡單隨機抽樣,甚至各觀測值並非相互獨立而且存在內部相關,把它當簡單隨機樣本分析,或者模型基本就錯誤,或者低估了抽樣誤差,結果所謂信賴水準、顯著水準等可能只是一名目值,型Ⅰ誤機率高於顯著水準,覆蓋機率低於信賴水準,檢定力也沒有參考價值。但正確方法公式卻很難推得,就一個簡單列聯表卡方檢定就難住了。但自助重抽法倒是可以進行,只是必須按樣本結構來。例如很多家戶調查都是採分層分段抽樣,如台灣地區過去的勞動力調查現在的人力運用調查,家庭收支調查,一些社會學研究進行的大範圍調查,多採取分層分段抽樣。像這類資料,自助重抽法也應分層分段取得自助樣本。
自助重抽之樣本數 B, 一般可能取 B = 500 或 1000 個自助樣本。隨著計算能力的進步,有學者建議儘可能多取樣本。以 0.05 顯著水準為例,如果要用自助法於檢定問題,B = 1000 導致在理論臨界點所在自助樣本得到的 p 尾部估計機率可能是 0.036 至 0.064 或更寬範圍,因此增加自助樣本數似乎是必要的。但也有學者認為增加自助樣本數對於提高原資料的情報量沒有幫助,有學者甚至包括方法的創始者認為 B 在 100 以上增多樣本數對標準誤估計的改進可以忽略,甚至 B = 50 估計的統計量的標準誤就不錯了。
其實重抽法的使用要小心!重抽法的「群體」是原來的樣本而不是真正的群體,只是基於機率原理、大數法則,我們認為原來的樣本可以代表群體。所以從這個「代群體」抽樣,我們當作是從群體抽樣,自助樣本統計量的分布被當成統計量的抽樣分布。然而,如果原來的樣本不足以代表群體呢?代表性不足呢?我們曾說過(統計推論之基礎:大數法則),只有樣本數足夠大,樣本才能在各方面代表群體。所以,如果 n 不夠大,自助重抽其實只能推論到原樣本,即使再多的自助樣本也不能越過原樣本推論到群體。但另一方面,自助樣本數太少也不可取,如果連據以抽樣的樣本都代表不了,又談何代表背後的群體?所以個人意見:在計算能力強大而計算工具取得方便的今日,適度提高自助樣本數 B 還是需要的;但也只有原樣本大小 n 足夠大,自助重抽法才有意義。以此看來,複雜抽樣設計下要使用自助重抽法進行統計推論,在最後一段樣本太小還是有問題的。