非參數化方法 (Non-parametric method),常譯「無母數方法」,與有母數方法或參數化方法 (parametric method) 相對。後者是假定群體分布是一個特定的分布,只是其中有有限個參數未知,因此統計推論只集中在那些未知參數;非參數化方法則對群體的分布假設比較寬鬆,不限制在某一特定分布。
有許多人在論及非參數化方法時會有些誤解,例如樣本太小不適用參數化方法,應採用非參數化方法。又如認為非參數化方法不需對群體做假設。但實際上非參數化方法最基本的是假設分布為連績續型,另外不同推論對群體有不同限定。而非參數化方法既然適用於更少限定的群體,也就是說統計人員對群體的已知訊息較少,其推論自然是較缺效率,如果對參數化方法猶嫌樣本太小,又如何更適用非參數化方法?許多非參數化檢定,最後甚至總引用中央極限定理以決定臨界值,更需要「樣本數夠大」。
對群體推論最基本的起點,大概就是群體分布的位置,所謂平均數、位置量數、集中趨勢。由於群體分布可能範圍太廣,我們甚至不能確定群體平均數理論上存在與否。當然,也可把群體限制在平均數存在,甚至限制在存在第二動差,那麼樣本平均數仍然是群體平均數的不偏估計;甚至在二階動差存在的情況,如果樣本數「夠大」,我們甚至可以引用中央極限定理而主張樣本平均數的 t 變量近似標準常態,或做群體平均數檢定時 t 統計量漸近服從常態分布。困難是:可能的群體分布,即使在其二階動差存在的限制之下,還是太廣了,所謂「樣本數夠大」的界線在哪裡?所以,非參數化方法幾乎都不對平均數做推論。集中趨勢以眾數為代表,只對單峰分布較有意義,也不常討論。在非參數化方法中,通常用以代表位置的,是中位數。
中位數或稱 0.5 分位數,可以唯一定義,也以用不等式
P[X ≦ Med] ≧ 1/2 ≦ P[X ≧ Med]
定義中位數(或類似定義其他分位數),如此定義的中位數可能在一個閉區間任意取值都可以。如果要對群體中位數做點估計,中位數的不唯一是個問題,這種情形的發生是因群體分布函數在中位數所在有一段平台,也就是說在那一段範圍的中間部分沒有機率,把定義唯一化的方式就是取該區間的左端點。
如果群體是離散型時,假設假定的中位數(虛無參數值)是 θ0,假說
H0: Med = θ0 against Ha: Med ≠ θ0
相當於要檢定:
H0: P[X ≧ θ0] ≧ 1/2 且 P[X ≦ θ0] ≧ 1/2
Ha: P[X ≧ θ0] < 1/2 或 P[X ≦ θ0] < 1/2
如果證實 P[X ≦ θ0] < 1/2,意謂 Med > θ0;如果證賓 P[X ≧ θ0] < 1/2,意謂 Med < θ0。這相當於要做兩個群體比例的單邊對立假說檢定。如果 X 的分布是連續型,則問題可以簡化:
H0: P[X ≦ θ0] = 1/2 against Ha: P[X ≦ θ0] ≠ 1/2
只須做一個群體比例 P[X ≦ θ0] 是否為 1/2 的雙邊對立假說檢定。這與中位數是否唯一定義無關,只問在 θ0 這一點 X 的累積機率是否恰好是 1/2。在連續型分布任一單點檮率都是 0,因此不會有問題;在離散或混合型,只在很湊巧的情況可以有一點 θ0 滿足累積機率是 1/2。
檢定統計量
T = #[Xi ≦ θ0]
是樣本中不大於 θ0 的資料 Xi 個數。在 H0 之下,T 服從二項分布 bin(n, 1/2);如果 n 不是很小,可用常態近似。這就是非參數化檢定的「符號檢定 (sign test)」。此檢定雖然對群體分布是離散型時也可做,但如前所言,需要做兩組檢定:
H0': P[X ≧ θ0] ≧ 1/2 against Ha': P[X ≧ θ0] < 1/2
H0": P[X ≦ θ0] ≧ 1/2 against Ha": P[X ≦ θ0] < 1/2
分別需要檢定統計量 T' = #[Xi ≧ θ0] 與 T" = #[Xi ≦ θ0]。
如果有成對觀測值 (Yi, Zi), i = 1, ..., n;想檢定「平均而言」或「綜合來看」觀測值 Zi 是否與 Yi 「沒什麼差別」,在參數化分析,我們會考慮檢定 E[Z] 是否與 E[Y] 相等,或前者較高,或後者較大。在非參數化方法,同樣可以就 Zi - Yi 之正負以符號檢定的方法看看是否觀測值變大變小沒有差別。但以 t 檢定的方法,分析 Zi - Yi 時不只看其正負,也看其差距大小;在非參數化方法,不看 Zi - Yi 的絕對大小,至少看其相對大小吧。在非參數化方法,之所以說不必管資料的分布長怎麼樣,就是因為資料都被「標準化」了,變成只看相對的順序,而不看絕對的數值大小。當然這時 Xi = Zi - Yi 的分布就要假設是連續型了,追根究底 (Y, Z) 必須是(聯合)連續型資料,因此理論上所有觀測值 Xi 都互不相等,於是其絕對值 |Xi| 可以完全排序,從最小值序號 1 至最大值序號 n,稱為等級或秩 (rank)。令
T = Σ_i sgn(Xi) Ri
其中 sgn(x) 表 x 的正負號函數(符號函數), 當 x > 0 時得值 1,x < 0 時得值 -1;而 Ri 是 Xi 之絕對值的序號,即:等級。於是,T 就像非參數化版本的樣本值總和 Σ_i Xi。統計量 T 是所有正觀測值對應的等級 Ri 的和,與所有負觀測值 Ri 之和的差,也就是說:
T = T^+ - T^-, T^+ = Σ_{i: Xi>0} Ri, T^- = Σ_{i: Xi<0} Ri
如果資料序的標號是其絕對值序位,即 Ri,也就是說 Ri = i,則
T^+ = Σ_{i: Xi > 0} Ri = Σ_i I{Xi>0] Ri = Σ_i I[Xi>0] (Σ_{j: j<i} 1 + 1)
= ΣΣ_{j≦i} I[(Xi+Xj)/2 > 0]
式中 I[.] 是指示函數 (indicator)。最後一式和 Xi 的標號 i 是如何標號的無關,也就是說:對所有 i, j, 定義
Wij = (Xi + Xj)/2
則 T^+ = ΣΣ_{j≦i} I[Wij > 0];類似地,
T^- = ΣΣ_{j≦i} I[Wij < 0]
統計量 T, T^+, T^- 其實是等價的:
T = T^+ - T^- = n(n+1)/2 - 2 T^- = 2 T^+ - n(n+1)/2
因為 T^+ + T^- = n(n+1)/2。如果群體分布 F 是對 0 對稱的,|Xi| 給定的條件下
P[Xi > 0 | Xi] = 1/2 = P[Xi < 0]
因此。
E[T] = 0, Var[T] = E[T^2] = n(n+1)(2n+1)/6
由 T 與 T^+, T^- 的關係很容易得
E[T^+] = E[T^-] = n(n+1)/4, Var[T^+] = Var[T^-] = Var[T]/4
更高階的動差也可計算——注意在 X 的分布對稱於 0 這條件下 T 的分布也對稱於 0,所以 E[T^{2k-1}] 都是 0,只需關注 E[T^{2k}],而 T^+ 與 T^- 的高階動差也可依據它們與 T 的關係得到。雖然可以計算這些統計量的正確分布,但卻沒有一個簡單公式可以明確計算。如果需要大樣本近似分布,除了常態近似以外,Edgeworth 展式可以做較好的近似,這就需這些統計量的較高階動差。
由 T^+ 之構造形式,(T^+)/[n(n+1)/2] 是
p = P[(X+X')/2 > 0], X, X' i.i.d. F
的不偏估計(因為每個 I[Wij > 0] 的期望值都是上列 p)。另外,在 F 是對稱於 0 的情況,
P[(X+X')/2 > 0] = ∫_(0, ∞) ∫_(-∞, ∞) 2f(2w-x)f(x) dx dw
= ∫_(-∞, ∞) ∫_(0, ∞) 2f(2w-x)f(x) dw dx
= ∫_(-∞, ∞) (1-F(-x)) f(x) dx
= ∫_(-∞, ∞) F(x) f(x) dx = 1/2
若 F 的對稱中心,也是中位數,大於 0;或 F 的分布右尾比較長,則
p = P[(X+X')/2 > 0] = ∫_(-∞, ∞) (1-F(-x)) f(x) dx > 1/2
因此,T^+ 或等償地 T 統計量檢定下列假說:
H0: p = 1/2 against Ha: p ≠ 1/2 (or p > 1/2, p < 1/2)
而隱含地在檢定:
H0: F 是對稱於 0 的分布
Ha: F 不是對稱於 0 的分布
對立假說 p > 1/2 隱含地相當於:F 對稱中心 > 0 或 F 正偏(右尾較長);p < 1/2 隱含地相當於:F 對稱中心 < 0 或 F 負偏(左尾較長)。不過,以 p 來界定虛無和對立假說是完全合適的,對原來的群體分布 F 的推端卻難免失真:如果中位數是負的,但右尾較長,也可能檢定統計量接近虛無假說成立時的表現,除非我們只限定在群體分布是對稱於中位數;或相反地,確定中位數是已知定值,則此處談的,稱為 Wilcoxon signed-rank test 的程序是適當的;如果只要檢定中位數,群體分布也不限於對稱分布,那麼,前面的 sign test 反而較適當。
Wilcoxon 的 signed-rank test 假設 X 的分布 F 是連續的,因此理論上 P[Xi = 0] = 0,= P[|Xi| = |Xj|] 當 i ≠ j。但實際上仍會有 Xi = 0 的觀測值出現;也會有 |Xi| = |Xj| (i ≠ j) 的情形。首先,對於觀測值 0 的問題,Wilcoxon 的意見是把它(們)排除。如果我們把觀測值 0 以外的 rank 都加上一個常數 d,則在 F 是對稱於 0 的分布時,T 的期望值仍是 0;而 T^+ 和 T^- 與 T 仍保持 T = T^+ - T^- 的關係,且 T^+ 和 T^- 的虛無分布相同,但
T^+ + T^- = (1+d) + (2+d) + ... + (n'+d) = n'(n'+1)/2 + n'd
式中 n' 是去除 0 觀測值後的樣本數。故 T^+ 和 T^- 在虛無假說之下,其期望值和變異數分別是
E[T^+] = n'(n'+1)/4 + n'd/2, = n'(n'+2d+1)/4
Var[T^+] = n'(n'+1)(2n'+1)/24 + [ n'(n'+1)d + n'd^2]/4
當 F 不是對稱於 0 的分布時,rank 值加 d 期望會使得 T^+ 和 T^- 失衡的狀態比較明顯。但任意加常數 d 似無意義,把 0 觀測值本來若非 0 則各有 rank 考慮進去,也就是取 d = n - n',則上列期望值與變異數可得較對稱形式:
E[T^+] = [n(n+1) - d(d+1)]/4
Var[T^+] = [n(n+1)(2n+1) - d(d+1)(2d+1)]/24
當有 |Yi| = |Yj| 情形時,把絕對值相等,所謂「打結」的各觀測值對應的 rank 取中間等級 (midrank),即平均等級,如 Xi, Xj, Xr 本應有等級 k-1, k, k+1, 但其絕對值相等,無法區分三個觀測值何者應取 k-1, 何者取 k, 何者是 k+1,則取其平均等級 k。如此取法對上述檢定統計量的期望值沒影響,但變異數則應修正為
Var[T^+] = [n(n+1)(2n+1) - d(d+1)(2d+1)]/24 - Σ_i d_i(d_i-1)(d_i+1)/48
其中 d_i 是第 i 個非 0 觀測值打結處之觀測值個數,如前面舉的例子有 3 個觀測值都指定等級為 k, 則 d_i = 3。註標 i 的範圍是非 0 觀測值按其絕對值排序中有多少處打結。注意觀測值 0 和非 0 打結作用不同,其對 T 等之變異數影響也不同。假設 F 是連續型的,按理 0 觀測值和打結情形應該很少發生,但實務上卻可能常遇到,這是因觀測值精確度不夠。像這種情形實際上等於把資料離散化了,如果在參數化方法可能誤差不大,而基於連續型群體分布的非參數化方法,是否合適恐怕還需再看看統計學者們的研究結論。
若兩群體 X, Y 是同分布,獨立分別抽取的觀測值 X, Y 之差是對稱於 0 的對稱分布;若 Y 和 X 的分布只相差一個位移,其中位數分別為 ξy, ξx, 則
Y - X = (Y - ξy) - (X - ξx) + (ξy - ξx)
由於 Y - ξy 與 X - ξx 是同分布,故 ξy - ξx 是 Y - X 的中位數,而 Y - X 的分布是對稱於此中位數的分布。不過,統計面對的不是兩個隨機變數的問題,而是從兩個群體分別抽取隨機樣本進行推論的事。在 X, Y 只是位移的差別的情況下,虛無假說是:兩群體分布相同,也就是位移不存在,或說兩群體中位數相等。當虛無假說「兩群體相同」成立時,兩樣本猶如抽自同一群體,故兩樣本,假設各含 n, m 觀測值,組成一個大小為 N = n + m的隨機樣本,假設沒有相同觀測值,由小而大排出 ranks 1, 2, ..., N,而第一個樣本 n 個觀測值 R1, ..., Rn 相當於從有限群體 {1, 2, ..., N} 抽取的一組大小為 n 的隨機樣本,其平均等級
W1 = Σ_{i=1~n} R_i/n
E[W1] = (N+1)/2, Var[W1] = m(N+1)/(12n)
若群體 1 的中位數比群體 2 大,也就是說群體 1 的分布是群體 2 的分布向右平移,則群體 1 預期可得到顯著高於上列期望值的結果;反之,若群體 1 的中位數比群體 2 小,則 W1 預期將顯著小於虛無假說之下的期望值。另一方式取 W1, W2 為兩樣本平均等級,實際上
W2 = [N(N+1)/2 - n W1]/m, W1 - W2 = N[W1-(N+1)/2]/m
故在虛無假說下,
E[W1 - W2] = 0, Var[W1 - W2] = N^2(N+1)/(12mn)
無論樣本 1 平均等級 W1,或不平均直接用等級和 (rank sum) (n W1) 進行檢定;或採平均等級差 W1 - W2,其實都是一樣的,並且由有限群體之中央極限定理可知 n, m 皆夠大時可用常態近似。樣本 1 的等級和最低值為 n(n+1)/2,樣本 2 為 m(m+1)/2,取
T1 = n W1 - n(n+1)/2, T2 = m W2 - m(m+1)/2
則 E[T1] = nm/2 = E[T2], Var[T1] = nm(N+1)/12 = Var[T2],在大樣本,T1 和 T2 漸近服從相同的常態分布。又:T1 和 T2 之最大值均為 nm,期望值正好是最小值 0~nm,最大值的中點。並且,T1 + T2 = nm,所以 T1 高則 T2 低,反之 T2 高則 T1 低。若 T1 高,表示樣本 1 偏向有較高的等級,也表示其中位數較大,故若 T1 高於臨界值,則接受群體 1 比群體 2 有較高中位數的假說;反之,T2 高於臨界值,表示群體 2 的中位數較高。在虛無假說之下,T1 與 T2 的分布都對稱於其中心 nm/2,由前述 T1 + T2 = nm 可知 T2 與 T1 分布相同。
以上等級和 n W1 和 m W2 稱之為 Wilcoxon rank sum 統計量,T1 與 T2 稱為 Mann-Whitney 統計量,兩類統計量其實是等價的,後者只是前者的一個平移。另有一說:Mann–Whitney U 檢定量也稱 Mann–Whitney–Wilcoxon 統計量,或 Wilcoxon–Mann–Whitney 統計量,是如下定義:
U1 = nm - T1, U2 = nm - T2
英文 Wiki 也是如上定義,但其後的計算 (Calculations) 小節卻又是以 T1, T2 為 U1, U2。注意樣本 1 觀測值 X1, ..., Xn 被轉成 rank 值 R1, ..., Rn;樣本 2 觀測值 Y1, ..., Ym 則轉為 rank 值 S1, ..., Sm,故
T1 = n W1 - n(n+1)/2 = Σ_{i=1~n} (Ri - 1) = Σ_i Σ_j I[Xi > Yj]
類似的 T2 = Σ_j Σ_i I[Yj > Xi],而 U1 = nm - T1 = T2, U2 = T1 則代表相反意思:U1 代表樣本 1 落後於樣本 2 次數。因此用上列 U1, U2 做檢定,雖與 T1, T2 等價,但其意思相反,U1 大反而表示 Xi 落後於 Yj 次數多,暗示群體 1 是在群體 2 的左邊;U2 大才代表群體 1 比群體 2 的中位數較高。
若資料中有打結情形,使用平均等級,則等級和 (n W1 或 m W2) 的期望值不變,因總樣本 N 個觀測值總值不變,但變異數則受影響,
Var[n W1] = mn(N+1)/12 - mn Σ_i (d_i^3 - d_i)/[12N(N-1)]
當然,如單群體(單樣本)或成對樣本時一樣,如果打結情形太多,我們必須考慮:這樣的程序妥當否?
Wilcoxon–Mann–Whitney 檢定本來是在「兩群體只有位移」的假設下,以等級取代原觀測值而發展的非參數化方法,就像在常態雙群體獨立樣本 t 檢定假設群體變異數或標準差一致(同幅)一般。然而在非參數化方法,我們也不能不考慮:如果兩群體分布廣度(例如以四分位差衡量)異幅時怎麼辦?假設群體 1 的分布是 G((x-ξ)/σ), 群體 2 是 G((y-η)/τ),也就是說兩群體的分布形狀仍是一致的,但具有不同的位置參數值 (ξ, η) 和尺度參數值 (σ, τ),那麼 Wilcoxon–Mann–Whitney 檢定用於位置參數 ξ 和 η 的比較是否仍可用並且有效?首先假設 H0: ξ = η 成立,不失一般性,假設 σ > τ,群體 1 的分布分散得較廣,則其樣本資料在 ξ = η 左邊相對於樣本 2 有較小的等級,在中位數右邊又有較大的等級,平均結果如何則不好說,如果分布 G 是對中位數對稱的,左右一偏高一偏低將剛好抵消;但如果 G 不是對稱分布,則很難說,因為不同尾巴形狀將影響兩群體獨立隨機抽出之樣本值相互比較的機率,例如在右尾群體 1 分布得較廣可預期 P[X>Y] 超過 1/2, 但超過多少則與分布形狀有關;同時左尾 P[X<Y] 小於 1/2, 但小至多少又與左尾形狀有關。所以我們無法判斷群體 1 相對於群體 2 在左尾偏低的等級值與右尾偏高的等級值抵消的結果偏高或偏低。那麼一來,在 ξ≠η 時 Wilcoxon–Mann–Whitney 檢定統計量是否還能正確、有效地呈現我們期望的偏向,就不得而知了。這還是假設兩群體除了位置之外只有尺度參數(代表分布廣度)允許不同,如果兩群體之分布形狀不加限制,Wilcoxon 等級和檢定是否還正確有效,卻是值得懷疑的,即使實務上很多人忽略此檢定原先的假設,以為只要兩群體分布都是連續型就可以。
如果兩群體或多群體都是連續型,如單群體的符號檢定,我們可以用獨立兩樣本或多樣本的符號檢定來比較這些群體的中位數是否一致。如果把兩樣本 N = n + m 個觀測值當做一個群體,其中位數 M 是已知的,樣本 1 就是此有限群體的一個樣本,
F(11) = Σ_{i=1~n} I[Xi < M]
在「H0: 兩群體中位數相等」成立時,樣本 1 是 N 元素有限群體的一個簡單隨機樣本,因此, F(11) 服從超幾何分布
P[F(11) = x] = C([N/2],x)C(N-[N/2]), n-x)/C(N,n)
式中 [N/2] 是 N/2 取整數部分,也就是說:N 是偶數時 M 把其餘 N-1 個元素平分兩半;N 是偶數時則把 N 個元素平分兩半。如果同樣定義 F(21) 為樣本 2 小於 M 的個案數,則
F(11) + F(21) = [N/2]
同時,分別定義 F(12), F(22) 為兩樣本大於 M 的個案數,並假設 n 是偶數,則
F(11) + F(12) = n, F(21) + F(22) = m, F(12) + F(22) = N/2
因此,F(ij) 實際上只有一個 F(11) 或任一特定 F(ij) 即決定全部。在小樣本,直接用前述 F(11) 的幾何分布即可做拒絕 H0 與否的決策,在大樣本,則(設 n+m 為偶數)
F(11) ~ N(μ, σ^2), μ = n/2, σ^2 = nm/[4(n+m-1)]
以 M 為樣本觀測值分割界限,兩樣本,則 n + m 是偶數時把所有樣本觀測值分成 2×2 列聯表,細格理論次數在兩樣本分別各是 n/2 和 m/2,其卡方統計量
χ^2 = ΣΣ (F(ij) - E(ij))^2/E(ij), E(1j) = n/2, E(2j) = m/2
其實等於 [(F(11) - μ)^2/σ^2] [(n+m)/(n+m-1)], 在 H0 之下漸近服從 1 個自由度的卡方分布。在多群體時類似(各自獨立抽取隨機樣本),以所有樣本觀測值聯合估計 H0 成立下的共同群體中位數,然後把各樣本資料依此聯合中位數分割,把中位數比較之檢定問題變成多群體比例比較之檢定問題。當樣本觀測值剛好等於聯合中位數時,可以考慮不同歸屬(M 之上或之下), 或上下各 1/2 的方式來計算。
假設群體分布都是連續型,基於 ranks 的非參數化方法其實都有嚴格條件,當條件不成立時,基於 ranks 的檢定方法是否還有效其實是值得考慮的,筆者未曾涉及這方面,也許已經有許多研究論及其適用與不適用,但一般初等統計課程或方法課程是否有正確教導學子,或者大家只知道套公式跑軟體?相對地,符號檢定所需假設較少,用於檢定單一群體中位數或比較兩個以上群體之中位數,不失為一可用方法,只是其廣泛適用性相對的就是統計效率的損失,在檢定程序也就是檢定力的損失。