離差量數 (measures of dispersion), 或稱差異量數 (measures of variability), 也稱離中趨勢(量數), 與集中趨勢相應和。
統計上最常用的離差量數是標準差,其次是平均差,另外有均互差、全距、四分位距與四分位差。
全距 (range) 是指資料的最大值與最小值的差;不過這名詞也用於表示 (極小, 極大) 這樣的一組數值。全距比較不適用於理論群體,因為很多理論群體如常態群體,指數群體是無界的;另一些有界理論群體如均勻、超幾何、二項等全距是顯見的。對群體而言,只有真實世界的有限群體較具意義。對樣本來說,全距受詬病的是它僅依賴極端值,而就隨機樣本來說我們最怕極端值太偏離正常值,嚴重影響我們對資料分布的評判。
四分位距 (interquartile range) 簡寫 IQR,亦有稱為四分位差的,不過四分位差 (quartile deviation) QD 一般是定義為 IQR 的一半。再者,由於四分位數的計算方式很多,從而四分位距或四分位差也有不同結果。所以若使用四分位距(差),還需了解其所根據的四分位數是如何計算的。
上述量數在資料中大部分資料變動時,除非變化太大致影響到最小最大值或四分位數之值,否則根本不會影響到這些代表資料差異的離差量數。這種性質往好了說是穩健 (robust), 往差了說是太不靈敏 (insensitive)。相反地,平均差、均互差及標準差則受資料中每個數值的影響,是較靈敏的,也可能較不穩健的。
均互差 (mean difference) 是資料相互差異(絕對值)的平均,群體定義 E[|X-Y|], X, Y 相互獨立來自同一群體,即
均互差 = ∫∫_{R×R) |x-y| dF(x) dF(y)
式中 F 是群體的分布函數;樣本計算式
均互差 = 2ΣΣ_{i<j} |Xi-Xj|/[n(n-1)]
其中 n 是樣本大小。以群體定義式計算,則
E[|Y-X|] = 2∫∫_[y>x] (y-x)dF(x)dF(y)
= 2{∫_R∫_(-∞,y) y dF(x) dF(y) - ∫_R∫_(-∞,y) x dF(x) dF(y)}
= 2{∫_R∫_(-∞,y) y dF(x) dF(y) - ∫_R∫_(x,∞) x dF(y) dF(x)}
= 2{∫_R y F(y) dF(y) - ∫_R x (1-F(x)) dF(x)}
= 2∫_R y (2F(y)-1) dF(y) = 2∫_R y [1-2(1-F(y))] dF(y)
= 2E[Y] - 4∫_R∫_(-∞,y) x dF(x) dF(y)
令 u(y) = F(y), v = ∫_(-∞,y] x dF(x)/∫_R x dF(x) 其中分母等於 E[X] 假設為正值, 則
E[|Y-X|]/E[X] = 4{1/2 - ∫_R v(y) du(y)}
= 4{∫_R u(y) du(y) - ∫_R v(y) du(y)}
= 4∫_[0,1] (u-v) du = 2(∫_[0,1] (u-v) du/∫_[0,1] u du)
= 2*(Gini's coefficient)
均互差除以平均數,可稱為相對均互差,如果是財富或所得資料,上列結果顯示相對均互差等於財富或所得分布不均指標,Gini 系數的兩倍。以樣本資料來算,如果財富集中於樣本之一人,也就是 n 個數據其中 n-1 個都是 0, 只有一個值是 1, 則
均互差 = 2/n, 平均數 = 1/n, 故:相對均互差 = 2
而此時 Gini 係數是 1 (財富分布完全不平均)。所以,Gini 係數就是相對均互差的一半,而均互差的範圍(最大值)為平均數(期望值)的兩倍。
平均差 (mean or average deviation) 全稱是平均絕對離差 (mean or average absolute deviation), 是以某一點為中心之絕對離差取平均,該中心點一般取(算術)平均數或中位數。不同中心當然會得不同結果,不難證明中心值取中位數時得到的平均差最小;不過,以平均數為中心似乎也是很自然的選擇。
除了資料出現極端值,或資料偏斜太嚴重,或特殊理論分布以外,統計上常採用(算術)平均數(期望值)、標準差等所謂動差系列來描述一個分布,標準差 (standard deviation) 的定義是:
群體:σ =√{E[(X-μ)^2]}, 樣本: s= √{Σ(Xi-ΣXj/n)^2/(n-1)}
樣本標準差之除數(分母)用 n-1 (n 為樣本大小) 常引起不解和討論,通常的解釋是所謂資料「自由度 (degrees of freedom)」所致;也有說是因中心點本來應使用群體平均數 μ,但實際上卻使用了使離差平方和最小的樣本平均數 ΣXj/n 因此調整一下分母減少低估;當然最根本的是用 n-1 而不用 n 使得樣本「變異數 (variance)」 s^2 是群體變異數的不偏估計 (unbiased estimator), 不過就這點來說,有限群體(搭配抽出不放回的簡單隨機抽樣)的群體變異數定義為 S^2 = Σ(Yi-ΣYj/N)^2/(N-1) 纔能滿足樣本變異數的不偏性,即 E[s^2] = S^2。
就前述以期望值定義的標準差而言,我們考慮其平方,也就是變異數 σ^2=E[(X-μ)^2],若 X, Y 是相互獨立服從同一分布,則
E[(X-Y)^2] = E[((X-μ)-(Y-μ))^2] = Var(X-Y) = Var(X) + Var(Y) = 2 Var(X)
也就是如果前面均互差的定義不是取差異之絕對值的平均,而是如標準差那樣先取差異平方,取平均,再取平方根,則結果將是標準差的 √2 倍:
√E[(X-Y)^2] = √2 σ
對樣本資料而言,
2ΣΣ_{i<j} (Xi-Xj)^2/[n(n-1)] = ΣΣ(Xi-Xj)^2/[n(n-1)]
= ΣΣ{(Xi-Xbar)^2+(Xj-Xbar)^2-2(Xi-Xbar)(Xj-Xbar)}/[n(n-1)]
= 2Σ(Xi-Xbar)^2/(n-1) = 2s^2
或說
s^2 = ΣΣ_{i<j} (Xi-Xj)^2/[n(n-1)]
這個等式可用於推導一般(無限)群體下,(簡單)隨機樣本變異數的變異數。首先,令
Q = n(n-1)s^2 = ΣΣ_{i<j} (Xi-Xj)^2
則
Q^2 = ΣΣ_{i<j} (Xi-Xj)^2 ΣΣ_{p<q} (Xp-Xq)^2
共有 n^2(n-1)^2/4 項 (Xi-Xj)^2 (Xp-Xq)^2 可以分成三類:
(1) (i,j) = (p,q) 共 n(n-1)/2 項;
(2) (i,j) ≠ (p,q) 但 i,j 恰一與 p,q 之一相同,
共 n(n-1)(n-2) 項;
(3) i,j,p,q 兩兩不等, 有 n(n-1)(n-2)(n-3)/4 項.
不失一般性,設 μ=0, 則第 (1) 類各項期望值是
E[(Xi-Xj)^4] = 2(μ_4) + 6σ^4
式中 μ_4 是第4階動差。第 (2) 類每項期望值可統一寫成
E[(Xi-Xj)^2(Xi-Xq)^2] = E[(Xi^2-XiXj-XiXq+XjXq)^2] = μ_4 + 3σ^4
第二個式子中唯括號內各項之平方項期望值非零。而第 (3) 類期望值是 4σ4。故
E[Q^2]
= [n(n-1)/2](2μ_4+6σ^4) + n(n-1)(n-2)(μ_4+3σ^4)
+ [n(n-1)(n-2)(n-3)/4](4σ^4)
= n(n-1)^2μ_4 + n(n-1)(n^2-2n+3)σ^4
所以,
E[s^4] = μ_4/n + (n^2-2n+3)σ^4/[n(n-1)]
由於 E[s^2] = σ^2, 故得
Var[s^2] = μ_4/n - [(n-3)/(n^2-n)]σ^4
令 γ_2 = μ_4/σ^4 - 3, 即 μ_4 = (γ_2+3)σ^4, 則
Var[s^2] = [γ_2/n + 2/(n-1)]σ^4
特例是常態群體 γ_2 = 0, 所以 Var[s^2] = 2σ^4/(n-1)。當然,對常態群體,利用 (n-1)s^2/σ^2 服從 χ^2(n-1) 可很方便得到這結果。
從樣本變異數的變異數一般公式我們發現 s^2 的變異數與偏態無關,這可由 Var[-X] = Var[X] (樣本亦同) 得到理解。事實上我們前面談到的離差量數都有此特性:資料全部變號(正負互換)離差量數不變。但全部正負互換則右偏變左偏,左偏變右偏。由此可知:各種樣本離差量數的變異數或均方誤差,和群體偏態無關。
以上各種離差量數還有兩個共同特性:一是平移不變:D(X+a) = D(X) 對任意常數 a 都成立,此處 D(X) 代表資料(全體)的任一種離差量數。不過如果計算離差量數如平均差時,採用的中心值不是平移等變的,例如調和平均或幾何平均,則此離差量數不符合平移不變性。平移不變的發生,除均互差等內帶的,其他都是因觀測值與中心值做了相同的平移而抵消。所以如果資料或問題適合採調和或幾何平均,意謂資料宜先做適當轉換後取其算術平均,則資料的離差量數也宜對轉換後資料來做。
前述各離差量數(變異數不在討論之內)另一個共同特性是尺度等變,即 D(cX) = |c| D(X), 資料整體乘以常數 c, 則離差量數隨同乘以 |c| 倍。特殊倍數 c = -1 僅使資料正負互換已述如前,而 c 的任意性表示資料計量單位任意改變,本質上不會改變結果的離差量數,只是和資料做了相同的計量單位改變而已。
上文除均互差外,任一離差量數也可除以趨中(集中)量數得到離差的相對指標,例如標準差除以平均數,σ/μ 或 s/Xbar 稱為變異係數 (coefficient of variation)。此數之倒數,μ/σ 或 Xbar/s, 可稱之為「訊雜比 (signal-to-noise ratio, 簡記 SNR 或 S/N)」。