統計上的平均數眾所周知的有算術、幾何和調合和平均數,依次以 A, G, H 表示。此外,有中位數 (median)、眾數 (mode) 等替代量數,或稱指標,或表徵數。平均、中位與眾數分別代表一個數量資料分布的中心、位置、與集中趨勢。

眾數做為表現集中趨勢的指標,適合用來表現類別屬性資料、本質為離散的數量資料,以及連續型理論分布,而且在數量資料分布嚴格來說只適合單峰分布。對於類別屬性的資料,所謂眾數也就是出現最多次數的類別,不同分類方式將直接影響到結果,因此除非有自然的分類,否則可能並不是很有意義。對離散型數量資料,如果是單峰型資料分布,眾數無疑義地就是分布的高峰。如二項、超幾何、Poisson 等的理論分布,都符合單峰形狀,眾數也可很明確得到——雖然仍有可能不是唯一值。不過如果是抽樣的樣本資料,特別是樣本數不夠大而可能的資料值又不少,樣本的眾數可能無意義。對本質屬連續型的數量資料而言,樣本或即使是現實(有限)群體,若資料不分組而直接以記錄數值如離散型資料那樣找出現最多次的數值是無意義的,必須以分組方式找出眾數組並設法估算眾數值,或先做密度估計再找估計密度曲線的最高點所在。

中位數、全距中點或分位數中點,適用於順序類別資料及數量資料,不論離散型或連續型,不論樣本或群體,不論未分組或已分組,代表的是一個資料分布所在的位置。不管是中位數或分位數中點(含全距中點), 其缺點是結果表徵值和資料中的絕大部分數值無關,只依賴資料中的極少個,個別資料除非發生極端變化,否則根本不影響結果。例如中位數,在未分組資料是資料依大小排序後最中間一個或最中間兩個的平均或兩個中間任意值。其他個別資料除非由小於中位數(區段)變成大於中位數(區段),或相反,否則不管怎麼折騰都不影響中位數的值。這性質往好的看是穩健,往壞的看是對資料不敏感或不靈敏。

代表數量資料中心的指標或表徵數是平均,簡單或加權。最直接而常用的是算術平均 (A = Σ Xi/n),資料都是正值時可用幾何平均 (G = (Π Xi)^(1/n),資料中不含 0 時可用調和平均 (H = n/Σ(1/Xi))。資料都是正值時,有名的算幾(調)不等式說 A ≧ G ≧ H, 因此在某些應用如物價指數編算上會有「算術平均偏高,調和平均偏低,幾何平均適中」的看法。當資料有負值時一般認為幾何平均不適用,如漲跌率有正有負,不適合幾何平均;因可能有 0 值,也不適合調和平均。有些時候會用 G(X+a)-a 的方式來處理,即所有資料(值)加上一常數 a,計算平均後再將 a 減掉。如人口連續 n 年的平均成長率、股價連續 n 期的平均漲跌率等,都是採加上一常數把成長率或漲跌率變成基數的環比,計算幾何平均後再減去該常數即是真正的平均成長率或漲跌率。

從數學性質來看,前面談過的眾數、位置量數及算術平均數,都符合「平移等變性」:

M(X+a) = M(X) + a for any constant a

意思是:所有資料平移 a 單位,結果指標或表徵數也平移 a 單位。但明顯地,調和平均、幾何平均並不滿足平移等變性。但以上提到的各種指標,都滿足「尺度等變性」:

M(cX) = c M(X) for any constant c > 0

意思是:所有資料經固定倍數調整,相當於結果表徵數做相同倍數調整。這樣的性質是必要的,它表示帶單位的統計資料,不管量測的單位做什麼改變,結果是一致的。例如一組以 cm 表示的身高資料,改成 inch 為單位後的平均,就是原來以 cm 表示的平均數換成以 inch 為單位。事實上,除了幾何平均不適用,上列乘以一常數的結果對任意實數 c 都成立。此性質也稱平均(函數)是「齊次的 (homogeneous)」。

把一組資料 X 看成是一個向量,上述統計上的平均數等指標的計算等於是把向量 X 映至一個純量(實數),我們有

M(cX) = c M(X) for any c > 0 (or any real c)

但並不一定有

M(X + v) = M(X) + M(v) for any vector v

只有算術平均數能同時滿足以上兩條件,事實上算術平均是一個資料的線性函數;其他表徵數都不是線性的,中位數等雖滿足常數平移等變,卻不滿足向量的平移等變(或線性代數所稱的相加性)。

眾數和中位數等位置量數都具有對個別資料變化不靈敏的缺點,雖然因此比較穩健,不受極端值左右。算術平均數一般認為太受極端值左右,但其實它受每個值 Xi 的影響是相等的:

Di{A(X)} = 1/n,  其中 Di 表示對 Xi 的偏微分

類似地,

Di{G(X)} = G(X)/(n Xi)

表示 Xi 大則對結果影響小,Xi  小則對結果影響大,是一個重左尾而輕右尾的指標。而調和平均:

Di{H(X)} = (H(X))^2/(n Xi^2)

對全正值資料而言更輕右尾而更重左尾。當然若資料跨正負,則調和平均是重零鄰近而輕兩尾,算是偏向零點的指標。當所有 Xi 都是正值時,算幾(調)不等式之所以成立,正是對不同數值的 Xi 重視程度不同所致。由此也可得知,若 Xi 都是負值時,A(X) ≦ H(X),當然,這也可由 A(-X) ≧ H(-X) 得到。如果資料中有正有負,不等式就不能保證了。不過,實務上除了幾何平均只適用於正值資料,調和平均通常也只用在正值資料。

如果資料都是正值的,我們可以定義一個一般化的平均,generalized mean (or power mean or Hölder mean):

Mp(X) = (Σ Wi Xi^p/Σ Wi)^(1/p), p in R

當所有 Wi = 1 時就是不加權的,當 p = 1 時是算術平均,p = -1 時是調和平均,p → 0 時極限是幾何平均(取為 p = 0 的結果),p → ∞ 時得極大值,p → -∞ 時得極小值。由於 f(x) = x^p, x > 0, 當 p > 1 時是一凸函數 (convex function),由 Jensen's inequality, Mp(X) ≧ M1(X) = A(X), 接著可得到 q > p > 0 則 Mq(X) ≧ Mp(X)。也就是說:對於固定一組資料及權量,當 p 是正數時,Mp(X) 是 p 的增函數,底限是幾何平均(對應 p = 0)。而 p < 0 時,可證得隨著 p 愈小(-p 愈大)Mp(X) 愈小。所以對整個 p in R 來說,Mp(X) 是 p 的增函數,算幾調不等式是是一個特例。

若資料有負值,我們可以定義 

f(x) = sgn(x).|x|^p,  g(x) = sgn(x).|x|^(1/p)

其中 sgn(x) 取值 1, -1, 0 分別對應到 x 是正值、負值及 0, 則 f, g 互為反函數。再定義

Mf(X) = g(Σ Wi f(Xi)/Σ Wi)

在 p > 0 時 f 可定義在整個數線,並且此時 f(x) 是 x 的嚴格增函數,並且具連續性。但 Mf(X) 不再對 p 具有單調性,因為 p > 1 時 f(x) 不再是全域凸函數,x > 0 時是凹面向上,而 x < 0 時是凹面向下。當 p → ∞ 時,Mf(X) 可能是 max{Xi} 也可能是 min{Xi}, 看何者絕對值較大。若 Xi 都不為 0,則 p < 0 時前列 f 函數仍能定義,只是 f(x) 分成不連續兩半,x < 0 時及 x > 0 時分別都是單調下降,但左半低於右辦。特例 p = -1 時得調和平均,p → -∞ 時得 min{Xi; Xi > 0} 與 max{Xi: Xi < 0} 中絕對值較小的。當 p < 0 時,若 x > 0 時取 f(x) = log(x) (natural logarithm) 已把 x > 0 映成 (-∞,∞),因此再無法擴充定義至 x < 0;同時,其反函數 g = f^(-1) 把 (-∞,∞) 映至 (0,∞),這表示對應 p = 0 的

G(X) = e^(ΣWi log(Xi)/ΣWi),  Xi > 0, all i

無法擴充至 Xi < 0, some i,除非做較大幅度結構改變,但那又與原來的幾何平均不相容。

對前述 Mp,顯然它是資料對稱的,即資料的任意重新排序不影響結果,與前面談過,統計學中介紹過的中心、位置量數及集中趨勢一樣。同時 Mp 也是尺度等變的。擴充至允許 Xi 為負值或跨正負,資料對稱性顯然是成立的;而在尺度等變性,

Mf(cX) = g(ΣWi.f(cXi)/ΣWi)
       = g(ΣWi sgn(cXi) |cXi|^p/ΣWi)
       = g(sgn(c)|c|^p ΣWi sgn(Xi) |Xi|^p/ΣWi)

當 c = 0 時結果是 0; 當 c > 0 時正負號沒被改變,因此 Mf(cX) = c Mf(X) 成立;當 c < 0 時,最後一式變成:

g(sgn(c) sgn(Mf(X)) |c|^p |Mf(X)|^p)
                 = sgn(c) sgn(Mf(X)) |c| |Mf(X)|
                 = c Mf(X)

「平均」除尺度等變外,還有一個更基本的特性是「部分平均取代」,意思是︰若 X 的部分,例如前 m 個元素被這些元素的平均值取代,則結果不變。由於前述 Mp 或擴充版的 Mf 對資料的對稱性,「前 m 個」和任取 m 個沒差別。因此不失一般性,我們要證明:

  若 M = Mf(X1,...,Xm),則 Mf(M, ..., M, X_(m+1), ..., Xn) = Mf(X1, ..., Xn)

令 Σ' 表示前 m 頂的加總,Σ" 是後面 n-m 項加總,Σ 則是全部 n 項加總。又令 X' 代表前 m 個 Xi 被 M 取代。依定義,,

  M = Mf(X1,...,Xm) = g(Σ' Wi f(Xi)/Σ' Wi)
  <==>  Σ' Wi f(M) = Σ' Wi f(Xi)
   ==>  Σ Wi f(Xi) = Σ' Wi f(Xi) + Σ" Wi f(Xi)
                   = Σ' Wi f(M) + Σ" Wi f(Xi)
                   = Σ Wi f(X'i)
  <==>  Mf(X) = Mf(X')

由這部分平均取代,立即可推論出:若原資料先被分組,而後各組以其平均數取代,則平均數不會改變,這項性質可稱之為「分組平均取代」。

我們可再將上述 generalized mean 推廣,允許 f 為由 R 上一區間 I 映至 R 的一對一連續函數(則 f 為嚴格單調函數), g 為其反函數,結果 Mf 稱 quasi-arithmetic mean, generalized f-mean, 或 Kolmogorov mean。如果資料都是正值的,則 power mean Mp 包含在 f-mean Mf 這個 class 中;若 p > 0, 則前面特定的 f 也包含在此處更廣義的定義中;但 p < 0 時前面的 f 不在 f-mean 這個 class,當然也可以考慮將此處的 class 擴大。很不幸地是,此處的 f-mean 不一定具備尺度等變;不過前面談到的部分平均數取代及延伸出來的分組平均數取代只用到 f (及其反函數 g)的一對一特性,因此仿然成立。有關於此處的 f-mean 具備及不具備什麼性質,可參考網路資料,例如 wiki 的 Quasi-arithmetic mean

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()