在中位數 m 使 e(a) = E[|X-a|] 當 a = m 時最小的問題中, 如果試圖用微分法證明,則將遭遇所謂積分式之微分問題。當 X 之分布屬連續型時,
e(a) = E[|X-a|] = ∫_R |x-a| f(x) dx
= ∫_(-∞, a] (a-x) f(x) dx + ∫_[a, ∞) (x-a) f(x) dx
由於 X 的分布是連續型,因此期望值可以用一個 Borel 可測函數的 Lebesgue 積分來表示,又 p.d.f. f(x) 的適當選取使其可用 Riemann 積分來表示,而在 (-∞, ∞) 的積分可以分成 (-∞, a] 和 [a, ∞) 兩個閉區間積分的和。若 X 不是連續型,則只能表示為
e(a) = E[|X-a|] = ∫_R |x-a| dF(x)
= ∫_(-∞, a] (a-x) dF(x) + ∫_(a, ∞) (x-a) dF(x)
將 Lebesgue-Stieltjes 積分分為兩部分相加時,一個是閉區間,含 a 點;另一個就不能含 a 點,即為開區間。在連續型的例子,e(a) 可以對 a 微分:
e'(a) = ∫_(-∞, a] D_a ((a-x) f(x)) dx + ((a-a) f(a))
+ ∫_[a, ∞) D_a ((x-a) f(x)) dx - ((a-a) f(a))
= ∫_(-∞, a] f(x) dx - ∫_[a, ∞) f(x) dx
= ∫_(-∞, a] f(x) dx - ∫_(a, ∞) f(x) dx
= 2 P[X ≦ a] - 1 = 2 P[X<a] - 1
若 m 是 X 的中位數,因 X 是連續型,P[X≦a] = P[X<a] 對任意實數 a 都成立,所以 e'(m) = 0;當 a < m 時可得 e'(a) ≦ 0;而 a > m 時則得 e'(a) ≧ 0。雖然不是嚴格不等式,也可得 e(a) 在 a = m 時最小的結論;但最小值不唯一,而這其實是因中位數不唯一,在連績型,也就是說 F(a) = 1/2 的解不唯一。
上列 e'(a) 的計算,利用 Riemann 積分之所謂 Leibniz integral rule(萊布尼茨積分法則),也稱萊布尼茨微分公式。但統計上隨機變數 X 的分布並不都是連續型,那麼在其他統計可能考慮的積分式,類似的微分該怎麼做?首先回顧上述 Leibniz 公式怎麼來的:令
F(x) = ∫_[a(x), b(x)] f(x,t) dt
則
F(x+h) - F(x)
= ∫_[a(x+h), b(x+h)] f(x+h,t) dt - ∫_[a(x), b(x)] f(x,t) dt
= ∫_[a(x+h), b(x+h)] f(x+h,t) dt - ∫_[a(x), a(x+h)] f(x+h,t) dt
+ ∫_[a(x), b(x)] f(x+h,t) dt - ∫_[a(x), b(x)] f(x,t) dt
= ∫_[b(x), b(x+h)] f(x+h,t) dt - ∫_[a(x), a(x+h)] f(x+h,t) dt
+ ∫_[a(x), b(x)] (f(x+h,t) - f(x,t)) dt
如果 a(x) 和 b(x) 都是可微分的,f(x,t) 視為 x 的函數是處處可微的,則
f(x+h,t) = f(x,t) + f*(x,t) h + o(h)
式中 f*(x,t) = D_x f(x,t) 是 f(x,t) 對 x 的偏徹分。又,當 β ≒ α 時,如果 g(x,t) 對 t 是連績的,
∫_[α,β] g(x,t) dt = ∫_[α,β] (g(x,α)+o(1)) dt = g(x,α)(β-α) + o(β-α)
所以
F(x+h) - F(x)
= ∫_[b(x), b(x+h)] f(x+h,t) dt - ∫_[a(x), a(x+h)] f(x+h,t) dt
+ ∫_[a(x), b(x)] (f*(x,t) h + o(h)) dt
= [f(x+h,b(x))(b(x+h)-b(x)) + o(b(x+h)-b(x))]
- [f(x+h,a(x))(a(x+h)-a(x)) + o(a(x+h)-a(x))]
+ ∫_[a(x), b(x)] (f*(x,t) h + o(h)) dt
= (f(x,b(x)) + f*(x,b(x)) h + o(h))(b(x+h)-b(x)) + o(b(x+h)-b(x))
- (f(x,a(x)) + f*(x,a(x)) h + o(h))(a(x+h)-a(x)) + o(a(x+h)-a(x))
+ ∫_[a(x), b(x)] (f*(x,t) h + o(h)) dt
除以 h 令 h → 0. 取極限,如果 f*(x,t) = D_x f(x,t) 看成 t 的函數在 [a(x), b(x)] 是 (Riemann) 可積分的,則得
F'(x) = f(b(x)) b'(x) - f(a(x)) a'(x) + ∫_[a(x), b(x)] D_x f(x,t) dt
在中位數問題的積分式 e(a) 中,(x-a)f(x) 或 (a-x)f(x) 對 a 當然是連續可微的,對 x 而言如果 f(x) 有界則也是連績的,因此套用 Leibniz 公式沒問題。在 e(x) 中,適用上列微分。積分法則可能發生問題的是 p.d.f. f(x) 在 a 附近無界,但因 f(x) 假設是可積分的,則 (x-a)f(x) 或 (a-x)f(x) 仍可證明趨近於 0,當 x →a,也就是說 Leibniz 公式仍成立。
如果上面的積分式 F(x) = ∫_[a(x), b(x)] f(x,t) dt 對 t 的積分不是 Riemann 積分呢?例如
G(x) = ∫_(a(x), b(x)] dF(x,t) 或 ∫_(a(x), b(x)] u(x,t) dF(t)
是 Lebesgue-Stieltjes 積分,並且端點如 a(x) 可能不在積分範圍之內。上列 G(x) 的第一式比較麻煩,用在中位數之類的問題我們只需要考慮第二式,則
G(x+h) - G(x)
= ∫_(b(x), b(x+h)] u(x+h,t) dF(t) - ∫_(a(x), a(x+h)] u(x+h,t) dF(t)
+ ∫_(a(x), b(x)] (u(x+h,t) - u(x,t)) dF(t)
假設我們有如同前面 Riemann 時的條件:u(x,t) 對 x 是可微,且其偏導式對 t 可積;u(x,t) 對 t 連續。則
G(x+h) - G(x)
= ∫_(b(x), b(x+h)] (u(x+h,b(x))+o(1)) dF(t)
- ∫_(a(x), a(x+h)] (u(x+h,a(x))+o(1)) dF(t)
+ ∫_(a(x), b(x)] (u*(x,t)h + o(h)) dF(t)
= (u(x+h,b(x))+o(1))(F(b(x+h))-F(b(x))
- (u(x+h,a(x))+o(1))(F(a(x+h))-F(a(x))
+ ∫_(a(x), b(x)] (u*(x,t)h + o(h)) dF(t)
= (u(x,b(x))+u*(x,b(x))h+o(1))(F(b(x+h))-F(b(x))
- (u(x,a(x))+u*(x,a(x))h+o(1))(F(a(x+h))-F(a(x))
+ ∫_(a(x), b(x)] (u*(x,t)h + o(h)) dF(t)
若 F 在 a(x), b(x) 不可微,G(x) 也可能不可微。舉個例子,設
F(x) = 0 if x < -1
= (1 + x)/2 if -1 ≦ x < 0
= (1 + x)^2/2 if 0 ≦ x < 1
= 1 if x ≧ 1
而 G(x) = ∫_(-∞, x] xt dF(t),則
G(x) = x(x^2-1)/4 if -1 ≦ x ≦ 0; = x^3(3+2x)/6 if 0 < x ≦ 1
則 G(x) 在 0 不可微(左右導式皆存在但不等)。函數 F 甚至在 a(x) 或 b(x) 可能不連續,則 G(x) 可能也不連續。看下列例子:
F(x) = 0 if x ≦ 0; = 1 if x > 0
設 G(x) = ∫_(-∞, x] e^{tx} dF(t),則 G(x) = 0 當 x < 0; = 1 當 x ≧ 0, 在 x = 0 時 G(x) 不連績。所以,Leibniz 微分(積分)公式要成立,其充分條件是
u(x,t) 對 x 可微,對 t 連績;a(x), b(x) 可微;F(t) 在 a(x), b(x) 可微。
若以上條件都滿足,則
G'(x) = F'(b(x))b'(x)u(x,b(x)) - F'(a(x))a'(x)u(x,a(x)
+ ∫_(a(x), b(x)] D_x u(x,t) dF(t)
若 F 處處可微,則 ∫ u(x,t) dF(t) = ∫ u(x,t) F'(t) dt,其實等於回到 Riemann 積分的情形;但此處 F 不必處處可微,我們只考慮 G 在 x 的微分問題,也就是只要 F 在 a(x) 和 b(x) 處可微即可。
以中位數極小化平均差的問題來說,
e(a) = E[|X-a|] = ∫_R |x-a| dF(x)
= ∫_(-∞, a] (a-x) dF(x) + ∫_(a, ∞) (x-a) dF(x)
雖然分布函數 F 可能不連續,即使連續也可能不可微,但其不連續點至多是可數的,假設 F(x) 可微的點在 R 上是稠密的,我們只需考慮在 a 點 F 可微的情況,則
e'(a) = P[X ≦ a] - P[X > a] = 2 P[X ≦ a] - 1
中位數是滿足 P[X < m] ≦ 1/2 < P[X ≦ m] 的任意實數,故若 a 不是中位數,表示
P[X ≦ a] < 1/2 或 P[X < a] > 1/2
前一種情形得 e'(a) < 0, 後一種情形得 e'(a) > 0, 而 e'(m) ≧ 0,故
e(m) = min_a e(a)
例如 X 是離散型,則其分布函數 F(x) 除了在可數個跳躍,其他地方都是水平的,F'(x) = 0,
e(a) = Σ_{x≦a} (a - x) P{X = x] + Σ_{x>a} (x - a) P{X = x]
則微分就是逐項微分 e'(a) = Σ_{x≦a} P{X = x] - Σ_{x>a} P{X = x]。
對於積分和微分的關係,特別是 Stieltjes 積分,有必要再仔細探討。統計理論是立基於機率論的,而機率論中談積分,是以測度 (measure) 和可測函數 (measurable function) 來談的。簡單地說:Riemann 積分和 Riemann-Stieltjes 積分考慮的是在一個閉區間 [a, b] 有界的函數 f(x),將 [a, b] 以有序的點
P: a = x_0 < x_1 < . . . < x_n = b
分割,考慮 Riemann sum
S(f, P, α) = Σ_i f(t_i) (α(x_i) - α(x_{i-1}))
或上、下和 (upper/lower sum)
U(f, P, α) = Σ_i M_i (α(x_i) - α(x_{i-1}))
L(f, P, α) = Σ_i m_i (α(x_i) - α(x_{i-1}))
其中 α(x) 是一單調上升,通常是嚴格單調函數,在 Riremann 積分則 α(x) = x。諸 t_i 是在 [x_{i-1}, x_i] 中取點,
M_i = sup {f(x): x_{i-1} ≦ x ≦ x_i}
m_i = inf {f(x): x_{i-1} ≦ x ≦ x_i}
可積分的定義是分割細化 (refinement) 可使 Riemann sum 收斂,不論諸 t_i 在各子區間中如何取點;或以上下和而言其分割細化後之極限值,所謂上積分與下積分,結果相同。而測度論或機率論中的積分定義,f(x) 必須符合所謂可測性;積分範圍是可測集,區間是基本的,非正式的講法可測集就是其上可定義測度,例如 Lebesgue 測度在區間集就是區間長度;而分割是把整個積分範圍分成有限個互斥的可測互斥子集
A = ∪_{i=1~n} A_i = A_1 ∪ A_2 ∪ … ∪ A_n
或者上列等式不必成立,只須
A = lim_{n→∞} ∪_{i=1~n} A_i
通常分割不是把一個區間分成 n 個子區間,而是依 f(x) 的值做分割,例如假設 f(x) 非負,
A_i = {x in A: (i-1)/2^n < f(x) ≦ i/2^n, i = 1, 2, ..., n2^n}
上列分割方式是把 A 分割成 n2^n + 1 個子集,其中一個不在上列 A_i 中,也就是說 n2^n 個 A_i 的聯集可能不是 A,而是忽略了 f(x) > n 的部分。而積分是下列有限項和式的極限:
Σ_i (inf{f(x), x in A_i}) μ(A_i) = Σ_i [(i-1)/2^n] μ(A_i)
其中 μ(A_i) 就是 A_i 的測度。對於一般函數 f,其積分的定義是把 f(x) ≧ 0 的部分和 f(x) < 0 的部分分開:
f^+(x) = max{f(x), 0}, f^-(x) = max{-f(x), 0}
稱為 f 的正部和負部,而 f 可以表示為 f = f^+ - f^-;
∫_A f(x) dμ ≡ ∫_A f^+(x) dμ - ∫_A f^-(x) dμ
非負函數可積分指其積分值有限;一般可測函數可積分指其正部、負部皆可積分。Lebesgue integral 可用以稱呼以上的一般積分,或專指實變數函數對其上的 Lebesgue measure 的積分。
微分可以考慮兩種定義,一種如一般微積分的定義,則前述 X 之分布函數可證得「幾乎處處可微」,意思是不可微的點在一個 Lebesgue 測度 0 的集合中,因此我們前面對 F(x) 可微的點是稠密的的假設是對的。另一種微分的定義是針對兩個測度:
兩個測度(在同一個可測空間)ν 和 μ,若 μ(A) = 0 蘊含 ν(A) = 0,則稱 ν 對 μ 是絕對連續的,記為 ν<<μ。
一個測度空間 (S, F, μ) 若樣本空間可分割為可數個可測集 A_i, i = 1, 2, ..., n, ... (in F),使得所有 μ(A_i) < ∞,則稱 μ 是 σ-有限的。
兩 σ-有限測度 μ, ν 若 ν << μ, 則存在非負可測函數 f 使得 ν(A) = ∫_A f(x) dμ 對所有 A in F 成立,此函數 f 稱為 ν 對 μ 的密度(函數)。密度不是唯一的,但兩密度不等的點在一個 μ 測度 0 子集內。密度 f 也表示為 dν/dμ,稱為 ν 對 μ 的 Radon-Nikodym 導數。
如果 μ 是一個 σ-有限測度,給予一個非負有限值可測函數 f(x),於是
對任意 A 在 F 中,定義 ν(A) = ∫_A f dμ
則 ν 也是一個 σ-有限測度,並且 f = dν/dμ。如果樣本空間是 R(或 R 之一區間集),F 是其上的 Borel 集合族或 Lebesgue 可測集合族。則 F(x) = ν((-∞, x]) 是一單調遞增函數,它和 ν 彼此相互定義,稱之為 ν 的分布函數:由 ν 如此處可定義 F(x);反之,有一單調遞增非常數函數 F(x), 也可唯一得到測度 ν。因此,對一個可測函數 u(x),
∫_A u(x) dF(x) = ∫_A u(x) dν for all A in F
左式稱 Lebesgue-Stieltjes 積分,可以把它看成是右式積分的另一種表示法。另外,由於 dν/dμ = f,可得
∫_A u(x) dF(x) = ∫_A u(x) f(x) dμ for all A in F
如果 μ 是 Lebesgue 測度,上式右邊是 Lebesgue 積分,如果 f(x) 是幾乎處處連續,即不連續點為 μ 測度 0 (Lebesgue 測度 0),則
F'(x) = f(x) a.e. (μ)
也就是說:微積分中之一般導數和 Radon-Nikodym 導數一致。反之,苔 f 定義為 F',並且
F(x) = ∫_(-∞, x] f(x) dx for all x in R
由前述 F(x) 唯一決定測度 ν,也就是說 f = dν/dμ。因此,除卻解決一些 dν/dμ 的 Riemann 可積, F'(x) 的可測問題以外,兩種導數在隨機變數問題上達成了一致。
對於 Riemann-Stieltjes 積分,由微積分教本(如 Apostal 或 Rudin 的高微教本)上,定義如前述,和初微教本中的 Riemann 積分幾乎一樣,而許多在 Riemann 積分的結果也被移植到 Stieltjes 積分,如
∫_[a,b] f dα = ∫_[a,c] f dα + ∫_[c, b] f dα
我們以 α(x) = sgn(x) = 0 當 x=0; = x/|x| 當 x≠0 為例,依 Riemann-Stieltjes 積分的要求,f 和 α 必須有不同的不連續點,因此假設 f 是一個連續函數,則
∫_[-1,1] f(x) dα(x) = f(0) (α(0+) - α(0-)) = 2 f(0)
∫_[-1,0] f(x) dα(x) = f(0) (α(0) - α(0-)) = f(0)
∫_[0,1] f(x) dα(x) = f(0) (α(0+) - α(0)) = f(0)
如果在 Stieltjes 積分中,α(x) 是處處右連續的,則 ∫_[a,b] f dα 其實與 a 點無關,以本文先前記法,積分範圍閉區間 [a,b] 可改為半開區間 (a,b];同類似的如果 α 是一個處處左邊連續的函數,則積分區間之右端點等於不考慮。在這樣的定義下,不管 α 連續與否,單點積分如果有定義的話,如同 Riemann 積分一般,其結果是 0,所以前面分段積分可以成立。但 Lebesgue-Stieltjes 積分,本質上是測度論中的積分,或說是 Lebesgue 積分,所以如果 α(x) 是測度 μ 的分布函數,依前面的定義,
∫_{a} f(x) dα(x) = ∫_{a} f dμ = f(a) μ{a} = f(a) (α(a+) - α(a-))
所以在 Lebesgue-Stieltjes 積分中,
∫_[a,b] f dα = ∫_[a,c] f dα + ∫_(c, b] f dα
= ∫_[a,c) f dα + ∫_[c, b] f dα
≠ ∫_[a,c] f dα + ∫_[c, b] f dα
前面 Leibniz 微分積分公式的 Stieltjes 版本,是以 Lebesgue-Stieltjes 積分來看的,若用 Riemann-Stieltjes 積分來看,則除了把半開區間改成閉區間外,形式都一樣
G(x+h) - G(x)
= ∫_[a(x+h),b(x+h)] u(x+h,t) dF(t) - ∫_[a(x),b(x)] u(x,t) dF(t)
= (u(x,b(x))+u*(x,b(x))h+o(1))(F(b(x+h))-F(b(x))
- (u(x,a(x))+u*(x,a(x))h+o(1))(F(a(x+h))-F(a(x))
+ ∫_([a(x), b(x)] (u*(x,t)h + o(h)) dF(t)
但最後結果連結到事件機率,將會產生困擾;而機率分布中 F(x) 依我們的習慣定義是右連續的,所以積分區間的下限等於不含在內,用半開區間的表示法更適當。
(附言)
證明中位數使絕對離差最小;或一般地,分位數使加權絕對離差最小,可不用微分法,參考