單參數指數壽命估計問題－劉應興的部落格

假設某物（例如電子零件）之壽命服從單參數指數分布

f(x) = (1/μ)e^(-x/μ), x > 0

則由 n 個 i.i.d. 觀測值組成的隨機樣本可得 μ 的 MLE 也是 UMVUE 為 μ^ = ΣXi/n。

但是，在現實上我們可能並沒有完整觀測到所有壽命資料 Xi, i=1,...,n。設想 n = 1 的情形，如果有限定最多觀測到時間 T，則觀測資料實際有二：D 代表是否觀測到壽命，X 代表壽命（在 D = 0 時無 X 值），D, X 之聯合 p.d.f./p.m.f. 為

f(d,x) = (1/μ)e^(-x/μ), if d = 1 and 0 < x ≦ T;
= e^(-T/μ), if d = 0

寫為單一式是

[(1/μ)e^(-x/μ)]^d [e^(-T/μ)]^(1-d) = (1/μ^d)e^{-[dx+(1-d)T]/μ}

參數 μ 的對數概似度是：

l(μ; d, x) = -d log(μ) - [dx+(1-d)T]/μ

當 d = 1 時 MLE 是 x；但 d = 0 時概似函數沒有最大值，μ 愈大概似度愈高。

對一般 n, 資料為 (Di,Xi), i=1,...,n, 極小充分統計量為 (ΣDi, ΣDiXi+(n-ΣDi)T), 其中 ΣDi 為有觀測到 Xi 即壽命的個數，n-ΣDi 為只知壽命至少 T 的樣本個體數。以 r 表示 ΣDi 的值，當 r > 0 時 μ 的 MLE 是

[ΣDiXi+(n-ΣDi)T] /ΣDi

若每一樣本個體對應不同觀測時間限制 Ti，則對數概似函數為

l(μ; d, x) = -Σd_i log(μ) - [Σd_i x_i + Σ(1-d_i)Ti]/μ

則 μ 的 MLE 是

[Σd_i x_i + Σ(1-d_i)Ti]/Σd_i

可以看到，若 r = Σd_i = 0 則就像 n = 1 時 d = 0 一樣，μ 的 MLE 不存在。

回到 n = 1 的情形，

E[X | D=1] = /(1-e^(-T/μ)) = E[DX]/E[D]

如果 d = 0 時任意給個估計值 μ^ = a, 即

μ^ = X if d = 1; = a if d = 0

或表為 DX+(1-D)a，則

E[ μ^ ] = μ - (μ+T-a)e^(-T/μ)

一般情形

μ^ = [Σd_i x_i + Σ(1-d_i)Ti]/Σd_i if Σd_i > 0; = a if Σd_i = 0

令 Ei = E[DiXi] = P[Di=1]E[Xi|Di=1], Pi = E[Di] = P[Di=1], 則 Σd_i > 0 時，

E[μ^ | Di = d_i, i=1,...,n] =(Σ_ Ei/Pi + Σ_ Ti)/Σd_i

以 n = 2 為例，我們有：

E[μ^ | D1=1,D2=1] =(E1/P1+E2/P2)/2
E[μ^ | D1=1,D2=0] = E1/P1 + T2
E[μ^ | D1=0,D2=1] = T1 + E2/P2

而 E[μ^ | D1=0,D2=0] = a。結果不論以 Ei, Pi 表示或以 μ, Ti 表示都相當繁瑣。

如果 Ti = T 是常數，則 Ei = μ-(μ+T)e^(-T/μ), Di = 1-e^(-T/μ) 均為常數，則 Σd_i > 0 時，

E[μ^ | Di = d_i, i=1,...,n] = /r
= [μ-(μ+T)e^(-T/μ)]/(1-e^(-T/μ)) + (n-r)T/r
= μ - Te^(-T/μ)/(1-e^(-T/μ)) + (n-r)T/r

其中 r 是 bin(n,1-e^(-T/μ)) 變量。由於上列條件期望值僅與 r = Σd_i 有關，因此給定所有 Di 與給定 ΣDi 的條件期望值是相同的。另外，n 很大時，由大數法則知

(n-r)/r → e^(-T/μ)]/(1-e^(-T/μ)) with probability 1

故 μ^ 具一致性；但在有限樣本，

E[ μ^ ] = (1-e^(-nT/μ)) + a e^(-nT/μ)

其中 r = 0 的機率是 e^(-nT/μ) > 0，因此 (n-r)/r 必須排除 r = 0 才有期望值。

以上觀測個體壽命到固定時間停止觀測，稱之為第一型設限 (type I censored)，是一般壽命資料 (life time data) 的一種；另有第二型設限、隨機設限、左設限、區間設限等。一般性的方法和討論可參見壽命資料分析，或稱存活（資料）分析 (survival (data) analysis)，在社會學研究則可能稱事件歷史分析 (event history analysis)。人口統計或生命統計中的生命表 (life table) 也可以算是存活分析的一種，不過它比較制式，是以人口（居民）為標的，有一定的格式和算法。

指數壽命是壽命資料的重要特例，第一、二型設限是右設限中的兩種。第一型設限如前述，如果個體是同時觀測，可能會是相同的設限時間 T；如果進入觀測時間不同，則有不同設限時間 Ti。第二型設限是 n 個個體同時觀測，至 r 個壽命終止為止。假設原壽命資料是 X1,...,Xn, i.i.d. 服從指數分布 F(x) = 1-e^(-x/μ) 或 p.d.f. f(x) = (1/μ)e^(-x/μ)。其順序統計量是 X(1)<...<X(r)<...<X(n)，而我們只觀測了 X(1),...,X(r), 此 r 個順序統計量的聯合機率密度是

g(x(1),...,x(r)) = (n!/(n-r)!)f(x(1))...f(x(r))(1-F(x(r)))^(n-r)

所以 μ 的概似函數是

L(μ; x(1),...,x(r)) = (1/μ^r)e^{-[Σx(i) + (n-r)x(r)]/μ}

故 μ 的 MLE 是

μ^ = [Σx(i) + (n-r)x(r)]/r

與第一型設限不同的，此處 μ^ 卻有一個簡單的分布，因為令

μ^ = [Σx(i) + (n-r)x(r)]/r = Σ(n-i+1)y_i

其中

y_1 = x(1)
y_2 = x(2)-x(1)
:
:
y_r = x(r)-x(r-1)

而 y_1,...,y_r 視為隨機變數是相互獨立，各自服從平均數 μ/(n-i+1) 的指數分布，也就是說 (n-i+1)y_i, i=1,...,r, 是 i.i.d. 平均數 μ 的指數分布，所以 μ^ 服從形狀參數 r，尺度參數 μ/r 的 gamma 分布，所以 E[μ^] = μ, 是不偏的。