統計量是樣本(資料)的函數,如樣本平均數,樣本變異數及標準差,樣本全距、四分位數、四分位差、百分位數、偏態係數、峰度係數等等。統計量是樣本的函數意謂樣本(觀測值)確定了,統計量的值也就確定了,並不摻合任何其他的東西,例如未知參數,所以 z = (Xbar - μ)/σ(其中 Xbar 是樣本均數,μ, σ 是未知的群體參數)不是統計量;但若 μ, σ 不是未知的,而是已知定值,則 z 仍是統計量。統計量可以是純量(實數)值的,也可以是向量值的,所以 (Xbar, S^2) 可以分開成兩個實數值統計量,也可以視為一個向量值統計量。統計量可以用於點估計,當一個估計量 (estimator);可以用於假說檢定,當一個檢定統計量。
本文要談幾個關於統計量的種類:充分統計量 (sufficient statistic)、完備統計量 (complete statistic) 與輔助統計量 (ancillary statistic)。充分統計量可以說是充分代表原資料的統計量,「充分代表」是什麼意思?統計推論的想法是基於機率理論,基於大數法則 (law of large numbers, LLN),若樣本數 n 夠大,樣本資料 X1, ..., Xn 的次數分布,所謂樣本分布 (sample distribution) 會接近群體分布。因此,由樣本可以猜測到群體分布大概是什麼樣子。如果群體分布是由一些(未知)參數決定的,樣本資料就可以用來對參數的值做猜測,這就是統計推論。但即使樣本不大,雖然樣本分布的模樣細節可能與群體分布有不小的差距,但群體的一些特徵仍會在樣本中呈現,例如群體主要分布在區間 [a, b] 之中,只有極小部分落在 [a, b] 之外,那麼小樣本的 X1, ..., Xn 很少落在前述區間之外,反而是 n 較大時比較容易有觀測值落在此區間外部。也就是說:樣本攜帶了關於群體參數的訊息;而充分統計量能「充分代表」整個樣本,意思就是說樣本中關於群體未知參數的訊息都在充分統計量之中。但是這「關於群體參數的訊息」又是如何界定,如何知道一個統計量足以充分代表整個樣本?
如果樣本只有一個觀測值,也就是 n = 1,那麼 X1 的分布就是群體分布(以 p.d.f. 呈現)f(x; θ);一般 n 個觀測值,在無限群體、簡單隨機抽樣的設定下,就是
f_n(x; θ) = f(x_1;θ) ... f(x_n;θ)
樣本觀測資料值 x_1, ..., x_n 之所以會呈現出一些群體特性,就在於 X1, ..., Xn 上列聯合分布和參數 θ 有關,隨 θ 之改變而改變,所以說樣本 X 中含帶著 θ 的訊息。統計量 T 是 X1, ..., Xn 或 X 的函數,一般而言其分布,p.d.f. g(t; θ) 也是與 θ 有關,也就是說統計量 T 一般也含帶有 θ 的訊息。統計量 T 是樣本 X 的函數,當然不可能含帶比 X 更多的訊息,但要說由樣本 X 縮減為統計量 T 究竟少了多少關於 θ 的訊息,就要先有個衡量訊息量的方式,例如,考慮 θ 的變動對 f(x; θ) 的影響:
絕對影響: D_θ f(x; θ), 相對影響:(D_θ f(x; θ))/f(x; θ) = D_θ ㏑(f(x; θ))
如果 f(x; θ) 滿足一些條件,使對 θ 微分和對 x 的積分兩種運算順序可以互換,則
∫ D_θ f(x; θ) dx = ∫ (D_θ ㏑(f(x; θ))) f(x; θ) dx = D_θ ∫ f(x; θ) dx = 0
換個方式來寫就是 E_θ[D_θ ㏑(f(X; θ))] = 0 對任意 θ 值都成立。如同考慮資料分布變異時離均差加總或平均為 0: Σ(x_i - xbar) = 0 或 E[X-μ] = 0,改用絕對離差 E[|X-μ|] 或平方離差 E[|X-μ|^2] 或 p 次方離差,我們也可以對 D_θ ㏑(f(x; θ)) 做同樣的操作,以平方 p = 2 為例,
I(θ) = E[(D_θ ㏑(f(X; θ)))^2]
可當做單一樣本資料 X_i 提供的參數 θ 的訊息量或稱情報量,於是全樣本 X 提供的情報量為
In(θ) = E[(D_θ ㏑(f_n(X; θ)))^2] = E[(Σ_i D_θ ㏑(f(Xi; θ)))^2] = n I(θ)
這樣定義的訊息量或情報量,稱為 Fisher 情報量 (Fisher information)。首先 D_θ f(X; θ) 或 D_θ ㏑(f(X; θ)) 的絕對大小代表 θ 的變化能引起 f(X; θ) 變化的絕對或相對幅度大小,其值愈大代表愈有區別力,不同 θ 值群體產生的資料愈不同,反過來說用樣本觀測值反推 θ 愈容易,所以可以代表訊息量。但 X 是隨機的,所以對 X 的不同觀測值做平均或計算期望值,代表一個隨機樣本值所攜帶的訊息量,是很直觀的。雖然此處例示的 θ 似乎只是純量(實數)值參數,但實際上 θ 可以是 k 維度向量,D_θ ㏑(f(X; θ)) 是實數值 ㏑(f(X; θ)) 對 θ 的梯度(行向量), 而 (Σ_i D_θ ㏑(f(Xi; θ)))^2 則替換為前項行向量與其轉置相乘而得一 k×k 矩陣。結果 Fisher 情報量變成情報(量)矩陣。
有 X, Y 兩個隨機變數,其聯合分布隨 θ 而變,
f(x, y; θ) = g(x; θ) h(y | x; θ)
式中 f 是 X, Y 的聯合 p.d.f., 而 g 是 X 的邊際 p.d.f., 並且 h 是 Y, 在給定 X = x 後的條件 p.d.f.;則
D_θ ㏑ f(x, y; θ) = D_θ ㏑ g(x; θ) + D_θ ㏑ h(y | x; θ)
上式平方後右邊有個交叉乘積項,積分得
E[(D_θ ㏑ g(X; θ))(D_θ ㏑ h(Y | X; θ))]
= E{(D_θ ㏑ g(X; θ))E[(D_θ ㏑ h(Y | X; θ)) | X]}
= 0
因為內層條件期望值有類似一般期望值的性質,如果前面提及的條件,通稱正則條件 (regular conditions) 能成立的話,內層條件期望值是 0, a.s.,故結果得 0。所以,
I(θ; X, Y) = I(θ; X) + E[I(θ; Y|X)]
此式中 I(θ; Y|X) 是將條件分布視同一般機率分布,而得出 Y 給定 X 之條件分布所攜帶的參數 θ 的情報量,它其實是一個隨機變數,是 X 的函數,最後再循 X 的分布求期望值。習慣上,會將上式表示為
I(θ; X, Y) = I(θ; X) + (θ; Y|X)
或 I_{X,Y}(θ) = I_X(θ) + I_{Y|X}(θ)。上述隨機變數 X, Y 都可以是向量值的,所以把 Y 以前面統計樣本 X 替換,而統計量 T 取代上式的 X,則
I(θ; X) = I(θ; T) + I(θ; X | T)
如果給定 T = t 後 X 的條件分布(注意不考慮退化的問題,因 T 是 X 的函數,(T, X) 的分布等價於 X 的分布)和 θ 無關,則對 θ 之微分為 0 a.s.,期望值當然是定值 0。反過來說,
若 I(θ; X | T) = 0,則 D_θ ㏑ h(X|T; θ) = 0, a.s.
依此看來,Fisher 情報量很適合用於衡量樣本資料及統計量攜帶 θ 之訊息量。故:
T 是參數 θ 的充分統計量,是指 T 的 Fisher 情報量等於整個樣本 X 的 Fisher 情報量。
而其等價條件是
T 是參數 θ 的充分統計量,是指給定 T 後樣本 X 的條件分布與 θ 無關。
樣本 X 或 X1, ..., Xn 視為一堆隨機變數,是對樣本空間的一個分割;統計量 T 是 X 的函數,就是把 X 造成的分割做合併,[ T = t ] 對 T 而言是一個點,卻對應 X 中一個由可能少數資料點也可能無數資料點的集合。統計面對的是一個機率分布族,這和機率問題所面對的只是一個機率分布不同,因此無論由較細分割的 X 所產生的機率分布或由較粗略分割的 T 所產生的機率分布都和 θ 有關,也就是說相關事件機率隨 θ 值改變而改變;一般,在考慮 T = t 內由 X 定義的事件的(條件)機率分布時,其分布也隨 θ 值而變。但如果 T 是充分統計量,則在 [ T = t ] 這樣的事件下關於 X 的事件的機率與 θ 無關,對所有 t 值這敘述都成立。當 T 是離散型時,可以用事件之條件機率定義來想像所謂『在 [ T = t ] 這樣的事件下關於 X 的事件的機率』的意思;當 T 是連續型時,所有 [ T = t ] 這樣的事件機率都是 0,無法滿足事件之條件機率的定義:
P{B|A} = P{B∩A}/P{A} 其中 P{A} > 0
在初級課程,是以類比上列事件之條件機率定義而定義出隨機變數之條件 p.d.f. h(y|x) = f(x,y)/g(x), 其中 g(x) = ∫ f(x,y) dy,然後
P[Y in B|X=x] = ∫_{y in B} h(y|x) dy
依這方式,樣本,隨機向量 X,先變換為 (T, U) 兩組隨機變數或向量,
X 和 (T, U) 之間是一對一變換而 T 和 U 都有 p.d.f.,若 T 是充分的,則 U 的條件 p.d.f. h(u|t; θ) 和 θ 無關,對所有 t 成立,其中 h(u|t) 是給定 T = t 之下 U = u 的機率密度。
但這仍有一個問題:上列敘述其中 U 可以是任意與 T 聯合和 X 之間形成一對一關係的向量值統計量;「h(u|t; θ) 和 θ 無關」只是針對一個特定的 U,關於 U 的事件(或稱 U 所定義的事件)只是關於 X 的事件的一小部分,因此似乎難以判斷 T 是否為充分統計量。不過, 因子分解定理 (factorization theorem) 卻說:
如果 X 的分布有機率密度可以表示成
f(x; θ) = g(T(x); θ) h(x)
則 T(X) 為 θ 的充分統計量。其逆亦真。
當然這裡「機率密度」一詞是包含連續型分布之 p.d.f. 及離散型分布之 p.m.f.,其嚴謹證明涉及「測度 (measure)」, 前面所談條件分布的概念也是需要測度的概念來完善。不過,就概念的理解,還是初級課程描述的較淺顯,用於離散型隨機變數 Xi,也全無問題。
前面說樣本 X 是對樣本空間的一個分割,統計量 T 是將 X 所做的分割做適當合併,成為對樣本空間的一個較粗略的分割。統計面對的是同樣一個可測空間 (Ω, F) 上面許多機率分布 P_θ,樣本 X1, ..., Xn 決定的事件的機率一般都隨 θ 而變;統計量 T 相關的事件也是 X 相關的事件,因此也隨 θ 而變。如果 T 所做的分割很細,例如 T = X,則 [T = t] 中對應 X 的僅有一個 X = x,相關的事件只能考慮 [X = x] 或空事件,條件機率非 1 即 0,與 θ 無關。反之,若 T 做的分割太粗略,也就是說每個 [T = t] 合併的 [X = x] 太多,其中關於 X 的事件機率很有可能依 θ 值而異。所以,所謂 T 是一個充分統計量,或說 T 對 θ 而言是充分的,就是說 T 的分割,相對於 X 而言,是夠精細的,精細到在 [T = t] 中所有 X 相關事件的條件機率都和 θ 無關。因此,若 T 是一個充分統計量,比它更細的分割 T',當然假設它也是一個統計量,它也是充分的。我們考慮統計量,就是要縮減樣本資料,例如 Xbar 和 S (或 S^2) 取代整個樣本 (X1, ..., Xn)。但資料縮減的結果可能要付出失去某些資訊的代價,例如 (Xbar, S) 只給我們資料中心所在位置及散佈廣度的訊息;卻不如完整資料 X1, ..., Xn 可以描繪出分布的模樣,可以知道分布是否有偏斜,尾巴是否太長或很短。而充分統計量是告訴我們:如果 θ 是唯一決定群體分布,我們可能無須看整個樣本 X 的觀測值,只要看其充分統計量 T 的值就足以猜測 θ 從而對整個群體分布有所了解。例如:如果知道群體是常態分布,只需要 θ = (μ, σ^2) 的充分統計量 (Xbar, S^2)
Xbar = (X1 + ... + Xn)/n
S^2 = [(X1-Xbar)^2 + ... + (Xn-Xbar)^2]/(n-1)
就足夠了;雖然完整的 X 還可以藉由樣本分布來猜測群體是否有偏態、長尾等性狀,但既知群體是常態分布,那些就沒必要看了。既然是要縮減資料,當然是愈精簡愈好,也就是說統計量決定的分割愈粗略愈好,於是我們不只需要充分統計量,更重要的是最精簡的充分統計量,即所謂「極小充分統計量 (minimal sufficient statistic)」
極小充分統計量,本身是充分統計量,且是所有充分統計量的函數。換句話說:如果 T 本身是充分統計量,並且對任意充分統計量 S,都存在一個函數對應 u(.) 使 T = u(S),則 T 是一個極小充分統計量。
如果 T, T* 都是 θ 的極小充分統計量,則依上列定義,T 和 T* 互為對方的函數,因此兩者是一對一的關係,這是極小充分統計量的「唯一性」,雖然不是數值上的唯一,但從前面所述樣本空間 Ω 分割的觀點,確實是唯一的。但極小充分統計量是不是必然存在?這問題可參考 Wiki 「充分統計量」或 Lehmann 的 Theory of Point Estimation 書中 sufficient statistics 一節,簡言之, 在大多數我們處理的問題裡,可以認為極小充分統計量是存在的。
設 T 在一個分布族 {P_θ: θ in Θ} 是充分的,若 Θ* 是 Θ 的一個子集,則 T 在 {P_θ: θ in Θ*} 顯然也是充分的;但反過來,T在 θ in Θ* 充分,未必在 θ in Θ 也充分。所以,若 T 在 θ in Θ 是極小充分統計量,在 Θ* 中雖仍是充分的,但不一定是極小的;反之,T 在 Θ* 是極小充分,前面說它在 Θ 未必充分,但如果它在 Θ 也是充分的,則它是極小充分。如果在 Θ 中取固定 θ*,設
f(X; θ)/f(X; θ*) = φ(T; θ), T = T(X)
是 T 的函數,T = T(X) 意為統計量 T 是 X 的函數,則 f(x; θ) = φ(T(x); θ) f(x; θ*),將 θ* 固定,θ 可以是兩成員之一,依因子分解定理,T 是充分的;反之,若 T 是充分統計量,由因子分解定理,
f(x; θ)/f(x θ*) = (g(T(x); θ)h(x))/(g(T(x); θ*)h(x)) = φ(T(X); θ)
一個特殊情形是 Θ = {θ, θ*},僅兩個成員,則 T = f(X; θ)/f(X; θ*) 因 θ, θ* 都固定,所以 T 是統計量,是充分的,並且是極小充分的。現如
Θ = {θ_0, θ_1, ..., θ_k}
取 T = ( f(X; θ_1)/f(X; θ_0), ..., f(X; θ_k)/f(X; θ_0)} 則 T 是 θ (或說 Θ) 的極小充分統計量。如果前項 T = u(T*), 其中 u 是一對一的,則 T* 和 T 就樣本空間分割來說是等價的,所以 T* 是極小充分統計量。這提供了一個尋找極小充分統計量的方法:
(1) 計算 U(x; θ) = (f(x; θ)/f(x; θ_0): θ = θ_1, ..., θ_k all in Θ);
(2) 尋找一個和 U 等價的統計量 T, 即
U(x; θ) = U(y; θ) <==> T(x) = T(y)
(3) 若 T 在整個 Θ 是充分的,則它是極小充分統計量.
例如:f(x;θ) = (1/π^n)/{Π_i [1+(x_i-θ)^2]},取 θ_0 = 0,則
U(x; θ) = f(x;θ)/f(x;0) = Π_i (1 + x_i^2)/[1+(x_i-θ)^2]
令 ψ(x,y;θ) = Σ_i ㏑{[1+(x_i-θ)^2]/[1+(y_i-θ)^2]},則當 Θ,= (a,b) ≠ φ 時,
U(x; θ) = U(y; θ) 對所有 θ in Θ,
<==> ψ(x,y;θ) = ψ(x,y;0) 對所有 θ in Θ,
<==> Σ_i (x_i - θ)/[1+(x_i-θ)^2] = Σ_i (y_i - θ)/[1+(y_i-θ)^2]
上列最後條件要對所有 θ in Θ 都成立,如果把 x, y 分別依其數值大小重排後兩組數值相同,則等式成立;若兩組數值不同,即使有個 θ 使等式成立,但 θ 一改變,等式將不再成立。因此,
f(x;θ)/f(x;0) = f(y;θ)/f(y;0) <==> x, y 分別依其數值大小重排後兩組數值相同
所以:對 Cauchy 位置參數族,位置參數 θ 的極小充分統計量是完整的順序統計量。
以前述 Cauchy 位置參數族為例,即使 X 的順序統計量 X(1) < ... < X(n) 是極小充分統計量,其中仍包含許多多餘的成分,例如 i < j 時
X(j) - X(i) = (X(j) - θ) - (X(i) - θ)
由於 θ 在此例是屬於 Cauchy(θ) 的位置參數,諸 Xi - θ, i = 1, ..., n 相當於從 Cauchy(0) 群體抽出的隨機樣本,而諸 X(i) 是諳 Xi 的順序統計量,所以 X(j) - X(i) 的分布與 θ 無關,也就是說這統計量沒有攜帶任何關於 θ 的訊息,這種統計量稱為「輔助統計量」:
輔助統計量是指其分布不受(未知)參數影響的統計量,也就是未攜帶參數訊息的統計量。
既然輔肋統計量未攜帶參數訊息,直覺上,或依據概似度原則,或更正確地說是依據條件性原則,這種統計量應無助於統計推論。但 Brown 詭論卻是前項直覺的反例,或說條件性原則的失效。如果 U 是一個輔肋統計量,並且不是(極小)充分統計量 T 的函數,那麼給定 T 則 U 的分布也與 θ 無關,因此如果說 U 在統計推論或統計分析程序上還有用,可能是在誤差的衡量,或在設定模型(包括群體分布的分布族或參數空間 Θ)的驗證吧。但如前例,極小充分統計量之內可以包含輔助統計量,除去輔助統計量的成分後極小充分統計量不再充分,這就是為什麼會有 Brown 詭論的原因。注意區分輔助統計量是指其邊際分布,即無條件分布和 θ 無關;而充分統計量 T 之外的統計量是「條件機率分布」與 θ 無關,兩者是不同的。當然如果輔肋統計量 U 是充分統計量 T 之外的,也就是說 U 不是 T 的函數,其給定 T 之後的條件分布也與 θ 無關,但這已經與 U 是否為輔助統計量與否不相干了。
樞軸量 (Pivot, 也稱 pivotal quantity), 是由樣本資料和 θ 所構造,也是一個分布和 θ 無關的隨機變數,但它不是統計量。樞軸量要用於建構信賴區間或信賴域,所以它必然包含樣本資料 X 和參數 θ;但輔助統計量是一種統計量,其定義只能涉及 X 而不能含有 θ。
前面說:即使是「極小」充分統量其中可能包含「多餘的」成分,所謂含有多餘的成分,指的是一個統計量 T(不一定充分)存在一個函數 u(T) 是輔助統計量,其分布和 θ 無關。一個較弱化的概念是「第一階輔助 (first order ancillary)」,
統計量 U 是第一階輔助的,意指其期望值與 θ 無關。
期望值 E[U], 或為了強調 θ 而記為 E_θ[U], 和 θ 無關也就是說期望值本應為 θ 的函數,結果卻是個常數函數。相對地,如果統計量 T 不包含任何第一階輔助成分,則
E[u(T)] = 0 ==> u(T) = 0 a.s.
如果 u(T) 的期望值是常數 c, 則 E[ u(T) - c ] = 0,所以上列條件式 E[u(T)] = 0 並不失任何一般性。統計量 T 滿足上列條件,也就是說T 不包含任何第一階輔助成分,則 T 被稱為「完備統計量」。顯然,統計量完備表示在對 θ 做推論時,T 是不可缺的,其中沒有冗餘成分。一個統計量如果有多餘成分,暗示它可以再被精簡;而完備統計量是不能再被精簡濃縮的,因為其中並無冗餘。
完備統計量的另一個觀點是其分布族是完備的,例如二項分布族 Bin(n, θ), 如果 θ 只有 k ≦ n 個值 θ_1, ..., θ_k,則要找一個非零函數 u(x) 使
Σ_i u(i) C(n,i) (θ_i)^i (1-θ_i)^{n-i} = 0 for θ = θ_1, ..., θ_k
是可能的,因為上式為 θ 的 n 次多項式,給予 k ≦ n 個根當然可以建立‵一個或無數個 n 次方程式,從而決定 u(i)。若將參數空間 Θ 擴大,使
Θ 包含 {θ_1, ..., θ_{n+1}}
即 Θ 包含至少 n+1 個相異值,則唯有 u(i) ≡ 0 或 u(X) = 0 a.s. 可以滿足條件,也就是說這樣的分布族 {Bin(n, θ): θ in Θ} 足夠完備;而前面 Θ 只有 k ≦ n 相異值的分布族不夠完備。所以,完備統計量的意思是:該統計量的分布族是完備的。但是,如果一個統計量 T 的分布族(源自原樣本 X 的分布族)P = {P_θ: θ in Θ} 是完備的,比 P 小的分布族固然使得 T 不完備,比 P 大的分布族也不能保證 T 仍是完備的,例如
P = {Bin(n, p): 0 < p < 1}, P* = P ∪ {Poi(1)}
則 P 是完備的,但 P* 卻不完偏。
如果統計量是充分的,又是完備的,就稱完備充分統計量 (complete sufficient statistic)。因為完備統計量不含多餘成分,其任何非常數函數也是完備的;但充分統計量的函數如果不是一對一的,則未必仍是充分的。如果 T 是一個完儒充分統計量,考慮其任一非一對一非常數函數 g(T),任取 g(T) 值域上一點 c ≠ g(0),定義一新函數
h(t) = t if g(t) = c; = 0 if g(t) ≠ c
則 h(T) 又是 T 的一個非常數函數,所以也是完備的,因此給定 g(T) = c 時 h(T) 的分布和 θ 有關,也就是說 g(T) 不是充分的。這表示:
完備充分統計量是極小充分統計量。
上列結果的正式證明可見:
Lehmann, E. L. and Scheffe, H. (1950) "Completeness, similar regions, and unbiased estimation: Part I." Sankhyā: The Indian Journal of Statistics (1933-1960), 10, 305-340.
Bahadur, R. R. (1957) "On unbiased estimates of uniformly minimum variance." Sankhyā, 18, 211-224.
假設 T 是完備充分統計量,並且存在極小充分統計量 T* = h(T)。如果 h 是一對一的,表示完備充分統計量 T 就是極小充分統計量;否則任何 T* 的函數 η 都不可能使 η(T*) = T a.s.。令
η(T*) = E[ ψ(T) | T* ]
其中 ψ(T) 不是 T* 的函數,則 P[ψ(T) ≠ η(h(T))] > 0,但
E[ ψ(T) - η(h(T)) ] = E[ψ(T)] - E[η(h(T))] = E[ψ(T)] - E[E[ψ(T)|T*]] = 0
這與 T 是完備統計量的假設矛盾。這證明了:
假設極小充分統計量存在,則完備充分統計量是極小充分統計量。
如果 T 是完備充分統計量,如果一個參數函數 g(θ) 有不偏估計,則恰有一個基於 T 的不偏估計量:
Lehmann–Scheffé 定理:若 g(θ) 有不偏估計 δ(X),T 為完備充分統計量,則存在唯一 T 的函數 η(T) 是 g(θ) 的不偏估計。
[證] 令 η(T) = E[δ(X)|T],則 E[η(T)] = E[δ(X)] = g(θ)。由於完備性 E[η(T)] = g(θ) 的 η(T) 是唯一的。
由於 T 是充分的,所以 E[δ(X)|T] 與 θ 無關,所以 η(T) 中沒有 θ,確實是統計量,是比 δ(X) 變異數更小的 g(θ) 的不偏估計,這稱為 Rao–Blackwell 或 Rao–Blackwell–Kolmogorov 定理;連同上述 Lehmann–Scheffé 定理,得 η(T) 是 g(θ) 之一致最小變異不偏估計 (uniformly minimum variance unbiased estimate, UMVUE) 的結論;而上述兩定理,也成為尋找 UMVUE 的重要方法。
設 T 是完備充分統計量,U 是輔助統計量,則
P[U in A; θ] = E[[ I_[U in A] ]
= E[ E[[ I_[U in A] | T] ]
= E[ η(T) ]
所以 η(T) 是「常數」P[U in A; θ] 之唯一基於 T 的不偏估計,故
P[U in A; θ] = η(T) = P[U in A |T ; θ], a.s.
由於對任意 A,事件 [U in A] 的條件機率 (given T) 和無條件機率都一致,所以 U 與 T 獨立。這稱為 Basu 定理。例如在常態位置族 N(θ, σ^2), θ in R 中,T 是樣本平均數 (前面的 Xbar),U 是樣本變異數 S^2,是 θ 的輔助統計量,根據 Basu 定理,立即得到 T 與 U 也就是樣本平均數與樣本變異數獨立。
留言列表