統計量 (Statistic)－劉應興的部落格

統計量是樣本（資料）的函數，如樣本平均數，樣本變異數及標準差，樣本全距、四分位數、四分位差、百分位數、偏態係數、峰度係數等等。統計量是樣本的函數意謂樣本（觀測值）確定了，統計量的值也就確定了，並不摻合任何其他的東西，例如未知參數，所以 z = (Xbar - μ)/σ（其中 Xbar 是樣本均數，μ, σ 是未知的群體參數）不是統計量；但若 μ, σ 不是未知的，而是已知定值，則 z 仍是統計量。統計量可以是純量（實數）值的，也可以是向量值的，所以 (Xbar, S^2) 可以分開成兩個實數值統計量，也可以視為一個向量值統計量。統計量可以用於點估計，當一個估計量 (estimator)；可以用於假說檢定，當一個檢定統計量。

本文要談幾個關於統計量的種類：充分統計量 (sufficient statistic)、完備統計量 (complete statistic) 與輔助統計量 (ancillary statistic)。充分統計量可以說是充分代表原資料的統計量，「充分代表」是什麼意思？統計推論的想法是基於機率理論，基於大數法則 (law of large numbers, LLN)，若樣本數 n 夠大，樣本資料 X1, ..., Xn 的次數分布，所謂樣本分布 (sample distribution) 會接近群體分布。因此，由樣本可以猜測到群體分布大概是什麼樣子。如果群體分布是由一些（未知）參數決定的，樣本資料就可以用來對參數的值做猜測，這就是統計推論。但即使樣本不大，雖然樣本分布的模樣細節可能與群體分布有不小的差距，但群體的一些特徵仍會在樣本中呈現，例如群體主要分布在區間 [a, b] 之中，只有極小部分落在 [a, b] 之外，那麼小樣本的 X1, ..., Xn 很少落在前述區間之外，反而是 n 較大時比較容易有觀測值落在此區間外部。也就是說：樣本攜帶了關於群體參數的訊息；而充分統計量能「充分代表」整個樣本，意思就是說樣本中關於群體未知參數的訊息都在充分統計量之中。但是這「關於群體參數的訊息」又是如何界定，如何知道一個統計量足以充分代表整個樣本？

如果樣本只有一個觀測值，也就是 n = 1，那麼 X1 的分布就是群體分布（以 p.d.f. 呈現）f(x; θ)；一般 n 個觀測值，在無限群體、簡單隨機抽樣的設定下，就是

f_n(x; θ) = f(x_1;θ) ... f(x_n;θ)

樣本觀測資料值 x_1, ..., x_n 之所以會呈現出一些群體特性，就在於 X1, ..., Xn 上列聯合分布和參數 θ 有關，隨 θ 之改變而改變，所以說樣本 X 中含帶著 θ 的訊息。統計量 T 是 X1, ..., Xn 或 X 的函數，一般而言其分布，p.d.f. g(t; θ) 也是與 θ 有關，也就是說統計量 T 一般也含帶有 θ 的訊息。統計量 T 是樣本 X 的函數，當然不可能含帶比 X 更多的訊息，但要說由樣本 X 縮減為統計量 T 究竟少了多少關於 θ 的訊息，就要先有個衡量訊息量的方式，例如，考慮 θ 的變動對 f(x; θ) 的影響：

絕對影響： D_θ f(x; θ), 相對影響：(D_θ f(x; θ))/f(x; θ) = D_θ ㏑(f(x; θ))

如果 f(x; θ) 滿足一些條件，使對 θ 微分和對 x 的積分兩種運算順序可以互換，則

∫ D_θ f(x; θ) dx = ∫ (D_θ ㏑(f(x; θ))) f(x; θ) dx = D_θ ∫ f(x; θ) dx = 0

換個方式來寫就是 E_θ[D_θ ㏑(f(X; θ))] = 0 對任意 θ 值都成立。如同考慮資料分布變異時離均差加總或平均為 0： Σ(x_i - xbar) = 0 或 E[X-μ] = 0，改用絕對離差 E[|X-μ|] 或平方離差 E[|X-μ|^2] 或 p 次方離差，我們也可以對 D_θ ㏑(f(x; θ)) 做同樣的操作，以平方 p = 2 為例，

I(θ) = E[(D_θ ㏑(f(X; θ)))^2]

可當做單一樣本資料 X_i 提供的參數 θ 的訊息量或稱情報量，於是全樣本 X 提供的情報量為

In(θ) = E[(D_θ ㏑(f_n(X; θ)))^2] = E[(Σ_i D_θ ㏑(f(Xi; θ)))^2] = n I(θ)

這樣定義的訊息量或情報量，稱為 Fisher 情報量 (Fisher information)。首先 D_θ f(X; θ) 或 D_θ ㏑(f(X; θ)) 的絕對大小代表 θ 的變化能引起 f(X; θ) 變化的絕對或相對幅度大小，其值愈大代表愈有區別力，不同 θ 值群體產生的資料愈不同，反過來說用樣本觀測值反推 θ 愈容易，所以可以代表訊息量。但 X 是隨機的，所以對 X 的不同觀測值做平均或計算期望值，代表一個隨機樣本值所攜帶的訊息量，是很直觀的。雖然此處例示的 θ 似乎只是純量（實數）值參數，但實際上 θ 可以是 k 維度向量，D_θ ㏑(f(X; θ)) 是實數值㏑(f(X; θ)) 對 θ 的梯度（行向量）, 而 (Σ_i D_θ ㏑(f(Xi; θ)))^2 則替換為前項行向量與其轉置相乘而得一 k×k 矩陣。結果 Fisher 情報量變成情報（量）矩陣。

有 X, Y 兩個隨機變數，其聯合分布隨 θ 而變，

f(x, y; θ) = g(x; θ) h(y | x; θ)

式中 f 是 X, Y 的聯合 p.d.f., 而 g 是 X 的邊際 p.d.f., 並且 h 是 Y, 在給定 X = x 後的條件 p.d.f.；則

D_θ ㏑ f(x, y; θ) = D_θ ㏑ g(x; θ) + D_θ ㏑ h(y | x; θ)

上式平方後右邊有個交叉乘積項，積分得

E[(D_θ ㏑ g(X; θ))(D_θ ㏑ h(Y | X; θ))]
= E{(D_θ ㏑ g(X; θ))E[(D_θ ㏑ h(Y | X; θ)) | X]}
= 0

因為內層條件期望值有類似一般期望值的性質，如果前面提及的條件，通稱正則條件 (regular conditions) 能成立的話，內層條件期望值是 0, a.s.，故結果得 0。所以，

I(θ; X, Y) = I(θ; X) + E[I(θ; Y|X)]

此式中 I(θ; Y|X) 是將條件分布視同一般機率分布，而得出 Y 給定 X 之條件分布所攜帶的參數 θ 的情報量，它其實是一個隨機變數，是 X 的函數，最後再循 X 的分布求期望值。習慣上，會將上式表示為

I(θ; X, Y) = I(θ; X) + (θ; Y|X)

或 I_{X,Y}(θ) = I_X(θ) + I_{Y|X}(θ)。上述隨機變數 X, Y 都可以是向量值的，所以把 Y 以前面統計樣本 X 替換，而統計量 T 取代上式的 X，則

I(θ; X) = I(θ; T) + I(θ; X | T)

如果給定 T = t 後 X 的條件分布（注意不考慮退化的問題，因 T 是 X 的函數，(T, X) 的分布等價於 X 的分布）和 θ 無關，則對 θ 之微分為 0 a.s.，期望值當然是定值 0。反過來說，

若 I(θ; X | T) = 0，則 D_θ ㏑ h(X|T; θ) = 0, a.s.

依此看來，Fisher 情報量很適合用於衡量樣本資料及統計量攜帶 θ 之訊息量。故：

T 是參數 θ 的充分統計量，是指 T 的 Fisher 情報量等於整個樣本 X 的 Fisher 情報量。

而其等價條件是

T 是參數 θ 的充分統計量，是指給定 T 後樣本 X 的條件分布與 θ 無關。

樣本 X 或 X1, ..., Xn 視為一堆隨機變數，是對樣本空間的一個分割；統計量 T 是 X 的函數，就是把 X 造成的分割做合併，[ T = t ] 對 T 而言是一個點，卻對應 X 中一個由可能少數資料點也可能無數資料點的集合。統計面對的是一個機率分布族，這和機率問題所面對的只是一個機率分布不同，因此無論由較細分割的 X 所產生的機率分布或由較粗略分割的 T 所產生的機率分布都和 θ 有關，也就是說相關事件機率隨 θ 值改變而改變；一般，在考慮 T = t 內由 X 定義的事件的（條件）機率分布時，其分布也隨 θ 值而變。但如果 T 是充分統計量，則在 [ T = t ] 這樣的事件下關於 X 的事件的機率與 θ 無關，對所有 t 值這敘述都成立。當 T 是離散型時，可以用事件之條件機率定義來想像所謂『在 [ T = t ] 這樣的事件下關於 X 的事件的機率』的意思；當 T 是連續型時，所有 [ T = t ] 這樣的事件機率都是 0，無法滿足事件之條件機率的定義：

P{B|A} = P{B∩A}/P{A} 其中 P{A} > 0

在初級課程，是以類比上列事件之條件機率定義而定義出隨機變數之條件 p.d.f. h(y|x) = f(x,y)/g(x), 其中 g(x) = ∫ f(x,y) dy，然後

P[Y in B|X=x] = ∫_{y in B} h(y|x) dy

依這方式，樣本，隨機向量 X，先變換為 (T, U) 兩組隨機變數或向量，

X 和 (T, U) 之間是一對一變換而 T 和 U 都有 p.d.f.，若 T 是充分的，則 U 的條件 p.d.f. h(u|t; θ) 和 θ 無關，對所有 t 成立，其中 h(u|t) 是給定 T = t 之下 U = u 的機率密度。

但這仍有一個問題：上列敘述其中 U 可以是任意與 T 聯合和 X 之間形成一對一關係的向量值統計量；「h(u|t; θ) 和 θ 無關」只是針對一個特定的 U，關於 U 的事件（或稱 U 所定義的事件）只是關於 X 的事件的一小部分，因此似乎難以判斷 T 是否為充分統計量。不過，因子分解定理 (factorization theorem) 卻說：

如果 X 的分布有機率密度可以表示成
f(x; θ) = g(T(x); θ) h(x)
則 T(X) 為 θ 的充分統計量。其逆亦真。

當然這裡「機率密度」一詞是包含連續型分布之 p.d.f. 及離散型分布之 p.m.f.，其嚴謹證明涉及「測度 (measure)」, 前面所談條件分布的概念也是需要測度的概念來完善。不過，就概念的理解，還是初級課程描述的較淺顯，用於離散型隨機變數 Xi，也全無問題。

前面說樣本 X 是對樣本空間的一個分割，統計量 T 是將 X 所做的分割做適當合併，成為對樣本空間的一個較粗略的分割。統計面對的是同樣一個可測空間 (Ω, F) 上面許多機率分布 P_θ，樣本 X1, ..., Xn 決定的事件的機率一般都隨 θ 而變；統計量 T 相關的事件也是 X 相關的事件，因此也隨 θ 而變。如果 T 所做的分割很細，例如 T = X，則 [T = t] 中對應 X 的僅有一個 X = x，相關的事件只能考慮 [X = x] 或空事件，條件機率非 1 即 0，與 θ 無關。反之，若 T 做的分割太粗略，也就是說每個 [T = t] 合併的 [X = x] 太多，其中關於 X 的事件機率很有可能依 θ 值而異。所以，所謂 T 是一個充分統計量，或說 T 對 θ 而言是充分的，就是說 T 的分割，相對於 X 而言，是夠精細的，精細到在 [T = t] 中所有 X 相關事件的條件機率都和 θ 無關。因此，若 T 是一個充分統計量，比它更細的分割 T'，當然假設它也是一個統計量，它也是充分的。我們考慮統計量，就是要縮減樣本資料，例如 Xbar 和 S (或 S^2) 取代整個樣本 (X1, ..., Xn)。但資料縮減的結果可能要付出失去某些資訊的代價，例如 (Xbar, S) 只給我們資料中心所在位置及散佈廣度的訊息；卻不如完整資料 X1, ..., Xn 可以描繪出分布的模樣，可以知道分布是否有偏斜，尾巴是否太長或很短。而充分統計量是告訴我們：如果 θ 是唯一決定群體分布，我們可能無須看整個樣本 X 的觀測值，只要看其充分統計量 T 的值就足以猜測 θ 從而對整個群體分布有所了解。例如：如果知道群體是常態分布，只需要 θ = (μ, σ^2) 的充分統計量 (Xbar, S^2)

Xbar = (X1 + ... + Xn)/n
S^2 = [(X1-Xbar)^2 + ... + (Xn-Xbar)^2]/(n-1)

就足夠了；雖然完整的 X 還可以藉由樣本分布來猜測群體是否有偏態、長尾等性狀，但既知群體是常態分布，那些就沒必要看了。既然是要縮減資料，當然是愈精簡愈好，也就是說統計量決定的分割愈粗略愈好，於是我們不只需要充分統計量，更重要的是最精簡的充分統計量，即所謂「極小充分統計量 (minimal sufficient statistic)」

極小充分統計量，本身是充分統計量，且是所有充分統計量的函數。換句話說：如果 T 本身是充分統計量，並且對任意充分統計量 S，都存在一個函數對應 u(．) 使 T = u(S)，則 T 是一個極小充分統計量。

如果 T, T* 都是 θ 的極小充分統計量，則依上列定義，T 和 T* 互為對方的函數，因此兩者是一對一的關係，這是極小充分統計量的「唯一性」，雖然不是數值上的唯一，但從前面所述樣本空間 Ω 分割的觀點，確實是唯一的。但極小充分統計量是不是必然存在？這問題可參考 Wiki 「充分統計量」或 Lehmann 的 Theory of Point Estimation 書中 sufficient statistics 一節，簡言之，在大多數我們處理的問題裡，可以認為極小充分統計量是存在的。

設 T 在一個分布族 {P_θ: θ in Θ} 是充分的，若 Θ* 是 Θ 的一個子集，則 T 在 {P_θ: θ in Θ*} 顯然也是充分的；但反過來，Ｔ在 θ in Θ* 充分，未必在 θ in Θ 也充分。所以，若 T 在 θ in Θ 是極小充分統計量，在 Θ* 中雖仍是充分的，但不一定是極小的；反之，T 在 Θ* 是極小充分，前面說它在 Θ 未必充分，但如果它在 Θ 也是充分的，則它是極小充分。如果在 Θ 中取固定 θ*，設

f(X; θ)/f(X; θ*) = φ(T; θ), T = T(X)

是 T 的函數，T = T(X) 意為統計量 T 是 X 的函數，則 f(x; θ) = φ(T(x); θ) f(x; θ*)，將 θ* 固定，θ 可以是兩成員之一，依因子分解定理，T 是充分的；反之，若 T 是充分統計量，由因子分解定理，

f(x; θ)/f(x θ*) = (g(T(x); θ)h(x))/(g(T(x); θ*)h(x)) = φ(T(X); θ)

一個特殊情形是 Θ = {θ, θ*}，僅兩個成員，則 T = f(X; θ)/f(X; θ*) 因 θ, θ* 都固定，所以 T 是統計量，是充分的，並且是極小充分的。現如

Θ = {θ_0, θ_1, ..., θ_k}

取 T = ( f(X; θ_1)/f(X; θ_0), ..., f(X; θ_k)/f(X; θ_0)} 則 T 是 θ (或說 Θ) 的極小充分統計量。如果前項 T = u(T*), 其中 u 是一對一的，則 T* 和 T 就樣本空間分割來說是等價的，所以 T* 是極小充分統計量。這提供了一個尋找極小充分統計量的方法：

(1) 計算 U(x; θ) = (f(x; θ)/f(x; θ_0): θ = θ_1, ..., θ_k all in Θ);
(2) 尋找一個和 U 等價的統計量 T, 即
U(x; θ) = U(y; θ) <==> T(x) = T(y)
(3) 若 T 在整個 Θ 是充分的,則它是極小充分統計量.

例如：f(x;θ) = (1/π^n)/{Π_i [1+(x_i-θ)^2]}，取 θ_0 = 0，則

U(x; θ) = f(x;θ)/f(x;0) = Π_i (1 + x_i^2)/[1+(x_i-θ)^2]

令 ψ(x,y;θ) = Σ_i ㏑{[1+(x_i-θ)^2]/[1+(y_i-θ)^2]}，則當 Θ,= (a,b) ≠ φ 時，

U(x; θ) = U(y; θ)   對所有 θ in Θ,
<==> ψ(x,y;θ) = ψ(x,y;0)  對所有 θ in Θ,
<==> Σ_i (x_i - θ)/[1+(x_i-θ)^2] =  Σ_i (y_i - θ)/[1+(y_i-θ)^2]

上列最後條件要對所有 θ in Θ 都成立，如果把 x, y 分別依其數值大小重排後兩組數值相同，則等式成立；若兩組數值不同，即使有個 θ 使等式成立，但 θ 一改變，等式將不再成立。因此，

f(x;θ)/f(x;0) = f(y;θ)/f(y;0) <==> x, y 分別依其數值大小重排後兩組數值相同

所以：對 Cauchy 位置參數族，位置參數 θ 的極小充分統計量是完整的順序統計量。

以前述 Cauchy 位置參數族為例，即使 X 的順序統計量 X(1) < ... < X(n) 是極小充分統計量，其中仍包含許多多餘的成分，例如 i < j 時

X(j) - X(i) = (X(j) - θ) - (X(i) - θ)

由於 θ 在此例是屬於 Cauchy(θ) 的位置參數，諸 Xi - θ, i = 1, ..., n 相當於從 Cauchy(0) 群體抽出的隨機樣本，而諸 X(i) 是諳 Xi 的順序統計量，所以 X(j) - X(i) 的分布與 θ 無關，也就是說這統計量沒有攜帶任何關於 θ 的訊息，這種統計量稱為「輔助統計量」：

輔助統計量是指其分布不受（未知）參數影響的統計量，也就是未攜帶參數訊息的統計量。

既然輔肋統計量未攜帶參數訊息，直覺上，或依據概似度原則，或更正確地說是依據條件性原則，這種統計量應無助於統計推論。但 Brown 詭論卻是前項直覺的反例，或說條件性原則的失效。如果 U 是一個輔肋統計量，並且不是（極小）充分統計量 T 的函數，那麼給定 T 則 U 的分布也與 θ 無關，因此如果說 U 在統計推論或統計分析程序上還有用，可能是在誤差的衡量，或在設定模型（包括群體分布的分布族或參數空間 Θ）的驗證吧。但如前例，極小充分統計量之內可以包含輔助統計量，除去輔助統計量的成分後極小充分統計量不再充分，這就是為什麼會有 Brown 詭論的原因。注意區分輔助統計量是指其邊際分布，即無條件分布和 θ 無關；而充分統計量 T 之外的統計量是「條件機率分布」與 θ 無關，兩者是不同的。當然如果輔肋統計量 U 是充分統計量 T 之外的，也就是說 U 不是 T 的函數，其給定 T 之後的條件分布也與 θ 無關，但這已經與 U 是否為輔助統計量與否不相干了。

樞軸量 (Pivot, 也稱 pivotal quantity), 是由樣本資料和 θ 所構造，也是一個分布和 θ 無關的隨機變數，但它不是統計量。樞軸量要用於建構信賴區間或信賴域，所以它必然包含樣本資料 X 和參數 θ；但輔助統計量是一種統計量，其定義只能涉及 X 而不能含有 θ。

前面說：即使是「極小」充分統量其中可能包含「多餘的」成分，所謂含有多餘的成分，指的是一個統計量 T（不一定充分）存在一個函數 u(T) 是輔助統計量，其分布和 θ 無關。一個較弱化的概念是「第一階輔助（first order ancillary)」，

統計量 U 是第一階輔助的，意指其期望值與 θ 無關。

期望值 E[U], 或為了強調 θ 而記為 E_θ[U], 和 θ 無關也就是說期望值本應為 θ 的函數，結果卻是個常數函數。相對地，如果統計量 T 不包含任何第一階輔助成分，則

E[u(T)] = 0 ==> u(T) = 0 a.s.

如果 u(T) 的期望值是常數 c, 則 E[ u(T) - c ] = 0，所以上列條件式 E[u(T)] = 0 並不失任何一般性。統計量 T 滿足上列條件，也就是說T 不包含任何第一階輔助成分，則 T 被稱為「完備統計量」。顯然，統計量完備表示在對 θ 做推論時，T 是不可缺的，其中沒有冗餘成分。一個統計量如果有多餘成分，暗示它可以再被精簡；而完備統計量是不能再被精簡濃縮的，因為其中並無冗餘。

完備統計量的另一個觀點是其分布族是完備的，例如二項分布族 Bin(n, θ), 如果 θ 只有 k ≦ n 個值 θ_1, ..., θ_k，則要找一個非零函數 u(x) 使

Σ_i u(i) C(n,i) (θ_i)^i (1-θ_i)^{n-i} = 0 for θ = θ_1, ..., θ_k

是可能的，因為上式為 θ 的 n 次多項式，給予 k ≦ n 個根當然可以建立‵一個或無數個 n 次方程式，從而決定 u(i)。若將參數空間 Θ 擴大，使

Θ 包含 {θ_1, ..., θ_{n+1}}

即 Θ 包含至少 n+1 個相異值，則唯有 u(i) ≡ 0 或 u(X) = 0 a.s. 可以滿足條件，也就是說這樣的分布族 {Bin(n, θ): θ in Θ} 足夠完備；而前面 Θ 只有 k ≦ n 相異值的分布族不夠完備。所以，完備統計量的意思是：該統計量的分布族是完備的。但是，如果一個統計量 T 的分布族（源自原樣本 X 的分布族）P = {P_θ: θ in Θ} 是完備的，比 P 小的分布族固然使得 T 不完備，比 P 大的分布族也不能保證 T 仍是完備的，例如

P = {Bin(n, p): 0 < p < 1}, P* = P ∪ {Poi(1)}

則 P 是完備的，但 P* 卻不完偏。

如果統計量是充分的，又是完備的，就稱完備充分統計量 (complete sufficient statistic)。因為完備統計量不含多餘成分，其任何非常數函數也是完備的；但充分統計量的函數如果不是一對一的，則未必仍是充分的。如果 T 是一個完儒充分統計量，考慮其任一非一對一非常數函數 g(T)，任取 g(T) 值域上一點 c ≠ g(0)，定義一新函數

h(t) = t if g(t) = c; = 0 if g(t) ≠ c

則 h(T) 又是 T 的一個非常數函數，所以也是完備的，因此給定 g(T) = c 時 h(T) 的分布和 θ 有關，也就是說 g(T) 不是充分的。這表示：

完備充分統計量是極小充分統計量。

上列結果的正式證明可見：

Lehmann, E. L. and Scheffe, H. (1950) "Completeness, similar regions, and unbiased estimation: Part I." Sankhyā: The Indian Journal of Statistics (1933-1960), 10, 305-340.

Bahadur, R. R. (1957) "On unbiased estimates of uniformly minimum variance." Sankhyā, 18, 211-224.

假設 T 是完備充分統計量，並且存在極小充分統計量 T* = h(T)。如果 h 是一對一的，表示完備充分統計量 T 就是極小充分統計量；否則任何 T* 的函數 η 都不可能使 η(T*) = T a.s.。令

η(T*) = E[ ψ(T) | T* ]

其中 ψ(T) 不是 T* 的函數，則 P[ψ(T) ≠ η(h(T))] > 0，但

E[ ψ(T) - η(h(T)) ] = E[ψ(T)] - E[η(h(T))] = E[ψ(T)] - E[E[ψ(T)|T*]] = 0

這與 T 是完備統計量的假設矛盾。這證明了：

假設極小充分統計量存在，則完備充分統計量是極小充分統計量。

如果 T 是完備充分統計量，如果一個參數函數 g(θ) 有不偏估計，則恰有一個基於 T 的不偏估計量:

Lehmann–Scheffé 定理：若 g(θ) 有不偏估計 δ(X)，T 為完備充分統計量，則存在唯一 T 的函數 η(T) 是 g(θ) 的不偏估計。

［證］令 η(T) = E[δ(X)|T]，則 E[η(T)] = E[δ(X)] = g(θ)。由於完備性 E[η(T)] = g(θ) 的 η(T) 是唯一的。

由於 T 是充分的，所以 E[δ(X)|T] 與 θ 無關，所以 η(T) 中沒有 θ，確實是統計量，是比 δ(X) 變異數更小的 g(θ) 的不偏估計，這稱為 Rao–Blackwell 或 Rao–Blackwell–Kolmogorov 定理；連同上述 Lehmann–Scheffé 定理，得 η(T) 是 g(θ) 之一致最小變異不偏估計 (uniformly minimum variance unbiased estimate, UMVUE) 的結論；而上述兩定理，也成為尋找 UMVUE 的重要方法。

設 T 是完備充分統計量，U 是輔助統計量，則

P[U in A; θ] = E[[ I_[U in A] ]
= E[ E[[ I_[U in A] | T] ]
= E[ η(T) ]

所以 η(T) 是「常數」P[U in A; θ] 之唯一基於 T 的不偏估計，故

P[U in A; θ] = η(T) = P[U in A |T ; θ], a.s.

由於對任意 A，事件 [U in A] 的條件機率 (given T) 和無條件機率都一致，所以 U 與 T 獨立。這稱為 Basu 定理。例如在常態位置族 N(θ, σ^2), θ in R 中，T 是樣本平均數 (前面的 Xbar)，Ｕ是樣本變異數 S^2，是 θ 的輔助統計量，根據 Basu 定理，立即得到 T 與 U 也就是樣本平均數與樣本變異數獨立。