如果 X1, ..., Xn 是自具連續型分布,p.d.f. f(x),的群體抽出的(簡單)隨機樣本,則其(完整的)順序統計量
Y1<...<Yn
的聯合 p.d.f. 很容易知道,是
g(y_1,...,y_n) = n! f(y_1)...f(y_n), y_1 < ... < y_n
所以
P[X1 = y_i(1), ..., Xn = y_i(n)] = 1/n!, i(1),...,i(n) 是 1,...,n 的一個排列
和原本的群體分布,或 X1, ..., Xn 的聯合分布無關,因此,完整的順序統計量 (Y1,...,Yn) 是群體參數的充分統計量 (sufficient statistics),不論群體分布族多大多小、是如何參數化,只要它是一個由一些連續型分布組成的分布族。
如果 X1, ..., Xn 的共同分布 F(x) 或其密度(含機率質量)函數 f(x),不是連續型呢?特別是如果群體分布 F(x) 是離散型,
f(z_j) = P[X = z_j] = p_j, j = 1, 2, ...
則 X1, ..., Xn 的順序統計量 Y1, ..., Yn 的聯合分布不再是 n! f(y_1)...f(y_n), 以 n = 2 為例,
P[Y1 = y_1, Y2 = y_2] = 2 p_1 p_2 if y_1 ≠ y_2 且是 x_1, x_2 的排列;
= p_1^2 if y_2 = y_1 = x_1
因此,在給定 Y1 = y_1, Y2 = y_2 時,X1, X2 的條件分布是
若 y_1 < y_2
P[(X1, X2) = (y_1, y_2) | (Y1, Y2) = (y_1, y_2)] = 1/2,
P[(X1, X2) = (y_2, y_1) | (Y1, Y2) = (y_1, y_2)] = 1/2;
若 y_1 = y_2
P[(X1, X2) = (y_1, y_2) | (Y1, Y2) = (y_1, y_2)] = 1.
當 n=3 時,順序統計量 Y1, Y2, Y3 的分布是
g(y_1, y_2, y_3) = 3! f(y_1)f(y_2)f(y_3) if y_1 < y_2 < y_3,
= 3 (f(y_1))^2 f(y_3) if y_1 = y_2 < y_3,
= 3 f(y_1) (f(y_2))^2 if y_1 < y_2 = y_3,
= (f(y_1))^3 if y_1 = y_2 = y_3.
給定 (Y1, Y2, Y3) = (y_1, y_2, y_3),則 X1, X2, X3 的聯合條件分布是
P[X = x | Y = y] = 1/3! if y_1 < y_2 < y_3, x 是 y 元素重排;
= 1/3 if y_1 = y_2 < y_3, x 是 y 元素重排;
= 1/3 if y_1 < y_2 = y_3, x 是 y 元素重排;
= 1 if y_1 = y_2 = y_3, x = y.
條件分布之不同,僅在於所給條件,y 的組成有所不同,卻與群體分布 f(x) 無關。推至一般的樣本大小 n,假設樣本 X 的觀測值是 x, 其中元素值 x_i 可依其值分成 k 堆:
y_1 = ... = y_n(1) < y_{n(1)+1) < ... < y_{n(1)+n(2)} < ... < y_n
則順序統計量 Y 的分布是
g(y) = M(n; n(1),...,n(k)) (f(y_1))^{n(1)} ... (f(y_{n(1)+...+n(k-1)+1}))^{n(k)}
式中 M(n; n(1),...,n(k)) 是多項係數 (multinomial coefficient),是不完全相同(有重複)之 n 物的排列數,也是 k 個變數和之 n 次乘冪展開式中對應各變數 n(j) 次乘冪之項的係數。給定 Y = y, 則 X 的條件分布
P[X = x | Y = y] = 1/M(n; n(1),...,n(k)) 若 x 的元素只是 y 元素重排
注意 M(n; n(1),...,n(k)) 只‵與 y 中各元素值重複次數有關,完全由 y 的組成決定,與群體分布 f(x) 無關。換句話說,X 是自群體分布為 f(x) 的群體抽出的簡單隨機樣本,Y 是其順序統計量,則給定 Y = y 後,X 的條件分布與 f(x) 並無關聯——硬要說有關聯,只在於單點機率是否為 0,因為那會影響上述條件機率是單一的 1/n! 或複雜的 1/M(.)。由此可知:無論群體分布是連續型或離散型,完整的順序統計量都是(參數的)充分統計量。
如果是有限群體不等機率,一個數學模式是離散型且支撑集 (z_1, ..., z_m} 是有限集,並且抽樣時去除樣本值相等的情形,則 X 的分布是
f(x_1,...,x_n) = p(x_1)[p(x_2)/(`1-p(x_1))]...[p(x_n)(1-p(x_1)-...-p(x_{n-1}))]
其中 p(x) 是自群體抽出 x 的機率,p(y)/[1-p(x)] 則是排除 x 抽出 y 的機率,以此類推。這是逐一抽樣的方式,機率與 x_1, ..., x_n 的抽出順序有關。在 n = 2 時,是 p(x_1)p(x_2)/(1-p(x_1)); 順序統計量的分布
g(y_1, y_2) = p(y_1)p(y_2)/(1-p(y_1)) + p(y_1)p(y_2)/(1-p(y_2))
由於抽出順序影響機率,給定 Y1 = y_1, Y2 = y_2,則 X1, X2 的聯合條件機率是
P[X1=y_1, X2=y_2 | Y1=y_1, Y2=y_2]
= 1 - P[X1=y_2, X2=y_1 | Y1=y_1, Y2=y_2]
= [1/(1-p(y_1))//[1/(1-p(y_1) + 1/(1-p(y_2)]
不再與「群體分布」p(x) 無關。注意在先前假設無限群體時,所謂「隨機樣本」是假設 X1, ..., Xn 為 i.i.d., 故其聯合機率密度或質量
f*(x_1,...,x_n) = f(x_1)...f(x_n) = f*(x_τ(1),...x_τ(n))
式中 (τ(1),...,τ(n)) 是 (1, ..., n) 的任意排列;f 是群體分布,而 f* 是 n 個觀測值的聯合分布。在這裡「有限群體」的抽樣方式設定使得上列 f* 的「符號對稱性」不成立,因而給定順序統計量的值,原樣本的條件分布仍與群體分布 p(x) 有關。如果在有限群體的抽樣,例如實務上對群體個體中的等機率抽樣,事實上仍滿足
f*(x_1,...,x_n) = f*(x_τ(1),...x_τ(n)) for any τ in Sn
式中 Sn 指的是 1,...,n 的所有排列形成的集合(排列 τ in Sn 可以看成是 {1, ..., n} 映成自身的 1 對 1 函數), 則順序統計量 Y 的分布是
g(y) = n! f(y)
所以 P[X = x | Y = y] = 1/n! 當 x 的元素是 y 的元素的排列;或更正確地,P[X = x | Y = y] = 1/M(.),因為對有限群體個體等機率(不放還)抽樣,雖然不允許抽中相同個體,但不同個體卻可能等值,而統計計算中只考慮觀測值,不能排除 y_i = y_j 的情況,則 X 至 Y 的對應不是 n! 對 1, 而是 M(.) 對 1。