[問]
統計問題
假設抽樣來自常態分佈
1.如果已知母標準差,則樣本平均的分佈亦為 N(u, sig/sqrt(n)),則可用
(x bar - u ) / (sig/sqrt(n))方式計算區間
2.如果不知道母標準差,則 上述的標準差用無偏估計s/sqrt(n-1)取代
sig/sqrt(n) 但取代後 (x bar - u ) / (s/sqrt(n-1))已不為常態分佈
(而是t分佈), 就有人去研究t分佈長相,所以根據此分佈計算區間
我想問的是,既然是因為有研究才知道t分佈,而可以解決此類估計問題,
那當初可否不用無偏標準差,而直接採用 (x bar - u ) / (s/sqrt(n)),
然後取名xx分佈,再去研究xx分佈,一樣可以透過樣本平均跟樣本標準差
去估計母平均呢?
[回]
當常態群體僅平均數未知時,Xbar - mu 的分布和未知參數無關,也就是說可以得到其分布,其分位數,因而可以取一區間 [a,b] 具有預定機率,從中導得 mu 的信賴區間。當然以 Xbar 之標準差 sigma/sqrt(n) 去除,而得 Z 變量,結果具標準化常態分布,得類似的區間,從而亦得出 mu 的某一水準的信賴臨間。
當常態群體有平均數 mu, 標準差 sigma 兩參數未知時,Xbar - mu 之分布仍依賴 sigma,所以需再以一個分布和 sigma 有關的統計量調整,於是取代 Z 的 t 變量 (用樣本標準差代替 Z 定義式中的群體標準差) 是自然的考慮,而統計學者發現 t 變量的分布與未知參數 mu, sigma 皆無關,並命名此分布為 t 分布。同樣可以計算其各分位數,因此可以得預定機率的一個區間,並得到 mu 的某一水準的信賴區間。
如果 s 是所謂樣本標準差 s = sqrt(sum(Xi-Xbar)^2/(n-1)), 則 t 變量是 t = sqrt(n)(Xbar-mu)/s, 如果 s 計算式中分母用 n, t 變量才是 t = sqrt(n-1)(Xbar-mu)/s.
是否一定要用 t = sqrt(n)(Xbar-mu)/s? 用其他指標可以不可以?例如用樣本全距或四分位距代替 s?我想應該可以,例如全距
R = X(n)-X(1) = [(X(n)-mu)/sigma - (X(1)-mu)/sigma]*sigma
上式表示 R/sigma 的分布會和 mu, sigma 均無關,所以
T = sqrt(n)(Xbar-mu)/R 的分布也將會與 mu, sigma 無關,因此其
分布可以確定。
那麼,為什麼用 t 而不用上述 T?原因之一是 t 的分布已經被得到;原因之二是:基於統計假說檢定問題
H0: mu = mu0 against H1: mu != mu0
從最強力檢定的觀點,可以導出 t 檢定是 "一致最強力不偏檢定",也就是說在所有不偏檢定 (檢定力不小於型Ⅰ誤機率的檢定)中,基於 t 之檢定具有一致最強的檢定力。而 mu 之信賴區間和一系列的 mu = mu0 vs. mu != mu0 的檢定問題可以說是相當的,因此基於 t 變量的信賴區間也具有某種最佳性因此,就不必再考慮其他種信賴區間了。當然,這只是在樣本隨機抽自常態群體時是這樣,如果群體不確定是常態,或確定不是常態,那就需考慮其他信賴區間了。
上面在談 t =sqrt(n)(Xbar-mu)/s 時說「 t 變量」而不是 t 統計量,因為它不是統計量。統計量是純粹由樣本可計算出來的,但此處 t 的計算或定義需要未知參數 mu。事實上這另有一個名詞:樞軸量 (pivotal quantity), 是建構信賴區間的一個工具,參見「
」一文。