臆想的群體：超群體隨談－劉應興的部落格

實務上常有一種情形：研究對象是一個小群體，不適合或無需再抽樣，因而「理論上」所做的統計分析是敘述統計，什麼統計量的標準誤、信賴區間、統計假說等都和這群體無關。然而事實上研究者不這麼想，也不願意「只是」做敘述統計描述一下這個小群體的狀況。

真正的描述統計應用不是沒有，事實上許多政府統計，包括長川登記的週期性報告與一些普查的報告都是常見的例子；私人機構也會有群體資料蒐集及整理結果的報告。它們對蒐集資料的機構都很有用，是了解一個群體的重要資料。不過，除此之外，很多時候在這些群體資料背後，研究者還會假想有一個超群體的存在，而對此超群體進行統計推論。

一個典型例子是時間數列分析。時間數列每一期資料可能是當時某個群體的資料，也可能是對當時某個群體的抽樣資料，但是對時間數列的推論，事實上都是假設了一個超群體的存在，在這樣的假設架構下，即使每期資料都是當時的群體資料，因此整個時間數列可能是整段歷史群體（各期群體的整合）的一個群體結果，但在統計人員眼中，這些資料只是一個隨機過程的一個樣本路徑 (sample path) 的一個片段，而統計分析的目的就是藉由這一個樣本路徑的片段推論整個隨機過程的結構，用以解釋某些問題或預測此過程此路徑未來的可能變化。

對一個小群體做普查，例如對某一學校或甚至小到對一個班的學生做調查，結果當然不能推論到所有學校，因為一個班不能代表一個學校，一個學校不能代表全國甚或全世界同一階層的學校；但是，研究者或調查者可能仍有個願望：我調查這一班（假設）40個學生，並不想只是代表這幾個學生，我希望能有更深層的代表性。可以嗎？個人淺見認為是可以的，那就是承認「超群體」的存在。如同在時間數列，我們認為它是一個隨機過程的一個樣本路徑的片段；一個小群體，又何妨將它視為一個超群體的隨機樣本？這個超群體並不是想用一班來代表一校，一校代表全體學校，而只是一班所代表的超群體，雖然難以言說，因為它並不能代表更大範圍，看來似乎沒什麼具體用處？

不能代表更大範圍，使得「超群體」這樣的概念有點像是在玩儀式，做做樣子。但是，如果採用超群體的想法，即使是普查資料，調查或觀測的群體是背後超群體的隨機樣本，那麼，推論統計的方法也就用得上了。一個班級的學生不能代表更大範圍如全校的學生，但它代表了「像這班一樣」的學生，因此計算了這班學生某一性狀的平均數標準差等描述性統計量數之後,可進而計算這些「統計量」的「標準誤」; 可以進行「統計假說檢定」。如果有兩個班的普查資料，敘述統計的想法是直接比較資料計算出來的各種統計量數，數值差異小認為「沒有實質差異」，否則認為它們之間確實有所不同。採用超群體的想法，兩組「普查」資料只是兩個超群體的隨機樣本，可以從隨機抽樣的觀點評估兩個超群體其實是相同的，差異只是因為機會因素；或者兩班的差異是「真實」存在的，至於這樣的差距是否存在實質意義則另做討論。

超群體的想法把可見群體視為只是超群體的隨機樣本；即使我們的資料不是對可見群體做普查而是隨機抽樣，其隨機樣本仍是超群體的隨機樣本。因此，對抽樣資料而言，統計分析方法沒什麼變化，只是推論目標可以是抽樣群體，也可及於背後的超群體。但對普查資料來說，它可免除普查資料分析者只能看數字敘述的無奈，照樣進行統計推論，只是其推論目標是什麼，從事該分析者需好好解釋。