離散與連續的問題——兼談統計非應數

其實這是十年前的問答,重新整理並加上目前的理解。

問的是關於「間斷與連續隨機變數的分類」。其中「間斷」一詞更多的中譯是「離散」，英文是 "discrete".

問者說：

課本上寫著間斷隨機變數的定意是

「隨機變數的變量其個數是有限的，或是無限但可數的。」

舉的例子有「一枚銅板的正反面、抽取十顆蘋果檢測品質、購買手機顧客的性別、出售的腳踏車數、交通警察一天處理的事故量」

而連續隨機變數的定義則是

「隨機變數的變量其個數是無限的且不可數的。」

舉的例子有「陳先生的月薪、醫院病人的候診時間、抽取一家電腦廠商的年生廠量、抽取1250ml瓶裝汽水」

我不懂的是為什麼出售的腳踏車數是間斷

而電腦廠商的年生產量就可以是連續

那交通警察處理的事故量怎麼也可以是可數呢

1250ml應該是一個有限的範圍吧可是又為什麼算是連續我要回答

這是 2012 年 4 月初提間的，當時我的回答略謂：「隨機變數的變量其個數是有限的，或是無限但可數的」是數學上的定義；「出售的腳踏車數是離散，而電腦廠商的年生產量是連續」是實務上的處理。並談到統計是一門實務或務實的學問，並不像數學那樣一切以嚴格定義為依歸，絕不要把統計視為數學的一分支或「應用數學」。若依嚴格的數學定義，所有統計方法幾乎可以說都是錯的，至少是不可用的。例如基於常態群體的方法、二項分布等在嚴謹數學上不可用，因為實務涉及的資料幾乎沒有一種是符合常態分布的，實務現象也難以保證符合二項分布的假設。所有統計推論都基於隨機樣本, 甚至是簡單隨機樣本, 但實際的資料頂多是 "接近" 隨機或 "可視為隨機"，多數的抽樣調查都不會採用簡單隨機抽樣，而是更複雜的抽樣設計。

從實務的觀點不能完全依數學定義來，身高、體重理論上是連續的，但測量精度有限，實際上獲得的資料在數學定義上是離散的. 但一般我們仍當做連續型的在用；一家腳踏車店一個月賣出的輛數很有限, 因此不妨依其本質以離散型變數處理，但若一家大型車店，或批發商，或看的是一年賣出數量，可能數量太多，不方便以離散型來處理，因此會當做連續型的。所舉之例如電腦生產商一年生產量，絕不會只有幾十部甚至不到十部，除非是很久以前那種大型主機時代，因此實務上不方便以離散型來處理，而必須以連續型對待。

數學上「離散隨機變數」與「連續隨機變數」的定義很明確，但還是不完整，因為隨機變數的分布，除了 "離散" 與 "連續"，還有 "混合型"。甚至，在 "連續型" 中還有統計上用不到的 "奇異連續" 與 "絕對連續" 的概念。隨機變數與其分布不可分，那麼混合型及奇異連續型的分布所對應的隨機變數又是怎麼來的？前者在有些情形倒是容易理解，例如設限資料（存活資料）只在某範圍內有觀察記錄是連續的，其餘被 censored 的資料是離散的。但這類型以及其他可以舉出的實例不是混合型分布所對應資料的全部。

事實上, 發生疑問的關鍵在於 "統計" 與 "數學" 是不同的。隨機變數是數學的概念，是有明確分類定義的；而實務上的 "變項" 或稱 "變數"，是資料如何看待、如何被處理的問題。統計用到數學的東西，但絕對不能食古不化，用數學的東西卻不能被數學完全限制。事實上不只統計如此，其他用到數學的學科也是如此。就統計上來說，我們更關心的是實務資料的分類，這牽涉到要採用什麼分析方法。就實務(統計)上來說，我們從來沒有看過真正連續的資料，因為所有量測的精確度都是有限的，如前面身高體重。然而，離散型資料其可能值太多時，即可以連續型視之。因此，身高/體重/考試成績等在實務上其實符合 "離散型" 定義的變數都被當做是連續型。其實在其他用到數學的地方，多的是 "近似" 的例子。地球並不是平的，但平面幾何仍是有用的；就算球面幾何嚴格來說也不適用於地球，因為地球並不是完全球型。方程式有公式解的不如沒有公式解的多，而數值解不就只是求 "近似" 解嗎？級數收斂或發散為什麼重要？這不只是數學上的一個性質而已，級數收斂，表示我們可以藉由計算有限項部分和得到級數和的近似值，不確定收斂的級數， "近似值" 的計算可能是徒勞的。解方程式或其他疊代程序如不能證實是收斂的，計算結果可能只是一個自欺欺人的假象而已。因此說：要用數學（因為需要理論的指引），但不要完全被數學管制（因為實務上通常只能 "近似"）。

統計資料分析有一個觀念：
　　所有統計資料的分析都必須做假設.；
　　但是，要記住：所有假設都是錯的！

對一個 "陌生" 地方, 我們需要地圖；但沒有一本地圖能完全準確地描繪出那個地方。地圖不夠準確，但還是有用。資料分析時所做的假設嚴格來說都不符事實，但一些可近似描述事實的假設是有用的。因此，即使 "常態性假設" 幾乎從來都不符事實，在許多情況它仍是有用的。即使「中央極限定理」在數學上是說 "樣本數 n 趨於無窮大" 的極限情況，它的實務意義卻是 "只要 n 夠大，就可套用中央極限定理的結論"，雖然在套用時仍有疑慮: "n 要多大才算夠大？" 但一些數值計算或模擬結果能給我們一些 rule of thumb.

把數學運算應用於實務問題，有時我們會把本質是離散的問題 (離散型變數) 當做連續的，而採用連續型變數運算的數學方法如微積分; 有時我們又需要把連續型問題 (連續型變數) 當成離散的，而採用離散型運算方法 (差分法, 加總求和法)。數學上處理變數，連續的就是連續的，離散的就是離散的，而實務上不管統計或其他領域，卻可能把一個變數一忽兒視為連續的，另一忽兒又視為離散的，這完全看需要或方便。而數學這個工具，通常又能提供給我們這種變來換去的理論基礎：近似，我們可以近似地把一個連續型變數用離散型計算處理，也可以近似地用連續型運算方法去處理一個本質上是離散型的變數。

在台灣，很多人總喜歡把數理統計學甚至整個統計學當做「應用數學 (applied mathematics)」的一個分支，中文維基「應用數學」條目就如此。但查閱英文版 "applied mathematics" 條目卻不然，其中界定

Applied mathematics is a combination of mathematical science and specialized knowledge.

The term "applied mathematics" also describes the professional speciality in which mathematicians work on practical problems by formulating and studying mathematical models.

數理統計確實離不開數學，但鮮少聽說因為研究統計問題開創了數學哪方面的發展。數理統計所應用的數學，似乎也不是統計學所專用的。微積分、線性代數、組合數學、機率論算是統計最常用的數學工具，卻都早於統計學許多時間就發展起來。其他如複變、泛函、抽象代數等等在某些統計領域方向或研究中偶而會用到的東西，也只是用到這些工具而已，並沒有激發出新的數學發展，更甭說開創數學研究的新領域。在英交維基中提到許多數學家區分 "applied mathematics" 和 "applications of mathematics", 還提到數學家如 Poincare (1854-1912), Arnold (1937-2010) 否定 "applied mathematics" 的存在，宣稱只有 "applications of mathematics"。

我在讀大學時曾去數學系聽了一次「數理統計學」的課，那真是完全的 mathematical-style, 整整兩節課都是定義、定理，很有在統計系上高等微積分的感覺。後來因為每週 3 節課有一節衝堂，也就放棄旁聽的計劃，不知他們在後面談到統計推論時會不會有點統計的味道？

數學和物理的關係很密切，但物理學家、學生想來不會同意物理是應用數學的一個分支；現代經濟學也很需要數學及統計做為工具，同樣即使專注於數理經濟學的學者大概也不會認為那是應用數學的一個分支，從事計量經濟學方法的學者或許更願意說他們是跨越了統計學與經濟學兩個學門，而不願被看做是統計學的一個分支。統計學，即使只論數理統計學，專注點更多是關於統計問題而非數學理論或方法的發展，例如點估計，重點在如何更精準地估計群體未知參數；而不是探索有哪些評估準則，具有甚麼數學性質；例如統計假說檢定，重點在如何從樣本資料幫助我們做決策，而不是怎麼假設可以得到漂亮的解。承認統計學是一獨立學門，有其獨自的特點及關注的方向，才能有更大、更務實的發展。

等死的老賊

劉應興的部落格

等死的老賊發表在痞客邦留言(0) 人氣(955)

劉應興的部落格

歡迎光臨劉應興在痞客邦的小天地由側欄的文章分類可以知道這個部落格的主題。