「疾管家」上每天發佈的統計,包括每天新增確診人數統計,有性別和縣市別;今年度累計中重症年齡組別統計,含當日變動;當日新增死亡疫苗接種別、年齡組別統計。

以一個曾是統計工作者的角度來看這些統計資料,且不管如今民眾所持疑的黑數問題,單以統計發佈方式來說,其作用甚小,而不能提供民眾所需資訊,為其玫策做辯護。

首先,每天新增人數及新增死亡數當然是必要的,縣市別統計也是必要的(甚至我還希望各縣市有鄉鎮市區別,但前些時間網路找了一番卻沒找到。)新增死亡數之年齡組別也是需要的,但是,它們提供的資訊太少了,而且有誤導的嫌疑。這種誤導並不是執政當局有意為之,也不一定有利或不利執政當局,但卻可能導致無謂的騷亂或不公正的評價。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

統計中常假設我們要研究的是一個群體,藉由樣本資料對群體特性做推論。然而,有時候事實是:我們更關心個體。例如醫學上我們常聽(見)到罹患率、治癒率、平均存活年數等,都是關於群體的;但我們更關心個體:某疾病治療方法 A 成功率 90%, 治療方法 B 成功率 60%,看來明智的選擇是 A,但事實是否如此?對一特定患者而言,嚴格來說沒什麼成功率的問題,只有成功或失敗的問題,勉強要用「率」來描述,也應是該療法用於此患者的「成功機率」。成功率是一個統計數字,成功機率則是基本指標。如果同樣考慮群體,成功率可能是平均成功機率的一個良好估計,但把成功率用在個體上,等於用群體平均結果來代表個體,在訊息缺乏的時候是不得已的,但也只是「不得已」之下的無奈。

在關注群體的統計分析中,個體間的差異被當做隨機誤差,Xi = μ + εi;而實際上可能是 Xi = μi + εi 或 Xi = μi。當然實際上如果是前者,除非知道 μi 的模式,例如 μi = α + β Xi, 我們不可能區分完全無序的 μi 間的「個別差異」與純誤差 εi。如果純誤差是屬於測量誤差,尚可藉由重複測量來平均化誤差以減低誤差的效果,否則只能把 Xi 當做個體的真值。

從敘述統計來說,如果需要關注的是個體,我們將不會只滿足於描述群體的平均數、標準差、偏態、峰度,我們更要關注個體在群體的哪個位置及其影響。例如行政院主計處發佈去年(110 年)平均月薪 55.8K,然而這個數字與你我個人有多少關係?對一個月收入 25K 的人來說,頂多感嘆自己所得還不到平均值的半數,對一個月薪 300K 的人來說,那平均值只是個笑話。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

機率中的「獨立」是一個特殊的概念,初學者有不少為「獨立」與「互斥」混淆。互斥其實只是集合間的關係,在機率學中也就是事件間的關係,只要兩個事件沒有交集,或說交集是空事件(空集合),那就是互斥。但獨立則不然,兩事件是否獨立,還要看機率。也許在某個機率分布(指在一個樣本空間上如何設定各個事件的機率)事件 A 和 B 是獨立的,但在另一個機率分布下卻不然。所以互斥事件可以用 Venn 圖解來解釋,獨立卻不行。硬要圖解的話,樹形圖 (tree diagram) 勉強算吧。說「勉強」,因為表現獨立與否的還要看上面標示的條件機率;而且樹形圖其實比較適合表示多階段實驗,對於同時、等同地位的事件而言,榭形圖固然也被使用,卻也可能被誤解為事件之間有地位或順序的不對等。

機率中的獨立是指什麼意思?如果 P{A} > 0, 則

B 與 A 獨立表示 A 之發生不會影響 B 發生之機率,即 P{B|A} = P{B}

等死的老賊 發表在 痞客邦 留言(0) 人氣()

本文將從基本的事件條件機率定義,談到有點抽象的「給定一個 σ-體」的條件機率與條件期望值 ,實務上就是「給定一(或多)個隨機變數」的條件機率與條件期望值。

談機率一開始都假設一個宇集 S,稱為樣本空間,又稱必然事件,是隨機實驗各種可能結果所形成的集合。而所有被考慮的事件,都是樣本空間的子集。所謂隨機實驗很難定義清楚,這裡就不定義,只需知道隨機實驗是計算機率的基礎,如抽牌、抽球、擲骰子、擲硬幣等無法預知結果而如果能重複地操作其出現各種結果的相對頻率會出現規律性。

一個事件 E 發生,指的就是隨機實驗的結果是在 E 中。機率問題常問的是:某一個事件,例如 E 發生的機率是多少?但很多時候我們也會問這樣的問題:已知道事件 E 發生,那麼事件 F 也發生的機率是多少?我們稱這是「給定 E 發生,問 F 發生的條件機率。」因為「已知道事件 E 發生」等於給「機率多少」這個問題加了條件︰我們是在「E 發生」的限制之下考慮機率的問題,也就等於把樣本空間從原來的宇集改成限制在 E 之內。從隨機實驗實務上來說,相當於把結果在 E 之外的都拋棄,只保留結果在 E 之內的。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

期望值,  mathematical expectation, 一個概念還分什麼初級高級?高級是怎麼一回事?真的比較「高級」嗎?

其實初級和高級沒什麼高低之分,只是數學方法的不同而已。什麼是初級?就是在大學以下課程中談機率、談統計,用到的數學工具不過是代數運算、普通微積分。什麼是高級課程方法,不過是把機率當做一種測度 (measure),以測度論為工具的討論方法而已。若硬要說有高低之分,不過是測度論或所謂高等機率論或正式的機率論,通常是大學高年級選修或研究所才有的課程;而初高級統計、機率概論等課程則是大學低年級,統計或其他專業必修或選修課程。初級課程的方法不能說有什麼錯或不嚴謹,只是有些情況受限於數學工具可能難以完整考慮而已。例如在初級課程,考慮隨機變數及其機率分布時,必然要分連續型、離散型。然而隨機變數及其分布不只限於這兩型,至少還有混合型。而高機的方法可以不管連續離散之分,可以含蓋所有類型,也可以更嚴謹地處理所有問題。但是,不管初級或高級方法,本質上是一樣的。

首先,我們有一個實驗所有可能結果的集合,稱為樣本空間,在這樣本空間中我們把它的子集稱為事件,這些事件上可以指定一個 0-1 之間的值稱之為機率。在這(樣本空間、機率)的整體架構上另外可以定義實數值函數把每個樣本點映至一個實數,這就是隨機變數。初級課程談機率、隨機變數大概就是這樣,當然一般還加上機率的三個條件:

等死的老賊 發表在 痞客邦 留言(0) 人氣()

假設我們做如下假說問題的檢定:H0: θ in Θ0 對 H1: θ in Θ1。在 Θ0,我們考慮一點 θ0,在此點

α ≧ P(拒絕 H0 | θ = θ0) ≧ P(拒絕 H0 | θ = some value in Θ0)

例如在平均數檢定 H0: θ1 ≦ θ ≦ θ2 對 H1: θ < θ1 or θ > θ2,則 θ0 將是 θ1 或 θ2,看在哪一點拒絕 H0 的機率最大。在我們通常遇到的假說檢定問題和採行的檢定程序,在所有 θ in Θ0 中,拒絕 H0 之機率最大總發生在 Θ0 的邊界。之所以如此,是因我們採行的檢定程序通常符合「不偏性 (unbiasedness)」的要求:

等死的老賊 發表在 痞客邦 留言(0) 人氣()

印象中有一個句子其中包含「用則進不用則退」這幾個字或相等意思的字詞,網路搜尋卻沒找到,倒是查到了一些對「用進廢退」論的批判。不管這些,畢竟我要說的只是個人的感觸,跟生活學習可以說有關係,和生物演化不相干,哪管他用進廢退或物競天擇?

忽然發現:以前或許不能說電腦方面懂多少,程式軟體使用多厲害,但要上手個軟體其實沒多大困難。當初是公務員時,憑著國外某大學一本MCA程式的說明,自己也寫了一個MCA的程式;為了科室業務的需要,也用dBASE寫了一個程式供同事使用,並數次應要求修改之以適應新的需求。後來從事統計及方法方面的教學,積極尋找課程練習用的免費軟體,自己熟悉後教給學生使用。而今再翻看當時留下的紀錄,感覺自己並不能立即重拾當時的經驗立即使用,必也需要重新練習。

想起學過的統計、數學的東西,許多不經常使用的東西,都已日漸模糊。如機率論中許多存在不存在的問題,許多極限、收斂的定理,如今甭說去證明,就連定理內容也多數不記得;統計決策中如何證明 admissible、如何證明某估計量精確度 dominate 另一估計量,如今完全沒有任何想法。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

Poisson 分布,中譯:卜瓦松分布,柏松分布,波松分布。許多不同譯名,還是用英文名吧。

Poisson 分布常用在計數資料,當然計數資料不一定服從 Poisson 分布,什麼資料可以用,最好是透過資料產生程序來看。首先,它是一個點過程,是一個出生過程的產物。也就是說:計數資料是一段時間、一塊區域、或一個立體、或更抽象空間上一個「點」的數量的問題,這些點產生(出生)之後就不會消失(死亡)。其次,它要滿足三個條件:

1. 從 0 開始。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

網購要小心,特別是像我這樣貪小便宜的,很容易被騙。

大約是5-6年前吧?大概是在 FB 看到一個行動電源的廣告,號稱高容量,太陽能充電。一看價格挺划算的,我先前在正規手機店買過一個容量不高的,花了 700 元,而該行動電源才 750 而標示容量高了很多,一下子訂了兩個。沒想到真正拿到貨,所謂太陽能充電根本無效,實際充電後充手機,甚至比不上我先前買的低容量電源,而且用沒多久就報廢,無法正常運作了。又過了些日子,甚至膨脹了!

前些日子在 FB 上買過一部書,雖然實際看到書後對內容略有失望,但平心而論它確實算便宜,只是因下單前有些過高期望才略有失望。這次的成功購買無疑讓我對 FB 上之廣告重建了一點信心,可是很快又被打臉了!下單訂購了號稱 4TB 的硬碟,結果今天收到貨付了款接上電腦一看,容量以硬碟算法號稱 20GB (以記憶體算法 18.x GB)。網路搜尋 「4TB 騙局」,果然是騙局沒錯。

等死的老賊 發表在 痞客邦 留言(1) 人氣()

統計分布的形態描述大致有兩套系統,一是分位數,

> x <- rgamma(100,3,1)
> str(x)

等死的老賊 發表在 痞客邦 留言(0) 人氣()

常態分布可說是統計中最重要的分布,許多方法建立在常態群體的基礎上(如常態群體之平均數、變異數推論,線型迴歸分析等),另有些方法建立在可以近似常態的群體分布基礎上(如二項比例之推論,次數資料之各類卡方檢定等),還有許多方法最後也倚賴常態分布為計算工具(如基於 rank 的非參數方法,排列檢定等除了極小樣本以外常以常態分布為基礎計算臨界值)。

常態分布最早是棣莫佛 ( de Moivre ) 在 1718 年的書 Doctrine of Change 首先提出,1733 用它來計算投擲大量硬幣結果的機率,並於 1734 年發表的一篇關於二項分布的文章中提出 n 很大,p = 1/2 時所推導出的近似分布就是常態分布(Laplace 1812 將其擴充至 0 < p < 1 的情形),被認為是最早的中央極限定理。基於常態分布,Legendre 於 1805 引入最小平方法(1806 發表),Gauss 則宣稱他早在 1794 就使用了該方法,但他的結果是 1809 才發表的。Jouffret 在 1872 首次提出「鐘形曲面」這術語來指代雙變量常態分布,是「鐘形曲線」一詞的由來。但由於「常態分布」被認為是反映和鼓勵了一種謬誤,以為只有它是正常分布狀態,因此在數學理工領域常稱之為「高斯分布」( Gaussian distribution )。

常態分布的分布函數 ( d.f. ) 曲線是S形曲線,其函數形式不能以中學數學學過的函數來表示,只能用積分式表現。但數學上另定義「誤差函數 ( error function )」為

等死的老賊 發表在 痞客邦 留言(0) 人氣()

大數法則與中央極限定理是統計學中極重要的兩個機率學定理,其中大數法則可以說是統計推論的基礎,而中央極限定理則是計算的重要工具。故事是這樣的:當樣本數 n 變得很大,大數法則把樣本平均數往群體平均數靠攏,在極限狀態已無法分辨了—— P[lim Xbar = μ] = 1 —— 可是,我們實際上並不處於極限狀態,n 一直都是有限的,哪怕有數萬個樣本觀測值,相對於群體數百萬、數千萬甚至實際上就是無限的,樣本與群體還是有差距的。那麼,想看清楚樣本平均 Xbar 與群髒體平均 μ 的差距,就藉助放大工具吧!於是,(√n)(Xbar-μ) 把 Xbar 與 μ 的差距放大 √n 倍來觀察。結果發現:如果我們不是只抽一組大小為 n 的樣本,而是抽無數組大小為 n 的樣本,這些樣本平均數圍繞在 μ 的周圍,竟然形成了理想分布形狀——常態分布。這就是「中央極限定理」,它告訴我們:不管群體分布的形狀如何,只要符合某些條件,當樣本無限增大時,√n(Xbar-μ) 都會逐漸變得像常態分布的模樣。

數學的描述是用「極限」表示,但如先前說的,n 總是有限的,不是 n→∞ 的極限狀態。那麼,這用極限說話的定理究竟有什麼用?這就要了解「極限」是什麼意思了。其實很簡單,極限的意思就是你能接近它。大數法則說 Xbar 的極限是 μ,樣本分布的極限是群體分布,所以當 n 足夠大時,我們由 Xbar 的標準差或標準誤可以感受到樣本平均數和群體平均數靠近,模擬方法可以直觀地看到樣本平均數在向群體平均數靠攏,也可以看到樣本分布在 n 增大時逐漸趨向群體分布的模樣。同樣的,當 n 增大時我們也可看到 Xbar 的抽樣分布逐漸像常態分布的樣子:

談中央極限定理

等死的老賊 發表在 痞客邦 留言(1) 人氣()

Close

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

reload

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼