前曾談過統計推誧基礎,卻只談及幾種統計推論方向,以及一個被認為重要的「概似度原則(likelihood principle)」。其實,就個人淺見_,那只是統計學家在底層的想法,真正能構成統計推論基礎的是機率,是「大數法則 ( Law  of Large Numbers ) 」: 在隨機抽樣下,樣本數足夠大時,樣本將在各方面表現與群體相近的特性。

前曾提過「隨機」很重要,因為它能確保樣本的全面代表性。但其實,隨機就是混亂、無章法、不可預測。實務上一個群體當然不是像理論群體如「常態群體」那樣沒有邊際,即使是後者也有一個大致範圍,使觀測值在範圍之外「似乎」可以忽略。然而,在範圍之內仍是不可預測、雜亂無序的。因此,要談及推論,不是對個體,而是對大勢。例如推論任一個體的身高、體重並無意義,推論群體平均、百分比、離差指標等才有意義。因此,想以 5, 6 個個案來代表群體那是做夢,認為 n = 30 就算大樣本那是自欺欺人,機率理論告訴我們:不但要隨機(那只是保障機率推理的可用性),樣本數還要夠大,使樣本具有代表性。

統計推論之基礎:大數法則

等死的老賊 發表在 痞客邦 留言(1) 人氣()

Benford's law, 一般機率學的書似乎都沒有提到,實務上卻是重要的,財稅官、審計員可能用它配合統計方法來審核帳目有沒有造假。

這個定律是說:在一堆大量,沒有特定限制的自然數字,其最高位數字 (1~9) 的出現頻率是以對數方式遞減的,也就是說

  P[ X = k ] = log(1+1/k), k = 1, 2, ..., 9

等死的老賊 發表在 痞客邦 留言(0) 人氣()

也是一篇舊文,大概是 2007 被問到這問題時的回答。雖然現在由於計算科技的進步,一切自動化,人工決定分組都沒必要了,但回味一下老骨董的想法有時也是有意思的。

另外,文末再填一小段個人對取組距和組限的問題的淺見。

關於公式:

等死的老賊 發表在 痞客邦 留言(0) 人氣()

這一篇似乎是在 1998 寫的,二十多年了,以我預期自己的壽命來算,差不多已跨過我人生的三分之一。

為什麼貼這篇舊文?實在不知寫些什麼好,能寫的都是一些令人無趣的東西。但既然開了這空間,總不能任其荒廢。找了找曾寫過被保存下來的——雖然寫過不少,卻沒特意保存,當時混跡的 BBS 陸續關站,已發表的東西成了過眼雲煙——感覺這篇有點自我介紹意味的經驗談,邋可以再拿出來曬一曬。

初次接觸「統計」, 是高三下的事吧﹖

等死的老賊 發表在 痞客邦 留言(0) 人氣()

雖然學了多年統計,這一生也除了略知統計皮毛外其他什麼都不會,但說到統計推論之基礎,其實我還沒資格談論。但基於「反對 p 值」等相關評議,又有些話想一吐為快。因此,就在這算私人園地亂談幾句。

統計推論的問題是:有一個我們或全無瞭解或所知不足的「群體」,我們希望藉由蒐集關於這群體的「資料」,對這群體做「推論」。

統計的方法是直接蒐集所要探知的群體的資料,統計推論是直接根據樣本結果推及群體。例如,我想知道全國 20-50 歲人口的身高體重分布,「全國 20-50 歲人口的身高體」就是我的群體,統計方法就是取得這一個群體的少數個體為樣本,根據這樣本的數據推論群體分布有什麼特性。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

設隨機變數 X 之分布函數 F(x) 並非在單一區間嚴格遞增,例如離散型分布之階梯型分布函數,如圖:

非嚴格遞增分布函數及其虛擬反函數

 

等死的老賊 發表在 痞客邦 留言(0) 人氣()

機率和統計中常需耍由一個或多個隨機變數,經一個數學函數變換另一個或多個隨機變數,簡單的數學表示就是 Y = g(X)。並且,由 X 的分布可推導出 Y 的分布。這其中,有一個變換很特殊,在統計上也具有重要地位的數學變換,稱「分布函數變換」.

分布函數 (distribution function) 或稱「累積分布函數 (cumulated distribution function)」,通常昆跟隨機變數掛鉤的。以單一隨機變數,或更具體地說,實數值隨機變數,其定義是

  F(x) = P[ X ≦ x ]   (有的作者可能用 P[ X < x] 的定義,此處不採。)

等死的老賊 發表在 痞客邦 留言(0) 人氣()

有若干硬幣,其中一枚是偽幣。偽幣與真幣只差在質量不同。今欲用天平,不含法碼,用最少次量測來找出偽幣,問:怎麼做?

數學問題就是這麼不現實!現實上除非剛從鑄幣廠出來,如果經過輾轉使用,會有不同程度的磨損;即使同是新鑄幣,也有製造公差,因此很難說兩枚硬幣完全無差別。再者,為什麼要限制只能用天平還沒有法碼呢?咱用砰不行嗎?又何必執著於最少次量測?

話說回來,如果只能測質量或重量,而且真幣之間的差異現有工具無法查覺,倒是真偽幣之間的質量差距能輕易用天平測出,那麼,採用其他方法或許真不可能更快(更少次數量測)找出偽幣。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

說起來我這是在反潮流!我堅決不參加任何數位存款。

一開始我還認為數位存堤尚可供零用金、生活費之用,再仔細看過各銀行數位存款的使用限制之後,覺得是完全沒必要。

雖說標榜著高活存利率,但用戶且仔細看,高利率是有限額,有期限的,你能從那「高利率」賺得多少好處?相對地,數位存款帳戶卻有諸多限制,這帳戶絕對不適合放太多錢在上面,20萬或10萬之內差不多了。大多數人的數位帳戶可能是所謂「第三類」帳戶,這種帳戶,根據我看到的資料,每個月非約定轉帳總額限制是5萬元新台幣,有的甚至限制只能本人(本行?)帳戶互轉。與其使用數位存款帳戶於交易所需,不如辦一張信用卡實用。至於提現額度我不很清楚,但估計不會比普通帳戶金融卡好多少,甚至可能限制更多。例如多年以前郵局、銀行金融卡限制一次最多提3萬,但至少可連續提3-4次(實際操作過,只是忘了提幾次了)。數位銀行能一連提取10萬以上嗎?就算能,它也不像普通帳戶在必要時帶著存摺臨櫃提取百萬以上或轉帳百萬以上吧?

等死的老賊 發表在 痞客邦 留言(0) 人氣()

統計離不了誤差;因為有誤差所以需要統計。但,如果誤差不能隨機化,統計也派不上用場。

有資料才有統計,但如果資料的規律都是確定的,例如 1, 4, 9, 16,… 是 1, 2, 3, 4,… 的平方,一個數學式 n^2, n=1,2,3,4,… 很好地描述了這個序列。但如果是 1, 4, 7, 15 你是否能說什麼?如果這序列再延伸: 1,  4, 7, 15, 26, 36, 47, 64,  80, 101 至此應該很容易看出它是 1 至 10 的平方,摻雜了誤差 0, 0, -2, -1, 1, 0, -2, 0, -1, 1。實際上這是用 n^2 加上一個標準常態亂數化整來的。 如果誤差更大,如  -1, 8,  11, 19, 19, 41, 47, 60, 81, 101, 如果知道它對應 1~10,大概還能猜出它和 n^2 相關;如果不知它是對應 1~10,恐怕也難以想像它是由 n^2 加上誤差的結果。統計,最基本的是由一堆資料中找規律;如果這堆資料是所謂「樣本」,那就進一步推論「群體」的特性;如果是像前例序列資料,就可「預測」接下來大概是 121, 144, 169,...。

假設這麼一個群體: 1 至 1000,自其中「隨機」抽取16個當做樣本,這個群體有平均數 500.5,標準差 288.8。理論上抽取 n=16 的樣本,其平均數也在 500.5「附近」,但因為是「隨機」抽樣,實際抽到的樣本其平均數自成一個機率分布,標準差是 72.2,所以實際的樣本平均數大約 65% 的機會落在 428~573 之間,大約 90% 落在 356~645 之間。以下就是一個實際抽樣結果:

等死的老賊 發表在 痞客邦 留言(0) 人氣()

Nature 2019年3月號一篇 "Scientists rise up against statistical signifance" 再次掀起對  "統計顯著性" 甚至對 "p 值", "信賴區間" 等的反對聱浪,而在中文網路,它又似乎被認為是對 "p 值" 的反對,是統計基礎的崩塌。

究竟我們從 "統計資料"  中想獲得什麼? 只是陳列觀測數據, 或是看出一些關於這些數據的規則, 或是由局部 (樣本, sample) 推測全體 (群體, population).  很多的統計關注、應用都來自於從樣本推論群體,因而很多的爭議也來自於此。

認真說起來,,統計是令人很無力的。統計資料充滿了不確定性及誤差,從群體到樣本又是一些偏誤和誤差。理想的統計學不考慮抽樣隨機誤差以外的各種誤差、偏誤及不確定性,但究抽樣隨機誤差一項就無數風雨了。不說什麼,單 "隨機" 二字就愁煞了人,無人可解釋清楚什麼是 "隨機",即使專業是統計的人都總是誤解,更遑論對統計一知半解或全然不懂的人?

等死的老賊 發表在 痞客邦 留言(0) 人氣()

Close

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

reload

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼