本版有些文曾稍為提到統計決策理論的方法,簡單地說就是把參數或群體特性 θ 與統計人員的決定 d(x), 搭配損失函數 L(θ, d(x)) 看成兩方的零和對局 (two person zero-sum game)。θ 的值被認為是對局的一方(不妨稱為敵方);d(x) 是統計人員根據樣本資料 x 做成的決策,是對局的另一方(我方),損失函數 L(θ, d(x)) 是當敵方做成策略 θ 而我方採行策略 d(x) 時我方的損失,即敵方的所得。A. Wald 1950 提出這理論時,有的統計學家並不以為然,認為 θ 的掌控者,敵方-老天或自然,並不像對局論所假設的,和我方一樣是聰明的對局者。不過,不管如何,決策理論或其底層對局論的架構,確實很適合統計推論:參數 θ 猶如有個對手出的底牌,統計學家或統計人員並不知道這個底牌是什麼,卻需要做出決策 d,而不同 (θ, d) 配對會有不同損失。儘管敵方可能不是一個聰明的對手,但我方不知道對方採取的策略 θ,因此考慮採取什麼決策 d 時必須假設不同 θ 有不同損失。在統計推論時,我們可能要做 θ 的點估計(直接猜測 θ 的值), 也可能用一個區間 [l, u] 猜測 θ 在這個區間中,或者可能猜測 θ 是在 H°(虛無假說) 中或 H'(對立假說) 中。在這些統計問題,我們可以評估:如果做出的決策是 d 而實際上敵方的策略是 θ 時,將發生多少損失。例如在點估計(直接猜測 g(θ) 值),損失可能是

L(θ, d) = ρ(|d - g(θ)|)   或   ρ(d - g(θ))

在區間估計(以 [l, u] 猜測 θ 或 g(θ) 的範圍), 損失可能是

等死的老賊 發表在 痞客邦 留言(0) 人氣()

在 https://yhliu2k.pixnet.net/blog/post/58349248 中談及  regression toward the mean 時把 Galton 的「回歸至平均值」現象解釋為

被注意到的父親身高特高的部分,可以說是偏向有較高身高基因的,但又不全是,有些基因屬較低身高的右邊極端值被歸入;又有些基因屬較高身高的左邊極端值被捨去。因此,這些身高極高的父親的基因並不純粹基因屬較高身高的。再者,即使基因屬較高身高的,其身高當是一個單峰分布。而對這些樣本,父親身高只是這個分布偏高的那一部分;子輩卻是觀察整個分布。一個分布只取較高部分,其平均值當然高於整個分布的平均值:

  E[ X | X > c ] > E[ X ]

等死的老賊 發表在 痞客邦 留言(0) 人氣()

在「統計量 (Statistic)」一文中我們定義了  Fisher 情報量 (Fisher information) 是 D_θ ㏑(f(X;θ)),對數概似函數 ㏑(f(X;θ) 對 θ 的第一階偏導數,的第二階動差,或變異數。本文來仔細談談其中的想法和所謂「情報不等式 (information ineqality)」。

基於機率方法的統計推論中,我們面對的是一個機率分布族,參數化的方法 (parametric method) 假設有一個實數值或向量型的參數 θ 來標記,而把分布族表示為

= {P_θ: θ in Θ}

等死的老賊 發表在 痞客邦 留言(0) 人氣()

近日,柯文哲談及大法官時,稱:他不相信15位大法官都是偏向民進党的,因為「 n 大於等於 15 就會接近常態分配。」本文不談政治,只想就「 n 大於等於 15 就會接近常態分配」這句話談談其中的謬誤。

首先,這顯然是很常見的,把中央極限定理中「統計量(樣本平均數)的抽樣分布」和樣本的分布,或稱「樣本分布」給搞混了;其次,就中央極限定理而言,"n ≧ 15" 這條件的適用性問題;最後,是「偏向」與否並非中央極限定理能解決的問題。

就第一個問題,若是大法官的偏向可以用一個尺標來表現,X 代表潛在的大法官偏向尺標,X{1}, ..., X{n} 代表現實中 n 位大法官各自的偏向指標,可以當成從 X 群體抽出的樣本。這樣本怎麼抽出呢?如果是自具有 X 的分布的群體中依簡單隨機抽樣抽出的,我們可以說:諸 X{i} 所形成的這樣本分布 (sample distribution) 具有和 X 群體分布接近的特性,而我們要檢視的那句話,意思是 n ≧ 15 則該樣本分布接近常態,但這卻是大大地錯了!如果 n 夠大,機率學的定理,根基於大數法則,樣本分布只會趨近於群體分布;除非 X 就服從常態分布,並且採用的是隨機抽樣,否則樣本分布不會趨近於常態。但,大法官的選任顯然不是隨機的(可參考「隨機很重要」一文),也沒有理由說 X 的分布是常態的,因此那句話的由來應是中央極限定理

等死的老賊 發表在 痞客邦 留言(0) 人氣()

統計雖分成敘述統計與推論統計,一般談論的重點仍放在推論統計,而且主要是基於機率理論的統計推論。統計推論又分為:點估計、區間估計、假說檢定、與預測,但「預測」與前三者不同的是:前三者是在對群體的參數,也就是描述群體性狀的指標做猜測;而預測是在猜測尚未發生的現象,數學上來講就是對一個隨機變數做猜測,也包含點預測與區間預測。但要預測的隨機量 X 常可以表示成 X = m + ε,其中 m 是「理論值」而 ε 是隨機誤差,做 X 的點預測相當於做 m 的點估計,只是考慮預測誤差時要把 ε 也考慮進去,例如 Var(X^) = Var(m^) + Var(ε),所以對 X 最好的預測和對 m 最好的估計合一。區間估計可以視為點估計加減一個容許誤差界限,並以一個數值來衡量我們對真實參數值落在這範圍內的「信賴」程度。區間估計程序和假說檢定程序又可視為一種程序的兩個表現

在假說檢定程序不被棄卻的虛無假設參數值,構成區間估計程序的信賴集;反之,區間估計之信賴集中的參數值,當做假說檢定之虛無假說參數值時將不被棄卻。

當然,上述對應是在同樣「水準」:假說檢定之 α 顯著水準,與區間估計之 1-α 信賴水準相對應。由此看來,統計推論問題可歸納為兩個問題:點估計問題與假說檢定問題。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

統計量是樣本(資料)的函數,如樣本平均數,樣本變異數及標準差,樣本全距、四分位數、四分位差、百分位數、偏態係數、峰度係數等等。統計量是樣本的函數意謂樣本(觀測值)確定了,統計量的值也就確定了,並不摻合任何其他的東西,例如未知參數,所以 z = (Xbar - μ)/σ(其中 Xbar 是樣本均數,μ, σ 是未知的群體參數)不是統計量;但若 μ, σ 不是未知的,而是已知定值,則 z 仍是統計量。統計量可以是純量(實數)值的,也可以是向量值的,所以 (Xbar, S^2) 可以分開成兩個實數值統計量,也可以視為一個向量值統計量。統計量可以用於點估計,當一個估計量 (estimator);可以用於假說檢定,當一個檢定統計量。

本文要談幾個關於統計量的種類:充分統計量 (sufficient statistic)、完備統計量 (complete statistic) 與輔助統計量 (ancillary statistic)。充分統計量可以說是充分代表原資料的統計量,「充分代表」是什麼意思?統計推論的想法是基於機率理論,基於大數法則 (law of large numbers, LLN),若樣本數 n 夠大,樣本資料 X1, ..., Xn 的次數分布,所謂樣本分布 (sample distribution) 會接近群體分布。因此,由樣本可以猜測到群體分布大概是什麼樣子。如果群體分布是由一些(未知)參數決定的,樣本資料就可以用來對參數的值做猜測,這就是統計推論。但即使樣本不大,雖然樣本分布的模樣細節可能與群體分布有不小的差距,但群體的一些特徵仍會在樣本中呈現,例如群體主要分布在區間 [a, b] 之中,只有極小部分落在 [a, b] 之外,那麼小樣本的 X1, ..., Xn 很少落在前述區間之外,反而是 n 較大時比較容易有觀測值落在此區間外部。也就是說:樣本攜帶了關於群體參數的訊息;而充分統計量能「充分代表」整個樣本,意思就是說樣本中關於群體未知參數的訊息都在充分統計量之中。但是這「關於群體參數的訊息」又是如何界定,如何知道一個統計量足以充分代表整個樣本?

如果樣本只有一個觀測值,也就是 n = 1,那麼 X1 的分布就是群體分布(以 p.d.f.  呈現)f(x; θ);一般 n 個觀測值,在無限群體、簡單隨機抽樣的設定下,就是

等死的老賊 發表在 痞客邦 留言(0) 人氣()

如果 X1, ..., Xn 是自具連續型分布,p.d.f. f(x),的群體抽出的(簡單)隨機樣本,則其(完整的)順序統計量

Y1<...<Yn

的聯合 p.d.f. 很容易知道,是

等死的老賊 發表在 痞客邦 留言(0) 人氣()

最近日本有人提出了一個論點:如果日本的婚後強制改姓制度不變更的話,大概 500 年後的 2531 年,全日本將只剩下一個姓:佐藤。這就是「2531佐藤問題」。

中國傳統只有男子才有真正的「姓」,女子只稱「氏」,但中國的姓氏並未趨於單一化,反而是愈來愈多元,當然這有因戰亂避罪等因而改姓之故;但如果是一個封閉社會(沒有遷入人口),又強制兒女從父姓(這才是關鍵,而非女子婚後從夫姓),是否時間夠長,就可能有些姓會消失,又最後會歸於單一姓?或者,這是因少子化問題才產生的結果?

假設一個地區某特定姓氏的人口比例是 p,其他姓氏人口比例是 q = 1- p。不考慮年齡、死亡等、離婚、再婚、不婚、生育數等等複雜因素,只考慮新的一代「最終」取代舊的一代,其姓氏比例如何變化。下一代是前述特定姓氏的,包括:是該特定姓氏的男性子代,及女性而結婚對像是該特定姓氏;而新一代非前項姓氏的男性,及女性與非該特定姓氏男性姑婚。假設沒有「同姓不婚」的限制,結婚對象姓氏同父代經姓氏分布。則新一代姓氏為指定該特定姓氏比例是

等死的老賊 發表在 痞客邦 留言(0) 人氣()

線性迴歸模型 Yi = β_0 + β_1 X_1i + ... + β_k X_ki + ε_i,或矩陣式 Y =  + ε 中,最常被使用的可能是最小平方估計 (least square estimate, LSE)

minimize Q(β) = (Y-Xβ)'(Y-Xβ)    或    (Y-Xβ)'W(Y-Xβ)

無加權的最小平方法適用於 Cov(Y) = σ^2 I,加權最小平方法則適用於 Cov(Y) = σ^2V,其中 V 已知且可逆,並取 W = V^{-1},結果,Gauss-Markov 定理告訴我們:

等死的老賊 發表在 痞客邦 留言(0) 人氣()

2009 年 Eriksson, Jan; Ollila, Esa; Koivunen, Visa 發表了一篇 "Statistics for complex random variables revisited." (2009 IEEE International Conference on Acoustics, Speech and Signal Processing. Taipei, Taiwan: Institute of Electrical and Electronics Engineers. pp. 3565–3568.) 指出複數值隨機訊號資料在一些方面的應用日漸重要,但相關的數學基礎卻很散亂。

從定義來看,一個複數值隨機變數只是兩個實數值隨機變數對 X = (X_R, X_I) 或 X_R + i X_I;但從應用層面,我們必須把 X 看成一個數值性隨機變數,而非只是一個二維度向量值隨機變數,因為向量值的運算基礎是數值性的矩陣運算,而複數卻另有一套運算規則——兩複數相加減如同同維度向量相加減,但兩複數自有其一套乘除法則;另外複數可以進行如指數、對數等操作,只不過有些問題需要特別注意及處理,例如 e^z 或表示為 exp(z) 是唯一定義的,但 ㏑(z) 則有無窮多個分支,需要擇一做為主值;又如指數律 z^r.z^s = z^{r+s} 等在 z 是複數時並不當然成立。不過,本文不考慮這些問題,有關複變數函數 f(z) 種種,自有專書專課討論;本文僅粗略地來談談隨機變數分布、平均數(期望值)和變異數共變異數的問題。

不管實數值、複數值、向量值或其他隨機變數,其分布總是回到原始機率空間的機率分布 P。也就是說,P 是原始機率空間所設定的機率分布,不管它是如何設定的,機會均等的、主觀的、統計頻率的、或其他方式,反正必須符合 Kolmogorov 1933 年提出的公理(公設)體系,而隨機變數 X 的分布是

等死的老賊 發表在 痞客邦 留言(0) 人氣()

雖然統計實務筆者未見過複數資料,但最小平方準則至少數學上如傅立葉級數將涉及;當然,線性模型涉及向量及內積,在理、工之應用也都允許複數的存在。因此,讓我們談談:如果線性模型 Y = Xβ + ε 其中 Y, X, β, ε 允許複數而不限於實數時,該怎麼辦?

最小平方法純粹是資料配適 (data fitting),不管誤差項 ε 的分布。最小平方法要求的是 Y 與配適值 (fitted value) Xb,其中 b 為 β 的估計,之間差距 Y - Xb 取 2-norm , 符號 || ||_2 簡記 || ||。Norm 中譯「範數」或譯「模」,不過「模」在其他領域有其他意義並且原文不是 norm。範數有距離的意思,不限於向量空間中衡量向量間距離而可用在更一般的空間如拓樸空間。範數與半範數 (seminorm) 的差別在於兩點之間範數是 0 只當兩點是同一點,而半範數是 0 則兩點仍可能不同。以統計或機率來說,隨機變數可視為向量,以 E[(X-Y)^2] 衡量兩實數值隨機變數的距離,此量數充其量是半範數,因為 E[(X-Y)^2] = 0 只能得到 P[X=Y] = 1 而不能得到 X = Y, 除非我們把 X = Y a.s. 的收集在一起成為一個等價班 (class) 而當成同一個——這例子提示我們,如果集合(一般意義的「空間」) S 上有一個半範數 d(x, y), x, y in S,則藉由把 d(x,y) = 0 的元素收集成一個等價班,則所有的不同等價班構成一個新集合 S* 或記為 S/d,則

d(x*,y*) = d(x,y) for any x in x*, y in y*, x*, y* in S*

等死的老賊 發表在 痞客邦 留言(0) 人氣()

傅立葉變換 (Fourier transform) 常簡寫 FT,對一 k 變數實數值或複數值函數 f(x) 而言,基本定義是

F(f)(t) = ∫_{R^k} e^{-2πi(t'x)} f(x) dx

其中 i 是虛數單位,也常見用 j 代替。另外可定義一個類似轉換

等死的老賊 發表在 痞客邦 留言(0) 人氣()

Close

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

reload

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼