目前分類:統計理論 (13)

瀏覽方式: 標題列表 簡短摘要

本版有些文曾稍為提到統計決策理論的方法,簡單地說就是把參數或群體特性 θ 與統計人員的決定 d(x), 搭配損失函數 L(θ, d(x)) 看成兩方的零和對局 (two person zero-sum game)。θ 的值被認為是對局的一方(不妨稱為敵方);d(x) 是統計人員根據樣本資料 x 做成的決策,是對局的另一方(我方),損失函數 L(θ, d(x)) 是當敵方做成策略 θ 而我方採行策略 d(x) 時我方的損失,即敵方的所得。A. Wald 1950 提出這理論時,有的統計學家並不以為然,認為 θ 的掌控者,敵方-老天或自然,並不像對局論所假設的,和我方一樣是聰明的對局者。不過,不管如何,決策理論或其底層對局論的架構,確實很適合統計推論:參數 θ 猶如有個對手出的底牌,統計學家或統計人員並不知道這個底牌是什麼,卻需要做出決策 d,而不同 (θ, d) 配對會有不同損失。儘管敵方可能不是一個聰明的對手,但我方不知道對方採取的策略 θ,因此考慮採取什麼決策 d 時必須假設不同 θ 有不同損失。在統計推論時,我們可能要做 θ 的點估計(直接猜測 θ 的值), 也可能用一個區間 [l, u] 猜測 θ 在這個區間中,或者可能猜測 θ 是在 H°(虛無假說) 中或 H'(對立假說) 中。在這些統計問題,我們可以評估:如果做出的決策是 d 而實際上敵方的策略是 θ 時,將發生多少損失。例如在點估計(直接猜測 g(θ) 值),損失可能是

L(θ, d) = ρ(|d - g(θ)|)   或   ρ(d - g(θ))

在區間估計(以 [l, u] 猜測 θ 或 g(θ) 的範圍), 損失可能是

等死的老賊 發表在 痞客邦 留言(0) 人氣()

在「統計量 (Statistic)」一文中我們定義了  Fisher 情報量 (Fisher information) 是 D_θ ㏑(f(X;θ)),對數概似函數 ㏑(f(X;θ) 對 θ 的第一階偏導數,的第二階動差,或變異數。本文來仔細談談其中的想法和所謂「情報不等式 (information ineqality)」。

基於機率方法的統計推論中,我們面對的是一個機率分布族,參數化的方法 (parametric method) 假設有一個實數值或向量型的參數 θ 來標記,而把分布族表示為

= {P_θ: θ in Θ}

等死的老賊 發表在 痞客邦 留言(0) 人氣()

統計量是樣本(資料)的函數,如樣本平均數,樣本變異數及標準差,樣本全距、四分位數、四分位差、百分位數、偏態係數、峰度係數等等。統計量是樣本的函數意謂樣本(觀測值)確定了,統計量的值也就確定了,並不摻合任何其他的東西,例如未知參數,所以 z = (Xbar - μ)/σ(其中 Xbar 是樣本均數,μ, σ 是未知的群體參數)不是統計量;但若 μ, σ 不是未知的,而是已知定值,則 z 仍是統計量。統計量可以是純量(實數)值的,也可以是向量值的,所以 (Xbar, S^2) 可以分開成兩個實數值統計量,也可以視為一個向量值統計量。統計量可以用於點估計,當一個估計量 (estimator);可以用於假說檢定,當一個檢定統計量。

本文要談幾個關於統計量的種類:充分統計量 (sufficient statistic)、完備統計量 (complete statistic) 與輔助統計量 (ancillary statistic)。充分統計量可以說是充分代表原資料的統計量,「充分代表」是什麼意思?統計推論的想法是基於機率理論,基於大數法則 (law of large numbers, LLN),若樣本數 n 夠大,樣本資料 X1, ..., Xn 的次數分布,所謂樣本分布 (sample distribution) 會接近群體分布。因此,由樣本可以猜測到群體分布大概是什麼樣子。如果群體分布是由一些(未知)參數決定的,樣本資料就可以用來對參數的值做猜測,這就是統計推論。但即使樣本不大,雖然樣本分布的模樣細節可能與群體分布有不小的差距,但群體的一些特徵仍會在樣本中呈現,例如群體主要分布在區間 [a, b] 之中,只有極小部分落在 [a, b] 之外,那麼小樣本的 X1, ..., Xn 很少落在前述區間之外,反而是 n 較大時比較容易有觀測值落在此區間外部。也就是說:樣本攜帶了關於群體參數的訊息;而充分統計量能「充分代表」整個樣本,意思就是說樣本中關於群體未知參數的訊息都在充分統計量之中。但是這「關於群體參數的訊息」又是如何界定,如何知道一個統計量足以充分代表整個樣本?

如果樣本只有一個觀測值,也就是 n = 1,那麼 X1 的分布就是群體分布(以 p.d.f.  呈現)f(x; θ);一般 n 個觀測值,在無限群體、簡單隨機抽樣的設定下,就是

等死的老賊 發表在 痞客邦 留言(0) 人氣()

考慮有限群體 Y = {Y_1,...,Y_N},此群體之一個大小為 n 的(簡單)隨機樣本 {X1,...,Xn} 是指從 Y 中取 n 個相異元素的 C(N,n) 種組合之一。此處「相異」指的是個體,意思是:從數值上可能 Y_i = Y_j for some i≠j,仍把相同數值的 Y_i, Y_j 看成是相異元素。或許更完整的數學描述是 P = {(i,Y_i): i=1,...,N}, 而樣本是

{Y_i t_i: t_i = 0 or 1, i = 1, ..., N, Σt_i = n}

其中隨機向量 (t_1, ..., t_N) 的機率分布是:

等死的老賊 發表在 痞客邦 留言(0) 人氣()

首先我們來看隨機變數期望值的定義式。在離散型分布,X 的期望值定義式是

E[X] = Σ_x (x P[X=x])

在一般情況,如果 X 是非負的,可以取一系列分割 { {0}, (0, x{n,1}], (x{n,1},  x{n,2}], ... } 而構造一系列離散型 X_n 逼近 X,

等死的老賊 發表在 痞客邦 留言(0) 人氣()

統計學和機率論的差別,在於機率論中一般只面對一個機率分布或稱機率測度 P,探討此機率測度一些相關的性質。而在統計學中,我們面對的是一堆機率分布或稱機率分布族

 P = {P_θ: θ in Θ}

傳統的統計學理或頻率論者假設我們能看到的資料是來自一個群體,它產生資料 X 的機制是 P 中特定的一員 P_θ,統計人員的目標是由樣本資料猜測那個 P_θ 是 P 中的哪一個;貝氏學派則認為資料產生機制是先從 P 中隨機決定(以 π(θ) 先驗分布) 一個 P_θ 而後產生資料 x,統計人員的目標是用 x 來修正在 P 中選擇 P_θ 的機率分布,或更正確地說:修正從 P 中選取 P_θ 的機率分布的認知。不過本文不涉及具體統計方法及學派之爭,只考慮一種特殊的統計量(資料的函數):充分統計量 (sufficient statistic)。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

概似度原則,簡單說就是:樣本中所含關於(推論)群體(參數)的訊息完全包含在概似函數中。基於此,論者以為:若兩統計實驗(抽樣)的概似函數只相差一個常數倍(與群體未知參數無關之意),則其統計結論應一致。例如二項實驗,θ = p,成功機率,一個實驗是取 n = 10 次試驗結果 3 次成功,7 次失敗;另一個實驗是連續獨立試驗至 3 次成功,結果總共試驗 10 次,也就是失敗了 7 次。依概似度原則,兩個實驗提供了 θ 同樣的訊息,因為兩者的概似度:

E1: C(10,3)θ^3(1-θ)^7         E2: C(9,2)θ^3(1-θ)^7

成比例,雖然實際上兩個實驗不同,前者是固定試驗次數而成功數隨機,後者是固定成功數而試驗次數隨機。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

假設群體分布是連續型,其支撑 (support) 是一個閉區間,在此區間有連續的 p.d.f. f(x),故其分布函數 F(x) 在此區間是嚴格遞增的,對於任一 p, 0 < p < 1, 恰有一 x 值使 F(x) = p。令

g(p) = F^(-1)(p),   0 < p < 1

這樣的設定很嚴苛,只限於少數連續型機率分布,所幸我們常見的連續型分布就是這樣子的。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

統計學上一個眾所周知的事實是:從常態群體抽出一個隨機樣本,則其樣本平均數 Xbar = Σ Xi/n 和樣本變異數 S^2 = Σ(Xi-Xbar)^2/(n-1) 相互機率獨立。有很多人問:在非常態群體,這兩統計量是否也會相互獨立?答案是:不會。也就是說:當且僅當群體是常態時,其隨機樣本的樣本平均數與樣本變異數相互獨立。

證明常態群體的 Xbar 和 S^2 相互獨立有多種方法,例如先把隨機樣本做線性變換為 Xbar, Z2,...,Zn, 為 n 個相互獨立的隨機變數,並證明 S^2 是 n-1 個 Zi 的平方和,因為其定義不涉及獨立的 Xbar,所以 S^2 和 Xbar 獨立。另一個方法較簡單,只需證明 Xi-Xbar, i=1,...,n 聯合和 Xbar 獨立,而 S^2 是那 n 個與 Xbar 獨立的離差的平方和,所以兩者獨立。再或者,利用多元常態分布二次式分布的理論,應用 Cochran 定理得知 (Xbar-μ)^2 與 S^2 相互獨立,再由 Xbar-μ 的對稱性得 Xbar 與 S^2 的獨立性。如果知道充分統計量理論,Basu 定理更方便於得出 S^2 與 Xbar 相互獨立的結論。

反過來說,由 Xbar 和 S^2 的獨立性反過來要證群體是常態就比較不容易了,這就是所謂常態分布(群體)的 characterization(刻劃、特徵化、表徵化)問題,網路上可以查到不少資料,甚至很久以前 (1979) 就有專書 "Characterization of the Normal Probability Law" 談常態分布特徵化問題。

等死的老賊 發表在 痞客邦 留言(2) 人氣()

前曾談過統計推誧基礎,卻只談及幾種統計推論方向,以及一個被認為重要的「概似度原則(likelihood principle)」。其實,就個人淺見_,那只是統計學家在底層的想法,真正能構成統計推論基礎的是機率,是「大數法則 ( Law  of Large Numbers ) 」: 在隨機抽樣下,樣本數足夠大時,樣本將在各方面表現與群體相近的特性。

前曾提過「隨機」很重要,因為它能確保樣本的全面代表性。但其實,隨機就是混亂、無章法、不可預測。實務上一個群體當然不是像理論群體如「常態群體」那樣沒有邊際,即使是後者也有一個大致範圍,使觀測值在範圍之外「似乎」可以忽略。然而,在範圍之內仍是不可預測、雜亂無序的。因此,要談及推論,不是對個體,而是對大勢。例如推論任一個體的身高、體重並無意義,推論群體平均、百分比、離差指標等才有意義。因此,想以 5, 6 個個案來代表群體那是做夢,認為 n = 30 就算大樣本那是自欺欺人,機率理論告訴我們:不但要隨機(那只是保障機率推理的可用性),樣本數還要夠大,使樣本具有代表性。

統計推論之基礎:大數法則

等死的老賊 發表在 痞客邦 留言(1) 人氣()

雖然學了多年統計,這一生也除了略知統計皮毛外其他什麼都不會,但說到統計推論之基礎,其實我還沒資格談論。但基於「反對 p 值」等相關評議,又有些話想一吐為快。因此,就在這算私人園地亂談幾句。

統計推論的問題是:有一個我們或全無瞭解或所知不足的「群體」,我們希望藉由蒐集關於這群體的「資料」,對這群體做「推論」。

統計的方法是直接蒐集所要探知的群體的資料,統計推論是直接根據樣本結果推及群體。例如,我想知道全國 20-50 歲人口的身高體重分布,「全國 20-50 歲人口的身高體」就是我的群體,統計方法就是取得這一個群體的少數個體為樣本,根據這樣本的數據推論群體分布有什麼特性。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

設隨機變數 X 之分布函數 F(x) 並非在單一區間嚴格遞增,例如離散型分布之階梯型分布函數,如圖:

非嚴格遞增分布函數及其虛擬反函數

 

等死的老賊 發表在 痞客邦 留言(0) 人氣()

機率和統計中常需耍由一個或多個隨機變數,經一個數學函數變換另一個或多個隨機變數,簡單的數學表示就是 Y = g(X)。並且,由 X 的分布可推導出 Y 的分布。這其中,有一個變換很特殊,在統計上也具有重要地位的數學變換,稱「分布函數變換」.

分布函數 (distribution function) 或稱「累積分布函數 (cumulated distribution function)」,通常昆跟隨機變數掛鉤的。以單一隨機變數,或更具體地說,實數值隨機變數,其定義是

  F(x) = P[ X ≦ x ]   (有的作者可能用 P[ X < x] 的定義,此處不採。)

等死的老賊 發表在 痞客邦 留言(0) 人氣()

Close

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

reload

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼