目前分類:統計 (58)

瀏覽方式: 標題列表 簡短摘要

先前在「細談:樣本空間與隨機變數」一文我們提及除了實數值和複數值隨機變數之外,可以有向量值隨機變數(隨機向量)、矩陣值隨機變數(隨機矩陣)等等,統計上就有一個重要的機率分布:Wishart 分布,就是涉及一種隨機矩陣,scatter matrix: 設 X1,...,Xr 是 i.i.d. N(0,V) 的 R^p 隨機向量,則隨機矩陣 S = Σ_i XiXi' 的分布稱為具自由度 r 的 Wishart 分布,以 W_p(V,r) 或 W(V,p,r) 表示。

設 V 是正確定的 (positive definite), r ≧p(英文版 wiki)或 r > p(中文版 wiki),則 S 有機率密度

    f(S) = |S|^{(r-p-1)/2}e^{-tr(V^(-1)S)/2}/{2^(rp/2)|V|^(r/2)Γ_p(r/2)}

等死的老賊 發表在 痞客邦 留言(0) 人氣()

離差量數 (measures of dispersion), 或稱差異量數 (measures of variability), 也稱離中趨勢(量數), 與集中趨勢相應和。

統計上最常用的離差量數是標準差,其次是平均差,另外有均互差、全距、四分位距與四分位差。

全距 (range) 是指資料的最大值與最小值的差;不過這名詞也用於表示 (極小, 極大) 這樣的一組數值。全距比較不適用於理論群體,因為很多理論群體如常態群體,指數群體是無界的;另一些有界理論群體如均勻、超幾何、二項等全距是顯見的。對群體而言,只有真實世界的有限群體較具意義。對樣本來說,全距受詬病的是它僅依賴極端值,而就隨機樣本來說我們最怕極端值太偏離正常值,嚴重影響我們對資料分布的評判。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

統計上的平均數眾所周知的有算術、幾何和調合和平均數,依次以 A, G, H 表示。此外,有中位數 (median)、眾數 (mode) 等替代量數,或稱指標,或表徵數。平均、中位與眾數分別代表一個數量資料分布的中心、位置、與集中趨勢。

眾數做為表現集中趨勢的指標,適合用來表現類別屬性資料、本質為離散的數量資料,以及連續型理論分布,而且在數量資料分布嚴格來說只適合單峰分布。對於類別屬性的資料,所謂眾數也就是出現最多次數的類別,不同分類方式將直接影響到結果,因此除非有自然的分類,否則可能並不是很有意義。對離散型數量資料,如果是單峰型資料分布,眾數無疑義地就是分布的高峰。如二項、超幾何、Poisson 等的理論分布,都符合單峰形狀,眾數也可很明確得到——雖然仍有可能不是唯一值。不過如果是抽樣的樣本資料,特別是樣本數不夠大而可能的資料值又不少,樣本的眾數可能無意義。對本質屬連續型的數量資料而言,樣本或即使是現實(有限)群體,若資料不分組而直接以記錄數值如離散型資料那樣找出現最多次的數值是無意義的,必須以分組方式找出眾數組並設法估算眾數值,或先做密度估計再找估計密度曲線的最高點所在。

中位數、全距中點或分位數中點,適用於順序類別資料及數量資料,不論離散型或連續型,不論樣本或群體,不論未分組或已分組,代表的是一個資料分布所在的位置。不管是中位數或分位數中點(含全距中點), 其缺點是結果表徵值和資料中的絕大部分數值無關,只依賴資料中的極少個,個別資料除非發生極端變化,否則根本不影響結果。例如中位數,在未分組資料是資料依大小排序後最中間一個或最中間兩個的平均或兩個中間任意值。其他個別資料除非由小於中位數(區段)變成大於中位數(區段),或相反,否則不管怎麼折騰都不影響中位數的值。這性質往好的看是穩健,往壞的看是對資料不敏感或不靈敏。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

一直認為莖葉圖是比直方圖更有意思的統計圖表——說是統計圖其實又是列出了「詳細」原始資料,只不過可能是化簡至兩、三位有效數字;說它不是圖卻又像直方圖、條圖一般可以顯示出資料分布的模樣:

Stem and Leaf Plot
 Stem |   Leaf

等死的老賊 發表在 痞客邦 留言(0) 人氣()

線性模型,以矩陣表示,可寫成  y = Xβ + ε。以 b 表示 β 之最小平方估計,則 

b = (X'X)^(-1)(X'y), 其中 X' 是 X 的轉置.

迴歸之殘差平方和為

等死的老賊 發表在 痞客邦 留言(0) 人氣()

所謂「次數表」,包含單向、二向、和多向的表,表中每一細格 (cell) 內容是累計出現在這細格的樣本次數,每一個樣本觀測值會落入一個而且僅一個細格。換言之,次數表就是將樣本的每一個觀測值按某種分類準則分到不同細格的結果。注意統計分類的要求是窮盡的 (exhaustive) 並且互斥的 (exclusive),也就是上述「每一個樣本觀測值會落入一個而且僅一個細格」之意。

卡方檢定用於上列次數表之檢定,是一種大樣本漸近方法,也就是說在大樣本之下,次數表細格次數漸近多元常態分布,而卡方統計量

χ^2 = Σ(Xi - n.pi)^2/(n.pi)

等死的老賊 發表在 痞客邦 留言(0) 人氣()

[問]
統計問題
假設抽樣來自常態分佈

等死的老賊 發表在 痞客邦 留言(0) 人氣()

Bootstrapping 或 Bootstrap 在不同領域有不同意義,統計上它就是從當前樣本再做抽樣以進行統計推論的方法,中譯名稱是自助重抽法自助抽樣法自助法拔靴法。

基本的方法是:自當前樣本 X1, X2, ..., Xn 以抽出後放回的方式抽取大小為 n 的簡單隨機樣本,稱為一個 bootstrap sample. 這樣的過程將重複 B 次。這是「重抽法 ( resampling )」的一種而非全部,如 Jackknifing ( 摺刀法 ), permutation test ( 排列檢定,或譯置換檢定 ), cross-validation ( 交叉驗證 ), subsampling ( 二次抽樣,或子樣本抽樣 ) 都被歸為重抽法。Bootstrpping 與其他重抽法有三點不同:

(1) 重抽之樣本大小與原樣本大小相同;

等死的老賊 發表在 痞客邦 留言(0) 人氣()

我們介紹過點估計方法,也談過假說檢定方法,接著我們來談談區間估計的方法,也就是如何構造信賴區間。這裡我們只談單一實數值參數的信賴區間,或有時稱信賴域、信賴集合,因為在某些情形或許不是取單一區間,雖然實務上似乎沒見過。

第一個方法是反轉假說檢定的程序來得到信賴區間。我們曾提過:假說檢定與信賴區間是一體兩面(見:統計假說檢定:信賴區間做為替代)。更具體地說:考慮一系列的假說檢定問題:

H0: θ = θ0  對  H1: θ ≠ θ0

等死的老賊 發表在 痞客邦 留言(0) 人氣()

統計推論就是根據樣本資料來對群體(參數)做猜測。猜測的方式有三種,就是:以一個實數值猜一個實數值參數(或一個點猜一個參數點),是為點估計;以一個範圍的數值或點,直稱有多少信心認為參數值或點在該範圍內,這是區間估計;把參數所有可能值或點分成兩部分,宣稱在某個顯著水準下或某種判定方法下,判定參數值應該在某一部分或宣稱無法判定是落狂該部分,這是假說檢定。另外,統計推論也可能包括對未出現或未觀察的,或未來群體可能的資料點做預測,這又是另一回事了。

統計中三種對參數或群體特性的推論,既是「猜測」,理論上當然怎麼猜都可以,但實務上我們當然會考慮方法的合理性。先前曾談到有幾種目前較常被考慮的點估計方法,那麼假說檢定又該怎麼做比較合理?其實說起來如果不談貝氏方法,假說檢定方法的根源只有一個,那就是看概似度比 ( likelihood ratio ),不過,後來「概似度比檢定」有特殊指稱,這個根源方法依其特性,通常稱為「最強力檢定 ( most powerful test )」,也就是這檢定法

在符合顯著水準要求下,具有最強檢定力。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

引述被推薦之 "最佳解答" 及個人之評論,[答曰] 之下為 "推薦知識" 或被選的 "最佳解答" ,[評] 之下為個人所做評論。

時間:14 年前

 

等死的老賊 發表在 痞客邦 留言(0) 人氣()

14 年前的問答了 . . . 問的是:假說檢定統計量剛好等於臨界值怎麼辦。

雖然是舊問答,在假說檢定方法被質疑的今日卻也應景。雖然是舊問答,但十餘年來無寸進的我也不想對回答做更改,等待極少數看到這篇的讀者給予批評或批判。

過去那麼多年,在網路上,主要是 BBS 及某已經關閉的問答網站,回答過不計其數的問題,大部分已消失,某些 BBS 或問答網站雖於關閉前得以下載卻乏適當軟體來適當「解讀」,不過仍有極小部分是自己保存的,不是因為有代表性或什麼特別的,只是心血來潮就存下來了。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

統計上對於群體未知參數 θ 的基本猜測就是點估計,也就是用一個點(值)去猜測 θ 點之所在(值)。那麼,有哪些方法?

一是模仿參數定義法。例如:以樣本平均數估計群體平均數,以樣本變異數估計群體變異數 ( 以 Σ(Xj-Xbar)^2/n 估計 Σ(Xi-μ)^2/N, 以 Σ(Xj-Xbar)^2/(n-1) 估計 Σ(Xi-μ)^2/(N-1).) 這種方法有另一種形態,那就是:以樣本比例估計群體比例,而後用樣本比例構建估計量以估計群體參數,例如樣本中併數估計群集中位數,樣本分位數估計群體對應的分位數。

上述模仿群體參數定義法是直接模仿參數在犀群體中的定義, 動差法估計則是先用‵樣本動差為群體動差之估計,而後利用動差與欲估訊之參數之間的關係來估計參數。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

九年前的問答,內容照搬。

發問時間: 2013-01-04 23:22:08

請問二項分配.幾何分配.超幾何分配.柏松分配的差別

等死的老賊 發表在 痞客邦 留言(0) 人氣()

二項群體比例 p 的 1-α 水準信賴區間,通常是以常態近似計算:

  p 的常態近似區間 = [ phat - z* √[phat(1-phat)/n], phat + z*  √[phat(1-phat)/n] ]

  加連續性校正 :   [ phat - a - z* √[phat(1-phat)/n], phat + a + z*  √[phat(1-phat)/n] ]

等死的老賊 發表在 痞客邦 留言(1) 人氣()

Benford's law, 一般機率學的書似乎都沒有提到,實務上卻是重要的,財稅官、審計員可能用它配合統計方法來審核帳目有沒有造假。

這個定律是說:在一堆大量,沒有特定限制的自然數字,其最高位數字 (1~9) 的出現頻率是以對數方式遞減的,也就是說

  P[ X = k ] = log(1+1/k), k = 1, 2, ..., 9

等死的老賊 發表在 痞客邦 留言(0) 人氣()

也是一篇舊文,大概是 2007 被問到這問題時的回答。雖然現在由於計算科技的進步,一切自動化,人工決定分組都沒必要了,但回味一下老骨董的想法有時也是有意思的。

另外,文末再填一小段個人對取組距和組限的問題的淺見。

關於公式:

等死的老賊 發表在 痞客邦 留言(0) 人氣()

這一篇似乎是在 1998 寫的,二十多年了,以我預期自己的壽命來算,差不多已跨過我人生的三分之一。

為什麼貼這篇舊文?實在不知寫些什麼好,能寫的都是一些令人無趣的東西。但既然開了這空間,總不能任其荒廢。找了找曾寫過被保存下來的——雖然寫過不少,卻沒特意保存,當時混跡的 BBS 陸續關站,已發表的東西成了過眼雲煙——感覺這篇有點自我介紹意味的經驗談,邋可以再拿出來曬一曬。

初次接觸「統計」, 是高三下的事吧﹖

等死的老賊 發表在 痞客邦 留言(0) 人氣()

«123
Close

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

reload

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼