世新發表了一份最新民調,是關於「藍白合」對「賴蕭配」的民意問題。

這民調結果應如何看?據新聞報導,柯侯配的比例超過侯柯配誤差+1%。不談加權問題,如以簡單隨機抽樣的算法,假設沒有其他對手,假設無資料遺失,應考慮下列 2×2 表

  柯侯 賴蕭
侯柯 n(11) n(10)
賴蕭 n(01) n(00)

設「侯柯」組勝選比例是 p(1+),「柯侯」組是 p(+1), 則

等死的老賊 發表在 痞客邦 留言(0) 人氣()

指數族分布 (exponential family (of distributions)) 和 指數分布族 (exponential distributions) 是兩回事,不過也許中文名稱會搞混了。我們說指數分布(族),就像說常態分布(族),二項分布(族)之類的,指的是一類分布稱指數分布,只是其中有參數(位置參數及尺度參數)未定。「分布族」這樣的稱呼可大可小,如指數分布族、均勻分布族等,一族之不同分布只差在位置參數與尺度參數(指這兩分布族),甚至有時候只允許其中一個參數(位置或尺度)可改變;分布族一詞也可代表一個龐大的機率分布族群,如這裡談的「指數族」,其 p.d.f. 或 p.m.f. 形式如下:

f(x; θ) = C(θ) Q(x) e^{b(θ).t(x)},   x in A,  A 與 θ 無關

或完全寫成指數形式

等死的老賊 發表在 痞客邦 留言(0) 人氣()

隨機變數,本文特指實數值隨機變數,是指定義在一個機率空間的實質實數值可測函數。本文談的將隨機變數視為向量,考慮的不是單一隨機變數,也不考慮特定分布的隨機變數,而是考慮定義在同一機率空間的任意隨機變數。向量,指的不是物理上的力或幾何上的平面或空間甚至 n 維歐氏空間向量,而是向量空間意義的向量。

隨機變數要看作是向量,首先要談向量的加法運算,在這裡也就是說需要問:隨機變數的加法是封閉的嗎?或者說:兩隨機變數 X, Y 相加,結果仍是隨機變數嗎?在初級入門課程,隨機變數只是「定義在樣本空間的實數值函數」,所以「兩隨機變數相加結果仍是隨機變數」是無可置疑的;在正式定義中,有可測性的問題,有「實質」有限的問題(正式定義允許隨機變數值為正負無窮,只是其機率為 0),不過,仍不難證明封閉性是成立的。由於允許隨機變數的值是 ±∞,考慮兩隨機變數相加時,免不了遇到 +∞ + -∞ 或 -∞ + +∞ 這種無法定義的情形,但若遇到這種情形,由於機率 0,任意指定其相加結果的值,結果仍是符合隨機變數的條件,而其機率性質(隨機變數的機率分布)不受影響。

令 V 是定義在機率空間 (Ω, F, P) 上的所有實數值隨機變數所形成的集合,則 V 在加法運算下,符合交換律、結合律,有加法單位元素 0,任一隨機變數 X 有反元素 -X,也就是說, (V, +) 構成一個「加法交換群 (commute group)。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

近日媒體瘋炒民調加權問題,我沒任何資料,也不知各方民調結果發表數據加權是否得當,但必須說一句:加權,在很多時候是必要的;又有時候雖非必要,卻是改善精確度的好方法。

何時加權必要,何時又雖非必要但加權又比不加權好?如果群體是有分成幾個次群體,抽樣是按次群體分別抽出樣本,但各層抽出率不等,則加權是必要的,這就是所謂「分層抽樣 (stratified sampling)」;如果抽樣時未分層,但有各層(次群體)大小,將樣本資料分層統計後再依各層大小加權,這稱為「事後分層 (post-stratification)」。

分層抽樣是實務統計調查經常使用的方法。統計調查最受關注的當然是群體平均數(群體比例也是一種平均數),但各次群體平均差異預想可知極明顯時,或各次群體的平均數等統計特徵也是關注標的時,分層抽樣變成一種有利或必要的策略。例如調查工廠盈利、營收、員工、薪資等,將整個群體按登記資本額或其他已有數據可查能代表工廠規模的標準分層,各層相互獨立隨機抽出足以代表該層的 n_h 家工廠進行調查。台灣許多全國性的大型調查如勞動力調查、家庭收支調查。前列兩項調查都是首先以各縣市為次群體,再於各次群體內採用分層二段抽樣,先依某些變數將全縣市內村里分屠,再從各層獨立隨機抽出第一段樣本,又從各樣本村里中抽出適當數量的樣本戶接受調查。分屠分段抽樣可說是大型調查的常態,有的機構做全台調查更會採取分層三段抽樣。不過本文談的是分層抽樣,不涉及分段。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

本文要談的問題是:假設 k 個物件,如商品品牌、旅遊地之類的,有一單變量指標影響個體(消費者、旅遊者、評價者)的偏好選擇,結果會呈現怎樣的偏好?這裡假設選擇是隨機的,因此「偏好」最後是以機率來表現。

以 k = 2 為例,假設個體在選擇時是對兩群體獨立評量,Xi ~ N(μ_i, σ^2_i), i = 1, 2。評量的過程是群體 i 取得觀測值 Xi,而後取觀測值較大的為其最後選擇:不是群體(物件) 1 就是群體 2。

p = P{選擇物件 1} = P[X1 > X2] = Φ([(μ1-μ2)/√(σ^2_1+σ^2_2)])

等死的老賊 發表在 痞客邦 留言(0) 人氣()

如果我們有原始資料 Y(ij), i = 1, ..., n, 代表個案, j = 1, ..., k, 代表變項,即資料項,則有兩種熟知的方式來縮減資料維度,即變項數,並使資料結構較清晰。這兩種方式就是主成分分析與因子分析,前者是變項的正交變換

W = P Y

之後忽略不重要,也就是變異數偏低的成分,可以 Y 的共變異矩陣為基礎;或以相關矩陣為基礎,相當於考慮 Y 的標準化變量。後一種是假設原資料變項 Y 符合因子模型:

等死的老賊 發表在 痞客邦 留言(0) 人氣()

費波那西 (Finboacci) 數,中譯太多,無非都是音譯,所以不如直接用 Fibonacci 數。它是指由

F(n) = F(n-1) + F(n-2),   F(1) = 1 = F(2)

定義的一個數列。也有人從 F(0) = 0,F(1) = 1 開始;也可以把它反向推導,

等死的老賊 發表在 痞客邦 留言(0) 人氣()

先前看到的,可能是修課者的習題吧?

(1) 設 Mn → ∞ a.s.,  Xn → 0 a.s.  ==> X_Mn → 0 a.s.

(2) 設 Mn → ∞ in P.,  Xn → 0 a.s. ==> X_Mn → 0 in P.

等死的老賊 發表在 痞客邦 留言(0) 人氣()

非參數化方法 (Non-parametric method),常譯「無母數方法」,與有母數方法或參數化方法 (parametric method) 相對。後者是假定群體分布是一個特定的分布,只是其中有有限個參數未知,因此統計推論只集中在那些未知參數;非參數化方法則對群體的分布假設比較寬鬆,不限制在某一特定分布。

有許多人在論及非參數化方法時會有些誤解,例如樣本太小不適用參數化方法,應採用非參數化方法。又如認為非參數化方法不需對群體做假設。但實際上非參數化方法最基本的是假設分布為連績續型,另外不同推論對群體有不同限定。而非參數化方法既然適用於更少限定的群體,也就是說統計人員對群體的已知訊息較少,其推論自然是較缺效率,如果對參數化方法猶嫌樣本太小,又如何更適用非參數化方法?許多非參數化檢定,最後甚至總引用中央極限定理以決定臨界值,更需要「樣本數夠大」。

對群體推論最基本的起點,大概就是群體分布的位置,所謂平均數、位置量數、集中趨勢。由於群體分布可能範圍太廣,我們甚至不能確定群體平均數理論上存在與否。當然,也可把群體限制在平均數存在,甚至限制在存在第二動差,那麼樣本平均數仍然是群體平均數的不偏估計;甚至在二階動差存在的情況,如果樣本數「夠大」,我們甚至可以引用中央極限定理而主張樣本平均數的 t 變量近似標準常態,或做群體平均數檢定時 t 統計量漸近服從常態分布。困難是:可能的群體分布,即使在其二階動差存在的限制之下,還是太廣了,所謂「樣本數夠大」的界線在哪裡?所以,非參數化方法幾乎都不對平均數做推論。集中趨勢以眾數為代表,只對單峰分布較有意義,也不常討論。在非參數化方法中,通常用以代表位置的,是中位數。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

「天下」每年都做一個「縣市首長施政滿意度調查」,並予以對各縣市長排序。年初「中共國(中華人民共和國)」一直宣傳「中國最幸福」, 源於

法國的市場調查公司「Ipsos益普索」於前些時候發布一份關於「全球幸福指數」的調查,報告指出全世界最幸福的國家是中國(91%),其次是沙烏地阿拉伯(86%)以及荷蘭(85%)。

另外,也有不同的機構調查結果卻大相逕庭:

等死的老賊 發表在 痞客邦 留言(0) 人氣()

傳統的二項群體是:群體中有 N 個或無窮多個成員,其值有 p 的比例是 1,有 q = 1-p 的比例是 0。故

群體平均數 μ = p

群體變異數 σ^2 = pq = p(1-p) 

等死的老賊 發表在 痞客邦 留言(0) 人氣()

在主成分分析 (PCA) 或因子分析 (FA, 或譯:因素分析) 之前,通常會先進行 Bartlett 球形檢定 (test of Sphericity);判斷是否適合做因子分析,則通常用 KMO 檢驗。

Bartlett 球形檢定和 Bartlett 變異數均質性檢定(通常簡稱 Bartlett 檢定)不同,前者是 Bartlett 於 1950-51 年提出,用以檢定一個多變量常態群體是否其成分變數相互獨立;後者是他 1937 年提出,用以檢定多個單變量常態群體變異數是否相等。多個多變量群體共變異矩陣之均質性檢定,則可用 Box 的 M 檢定。這些檢定都有一個共同特性:它們都很依賴群體的常態性,或反過來說它們對群體的非常態性很敏慼。假設隨機向量 Y 服從多元常態分布 MVN(μ, V),Bartlett 球形檢定是 H0: V = diag(σ^2_1, ..., σ^2_m) 對 Ha: V = [σ_{ii'}] 的概度比檢定。自 Y 群體取得隨機樣本 Yj = (Y(1j), ..., Y(mj)), j = 1, ..., n。在 H0 之下,

(σ^2_i)^ = Σ_j (Y(ij) - Y(i.))^2/n,  其中 Y(i.) = (μ_i)^ = Σ_j Y(ij)/n

等死的老賊 發表在 痞客邦 留言(0) 人氣()

Close

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

reload

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼