目前分類:統計方法原理 (22)

瀏覽方式: 標題列表 簡短摘要

雖然統計實務筆者未見過複數資料,但最小平方準則至少數學上如傅立葉級數將涉及;當然,線性模型涉及向量及內積,在理、工之應用也都允許複數的存在。因此,讓我們談談:如果線性模型 Y = Xβ + ε 其中 Y, X, β, ε 允許複數而不限於實數時,該怎麼辦?

最小平方法純粹是資料配適 (data fitting),不管誤差項 ε 的分布。最小平方法要求的是 Y 與配適值 (fitted value) Xb,其中 b 為 β 的估計,之間差距 Y - Xb 取 2-norm , 符號 || ||_2 簡記 || ||。Norm 中譯「範數」或譯「模」,不過「模」在其他領域有其他意義並且原文不是 norm。範數有距離的意思,不限於向量空間中衡量向量間距離而可用在更一般的空間如拓樸空間。範數與半範數 (seminorm) 的差別在於兩點之間範數是 0 只當兩點是同一點,而半範數是 0 則兩點仍可能不同。以統計或機率來說,隨機變數可視為向量,以 E[(X-Y)^2] 衡量兩實數值隨機變數的距離,此量數充其量是半範數,因為 E[(X-Y)^2] = 0 只能得到 P[X=Y] = 1 而不能得到 X = Y, 除非我們把 X = Y a.s. 的收集在一起成為一個等價班 (class) 而當成同一個——這例子提示我們,如果集合(一般意義的「空間」) S 上有一個半範數 d(x, y), x, y in S,則藉由把 d(x,y) = 0 的元素收集成一個等價班,則所有的不同等價班構成一個新集合 S* 或記為 S/d,則

d(x*,y*) = d(x,y) for any x in x*, y in y*, x*, y* in S*

等死的老賊 發表在 痞客邦 留言(0) 人氣()

在「分層抽樣與加權-談民調結果加權 」一文,我們談到現行民調常不能得到真正具代表性的樣本,最基本的就是:樣本個案(人)的人口學特性與群體不一致,例如台灣選舉民調被詬病的,市話樣本偏老人而手機樣本偏年輕人。為校正樣本人口學結構上的偏差,常需要對幾種易取得群體結構如性別、年齡組別、教育程度別等做 raking,或說多重反覆加權,又稱迭代比例配適法 (Iterative Proportional Fitting)。不加權相當於用樣本權重加權

Y.sr = (Σ_h Σ_j Y{hj})/n = Σ_h (n_h/n) Y(h.}

加權目標是計算

等死的老賊 發表在 痞客邦 留言(0) 人氣()

本文是一般線性模型的書籍主要談的模型,算是補足「線性模型:誤差項共變異非滿秩問題」。為什麼前引文只談一般少見人談的誤差項共變異矩陣 σ^2 V 非滿秩的情況?因為更早曾談過一般線性模型,其中 V 假設是滿秩的 (full rank)。不過,該文未特別討論 V = I 的特殊情況,即最基本情況;而且重點是模型的參數估計,或所謂模型配適 (model fitting, 今多譯為「模型校估」, 此處譯「配適」算是先入為主及個人偏好),未考慮參數檢定或模型比較問題。

線性模型 (Linear models) 指(矩陣表示):

Y = Xβ + ε,  E[ε] = 0,  Cov(ε) = σ^2 V, V 已知

等死的老賊 發表在 痞客邦 留言(0) 人氣()

指數族分布 (exponential family (of distributions)) 和 指數分布族 (exponential distributions) 是兩回事,不過也許中文名稱會搞混了。我們說指數分布(族),就像說常態分布(族),二項分布(族)之類的,指的是一類分布稱指數分布,只是其中有參數(位置參數及尺度參數)未定。「分布族」這樣的稱呼可大可小,如指數分布族、均勻分布族等,一族之不同分布只差在位置參數與尺度參數(指這兩分布族),甚至有時候只允許其中一個參數(位置或尺度)可改變;分布族一詞也可代表一個龐大的機率分布族群,如這裡談的「指數族」,其 p.d.f. 或 p.m.f. 形式如下:

f(x; θ) = C(θ) Q(x) e^{b(θ).t(x)},   x in A,  A 與 θ 無關

或完全寫成指數形式

等死的老賊 發表在 痞客邦 留言(0) 人氣()

本文要談的問題是:假設 k 個物件,如商品品牌、旅遊地之類的,有一單變量指標影響個體(消費者、旅遊者、評價者)的偏好選擇,結果會呈現怎樣的偏好?這裡假設選擇是隨機的,因此「偏好」最後是以機率來表現。

以 k = 2 為例,假設個體在選擇時是對兩群體獨立評量,Xi ~ N(μ_i, σ^2_i), i = 1, 2。評量的過程是群體 i 取得觀測值 Xi,而後取觀測值較大的為其最後選擇:不是群體(物件) 1 就是群體 2。

p = P{選擇物件 1} = P[X1 > X2] = Φ([(μ1-μ2)/√(σ^2_1+σ^2_2)])

等死的老賊 發表在 痞客邦 留言(0) 人氣()

如果我們有原始資料 Y(ij), i = 1, ..., n, 代表個案, j = 1, ..., k, 代表變項,即資料項,則有兩種熟知的方式來縮減資料維度,即變項數,並使資料結構較清晰。這兩種方式就是主成分分析與因子分析,前者是變項的正交變換

W = P Y

之後忽略不重要,也就是變異數偏低的成分,可以 Y 的共變異矩陣為基礎;或以相關矩陣為基礎,相當於考慮 Y 的標準化變量。後一種是假設原資料變項 Y 符合因子模型:

等死的老賊 發表在 痞客邦 留言(0) 人氣()

在主成分分析 (PCA) 或因子分析 (FA, 或譯:因素分析) 之前,通常會先進行 Bartlett 球形檢定 (test of Sphericity);判斷是否適合做因子分析,則通常用 KMO 檢驗。

Bartlett 球形檢定和 Bartlett 變異數均質性檢定(通常簡稱 Bartlett 檢定)不同,前者是 Bartlett 於 1950-51 年提出,用以檢定一個多變量常態群體是否其成分變數相互獨立;後者是他 1937 年提出,用以檢定多個單變量常態群體變異數是否相等。多個多變量群體共變異矩陣之均質性檢定,則可用 Box 的 M 檢定。這些檢定都有一個共同特性:它們都很依賴群體的常態性,或反過來說它們對群體的非常態性很敏慼。假設隨機向量 Y 服從多元常態分布 MVN(μ, V),Bartlett 球形檢定是 H0: V = diag(σ^2_1, ..., σ^2_m) 對 Ha: V = [σ_{ii'}] 的概度比檢定。自 Y 群體取得隨機樣本 Yj = (Y(1j), ..., Y(mj)), j = 1, ..., n。在 H0 之下,

(σ^2_i)^ = Σ_j (Y(ij) - Y(i.))^2/n,  其中 Y(i.) = (μ_i)^ = Σ_j Y(ij)/n

等死的老賊 發表在 痞客邦 留言(0) 人氣()

在「列聯表分析隨談」一文提及「相關模型 (correlation model)」:

π(ij) = π(i+)π(+j)(1+λμ(i)ν(j))

「對應分析 (correspondence analysis)」 ,不過當時偷懶沒有說明。 相關模型是正準相關或典型相關 (canonical correlation) 分析的類別資料模型

等死的老賊 發表在 痞客邦 留言(0) 人氣()

線性模型 (Linear models) 指(矩陣表示):

Y = Xβ + ε,  E[ε] = 0,  Cov(ε) = σ^2 V, V 已知

式中 Y 是 n×1 資料向量,X 是 n×k 模型矩陣或設計矩陣,β 是 k×1 未知的模型參數向量,ε 是 n×1 的不可觀測誤差向量。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

分位數迴歸 (quantile regression),Roger Koenker; Gilbert Bassett, Jr. (1978) 提出的一種迴歸方法 (Roger Koenker; Gilbert Bassett, Jr. (1978) "Regression Quantiles," Econometrica, Vol. 46, No. 1., pp. 33-50.) 不過,中位數算是第 50 百分位數,而最小絕對離差法可算是中位數迴歸,卻是在 1760 年就有人提出,比最小平方迴歸還早。

令隨機變數 Y 的分布函數為 F,其(第)τ 分位數 (0<τ<1) 定義為

q(τ) = inf {y; F(y) ≧ τ} = sup{x; F(x) < τ} 

等死的老賊 發表在 痞客邦 留言(0) 人氣()

最小絕對離差迴歸 (Least Absolute Deviation regression) 是取代最小平方準則,而代之以看 Yi 與 Yi' = Xi'b 之絕對離差和之最小化的線性迴歸模型配適 (fitting) 方法。前曾談過垂直距離迴歸法,但那看的其實是垂直距離平方和,而非垂直距離之和。而此處談的也不是 Yi 至迴歸線或面的垂直距離,而是 Yi 與 Yi' 之間差距的絕對值加總;最小平方法是前項差距的平方和。

以數學式來表示,我們要

minimize Σ |Yi - Xi'β|

等死的老賊 發表在 痞客邦 留言(0) 人氣()

核迴歸法 (kernel regression) 是一種非參數化的迴歸估計法,假設

E[Y|X=x] = m(x)

我們並不知道 m(x) 函數形式,儘有在 Xi, i = 1, ..., n 得到的 Y 觀測值樣本資料點 Yi, i = 1, ..., n,那麼要如何估計迴歸(反應)函數 m(x)?

等死的老賊 發表在 痞客邦 留言(0) 人氣()

從一個連續型分布的群體隨機抽取 n 個觀測值 X1,...,Xn,我們想推論群體分布的模樣。在參數化模型,最常做的就是推論其未知參數;但群體模型若未參數化,一種方法是推論其分位數如中位數 (median)、四分位數 (quartile)、十分位數 (decile)、百分位數 (percentile) 等,另一種方法是用經驗分布函數 (empirical distribution function)推論群體的分布函數,再者是考慮機率密度函數 (probability density function)。

但 n 個觀測值本身是離散的,如何變成連續型的機率密度?直方圖 (histogram) 是類比機率密度的一個方法,單變量的情形是定 k 個切割點把資料分成 k+1 組,計算落入各組的觀測值個數 fj。此法在不等組距分組時必須以組距 (class interval) 除觀測值個數 fj 才能正確展現分布的模樣;若是等組距,則無需調整,fj 即能表現出機率密度的樣子。不過,直方圖只是圖示分布的模樣,若要將直方圖看成機率密度的估計,還要對直方圖高度單位適當設定,使直方圖上沿之下 x 軸之上的區域面積總和為 1,這是機率密度函數 f(x) 的基本特性:∫ f(x) dx = 1。

如果群體分布是很偏斜的 (skewed),或是長尾巴的 (long-tailed),做數值分組及畫直方圖常需要採不等組距。事實上我們也可採行另一辦法:把一個觀測值,以該觀測值為中心,左右各擴展半個組距,也就是觀測值 Xi 決定了一個均勻分布 (uniform distribution)

等死的老賊 發表在 痞客邦 留言(0) 人氣()

誤差項相互不獨立的迴歸模型和普通假設誤差項相互獨立的模型一樣地普遍,只要是系統性地取點的資料,如成對時間序列、地理序列,其迴歸模型的誤差項都需要考慮誤差項之間存在相關。因此,迴歸分析的教本固然是以誤差項 i.i.d. 的情況為討論重點,殘差分析也都會談到誤差項之間相關性的檢查,特別是時間序列的資料做迴歸分析時,常會假設誤差項本身的自相關。

假設只有兩變數:反應變數或依變數 Y,解釋變數或自變數 X,在迴歸分析教本上最常考慮的是誤差項屬一階自迴歸模型 (autoregressive model):

Y(t) = α + β X(t) + ε(t),  ε(t) = ρ ε(t-1) + u(t)

等死的老賊 發表在 痞客邦 留言(0) 人氣()

假設有兩組實驗對象進行某種實驗,兩組樣本或是在某種特性上有差別(例如男性與女性)而進行相同實驗,或隨機分組而施以不同處理(例如不同教學方式、不同飲食方案、不同醫療方案等)。假設實驗前先對反應變數(欲研究的事項)有一評測,實驗之後再做一評測。這裡我們考慮反應變數是所謂連續型、計量的、區間尺度的資料。在統計分析方法上,通常有兩種方法:一是增量法,以後測相比前測改變幅度為分析用的反應變數,做兩群體平均數差異之檢定;另一種是共變異數分析法 (ANCOVA),以前測為共變數,後測為反應變數,假設兩組實驗對象其前測對後測的影響方式相同,而比較經前測調整後,後測之平均結果在兩組實驗對象是否有所不同。

為了同時適合兩種分析方法,我們假設下列模型:

Yki = β0 + β1.G + Xki + ε_ki, k = 1, 2,  i = 1,...,n_k

等死的老賊 發表在 痞客邦 留言(0) 人氣()

眾所周知,當線性模型 Y = Xβ + ε 的共變異矩陣 Cov(ε) = σ^2 V ≠ σ^2 I 時應該用一般最小平方法 (general least squares) 極小化 Q(β) = (Y-Xβ)'V^(-1)(Y-Xβ) 而不宜採用普通最小平方法 (Y-Xβ)'(Y-Xβ),前者可適當估計 σ^2 並得到可估函數 (estimable function) x'β = ρ'Xβ 的最佳線性估計 (BLUE, Best Linear Unbiased Estimate),因為一般最小平方法相當於對原模型兩邊做相同線性變換

V^(-1/2)Y = V^(-1/2)Xβ + V^(-1/2)ε

變成誤差項零相關且同幅變異的標準情形,然後用普通最小平方法。簡單地說,在此模型,Xβ 的一般最小平方估計,也是其 BLUE,是 AY,其中

等死的老賊 發表在 痞客邦 留言(0) 人氣()

普通最小平方迴歸的方法是固定 Xi 之下,使對應觀測值 Yi 與迴歸值 Yi' 之差距平方和最小,以簡單直線迴歸 Yi' = α + β Xi 為例,就是極小化

Q(α,β) = Σ(Yi - α - β Xi)^2

因此,若 Y 對 X 迴歸是 Y' = α + β X, 則 X 對 Y 迴歸並不是 X' = (1/β)Y - α/β, 因為後者要極小化的目標函數是 Σ(Xi-Xi')^2 而前者是 Σ(Yi-Yi')^2。但如果我們要求迴歸直線 y = α + β x 其係數 α, β 的選取準則是「資料點至迴歸直線的(垂直)距離平方和最小呢?

等死的老賊 發表在 痞客邦 留言(0) 人氣()

最大概似估計 (maximum likelihood estimation) 是統計學中一個堪稱最重要的估計方法,至少是「之一」。一方面它是個系統性的,「看似合理」的方法;另方面是它在一些「正規條件」之下具有一些「好」性質,如漸近常態、漸近有效、函數變換等變等。

最大概似估計法就是以使概似函數 (likelihood function) 極大化之參數當作參數估計值的方法。概似函數是根據觀測到的所有資料建構的,可用以表現參數值概似度(或譯概似性、似然性, likelihood),參數 θ 的函數,就是在參數值 θ 之下資料為 x 的機率密度或機率質量 f(x; θ),視為 θ 的函數並表示為 L(θ; x)。為什麼 f(x; θ) 是 θ 的概似度?如果 θ 本身是隨機的,並且有機率密度(或質量)π(θ), 則在看到資料 x(或 X=x)後 θ 的條件機率密度是

p(θ|x) = f(x; θ) π(θ)/m(x)

等死的老賊 發表在 痞客邦 留言(0) 人氣()

二向列聯表,指兩個類別變數交叉排列的次數表。設 X, Y 是兩類別變數,X 的分類是 i = 1, 2 ,..., r; Y 的分類是 j = 1, 2, ..., c,而交叉分類結果得 r×c 表,有 r 個列(row, 在中國大陸及日本則稱之為行) c 個行(column, 在中國大陸及日本則稱之為列)。X 稱為列變數,Y 稱為行變數。第 i 列 j 行交叉細格機率用 π(ij) 表示,觀察 n 個隨機個案依其 X, Y 屬性分類結果落在 i, j 細格的次數是 n(ij),此細格期望次數或稱理論次數是 m(ij)。註標之對應位置用 + 表示該註標被加總,如 n(i+) 表第 i 列之總次數,即 n(ij) 對 j 加總,故 n = n(++); π(+j) = P[Y = j]。

列聯表之分析,有 X 與 Y 獨立與否之卡方檢定或形雖異實相同的均齊性檢定,可參見「次數表之卡方檢定」一文;有 XY 關聯強度指標之計算,另有重複測量之列聯表的特殊分析,最廣為人知的是 2×2 表的 McNemar 檢定。本文不談衡量 XY 關聯強度的傳統統計量數,也不談 X, Y 是同一屬性重複量測結果的情形,而只談 X, Y 是一般兩種不同屬性的列聯表關聯模型。

當 X, Y 相互獨立時,π(ij) = π(i+)π(+j), 以對數線性模型來表示,則是

等死的老賊 發表在 痞客邦 留言(0) 人氣()

假設 Y 是一個置中的(centralized, 減去平均數或即期望值)反應變數,X 是一個「解釋變數」,假設也是置中的變數。不論 Y 與 X 間是何種關聯,我們可以假設 Y = βX + ε, 這就是標題所謂的「擬線性關係」。這裡 ε 不應稱為隨機誤差,比較適合稱為「殘差」;不過因產差一詞常用於以樣本估計一個群體模型後其隨機誤差項的估計,這裡如有必要,就暫且稱 ε 為「殘餘」或殘餘項。用在隨機向量時,如主成分分析就在取一各行為相互正交之單位向量構成的矩陣 Q 使 tr(Cov(Q'X))/tr(Cov(X)) 極大化,也就是 tr(Cov(X-QQ'X)) 極小化,或說是極小化殘餘項總變異數。

當 Y, X 都是實數值隨機變數時,最小平方法要求 Var(Y-βx) 最小。由於

Var(Y-βX) = Var(Y) - 2β Cov(Y,X) + β^2 Var(X)

等死的老賊 發表在 痞客邦 留言(0) 人氣()

1 2
Close

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

reload

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼