- Mar 13 Mon 2023 17:02
舊文:隨機樣本、便利樣本、立意樣本與自願回覆樣本
- Mar 09 Thu 2023 09:13
怎樣「證明」虛無假說?
統計處理非確定性的、隨機的訊息,或更明確地說是藉由收集到的不完整的、但被認為具有隨機性代表性的樣本資料,推論那未知的、本質上不可能確知的群體模樣、特性或參數,實際上不可能「證明」任何事,但我們總希望統計能為我們證明一些事。這似乎有點矛盾?不過如果把兩個「證明」做不同解讀,那就可行了。統計不能像數學那樣證明某些事是事實,這就是之前說的:統計不可能證明任何事的原由。然而,統計確實能提供「對某事有足夠證據」的說法,統計假說檢定 (testing statistical hypotheses) 就是做這樣的事,雖然它做的不完全,有時它能提供足夠的證據,有時不行。
統計假說檢定 H0 對 Ha,在所謂頻率論的方法是設定一個顯著水準 α,明確地說是在實際狀況是 H0 之下會拒絕 H0 的機率上限,也就是說犯這所謂型Ⅰ錯誤的機率不超過 α。而檢定結果如果拒絕 H0,我們說結果顯著或差異顥著。之所以說「差異」顯著,因為 H0 常是 θ = θ0 的形式,而 Ha 則代表 θ 和 θ0 有差異。不過,這「差異顯著」說的其實不是 θ 與 θ0 的差異足夠大。差異顯著的檢定結果只是說:
我們承認 θ 和 θ0 有「差異」,因為有「顯著」證據顯示假設 θ = θ0 是有問題的。
- Mar 08 Wed 2023 19:05
統計上的詭論
詭論 (paradox),或譯悖論,英文字典的解釋是:
"a situation or statement that seems impossible or is difficult to understand because it contains two opposite facts or characteristics"
一般指自相矛盾的情況,似非而是的說法。不過個人看來,統計上的詭論其實算不上詭論,只是一些謬誤,或直觀上令人疑惑但並不難理解的現象。像羅素詭論 (Russell Paradox) 又稱理髮師詭論那樣,才是真正的詭論。
- Mar 05 Sun 2023 15:27
前後測資料分析問題
假設有兩組實驗對象進行某種實驗,兩組樣本或是在某種特性上有差別(例如男性與女性)而進行相同實驗,或隨機分組而施以不同處理(例如不同教學方式、不同飲食方案、不同醫療方案等)。假設實驗前先對反應變數(欲研究的事項)有一評測,實驗之後再做一評測。這裡我們考慮反應變數是所謂連續型、計量的、區間尺度的資料。在統計分析方法上,通常有兩種方法:一是增量法,以後測相比前測改變幅度為分析用的反應變數,做兩群體平均數差異之檢定;另一種是共變異數分析法 (ANCOVA),以前測為共變數,後測為反應變數,假設兩組實驗對象其前測對後測的影響方式相同,而比較經前測調整後,後測之平均結果在兩組實驗對象是否有所不同。
為了同時適合兩種分析方法,我們假設下列模型:
Yki = β0 + β1.G + Xki + ε_ki, k = 1, 2, i = 1,...,n_k
- Feb 27 Mon 2023 15:35
微積分之 Lagrange 乘數求極值法
如果有一個問題,要找 f(x,z) 之極值(極大、極小), 條件是 x, y 滿足 g(x,y) = 0,微積分中兩個方法,一是解出 z = h(x) 或 x = h(z),代入 f,變成單變量函數;另一種方法是所謂 Lagrange 乘數法:令
F(x,z,λ) = f(x,z) - λg(x,z)
而後對 x, z, λ 偏微以尋找所謂臨界點或平穩點,而結果 f 函數值是極大或極小用所謂 bordered Hessian (鑲邊 Hessian)來判斷。
- Feb 22 Wed 2023 11:53
資料或機率分布之偏態與位置量數的關係
一般我們說:如果一個資料或機率分布是正偏或右偏,分布右邊(右尾)拉得較長而左邊較集中或左尾較短,因此(算術)平均數偏高,而高峰偏左,因此有平均數最大,眾數最小;當分布為負偏或左偏時,則正好相反,眾數最高而平均數最低。K. Pearson 更提出他的 rule of thumb 說眾數與中位數之間的差距大約是平均數與中位數之間差距的兩倍,因此以
(平均數 - 眾數)/ 標準差 或 3(平均數 - 中位數)/ 標準差
為衡量偏態的指標。當然,最常用的指標還是動差系列,以第三階動差為基準的偏態係數:
- Feb 18 Sat 2023 12:26
樣本平均數與樣本變異數的獨立性
統計學上一個眾所周知的事實是:從常態群體抽出一個隨機樣本,則其樣本平均數 Xbar = Σ Xi/n 和樣本變異數 S^2 = Σ(Xi-Xbar)^2/(n-1) 相互機率獨立。有很多人問:在非常態群體,這兩統計量是否也會相互獨立?答案是:不會。也就是說:當且僅當群體是常態時,其隨機樣本的樣本平均數與樣本變異數相互獨立。
證明常態群體的 Xbar 和 S^2 相互獨立有多種方法,例如先把隨機樣本做線性變換為 Xbar, Z2,...,Zn, 為 n 個相互獨立的隨機變數,並證明 S^2 是 n-1 個 Zi 的平方和,因為其定義不涉及獨立的 Xbar,所以 S^2 和 Xbar 獨立。另一個方法較簡單,只需證明 Xi-Xbar, i=1,...,n 聯合和 Xbar 獨立,而 S^2 是那 n 個與 Xbar 獨立的離差的平方和,所以兩者獨立。再或者,利用多元常態分布二次式分布的理論,應用 Cochran 定理得知 (Xbar-μ)^2 與 S^2 相互獨立,再由 Xbar-μ 的對稱性得 Xbar 與 S^2 的獨立性。如果知道充分統計量理論,Basu 定理更方便於得出 S^2 與 Xbar 相互獨立的結論。
反過來說,由 Xbar 和 S^2 的獨立性反過來要證群體是常態就比較不容易了,這就是所謂常態分布(群體)的 characterization(刻劃、特徵化、表徵化)問題,網路上可以查到不少資料,甚至很久以前 (1979) 就有專書 "Characterization of the Normal Probability Law" 談常態分布特徵化問題。
- Feb 13 Mon 2023 13:01
線性模型:當誤差非等幅變異時
眾所周知,當線性模型 Y = Xβ + ε 的共變異矩陣 Cov(ε) = σ^2 V ≠ σ^2 I 時應該用一般最小平方法 (general least squares) 極小化 Q(β) = (Y-Xβ)'V^(-1)(Y-Xβ) 而不宜採用普通最小平方法 (Y-Xβ)'(Y-Xβ),前者可適當估計 σ^2 並得到可估函數 (estimable function) x'β = ρ'Xβ 的最佳線性估計 (BLUE, Best Linear Unbiased Estimate),因為一般最小平方法相當於對原模型兩邊做相同線性變換
V^(-1/2)Y = V^(-1/2)Xβ + V^(-1/2)ε
變成誤差項零相關且同幅變異的標準情形,然後用普通最小平方法。簡單地說,在此模型,Xβ 的一般最小平方估計,也是其 BLUE,是 AY,其中
- Feb 08 Wed 2023 20:51
[舊文] 統計分析中的檢定因素(控制變數)
- Feb 08 Wed 2023 20:35
[舊文] 統計資料分析的策略
[參考]
徐正光、黃順二(民81,譯, Rosenberg 原著)
調查分析的邏輯, 2nd ed.(民68初版)
- Feb 08 Wed 2023 20:30
[舊文] 虛假相關與外加變數
- Feb 08 Wed 2023 20:25
[舊文] 關係(統計關聯)的意義
內容來源
徐正光、黃順二(民81,譯, Rosenberg 原著)
調查分析的邏輯, 2nd ed.(民68初版)