實數值隨機變數是定義在樣本空間上的幾乎確定有限實數值函數。具體地說:X 是一個隨機變數,意指

1. X 是定義在樣本空間 Ω 的延伸實數值函數。
2. X 是可測的。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

在 Neymann-Pearson 檢定,也就是傳統假說檢定中,「不拒絕虛無假說」常被強調不能解釋為「接受虛無假說」, 通常的理由是 N-P 檢定只藉由「顯著水準」來控制型Ⅰ誤機率,卻未能有效控制型Ⅱ誤發生機率,一個水準 α 檢定的型Ⅱ誤機率可以高達 1-α。一個水準 α 檢定是說如‵果參數 θ 是符合或說落在虛無假說之內,犯型Ⅰ誤的機率不超過 α。因此,如果檢定結果是拒絕虛無假說 H 而接受對立假說 K,這表示我們可能犯了型Ⅰ誤,也可能 θ 確實不在 H 而是在 K 內。但如果是前者,由於 α 值通常取很小,表示如果實際上 θ 在 H 之內,我們會判定 θ 不在 H 之內的機率很小,因此我們寧願冒著犯型Ⅰ誤的風險而認定 K 成立。但另一方面,如果檢定結果是「不拒絕 H」, 實際上 θ 是可能確實在 H 內,但如果 θ 在 K 內我們仍有很大機會,例如接近 1-α 的機率,因此沒有理由判定說 θ 在 H 之內。

本文考慮成對比較假說:H': a ≦ b 對 K': a > b,H": b ≦ c 對 K": b > c 與 H: a ≦ c 對 K: a > c。此處 a, b, c 是實數值參數。由於是實數參數,"≦" 和 ">" 都應滿足遞移性(遞移律),a ≦ b 且 b ≦ c 蘊涵 a ≦ c,即:若 H' 和 H" 都成立則 H 成立;類似地,K' 和 K" 都成立則 K 成立,即 a > b 且 b > c 則 a > c。

假設對參數比較之檢定都以點估計量之差建構 t 統計量進行,令 A, B, C 分別是參數 a, b, c 的點估計量,針對 H' 對 K',H" 對 K",與 H 對 K 的假說檢定統計量分別是

等死的老賊 發表在 痞客邦 留言(0) 人氣()

有個抽卡系統,共58張卡,其中,有5張卡抽中的機率為1/108,有2張卡抽中的機率是1/216,剩下的卡抽中的機率為1/54。
在其中的任意10張做記號變成「記號牌」,一張一張抽牌且抽後放回,抽12次,請問:
  1. 至少出現1次記號牌的機率?

等死的老賊 發表在 痞客邦 留言(0) 人氣()

聯集交集檢定 (Union-intersection test, UIT) 是對於一組 Hi 對 Ki 的假說檢定,成立一個綜合的假說檢定:

H: all of the Hi's are true,   K: some of the Ki's are true

如果 Hi 是 θ in Θ°i, Ki 是 θ in Θ'i,則

等死的老賊 發表在 痞客邦 留言(0) 人氣()

兩年多前,做為統計假說檢定的一種程序,我們曾談過 p-值,。本文想再仔細談談 p-值這個令人又愛又恨的概念。

P-值 (p-value) 的一個定義是:

以當前手上的資料,能拒絕虛無假說 H 而接受對立假說 K 的最小顯著水準。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

多重檢定,例如變異數分析 (ANOVA) 中的多重比較,一直被關注的是族錯誤率 (FWER, family-wise error rate),但在控制族錯誤率的同時,不免造成檢定力 (power of a test) 的低下。為此,Benjamini and Hochberg (1995) 提出了「偽發現率 (FDR, False Discovery Rate)」的概念及相應的多重檢定程序。

偽發現率,定義為

在所有被拒絕的虛無假說中,其實犯了型Ⅰ誤者所佔比例的期望值。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

在多重比較法之中,Duncan 法和 Newman-Keuls 法可以說是 Tukey 檢定的修正;對 Bonferroni 多重檢定,其目的都是在控制族錯誤率 (FWER, family-wise error rate) 的同時,掀高個別檢定的檢定力 (power of a test)。

多重檢定問題是說:我們面臨多個假說檢定問題 Hi 對 Ki,如果逐一做普通固定顯著水準的假說檢定,基於顯著水準的設置就是容許我們犯型Ⅰ誤的機會,在做這麼多檢定的過程,我們至少犯了一次型Ⅰ誤的機率是很大的。例如假設每個 Hi 對 Ki 的檢定都容許 α = 0.05 的型Ⅰ誤機率,如果做了 10 個檢定,假設這 10 個虛無假說其實都不應該被拒絕,但實際上至少一個虛無假說 Hi 會被拒絕的機率可能高達 0.5,因為

P°{reject some Hi} ≡ P{reject some Hi | all Hi are true}

等死的老賊 發表在 痞客邦 留言(0) 人氣()

月中,ptt 數學板有一個討論串:

對於x_i均非負數,i=1~n , 試證:
        (x_1+x_2+...+x_n)/n ≧ √[(x_1 x_2+x_2 x_3+...+x_n x_1)/n]

等死的老賊 發表在 痞客邦 留言(0) 人氣()

在統計假說檢定問題中,如果虛無假說 H° 和對立假說 H' 都是簡單假說,H° 是 θ = θ°,H' 是 θ = θ',Neyman-Pearson 引理告訴我們:最佳檢定是選取 L(θ'; x)/L(θ°; x) 最大的部分當拒絕域。具體做法就是選擇一個臨界值 c 當資料 x 落在 C = {x:  L(θ'; x)/L(θ°; x) > c} 時就拒絕 H°: θ = θ° 而接受 H': θ = θ'。臨界值 c 的值決定了這個檢定犯型Ⅰ誤機率 P_{θ°}{C} 的大小。但因為檢定力P_{θ'}{C} 的大小和 P_{θ°}{C} 的大小是同向的,因為是同一個事件「拒絕 H°」的機率,只是用於計算機率的機率分布不同。所以,為了極大化檢定力,c 的選擇是使型Ⅰ誤機率在不超過顯著水準的要求下儘量放大,在可能情況使二者相等。如果對立假說是複合假說,即包含不只一組參數值,理想情況是上述 NP 檢定對於對立假說中的任一組參數值都相同,即所謂「一致最強力檢定」;或是在某些合理限制下,如限制不偏檢定,或在某種變換群之下不變的焮定,希望其中可找酊一致最強力的檢定。當虛無假說也是複合假說時,除了在虛無假說的每一點,即每一組參數值,其型Ⅰ誤機率一致被要求不超過顯著水準之外,基本上沒什麼不同,一切都是從 NP 引理始。

然而,即使加上不偏、不變的限制,其中也不一定有一致最強力檢定。例如,以統計資料分布族中的乖乖牌,指數族來說,假設最簡單的,獨立雙變量資料,其機率密度

f(x; y; θ, η) = C(θ)e^{θ T(x)} K(η) e^{η U(y)}

等死的老賊 發表在 痞客邦 留言(0) 人氣()

統計上一個廣為人知的不等式;柴必雪夫 (Chebyshev) 不等式,說:遠離數值資料中心(平均值) k 倍標準差之外的資料,占總資料數不超過 1/k^2;以機率來表示,

P[|X-E[X]| > a] ≦ E[(X-E[X])^2]/a^2

式中 a = k √ E[(X-E[X])^2] 則右邊是 1/k^2。此不等式暗指:以平均數代表一個資料分布的中心是有道理的,因為離此中心太遠的資料「並不多」。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

前幾天談的「重複量測與相關」談的是一個 X(i) 觀測值對應數個 Y(ij) 觀測值的問題,基本模型是

Y(ij) = α + β X(i) + ε(i,j),   i = 1, ..., k,  j = 1, ..., n(i)

其中假設 誤差項 ε(ij) 是 i.i.d. (0, σ^2)。本文要談另一種惰形:有 m 個個體,每個個體各有 n(i) 個重複測量的數據對 (X(ij), Y(ij)),那麼如何測量變數 X 與 Y 之間的相關?

等死的老賊 發表在 痞客邦 留言(0) 人氣()

PTT 統計板上一個問題

我有30個受 試者 每個受試者有一個 age 的data 以及 blood pressure (bp) 但bp測了2次 我知道可以每個人取得2次bp 的 average 然後直接做 bp average 與 age的correlation (圖會有30個 data point) 但如果不取2次bp 的 average 直接做 bp 與 age的correlation (圖會有60個 data point) 這應該不行吧? 如果不取2次bp 的 average 要做這個correlation 該用什麼統計方法呢

首先,相關是怎麼測定的?在 X, Y 都是區間尺度變數時,變數間的相關主要是 Pearson 相關係數

等死的老賊 發表在 痞客邦 留言(0) 人氣()

Close

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

reload

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼