排容原理 (inclusion-exclusion principle) 是關於 n 個集合之聯集 ∪_{i=1~n} A(i) 的「量度」計算公式:
| ∪_{i=1~n} A(i) | = Σ |A(i)| - Σ |A(i)∩A(j)| + Σ |A(i)∩A(j)∩A(k)| - …
其中「量度」可以是有限集的元素個數、事件機率、或可測集的測度 (measure),包括直線上有界子集的長度、平面上有界子集的面積、或一般的有限測度。
排容原理 (inclusion-exclusion principle) 是關於 n 個集合之聯集 ∪_{i=1~n} A(i) 的「量度」計算公式:
| ∪_{i=1~n} A(i) | = Σ |A(i)| - Σ |A(i)∩A(j)| + Σ |A(i)∩A(j)∩A(k)| - …
其中「量度」可以是有限集的元素個數、事件機率、或可測集的測度 (measure),包括直線上有界子集的長度、平面上有界子集的面積、或一般的有限測度。
信賴區間 (Confidence interval) , 或對應在貝氏分析中應的「可信區間 (credible interval)」,是關於一個實數值參數值落在什麼範圍的一個描述。例如說:
在 1-α 信賴水準下,民眾在 XXX 意見上表示支持的比例在 xx% 至 yy% 之間。
預測區間 (Prediction ynterval) 是於群髒未明(如:有未知其值的參數存在)之下一個實數值隨機變數可能實現在什麼範圍的一個綜合性描述,例如:
在 Neymann-Pearson 檢定,也就是傳統假說檢定中,「不拒絕虛無假說」常被強調不能解釋為「接受虛無假說」, 通常的理由是 N-P 檢定只藉由「顯著水準」來控制型Ⅰ誤機率,卻未能有效控制型Ⅱ誤發生機率,一個水準 α 檢定的型Ⅱ誤機率可以高達 1-α。一個水準 α 檢定是說如果參數 θ 是符合或說落在虛無假說之內,犯型Ⅰ誤的機率不超過 α。因此,如果檢定結果是拒絕虛無假說 H 而接受對立假說 K,這表示我們可能犯了型Ⅰ誤,也可能 θ 確實不在 H 而是在 K 內。但如果是前者,由於 α 值通常取很小,表示如果實際上 θ 在 H 之內,我們會判定 θ 不在 H 之內的機率很小,因此我們寧願冒著犯型Ⅰ誤的風險而認定 K 成立。但另一方面,如果檢定結果是「不拒絕 H」, 實際上 θ 是可能確實在 H 內,但如果 θ 在 K 內我們仍有很大機會,例如接近 1-α 的機率,因此沒有理由判定說 θ 在 H 之內。
本文考慮成對比較假說:H': a ≦ b 對 K': a > b,H": b ≦ c 對 K": b > c 與 H: a ≦ c 對 K: a > c。此處 a, b, c 是實數值參數。由於是實數參數,"≦" 和 ">" 都應滿足遞移性(遞移律),a ≦ b 且 b ≦ c 蘊涵 a ≦ c,即:若 H' 和 H" 都成立則 H 成立;類似地,K' 和 K" 都成立則 K 成立,即 a > b 且 b > c 則 a > c。
假設對參數比較之檢定都以點估計量之差建構 t 統計量進行,令 A, B, C 分別是參數 a, b, c 的點估計量,針對 H' 對 K',H" 對 K",與 H 對 K 的假說檢定統計量分別是
有個抽卡系統,共58張卡,其中,有5張卡抽中的機率為1/108,有2張卡抽中的機率是1/216,剩下的卡抽中的機率為1/54。
在其中的任意10張做記號變成「記號牌」,一張一張抽牌且抽後放回,抽12次,請問:
1. 至少出現1次記號牌的機率?
聯集交集檢定 (Union-intersection test, UIT) 是對於一組 Hi 對 Ki 的假說檢定,成立一個綜合的假說檢定:
H: all of the Hi's are true, K: some of the Ki's are true
如果 Hi 是 θ in Θ°i, Ki 是 θ in Θ'i,則
在多重比較法之中,Duncan 法和 Newman-Keuls 法可以說是 Tukey 檢定的修正;對 Bonferroni 多重檢定,其目的都是在控制族錯誤率 (FWER, family-wise error rate) 的同時,掀高個別檢定的檢定力 (power of a test)。
多重檢定問題是說:我們面臨多個假說檢定問題 Hi 對 Ki,如果逐一做普通固定顯著水準的假說檢定,基於顯著水準的設置就是容許我們犯型Ⅰ誤的機會,在做這麼多檢定的過程,我們至少犯了一次型Ⅰ誤的機率是很大的。例如假設每個 Hi 對 Ki 的檢定都容許 α = 0.05 的型Ⅰ誤機率,如果做了 10 個檢定,假設這 10 個虛無假說其實都不應該被拒絕,但實際上至少一個虛無假說 Hi 會被拒絕的機率可能高達 0.5,因為
P°{reject some Hi} ≡ P{reject some Hi | all Hi are true}
月中,ptt 數學板有一個討論串:
對於x_i均非負數,i=1~n , 試證:
(x_1+x_2+...+x_n)/n ≧ √[(x_1 x_2+x_2 x_3+...+x_n x_1)/n]
在統計假說檢定問題中,如果虛無假說 H° 和對立假說 H' 都是簡單假說,H° 是 θ = θ°,H' 是 θ = θ',Neyman-Pearson 引理告訴我們:最佳檢定是選取 L(θ'; x)/L(θ°; x) 最大的部分當拒絕域。具體做法就是選擇一個臨界值 c 當資料 x 落在 C = {x: L(θ'; x)/L(θ°; x) > c} 時就拒絕 H°: θ = θ° 而接受 H': θ = θ'。臨界值 c 的值決定了這個檢定犯型Ⅰ誤機率 P_{θ°}{C} 的大小。但因為檢定力P_{θ'}{C} 的大小和 P_{θ°}{C} 的大小是同向的,因為是同一個事件「拒絕 H°」的機率,只是用於計算機率的機率分布不同。所以,為了極大化檢定力,c 的選擇是使型Ⅰ誤機率在不超過顯著水準的要求下儘量放大,在可能情況使二者相等。如果對立假說是複合假說,即包含不只一組參數值,理想情況是上述 NP 檢定對於對立假說中的任一組參數值都相同,即所謂「一致最強力檢定」;或是在某些合理限制下,如限制不偏檢定,或在某種變換群之下不變的焮定,希望其中可找酊一致最強力的檢定。當虛無假說也是複合假說時,除了在虛無假說的每一點,即每一組參數值,其型Ⅰ誤機率一致被要求不超過顯著水準之外,基本上沒什麼不同,一切都是從 NP 引理始。
然而,即使加上不偏、不變的限制,其中也不一定有一致最強力檢定。例如,以統計資料分布族中的乖乖牌,指數族來說,假設最簡單的,獨立雙變量資料,其機率密度
f(x; y; θ, η) = C(θ)e^{θ T(x)} K(η) e^{η U(y)}
統計上一個廣為人知的不等式;柴必雪夫 (Chebyshev) 不等式,說:遠離數值資料中心(平均值) k 倍標準差之外的資料,占總資料數不超過 1/k^2;以機率來表示,
P[|X-E[X]| > a] ≦ E[(X-E[X])^2]/a^2
式中 a = k √ E[(X-E[X])^2] 則右邊是 1/k^2。此不等式暗指:以平均數代表一個資料分布的中心是有道理的,因為離此中心太遠的資料「並不多」。