目前分類:統計機率基本概念 (22)

瀏覽方式: 標題列表 簡短摘要

近日,柯文哲談及大法官時,稱:他不相信15位大法官都是偏向民進党的,因為「 n 大於等於 15 就會接近常態分配。」本文不談政治,只想就「 n 大於等於 15 就會接近常態分配」這句話談談其中的謬誤。

首先,這顯然是很常見的,把中央極限定理中「統計量(樣本平均數)的抽樣分布」和樣本的分布,或稱「樣本分布」給搞混了;其次,就中央極限定理而言,"n ≧ 15" 這條件的適用性問題;最後,是「偏向」與否並非中央極限定理能解決的問題。

就第一個問題,若是大法官的偏向可以用一個尺標來表現,X 代表潛在的大法官偏向尺標,X{1}, ..., X{n} 代表現實中 n 位大法官各自的偏向指標,可以當成從 X 群體抽出的樣本。這樣本怎麼抽出呢?如果是自具有 X 的分布的群體中依簡單隨機抽樣抽出的,我們可以說:諸 X{i} 所形成的這樣本分布 (sample distribution) 具有和 X 群體分布接近的特性,而我們要檢視的那句話,意思是 n ≧ 15 則該樣本分布接近常態,但這卻是大大地錯了!如果 n 夠大,機率學的定理,根基於大數法則,樣本分布只會趨近於群體分布;除非 X 就服從常態分布,並且採用的是隨機抽樣,否則樣本分布不會趨近於常態。但,大法官的選任顯然不是隨機的(可參考「隨機很重要」一文),也沒有理由說 X 的分布是常態的,因此那句話的由來應是中央極限定理

等死的老賊 發表在 痞客邦 留言(0) 人氣()

前曾談過樣本空間與隨機變數,但那是比較偏數學嚴謹性的說法。數學的嚴謹性重要嗎?很重要,因為有時候僅憑直觀或疏於嚴謹論證,可能導致嚴重的問題。但是,我們真的必要那麼嚴謹嗎?這又不然!特別對於初學者,重點是概念的理解;對於應用層面,重點在結果的應用。因此,在入門、初學的教科書,不會太強調嚴謹性,而在於如何讓學習者了解作者想要傳達的概念;在應用類書籍,則重點在給予明確的應用指引,包括所談方法的適用條件。本文試圖以儘量淺顯的方式重新談一談機率學中的幾個概念。

首先是「隨機實驗」。什麼是隨機實驗?數學上是不可能給予嚴謹定義的,而白話來說,隨機實驗是一種可以重複,每次重複實驗結果可能都不同,但沒辦法事先有所預期,也就是實驗結果有不確定性。不過,所謂不確定性其實也有一些不同類別,例如完全混亂沒有任何方式找到其規律性的,這種現象。又如 chaos, 中譯「混沌」,混沌其實是一種非線性系統,若只看此系統部分表現,常無法看出其規律性,但它卻是有一套規律。而我們所謂隨機實驗,其結果有點像完全混亂的現象,例如丟一個銅板(硬幣),擲一枚骰子,從撲克中抽一張牌,在這裡我們假設丟銅板、擲骰子時沒有什麼特殊技巧,抽牌時一副正常撲克牌被「充分洗過」,於是我們不能預測結果,每次重新實驗都是相同狀態:我們無任何辦法知道結果會是什麼。如果只是到目前為止所描述的,那麼它和前面說的「完全混亂」也就沒差別了。那麼隨機實驗的特色是什麼?是做了很多次重複的實驗以後,計算每一種可能結果,或某些結果整體出現的相對頻率,也就是出現該(些)結果的次數和實驗總次數的比,會傾向於穩定。這「傾向於穩定」的現象,又有點像混沌,但隨機實驗和混沌是有很大差別的,隨機實驗的結果依實驗順序排列的話是完全無序的,而混沌前面說過其實是有一套非線性系統。很多時候我們想模擬隨機現象,就會藉助一個所謂「亂數產生器」,更正式的稱呼是「擬隨機數產生器 (pseudo random number generator, PRNG)」,其實那就是一個混沌系統,其產生的數字或數值是有一定週期的,如果產生的亂數或擬隨機數太多,可能會發現其實產生的結果開始重複、循環,只不過一個好的 PRNG 週期很長,使得實務應用上不會超過一個週期,或者即使超過了甚至循環數次了,應用者也很難發現。簡而言之,隨機實驗是

  • 實驗前無法預知實驗結果;
  • 如果實驗被重複做很多次,無數次, 將發現個別結果或一些結果整體出現的相對頻率趨於穩定。

所謂「一個」隨機實驗是指什麼?它可以是擲一粒骰子一次,可以是擲 3 粒骰子 10 次,也可以把擲骰子的動作無止境地做下去。它也可以是一般可能不被認為是隨機實驗的物理實驗,也有實驗誤差及誤差不能確定的問題。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

考慮一個隨機變數串(序列) X1,...,Xn,..., 當我們談到這序列收斂時,有多種意義。

實數值隨機變數是從樣本空間 S 到(延伸)實數集的函數,因此就函數序列收斂的意義來說,它至少有兩種意義:逐點收斂 (point-wise convergence) 和均勻收斂 (uniform convergence)。不過,就機率上的考慮而言,事實上採用其弱化版本:幾乎確定 (almost surely, almost certainly) 收斂和幾乎確定均勻收斂。逐點收斂就是說:有一隨機變數 X 使

lim_{n→∞} Xn(s) = X(s),  for all s in S

等死的老賊 發表在 痞客邦 留言(0) 人氣()

統計上 "自由度" 來源自卡方分布。卡方變量的定義是

X^2 = Σ_{i=1~r} Zi^2

其中 Zi, i=1,...,r, 是 r 個相互獨立的標準常態變量,這樣的 X^2 是具有 r 個自由度的卡方變量 (具卡方分布)。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

機率論中,樣本空間是一個隨機實驗所有可能結果所形成的集合,隨機變數是從樣本空間映至實數線或複數平面的函數;隨機向量可以看成是多個隨機變數組成的向量,也可以說是定義在樣本空間的一個向量值函數;同樣我們可以在樣本空間定義矩陣值函數,那就是隨機矩陣。一堆隨機變數組合成一個整體,有時也稱隨機過程 (random or stochastic process),有時稱隨機場 (random field)。

通常這一堆隨機變數用一個實數或整數值註標組成的稱之為隨機過程,而隨機場可以是隨機過程,也可以是有兩個以上的註標,這些註標所在範圍通常是 R^k,但也可以是其他域 (domain) 如某個流形 (manifold)。甚至,除了實數值隨機變數、複數值隨機變數、向量值隨機變數(即:隨機向量),我們可考慮張量值隨機變數、函數值隨機變數或隨機函數。那麼,隨機過程和隨機場裡每個成員隨機變數除了實數值或複數值以外,也可以是向量值、張量值、或函數值。

這看起來很複雜,其實複數值隨機變數 Z 只不過是兩個實數值隨機變數 X, Y 湊成一對,把它當成複數看待罷了;向量值隨機變數不過是有限或無限個實數值或複數值隨機變數湊在一起構成一個向量 (X1,...,Xn) 而已。函數值隨機變數 W(t) 對應每個 t 它就是一個實數、複數或向量值隨機變數。如果我們考慮一個向量值隨機過程:{ Vt; t in T}, 就是說針對每個 t,有一個隨機向量 Vt = (X1t,...,Xnt), 這可以看成一個兩註標的隨機場,可以看成同時有 n 個隨機過程,也可以看成是一個 n 維的函數值隨機向量 (X1(t),...,Xn(t)), 每個分量 Xi(t) 是一個隨機函數。所以,最基礎的是實數值隨機變數,或者再加一個複數值。而向量值、張量值、函數值,隨機向量、隨機過程、隨機場等,都只是為了應用方便的不同組合,不同稱呼罷了。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

「正交 (orthogonal)」這個形容詞在統計中出現得不少,如隨機變數的正交變換、正交分解,線性模型的正交對比 (contrast),實驗的直交表 (orthogonal array) 設計,多項式迴歸的正交多項式。先前在「統計(隨機)變數間的擬線性關係」就把 Y 對 X 的擬線性關係說是 Y 在 X 及其垂直方向的分解。上列無論哪一種,其實都與線性代數離不開關係。

首先,定義在同一機率空間的所有實數值隨機變數形成一個佈於實數體 R 的向量空間 V,其中存在期望值的構成 V 的一個子空間 W,存在二階動差的又是 W 的一個子空間 U. 欲驗證 V 是一個向量空間並不難,其一,隨機變數與其間的加法運算構成一個交換群 (commutative group) 或稱 Abel 群;其二,隨機變數與實數間的乘法也符合結合律、乘對加的分配律及 1X = X 等性質,也就是說 V 配備向量加法及純量乘法兩種運算,確實構成了一個向量空間。而若 X, Y 期望值存在,aX+bY 期望值也存在;X, Y 二階動差存在,aX+bY 亦然。所以 W 是 V 的子空間,U 又是 W 的子空間。

談「正交」或垂直,離不開內積 (inner product). 

等死的老賊 發表在 痞客邦 留言(0) 人氣()

機率中的「獨立」是一個特殊的概念,初學者有不少為「獨立」與「互斥」混淆。互斥其實只是集合間的關係,在機率學中也就是事件間的關係,只要兩個事件沒有交集,或說交集是空事件(空集合),那就是互斥。但獨立則不然,兩事件是否獨立,還要看機率。也許在某個機率分布(指在一個樣本空間上如何設定各個事件的機率)事件 A 和 B 是獨立的,但在另一個機率分布下卻不然。所以互斥事件可以用 Venn 圖解來解釋,獨立卻不行。硬要圖解的話,樹形圖 (tree diagram) 勉強算吧。說「勉強」,因為表現獨立與否的還要看上面標示的條件機率;而且樹形圖其實比較適合表示多階段實驗,對於同時、等同地位的事件而言,榭形圖固然也被使用,卻也可能被誤解為事件之間有地位或順序的不對等。

機率中的獨立是指什麼意思?如果 P{A} > 0, 則

B 與 A 獨立表示 A 之發生不會影響 B 發生之機率,即 P{B|A} = P{B}

等死的老賊 發表在 痞客邦 留言(0) 人氣()

本文將從基本的事件條件機率定義,談到有點抽象的「給定一個 σ-體」的條件機率與條件期望值 ,實務上就是「給定一(或多)個隨機變數」的條件機率與條件期望值。

談機率一開始都假設一個宇集 S,稱為樣本空間,又稱必然事件,是隨機實驗各種可能結果所形成的集合。而所有被考慮的事件,都是樣本空間的子集。所謂隨機實驗很難定義清楚,這裡就不定義,只需知道隨機實驗是計算機率的基礎,如抽牌、抽球、擲骰子、擲硬幣等無法預知結果而如果能重複地操作其出現各種結果的相對頻率會出現規律性。

一個事件 E 發生,指的就是隨機實驗的結果是在 E 中。機率問題常問的是:某一個事件,例如 E 發生的機率是多少?但很多時候我們也會問這樣的問題:已知道事件 E 發生,那麼事件 F 也發生的機率是多少?我們稱這是「給定 E 發生,問 F 發生的條件機率。」因為「已知道事件 E 發生」等於給「機率多少」這個問題加了條件︰我們是在「E 發生」的限制之下考慮機率的問題,也就等於把樣本空間從原來的宇集改成限制在 E 之內。從隨機實驗實務上來說,相當於把結果在 E 之外的都拋棄,只保留結果在 E 之內的。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

期望值,  mathematical expectation, 一個概念還分什麼初級高級?高級是怎麼一回事?真的比較「高級」嗎?

其實初級和高級沒什麼高低之分,只是數學方法的不同而已。什麼是初級?就是在大學以下課程中談機率、談統計,用到的數學工具不過是代數運算、普通微積分。什麼是高級課程方法,不過是把機率當做一種測度 (measure),以測度論為工具的討論方法而已。若硬要說有高低之分,不過是測度論或所謂高等機率論或正式的機率論,通常是大學高年級選修或研究所才有的課程;而初高級統計、機率概論等課程則是大學低年級,統計或其他專業必修或選修課程。初級課程的方法不能說有什麼錯或不嚴謹,只是有些情況受限於數學工具可能難以完整考慮而已。例如在初級課程,考慮隨機變數及其機率分布時,必然要分連續型、離散型。然而隨機變數及其分布不只限於這兩型,至少還有混合型。而高機的方法可以不管連續離散之分,可以含蓋所有類型,也可以更嚴謹地處理所有問題。但是,不管初級或高級方法,本質上是一樣的。

首先,我們有一個實驗所有可能結果的集合,稱為樣本空間,在這樣本空間中我們把它的子集稱為事件,這些事件上可以指定一個 0-1 之間的值稱之為機率。在這(樣本空間、機率)的整體架構上另外可以定義實數值函數把每個樣本點映至一個實數,這就是隨機變數。初級課程談機率、隨機變數大概就是這樣,當然一般還加上機率的三個條件:

等死的老賊 發表在 痞客邦 留言(0) 人氣()

假設我們做如下假說問題的檢定:H0: θ in Θ0 對 H1: θ in Θ1。在 Θ0,我們考慮一點 θ0,在此點

α ≧ P(拒絕 H0 | θ = θ0) ≧ P(拒絕 H0 | θ = some value in Θ0)

例如在平均數檢定 H0: θ1 ≦ θ ≦ θ2 對 H1: θ < θ1 or θ > θ2,則 θ0 將是 θ1 或 θ2,看在哪一點拒絕 H0 的機率最大。在我們通常遇到的假說檢定問題和採行的檢定程序,在所有 θ in Θ0 中,拒絕 H0 之機率最大總發生在 Θ0 的邊界。之所以如此,是因我們採行的檢定程序通常符合「不偏性 (unbiasedness)」的要求:

等死的老賊 發表在 痞客邦 留言(0) 人氣()

統計分布的形態描述大致有兩套系統,一是分位數,

> x <- rgamma(100,3,1)
> str(x)

等死的老賊 發表在 痞客邦 留言(0) 人氣()

大數法則與中央極限定理是統計學中極重要的兩個機率學定理,其中大數法則可以說是統計推論的基礎,而中央極限定理則是計算的重要工具。故事是這樣的:當樣本數 n 變得很大,大數法則把樣本平均數往群體平均數靠攏,在極限狀態已無法分辨了—— P[lim Xbar = μ] = 1 —— 可是,我們實際上並不處於極限狀態,n 一直都是有限的,哪怕有數萬個樣本觀測值,相對於群體數百萬、數千萬甚至實際上就是無限的,樣本與群體還是有差距的。那麼,想看清楚樣本平均 Xbar 與群髒體平均 μ 的差距,就藉助放大工具吧!於是,(√n)(Xbar-μ) 把 Xbar 與 μ 的差距放大 √n 倍來觀察。結果發現:如果我們不是只抽一組大小為 n 的樣本,而是抽無數組大小為 n 的樣本,這些樣本平均數圍繞在 μ 的周圍,竟然形成了理想分布形狀——常態分布。這就是「中央極限定理」,它告訴我們:不管群體分布的形狀如何,只要符合某些條件,當樣本無限增大時,√n(Xbar-μ) 都會逐漸變得像常態分布的模樣。

數學的描述是用「極限」表示,但如先前說的,n 總是有限的,不是 n→∞ 的極限狀態。那麼,這用極限說話的定理究竟有什麼用?這就要了解「極限」是什麼意思了。其實很簡單,極限的意思就是你能接近它。大數法則說 Xbar 的極限是 μ,樣本分布的極限是群體分布,所以當 n 足夠大時,我們由 Xbar 的標準差或標準誤可以感受到樣本平均數和群體平均數靠近,模擬方法可以直觀地看到樣本平均數在向群體平均數靠攏,也可以看到樣本分布在 n 增大時逐漸趨向群體分布的模樣。同樣的,當 n 增大時我們也可看到 Xbar 的抽樣分布逐漸像常態分布的樣子:

談中央極限定理

等死的老賊 發表在 痞客邦 留言(1) 人氣()

遙想當時年紀小,聽聞有人批評國人凡事差不多,不求精確統計,人少則稱兩三人、三五人,多些就二三十人、三五十人,再多則三五百人、三五千人、甚或三五萬人。總而言之,吾人當力求精準,不做「差不多先生」。我當時直接就想回:統計本就是「差不多」。

無可議的,「差不多先生」的差不多和統計的差不多是兩回事,此處卻想強調統計的差不多,因為個人認為:只有承認統計只講差不多,才能了解統計的真意,才能正確應用統計。由於承認了模糊的事實,有了模糊數學的發展,使得電腦控制、模式識別、人工智能方面有了很好的成就。記得有一陣子,家電產品的廣告流行「微電腦模糊控制」的廣告語。注意是微電腦模糊控制而不是微電腦精確控制。

統計資料的蒐集過程帶來許多誤差和偏誤,數字本身在測量時也因工具精確度的限制不能不採用「近似值」。可以說:統計數字原本就是伴著誤差而生的,我們能力求減小誤差,卻不能沒有誤差。因此,如 1234.56789 之類的統計數字通常是沒有意義的,1234.6 或 1235 可能更接近事實。常見有人發表文章,涉及數字寫的是一長串;相反的,在學校中學生做數值計算,則是能省則省,總不肯多算一兩位小數。這兩種做法都是不當的,前者可能寫的是一長串 gabage,而後者可能使答案不正確或達不到要求的精確度。要知道報告中應報告幾位數字或計算過程中間結果要取到幾位「有效數字」或取到幾位小數,就必須了解近似值算術或「誤差傳播(傳遞) (propadation of error)」的問題。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

開什麼玩笑?統計資料還有條件?沒錯!統計資料需要具備一定條件,否則以我這統計老兵的看法,不能稱之為統計資料。那麼,統計資料需要什麼條件?我們今天來談談這個問題。

我們總聽說: 統計,就是讓數字說話( 統計是什麼我們也聽說有三種謊言謊言、該死的謊言、與統計。在許多人眼中,統計是比該死的謊言更該死的謊言。

要讓數字說話,不要讓它成為最該死的謊言,首先得有數字,然後得有讓數字說真話的方法,這才是統計。要讓統計說真話,首先要有公正客觀的心態,才可能找公正客觀的統計資料,用公正客觀的方法解讀資料要告訴我們的訊息。公正是不偏私,客觀是不預設立場。當然這只是粗淺說法,我無意討論公正客觀的定義、如何才算公正客觀的問題。就統計而言,美國統計學會有一關於統計人員的道德指引可以參考。因為統計資料理應是統計人員蒐集,至少統計人員在資料蒐集是處於監督指導的地位,如果統計人員本身不能公正客觀,蒐集資料就很大的可能有所偏差。在統計的其他階段也是一樣,必須以公正客觀的態度整理分析呈現與解釋統計資料及結果,才不致讓統計淪為欺騙人的工具。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

統計上說預測是什麼意思?

一般意義的預測是預測未來將發生的事,統計上當然也接受這種想法,時間數列的預測通常就是這麼一回事。不過,統計上的預測其實含義更廣些,舉凡對我們所未觀察到的事做猜測,都可以說是預測。這樣說還有些模糊,我們用資料模型來說明比較具體。

統計上的資料,可以說是參數和誤差的函數: Y = f(θ,ε)。一般統計調查、實驗,是自群體 Yj,  j = 1, 2, ... 中隨機抽取 n 個: Xi, i = 1, 2, ..., n 。這是靜態、同質群體,假設 Yj = f(θ, εj),而 Xi 可以 f(θ, εi) 表示。這樣的群體和樣本,資料的構造方式 f 是固定的,參數值 θ 也是固定而未知的。統計中的單一樣本推論問題,就是在這樣的資料架構下用隨機樣本的結果猜測未知參數 θ 的值。當 f 是已知時,例如常態群體 Yj = μ + σ εj, 又如二項分布群體 bin(k,p), Yj = Z1j+...+Zkj, 其中 Zij = p + εij, 這就是參數化模型。當 f 未知(是不知其構造,不是不知如何表示其構造)就是非參數化模型。

等死的老賊 發表在 痞客邦 留言(0) 人氣()

Regression, 回歸,這名詞在統計上使用最早大概是  Francis Galton 於 19 世紀用來描述一種生物學現象:高大祖先的後代趨向正常平均數,這種現象,也稱 regression toward the mean (回歸均值), reversion to the mean (回轉均值)或 reversion to mediocrity (回轉平庸)。Galton 原意只是生物學現象的描述,闡述父母的極端特徹,並沒有完全傳遞給他們的後代。略過 Galton 在生物遺傳學上的錯誤解釋不論,其實回歸的現象只是一個統計或更直接地說是機率現象,也和中央極限定理有些關係。

為何說是一種統計或機率現象?像身高體重以及許多自然的及社會的現象,大都是中間高兩端低的所謂單峰型分布。在 Galton 關於父子身高的分析中,被注意到的父親身高特高的部分,可以說是偏向有較高身高基因的,但又不全是,有些基因屬較低身高的右邊極端值被歸入;又有些基因屬較高身高的左邊極端值被捨去。因此,這些身高極高的父親的基因並不純粹基因屬較高身高的。再者,即使基因屬較高身高的,其身高當是一個單峰分布。而對這些樣本,父親身高只是這個分布偏高的那一部分;子輩卻是觀察整個分布。一個分布只取較高部分,其平均值當然高於整個分布的平均值:

  E[ X | X > c ] > E[ X ]

等死的老賊 發表在 痞客邦 留言(0) 人氣()

其實這是十年前的問答,重新整理並加上目前的理解。

問的是關於「間斷與連續隨機變數的分類」。其中「間斷」一詞更多的中譯是「離散」,英文是 "discrete". 

問者說:

等死的老賊 發表在 痞客邦 留言(0) 人氣()

在學習統計學,或應用統計方法,有些名詞或概念常被誤解為機率。

在點估計,一個和機率有關卻又不是機率的概念或名詞是概似度 (likelihood) 或概似函數 (likelihood function)。純應用統計方法者可能不會有問題,但若涉及「找最大概似估計 (MLE)」就會涉及到概似函數。概似函數現在通行的定義是樣本的聯合機率密度函數 (probability density function) 或機率質量函數 (probability mass function),這暗示群體只能是完全的連續型或完全的離散型;另外就是它通常用在參數化模型 (parametric model),非參數化模型 (non-parametric model) 相當於無限維參數,其 MLE 不是未能唯一決定就是資料的完全配適,例如以樣本分布為群體分布之估計。所以實務上會限制參數空間(等於以比樣本數少的參數來參數化群體模型),並允許此限制隨著樣本數成長。例如將資料分經組邢估計各組的機率,這等於直方圖的方法;另外核密度估計也是一種。不過這些不是本文要談的,我們的重點是:概似函數來自機率分布,但它本身不是機率分布。

R. A. Fisher 曾試圖把概似函數解釋成參數的 fiducial distribution.  以常態群體平均數 μ 而言,它的極小充分統計量,樣本平均數 T,也是常態分布,p.d.f. 是

等死的老賊 發表在 痞客邦 留言(0) 人氣()

信賴區間又稱區間估計,顧名思義是點估計的延伸,典型形式是

  [ 點估計值 - 向下考慮之誤差,   點估計值 + 向上考慮之誤差 ]

然而,信賴區間其實和統計假說檢定又是一體的兩面:

等死的老賊 發表在 痞客邦 留言(0) 人氣()

根據 Wikipedia, p 值計算最早可推至 18 世紀初,1710 John Arbuthnot 研究人類出生性比是否為 1 : 1,檢查了 1629-1710 共 82 年倫敦每年出生紀錄,發現女嬰數都少於男嬰數。假設男女嬰出生機會相同,發生這種現象的機率是 1/2^82, 這機率太小以致他不認為純屬偶然:"From whence it follows, that it is Art, not Chance, that governs."  這被認為是顯著性檢定的首次使用。不過,p 值的正式引用是 Karl Pearson, 在他的卡方檢定 (chi-squared test) 中,應用卡方分布 (chi-squared distribution) 並以大寫字母 P 表示。W. P. Elderton 計算了卡方分布機率表並收錄在 Pearson 1914 的數值表列中。Ronald A. Fisher 計算 p = 0.99, 0.98, 0.95, 0.90, ..., 0.10, 0.05, 0.02, 0.01 所對應的卡方值,這使得卡方的計算值(觀測值)可以直接和這些臨界值比較從而知道 p 值在哪個範圍,傾向於用某些 p 值(顯著水準)為切割點而非報告 p 值。不過,在他 1935 出版的 The Design of Experiments 一書中,有名的「品茶實驗」例子中,仍明白地以 p 值完成其推論。雖然,他其實傾向於固定顯著水準的檢定決策,在其後來的版本中,明白地反對使用 p 值做結論,雖然不反對 p 值的使用。強調使用 5%, 2%, 1% 的方便性,以及檢定程序需要明確的判定。

R. A. Fisher 和 K. Pearson 都是偉大的統計學家,後者可說是早期大樣本時代的領軍人物,前者則對近代統計理論有重要影響,顯著水準 0.05 的廣泛使用據文獻看來主要是受他的影響。然而,偉大不表示不會犯錯,事實上他們都曾有些基本的錯誤被後來的學者一再討論(當然也有其忠誠信徒試圖為他們的「錯誤」做出新的解釋),因此我們不必拘泥於他們的意見。從提供給讀者的資訊量來說,固定顯著水準 α 的檢定結論不如 p 值及對應的 1-α 信賴區間,因為後兩者都可以做成水準 α 的檢定結論。至於 p 值與固定水準信賴區間,則無法比較。

從前面簡述的歷史可推知 p 值的一個定義:

等死的老賊 發表在 痞客邦 留言(0) 人氣()

1 2
Close

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

reload

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼