開什麼玩笑?統計資料還有條件?沒錯!統計資料需要具備一定條件,否則以我這統計老兵的看法,不能稱之為統計資料。那麼,統計資料需要什麼條件?我們今天來談談這個問題。

我們總聽說: 統計,就是讓數字說話( 統計是什麼我們也聽說有三種謊言謊言、該死的謊言、與統計。在許多人眼中,統計是比該死的謊言更該死的謊言。

要讓數字說話,不要讓它成為最該死的謊言,首先得有數字,然後得有讓數字說真話的方法,這才是統計。要讓統計說真話,首先要有公正客觀的心態,才可能找公正客觀的統計資料,用公正客觀的方法解讀資料要告訴我們的訊息。公正是不偏私,客觀是不預設立場。當然這只是粗淺說法,我無意討論公正客觀的定義、如何才算公正客觀的問題。就統計而言,美國統計學會有一關於統計人員的道德指引可以參考。因為統計資料理應是統計人員蒐集,至少統計人員在資料蒐集是處於監督指導的地位,如果統計人員本身不能公正客觀,蒐集資料就很大的可能有所偏差。在統計的其他階段也是一樣,必須以公正客觀的態度整理分析呈現與解釋統計資料及結果,才不致讓統計淪為欺騙人的工具。

統計學教本說: 統計資料是集體的數量化資料 。實際上這樣的說法不足以界定統計資料,例如機場的班機時刻表也是集體性的,有許多班機的時刻;班機出發時刻當然是數量的,時間的呈現是數字的,沒人不同意吧?所謂數量化,不是表達「量」的數字才算。因此,班機時刻表確實是一份集體的數量化資料;然而,它不應算是一份統計資料,它完全是人為製造出來的。依個人意見,統計資料具有以下性質:集體產生(集體性)、可數量化、有具體目的(目的性)、客觀性、及系統化蒐集(系統性)。

首先談集體性。單個數字不算統計資料,必須是多個同類的事實,例如多個人的愛好,多人或一人多期的支出金額,多年的降雨天數或降雨量數字。同時這「集體性」不只代表資料本身的集體性,而是集體產生的資料,每筆資料由一個個體產生,而這些個體產生的資料集體,才可能是統計資料。所以需要甲回答他個人資料、個人意見,卻由乙回答,這是不行的。如果是事實性,可查證的資料,在不得已情況由他人代答,或許是可以的;但如果是意見性、個人感受,絕不可能由他人代答。即使屬事實性的資料,如調查時遇此現象,也應註記清楚,調查人員並且應儘力去追求事實的證據。

其次談可數量化,因為調查項目或許有非數量性的,如性別、顏色、形狀、喜好等,但它們是可以數字化或數量化的,所以說是可數量化。但說不出口的感覺,無法名狀的心情,難以描述的文風等無法數量化;門牌號碼,身分證件序號等只是識別標籤無法真正數量化,這些都不能構成統計資料。可數量化的資料,包括本來就是數值的如收支金額、血壓數值等,以及可以數量化或標記歸類的,如心情好壞、文風粗獷或細膩、出生地區等。以上都是明確數字或明確歸類的,但近二十餘年也有把統計方法擴充到所謂模糊數的,分析對象不再是明確數值或類別,不過那其實可說是另一種數量化的方法,仍不違背「可數量化」這個性質。

統計人員蒐集資料應先明確其目的,是所謂目的性。例如欲了解獨居老人狀況和欲了解老人生活,其蒐集資料對象就不同,關注重點也會有些差異。又如欲了解中學生學習狀況和了解學生生活狀況,在蒐集資料方式就有所不同。有了目的才能規劃蒐集的資料項目,也才能規劃好蒐集資料方式。如果沒有明確目的,這個問 A, B, C,   那個問甲乙丙,資料項目、名詞定義、詢問方式或觀察重點及記錄方式都不一致,這樣的資料很難整理,甚至無法進行統計分析。即使問的/觀察的方式都相同,勉強能用,也可能因目的不明確而在資料整理分析時發現缺這少那,或者定義不符分析時的想法。所以說,統計資料是帶有一定目的而蒐集的。當然也不乏一些看似違反此性質的資料,如廠商蒐集客戶(消費者)資料,政府公務登記資料。不過,這些資料真沒有統計上明確目的嗎?有的,或許它的目的不是針對某一研究目的,甚至是為了非統計的目的;但它仍帶有統計上明確目的,或者是預期將來可能根據這些資料做某些專題的分析,或許簡單地欲了解一些情況,於是把這些目的加上其他非統計目的而設定了長川登記(記錄)的制度。

統計資料必須具備客觀性。雖然蒐集資料首先要有目的,如證明新藥療效,但這並非意謂要主觀地證明新藥有效,而是要具客觀性,不能預設立埸。因此進行實驗則力求客觀嚴謹操作,例如雙盲的實驗設計;問卷調查則避免誘導性問題及偏向的語氣及問法。所以前面首先提出統計人員必須公正客觀,如果統計人員抱著欲證明某個結果的態度,例如要證明藥品有效,要證明學生不用功等目標而去蒐集相關資料,他在蒐集資料時就專注於能證明其論點的資料,而忽略那些與他支持的假說相反的資料。例如選舉民調,調查人員支持芋甲候選人,遇見支持某甲的受查者就高興地攀談,遇見支持其他人的就「再見!」那麼蒐集來的資料當然就有偏差了。又如調查員在訪談時誘導性的發問,醫護人員對接受試驗藥劑或療法的患者特別週到等,都會影響到蒐集來的資料,得到不客觀的結果。

蒐集資料需根據目的制定系統化蒐集程序,例如以登記方式蒐集資料,必須根據統計及非統計目的,釐清登記標的對象,制訂登記表格,並明確其項目定義避免不同人有不同認知,凡符合登記對象皆強制登記。實驗則根據目的決定操作因子,分析干擾因子,設計適當實驗方案:對象的區集及隨機化分組,需有對照組以便有所比較,隨機化避免發生系統性偏誤,區集化降低不可控之隨機誤差;雙盲設計避免人為干擾;時序一政或隨機化進一步減免一些額外的偏誤及誤差。調查則依據目的選定對象群體,決定普查或抽樣;具體調查方式,如對人的訪問調查是採面訪?電訪?郵寄或 email?如果是抽樣調查則進一步設計抽樣方案;同時制訂調查項目及表式,問卷問項妥善設計期望獲得真實資料;調查員嚴格訓練期能提高完成率及正確率。總之,蒐集資料不是隨隨便便可以完成的,必須適當規劃,系統性的辦理,才可能獲得接近真實、可用的統計資料。如新聞記者街訪民眾、所謂 youtuber 街訪粉絲,網上貼個問卷招覽人填寫,所謂 call in,讀者或聽眾觀眾投書,既無事先規劃訪問對象及抽選辦法,訪問時又無計劃地隨口而問,不能得到可用的統計資料。實驗者若只知操縱儀器處理實驗品,卻無一定的實驗規範,實驗結果變因複雜,也常不能得到適用的統計資料。登記制度混亂,登記者漫不經心,錯漏重複,結果也難成有用的統計資料。

所以統計資料是類似個體共同產生之集體性可數量化資料,依一定目的,以公正客觀態度依系統化方法蒐集而來的資料。不符合集體性、可數量化、目的性、客觀性、及系統性的資料,即使數量龐大,也不及一個小小樣本的抽樣調查資料。這就是個人認為統計資料應具備的條件。

 

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()