PTT 統計板上一個問題

我有30個受 試者 每個受試者有一個 age 的data 以及 blood pressure (bp) 但bp測了2次 我知道可以每個人取得2次bp 的 average 然後直接做 bp average 與 age的correlation (圖會有30個 data point) 但如果不取2次bp 的 average 直接做 bp 與 age的correlation (圖會有60個 data point) 這應該不行吧? 如果不取2次bp 的 average 要做這個correlation 該用什麼統計方法呢

首先,相關是怎麼測定的?在 X, Y 都是區間尺度變數時,變數間的相關主要是 Pearson 相關係數

Corr(X,Y) = Cov(X,Y)/√(Var(X) Var(Y))
          = (Cov(X,Y)/Var(X)) √(Var(X)/Var(Y))

後一式表示 Y 對 X 做直線迴歸時的迴歸係數經兩變數標準差比例調整,也就是標準化迴歸係數。如果只是兩變數間的相關,伴隨一個 X 觀測值,有數個 Y 觀測值,這對應同一個 X 觀測值的不同 Y 觀測值只是單純重複,要衡量 X, Y 間相關,從簡單直線迴歸來考慮:

Y(ij) = α + β X(i) + ε(i,j),   i = 1, ..., k,  j = 1, ..., n(i)

不妨看成 Y(ij) = α + β Z(ij) + ε(i,j),其中 Z(ij) = X(i), 對所有 j。如果誤差項 e(ij) i.i.d. (0, σ^2), 則

β^ = b = ΣΣ z(ij)y(ij)/ΣΣ z(ij)^2
ρ^ = r = ΣΣ z(ij)y(ij)/√(ΣΣ z(ij)^2 ΣΣ y(ij)^2)

其中 y(ij) = Y(ij) - Ybar, z(ij) = Z(ij) - Zbar,

Zbar = ΣΣ Z(ij)/Σ n(i) = Σ n(i)X(i)/Σ n(i)
Ybar = ΣΣ Y(ij)/Σ n(i) = Σ n(i) Ybar(i)/Σ n(i)

如果 n(i) 是常數,如原問題中 n(i) ≡  n = 2,則

b = Σ x(i) w(i)/Σ x(i)^2
r = Σ x(j)w(i)/√[(Σ x(i)^2)(E^2 + Σ w(i)^2)] 

式中 x(i) = X(i) - Xbar, Xbar = Σ X(i)/k, w(i) = Ybar(i) - Ybar,而

E^2 = ΣΣ (Y(ij)-Ybar(i))^2/n

也就是用重複量測的 Y 平均值與 X 值做迴歸,迴歸係數等同於用原資料;但 Y 平均值與 X 值計算相關係數時,

r* =  Σ x(j)w(i)/√(Σ x(i)^2 Σ w(i)^2)]

用 Y 的變異部分少了 Y(ij) 與分組平均值 Ybar(i) 之間的變異,所以 r* > r,

考慮顯著性檢定問題,H: ρ = 0 與 H': β = 0 的 t 檢定是相同的,同時也相當於簡單直線迴歸模型的 ANOVA。依原資料,

SSTot =  ΣΣ (Y(ij) - Ybar)^2  = n(E^2  + Σ w(i)^2)
SSReg = b ΣΣ z(ij) y(ij) = n b Σ x(i) w(i)
SSErr = SSTot - SSReg = n [E^2 + (Σ w(i)^2 - b Σ x(i) w(i))]

以平均值分析時,其 F 統計量為

F° = (k-2) b Σ x(i) w(i)/(Σ w(i)^2 - b Σ x(i) w(i))

以原資料分析時,

F = (kn - 2) b Σ x(i) w(i)/[E^2 + (Σ w(i)^2 - b Σ x(i) w(i))]

令 U^2 = Σ w(i)^2 - b Σ x(i) w(i)),這是用平均值分析時的誤差平方和,則

F/F° =  [U^2/(k-2)]/[(E^2+U^2)/(kn-2)]

兩 F 值之比,為其對應誤差均方之比的倒數。如果 X, Y 暑確屬直線闔係,則兩 F 值應相近,若 k 值夠大,如本文前面之問 k = 30,分母自由度之差對 F 臨界值影響不大(注意此處 F 檢定分子自由度是 1,此時 F = t^2, 而 t 之自由度 30 以上已被廣泛認同可用標準常態取代。)也就是說,用原始資料和用平均值分析是一致的。

如果 X, Y 的關係不是直線,相關係數卻是假設直線關係,因此 U^2 其實包含兩部分

誤差平方和 U^2 = pure error  +  lack of fit

而組內變異 E^2 相當於純誤差部分,因此 U^2/(k-2) 傾向於超過

(E^2+U^2)/(kn-2) = (E^2+U^2)/[k(n-1) +(k-2)]

也就是說 F/F° 超過 1,用原始資料比用平均值分析更容易顯著。首先,用原始資料做直線迴歸之顯著性檢定時,因組內變異僅有純誤差部分,平均掉以平均值計算時因 X, Y 其實不是直線關係而被 lack of fit 膨脹的均方誤。其次,先把重複之 Y 觀測值平均,本質就是訊息的濃縮,最好的濃縮也就是不損失訊息,而不會增加訊息量。

如果諸 n(i) 不等,採用平均值分析,

W(i) = Ybar(i) = α + β x(i) + e(i),   i = 1, ..., k

式中 e(i) = Σ_j ε(ij)/n(i)。如果本來 ε(ij) 是同幅變異數,Var(ε(ij)) = σ^2, 則 Var(e(i)) = σ^2/n(i), 變成異幅變異問題,平白提高了問題複雜度。顯然在各資料點 (X(i),W(i)) 涉及不等幅誤差時,平時用的相關係數公式和檢定程序是需要修訂的;以迴歸模型來說,可以考慮加權最小平方分析,但比起原始數據的計算,先計算平均值的分析方式似乎沒有比較方便?

如果重複量測的問題不只是單純的重複而已,而是中間有些因素私介入,那麼,可能模型應視實際情況修正如

Y(ij) = α(j) + β X(i) + ε(ij)

Y(ij) = α + γ Z(ij) + β X(i) + ε(ij)

之類的,那麼,由適合實際情形的模型,我們可以考慮 Y 與 X 之間的偏相關,但如果適當模型是

Y(ij) = α + β(j) X(i) + ε(ij)

可能就只能考慮 Y 的平均值與 X 之間的相關,或者其相關變成沒有意義。

以上討論的,是一個 X(i) 可能對應多個 Y(ij) 時衡量 X, Y 相關的方法。但有一種情形是 X, Y 同做重複測量,我們另文討論。

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 等死的老賊 的頭像
    等死的老賊

    劉應興的部落格

    等死的老賊 發表在 痞客邦 留言(0) 人氣()