2008年10月4日 星期六

研究設計與迴歸分析模式

最近我為了一個panel study的問題想了好一陣子,後來將其數學模型與研究設計常用的圖形互相對照,才逐漸找到答案。我發現用研究設計的圖形可以幫助我們了解計量經濟學的相關模式。

隨機實驗

比如我們想了解某種新的降血壓藥物X是否真能有效降低高血壓病人的血壓BP,有幾種方法可以研究這個問題。醫學上最有公信力的方式是透過隨機控制實驗(randomized control trial, RCT),將病人隨機分成兩組(隨機分組的用意是要讓實驗組與對照組的整體條件達到相同),一組服用X(實驗組),另一組沒有服用X(對照組),但為了避免服用與未服用X對病人造成影響結果的心理作用,最好是不要讓病人知道他們到底有沒有服用X,而是分別給予X以及另一種外觀看起來與X一樣,但沒有實質藥效的「寬心丸」(placebo,比如綜合維他命)。然後我們分別測量病人服用前與之後的血壓,看看這兩組病人的血壓的改變是否有明顯的差異。這種RCT的研究設計可以用以下的圖形表示:

(R) BPE1....X......BPE2 (∆BPE= BPE2 – BPE1)
(R) BPC1...........BPC2 (∆BPC= BPC2 – BPC1)

這裡,R代表隨機分配,E代表實驗組,C代表對照組,1代表第一個時間點(實驗進行前),2代表第二個時間點(實驗進行之後)。
針對RCT資料的計量分析,我們可以直接用t test去比較∆BPE與∆BPC的平均值。或者也可以採用以下簡單的迴歸模式去得到同樣的結果:

(1) ∆BP = β0 + β1GroupE + ε

GroupE是一個二元變數(binary variable),1代表實驗組病人的資料,0代表對照組病人的資料。β0=∆BPC的平均值,β0+β1=∆BPE的平均值;其實,我們所要找的答案就在β1裡面,因為β1代表這兩組血壓改變的差異(∆BPE–∆BPC),迴歸分析還會告訴我們β1是否顯著(有別於0)。

沒有前測的隨機實驗

有時候研究人員沒有取得或是不想取得實驗前病人的血壓資料(因為在有些情況下,前測的動作本身就會對病人造成一些作用),因此在隨機分組之後,病人馬上接受實驗(服用或未服用X),然後測量其血壓。這種情況的研究設計圖形是:

(R)...X....BPE2
(R)........BPC2

這裡我們直接比較BPE2與BPC2的平均值,因為我們假設藉由隨機分組已經使實驗組與對照組的原本平均血壓是相同的,因此從比較實驗後的平均血壓我們便可以得知X的藥效。或者我們可以用以下的迴歸分析:

(2) BP = β0 + β1GroupE + ε

β0=BPC2的平均值,β0+β1=BPE2的平均值;β1就是我們所要找的答案,代表這兩組病人實驗後平均血壓的差異(BPE2–BPC2),原則上這裡所得到的β1應該是會與前面RCT中(公式(1))的β1是一樣的(因為如果我們真的做到隨機分組的話,BPE1= BPC1=a,因此β1=∆BPE–∆BPC=(BPE2–a)–(BPC2–a)=BPE2–BPC2)。

非實驗研究—橫斷面研究(cross sectional study)

不過隨機實驗或隨機分配是在很理想的情況下才能夠進行,有時候研究人員無法採用以上兩種方式,這時可以退而求其次,從某家醫院內去找一組有在服用X的病人(研究組),以及另一組沒有在服用X的病人(對照組),去比較他們現在的血壓。這種研究由於只取某一個時間的資料來做分析,所以被稱為橫斷面研究,其研究設計的圖形如下:

...X.....BPE2
.........BPC2

我們看到這種方式沒有採隨機分組,因此圖形中沒有R,所以我們沒有把握研究組與對照組是除了有沒有服藥之外,其他整體條件都相等的兩組人員。。這時我們若直接將BPE2的平均值與BPC2的平均值拿來比較,經常是無法看出X真正的藥效,因為我們的病人血壓很可能受到了X之外的因素影響,例如研究組的病人整體來說原本的高血壓狀況就比較嚴重,而對照組病人多屬於輕微的高血壓,因此即使是X真有藥效,我們也有可能看到BPE2的平均值> BPC2的平均值。
這時我們有兩種迴歸分析方法可以克服這個問題,一種是加入控制變數(control variables),另一種是群組追蹤研究(panel study)。前一種方式的迴歸模式如下:

(3) BP = β0 + β1GroupE + β2v2 + β3v3 +….+ βkvk +ε

這裡v2, v3,…vk代表所有可能由於研究組與對照組的成員差異所造成,而會干擾/影響病人血壓的因素,比如由於相對於對照組病人,研究組病人年紀普遍比較大、病症比較多或嚴重、用藥習慣比較不理想,或抽菸比例較高,而這些因素都會影響血壓的控制。當我們將所有的干擾因素加入迴歸模式的公式中,所得到的β1所代表的是當v2= v3=…=vk=0時(等於我們將這些干擾因素排除掉了),研究組病人平均血壓與對照組病人平均血壓的差別。從計量經濟的角度來看,我們就是透過足夠的資料,用計量模式去模擬隨機實驗的進行。如果我們真的控制了所有干擾因素,我們便會得到與前面沒有前測的隨機實驗中(即公式(2))一樣的β0與β1。

非實驗研究—時間縱向研究(longitudinal study)

可是有時候研究人員無法掌握或收集到所有干擾因素的資料,因此橫斷面模式的方法(公式(3))所估算的β1會有偏差。這時可以考慮群組追蹤研究(panel study)的方式,我們就要去從病歷中去查研究組每位病人服用X前與服用之後一個月的血壓,並去記錄對照組每位病人一個月前與現在的血壓。因為這種方式採用兩個 (或更多)時間點的資料,所以被稱為時間縱向研究。這種方式的研究設計可以用下面的圖形呈現:

BPE1......X.......BPE2 (∆BPE= BPE2 – BPE1)
BPC1..............BPC2 (∆BPC= BPC2 – BPC1)

這個圖形與上面RCT的研究設計圖型最大的差別在於沒有R(隨機分配),但是我們可以藉由每位病人前後血壓資料的比較,將不隨時間改變的干擾因素給消除掉。其第一時間點與第二時間點的迴歸模式可以分別用以下的公式表示:

(4) BPi,1 =β0 + + ai + bi,1 + εi,1
(5) BPi,2 =β0 + δ0 +β1GroupE + ai + bi,2 + εi,2

第一個時間點由於研究尚未進行,沒有研究組與對照組的差別,因此在公式(4)裡面沒有包含GroupE。i代表個別的病人,從病人1、病人2、…到病人i。δ0是代表這兩個時間點之間造成所有病人血壓改變的因素與程度(比如天氣的變化所造成的所有病人血壓變化)。ai是指因病人而異,但不隨時間改變或在短期內不太會改變的因素(如性別、先天體質、疾病症狀、抽菸習慣等),bi,1是指會隨病人與時間的不同而不同的因素(如從衛教所得到的保健知識、不同醫師與照顧人員對病人不同的影響)。當我們將公式(5)減去公式(4),得到以下的公式:

(6) BPi,2 – BPi,1 =δ0 +β1GroupE + (bi,2–bi,1) + (εi,2–εi,1),或者加以簡寫成:

(7) ∆BPi =δ0 + β1GroupE + ∆bi + ∆εi

由於這個公式(7)中還包含∆bi,如果我們有所有bi,2與bi,1的資料,我們就能計算∆bi,因此可以在迴歸分析中去加以控制,得到沒有偏差的β1估算值。但是如果我們沒有所有的∆bi資料,會使我們得到不準確的β1值。不過在此研究中,第一時間點與第二時間點只有相差1個月,因此我們假設在這段期間會因時間改變的因素變化不會太大,所以∆bi=0。在此情況與假設下,我們的公式變成:

(8) ∆BPi =δ0 + β1GroupE + ∆εi

公式(8)與公式(1)非常像,理論上在∆bi=0的情況下,公式(8)=公式(1)。因此公式(8)中的β1等於公式(1)中的β1,並且也應該等於公式(2)裡的β1。

可是公式(8)中β1所代表的是研究組與對照組成員血壓改變的差異,也就是(β1=∆BPE –∆BPC)。但是如果從公式(2)來看,β1代表這兩組病人後來平均血壓的差異(β1=BPE2–BPC2)。我之前一直想不通的地方就是在這個地方:β1到底是兩組血壓改變的差異還是兩組血壓的差異?(β1=∆BPE –∆BPC or β1=BPE2–BPC2?)或者這兩者會是一致的?
後來幫助我解開疑惑的是圖形。代表公式(8)的圖形是:

BPE1(=g)......X......BPE2
BPC1(=g).............BPC2

β1=∆BPE–∆BPC=(BPE2–BPE1)–(BPC2–BPC1)=(BPE2–a)–(BPC2–a)=BPE2–BPC2

代表公式(2)的圖形如下:

(R)....X.......BPE2 β1=BPE2–BPC2
(R)............BPC2

由於公式(8)的前提是我們已經將原本的差異(ai)消除且所有會隨時間改變的干擾因子(bi,1, bi,2)都不存在,等於我們給了研究組與對照組同樣的比較基礎。因此在此情形下,我們可以將BPE1與BPC1視為一個同樣的值(g),所以∆BPE–∆BPC= (BPE2–g)–(BPC2–g)=BPE2–BPC2。在此情況下,公式(8)與公式(2)的β1是意義與數值是一樣的。但是如果bi,1與bi,2事實上存在而我們卻無法加以控制,這兩個公式中的β1便不相同。

沒有留言: