為了美麗的地面: 實驗設計(experimental design)

科學研究大部分都是屬於因果性研究，而探討因果關係最好的方式，就是進行實驗，可是很多時候或情況，實驗並不可行(像是我們不能因為要探討醫師看診時間的長短與病人滿意度的關係，就要求一些醫師每位病人只能看診10分鐘，另一群醫師則看診20分鐘)，或是我們所關心的現象是自然發生或並非為了實驗而出現的(比如我們關心健保實施之後所造成的影響)，這時我們就要用非實驗的方式去探討。

實驗與非實驗設計最大的不同在於前者的主要介入措施 (intervention)是由研究者主動啟動與安排的；而在非實驗研究中，我們所關切的事件(起因)並不是由研究者所刻意安排的。如果我們要研究某種藥物對疾病的療效，實驗設計的方法是研究者找來兩群病人，給其中一群病人服用該藥物，但給另一群病人服用對病情沒有影響的綜合維他命，然後比較兩者的差異。若用非實驗設計，研究者可以從病歷查出哪一些病人服用該藥物，哪一些病人沒有在服用該藥物，然後比較兩者的差異。

在研究中，介入的措施/事件(intervention)通常是指我們所要探討的關係的主要原因或自變數(independent variable)，然後去看這個原因所產生的結果，或這個原因(藥)與我們所關切的結果(病情改善)之間的關係。但是，光從措施/事件與結果之間的表面上所呈現的關係還不足以保證真正的關係就是如此，比如有可能病人吃藥之後病情獲得改善，但其實並不是藥物的作用，而是病人聽了醫師的建議，定期去運動並戒菸，病情才真正得以改善。因此，在這個研究的因果關係中，定期運動及戒菸是一個外部變數(exogenous variable)，或混淆因素(confounding factor)。

研究設計另一個重點，就是要去避免這些外部變數對我們所要探討的因果關係造成混淆，把原本存在的因果關係模糊掉，或對原來不存在的關係引起假象。處理這個問題主要是透過實驗設計。實驗設計分成兩大類，一類是隨機控制實驗，另一類是非隨機控制實驗。隨機控制是將研究對象用隨機的方式分組，不同的組接受不同的介入措施，然後研究者再去比較結果。隨機控制的好處是理論上研究者可以透過隨機分組的過程，把被研究者的各種同質性或異質性都充份打散，使得各組之間除了介入措施的不同以外，其它的研究條件都是一致的。因此我們有把握說可以掌握到我們所要研究的原因與結果之間的單一關係，不會受其它因素的影響。隨機控制實驗是社會科學、健康、醫學研究的金律，但前提是被研究對象的數量要夠大，極端的例子是如果被研究者只有兩個人，即使我們用隨機方式加以分組，這兩組其實還是兩個各自不同的人；如果我們的研究樣本有1000人，透過隨機分組，每一組裡面各種年齡、性別、特質的人應該都有，因此兩組的整體條件會比較相似。

不過也有學者認為隨機控制實驗對一些社會科學的研究來說並不具代表性，因為隨機實驗將各種非研究關係的因素都消除掉，但是在真實的社會處境中，這些因素的互動確實是存在的，因此隨機控制實驗所得到的研究結果並沒有太大意義，因為當我們知道因果之間真正的關係之後，so what？這可能也是為什麼有許多科學研究做出來的結果，對實務界並沒有太大的應用價值的主要原因。

隨機控制實驗還有一個問題，即使隨機將病人分成兩組，一組吃藥，一組不吃藥，但是光是知道自己在吃藥，病人就會產生不同的心理作用，也許感覺就好許多，並不是藥物的關係。還有，如果醫師或護理人員知道某些病人在吃藥，某些沒有，也許這些醫療人員就會對病人有不同的做法或期待，這些都可能對結果產生影響。因此更好的做法是兩組病人都吃看起來一樣，但一個有療效，另一個沒有特別療效，但也無害的藥，讓病人不知道自己到底是接受哪一種介入措施；此外，最好與病人有接觸的研究者及醫療人員也不知道哪一些病人是吃真正的藥，還是安慰劑(placebo，指無療效也無害的藥劑)。這種實驗就稱為雙盲隨機控制實驗(Double-blind randomized control trial)，這是實驗設計的最高標準；如果只有病人不知道，與病人接觸的研究者及醫療人員知道，這就是單盲隨機控制實驗(Single-blind randomized control trial)。

研究方法的教科書經常用簡單的圖示來呈現基本型態的隨機控制實驗
R　　O1 X O2
R　　C1 　 C2
R是指隨機分組；X是指介入的措施；有介入措施的實驗組，措施介入前所測量到的情況是O1，介入後所測量到的是O2；沒有措施介入的對照組(control group，用C代表)，在此兩時間點所測量到的情況分別是C1與C2。然後我們可以用多方對照(triangulation)的方式去比較O2與C2(因為理論上O1與C1應該是會一樣)，或比較O1-O2的變化與C1-C2變化的差異。

沒有採取隨機控制設計的實驗研究稱為半實驗研究(quasi-experimental study)，便要透過各種實驗設計，去控制或消除外部變數所可能引起的混淆效果。學界已經發展出很多不同的設計方式，以下是幾種最主要的模式：

(1)Nonequivalent control group pretest-posttest design
甲醫院的績效O1 X:實施TQM 甲醫院的績效O2
乙醫院的績效C1 乙醫院的績效C2
優點：有對照組可以比較；缺點：兩家醫院的條件無法完全一樣

(2)Time series design
甲醫院的績效 O1 O2 O3 X:實施TQM O4 O5 O6
優點：可以看出實施前後的變化趨勢是否不同；
缺點：可能還是看不到隱藏的影響因素(特別是在措施實施之前或之後才存在的因素)

(3)Time series nonequivalent control group design
甲醫院的績效 O1 O2 O3 X:實施TQM O4 O5 O6
乙醫院的績效 C1 C2 C3 C4 C5 C6
優點：除了跟自己醫院的變化趨勢比較之外，還可以跟其他醫院做橫向比較，可以幫助排除掉部分混淆因素的影響

(3)Time series with multiple institutions of treatment
O1 O2 O3 X O4 O5 O6 X O7 O8 O9
O:醫院的月募款金額；X:寄發季刊
優點：可以一再觀察介入措施的作用

(4)Time series with intensified treatment
O1 O2 X O3 O4 X+1 O5 O6 X+2 O7 O8
O:病人血壓；X:服用某種降血壓藥
優點：可以觀察及比較介入措施不同程度的作用的差異，讓研究者更加明確介入是否有效

(5)Time series with withdrawn and reinstituted treatment
O1 O2 X O3 O4 (no X) O5 O6 X O7 O8
O:病人血壓；X:服用某種降血壓藥
優點：可以觀察及比較介入措施的有無是否有造成結果上的差異，讓研究者更加明確介入是否有效

前實驗研究設計(pre-experimental design)是只有介入事件，但研究者未刻意透過多方對照的方式去控制可能的外部影響變數。這類的研究設計有三種主要的模式：
(1)One-shot case study
X:實施TQM 甲醫院的績效O2
缺點：無法透過對照瞭解措施真正的效果

(2)One group pretest-posttest design[1]
甲醫院的績效O1 X:實施TQM 甲醫院的績效O2
缺點：沒有針對可能的外部變數加以控制

(3) Nonequivalent control group only posttest design (static group comparison)
X:實施TQM 甲醫院的績效O2
乙醫院的績效C2
缺點：沒有自己醫院措施實施前的資料可供比較。

我覺得研究設計不只是在做研究時用得上，平常在實務工作上也有幫助。對我們來說，一項工作新措施實施之後到底產生怎樣的效果，是很值得關切及探討的問題。我們必須運用研究設計或實驗設計的觀念，來幫助我們尋找真正的答案，避免被外部的因素混淆使我們做出錯誤的結論。

[1] 這是QCC所使用的主要研究設計

為了美麗的地面

2008年2月17日星期日

實驗設計(experimental design)

沒有留言:

美麗的風景照片網站

2008年2月17日 星期日

實驗設計(experimental design)

沒有留言:

2008年2月17日星期日