2007年10月27日 星期六

迴歸分析模式與社會科學研究

計量經濟學是用量性的模式去探討經濟學所關心的各種變數之間的關係的一門學科,但是其實不只是經濟學的問題,其他社會科學的問題也可以用計量經濟學的方法去探討。包括經濟學在內的社會科學的問題很難像自然科學一樣,在實驗室裡,依照研究的需要主動設計實驗方法,控制各種變數,透過隨機控制實驗去進行研究;社會科學大多是用觀察研究法(Observational study),研究人員採取被動的角色去觀察及收集資料,根據所得到的「觀察資料」(observational data)或「非實驗資料」(non-experimental data)加以分析,去探討所關切的各項變數之間的關係。

比方如果我們想要知道醫師看診的時間長短對病人的就診滿意度是否有影響,或更精確地說,它們之間有沒有因果關係,照理說我們必須將病人進行隨機分組(假設分成三組),其中一組病人讓醫師看診的時間設定在25分鐘,另一組設定15分鐘,最後一組只有5分鐘。看診後我們馬上進行滿意度調查,比較這三組病人的就診滿意度是否有差別。但是事實上我們並不可以這麼做,因為這會違反醫療倫理,病人就診的時間應該是視其病情的需要,而不是由研究人員所設定的。因此,我們只好退而求其次,在不干預病人及醫師看診的情況下,讓我們所關切的現象「自然」進行,只從旁紀錄抽樣病人的就診時間長短,並詢問其滿意度,再據此去探討就診時間長短與病人滿意度之間是否有相關性。

計量經濟學所用的量性模式是從數理統計來的,其中最主要的方法是迴歸分析(Regression Model),最簡單的迴歸分析公式我們在國中就學到了:
y=b0+b1x

我們要探討的就是y與x的關係,其中y是應變數(dependent variable),x是自變數(independent variable)。前面的例子中,我們關心看診時間是否會影響病人滿意度,看診時間即是自變數(x),病人滿意度則是應變數(y)。我們可以將所得到的資料帶入,電腦便會根據統計的公式算出b0及b1,我們便可以知道此兩個因素之間的關係如何。

不過,由於我們所記錄或收集到的資料並非完美的資料,也無法涵蓋所有我們想要研究的對象,可能有各種人為或自然的偏差存在,因此b0及b1並非精準的數字,而是根據我們抽樣的有限資料(sample data)所能得到能夠代表我們所研究的所有對象(population)的最佳估算值。電腦在求出b0及b1時,還會提供其他統計值給我們做參考及判斷,幫助我們知道b0及b1的準確度或變異情形。通常,如果b1在統計上並未明顯有別於0,我們會認為x與y並沒有關係,如果b1明顯是正值,則當x增加(減少),y也會跟著增加(減少) (看診時間越長,病人滿意度越高);若b1明顯是負值,則當x增加(減少),y反而會減少(增加) (就診時間越長,病人滿意度越低)。

此外,這裡還牽涉到一個重要(可能是最重要)的問題,那就是在進行剛剛的統計分析的背後,我們設定了一個前提,去假設「病人就診滿意度=b0+b1x看診時間」這樣的關係是正確的。所以我們要求電腦根據這樣的關係/公式去進行計算,而得到b0及b1的值。可是我們怎麼知道這樣的關係模式是正確的呢?事實上剛剛的公式所代表的是兩個變數之間的直線關係(線性關係),萬一y與x的關係是向拋物線的曲線關係呢 (例如當看診時間從少變多時,就診滿意度上升,可是到一個程度,當看診時間拉太長,就診滿意度反而下降)?若是這樣的話,y與x的關係模式就不再是剛剛的公式,而應該是:
y= b0+b1x+ b2x2 (b1是正值、b2為負值)

雖然這是非線性關係,但是我們還是可以透過微分將這個關係轉換成線性關係:dy/dx= b1+2b2x,然後繼續套用剛才的線性公式去求得b1及b2,得知y與x的關係,只是這時所得到的,是y改變程度與x改變程度的相對關係(dy/dx),而不再是前面x直接影響y的增加或減少的互動關係。

因此,設定或使用不同的關係模式會對我們的分析及結果有關鍵性的影響,如果用錯模式,我們所得到的答案也就跟著錯了。因此老師一再提醒我們,選擇正確的研究關係模式是最重要的一步,也是計量研究的第一步。當我們掌握了這個變數關係模式之後,我們也才知道要收集甚麼數據,而統計分析工作由於有功能強大的電腦統計軟體的輔助,其實是最容易且最快的一步,最後才是結果的分析與討論。

至於研究關係模式要從哪裡來?答案是從理論來。理論是學者專家經過研究所歸納所推演出來的關係模式,理論幫我們指出各種我們所關心的變數之間可能存在何種關係,提供我們研究的方向及架構。比如在看診時間與就診滿意度的關係上,如果已經有專家學者指出之間呈現拋物線的關係,因此我們可以根據這個理論模式,或再參考其他的學理做部分修正,做為我們的研究關係模式;然後我們著手收集去所需要的資料,驗證這個關係是否正確,或找出能夠達到最高就診滿意度的看診時間。也許另外有學者專家指出,影響病人就診滿意度的因素除了看診時間之外,還有醫師的態度、診間的環境、氣氛、以及之前等候的時間等。我們便可以參考這些理論,建立我們的研究關係模式。基本上當我們增加或減少某個自變數到我們的研究關係模式時,如果該自變數與其他自變數有關連性時,都會大幅度改變我們所得到的結果,因此必須非常謹慎。

迴歸模式的巧妙功能在多變數迴歸分析時更能顯現出來,當我們的研究關係模式同時包含好幾個自變數時,迴歸模式可以讓我們得知在其他自變數維持不變時,某個自變數對應變數的影響程度或其間的關係。這樣可以使我們達到類似實驗研究的效果,也就是控制其他自變數的情況下,求得某個自變數與應變數的因果關係。

沒有留言: