2008年5月11日 星期日

計量經濟學與研究設計

連續上了兩學期的「計量經濟學」,才漸漸聞到它的「香味」,特別是將計量經濟學與研究設計串連起來思考,就更能體會到計量經濟學在實際研究上面的用處。

計量經濟學是用數理與統計原理,透過迴歸模式去探討變數與變數之間的關係。計量經濟學本來就是為了經濟學的實證研究而發展出來的,後來也被運用到其他社會科學的研究上面。我會將計量經濟學瞭解成一種數統版的研究設計,也就是用數理與統計的概念去進行研究設計。

由於大部分社會科學的研究都是觀察式的研究(observational research),研究人員並不主動介入或去操控被研究對象,而是讓被研究的現象自然發生,研究者再從旁觀察或被動收集資料,進行分析比較。用研究方法的術語來說,這是一種非實驗性的研究(non-experimental research),計量經濟學家主要的任務就是去發展適用各種研究設計需要的迴歸模式,讓研究者可以用來做研究分析。因此計量經濟學所用的迴歸模式可以說是千變萬化,相當精采且運用範圍很廣。以下舉幾種常見用途來說明:

探討兩個變數之間的關係

這是最單純的變數關係,如果我們想要了解y(應變數)是否受到x(自變數)的影響及其影響程度,並且假設兩者之間是線性關係的話,我們可以用下面的代數關係(迴歸模式):

y=β0+β1x+u

在此公式中,β0代表截距,也就是當x為0時的y值;β1是x的係數,並代表x與y的關係程度;而u是此研究模式所反應出來的誤差或變異值。

如果β1顯著大於0,x與y是正相關;若β1顯著小於0,x與y是負相關;β1未顯著異於0,x與y則沒有關係。

如果我們懷疑x與y是非線性關係的話,我們可以根據兩者之間可能的關係模式訂定其回歸模式。比如若x與y之間是呈現對數關係,則:

lny=β0+β1lnx+u

這時我們所得到的便是代表x與y相對變化的關係(當x增加1%,y增加β1%),這也就是經濟學中所說的彈性概念,像所得需求彈性(y代表需求,x代表所得)。

探討兩個以上變數之間的關係

我們可以將上述的迴歸模式擴大到同時探討兩個以上的變數關係:

y=β0+β1x1+β2x2+β3x3+u

這時β1所代表的意義是當x2與x3情況相同時,x1與y之間的關係。這個模式是計量經濟學最重要的基礎模式,它可以變化出許多的模式來。計量經濟學也用這個模式來控制相關的影響因素(如x2與x3),讓研究者可以找到x1與y之間在不受x2與x3影響下的直接關係。

研究設計中必須設法避免會對內部效度產生威脅的干擾因素,像是歷史因素(history)、選擇(selection)因素的影響。透過這個迴歸模式,研究人員可以將這些因素加以控制,達到類似實驗控制的效果,也就是使其他干擾因素在不改變的情況下,讓我們看到所關切的兩個變數之間的關係。

探討調節變數的影響

有時候研究中除了探討兩個主要變數之間的關係之外,還要考慮到第三個因素的影響。調節變數(moderator variable)是指該變數的出現與否會對我們所關切的變數關係產生關鍵性的影響。比如狀況領導理論(contingency leadership theory)提到,主管的領導模式(如授權模式)與員工的工作成效(如產量)之間的關係,會受到員工本身的工作意願與能力因素的影響,當員工本身的能力及主動性都很高時,主管採授權的模式能夠激發員工的產能,可是當員工本身的能力及主動性不高時,主管採授權的模式反而會降低員工的產能。在這個關係之中,y是員工產能,x是主管的領導模式,調節變數(m)就是員工的能力與主動性。這樣的關係可以用以下的迴歸模式加以表示:

y=β0+β1x+β2xm +u

這裡β1所代表的是當員工缺少能力與主動性的情況下,授權式的領導與員工成效的關係;β1+β2是代表當員工具備能力與主動性的情況下,授權式的領導與員工成效的關係;β2則是代表員工具備能力與主動性與否對主管授權及員工工作成效關係所造成的影響程度。

比較多個群組之間的差異

利用迴歸模式也可以讓我們比較兩個或多個群組織間的差異,通常我們都是去比較他們之間的平均值,看有沒有顯著的差異。這個比較也可以用t test、ANOVA或MANOVA去進行,不過我發現用迴歸分析更一目了然。

假如我們要比較花蓮縣阿美族、布農族、與太魯閣族與平地人的收縮血壓有沒有差異(以平地人的平均收縮血壓當比較基準)。我們可以用以下的迴歸模式:

血壓=β0+β1阿美族+β2布農族+β3太魯閣族+u

其中阿美族、布農族、與太魯閣族這三個變數都是屬於類別變數(categorical or dummy variables,其數值不是1就是0)。

透過以上的迴歸模式,我們所得到的β0是代表平地人的平均收縮壓;β1代表樣本當中阿美族民眾與平地人的平均收縮壓的差別,我們還可以得知這個差別是否顯著不同於0。同樣地,還可以從β2與β3去分別比較布農族、太魯閣族民眾與平地人的平均收縮壓的差異程度。

探討政策的衝擊

如果研究人員要探討台灣全民健保實施(1995年)之後,對平地人與原住民之間的平均餘命是否有造成不一樣的影響?我們可以採取以下的迴歸模式:

平均餘命=β0+β12005+β2原住民+β3(2005 x原住民)+u

這個問題所用到的資料是取自不同時點的獨立橫切資料(pooled independent cross-sectional data),比如我們在1994年分別針對平地人與原住民抽樣調查其平均餘命,然後在健保實施後第10年的2005年,再做一次相同抽樣的調查(兩次調查的樣本組成不一定相同)。上述2005(2005年=1, 1994年=0)與原住民(原住民=1,平地人=0)這兩個變數都是類別變數。β3是代表全民健保實施前後,原住民與平地人平均餘命差異值的改變程度。

探討趨勢與時序關係

迴歸模式除了探討某一個時間點所收集的橫切資料之外,還可以用來探討有時間序列的資料與相關的問題。在研究設計時,必須考量一個干擾變數關係的因素是成熟因素(maturation),這是指我們所關切的應變數(y)本身就有一種自然的變化趨勢,並非因為自變數(x)的改變所引起的。若要控制這個因素,可以在回歸模式中加入時間變數(比如time=0(1995), time=1(1996), time=2(1997),…),如以下公式,這樣我們就可以將因時間所產生的自然變化趨勢隔離出來。

yt=β0+β1xt+β2time+ut

此外,有時候我們還要控制季節的起伏因素,比如我們有每季的門診量統計資料,想要去探討門診量的成長情況。但是我們想排除季節的高低起伏變化因素,因此我們可以將季節的變數加到回歸模式中:

季門診量t=β0+β1Q1+β2Q2+β3Q3+β4time +ut

這樣我們所得到的β4就是經過季節變化校正後,每一季門診量的真正的成長率(以Q4做為比較基準)。

如果我們想進一步去了解新的部分負擔措施對門診量是否有造成衝擊,可以用以下的迴歸模式:

季門診量t=β0+β1Q1+β2Q2+β3Q3+β4time +β5部分負擔措施t+ut

假如該部分負擔新措施是從2000年第一季開始實施,則此模式中的部分負擔措施t變數的數值在2000年Q1以前都是0,從2000年Q1開始都是1。β5可以告訴我們該部分負擔新制對門診量所造成的衝擊程度。

消除先天差異因素

實際上在進行觀察式研究時會遇到一個問題,就是明知有些先天因素會造成不同樣本群組之間的差異,影響到我們所要探討的關係,可是研究者缺乏相關的資料可以將這些影響變數包含到迴歸模式中去加以控制,這時研究者如果有相同樣本在兩個時點的資料,那麼透過取兩時點資料的差異,便可以將其中不會因為時間而改變的因素加以排除,在計量經濟學中稱此為first-difference或fixed effect transformation,所用的資料形態稱為panel data。

比如我們想研究抽菸量對致癌的關係,如果取得200個民眾今年的資料,進行迴歸分析,便可以得到抽菸量與得到肺癌的比例的關係。但是這個分析沒有將每個人先天健康條件不同的因素考慮進來,有些人本身的遺傳因素就比較容易或不容易得到肺癌,因此我們所得到的結果會有偏差。這時我們如果有同一批人在五年前的資料,那我們就可以將遺傳的因素將以排除,計量經濟學所根據的原理其實很簡單,可以用以下的公式來呈現:

(1) 肺癌2008=β0+β1每天抽菸支數2008+遺傳條件+u2008
(2) 肺癌2003=β0+β1每天抽菸支數2003+遺傳條件+u2003

當我們將(1)減去(2),會得到
(3)(肺癌2008-肺癌2003)=β1(每天抽菸支數2008-每天抽菸支數2003) +(u2008- u2003)
透過分析(3)這個迴歸模式,我們便可得到不受遺傳條件干擾的β1

控制被忽略的變數、測量誤差

最後,計量經濟學還有一項利器,就是工具變數(instrumental variable, IV)的運用,去排除其他可能的忽略變數或測量誤差所導致的偏差。有時候研究者可能會忽略掉對主要關係有影響的重要變數,或者因為缺乏資料而無法將這些因素涵蓋到研究模式中;此外,我們所用的資料並非完美的,而是有許多不同程度的誤差在其中,這些問題都會嚴重影響我們分析的結果正確性。工具變數的運用可以對解決或改善這些問題有所幫助。如果我們的研究迴歸模式是以下的公式:

y=β0+β1x1+β2x2+β3x3+u

當我們覺得x3可能有測量誤差或者與某個忽略變數有關連性,這時我們可以找一個(或多個)工具變數z,z必須符合兩個條件:(1) z與x3有相關性,(2)但是z與u沒有關連性。透過z,我們便可以達到類似將研究樣本進行隨機分配的效果,將其他忽略變數與測量誤差所可能導致的影響加以消除或減弱。IV的運用對研究分析的正確性非常有幫助,不過要找到一個理想的IV最大挑戰在於確定所找來的與z與u沒有關連性,因為實際上我們並不曉得u的真正情況。因此在實務上,IV的選定必須由研究者根據對問題的深入了解中去選擇。

在學計量經濟學時常常被其中的數理推導過程弄得團團轉,再加上有些統計觀念相當抽象,所以形成了解計量經濟學內容相當程度的難度。不過如果將計量經濟學的觀念與研究方法的核心主題互相對照來了解,這些抽象的數理觀念就變得有用多了。還好教這門課的經濟系教授Dr. David Harless是一位研究經驗豐富,非常有教學熱誠,講課很有系統且深入淺出的好老師,幫學生減少了很多摸索的過程。不過,師父帶進門,修行還是在個人。

1 則留言:

Unknown 提到...

寫得太讚了!