2008年9月28日 星期日

藉由雙胞胎進行Panel study

由於大部分社會科學的研究都是觀察式的研究(observational research),研究人員並不主動介入或去操控被研究對象,而是讓被研究的現象自然發生,研究者再從旁觀察或被動收集資料,進行分析比較;此外,社會科學的研究大多以人或機構為研究對象及資料來源,因此這類的研究有幾個先天上的缺點或限制:(1)由於沒有刻意透過實驗設計去導入原因並觀察之後所產生的結果,所以很難認定其中的因果關係,經常社會科學研究人員所探討的兩個變數之間的關係很可能是互為因果關係,無法確定到底誰是因誰是果;(2)觀察式的研究沒有藉由隨機分配研究對象到實驗組與對照組,因此我們缺乏客觀公平的基礎去比較實驗組與對照組的結果,因為實驗組與對照組有可能原來就存在會影響結果的差異性,研究術語稱此為干擾因素(confounding factor)或選擇偏差(selection bias);(3)由於社會科學的研究資料大多來自人或機構,資料的正確性是一個問號,這裡除了人在提供資料時會受到很多因素的影響外,人的記憶與機構資料收集與記錄的過程中也充滿很多錯誤的機會,研究人員稱此為測量錯誤(measurement error)。

在這些先天不足的情況下,迴歸分析與計量經濟學就是要透過數理與統計的原理,提供方法讓社會科學研究人員去克服/降低這些問題,盡可能使分析研究的結果達到準確的地步。如果運用得恰當,計量經濟學的模式確實是很有幫助。有不少研究藉由巧思與計量經濟學原理的搭配運用,提出讓人眼睛為之一亮的研究方法,成為社會科學研究的經典案例。最近看到一篇研究論文[1]便是一個計量經濟學教科書上經常引用的例子。

在勞動經濟學中,教育程度與收入的關係是一個古典的議題,不少經濟學者曾經研究教育程度增加是否真的對收入有所貢獻這個問題。這個問題看起來很簡單,我們只要去隨機找出一群已經在工作的人,去問他們的教育程度(接受學校教育的年數)與收入多寡,然後用任何一種統計軟體的迴歸分析就可以算出這兩者之間的關係。

可是這樣做所得到的答案可能有嚴重的偏差,主要原因有兩個:(1)測量誤差—受訪者有可能記錯或算錯自己的上學年數與收入;(2)干擾因素—受訪者的能力與家庭背景很可能會影響其收入與所受的教育,因此光從一個人的收入與教育程度的資料,我們還不能確定這個人的收入多寡是因為其教育程度所導致的,有可能其實這是由他本身的能力所造成的。可是,研究人員通常沒有一個客觀衡量個人能力的指標,而且家庭背景的資料也不容易獲得,計量經濟學稱此為忽略或遺失變數的偏差(missing variable bias或omitted variable bias)。在遺失變數偏差與測量誤差的情況下,用迴歸分析所得到的結果便有偏差。

針對遺失變數的問題,這份研究很聰明地採用了同卵雙胞胎予以克服。研究人員們到1991年美國的第16屆全國雙胞胎節活動中,訪問了146對同卵雙胞胎,因為每一對同卵雙胞胎的基因一樣,因此先天的能力一致,且家庭背景也一致。藉由計量經濟學的panel analysis,就可以將這兩個因素加以排除,其中所用的數學原理並不會太難,可以用以下的公式來了解:

(1) y1i=αXi + βZ1i + ui + ε1i
(2) y2i=αXi + βZ2i + ui + ε2i

這裡,第一個公式是在描述雙胞胎中的146位哥哥或姊姊(用1代表)的收入與各個相關變數之間的關係;第二個公式是在描述雙胞胎中的146位弟弟或妹妹(用2代表)的收入與各個相關變數之間的關係。i是代表第i對雙胞胎;y1i是指第i對雙胞胎哥哥(或姊姊)的收入,y2i則是指第i對雙胞胎弟弟(或妹妹)的收入。Xi是指第i對雙胞胎共同且可以被觀察到的因素,比如年齡、性別、家庭、父母教育程度與收入與成長環境等等。ui是指第i對雙胞胎共同但無法被觀察到的因素,如先天能力。Zi是指第i對雙胞胎可能不同且可以被觀察到的因素,比如受教育的年數,雙胞胎兄弟或姊妹上學讀書的年數有可能不同,這也是這份研究主要的自變數;因此,Z1i代表第i對雙胞胎哥哥或姊姊上學唸書的年數,Z2i則指第i對雙胞胎弟弟或妹妹上學唸書的年數。最後,ε1i與ε2i則各代表公式(1)與公式(2)的誤差,我們假設它們都是隨機亂數。

如果將公式(1)與公式(2)相減,我們會得到以下的公式:

(3) y1i - y2i = β(Z1i – Z2i) + ε1i - ε2i

很明顯地,我們將Xi與ui這些可能的干擾因素加以排除了。我們可以將公式(3)改寫成下面的公式:

(4) ∆ yi =β∆Zi +∆εi

在計量經濟學稱這樣的分析模式為「首差估算[2]」(first-difference estimation),這是panel study主要的計量模式之一。這時我們透過迴歸分析所得到的β就比較能反映教育程度與收入的關係。

現在研究人員還有一個問題要處理,就是測量誤差所造成的估算偏差。為了討論的容易,我們先用下面的公式:

(5) y =βz +ε

這裡可能有兩種測量誤差,一個是收入的測量誤差,由於收入在這個研究中是屬於應變數,所以這是屬於應變數(y)測量誤差;另一個是受教育年數(z)的測量誤差,在這個研究中是屬於自變數的誤差。應變數誤差比較容易處理,只要這個測量錯誤與教育年數沒有關聯性,那公式中的ε便涵蓋了這個誤差,不會影響β的估算結果,但會影響到標準誤差(standard error)與p值的計算。如果是自變數(受教育年數)的測量誤差,問題就比較複雜一點。

假設我們所測量到的不是真正的z,而是有包含測量誤差的z*,我們可以將z與z*的關係寫成:z*=z+ν,ν代表誤差,我們必須假設ν是一個與z(受教育年數)無關的誤差。因此:z=z*-ν,得到以下公式:

(6) y =β(z*-ν)+ε = βz* + (ε-βν)

這裡我們要特別注意(ε-βν),如果(ε-βν)與z*沒有相關,我們即使取得有誤差的受教育年數的資料z*,還是能夠估算到正確的β。可是,由於z*=z+ν,因此很明顯地,z*與ν有正相關,所以也連帶z*與(ε-βν)產生某種程度的負相關。在此情形下,我們會得到偏差的β。要解決這個問題,計量經濟學運用工具變數(instrumental variable, IV)的方法,IV必須與z*有關係,但與ν無關(也與ε無關),因此也與(ε-βν)無關。

在這篇研究中,研究人員採用的IV是在不受姊姊或哥哥的影響下,請雙胞胎妹妹或弟弟告訴研究人員其雙胞胎哥哥或姊姊的受教育年數;並同樣在不受妹妹或弟弟的影響下,請雙胞胎姊姊或哥哥告訴研究人員其雙胞胎妹妹或弟弟的受教育年數[3]。因此研究人員同時訪問雙胞胎的兄弟或姊妹,使其所提供的資料不受另一方的影響,並取弟弟所報告的哥哥受教育年數來做為哥哥受教育年數的IV,也拿哥哥所說的弟弟受教育年數來做為弟弟受教育年數的IV,帶入IV的迴歸分析模式中,以校正偏差。

用直覺的方式來理解,我們可以說當我們懷疑某一種變數的資料可能有嚴重的測量誤差時,這時我們若可以針對同樣的變數,取得另一種獨立(與前一種資料來源沒有相關)的資料來源,這第二種資料來源可以幫助我們獲得較正確的估算。比如我們想要測量一群人的身高,可是沒有精確刻度的量尺,這時我們可以採用多種簡單的測量方式,如用手掌,或用自己的身高去比量,或用目測,拿其中用手掌測量的數值來當主要的變數資料,然後再用其他方法所得到的數值來當IV。

這個研究實例給我的啟示是,一份好的研究決定於研究者的理論功力、巧思與對研究議題與對象的瞭解。其實社會科學研究所根據的資料不可能是完美的,研究的情境多半也很不理想,但是如果對這些限制有所了解,並知道理論上可以怎樣與以克服,透過精心的設計與嚴謹的分析,還是能夠得到讓人相當滿意的結果。同樣的簡單的材料,一般人可能要感嘆煮不出好菜,可是高明的廚師就是能變出令人垂涎三尺的料理。

[1] Ashenfelter, Orley and Krueger, Alan. (1994) Estimates of the Economic Return to Schooling from a New Sample of Twins. The American Economic Review 84 (5):1157-1173.
[2] 首差估算模式如果用直覺來了解,其實是當一對同卵雙胞胎兄弟收入不同,可是他們之間除了受教育的年數不同之外,其他的條件都一樣。這時我們便可以將這對雙胞胎兄弟之間收入的差異歸咎於其受教育年數的差異所造成的。
[3] 這樣做的目的是因為弟弟所說的哥哥受教育年數應該會與哥哥自己所說的受教育年數有一定的吻合(因此IV與Z*有相關),但是弟弟所提供有關哥哥的資料應該與哥哥講錯自己的受教育年數的原因沒有關聯性(因為是分開訪談)。

沒有留言: