2008年8月18日 星期一

Panel Study的迴歸模型運用

Panel study是相當常見的研究設計方式,主要是指針對相同的一群人(a panel),各別收集多個時間點的資料,再加以分析比較,因此panel study是一種時間走向的研究型態(longitudinal study)。Panel study經常與計量經濟學或迴歸分析結合運用於社會科學或健康相關的研究。

從研究設計的角度來看,panel study最主要的特色與優點是可以控制(排除)許多與研究對象有關、不隨時間改變的因素的影響,如性別、基因、智力、種族等因素,因此可以讓研究人員探討主要的自變數與應變數之間的關係。

我最近參與系上的Dr. Dolores Clement以及一位去年畢業校友的一份研究工作,去分析探討當被保險人從HMO方案轉變成CDHP[1]方案時,對其就醫使用情況會不會有所影響?這份研究使用的資料來自一家大型的民營健保組織,樣本包括六千多位被保險人,資料包含每一位被保險人2005年與2006年的就醫使用量(基層醫療的就診次數、專科醫師的就診次數、住院次數、門診處置次數與急診次數)。這六千多位被保險人在2005年都是加入HMO方案,然而在2006年,有將近兩千人轉換為CDHP的方案。我們就是想去探討這將近兩千位從HMO改變為CDHP方案的被保險人的就醫使用量變化狀況,與維持在HMO方案的被保險人的就醫使用量變化狀況有沒有明顯的不同。我們所得到的資料可以讓我們使用panel study去分析這個問題。

首先我們必須先設定好探討此問題的計量經濟學或迴歸模式。我們可以用以下的公式來描述2005年就醫使用量與各個主要自變數之間的關係:

(1) yi,05= β0 +β1Plani,05 + ai + ui,05

其中各個符號所代表的意義如下:
yi,05:指2005年第i位被保險人的就醫使用量
β0:代表此迴歸線的常數(constant)或截距(intercept)
Plani,05:指2005年第i位被保險人所參加的健保方案,即HMO
ai:是第i位被保險人不會隨時間變化的所有因素,主要包括性別、基因(體質)、種族、慢性疾病(健康)情況等可以被觀察到或無法被觀察或測量到的固定因素。
ui,05:代表第i位被保險人真正的狀況與此迴歸線之間的差異或變異值,我們必須假設這六千多個變異值的期望值是零,而且這些變異值與Plani,05和ai無關,也就是這些變異值是因為隨機誤差所產生的,此模式才能成立。如果我們發現變異值受到某些其他因素的影響,那我們便必須設法將這些影響因素放入公式裡面,加以控制。

另外我們再用以下的公式來描述2006年的關係:

(2) yi,06= β0 + δ0 + β1Plani,06 + ai + ui,06

這個公式與上一個公式最大的不同只在於多了一個δ0,這個值是代表從2005到2006年之間,此迴歸線常數值的改變。我們可以理解成這是因為時間改變所自然造成的改變,如所有的被保險人由於年齡增加一歲,或因為整體醫療科技經過一年的進展,或大環境在這兩年之間的變化,對就醫使用量造成的改變。

當我們將這兩個公式相減,公式(2)-公式(1),便會得到以下的公式(3):

(3) (yi,06 - yi,05) = δ0 + β1 (Plani,06 - Plani,05)+ (ui,06 - ui,05)

(yi,06 - yi,05):代表第i位被保險人從2005年到2006年就醫使用量的改變程度
(Plani,06 - Plani,05):代表第i位被保險人從2005年到2006年所使用的健保方案的改變,有改變的話(從HMO變成CDHP)以1表示,沒有改變(留在HMO)則以0表示
β1:是我們最關切的數值,代表健保方案的改變對就醫使用量改變的影響程度
(ui,06 - ui,05):公式(2)與公式(1)的差值,由於前面我們已經假設ui,05與ui,06是期望值為零的隨機亂數,因此(ui,06 - ui,05)也是期望值為零的隨機亂數。

公式(3)中最奇妙的是我們藉此將ai(被保險人的各種固定因素)排除掉了,而可以讓我們專心探討(Plani,06 - Plani,05)與(yi,06 - yi,05)的關係,也就是β1。在計量經濟學中,由於這個模式來自兩個時間點第一次的相減,因此也被稱為「首差模式」(first-difference model),β1也被稱為「首差估計值」(first-difference estimator)。此外,由於β1在此所表的另一個意涵是:健保方案有改變的被保險人的就醫使用量改變程度與健保方案沒有改變的被保險人的就醫使用量改變程度之間的差距,也就是(健保方案有改變的被保險人2006年使用量-2005年使用量)-(健保方案沒有改變的被保險人2006年使用量-2005年使用量),因此β1也被稱為「差異中的差異估計值」(difference-in-differences estimator)。

若從直覺來理解,因為這兩年就醫使用的改變量是針對每一個被保險人所個別計算的,這個變化是發生在同一個人身上的變化,因此這個改變不會是由這個人身上固定的因素所造成的,而是受到其它在這兩年間變動因素的影響,如所參加的健保方案的改變等等。

後來我將這個模式請教教我們計量經濟學的Dr. David Harless,他提出兩個重要的問題。首先他指出由於我們的應變數(dependent variable)是次數的資料(count data,如急診次數、住院次數等),而不是連續變數,因此上述的線性模式所得到的結果可能不正確,最好是採用fixed effects count data regression model,也就是fixed effects Poisson regression model。

第二個問題是,first-difference model必須在strict exogeneity的前提成立下才能使用。在這個研究中,strict exogeneity的意思是說ui,05與Plani,05、Plani,06及ai都沒有相關;同時,ui,06與Plani,05、Plani,06及ai也都沒有相關。這種情況主要是指當被保險人在選擇留在HMO或是改成CDHP時是隨機的考量(即被保險人不論2006採用HMO或CDHP方案,都是隨意的抉擇,沒有特殊的目的,也沒有受到自己的各種因素影響)。如果不是這樣的話,比如被保險人因為考量自己比較年輕,可能比較不會生病,基於保費較低的緣故而決定改用CDHP方案,則這個前提便不成立(ui,05與Plani,06有關連性)。還好這個研究計畫中,被保險人自己不能選擇要用哪一種健保方案,而是由其雇主決定,因此這個問題的影響程度便大為降低。

這份研究計畫讓我有機會將之前在計量經濟學課程中所學到的panel study相關的模式做實際的應用,也藉此加深印象並獲得更清楚的概念。不過這次經驗再次讓我體會到一份研究或分析要能夠正確的進行,實在是不容易,要考慮的地方相當多。除了有完善的資料之外,還要用對計量分析模式,並要考慮很多前提或假設是否合適,否則研究結果會產生大幅度的誤差。

[1]「消費者驅動的健保方案」(Consumer-Driven Health Plans, CDHP),是要去加重消費者的責任與誘因,讓消費者根據自己的需要去挑選最適合的健保方案與醫療服務,藉此提升健保及醫療照護市場的競爭機能。一般來說,CDH P會搭配高自負額及免稅的醫療儲蓄帳戶,使被保險人有節制或善用醫療資源的誘因,此外則是保費較低。如果說HMO是由醫療提供者來替病人的就醫與醫療使用做把關的話,CDHP則是由被保險人為自己的就醫把關與選擇。

沒有留言: