2009年3月28日 星期六

用DEA研究台灣國內醫院的效率

資料包絡分析(Data Envelopment Analysis, DEA)的學理是由美國的學者Charnes, Cooper, & Rhodes在1978年所提出的,之後DEA開始被運用到各個產業去研究或分析各類組織或機構的經營效率。一直到1984年,DEA才首度由Sherman用來研究醫院的效率;從此之後,有許多美國的學者使用DEA進行不少與醫院效率有關的比較分析,所發表的研究論文數量在1990年代初期達到高峰。然而從1990年代下半期之後,由歐洲的學者用DEA所發表的醫院效率研究的論文篇數超過美國,而且其他國家(如台灣、南非、約旦)也陸續有學者用DEA研究醫院效率並發表在國際的學術期刊上面。此外,國內也有不少篇用DEA研究各類醫院經營效率的文章發表在相關的期刊。

台灣國立醫院效率的DEA分析

最近我讀到一篇用DEA研究台灣國立醫院效率的研究論文[1],我覺得相當有代表性。這篇文章是研究六間直屬中央政府的國立醫院[2]在全民健保開辦前,從1990年到1994年之間的經營效率的變化,以及影響這些醫院經營效率的因素。

這篇論文有幾個研究假設:
1.服務或營運複雜度會降低醫院的效率(服務類別/科別較多的醫院效率較低,因為管理較困難)
2.佔床率與經營效率有正相關(佔床愈高的醫院經營效率愈好)
3.榮民病人所佔比例與經營效率呈負相關(榮民病人比例愈高的醫院效率愈低)
4.受到預期全民健保開辦的影響,這些醫院的效率會逐年上升(因為公立醫院預期全民健保開辦之後、公立醫院有健保給付收入,政府預算會遞減,因此有提升經營效率的壓力)

作者提到台灣的醫院絕大多數是非營利醫院,用傳統的財務指標來比較非營利醫院的效率並不是很恰當,因為非營利醫院講求的是使命與資源運用的效率,而財務指標比較偏重由成本與收入的角度去衡量效率,無法很貼切衡量非營利醫院的運作與目標。作者認為DEA能夠較靈活且廣泛地考量各種適當的經營投入與產出指標,因此很適合用來研究非營利性質的醫院。

這份研究先使用DEA去比較醫院在各個年度的效率,然後用效率分數做為應變數,用迴歸分析去探討影響醫院效率的因素。由於有6家醫院以及5年的資料,因此這份研究所用的資料是panel data(同樣的6家醫院進行跨年度的追蹤),照理說應該會有6x5=30個DMUs或observations(研究樣本是30筆資料),不過其中有一家醫院是在1991年才開辦,缺1990年的資料,所以總樣本數(或DMUs)是29。由於作者認為在追求經營效率方面,醫院比較能夠努力的是投入因素,而產出因素(服務量)並非醫院經營者所能直接掌控的,因此作者使用投入取向的DEA分析模式。

這篇文章所用來衡量醫院經營服務投入的變數主要是人力,包括三種人力項目:每間醫院的醫師人數、護理人員與醫技人員數,以及行政與後勤人員數,並分別都以全時或全職等值人力單位(full time equivalent, FTE)來衡量。作者並沒有將醫院的營運支出放入考慮,因為他認為公立醫院經費來自政府預算編列,並非由各醫院自行決定。我覺得這項假設見仁見智,因為這些國立醫院還是會根據其年度服務計畫提出預算計畫,再往上呈報,因此某種程度上它們的經費也是由醫院的經營者所決定的。我認為這份研究應該要包含營運支出這項因素,因為經費是很重要的一項資源投入,而國立醫院都有類似的預算制度,因此使用經費的多寡應該是各醫院經營的差別。如果這份研究是比較公立醫院與民營醫院的效率,若將經營支出納入考慮很可能會造成偏差。

這份研究的DEA所用到的醫院產出變數是醫院的服務量,包括門診與急診人次、一般住院人日、急重症住院人日與慢性住院人日。作者用兩種不同的模式來處理產出變數,一種是將這四種產出變數都帶入DEA分析中;另一種是用其中三種住院人日不同的權重(weights)去計算一個經過加權的整體住院人日數[3],此模式的產出變數則只有兩個(急門診人次與加權總住院人日數)。不過作者用這兩種模式的DEA所計算出來的兩組DMU(6家醫院x5個年度-1)的效率分數情況相當一致,關聯值(correlation)達到0.9952,這代表由這兩種模式所計算的29個效率分數的排名順序幾乎是完全一致的,也就是說,這兩種模式所得到的相對效率分數結果是幾乎一樣的。

在這份研究的第二階段,作者用前面DEA所得到的效率分數當作應變數,去進行迴歸分析。這種結合DEA與迴歸分析的二階段分析方法在DEA的研究中越來越普遍。不過由於投入取向的DEA所得到的效率分數的數值是界於0與1之間,違背OLS線性迴歸分析的基本假設(應變數必須是呈常態分布的連續變數),而屬於一種受限應變數(limited dependent variable, LDV)的情況。就我所知,目前學者已經建議幾種方式來處理這個LDV的問題。最常用的方式是將效率分數轉換成二元應變數(標竿DMU的效率=1,其他非標竿DMU的效率=0),然後用logit或probit模式來分析。第二種方式是用一個簡單的公式將效率分數轉變成一個有單邊界限的連續變數,然後用tobit迴歸模式去分析。新的應變數=(1/效率分數)-1;當效率分數=1.000,此應變數的值是0,當效率分數=0.000,此應變數=∞(無窮大)。

這篇文章所用的是第三種方式,也就是用「最小絕對值和」的迴歸分析原理(least absolute value regression, LAV),這種迴歸分析不須假設應變數呈常態分布。一般的OLS(一般最小平方和)迴歸分析在計算時是取應變數的條件平均值(conditional mean),而LAV是取應變數的條件中間值(conditional median);OLS所得到的參數值會使得每一筆資料的變異值平方總和(e12+ e22+ e32+ e42+…en2)達到最小,而LAV會使得每一筆資料的變異值絕對值總和(e1+ e2+ e3+ e4+…en)達到最小。不過作者同時呈現用OLS與LAV這兩種迴歸模式的分析結果。

分析結果發現,如作者所預期的,佔床率與這些國立醫院經營效率有正相關,榮民病人比例與醫院經營效率有負相關,而且這些醫院的經營效率呈現逐年上升的走勢;這些結果都達到統計學上的顯著水準。雖然分析結果顯示服務科別或類別較多的醫院,經營效率也比較低,這個結果與研究假設是一致的,但是只有OLS模式得到顯著的結果,LAV所得到的結果在這點上面未達統計學的顯著程度。

我覺得這篇論文寫得相當好,很精簡且很明瞭,所用的方法並不複雜,並且盡可能用幾種不同的分析途徑去比較結果,以增加結果的可信度(這是一種敏感度分析的做法)。雖然這份研究分析的醫院家數不多,樣本數也不大,卻仍然能夠得到相當精準的估算。只是,由於其樣本數很有限,因此這篇文章的結果的運用性(generalizability)也相當有限,我們無法由這篇文章去推測國內其他的公立醫院或民營醫院是否也有類似的情況。

發表在國內期刊的醫院效率DEA論文

近年來使用DEA探討台灣醫院效率的研究其實也不少,我在網路上找到八篇2000年之後發表的相關文章摘要,並將這八篇文章的摘要重點整理如下。由此來看近年來國內醫院經營效率的DEA研究多半偏重在公立醫院的探討,絕大多數是跨年(時間縱向)的資料分析,且普遍關切總額預算制度對醫院經營效率的影響;所使用方式以一階段(單純DEA分析)居多,主要探討的效率類別包括技術效率與規模效率。


[1] Chang, Hsi-Hui. (1998). Determinants of hospital efficiency: The case of central government-owned hospitals in Taiwan. Omega. The International Journal of Management Science, 26 (2): 307-317.
[2]由於作者沒有明講是哪些醫院,我猜是以榮民體系為主的醫院,如台北榮總、台中榮總與高雄榮總,以及台大與成大等國立大學附設醫院等,應該沒有包括國軍醫院與後來才改制的署立醫院在內。衛生署署立醫院是在精省後,在1999年由原來的省立醫院改制後歸屬行政院衛生署。
[3] 由於不同性質的住院服務所用到的資源數量不同,比如每人日的急重症住院所用到的資源是慢性住院的2倍,而一般住院所消耗的資源是慢性住院的1.5倍,因此我們可以設定慢性住院的權重是1,一般住院的權重是1.5,而急重症住院的權重是2。如果某家醫院有100人日的急重症住院,500人日的一般住院,300人日的慢性住院,則其整體的加權總住院人日為100x2+500x1.5+300x1=200+750+300=1,250人日。

2009年3月26日 星期四

中維州食物銀行(Central Virginia Food Bank)

我在Richmond所參加的Ginter Park Presbyterian Church(GPPC)成人主日學的「平安論壇組」(Peace Forum)這一季的主題是「食物與飢餓」(Food and Hunger)。原來我以為我們是要討論較貧窮國家中的饑荒與食物供給的問題,沒想到絕大多數的講員與課程所討論的卻是美國的飢餓與食物相關的議題[1],甚至就是在我們所處的維吉尼亞州中部地區所看得到的問題。也因為所討論的問題不是眼在天邊,而是近在眼前,所以讓人感觸更深。

飲食與食物的信仰意涵

GPPC教會的平安論壇每季都會選定一個社會、環境、人權、國際政治(和平)、或經濟的議題,邀請相關的講員做專題演講,或者從聖經的教導去思考應該如何看待這些問題,以及我們如何在行動或行為上去回應與參與這些問題。這次以「食物與飢餓」為主題,其實是出於一個非常單純的信念。耶穌教門徒的禱告文中有一句話:「賜給我們今日所需的飲食」(give us this day our daily bread),耶穌教導門徒向上帝祈求日用所需的食物,表示食物是一項極其重要的需要,這當中有兩層意義,第一是讓我們知道食物是上帝所賞賜的,當我們獲得日用的飲食無缺時,我們必須知道珍惜與感謝,不能浪費。第二層意義是我們必須確保每一個人也能夠獲得日用的飲食,當人有欠缺時,我們必須設法餵養他們,使他們都同樣得到每日所需的飲食。這是一種社會公平(equity)的理念。

在Richmond的一間長老教會神學院Union Theological Seminary and Presbyterian School of Christian Education的聖經學者Dr. Andreas Schuele更進一步指出,在聖經四福音書的記載裡,耶穌不僅在禱告文中強調飲食的重要,他也很喜歡參與各種餐會或飲食的場合[2];耶穌有許多次重要的教訓都是透過飲食的場合去表達,比如在宴會中實行第一次的神蹟,至少兩次在曠野使跟隨他的數千群眾吃飽,透過與朋友的用餐去強調朋友之間彼此的關懷與分享,在與門徒最後的晚餐中表明自己即將受難並塑立犧牲與服事的典範;在他復活之後也用吃一片烤魚來向門徒證明自己真正的復活。Dr. Schuele強調對耶穌來說,飲食不只是食物或生理上的飽足而已,更代表人與人,以及人與上帝之間的分享與交通,因此,提供飲食與食物其實是「分享生命」的一種象徵。

中維州的飢餓問題與食物銀行的成立

很難想像當今全球第一大經濟國內有許多人面臨三餐不繼的問題,但這是事實。單單是中維州地區大概就有將近四十萬個低收入民眾,其中有飢餓問題或營養不良的兒童人數高達25,000人。雖然美國的社會福利救助有提供食物券 (food stamp programs[3])給中低收入家庭的兒童、老人、身心障礙者及孕婦購買食物,但還是有不少人未達領取食物券的資格,而事實上處於三餐不繼的狀態。

出於類似的信仰理念,中維州地區有許多教會在個別的社區中關心有飢餓問題的民眾,他們當時都不約而同找上一家當地由基督徒家族所經營的連鎖超市Ukrop’s[4]勸募食物,因此Ukrop’s建議這些教會為什麼不考慮組織起來,一起來幫助這個地區中需要食物的民眾。於是這六十家教會在1980年共同成立「中維州食物銀行」(Central Virginia Food Bank, CVFB)此一非營利機構,統籌食物的勸募與分配,以滿足各社區的需要。

中維州食物銀行的運作與服務

剛開始CVFB主要是扮演一個食物資源整合與分配的角色,它所採用的方式是向這個地區中的超市、賣場、團體與個人勸募以罐裝食品為主的食物,這些食物進到中央倉庫後由志工與員工加以妥善分類、儲藏,由各社區與CVFB合作的相關慈善團體(如教會)依照社區中的需要領取物資,再轉供應給需要的民眾。比如我去的GPPC教會每季有一次會在禮拜中奉獻時同時收集會友奉獻的罐頭,再送到CVFB;每年四月初這間教會有一個禮拜是Caritas(仁慈)週,會接待並提供社區中的遊民食宿的招待,其中有一部分的食物便是從CVFB領取而來。

後來CVFB所收集到的捐贈食物中,生鮮食物的比例越來越高,這些食物必須馬上處理、烹煮並食用,無法長期儲藏。因此CVFB開始與此地區另一個已經有40年之久的慈善團體「中維州送餐到家」(Meals on Wheels, MOW)合作,供應這些生食給MOW為居家年長者與中低收入家庭(主要是兒童)準備三餐。這些餐食與服務是完全免費的,而且可以根據個案的特殊健康需要配餐(如糖尿病餐食);很有趣的是MOW也募集並購買寵物食物,每月配送一次給有養寵物的年長個案,理由是對這些年長者來說,寵物等於就是家人,甚至是唯一的陪伴者。

最近CVFB與MOW合作在Richmond蓋了一個大型的中央廚房,稱為Community Kitchen,使整個生鮮食物的收集、處理、烹煮、配送作業與流程更為一貫化。很讓人驚訝的是這些工作大多由眾多的志工分工完成。

此外,CVFB也開辦Kids Café(兒童餐坊)服務,把在community kitchen中準備的兒童餐點送到由慈善機構所經營,在照顧中低收入家庭兒童的安親班、暑期弱勢兒童輔導班共50個據點,讓這些兒童有營養均衡的餐點。

由於這些餐食服務的開辦與擴大,CVFB對各類食物的需求量也更大,因此更積極去接洽與勸募食物,特別是各個超市當天沒賣完所剩下的生鮮、即將過期的罐裝食品,以及各級學校餐廳與廚房當天未用完的食物,都能迅速送到CVFB處理。比如CVFB與我的學校VCU的學生自助餐廳合作推出請學生珍惜食物的方案與活動,學生餐廳提醒學生取用剛好夠用的食物,不要拿過多的食物,結果吃不完而倒進垃圾桶;餐廳承諾將藉此省下來的錢或食物全數捐到CVFB。因此這些超市與餐廳與CVFB的合作也等於是一種珍惜食物的行動,減少很多食物被丟進垃圾場,平白被浪費掉。

單純的使命感,不凡的行動與任務

這幾年來CVFB每年大概都收集並分配了600萬公斤的食物給各類服務的對象,參與服務的合作機構約在600間左右。目前community kitchen每天可以準備2,000份的餐點,透過送餐服務或Kids Café送給約800位的年長者與將近1000位的弱勢兒童。隨著不景氣的擴大,這些需要在可見的未來會愈形加重。

事實上收集、處理、準備、配送食物與餐點是相當不容易的工作,須要有很周詳的流程規劃與有效的分工執行才能做到。我相當佩服CVFB、合作機構與眾多志工可以基於這麼單純的信念,採取如此紮實的行動,去完成這麼高難度的且有意義的任務。

現在每當我搭公車要到學校,從高速公路經過CVFB看到它外表磚紅色的大倉庫時,想到的是這些建築物裡面一群用具體行動展現單純愛心的人,以及他們所完成的不平凡的服事—不讓任何人空著肚子度過漫長的夜晚。

[1] 包括美國的農業(補貼)政策、農耕形態(傳統小農場、有機耕作、現代化大量生產的農耕)、農產配銷體系、食品產業的運作、聯合國的糧食方案等。
[2] Schuele說他經常跟神學院學生開玩笑說耶穌是一個social person,如果他生在今天,一定經常出現在各類的宴會或各種party場合。
[3] Food stamp曾經在1930年代開始試辦,後來在1962年正式成為法律與聯邦政府的政策。主要構想是由聯邦政府出面,透過政策架起一座橋樑,以同時解決美國內中低收入口的飢餓與農產品生產過剩的問題。食物券可以用來買生鮮食物與加工食品,但不能買已經烹煮好(pre-cooked)的食物(也不能用食物券去餐廳用餐)。對有些年長者來說,煮飯是一件困難的事,因此光是領取食物券並不表示就解決飢餓的問題。此外,有許多研究發現使用食物券的民眾有偏高的比例有肥胖的問題(或說食物券與民眾肥胖有正相關),這也顯示光是食物券政策還是無法確保這些民眾能夠獲得均衡的營養與健康。
[4] Ukrop’s是一家在1937年從Richmond開始的超市,後來發展成連鎖超市,但仍只有在維吉尼亞州的幾個主要都會區才看得到。創辦人是一位虔誠的基督徒,並強調根據基督教信仰的原則經營公司。比如70年來秉持禮拜天公休,店中不賣酒(但賣菸,不過是放在特區的房間,不是在開放的區域),強調慈善與回饋社區。這家超市以品質著稱,並有相當受家庭主婦或上班族群歡迎的熟食或熱食產品,在這個地區擁有相當高的顧客忠誠度。

2009年3月21日 星期六

調查研究的誤差(Survey Error)

在進行調查研究時不能不知道調查研究有哪些潛在的誤差,雖然沒有任何一份調查研究是完全沒有誤差的,但是一份好的調查研究必須設法克服導致誤差出現的因素,盡可能降低其誤差,以提高其準確度。此外,瞭解調查研究有哪些誤差也可以幫助我們在解讀一份調查研究的結果時,做出比較中肯的判斷與結論;也可以讓我們知道一份調查研究結果的限制所在,避免被結果誤導。

調查可以分兩類,一類是普查(census),另一類是抽樣調查,前者是指針對研究的所有對象(又稱母群體,population)直接做調查,即母群體中的每一分子都被納入調查的對象;後者是從母群體中抽出一部分的對象(也稱為樣本,sample)來進行調查,希望從有限的樣本來了解母群體的真正情況。比如我們想要了解醫院所有病人對醫院服務的滿意度,如果我們對每一位病人都做調查,便是普查;如果我們只抽某一天的病人來進行調查,便是抽樣調查。

照理說普查是比抽樣調查來得理想,因為這樣我們可以直接去瞭解母群體的情況,不需要藉由樣本來推論母群體(其中隱藏抽樣誤差的風險)。不過,普查的成本高、且費事費時,有時候甚至是不可行的,因此勢必藉由抽樣調查。其實,若從調查誤差的角度來看,普查不見得一定比抽樣調查來得好,普查本身也有誤差存在,有些研究人員發現,由於普查必須花費大量的時間與精力去執行,有時反而無法面面俱到,照顧到基本的調查品質,因此如果將大部分的資源省下來,好好去設計問卷與規劃抽樣調查與執行,藉由抽樣調查所得到的結果反而比普查還來得正確。

調查誤差是由四種主要的誤差所構成的:(1)涵蓋誤差(coverage error)、(2)抽樣誤差(sampling error)、(3)無回覆誤差(non-response error)、(4)測量誤差(measurement error)。

涵蓋誤差(coverage error)

當我們要進行抽樣調查時,手上必須有一份涵蓋母群體中所有個體的名單或籤牌(sampling frame),然後才能從中抽出ㄧ些個體來組成樣本。比如要用電話訪問調查某家醫院的病人滿意度,我們必須有一份這家醫院所有病人的電話號碼表,才能抽出一定數量的病人電話號碼,來進行電訪。可是如果其中有些病人沒有電話,那麼使用電訪的方式便會發生「涵蓋誤差」,也就是我們所用的母群體名單並未涵蓋母群體中所有的個體。

涵蓋誤差在調查研究中經常存在,即使是普查,也可能有漏網之魚。在抽樣調查中,研究人員所使用的調查工具經常無法涵蓋母群體的每一個體。近年來由於網路的發達與普遍,網路線上調查有愈來愈多的趨勢,可是並不是每一個人都能夠上網,這些人變成了網路調查的「死角」與涵蓋誤差的來源。不過理論上如果沒有被涵蓋到的這一群個體與母群體中的其他個體的特徵或組成沒有差別的話,即使有調查死角,涵蓋誤差就不存在。可是當被涵蓋與未被涵蓋的個體有顯著的差別時,就會造成涵蓋誤差。

這禮拜遠見雜誌公布一份在今年三月中旬所進行的馬總統施政滿意度調查結果[1],這份調查是在3月15日至17日晚上6點20分至10點進行,以隨機跳號抽樣及電腦輔助電話訪問方式,成功完訪1005位台灣地區20歲以上的民眾。用隨機跳號抽樣的電話訪問在國內外都很普遍,主要好處是容易進行且涵蓋面相當廣。不過,隨著手機的普及,美國已經有愈來愈多的民眾只用手機,而不再使用家中線路電話;然而,全國的手機電話號碼隨機撥號的機制尚未發展出來,因此這些人便沒有機會被涵蓋到樣本裡面,研究發現這一群只用手機的族群比較年輕,傾向居無定所,與其他民眾有明顯的不同,因此使用這種方式的抽樣調查有愈來愈嚴重的涵蓋誤差。

此外,使用隨機跳號抽樣的電話訪問主要訪問的對象是家戶,並非每位民眾,而每戶住家中的人口組成也有差異,或者家中的電話傾向由男主人或女主人、由年長者或年輕人接聽,這當中的差距也可能造成涵蓋誤差。還有,利用晚上電訪的好處是大部分的人可能都已回到家,但是,上夜班或尚在通勤中的民眾便成了漏網之魚。

抽樣誤差(sampling error)

抽樣誤差是指當我們是透過樣本去瞭解母群體時,所必然出現的誤差。如果我們是進行普查,則可以避免這項誤差。由於樣本只是母群體的一部分,當我們要用這部分的個體去描述整個母群體的某些特徵時,必然會有失真,因此我們不敢根據一份或有限數量的樣本就斬釘截鐵地說由樣本所得到的結果絕對跟母群體的情況完全一樣。不過如果我們所使用的樣本相當有代表性的話,則失真的程度可以控制到一定的範圍,通常,當我們是用隨機抽樣的方式去抽取樣本中的個體,並且所用的樣本中的個體數越大時,樣本能夠代表母群體的程度就越大。

統計學對抽樣誤差的探討與計算有直接的貢獻,我們可以根據統計學原理,估算出一個給我們一定程度信心的結果區間值。比如這次遠見雜誌的民意調查指出所得到的結果在95%信賴水準時的抽樣誤差理論值為±3.1%,而結果指出馬總統的施政滿意度是28.6%,較完整的陳述應該是:如果我們用同樣的方法進行100次的隨機抽樣調查,大約有95次的結果會落在28.6%±3.1%之間(也就是25.5%與31.7%之間)[2]。[25.5%,31.7%]便是這次調查所得到的95%信賴水準區間值。

這裡必須要提到一點,統計學對抽樣誤差的估算是建立在機率抽樣上面,對非機率抽樣則是幫不上忙的。機率抽樣(probability sampling)的意思是母群體中的每一個體都有某種已知的機會或機率被選進樣本中,我們才能用這些機率來估算誤差的範圍。如果我們沒有這些機率的訊息,就無法去估計抽樣誤差程度。如果我們為方便起見,去找某一家公司的員工進行對馬總統的施政滿意度調查,我們完全不知道這一群樣本與母群體(國內20歲以上的民眾)之間有甚麼機率的關係,因此無法提供我們有關抽樣誤差的程度。

無回覆誤差(non-response error)
假如我們有一份涵蓋母群體中所有個體的名單,從中抽出具有能夠代表母群體的樣本,並對樣本中的個體進行調查,可是在實際的狀況中,經常是樣本中的一部分對象願意接受調查或回填問卷,另一部分的對象不願回覆,因此我們所收到的實際調查回覆數並不齊全,與樣本數有落差。在這種情況下,如果未回覆的對象與樣本中其他對象有不同的特徵或組成,便會導致無回覆誤差。

一般來說,調查的回覆率是越高越好,因為可以提高回收資料對母群體的代表性,降低無回覆誤差。不過,這也不是絕對的,有些研究發現,有時候若是硬要將回覆率拉高,卻造成回覆樣本的某種扭曲或偏差,可能適得其反。此處的關鍵點在於回覆樣本必須對母群體有高程度的代表性,不論是無回覆與高回覆率,若導致最終樣本的代表性流失,都是問題。

測量誤差(measurement error)
測量誤差是所有研究都會遇到的問題,不只是調查才有的。在調查研究中,測量誤差與有否抽樣無關,不僅抽樣調查有測量誤差,普查也同樣有測量誤差。測量誤差是指調查的回覆者所提供的回答錯誤或不準確所造成的誤差。測量誤差有可能是故意或非故意的,比如病人在住院期間填寫醫院服務的滿意度調查時,擔心負面的意見會被醫療人員知道,因此故意只提供正面的評價。有時候問卷的填寫人或調查的受訪者不了解問題的意思,於是隨便找個答案回答,或者對問題理解錯誤,而填入錯誤的答案。這些都是屬於調查的測量錯誤。一個經過良好設計的調查或問卷,以及妥善的執行方法與過程,可以減少測量錯誤的程度,但是沒有辦法完全避免。如果測量錯誤的發生是隨機的,問題比較小,我們所得到的估算值仍然有一定的準確度;如果測量錯誤的發生是有某種特定的形態或方向的,則對估算值會產生偏差。

調查誤差的處理
一份調查研究的整體誤差,是由上述這四類的誤差所累計起來的。調查研究學者與統計學家針對每一種誤差都設法發展能夠降低或評估誤差的方式。通常完善的調查設計與規劃有助於降低誤差的程度,而統計模式則可以幫助研究人員瞭解誤差的程度。

前三種誤差還可以透過加權處理(weighting)的技術稍予以較正,由於前三種調查誤差(涵蓋誤差、抽樣誤差與無回覆誤差)其實都是關於取樣的代表性問題,而加權處理就是某種程度上,根據我們所用的取樣名單、所得到樣本以及最終回收的樣本,其中每一分子從母群體中被選擇到的機率,去還原其對母群體的代表性。基本上最終回收的樣本中,有可能每一個體到達此最後階段樣本的機率都不一樣。假設有一個體A從母群體進入此最後階段的樣本的機率是0.002,另一個體B的機率是0.004,這時的加權處理是給個體A放大500 (=1/0.002)倍,給個體B放大250 (=1/0.004)倍,也就是用個體A代表母群體中與其類似的500個個體,並用個體B代表母群體中與其類似的250個個體。透過加權處理,我們建立了一份模擬的母群體,用此來估算母群體的特徵值。

但是要進行加權處理前,研究人員必須對取樣的各個階段的每一類個體被選擇到的機率有所掌握,才能夠計算每一個樣本個體的加權值。

四種調查誤差的關係

我覺得這四類調查誤差的關係可以用上面的圖形來了解。首先,我們有一群想探討的母群體對象(target population),但是很可能我們並沒有一份涵蓋這群對象的所有個體的名單,而只有其中一部分的個體名單可讓我們做為取樣的對象(sampling frame),target population與sampling frame之間的差距(藍色環帶)便是潛在的涵蓋誤差所在。第二,當我們從這份母群體名單中選出一部分的個體來組成樣本(selected sample),並藉由樣本去描述名單中的母群體的某個特徵時,這當中的差距便有抽樣誤差存在(黃色環帶)。第三,由於完成調查的樣本(completed sample)或回覆者(respondents)與我們所選擇的樣本並不完全一樣,經常是指有一部分的樣本中個體完成調查,沒有完成調查的個體(綠色環帶)便是無回覆誤差的來源。最後,回覆者在提供調查的訊息時,多多少少會有不準確或錯誤的情況,這便會形成測量誤差(粉紅色部分)。

這四種調查誤差提供我們一個對學習調查研究方法很有幫助的架構,因為調查研究若要得到準確的結果,不外乎要設法減少這些誤差。對這些誤差的概念有所掌握之後,讓我知道各種有關調查研究的議題,主要是在探討或處理哪一種誤差。透過這個架構,我們可以將調查研究的各個面向整合起來。

[1] 遠見民調/馬英九滿意度降至28.6% 不滿意度攀升至58.3%
更新日期:2009/03/19 22:36
根據遠見雜誌所發布的最新民調顯示,民眾對馬英九總統執政10個月的整體表現,有28.6%滿意、58.3%不滿意,滿意度較上個月下降5.9個百分點,不滿意的比率則上升3.5個百分點,可能是受到經濟負成長失業率攀升,以及消費券的短期效應褪去,使得民眾對馬英九明顯不滿。

至於另一項民眾對馬英九總統的信任度調查結果,有45.0%的民眾表示信任,40.2%表示不信任,與上個月相較,對馬總統信任的比率下降3.7個百分點,不信任的比率則是上升3.7個百分點,顯示多數民眾對馬總統執政的整體評價,維持在傾向信任但明顯不滿的狀況。

遠見民調中心主任戴立安分析,民眾對馬總統的滿意度與信任度幾乎皆回到今年1月的數值,研判主要是因為消費券的短期效果盡褪所致,再加上行政院主計處2月公布的各項指標,包括今年經濟成長率為-2.97%,失業率攀升,以及出口持續負成長等,也使民眾對馬總統執政的滿意度、信任度,回復至去(97)年11月至今年1月之間的穩定評價區間。

這項調查是由遠見雜誌民意調查中心在3月15日至17日晚上6點20分至10點進行,以隨機跳號抽樣及電腦輔助電話訪問方式,成功完訪1005位台灣地區20歲以上的民眾,在95%信賴水準時的抽樣誤差理論值為±3.1%。調查結果已對受訪者性別、居住地、年齡、教育程度等項進行樣本代表性檢定,並進行加權處理。

[2] 剛好TVBS也在同一期間進行另一份20歲以上民眾的電話訪調,所得到的對馬總統的施政滿意度是29%。http://tw.news.yahoo.com/article/url/d/a/090321/8/1gg0a.html。這兩份調查所得到的結果相當接近,也印證統計學的理論有可信之處。

學術會議論文發表

上禮拜是這學期的春假週,我除了協助系上同仁接待高雄醫學院醫務管理研究所來進行短期學程進修的碩士班與在職專班同學之外,也在一個學術會議中口頭報告一篇研究論文。

上禮拜四到禮拜五,維吉尼亞州經濟學人協會(Virginia Association of Economists, VAE)在我們學校的商學院大樓舉辦年度學術會議,我利用這個機會去口頭報告我上學期修計量經濟學所寫的期末報告。這是我第一次在學術會議中做論文的口頭發表,感覺獲益良多。

上學期修Panel and Nonlinear Methods in Econometrics這門課,期末必須完成一份實證研究的書面報告,課程的最後一天同學們在課堂上報告自己所做的研究與結果。授課老師Dr. Leslie Stratton聽完,跟我們說今年三月VAE要在VCU舉辦年會,目前在徵求論文,其中有特別安排學生報告的單元,她覺得我們這學期所寫的研究報告相當不錯,鼓勵我們利用這個機會去VAE會議中發表研究的成果。後來她看完我的期末報告,在寄給我分數時還再次提醒與建議我去報名學生論文口頭報告,因此我就將文章投給VAE,想利用這次機會嘗試學術會議的論文發表。

原本我的期末報告文章題目是”Differential impacts of the Balanced Budget Act of 1997 on hospital provision of nursing home services among public, nonprofit, and for-profit hospitals”(請參考http://thchou.blogspot.com/2008/12/blog-post.html),後來我將這篇文章寄給我的指導教授Dr. Ken White,他看過之後建議我既然我已經有比較在BBA實施前後,醫院開辦護理之家與居家護理的變化情況,不妨將題目與內容修改,將居家照護納入文章裡面,後來題目變成”Initial impacts of the Balanced Budget Act of 1997 on hospital provision of long-term care services: Does ownership matter?”,這當中Dr. White與Dr. Stratton繼續提供我許多很好的意見,因此我先針對可以立即修改的部分對文章內容進行了一些改善,並在VAE的會議中報告。

由於我之前完全沒有在這樣的場合報告研究論文的經驗,會前一個禮拜我特別去請教Dr. Stratton有哪些重點要報告,必須注意什麼事項,她很詳細且熱心地跟我分享經驗,提醒我要注意哪些重點,讓我對這次的報告具備基本的概念。

我報告的單元主題是”The economic impacts of public policy”,時間是在禮拜五上午10:45到12:15,這個單元包括三篇論文的發表,我是被排在第一位的報告人。

在準備這次的口頭報告時,剛好另一門課「研究計畫提案的規劃」最近有一節課是在討論研究計畫提案與研究論文的口頭報告,因此我就現學現賣,將從這門課所得到的一些建議加以運用,比如準備大字的報告大綱給自己參考,在投影片的內容方面力求簡潔易讀(不要使用花俏的設計與複雜的內容),以輔助自己口頭的報告,並在事前實際演練。我發現這些方法真的很有幫助,二十分鐘的報告其實很快就結束了,下台時發現整個過程還都很順利,並不會太緊張,時間的掌握也還可以。

接下來是由另一位經濟學者Aileen Watson對我的論文進行討論,她是美國聯邦儲備金銀行Richmond分行的資深分析員,她很客氣地提出幾點文章中的問題,並且給我很有用的建議。會後我向她道謝所提供的幫助與建議,她跟我說健康照護機構與衛生政策比較不是她研究的主要對象,不過在看我的論文時,瞭解到一些以往不知道的事情,讓她感到相當有趣。

這個單元的第二篇論文發表題目是”Economics analysis of dilemmas and disposal of electronic waste in the U.S.”。報告人是Virginia Union University (VUU)商學院的院長Dr. Adelaja O. Odutola與另一位副教授Dr. H.P. Singh-Sandhu。VUU是在美國內戰結束那年(1865)為黑人高等教育所成立的一間民營學府,至今仍以黑人高等教育為職志。他們的論文主要是在探討電子產品廢棄物所帶來的可能問題,描述目前這些廢棄物的處理情況,以及預估未來的可能發展,並提出一些建議。聽完這篇論文發表,才知道電子產品廢棄物這個問題的嚴重性與急迫性,看到他們所呈現的數字,會讓人觸目驚心。這些淘汰率極高,不斷推陳出新的電子產品所造成的廢棄物處理與汙染的問題,以及目前回收處理機制的缺乏,相信對美國以及各先進國家,都是一大挑戰。

第三篇論文的題目很有趣,叫做”What does not kill me makes me thinner?”,中文翻譯意思大致是「那害不死我的反而讓我更苗條?」。這個題目是從尼采的一句名言” What does not kill me makes me stronger”改寫來的。台語中有一句意思類似的話說:「打斷手骨顛倒勇」(越挫越勇的意思)。剛開始我實在是想不懂這篇論文的主題是在講什麼,但是經過發表人、Roanoke College企管與經濟系的助理教授Alice Kassens的報告,就豁然開朗了。原來她研究的是疾病診斷的訊息是否會影響過重病人的體重變化,也就是體重過重的病人,當被告知罹患某種與肥胖的危險因子有關的疾病之後,是否會對病人產生想要控制或降低體重的誘因與效果?因此,題目中”what does not kill me”所指的是這些與肥胖有關的疾病,如糖尿病、心血管疾病、高血壓等。這篇研究屬於健康經濟學的範疇,Dr. Kassens發現只有糖尿病的診斷訊息對過重病人的體重下降有影響,也就是當過重病人被診斷出有糖尿病時,對病人的體重降低有所影響,其他的疾病診斷訊息以及病人的特質都沒有顯著的效果。在討論這篇論文時有與會的學者認為可能是因為糖尿病人每天必須自己測血糖,因此會不斷提醒自己是一個糖尿病人,為了對病情有幫助,必須設法控制會降低體重,所以產生實質的效果。其他的疾病比較沒有這樣的持續自我提醒機制,於是所發揮的影響就很有限。這些討論相當有意思。

Dr. Stratton特別跑來參加這個單元,給我加油。會後她將一份自己聽我報告以及討論人的建議所做的筆記送給我參考,提供許多寶貴的意見。最後她還不忘讚美說我報告得很好,而且特別跟我說大會將我的論文安排在一般學者的發表單元,而不是排在學生報告單元,就表示我的研究論文已經有一定的水準,並跟我表達恭喜。

由於VAE的學術會議算是規模較小的學術會議,很適合像我這種新手的初次嘗試;經過這次經驗,讓我對學術會議的研究論文發表有進一步的概念與經驗,也對類似的活動不再覺得那麼遙遠或困難,希望未來還有機會參與這類的活動。

高醫醫管所VCU進修學程

高雄醫學大學醫管所醫務管理碩士班與在職專班一年級的研究生來我們系上做短期進修已經進入第九年,這個國際學程是他們核心課程的一部分,幾乎都由我們系上畢業的校友邱亨嘉教授帶隊,千里迢迢來此上課一個禮拜,並由前所長萬德和教授安排內容與師資,由我們系上的老師為主、並搭配附近著名的醫院或醫療體系的主管授課。這一個禮拜中除了上課外,還有安排醫院與醫療系統的實地參訪,課程可以說是相當緊湊。

我很欽佩這些台灣的同學們的學習精神,不僅要克服時差所造成的身體不適,還有語言上的隔閡,更具挑戰性的是要在很短的時間去弄懂美國極端複雜、迷宮式的健康照護體系,實在是不容易。不過這些醫管同好所表現出來的認真積極、敬業、熱切的態度,讓我沒有話說,也讓系上的老師印象深刻。

往年來進修的同學中,多半都是在職專班的研究生,他們都是在高屏縣市醫療院所服務的醫師、護理人員與行政管理者,讓我驚訝的是,醫師所佔的比例相當高,像屏東基督教醫院的卓德松院長是去年的團員之一,高雄榮民總醫院耳鼻喉部的侯友益主任是今年學員,他們雖然在臨床與行政方面都有豐富的經驗與專精的學識,仍然好學不倦,謙虛追求知識與進步。我覺得可以從這裡看到台灣醫界的”打拼”精神與向上提升的動力。

據我所知,高醫醫管所每年的進修學員團都很貼心地準備很有台灣特色的小禮物,送給授課的老師與參訪的機構主管;而且學員們積極求知的精神與親切有禮的態度,讓接觸的師資與機構主管留下很好的印象,所以每年都願意一再地參與和接待他們的參訪,無形中也為台灣做了很好的國民外交。

在這次的接待機會中,我還很幸運地與兩位高中同學重逢,目前在高雄健仁醫院服務的林士欽醫師與在東港輔英附設醫院服務的古明崑醫師是我高中同屆的同學,但從高中畢業後就不曾再見過面。能夠在他鄉與多年沒有謀面的故知相遇,實在是很高興。我發現我高中的同學中當醫師或在醫界服務的人還真不少,回台灣後應該好好與他們聯繫,看怎樣「利用」他們的學識與資源。

2009年3月14日 星期六

邏輯迴歸分析(Logistic regression)

迴歸的基本原理

迴歸分析是一個大家族,裡面包含很多不同的分析模式,最基本的模式是線性迴歸模式(linear regression),有時候又被稱為ordinary least square (OLS)模式。線性迴歸是假設應變數的各個數值是自變數所構成的某種直線函數值,再加上一個誤差值所得到的數值,比如下面的數學公式:


yi = β0 + β1x1i + β2x2i + β3x3i + ei



其中y (如體重)是應變數,x1(如身高), x2(如性別), x3(如年紀)是與y有關的自變數,e是誤差值。β0 + β1x1 + β2x2 + β3x3就是y與此三個自變數之間的直線函數。線性迴歸分析是要去找出應變數與自變數之間的直線函數是什麼。如果我們已經知道哪些自變數會影響應變數,剩下來的工作便是去估算β0~β3這四個係數的值,以知道y與這些自變數之間的關係函數。

線性迴歸在估算關係函數中的係數值時,所使用的原理叫做「最小平方和」least sum of square的原理,這也是為什麼線性迴歸被稱為ordinary least square的原因。假設我們要探討體重與身高之間的關係,想去了解身高(自變數x)會不會影響體重(應變數y),因此去測量10個人的身高與體重的數值,將這10個人的數值畫在身高與體重的座標軸圖形上,如同下面圖中的各個數據點。然後我們用線性迴歸分析,找出其迴歸線y(體重) = -83.091 + 0.9164x(身高)。如果我們從每一點畫一條垂直線去與接觸這條迴歸線,這段垂直線的距離就是這條迴歸線所預測的每一個人的體重與其測量體重之間的誤差(ei)的絕對值,由於這10個ei有正值(如e6,第6個人的數值點在迴歸線之上)也有負值(如e5,第5個人的數值點在迴歸線之下),直接相加會互相抵消;因此我們對每一個ei取平方值,然後去找出一條會使誤差值的平方值總和(e12+ e22+ e32+ e42+…e102)達到最小的迴歸線。因此,這條迴歸線不見得符合此10個人當中每一個人的身高與體重的情況,但卻是一條最能夠整體描述這十個人身高與體重關係的代表線。

受限應變數的問題

線性迴歸(以下稱OLS)是所有迴歸分析的入門與基礎。可是OLS有許多前提與假設,只有當這些前提與假設都存在時,OLS所估算的線性函數參數值才會準確。其中有一個條件是應變數必須是呈常態分布的連續變數(如某個小學二年級學生第一次月考的數學成績、某一個國家的國民體重、台灣國內所有護理之家的住民跌倒率等等),可是有很多時候我們研究或分析的應變數並非這種型態的變數,這時OLS便派不上用場。這些不符合OLS應變數條件要求的情況很多,計量經濟學通稱這些為「受限的應變數」(limited dependent variables, LDV),針對不同的LDV,統計學家與計量經濟學家大多已經發展出不同的模式去處理,上學期我修「計量經濟學的群組追蹤與非線性模式」這門課的一大半就是在介紹這些模式,讓人眼花撩亂,我更是被其中的矩陣運算弄得「霧煞煞」。

在研究上經常遇到的一種LDV情況,就是應變數是二元變數(binary variable),這類的變數的數值只有兩種可能,常見的例子比如市民罹患冠心病(coronary heart disease, CHD)的狀態(有罹患或者沒有罹患)、應屆畢業大學生應徵職務的結果(被錄取或者沒被錄取)、醫院開辦放射腫瘤科(有開辦或者沒有開辦)等等。以下用冠心病的相關資料做說明。

我有一組包括100個人的年紀與罹患CHD的資料,想去探討罹患CHD是否與年紀有相關性。如果用散布圖去畫出這100個人的年紀與CHD(1=有CHD,0=沒有CHD)的關係,會得到下面的圖形。
事實上這個圖不太能夠讓我們看出來年紀(age)與CHD之間有甚麼關係。可是如果我們將這100個人依照年齡分成八組,並去計算每一組裡面的人得到CHD的比例,便可以將這組資料整理成下面的表格。

年齡組別-----個數--------CHD=0-----CHD=1------得到CHD的比例
20-29---------10------------9------------1------------1/10=10%
30-34---------15-----------13------------2------------2/15=13%
35-39---------12------------9------------3-------------3/12=25%
40-44---------15-----------10------------5------------5/15=33%
45-49---------13------------7------------6-------------6/13=46%
50-54---------8-------------3------------5-------------5/8=63%
55-59---------17------------4------------13------------13/17=76%
60-69---------10------------2------------8-------------8/10=80%
合計---------100-----------57-----------43------------43/100=43%

根據上面的表格,我們可以畫出另外一個呈現這八組年齡層的人(取中間年齡為代表)與得到CHD比例的關係圖形。從這個圖形中,我們可以清楚地看出年紀與罹患CHD確實有關係,年紀越大的年齡層中的人得到CHD的比例就越高。

如果我們直接將這100個人的原始資料用OLS做迴歸分析,或者將表一中的各年齡層的中間年紀與得到CHD的比例用OLS分析,就會各別得到其迴歸線,也就是在圖二與圖三中加上線性迴歸線,分別呈現在下面的圖四與圖五裡面。

實際上這兩條迴歸線相當接近,而且都告訴我們:當年紀增加一歲,得到CHD的比例就會增加0.02(2%)。但是這兩條迴歸線都有一個相同的問題,當年紀超過70歲時,得到CHD的比例會大於100%;或者當年紀低於20歲時,得到CHD的比例會低於0%。當然我們知道得到CHD的比例不可能超過100%或低於0%。這向我們透露出一個訊息:顯然線性迴歸分析所提供給我們的分析結果有嚴重的問題。

處理二元應變數的模式—Logit模式與Probit模式

解決這個問題的方法有好幾個,最常用的有兩種,第一種是「邏輯迴歸分析」(logistic regression,或稱為logit model),另一種是probit model。這兩種方式都是透過非線性的函數去估算我們所感興趣的參數值,前者是使用logit函數,後者是使用常態分布的累積函數。這兩種非線性函數的共同點是它們的數值永遠界於0與1之間,因此我們所得到的迴歸預測值不會像線性迴歸所得到預測值有超過1或低於0的情況。其實這兩種函數值的分布情況很相似,不注意的話還看不出來它們的區別。圖六是logit函數值的分布圖,圖七是probit函數值的分布圖(使用標準常態分布的累積函數)。

Logistic迴歸的基本原理

如果用π(x)代表logit函數,其數學式為

π(x)=1/(1+exp(-x))

當x=0時,exp(-x)=exp(0)=1,因此π(0)=1/(1+1)=0.5
當x=∞(無限大)時,exp(-x)=exp(-∞)=0,因此π(∞)=1/(1+0)=1
當x=-∞(負無限大)時,exp(-x)=exp(∞)=∞,因此π(-∞)=1/(1+∞)=0

在剛剛探討年齡與CHD關係的例子中,OLS所用的線性函數是CHD=β0+β1*Age,logit model則是透過π(β0+β1*Age)來描述Age與CHD的關係,分析公式為:CHDi=π(β0+β1*Agei)+ei (i=1~100)。我們的目的是要去估算或找到β0與β1這兩個值,使π(β0+β1*Agei)的100個數值最接近資料中這100個CHDi的值。

非線性迴歸分析(如logistic regression)在估算或尋找參數值(β0與β1)時,所用的數學原理不再是「最小平方和」,而是「最大可能性」(maximum likelihood),意思是說所找到的這一組參數值,會使得所預測到的100個π(β0+β1*Agei)數值(因為有100個年齡的值)分別符合資料中100個CHDi值的整體可能性達到最大。有趣的是,線性迴歸的「最小平方和」恰好也符合非線性迴歸的「最大可能性」的原理,事實上「最小平方和」是「最大可能性」一種特殊情況。因此,線性關係中,使用「最小平方和」與「最大可能性」所估算的參數值會是一致的。不過「最大可能性」可以適用的不僅在線性關係,連非線性關係也可以運用,而「最小平方和」只適用於線性關係的分析。

OLS在運用「最小平方和」估算參數值時有公式可以直接去計算,但是非線性模式在運用「最大可能性」原理時,並非直接去計算參數值,而是由電腦一再嘗試重複運算(iteration),直到所找到的參數值達到最大可能性。所以一般電腦統計軟體在非線性迴歸模式的結果中都會呈現經過了幾次的重複運算,才找到這組最理想(最具代表性)的參數值。

當我們找到參數值(β0與β1)時,便可以去計算π(β0+β1*Agei)的值,所得到的這100個數值其實就是代表各個年齡的人得到CHD的可能性。因此,logit函數的好處就是將原本是有或無CHD(0,1)的結果轉變成每一個年齡得到CHD的發生機率。針對上面的100位民眾的年齡與CHD的資料,我用logit model去分析,得到的結果是β0=-5.310,β1=0.111,我將此組(β0, β1)帶入π(-5.310+0.111*Agei)去計算各個年齡的人預期得到CHD的可能性。顯示在下圖:

我們可以來比較用logit model所預估的各年紀的人得到CHD的可能性與前面用年紀分組所得到的結果,我將圖三與圖八裡面的數值點畫在同一個散布圖(圖九)上面,可以看到這兩種方式所得到的結果幾乎重疊在一起,表示用logit model所得到的結果與實際的情況相當吻合。

Logistic迴歸的好處

在面對二元應變數的情況,logit model可能是被運用得最廣的,特別是在生物統計、醫學與流行病學的研究方面,logit model有其優勢存在,因為logit model所得到的自變數的係數值透過簡單的換算,就可以得到生物醫學上常用到的一個指標值—「勝算比值」(odds ratio)。在logit model中,如果我們使用的自變數也是二元變數,更能夠凸顯在結果解讀上的方便。

我們在將上述100筆資料根據年齡分成兩組(如下表),第一組是年齡大於或等於40歲的人,另一組包含年齡小於40歲的人。我用一個新變數(group)來代表這兩組,第一組是group=1,第二組是group=0。第一組中有58.7%的人得到CHD,41.3%的人沒有得到CHD,其得到CHD的勝算(odds,也就是這一組的人得到CHD的機會與沒得到CHD的機會的相對值)=58.7%/41.3%=1.423。較年輕組中有16.2%的人得到CHD,83.8%的人沒有得到CHD,其得到CHD的勝算=16.2%/83.8% =0.194。如果我們將第一組的勝算除以的二組的勝算,便可以得到這兩組得到CHD的勝算比值(odds ratio)。此處所得到的結果告訴我們,年長組的人罹患CHD相較於沒有罹患CHD的情況,是年輕組的7.353倍。

----------------Group=1--------------Group=0
----------------Age>=40--------------Age<40>
chd="1----------58.7%-----------------16.2%"

chd="0----------41.3%-----------------83.8%"

Odds------------1.423------------------0.194

Odds ratio-------1.423/0.194=7.353

現在我們用logit model去分析CHD與這兩組的關係(將自變數由Age改成group),所得到的group的參數是1.995049。很有趣的是,當我們去取這個值的指數時,exp(1.995049)=7.35256,剛好是等於前面計算出來的odds ratio。

需要強調的是,odds ratio並不是指這兩組人罹患CHD的平均可能性的比值。這兩組人的罹患CHD的平均可能性分別是58.73%與16.22%,其比值是3.62。下面的圖是用logit model所估算的參數值去計算的這兩組人罹患CHD的可能性,分別是58.66%與16.25%,與直接從資料所計算得到的結果非常幾乎完全一樣。


Logistic迴歸分析結果的解讀

至於logistic regression結果的係數或勝算比值要如何解讀,這裡用一個簡例來說明:探討年齡與性別與冠心病發的關係,自變數分別是年齡(1-100,連續變數)與性別(男與女,二元變數,女=1,男=0)。如果年齡與性別的係數分別是0.1與-0.5,若直接從係數值來看,我們應該說冠心病發機率與年齡呈正相關,年紀愈大,冠心病發的機率愈大;冠心病發機率與女性的性別呈負相關,女性冠心病發機率要比男性來得小。

如果將係數轉換成勝算比值(odds ratio),年齡與性別的odds ratio分別為1.105與0.6065(odds ratio=exp(係數值))。解釋的方式是:年齡每增加1歲,冠心病發的勝算值(病發機率/未病發機率的比值)是未增加前的1.105倍(On average, one year increase in age results in 1.105 times the ratio of getting versus not getting CHD)。在二變數方面,會更容易解釋:女性冠心病發的勝算值(病發機率/未病發機率的比值)只有男性的0.6065倍(The ratio of getting versus not getting CHD for female is only 0.61 times the ratio for male)。

此外,我們也可以說男性冠心病發的勝算值為女性的1.648(1/.6065)倍。(exp(-0.5)=0.6065)。其實,如果我們將性別變數的男性改設定為1,女性為0,再跑一次logistic regression,所得到的係數會是0.5(從-0.5變成0.5),而odds ratio = exp(0.5) = 1.648,意義完全一樣,只是比較的基礎不同而已。

如果要解釋logit model中乘積項或互動項(interaction term)的係數或勝算比值的意義,就比較複雜了,不過大體上的相關性說明原則應該是跟前面所說的一樣。比如有一個乘積項是性別x抽菸與否(抽菸=1,未抽菸=0),如果此乘積項的係數是0.2 (正值,exp(0.2)=1.22),可以解讀為:女性抽菸後得到冠心病的勝算率為男性的1.22倍(the odds ratio or the probability of getting versus not getting CHD was higher (1.22 times) for female as compared to male in relation to smoking (or the difference between smoking and nonsmoking);此即意謂:與男性相較之下,抽菸對女性(性別:女=1,男=0)得到冠心病發的影響要比抽菸對男性的影響來得大;或是:女性從不抽菸變成抽菸所帶來冠心病發的風險,要比男性從不抽菸變成抽菸所帶來冠心病發的風險來的高;也就是:女性性別與抽菸互動之下,與冠心病發機率有正相關。(乘積項的勝算比率是女性抽菸得到冠心病的勝算比率/男性抽菸得到冠心病的勝算比率)

2009年3月7日 星期六

資料包絡分析(Data Envelopment Analysis, DEA)

這學期「健康照護機構成效的計量分析」這門課的前半段是在介紹Data envelopment analysis(DEA)這種分析方法。台灣學界一般將DEA翻譯成「資料包絡分析」,這是一種使用非參數的分析技術(non-parametric technique),可以同時考慮多個變數的成效評估方法。

傳統的效率分析方法的限制

舉一個例子來說,如果我們要研究或比較十間醫院的效率,通常先要找出可以比較的效率指標,比如每床平均住院人數、每位員工平均門診量、或佔床率(總住院人日除以總床數再除以365天),然後從這十家醫院的資料去計算這些指標值,最後再就某一個指標去做比較,看哪一家醫院的效率最高。問題是不同的效率指標所得到的比較結果可能不一樣,某些醫院在指標A方面效率較高,可能在指標B方面所表現的效率也許不那麼理想。那到底這十家醫院中,誰的整體效率最好呢?我們無法從傳統的指標分析中得到很明確的結論。

有一個辦法可以幫助我們比較這十家醫院的整體效率,是將這十家醫院的指標A (x軸)與指標B數值(y軸)的關係用二度座標軸的散布圖描述出來。落在圖中越右邊且越上面的醫院代表這兩種指標的數值都越大,因此整體效率愈高。散布圖讓我們從直覺與視覺上去瞭解這些醫院在兩種效率指標的整體表現情況,可是當要比較的效率指標越多時,散布圖的幫助就愈有限了,因為一般人無法在頭腦中去勾勒超過三度空間的景象。當有超過三個指標要同時做比較時,這個方法就有困難了。

另外我們可能還可以用這些數值的迴歸線來看,迴歸線[1]主要是代表這些醫院這兩種效率指標關係走勢,其目的是要找出這些資料點的中間趨向,而我們的目的是要找出這些資料的區隔或差異(將效率高與效率低的醫院區隔出來),兩者的目標剛好是相反的;這使得迴歸分析在這個問題的分析上所提供的幫助有限。

DEA在整體成效比較分析的功效

DEA在這個問題上是最能夠派上用場的,如果用DEA,我們可以同時考慮多個效率指標,只要將能夠衡量醫院效率的資源投入(如醫院員工人數)與成果產出(住院服務量與門診服務量)的變數資料用DEA去分析,我們便可以得到的一個可以同時考量這些投入與產出變數的整體效率比較的結果,這個結果裡面最重要的的一個指標稱為效率分數(efficiency score)。在投入取向的DEA模式中(後面介紹),1.000代表最高的效率,因此效率分數等於1.000的醫院(至少會有一家,也有可能同時好幾家醫院的效率分數=1.000)是這十間醫院中整體效率表現最理想的醫院,稱為標竿(benchmark),其他效率分數低於1.000的醫院則是在與標竿醫院相較之下,效率方面都還有努力的空間。如果我們將所有標竿醫院的代表點用一條線連起來,這條線就稱為「效率前緣」(efficiency frontier),代表這十間醫院效率的最前端,所有落在此條線以外的醫院的效率相較於這條線上面的醫院都還未達理想。效率前緣這條線將這些醫院的效率程度包圍出一個可能區域,或者將此區域封包起來,這是data envelopment analysis名稱的由來。

必須特別說明的是,DEA所得到的效率分數並非某家醫院的絕對效率,而是相較於其標竿醫院的相對效率,如果我們將另外十間醫院的資料放進去一起分析(20間醫院一起比較),當有新的效率標竿醫院出現時,原來的每一家醫院的效率分數都會改變。

在DEA分析中,DMU是decision making unit的簡寫,所代表的是分析或比較的基本單位,在上面的醫院例子中,就是每一家醫院,總共有10個DMUs。由於此處我們所關心的是去比較醫院的效率,而醫院的效率是由各個醫院所決定的,因此醫院是一個決策單位(DMU)。DMU會隨著我們所分析的主題的不同而改變。如果要分析或比較護理之家的效率,每間護理之家就是一個DMU;如果要比較好幾家醫院婦產科的接生品質,每個婦產科便是一個DMU;如果我們要比較不同國家的生產力,DMU便是每一個比較的國家。

DEA另一個優點,是可以告訴我們每一家醫院為了達到與標竿醫院同樣程度的效率,應該努力的目標與方向。比如某家醫院如果想到達到與標竿醫院同樣的效率,必須減少員工144位(目標距離值),使員工總數成為1,019位(目標值);除此之外,還得增加門診人次30,203人次(目標距離值),使之達到185,692人次(目標值)。由於標竿醫院在這群醫院中已經達到效率前緣(效率標竿),因此其目標與現狀的數值一樣,不需要再做額外的努力。

DEA的基本原理

DEA基本上是運用線性規劃(linear programming)的原理,最單純的DEA模式的運算模式可以用下面的例子說明。

假設我們使用兩種資源投入(x1, x2)與兩種成果產出(y1, y2)去比較3間醫院的效率,其情況如下:

--------------------資源投入----------------------成果產出
--------------x1(人力)--x2(醫材)---------y1(門診量)--y2(住院量)
A醫院-------- 50----------60----------------40-------------30
B醫院---------75----------95-----------------55-------------65
C醫院--------100--------120----------------150------------130

A醫院效率分數的估算方式:
求解某一組u1, u2, v1, v2的數值,使得 (u1*40+u2*30)/(v1*50+v2*60) 此產出/投入比值極大化;
但受限於以下的條件:
1.A醫院的效率比值不得大於1:(u1*40+u2*30)/(v1*50+v2*60) ≤ 1
2.B醫院的效率比值不得大於1:(u1*55+u2*65)/(v1*75+v2*95) ≤ 1
3.C醫院的效率比值不得大於1:(u1*150+u2*130)/(v1*100+v2*120) ≤ 1
4.u1, u2, v1, v2 ≥ 0
當我們計算出u1, u2, v1, v2的數值時,再帶入 (u1*40+u2*30)/(v1*50+v2*60) 去計算所得到的數值便是醫院A的效率分數。

使用同樣的方法,我們可以去計算B醫院的效率分數:
求解另一組u1, u2, v1, v2,使得 (u1*55+u2*65)/(v1*75+v2*95) 此產出/投入比值極大化;
但受限於以下的條件:
1.A醫院的效率比值不得大於1:(u1*40+u2*30)/(v1*50+v2*60) ≤ 1
2.B醫院的效率比值不得大於1:(u1*55+u2*65)/(v1*75+v2*95) ≤ 1
3.C醫院的效率比值不得大於1:(u1*150+u2*130)/(v1*100+v2*120) ≤ 1
4.u1, u2, v1, v2 ≥ 0
當我們計算出這一組u1, u2, v1, v2的數值時,
B醫院的效率分數= (u1*55+u2*65)/(v1*75+v2*95)

最後,我們也可以去求得第三組u1, u2, v1, v2,並計算C醫院的效率分數,其中至少有一家醫院的效率分數會是1.0000(標竿)。

當然,叫人去執行這些線性規劃的計算程序並不容易,但是對電腦來說就輕而易舉了。Excel中有一個「規劃求解」(solver)的分析功能,就是在進行線性規劃的分析,我們可以將上面的運算式輸入Excel規劃求解的輸入欄位,便可以一一去計算這三家醫院的效率分數。不過對我們來說,這還是太麻煩,因此目前市面上有發展出ㄧ些DEA的軟體,便是「寄生」在Excel上面,成為Excel的增益程式(add-in program),利用Excel規劃求解的演算功能,去做資料分析,計算所有DMU的效率分數,並且計算每一個DMU的努力目標,再將結果統整呈現出來。前面的例子的結果便是利用某種DEA增益程式軟體所得到的。

理論上DEA分析中的投入與產出變數項目數目並沒有限制,不過當投入與產出變數項目越多時,DMU的數量也必須相對增加,分析結果才有效度。DEA的發明者Charns等學者提出一個很簡便的原則幫助我們決定DMU的個數(n):

n ≥ Max{a*b ; 3*(a+b)};a代表投入變數的個數,b代表產出變數的個數

這也就是說,n必須大於a*b與3*(a+b)這兩個數值中較大的數值。所以如果我們有兩種投入變數(a=2)以及兩種產出變數(b=2),3*(2+2)=12大於2+2=4,Max{2*2 ; 3*(2+2)} =12,因此n必須大於12。

DEA的優點與缺點

從上面的醫院實例可以看得出來,DEA對實務管理很有幫助,一來它可以化繁為簡,將眾多成效指標統合分析,並用效率分數呈現出來,讓決策者一目了然,而且DEA更提供了明確的標竿對象與經營或改善努力的目標與方向,這是其它很多計量分析方法所沒有的優點。

前面提過,DEA是屬於一種非參數分析技術,顧名思義,就是我們在進行資料分析以前,不須先假設或構思計量分析的參數模式,而完全由手上所掌握的資料去進行估算。如果我們將DEA與古典迴歸分析(典型的參數分析方法)拿來做比較,便能更清楚比較出這兩者的差別。當研究分析人員使用迴歸分析時,必須先建構參數關係模式(描述變數之間關係的數學公式,比如y=β0+β1x1+β2x2+β3x3,此處β就是參數),再去進行資料分析。我們在進行DEA時,並不須要先提出任何模式,而是由資料的運算來告訴我們結果。古典迴歸分析的結果則會受到我們所使用的關係模式的影響,當我們使用不同的關係模式時,即使是同樣的資料,也會得到不一樣的結果。

此外,由於非參數分析技術不必像參數分析方法要去假設變數的分布狀況,也少了很多相關的分析前提與假設,因此受限程度也比較低。比如一般的迴歸分析多半必須假設應變數的分布是呈常態分布。DEA分析完全不需要這些假設,而是忠實地照我們所給的資料去做分析。

話說如此,其實DEA在分析之前還是須要考慮分析模式(model)的問題,我們必須針對我們所研究或比較的對象、主題、目的等因素,選擇最適合的DEA模式來進行分析。最基本的模式選擇考量,是要使用哪些投入與產出變數,才能適切衡量我們所要比較的對象(如醫院、護理之家、醫療科別、診所等)的效率或品質。每一種健康照護機構或單位的運作/服務方式與目的都不相同,投入的資源與產出的成果也不一樣,只有當我們選擇到正確的投入與產出變數時,我們所衡量到的效率或品質分數才會正確。這與我們在使用迴歸分析時必須考慮使用甚麼應變數與包含哪些自變數的情形相當類似。

此外,我覺得DEA還有ㄧ些缺點或限制,首先,由於DEA所得到的效率分數是相對的數值,不是絕對的數值,因此DEA的結果敏感度可能很高,萬一我們的資料中有一個錯誤的異常的偏離值(outlier),就可能對結果產生很明顯的影響;相較之下,迴歸分析就比較穩定,因為迴歸分析是根據變數的平均值去做計算,若有outliers存在的話,其影響程度也會被減弱一些。此外,當我們用DEA時,倘若比較的對象或範圍改變時,每一家醫院的效率分數可能會很不一樣。迴歸分析基本上是根據隨機抽樣的樣本資料去做分析,只要抽樣沒有嚴重誤差,每一次分析所得到的結果應該會是相當接近才對。而且迴歸分析可以告訴我們估計值正確預測真正參數值的信心程度,DEA就完全沒有這種資訊。還有,DEA無法像迴歸分析一樣納入控制變數,去控制可能的干擾因素,因此DEA無法單獨進行假設檢定,我覺得這是為什麼DEA在學術界不像迴歸分析那麼被普遍運用的主要原因,因為科學研究主要是要透過各種變數關係的假設檢定,去釐清變數間可能的關係。不過DEA可以結合其他的計量分析(如迴歸分析),去做假設檢定。主要的做法是拿DEA所得到效率分數做為應變數,再考慮可能影響效率的因素(自變數),提出分析模式,用迴歸分析去探討。

DEA的主要模式

DEA針對不同的情況已經發展出很多不同的分析模式,最基本的DEA模式的選擇牽涉到兩個面向,第一個是投入取向或產出取向,第二個是考慮固定回報還是變動回報,由這兩種考量會形成四種DEA的基本模式。投入-產出取向的考量主要是在分析中所使用的投入與產出變數中,DMU可以掌控的是投入還是產出因素,下面有一個實例會針對這點做進一步說明。

固定-變動回報是指我們所用的投入與產出變數之間的關係是固定、遞增、還是遞減的關係。如果我們知道當增加一分的資源投入便會帶來一分的成果產出時,這時投入與產出變數之間的關係是固定回報(constant return to scale, CRS)。相反地,如果一分投入產生大於一分的成果,或者一分投入換不到一分的成果,這時的情況稱為變動回報(variable return to scale, VRS),而前者稱為遞增回報(increasing return to scale),後者稱為遞減回報(decreasing return to scale)。

CRS模式在比較所有的DMU時,是假設每一個DMU都存在固定回報的條件;而VRS模式則假設有些DMU是固定回報,有些是遞增回報,有些是遞減回報。因此CRS是用同樣的條件去比較所有的DMUs,而VRS會考量個別DMUs的情況,因此VRS的比較條件比較寬鬆,一般來說,在CRS的DEA分析中,效率分數=1.000的DMU比例比較低,這個比例在採用VRS的分析中會提高。

此外,有些DEA模式可以對變數之間的相對條件設定限制(weight-restricted models);有些模式可以讓我們分析不同時期的資料,以便找出效率的變化。

我自己覺得DEA實在是不錯的方析工具,不僅在研究上面能夠派上用場,在醫院實務管理方面可以運用的地方應該也很多。DEA不僅可以用來作同儕比較,還可以用來探討或追蹤自己機構或部門成效變化或改善的情況。比如我們可以分析比較某家醫院(或某一個部門)過去十年(或過去40季)來的效率或服務品質的變化情況(DMU是各個年度或各個季節)。

只是天下沒有一種十全十美的分析方法,每一種計量分析技術的目的與應用情況都不太一樣,研究人員必須視研究目的與條件去決定要採用哪種方式,或搭配哪些方式,使研究的信度與效度達到最大。同時必須知道所使用的分析方式的限制與缺點,以便在判讀結果時有所注意,做出正確的結論。

[1] 直覺上我們可以將迴歸線理解成最能夠代表這些點的中間線,也就是兩度象限的平均線。