2009年3月8日 星期日

資料包絡分析(Data Envelopment Analysis, DEA)

這學期「健康照護機構成效的計量分析」這門課的前半段是在介紹Data envelopment analysis(DEA)這種分析方法。台灣學界一般將DEA翻譯成「資料包絡分析」,這是一種使用非參數的分析技術(non-parametric technique),可以同時考慮多個變數的成效評估方法。

傳統的效率分析方法的限制

舉一個例子來說,如果我們要研究或比較十間醫院的效率,通常先要找出可以比較的效率指標,比如每床平均住院人數、每位員工平均門診量、或佔床率(總住院人日除以總床數再除以365天),然後從這十家醫院的資料去計算這些指標值,最後再就某一個指標去做比較,看哪一家醫院的效率最高。問題是不同的效率指標所得到的比較結果可能不一樣,某些醫院在指標A方面效率較高,可能在指標B方面所表現的效率也許不那麼理想。那到底這十家醫院中,誰的整體效率最好呢?我們無法從傳統的指標分析中得到很明確的結論。

有一個辦法可以幫助我們比較這十家醫院的整體效率,是將這十家醫院的指標A (x軸)與指標B數值(y軸)的關係用二度座標軸的散布圖描述出來。落在圖中越右邊且越上面的醫院代表這兩種指標的數值都越大,因此整體效率愈高。散布圖讓我們從直覺與視覺上去瞭解這些醫院在兩種效率指標的整體表現情況,可是當要比較的效率指標越多時,散布圖的幫助就愈有限了,因為一般人無法在頭腦中去勾勒超過三度空間的景象。當有超過三個指標要同時做比較時,這個方法就有困難了。

另外我們可能還可以用這些數值的迴歸線來看,迴歸線[1]主要是代表這些醫院這兩種效率指標關係走勢,其目的是要找出這些資料點的中間趨向,而我們的目的是要找出這些資料的區隔或差異(將效率高與效率低的醫院區隔出來),兩者的目標剛好是相反的;這使得迴歸分析在這個問題的分析上所提供的幫助有限。

DEA在整體成效比較分析的功效

DEA在這個問題上是最能夠派上用場的,如果用DEA,我們可以同時考慮多個效率指標,只要將能夠衡量醫院效率的資源投入(如醫院員工人數)與成果產出(住院服務量與門診服務量)的變數資料用DEA去分析,我們便可以得到的一個可以同時考量這些投入與產出變數的整體效率比較的結果,這個結果裡面最重要的的一個指標稱為效率分數(efficiency score)。在投入取向的DEA模式中(後面介紹),1.000代表最高的效率,因此效率分數等於1.000的醫院(至少會有一家,也有可能同時好幾家醫院的效率分數=1.000)是這十間醫院中整體效率表現最理想的醫院,稱為標竿(benchmark),其他效率分數低於1.000的醫院則是在與標竿醫院相較之下,效率方面都還有努力的空間。如果我們將所有標竿醫院的代表點用一條線連起來,這條線就稱為「效率前緣」(efficiency frontier),代表這十間醫院效率的最前端,所有落在此條線以外的醫院的效率相較於這條線上面的醫院都還未達理想。效率前緣這條線將這些醫院的效率程度包圍出一個可能區域,或者將此區域封包起來,這是data envelopment analysis名稱的由來。

必須特別說明的是,DEA所得到的效率分數並非某家醫院的絕對效率,而是相較於其標竿醫院的相對效率,如果我們將另外十間醫院的資料放進去一起分析(20間醫院一起比較),當有新的效率標竿醫院出現時,原來的每一家醫院的效率分數都會改變。

在DEA分析中,DMU是decision making unit的簡寫,所代表的是分析或比較的基本單位,在上面的醫院例子中,就是每一家醫院,總共有10個DMUs。由於此處我們所關心的是去比較醫院的效率,而醫院的效率是由各個醫院所決定的,因此醫院是一個決策單位(DMU)。DMU會隨著我們所分析的主題的不同而改變。如果要分析或比較護理之家的效率,每間護理之家就是一個DMU;如果要比較好幾家醫院婦產科的接生品質,每個婦產科便是一個DMU;如果我們要比較不同國家的生產力,DMU便是每一個比較的國家。

DEA另一個優點,是可以告訴我們每一家醫院為了達到與標竿醫院同樣程度的效率,應該努力的目標與方向。比如某家醫院如果想到達到與標竿醫院同樣的效率,必須減少員工144位(目標距離值),使員工總數成為1,019位(目標值);除此之外,還得增加門診人次30,203人次(目標距離值),使之達到185,692人次(目標值)。由於標竿醫院在這群醫院中已經達到效率前緣(效率標竿),因此其目標與現狀的數值一樣,不需要再做額外的努力。

DEA的基本原理

DEA基本上是運用線性規劃(linear programming)的原理,最單純的DEA模式的運算模式可以用下面的例子說明。

假設我們使用兩種資源投入(x1, x2)與兩種成果產出(y1, y2)去比較3間醫院的效率,其情況如下:

--------------------資源投入----------------------成果產出
--------------x1(人力)--x2(醫材)---------y1(門診量)--y2(住院量)
A醫院-------- 50----------60----------------40-------------30
B醫院---------75----------95-----------------55-------------65
C醫院--------100--------120----------------150------------130

A醫院效率分數的估算方式:
求解某一組u1, u2, v1, v2的數值,使得 (u1*40+u2*30)/(v1*50+v2*60) 此產出/投入比值極大化;
但受限於以下的條件:
1.A醫院的效率比值不得大於1:(u1*40+u2*30)/(v1*50+v2*60) ≤ 1
2.B醫院的效率比值不得大於1:(u1*55+u2*65)/(v1*75+v2*95) ≤ 1
3.C醫院的效率比值不得大於1:(u1*150+u2*130)/(v1*100+v2*120) ≤ 1
4.u1, u2, v1, v2 ≥ 0
當我們計算出u1, u2, v1, v2的數值時,再帶入 (u1*40+u2*30)/(v1*50+v2*60) 去計算所得到的數值便是醫院A的效率分數。

使用同樣的方法,我們可以去計算B醫院的效率分數:
求解另一組u1, u2, v1, v2,使得 (u1*55+u2*65)/(v1*75+v2*95) 此產出/投入比值極大化;
但受限於以下的條件:
1.A醫院的效率比值不得大於1:(u1*40+u2*30)/(v1*50+v2*60) ≤ 1
2.B醫院的效率比值不得大於1:(u1*55+u2*65)/(v1*75+v2*95) ≤ 1
3.C醫院的效率比值不得大於1:(u1*150+u2*130)/(v1*100+v2*120) ≤ 1
4.u1, u2, v1, v2 ≥ 0
當我們計算出這一組u1, u2, v1, v2的數值時,
B醫院的效率分數= (u1*55+u2*65)/(v1*75+v2*95)

最後,我們也可以去求得第三組u1, u2, v1, v2,並計算C醫院的效率分數,其中至少有一家醫院的效率分數會是1.0000(標竿)。

當然,叫人去執行這些線性規劃的計算程序並不容易,但是對電腦來說就輕而易舉了。Excel中有一個「規劃求解」(solver)的分析功能,就是在進行線性規劃的分析,我們可以將上面的運算式輸入Excel規劃求解的輸入欄位,便可以一一去計算這三家醫院的效率分數。不過對我們來說,這還是太麻煩,因此目前市面上有發展出ㄧ些DEA的軟體,便是「寄生」在Excel上面,成為Excel的增益程式(add-in program),利用Excel規劃求解的演算功能,去做資料分析,計算所有DMU的效率分數,並且計算每一個DMU的努力目標,再將結果統整呈現出來。前面的例子的結果便是利用某種DEA增益程式軟體所得到的。

理論上DEA分析中的投入與產出變數項目數目並沒有限制,不過當投入與產出變數項目越多時,DMU的數量也必須相對增加,分析結果才有效度。DEA的發明者Charns等學者提出一個很簡便的原則幫助我們決定DMU的個數(n):

n ≥ Max{a*b ; 3*(a+b)};a代表投入變數的個數,b代表產出變數的個數

這也就是說,n必須大於a*b與3*(a+b)這兩個數值中較大的數值。所以如果我們有兩種投入變數(a=2)以及兩種產出變數(b=2),3*(2+2)=12大於2+2=4,Max{2*2 ; 3*(2+2)} =12,因此n必須大於12。

DEA的優點與缺點

從上面的醫院實例可以看得出來,DEA對實務管理很有幫助,一來它可以化繁為簡,將眾多成效指標統合分析,並用效率分數呈現出來,讓決策者一目了然,而且DEA更提供了明確的標竿對象與經營或改善努力的目標與方向,這是其它很多計量分析方法所沒有的優點。

前面提過,DEA是屬於一種非參數分析技術,顧名思義,就是我們在進行資料分析以前,不須先假設或構思計量分析的參數模式,而完全由手上所掌握的資料去進行估算。如果我們將DEA與古典迴歸分析(典型的參數分析方法)拿來做比較,便能更清楚比較出這兩者的差別。當研究分析人員使用迴歸分析時,必須先建構參數關係模式(描述變數之間關係的數學公式,比如y=β0+β1x1+β2x2+β3x3,此處β就是參數),再去進行資料分析。我們在進行DEA時,並不須要先提出任何模式,而是由資料的運算來告訴我們結果。古典迴歸分析的結果則會受到我們所使用的關係模式的影響,當我們使用不同的關係模式時,即使是同樣的資料,也會得到不一樣的結果。

此外,由於非參數分析技術不必像參數分析方法要去假設變數的分布狀況,也少了很多相關的分析前提與假設,因此受限程度也比較低。比如一般的迴歸分析多半必須假設應變數的分布是呈常態分布。DEA分析完全不需要這些假設,而是忠實地照我們所給的資料去做分析。

話說如此,其實DEA在分析之前還是須要考慮分析模式(model)的問題,我們必須針對我們所研究或比較的對象、主題、目的等因素,選擇最適合的DEA模式來進行分析。最基本的模式選擇考量,是要使用哪些投入與產出變數,才能適切衡量我們所要比較的對象(如醫院、護理之家、醫療科別、診所等)的效率或品質。每一種健康照護機構或單位的運作/服務方式與目的都不相同,投入的資源與產出的成果也不一樣,只有當我們選擇到正確的投入與產出變數時,我們所衡量到的效率或品質分數才會正確。這與我們在使用迴歸分析時必須考慮使用甚麼應變數與包含哪些自變數的情形相當類似。

此外,我覺得DEA還有ㄧ些缺點或限制,首先,由於DEA所得到的效率分數是相對的數值,不是絕對的數值,因此DEA的結果敏感度可能很高,萬一我們的資料中有一個錯誤的異常的偏離值(outlier),就可能對結果產生很明顯的影響;相較之下,迴歸分析就比較穩定,因為迴歸分析是根據變數的平均值去做計算,若有outliers存在的話,其影響程度也會被減弱一些。此外,當我們用DEA時,倘若比較的對象或範圍改變時,每一家醫院的效率分數可能會很不一樣。迴歸分析基本上是根據隨機抽樣的樣本資料去做分析,只要抽樣沒有嚴重誤差,每一次分析所得到的結果應該會是相當接近才對。而且迴歸分析可以告訴我們估計值正確預測真正參數值的信心程度,DEA就完全沒有這種資訊。還有,DEA無法像迴歸分析一樣納入控制變數,去控制可能的干擾因素,因此DEA無法單獨進行假設檢定,我覺得這是為什麼DEA在學術界不像迴歸分析那麼被普遍運用的主要原因,因為科學研究主要是要透過各種變數關係的假設檢定,去釐清變數間可能的關係。不過DEA可以結合其他的計量分析(如迴歸分析),去做假設檢定。主要的做法是拿DEA所得到效率分數做為應變數,再考慮可能影響效率的因素(自變數),提出分析模式,用迴歸分析去探討。

DEA的主要模式

DEA針對不同的情況已經發展出很多不同的分析模式,最基本的DEA模式的選擇牽涉到兩個面向,第一個是投入取向或產出取向,第二個是考慮固定回報還是變動回報,由這兩種考量會形成四種DEA的基本模式。投入-產出取向的考量主要是在分析中所使用的投入與產出變數中,DMU可以掌控的是投入還是產出因素,下面有一個實例會針對這點做進一步說明。

固定-變動回報是指我們所用的投入與產出變數之間的關係是固定、遞增、還是遞減的關係。如果我們知道當增加一分的資源投入便會帶來一分的成果產出時,這時投入與產出變數之間的關係是固定回報(constant return to scale, CRS)。相反地,如果一分投入產生大於一分的成果,或者一分投入換不到一分的成果,這時的情況稱為變動回報(variable return to scale, VRS),而前者稱為遞增回報(increasing return to scale),後者稱為遞減回報(decreasing return to scale)。

CRS模式在比較所有的DMU時,是假設每一個DMU都存在固定回報的條件;而VRS模式則假設有些DMU是固定回報,有些是遞增回報,有些是遞減回報。因此CRS是用同樣的條件去比較所有的DMUs,而VRS會考量個別DMUs的情況,因此VRS的比較條件比較寬鬆,一般來說,在CRS的DEA分析中,效率分數=1.000的DMU比例比較低,這個比例在採用VRS的分析中會提高。

此外,有些DEA模式可以對變數之間的相對條件設定限制(weight-restricted models);有些模式可以讓我們分析不同時期的資料,以便找出效率的變化。

我自己覺得DEA實在是不錯的方析工具,不僅在研究上面能夠派上用場,在醫院實務管理方面可以運用的地方應該也很多。DEA不僅可以用來作同儕比較,還可以用來探討或追蹤自己機構或部門成效變化或改善的情況。比如我們可以分析比較某家醫院(或某一個部門)過去十年(或過去40季)來的效率或服務品質的變化情況(DMU是各個年度或各個季節)。

只是天下沒有一種十全十美的分析方法,每一種計量分析技術的目的與應用情況都不太一樣,研究人員必須視研究目的與條件去決定要採用哪種方式,或搭配哪些方式,使研究的信度與效度達到最大。同時必須知道所使用的分析方式的限制與缺點,以便在判讀結果時有所注意,做出正確的結論。

[1] 直覺上我們可以將迴歸線理解成最能夠代表這些點的中間線,也就是兩度象限的平均線。

1 則留言:

bells 提到...
作者已經移除這則留言。