2009年6月27日 星期六

淺談美國的DRG給付制度

從今年九月開始,台灣的住院健保給付即將進入DRG時代。雖然DRG只是全民健保局多種給付制度當中的一種,而且也將與其他住院醫療的現行給付制度(如醫院總額支付制度)結合實施,這項新制度勢必對住院醫療服務產生一定程度的衝擊,對醫院與病人都將有不小的影響。

台灣所使用的台灣版DRG(Tw-DRG制度)是以美國的DRG為基礎,再加以本土化而來的。我還沒有機會去了解Tw-DRG的內容,不過倒是可以稍微談談美國DRG的由來、定價方式與影響。


DRG的基本概念—事前訂定的支付制度

「診斷相關群」(Diagnosis Related Groups, DRGs)支付制度是Medicare在1983年開始實施的一種事前訂定的給付制度(prospective payment system, PPS),在當時這是一種相當具有革命性的新支付方式。所謂「事前訂定」,是指費用支付者(此處是指Medicare)對於某類的住院服務,將會依照在實際服務之前就訂好的金額去給付。

在這之前,Medicare是採用事後根據成本的給付方式(retrospective cost-based payment),這種方式基本上Medicare會先依照每項醫療服務的暫付價格,乘以醫院的服務量,定期支付各醫院一筆暫付額。每家醫院在年度結束後,向主辦Medicare的Centers for Medicare and Medicaid Services(CMS)繳交一份詳細的醫院成本報表。CMS會去審核各家醫院所提供的成本報表是否合理,如果通過審核,CMS便會根據各醫院當年度的實際成本,並考慮一定比例的利潤去決定每一家醫院服務的實際價格,若某家醫院最終的服務價格高於其暫付價,CMS會彌補不足的金額給該醫院;如果某家醫院最後價格低於其暫付價,CMS再向醫院追回其多付的金額。另外,在1983年以前,Medicare也會補助或支付醫院大部分硬體費用(capital payment,金額大概略少於醫院的資本投資貸款利息與硬體折舊費),以及支付給教學醫院訓練住院醫師的費用。

DRG實施後,由於DRG的支付價格是事先訂定好的,而與各別醫院的實際經營成本沒有直接相關,因此自從DRG實施後,Medicare的住院給付與醫院實際的營運成本開始分道揚鑣。

DRG的基本概念—論案件計酬

此外,DRG是一種論案件計酬(case payment)的給付方式,和以往論量計酬(fee-for-service)的給付方式有很大的不同。在論量計酬制度中,付費者(病人或健保組織)按照醫院所做的每一項處置或服務,給付費用給醫院。在論案件計酬制度下,付費者基本上是依照整次住院期間為一個定額給付單位,去支付費用給醫院。在Medicare實施DRG之後,醫院在向Medicare進行費用申報時,從以前的針對所有病人所接受的每個診療服務項次逐一的申報,變成以出院案件進行申報。

在DRG制度中,我們可以將每個DRG視為一個個給付對象,Medicare對每個DRG都事前訂定固定的價格,比如DRG1的給付價格是3,000元美金,DRG2是5,000元美金。如果某家醫院六月的出院病人有400位是屬於DRG1,有300位是屬於DRG2,那這家醫院六月可以向CMS申報總共2,700,000元美金(400x3,000 + 300x5,000)。因此,DRG事實上是一種做為給付用途的病人分類系統,Medicare共規劃出將近500種DRGs,將每一位出院病人,依照其病情(主診斷)、身體狀況(次診斷)與年齡、性別等,給予一種最恰當的DRG,藉此決定該病人此次住院的費用。更精確一點來說,Medicare是依照病人出院時所屬的診斷相關群的相對權值(relative weight,RW;醫療耗費較高的DRG的RW較高)乘以該醫院的支付單價,去計算該案件的支付費用,無論醫院的實際照護成本是多少,Medicare就只給付此費用,因此醫院必須設法在此費用內將該案件的病人照護好到出院,否則就要自己吸收超出的成本。如果是因為疾病本身的變異導致該病人的照護費用超過極端的偏異值(outlier),Medicare會再根據一套公式算出額外的費用補貼醫院,只是這個補貼費用經常不足以彌補實際超過的費用。

DRG的源起

經過多年的運用與發展,DRG不僅成為Medicare住院給付的主流,也被其他美國民營的健保組織廣泛採用,現在DRG就等於是事前訂定的住院費用支付制度的代名詞。不過最近我聽我們所長Dr. Stephen Mick提到,DRG的概念最初被提出時,與支付制度一點關係也沒有,更沒有想到後來會被Medicare用來作為住院費用給付的用途。

DRG是由耶魯大學醫務管理研究所的兩位學者John Thompson與Robert Fetter在1968至1973年期間發明的。當初提出DRG的構想,是為了四種任務的需要:(1)管理醫院成本、(2)規劃區域醫療、(3)衡量醫療品質、(4)研究醫院經營模式與臨床服務的關係。首先,在當時並沒有一套適用以病人為單位的成本分析方式,雖然病人是醫院醫療服務量重要的衡量單位,而且每家醫院的病人數是比較容易預測的,理論上醫院管理者可以透過預測病人數量來做預算規劃,可是不同類別病人醫療成本的差異性很大,如果沒由一套妥善的病人成本分類方法的話,以病人為單位的成本分析與規劃是無法達成的。此外,康乃狄克州那時正在進行區域醫療的規劃,希望知道州內的病人為什麼會離開某個醫療區域,前往另一個區域的醫院就醫。州政府的規劃人員需要能夠用來描述這些跨區就醫病人住院形態的資料,特別是他們的出院診斷與住院時接受的醫療處置。於是康乃狄克州委託耶魯的學者拿35間醫院的病人資料進行分析,卻發現醫院的出院診斷和病人所做的醫療處置存在很大的差異,比如同樣出院診斷的病人當中,住院日數很不一樣,有些人很長,有些人很短;而且這些病人所獲得的醫療處置差別也很大。這些研究發現開始引起社會對醫療品質可能參差不一的擔憂,Medicare因此開始採取案件審查(utilization review)的措施,評估醫院的住院服務是否恰當,並且進行跨院與院內申報案件的比較分析。當時並沒有適當方式能夠客觀比較與評估各種案件的醫療品質,因為即使是相同診斷的住院案件,所獲得的治療過程與結果可能都有很大的差異,很難進行橫向比較。最後,那時候學者希望開發出一種電腦系統,讓研究人員瞭解住院服務的使用率與醫院營運(像是人力雇用型態與成本)之間的關係,可是在缺乏一套病人分類系統,以及病人的醫療服務資料分散在各個醫院無法加以彙整的情況下,這個目標也難以達成。

這些任務都共同指向一個需要,就是發展出一套臨床與成本上有意義的病人分類方法,這套分類系統必須能夠將病人區分為在臨床處置與成本上面相似,且符合當今醫療科別概念的類別。在這樣的目標之下,Thompson與Fetter這兩位學者便根據南丁格爾的病人照護分類基本原則,嘗試提出一套能夠將相似的病人進行歸類的系統。他們使用AUTOGRP的電腦程式去分析18家康乃狄克州醫院的病人資料,根據統計分析條件與臨床條件的交互判斷,將病人案件分成許多相似的診斷群組。然後他們再將這些由電腦產生的診斷群組拿給團隊中的醫師判斷是否具有實際的臨床意義。在他們所進行的電腦分析中,考慮到主診斷、病人的年齡、性別、有無併發症,以及手術項目等做為分類的條件,因此也能夠相當有效地區分出成本相近的病人群組。

當耶魯的研究團隊提出其DRG的研究成果與運用之後,紐澤西州(State of New Jersey)首先將DRG運用到醫院住院給付的試行計畫。由於當時美國醫院住院費用快速上漲,各州都在尋找與嘗試新的給付方式,來取代根據成本決定給付的支付制度,以有效控制醫療費用的成長。

很快地,DRG成為大家寄予眾望的控制醫療成本上漲的支付革新制度,於是,Medicare在1983年也參考紐澤西州的DRG制度,正式採用DRG做為住院費用的支付制度。DRG幾乎每年都在更新與改版,CMS每年十月會公布新版本,目前最新的版本是第26版(2008年10月公布)。

1983年Medicare剛開始實施DRG時,主要是針對綜合醫院的急性住院服務,因此住院復健、門診、急診、精神診療、兒童醫院與專科醫院的給付方式仍是採用原來的支付制度。

DRG的定價基準

前面提到,Medicare是依照病人出院時所屬的診斷相關群(DRG)的相對權值乘以該醫院的支付單價,去計算該案件的支付費用,每家醫院的DRGs支付單價是由Medicare每年所修訂的全國醫院標準單價(national hospital standard amount),經過該醫院其所處區域的薪資指標校正、醫學教育因素校正、為弱勢病人診療高比例的因素校正後,加上資本設備支付(另有一套計算公式)所獲得的。因此,每家醫院會因為所處的區域不同,是否為教學醫院,以及是否負擔高比例為弱勢民眾診療的責任,而有不同的支付定額。另外有一些特定服務項目,會考量醫院的相關成本再予加成計算單價。下面用一個例子說明:

2005年Medicare第15類診斷相關群(DRG 15)為腦中風與腦前血管阻塞(Nonspecific Cerebrovascular Accident (CVA) and Precerebral Occlusion without Infarction)。2005年此DRG的相對權重是0.9482(平均住院日數為3.7天);在大都會且薪資指數超過1的地區,勞力相關的醫院標準單價是3,238.07元美金,非勞力相關的醫院標準單價是1,316.18元美金;在大都會但薪資指數低於或等於1的地區,勞力相關的醫院標準單價是3,136.39元美金,非勞力相關的醫院標準單價是1,274.85元美金。非大都會但薪資指數超過1的地區,勞力相關的醫院標準單價是3,086.73元美金,非勞力相關的醫院標準單價是1,254.67元美金;在非大都會且薪資指數低於或等於1的地區,勞力相關的醫院標準單價是2,823.63元美金,非勞力相關的醫院標準單價是1,730.62元美金。由這些數字,我們可以計算某一個地區的醫院的薪資校正標準單價,如果以美國首府華盛頓特區(Washington, D.C.)來看,這是一個大都會型且薪資指數超過1(1.0969)的地區,因此其薪資校正標準單價為3,238.07x1.0969+1,316.18=4,868.02(公式是:勞力相關的醫院標準單價x薪資指數+非勞力相關的醫院標準單價)。

在計算教學醫院的加成比例時,是使用以下的公式:
A * [(1 + Interns & Residents/Beds)^0.405 -1]
其中A會每年調整,以2005年為例,A=1.42,因此如果一家450床的教學醫院共有50位住院醫師與實習醫師,1.42*(1+(50/450)^0.405-1)=6.19%

接下來Medicare會考慮該醫院在弱勢病患診療所負擔的比重,給予給付加成,此即所謂的非比例負擔醫院(disproportional share hospital)。一家醫院的非比例負擔百分比是根據該醫院的總住院日數當中,有多少百分比是提供給領取社會安全補助的Medicare病人與非Medicare的Medicaid病人的住院日數。這個百分比愈高,表示這家醫院承擔愈大比例的照顧低收入病患的責任。

然後CMS會考量醫院所處的地區與床數,去計算醫院在這方面的給付加成。對於一家在華府都會區,床數超過100床的醫院來說,所使用的公式是:
5.62% + 0.65 x (非比例負擔百分比 - 22.2%)
假如這家醫院的非比例負擔百分比為25%,則其在這個部分的給付加成=5.62% + 0.65 x (25% - 22.2%)=7.44%。

最後,我們便可以計算2005年該醫院(位於薪資指數超過1的華府地區、非比例負擔百分比為25%、有50位住院與實習醫師的450床教學醫院) DRG 15所得到的服務給付金額:

薪資校正後醫院標準單價 = -----------$4,868.02
(+) 教學醫院加成 + 6.19% ----------+ ----301.33
(+) 非比例負擔加成 + 7.44% -------+ ----362.18
(=) 每個DRG (相對權重=1)金額 ---=$5,531.53
(x) DRG 15 相對權重 ----------------x ----0.9482
(=) DRG 15的服務給付金額 --------= $5,245.00

除此之外,Medicare還有考慮醫院硬體設備成本的DRG給付加成。簡單來說,計算方式如下(以前述醫院2005年為例):

醫院設備成本標準單價[1] -----------------$416.53
(x) DRG 15相對權重 ---------------------x 0.9482
(x) 地理校正因素[2](GAF) --------------x 1.0654
(x) 大都會地區加成[3] -------------------x 1.03
(=) 校正後醫院設備成本標準單價 -----= $433.41
(+) 非比例負擔加成[4] 14.5% ----------+ 62.84
(+) 教學醫院加成[5] 47.34% -----------+ 205.17
(=) DRG 15的設備成本加成金額 -------= $701.42

最後,我們在再將前面計算的2005年DRG 15服務給付金額與設備成本給付金額加總起來$5,245.00+$701.42=$5,946.42,這便是當年度此家醫院執行每個DRG 15案件所得到的定額。

整體來說,DRG的定價過程是蠻繁複但是相當透明的,每一個步驟根據的理由都被交代到,考慮的因素也頗為周到,每家醫院也都可以很清楚知道自己每個DRG案件的定額是多少。

DRG的影響

DRG實施後對美國健康照護體系的影響相當深遠,其中,醫院當然是首當其衝。DRG實施後,醫院住院日、佔床率與住院件數都明顯下降,每案件的平均成本與給付的成長率也都逐年趨緩,特別是實施的第一年,Medicare的住院總給付費用下降6%。雖然如此,一般而言DRG實施之後美國醫院的盈餘反而都比實施前增加,主要是DRG使醫院有強烈的誘因去管控成本。

醫院在因應DRG方面,採取了幾個主要的策略。首先,是一連串成本管控的措施。以往醫院的成本可以說都由醫療付費者買單,醫院根本沒有管控成本的必要與動機。DRG使醫院的開源(病人服務收入)受到限制,若要維持一定的財務體質,勢必要從節流方面下功夫。最明顯的節流策略,是1990年代的醫院組織再造工程(re-engineering),事實上就是結構扁平化與人力精簡。此外,有不少醫院結盟或加入醫院體系,以期透過聯採或分享管理機能,以降低營運成本。

再來,在DRG之下,醫院的服務組合和成本結構的調整是相當重要的工作。由於有些DRGs的給付定額利潤較高,有些DRGs定額容易導致虧損,醫院除了必須考慮個別DRG的利潤情況外,更要使整體的服務組合達到最大的收益,截長補短而且能夠滿足整體病人住院服務的需要。目前美國較有利潤的醫療服務是骨科、心臟科與腫瘤科,因此這些科別的服務成長很快。此外,每家醫院的成本結構不盡相同,有些DRGs給付定額對某些醫院有利潤,可是對其他醫院並沒有利潤,所以每家醫院必須瞭解自己的成本結構,才能找到適當的服務組合,或者進一步調整自己的成本結構,以便在DRG中有足夠的利潤。

有學者研究指出不少小型醫院受到DRG的衝擊而結束營運,主要理由是小型醫院未達規模經濟,平均成本較高,而且服務項目較少,在服務組合與成本結構的調整上比較不靈活,因而在DRG下無法有效應變及生存。這可能也可以部分解釋為什麼美國醫院在DRG實施後財務盈餘反而普遍較好,因為財務體質較弱的醫院大多已經在這波衝擊中關閉了,剩下來的多是財務能力較佳的醫院。

醫院在對DRG所採用的第三種因應策略,是多角化經營與垂直整合,簡單來說,就是設法在DRG給付之外開拓財源與收入。其中多角化策略是為了降低對Medicare與Medicaid的收入依賴,盡可能去開拓Medicare與Medicaid以外的病人來源,主要是民營健保組織的納保人與病人,因為大部分這些健保組織尚未採用DRG或PPS,仍是採用論量計酬,而且這些健保組織的給付要比Medicare與Medicaid來得高。

在垂直整合方面,DRG實施之前絕大美國醫院只提供急性住院服務,然而1983年之後,許多醫院開始開辦門診、慢性與長期照護服務。這是因為當時門診診療仍是採用按成本給付的論量計酬制度,而且掌握門診便可以控制住院案件的來源,以提升佔床率。此外,許多醫院開辦後急性(post-acute care,如住院復健)與長期照護(如護理之家與居家照護)服務,在DRG制度之下,這是一箭雙鵰的做法,一方面可以增加服務收入,而且這些服務在當時還是具有利潤的論量計酬,另一方面是可以安排住院病人的出院,及早將病人順利轉出急性病床,以降低住院照護的成本。

醫院的垂直整合策略造成Medicare門診與長照服務費用大幅增加,負責政府預算編列的國會與主辦Medicare的CMS當然知道這樣的情況,而且不是省油的燈,在1997年通過預算平衡法案(Balanced Budget Act),提供法源基礎並要求CMS實施門診診療與長期照護的PPS。護理之家的PPS在1998年7月實施,使用的支付制度稱為RUG(Resource Utilization Groups)制度,這可以說是護理之家版的DRG;門診診療服務的PPS於2000年8月實施,名稱是APC (Ambulatory Payment Classifications),此為門診版的DRG;居家照護的PPS則在2000年10月實施,稱為HHRG (Home Health Resource Groups),此為居家照護版的DRG。以APC為例,APC與DRG都是論件計酬(case payment),但它們也有一些不同。APC不是像DRGs依診斷群支付,而是以服務類別(體外震波碎石術、乳房手術、高難度門診診療)去給付。Medicare將門診診療、門診手術及未住院的急診診療分成將近八百多種服務類別,分別予以訂定相對權重。各醫院的給付單價乘以該處置類別的權重即為該處置的支付費用。APC的醫院支付單價也是根據全國的標準值,再經過各區薪資指標、勞力比例等因素校正之後計得。超過outlier的案件亦可酌獲補貼。

目前Medicare的主要給付項目中,除了安寧療護之外,都已經使用PPS做為支付方式,這是DRG對美國健康照護支付制度的連鎖反應。

由於DRG對於在一定期間內同類DRG的再住院案件不額外給付,因此醫院對病人的照護必須達到一定的品質與結果,否則如果出院病人因為感染、病情尚未穩定等因素而再度因為相同的病情入院,醫院就必須吸收後續住院的照護成本。在醫療品質與管控照護成本的雙重要求之下,醫院於是在臨床上針對各類的DRG發展出臨床照護指引(clinical or care guidelines)、臨床路徑(clinical pathways),以求診療程序的標準化,使照護的品質差異降到最低,而且只做必要且有效的處置,同時也監控療程的成本。此外,出院計畫在DRG實施之後也開始受到重視,透過主動對病人出院後的必要照護提供建議或安排,讓病人及早安心出院,也可以避免出院照護不妥所導致的再入院頻率。這些措施也讓我們看到在DRG時代,臨床管理的重要性,而臨床管理要做得好,關鍵在於醫師、護理人員與其他醫技人員必須共同參與,擬定良好可行的臨床管理計畫。此外,運用臨床資訊系統來強化臨床管理與品質監測也顯得很必要,這使得美國許多醫院開始積極從事臨床資訊系統的開發與建置。

DRG也對醫療付費者與醫療提供者的相對關係造成結構性的改變。在根據成本計算的論量計酬時代,醫療提供者(醫院等)在財務上有相對的優勢,只要不要太離譜,醫院為病人做甚麼,醫療付費者(自費病人、Medicare和健保組織) 基本上都會照付;這時醫療服務的訂價者是醫療提供者,醫療財務風險由付費者承擔。但是在DRG時代,醫療付費者掌控醫療服務的訂價權,風險轉由醫療提供者承擔。

DRG對病人影響的正負面評價都有,正面評價主要是認為DRG有助於使病人的照護品質獲得確保,以及如果醫療費用能夠得到控制,消費者或病人便可以減少醫療的支出。負面的評價主要來自對住院日大幅縮短以及醫院嚴格管控成本(比如縮減護理人力)的疑慮,這些都有可能對照護品質產生負面效果。此外,病人在過早出院的情況下,病人或病家必須承擔更沉重的照護責任與心理負擔。

美國醫界當初對DRG的實施充滿疑慮與恐慌,但是經過二十多年,DRG或PPS已經成為健康照護支付的常規。DRG甚至產生跨國影響力,被許多國家的健保體系所採用。DRG被公認為是Medicare從1965年實施以來,最重要且最創新的支付制度改革。有些學者甚至認為DRG是第二次世界大戰之後,美國健康照護制度最重要的創新。不過,由於DRG非常複雜,而且在支付制度上面,是屬於一種細部調控(micro-management),而非宏觀管理的方式,也就是對個別醫療服務類別進行定價,以便影響醫療服務的成本、品質、數量與行為。有學者仍然質疑DRG是否能夠真正有效促進醫療品質與管控成本,如果從美國醫療成本仍然以將近兩位數比率在成長的情況來看,這些學者的質疑不是沒有道理的。

對台灣醫界可能的啟示

台灣實施Tw-DRG與美國的DRG不一樣,而且台灣的健保與醫療體制與美國的情況也相差很大,我們很難去預測DRG對台灣醫界的影響會到什麼程度。不過若參考美國的情境,我覺得DRG會啟動台灣醫院另一波的成本管控潮,只是台灣醫院還有多少成本管控空間?如果已經很有限,這波成本管控很可能會壓縮到醫療品質,或至少病人必須忍受或做好適應醫療服務模式大幅改變的心理準備。可以預期的是未來病人住院日數會明顯減少,後急性照護(post-acute care)與長期照護的需求會大幅上升。

不同醫院受到DRG的衝擊程度可能不一樣,小型醫院的危機可能比大型醫院來得大,因為小醫院承擔財務風險的能力比較低。此外,由於台灣的DRG是架在醫院總額制度之上,因此短期內醫院整體的總額並不會受到DRG影響,也就是所有醫院收入的大餅還是維持不變,但是醫院之間的資源分配應該會有所消長。有能力在保持照護品質(或是真正品質不被監測到)前提下有效管控照護成本的醫院比較有機會在DRG時代勝出。

在台灣實施DRG的一個好處是降低過去論量計酬與總額時代醫院為了衝服務量所造成的醫療資源浮濫使用的現象,因此DRG對正派經營與妥善運用醫療資源的醫院應是一項利多。不過DRG會產生另一個誘因,使得一些醫院設法在疾病分類上面動手腳,做出不實的分類與申報。美國DRG實施後也產生了很多up-coding(在診斷中摻入一些不實的資料,以將病人歸入給付定額較高的DRG案件)的弊端,後來政府祭出嚴格的罰則,才使這個問題稍為獲得緩解。全民健保局應該也要未雨綢模,找出有效的方法來避免類似的情形。健保局在每個DRG的訂價方面,也有必要做到透明化。

不過,前面說過,支付方式只是DRG的一種應用方式,DRG對醫院或政府來說,還可以用來做醫院的預算管理、個別醫院的規劃、區域醫療規劃、以及品質監測與改善。如果醫院能夠妥善運用DRG的功能,所產生的契機也許會比危機來得大。

[1] 此單價會依照每年的情況調整
[2] 計算公式=(該地區的薪資指數)^.6848
[3] 若該醫院位於大都會地區,則一律加成3%
[4] 若該醫院符合某些營運條件,則加成14.5%
[5] 計算公式= (住院醫師人數 + 實習醫師人數)/校正後平均日住院人數 x e^0.2822 -1

2009年6月25日 星期四

維吉尼亞州議會廣場(Virginia Capitol Square)

Richmond是Virginia的首都,也就是州政府(州議會、州長、州最高法院)的所在地。我在Richmond的第一年是住在VCU醫學校區的宿舍,就在Richmond的市中心,過兩條街就可以走到州議會的廣場(Capitol Square),因此這裡便成為我住宿時主要的散步路線。

Virginia Capitol Square是一個中型的公園,被包圍在熱鬧的市區裡,周圍都是辦公大樓。公園廣場的西邊樹木扶疏,綠草如蔭,樹蔭下有一個斜坡,兩旁各有一整排座椅,這裡是附近上班族、在州政府服務的公務人員忙裡偷閒、出來透透氣,或中午帶個三明治或漢堡來野餐的絕佳場所。斜坡的底端是一個噴水池,旁邊種滿顏色鮮豔的玫瑰花與百合花,常常迎風吹來陣陣花香。斜坡的頂端是一個紀念碑圓環,中間是美國國父華盛頓的騎馬雕像,四周分別環繞著殖民時代與獨立戰爭的常勝將軍安德魯路易斯(Andrew Lewis)—象徵殖民時代的奮鬥;力主不惜與英國一戰,以爭取獨立自由的熱血政治家派屈克亨利(Patrick Henry)—象徵革命的熱情; 美國開國元老以及權立法案之父喬治梅森(George Mason)—代表權利法案的立國精神;美國第三任總統傑佛遜(Thomas Jefferson)—代表追求獨立的決心;在獨立戰爭期間出錢出力的商人與議員湯姆士尼爾森(Thomas Nelson)—象徵財務的重要性;以及美國憲法起草人與司法院長約翰馬歇爾(John Marshall)—代表司法正義。這七位仕紳都出身於維吉尼亞州,對美國開國有非凡貢獻。

不過Capitol Square中除了這些著名政治人物的雕像之外,也有一個著名作家與詩人的雕像,這位作家是愛倫坡(Edgar Allan Poe,1809 –1849),他在美國文壇有相當重要的地位,除了寫詩、文學評論以及散文之外,愛倫坡也寫小說,他擅長寫懸疑性的作品,被認為是偵探小說的先驅。雖然他的出生與死亡都不是在維吉尼亞,但是他從小被一對住在Richmond的商人John and Frances Allan收養,因此其實Richmond是他成長的地方,後來他也到維吉尼亞大學求學。今年剛好是愛倫坡誕辰200周年,Richmond與Virginia有許多相關的紀念活動。

Capitol Square的東邊是州長公館(Executive Mansion)與州政府行政部門辦公大樓。這棟州長公館於1813年落成,是目前全美國最古老且從一開始就做為州長公館至今的同類建築物。這棟公館與美國兩位總統有直接的關係,第五任總統James Monroe在1811年擔任維吉尼亞州州長時批准這棟州長公館的興建。美國第十任總統John Tyler在擔任維吉尼亞州第22任州長時就住在這棟公館裡面。這棟公館也曾經有多位美國總統造訪過。此外,英國女王伊麗莎白二世在2007年來Virginia參加維吉尼亞400周年活動時,成為公館的貴賓。還有英國前首相亞瑟·貝爾福(Arthur Balfour)與邱吉爾(Winston Churchill) 也都曾來此作客。

Virginia Capitol Square裡面的地標、也是最醒目的建築物,當然是州議會大廈,就坐落在整個公園廣場的正中心。其實這棟建築物並不算很大,美國很多其他州的議會大廈看起來都比它宏偉,但是這棟建築物有許多歷史與建築上的特殊意義。在歷史方面,這棟議會大廈於1785年開始興建,1788年落成,至今已超過220年,是美國目前仍做為議會用途最古老的州議會大廈之一,僅次於馬利蘭州(State of Maryland)的國會大廈。不過,如果以建築物的主人來看,維吉尼亞州的議會是北美洲(可能也是西半球)最早由人民直接選出的議員代表所形成的立法機構(1619年在Jamestown成立),使得這棟建築物肩負著更突出的歷史意涵。在建築方面,維吉尼亞州議會大廈有幾個特色。首先,它的造型與外觀是由美國開國元老之一、維吉尼亞第二任州長,也是美國第三任總統傑佛遜所設計,當初構想是來自古羅馬神殿的建築風格[1],正面由哥林多圓柱排列環繞。目前美國州議會大廈採用古代建築風格的只有兩個州,除維吉尼亞州之外就是佛蒙特州(State of Vermont)。此外,絕大多數美國的州議會大廈都有很明顯的圓頂,只有少數幾州的州議會大廈從外面看不到圓頂,維吉尼亞州議會大廈是其中之一。其實它有圓頂,但是從外表看不出來,是被藏在中間。

我覺得這棟議會大廈外觀雖然不算宏偉,卻很耐看,而且愈看愈好看。特別是它是蓋在一個小山丘的頂端,從下往上看,很能感受到這棟建築的崇高理念。從此山坡緩緩往下走,就會到詹姆士河(James River),在附近高樓尚未建起來之前,從議會大廈可以遠眺詹姆士河的風光。

雖然在Richmond的第一年我幾乎每禮拜都會到Capitol Square散步二到三次,可是我從來沒有進入到議會大廈裡面。有朋友告訴我這棟Capitol開放給遊客參觀,並且有很精彩的導覽;可能是因為這個公園已經成為我生活的一部分,對我不再有神祕感或好奇,我始終沒有很強的動機進去Capitol一探究竟。直到上禮拜五我才與家人第一次走進議會大廈的入口。

很有趣的是現在這棟建築物的入口是在其斜坡草坪下方距離建築物約100公尺處的洞穴。這是因為這棟建築物空間已經無法滿足目前議會運作的需要,因此在幾年前進行擴建,方法是保留地面上的主體建築與外觀,而往地底下擴展,擴建工程在2007年完成,從此之後入口就設在這裡,感覺像是進入一個神祕基地一樣。

一進到入口,馬上有親切的接待人員跟我們打招呼,問我們來訪的目的。知道我們是要來參加Capitol導覽活動之後,接待人員請我先通過安全檢查站,然後在展覽區觀賞展覽並稍候,很快就會有導覽員[2]帶領我們進入參觀。

在入口接待處的牆面上刻著傑佛遜的一句話”Whenever the people are well informed, they can be trusted with their own government.”,大意是:當人民得到充足的資訊,清楚知道政府在做些甚麼時,就愈能夠信任他們的政府。我覺得這句話相當能夠代表Virginia Capitol在開放給大眾親近並且熱誠接待州民與訪客的出發點,就是要讓人民知道他們的政府在做甚麼。此外,對於天天在此進進出出的州議員與行政官員來說,這句話也在提醒他們,政府必須對人民坦誠、施政要透明,才能取信於民,獲得人民的支持。

我們導覽員是一位親切、隨和、熱誠的女性,對Capitol與維吉尼亞的歷史如數家珍,她對Capitol中每件文物或擺設品幾乎都可以講出一段有趣的歷史淵源,而這個導覽其實就是從Capitol去帶出與介紹維吉尼亞的歷史。

1607年一群由英格蘭探險家、勞工、技工、與船員共143人所組成的隊伍,搭乘三艘小船,在海上經過4個月,橫跨大西洋,來到現在維吉尼亞州的海岸河口處落腳,他們雖然不是第一批抵達北美洲新大陸的英格蘭人,卻是首批在北美州開拓成功的英格蘭移民。當時英格蘭國王是詹姆士一世(King James I),因此他們就稱此移民村為Jamestown,並建立起殖民地,成為大英帝國在海外設立的第一個長期性的殖民地。Jamestown也是維吉尼亞殖民區的政府所在地。1776年美國獨立戰爭成功後,維吉尼亞設州[3],Jamestown成為維吉尼亞第一個首都。Jamestown位於一條大河的河口,這些英格蘭移民也同樣以英格蘭國王的名字加以命名為James River。這條河發源於維吉尼亞與西維吉尼亞州交界的Allegheny Mountains,流經Richmond,最後在Chesapeake Bay注入大西洋,是維吉尼亞州內最大的河流。

維吉尼亞(Virginia)名字的由來可以追溯到更早的年代。1584年兩位英格蘭人Philip Amadas和Arthur Barlowe接受探險家Walter Ralegh的差遣,帶探險隊跨洋來到北美洲,在今天的Virginia海岸外的沙洲群島(Outer Banks)上岸,並做短暫停留,與附近的印第安人建立關係,因此有兩位印第安人隨著他們返回英格蘭。為了這次成功的探險旅程,Walter Ralegh將探險隊所抵達的地方取名為Virginia,以獻給當時的童貞女王(Virgin Queen)—英格蘭女王伊莉莎白一世[4](Queen Elizabeth I of England)。

在議會大廈內,有一份美國獨立宣言的的複本,這是美國獨立後,聯邦政府為感謝維吉尼亞州對建國的貢獻,所送出的少數幾幅描繪複本之一。事實上美國獨立宣言有一部分重要內容來自維吉尼亞人權宣言(Virginia Declaration of Rights),維吉尼亞人權宣言是在1776年由George Mason起草,並在當年六月維吉尼亞州代表大會(Virginia Convention of Delegates)通過,這個法案影響到後來的美國獨立宣言、美國人權法案、以集法國大革命時的人類與市民權利宣言等重要文件的內容。

在議會大廈二樓的中央圓頂正下方,陳列了一座華盛頓的全身雕像,這是傑佛遜[5]1785年請法國一位雕刻家Jean-Antoine Houdon,來到維吉尼亞華盛頓的家中,按照華盛頓本人的尺寸量身製作,臉部更是用石膏模所覆印出來,因此這件作品是瞭解華盛頓真實長相與身材最準確的資料。1796起,這座雕像就陳列於議會大廈。

導覽員告訴我們,在所有的畫像以及這座雕像中,華盛頓始終是閉著嘴巴,給人很嚴肅謹慎的感覺。她說其實華盛頓有「難言之隱」,因為他是無「齒」之徒,他的牙齒因為牙周病都掉光了,於是他在公開場合都刻意將嘴巴閉起來。也因為如此,他每天都要親自為他的五匹愛馬一一刷洗牙齒,以免牠們也重蹈覆轍,經歷無法開口的痛苦。

在華盛頓雕像四周的牆壁中,陳列了華盛頓以外的七位維吉尼亞出身的美國總統半身雕像,包括:Thomas Jefferson, James Madison, James Monroe, William Henry Harrison, John Tyler, Zachary Taylor,與Woodrow Wilson。所以這個空間被稱為總統廳。

美國內戰期間,維吉尼亞州加入南方州所形成的美利堅邦聯(the Confederate States of America,對抗以北方州為主的聯邦政府(Union)。當時的名將李將軍(General Robert Lee)被雙方陣營寄予重望,其動向備受矚目。李將軍是維吉尼亞人,西點軍校畢業後一直是聯邦軍隊倚重的軍官,參與多起戰役。在美國內戰即將開打之際,林肯總統還任命李將軍為聯邦軍隊統帥,可是李將軍經過一番內心掙扎,決定加入南方Confederacy的軍隊,因為他覺得自己無法率領北方軍隊攻打自己的家鄉與親朋好友,他必須效忠自己出身的地方,才能心安。當他做出這樣的決定後,就是在維吉尼亞這棟議會大廈中的舊眾議員會議廳(Old House Chamber),向南方政府報告。李將軍因此深受美國南方人民的敬仰,現在這個會議廳中陳列了他的雕像。
我們也看到了此棟議會大廈最原始的照比例縮小的石膏模型,製作於1786年。雖然在當時製作這樣的建築模型相當昂貴,但是傑佛遜主張為了讓建築工人能蓋出完美的建築物,有一個模型做為參考是絕對必要的。導覽員說當初議會大廈的外觀不是今天看到的白色,兩百多年來這棟建築物已經經過好幾次整修,外牆重新粉刷過十六次,才變成白色。每次重新粉刷時,這個模型也必須用同樣顏色的油漆粉刷一次,以確保模型與大廈外觀的實際顏色是一樣的。

維吉尼亞州的正式英文名稱是the Commonwealth of Virginia,而非一般常見的the State of Virginia。美國只有四個州使用Commonwealth、而不用State做為州名,除維吉尼亞州之外,還包括麻薩諸塞州(Massachusetts)、賓夕法尼亞州(Pennsylvania)、與肯塔基州(Kentucky)。VCU的名稱中也有Commonwealth這個字,全名是Virginia Commonwealth University,我一直在想這個校名要怎樣翻譯最恰當,最直接且簡單的翻譯可能是「維吉尼亞州立大學」,因為Commonwealth與State有相同的意義。只是我一直覺得Commonwealth應該有更廣或更深的涵義才對。Commonwealth有些時候可以代表由國家所組成的跨政府組織或邦聯,例如大英國協(British Commonwealth of Nations);有時候用來指一個國家,例如澳洲的英文全名是(the Commonwealth of Australia);有時候這個字又代表隸屬某個國家的自治區,像美國屬地之一的波多黎各,其正式名稱是(the Commonwealth of Puerto Rico);Commonwealth有時候用來指州;有時候則可以代表一群由追求共同目標與福利的人所組的團體,或許可以用「生命共同體」形容;它也可以用來代表一個國家、州或政治體中的所有人民,或由人民所授權的國家(共和國或民主國家)。在參觀維吉尼亞州議會大廈時,導覽員幫我解開了這個存在心中好一段時間的疑問,她告訴我們當時決定使用Commonwealth的緣由。1776年維吉尼亞州脫離殖民地成為一個獨立的州,當時的州議員決心擺脫過去被大英帝國當作次等公民的處境,爭取並建立Virginia成為一個與其他盟邦平等、尊嚴地位的州,當時英語最能夠代表這層含意的字就是Commonwealth。此外,the Commonwealth of Virginia的主要用意,也是希望這個州是一個為維吉尼亞人民的共同利益與福祉而存在與努力的政治共同體。
我覺得維吉尼亞州議會大廈就像是一部活歷史,它是一棟仍然肩負其原來任務的博物館[6]。要同時兼顧各個時代的實際需要並且保存其歷史與傳統價值,並不是一件容易的事,維吉尼亞州政府與州民的理想與努力因此更令人敬佩。此外,這棟政府建築物與周遭環境是我見過最具親和力的「權利空間」,它隨時保持對外的開放與歡迎,與民眾與遊客分享它的理念、歷史、與優雅,也帶給人許多寶貴的啟示。

[1][1] 傑佛遜是根據法國南部Nîmes 的方形神殿(Maison Carrée) 的造型來繪製維吉尼亞州議會大廈的外觀。
[2][2] Capitol導覽每天都有,基本上每小時整點會有一團出發,行程約1小時。開放時間是禮拜一到禮拜六是從早上9:00到下午5:00;禮拜天是下午1:00到4:00。若不參加導覽,也可以自由參觀。
[3] 維吉尼亞州在1788年簽署美國憲法,正式加入聯邦成為美國的一州。
[4] 伊莉莎白一世女王沒有結婚,因此被稱為童貞女王(Virgin Queen)。
[5] 傑佛遜當時擔任美國駐法國大使。
[6] 可以參考http://www.virginiacapitol.gov/, http://en.wikipedia.org/wiki/Virginia_State_Capitol,或下載這份簡介資料http://hodcap.state.va.us/publications/08_visitors_guide.pdf

2009年6月20日 星期六

如何評估民意調查的品質?

上學期選修調查研究方法這門課,最大的收穫是瞭解到一份調查中可能有哪些會導致結果偏差的問題存在,而影響到調查的品質。瞭解這些問題不僅有助於自己在執行一份調查研究時能夠盡量加以避免,更有助於評估調查研究的品質或可信度。

我覺得調查研究的頻繁與否應該也是衡量一個國家自由民主、社會發展的指標。越先進、開放的國家越可以看到各種民調活動與結果;政府與學界則相當依賴民意調查來了解國內的民意或社經發展的動態。在臺灣,報章媒體經常報導各種針對某個社會或政治議題所做的民調結果,提供民眾了解社會的重要管道。民調事實上已經與我們的生活息息相關。

不過,每一份民調的品質可能參差不齊,我們不應該照單全收。我覺得「盡信書,不如無書」這句話如果改成「盡信民調,不如無民調」也很貼切。做為一個民調結果的閱聽者,我們必須保持某種程度的警覺與批判性。如果媒體記者在報導每一份民調結果之前,以及每位民眾在閱讀某個民調的結果時,都採取質疑的態度去看待,要求執行機構將民調的內容與過程交代清楚,讓我們能夠判斷該份民調的品質,這樣應該可以刺激或督促這些民調機構做出更謹慎的調查,使民眾較準確地得知社會的動態。

從這樣的角度來看,讓一般民眾具備辨別民調品質的基本能力便顯得相當重要。不過大部分的人並沒有機會接觸這方面的知識,但基本上我覺得這些概念並不難懂,這篇文章是我應用上學期修課的心得,所做的一點嘗試。

學者將調查研究的誤差來源歸納為四大類:(1)覆蓋誤差(coverage error)、(2)抽樣誤差(sampling error)、(3)未回覆誤差(non-response error)、(4)測量誤差(measurement error)。我認為我們可以用這四類的調查誤差做為我們去判斷一份民調品質的架構,以下就每一類的可能誤差,提出相關的問題,並加以說明:

造成覆蓋誤差的問題

調查的母群體是哪些對象?範圍是否很明確?

對於任何一份民調,我們最先要了解它的研究對象是誰?或是這個調查的結果可以代表哪些對象或範圍?每份民調一定有其所設定的研究對象範圍,這也就是調查研究中所說的母群體(population),民調機構在對外公布一份調查結果時,有必要很清楚地交代其調查的母群體。比如一份政府施政滿意度的民意調查,如果沒有說明白其母群體的範圍,我們便沒有辦法知道這份調查的結果到底是代表或反應哪些人的意見。母群體是否界定清楚對後續調查進行有絕對的影響,當民調機構越能夠明確講出該調查的母群體範圍時,通常其調查執行過程也會更準確。如果連母群體都講不清楚,後面所進行的取樣也會跟著很模糊;樣本若失去代表性,所得到結果的可信度也就大打折扣了。

民調機構有沒有一份可以與母群體中所有對象聯絡的正確名單與資料?

當一份民調有很明確的母群體時,無論接下來是要採普查或是抽樣調查,都要知道如何與這些對象接觸/聯繫,以便寄問卷給他們或者跟他們進行訪談。調查術語稱此名單或資料為「取樣清冊[1]」(sampling frame)。民調機構所掌握或採用的取樣清冊內容才是民調真正的母群體,如果調查機構所使用的取樣清冊無法涵蓋其所界定的母群體,其中未涵蓋到的部分便會造成覆蓋誤差。

比如許多民意調查所設定的母群體是國內20歲以上的民眾,可是我們如果仔細去探究,事實上並不是如此。原因是絕大多數的民調都是採用家用電話隨機撥號去取樣,而家用電話隨機取樣的取樣清冊其實是由中華電信的所有家用電話用戶所構成的,並不是個別的民眾;而且有不少20歲以上的民眾未被涵蓋在這個清冊裡面,像是住在營區的軍人、住校的學生、住在護理之家或療養院的民眾等等。因此,這些民調真正的母群體其實是中華電信的所有家用電話用戶,而不是國內20歲以上的民眾,如果這些民調結果要去代表20歲以上民眾的意見,便會產生覆蓋誤差。此外,若以家戶為單位的取樣清冊去調查個別民眾,嚴格來說在分析時必須用適當的權重(weight)去校正[2],否則有可能得到偏差的估計。

民調的方法是甚麼?可能會遺漏哪些對象?

前面的例子讓我們看到,覆蓋誤差直接與調查所使用的方法有關。不同的調查方式會有不同的覆蓋誤差。目前調查研究較常見的方式有:(1)電話訪問、(2)郵寄問卷、(3)家戶訪調、(4)網路調查。電話訪問是最方便迅速,成本也較低的調查方式,且有覆蓋率相當高的取樣清冊,很方便進行隨機抽樣,因此廣受運用。不過除了上述的問題之外,隨著行動電話的普及,有越來越多的民眾不再使用家用電話,這些家戶或民眾就會成為電話訪問的漏網之魚。美國已經有一些研究去探討採用傳統家用電話進行取樣與訪問所造成的誤差程度。我不清楚台灣是否有學者做過類似的探討。目前手機取樣與調查還有一些問題,像是沒有一套完整的全國性取樣清冊(手機用戶的資料是散在各個電信業者)、很多人同時持有兩門甚至更多手機門號、手機計費較昂貴,拒絕受訪的比例較高、手機的接聽場合與習慣也會導致較高的拒絕受訪率,這些都是手機調查所要考慮的問題。

郵寄問卷主要是透過郵局所掌握的家戶地址做為取樣清冊,美國郵局有發展出一套可以設定區域範圍的家戶地址隨機取樣系統,做為郵寄問卷或家戶訪調的取樣方法。這套取樣清冊仍然有其覆蓋率的問題,比如有些集合式住宅大樓是多個家戶共用一個門牌號碼,或是住在照護機構、學校宿舍與軍營中的個人與家戶也是沒有單獨的地址,這些家戶與個人就無法被涵蓋到。此外公司機構與住家的地址經常是混在一起,不容易區分。

拜網路的普及,網路調查有越來越普遍的趨勢。不過一般來說,即便是參與人數眾多,利用網路去進行一般民調時,覆蓋率仍有很大的問題,我們必須特別注意。最主要的原因是網路的普及率與100%仍有一大段距離,就算是100%,並不是每一個人都會使用電腦或上網,這些沒有網路或不使用電腦的人便無法被網路調查所覆蓋到。

目前較常見的網路調查有兩大類,第一類是一些大型入口網站(如Yahoo, MSN等)針對某種議題所進行的攔截調查(intercept survey),比如有時候我們進入或在瀏覽某個網站時,會跳出一個邀請我們參與網路調查的頁面,這就是攔截調查。第二類網路調查是有一些調查網站或機構會透過網路去邀請並收集一群願意接受網路調查的民眾名單,做為該機構或網站實施各種調查的受訪對象,調查術語稱此為Opt-in panels。有些機構所建置的名單數量相當龐大(好幾萬,甚至好幾十萬人),然後這些機構再根據調查主題的性質以及其名單中參與者的基本資料,隨機篩選出樣本,再寄發網路問卷給被篩選到的受訪者。這兩種方式基本上都不是機率取樣(probability sampling),而是屬於方便取樣(convenience sampling)。他們所使用的取樣清冊只包含那些有意願或興趣參與網調的網友,而不是一般民眾。雖然有些使用這些網調方法的機構或網站,強調其所使用的取樣清冊名單或樣本在重要的人口特徵(如性別、年齡、職業、教育程度等等)與整體人口的情況很相似,但是這些有意願或興趣參與網調的網友很有可能在一些動機或想法上有別於一般民眾,所以還是無法確定所得到的調查結果有多大的代表性。

但這不是說所有的網路調查都沒有代表性,使用網路可以針對特定的對象進行具有相當代表性的調查,比如某家公司或機構若要進行員工滿意度調查,而其每位員工都有電子郵件信箱,也都可以在機構內使用電腦與網路的話,那透過網路去進行調查是很恰當的方式。此外,如果某個網站想要對其使用者進行意見調查,用攔截調查也是一個好方法。在這兩個例子中,都有很清楚的調查母群體與取樣清冊,大大降低覆蓋率不足以及後續取樣的代表性偏差所衍生的問題。

我認為覆蓋率是調查最關鍵的要求,如果所使用的取樣清冊與母群體之間有嚴重的落差,不管後面的取樣方法有多正確、樣本數有多大、問卷內容設計的多好、統計分析的方法有多嚴謹,基本上所得到的結果都可能是有偏差的[3],更嚴重的是我們無法知道偏差的程度有多大。因此在評估一份調查的品質時,我們一定要去質疑或確定這份調查是否有覆蓋率的問題。

造成抽樣誤差的問題

民調的樣本是透過甚麼方式選擇的?是機率取樣,還是非機率取樣?

當一份民調有很明確的母群體以及覆蓋率很高的取樣清冊時,我們接下來要關心的是取樣的過程與方法是否恰當。掌握一份完整的取樣清冊的好處是可以讓研究人員很容易進行機率取樣,而根據不同的機率取樣方法,研究人員便可以估算調查的抽樣誤差。調查的抽樣誤差是所有抽樣調查都一定會發生的誤差,不過透過機率抽樣方法的運用,研究人員可以將抽樣誤差控制在可以估算且可以接受的範圍。主要的幾種機率取樣方式包括:(1)簡單隨機抽樣(simple random sampling, SRS)、(2)系統抽樣(systematic sampling)、(3)分層抽樣(stratified sampling)、(4)群集抽樣(cluster sampling)[4]。比較複雜的調查可能會混合運用這些抽樣方法。

有時候研究人員可能因為沒有適當的取樣清冊,或者因為某種原因而捨取樣清冊不用,改用非機率取樣去選取樣本。常見的非機率取樣方法有:(1)便利抽樣(convenience sampling)、(2)立意抽樣(purposive sampling)、(3)配額抽樣(quota sampling)。在這些情況下,不管樣本數有多大,我們都無法去估算調查的抽樣誤差,也就是說我們無從去判斷這份調查結果準確的程度有多大,因此所獲得的結果只能參考參考,千萬不要太信以為真。

樣本數是多少?

在機率取樣的情況下,樣本數是決定民調抽樣誤差的主要因素。樣本數愈大,抽樣誤差愈小,民調結果也就愈能夠準確反應真實的情況。更精確來說,一份民調所需要的樣本數大小決定於幾個因素:(1)母群體的大小、(2)信心水準、(3)抽樣誤差的範圍、(4)民調的現象出現比例。母群體是某次民調要研究的所有對象,也是這份調查的結果可以代表的那一大群個體。一般來說,當母群體愈大,所需要的樣本數也愈大。可是很有趣的是,當母群體大超過某一個程度之後,在其他要求條件不變的情況下,所需要的樣本數幾乎不須要額外增加,這是抽樣民調的最主要優點—讓我們透過有限的樣本去了解廣大民眾的意見。信心水準與抽樣誤差範圍都是衡量民調品質的主要指標。由於透過抽樣的管道去探討某種現象,我們只能用所得到的樣本去估算該現象可能的發生比例,不太可能獲得真正的答案,不過統計學可以提供我一個在某種信心水準(通常都設定在95%)的估算區間,這表示如果我們能夠重覆取樣100次的話,應該會有95次的估算值會落在這個估算區間(通常以估算值加減多少百分比來表示)之內。當我們要求的信心水準愈高,或所容許的估算區間就愈小,所需的樣本數就越大。最後,民調的現象出現比例就是我們進行調查最想了解的,比如對執政者施政滿意度,通常是有多少比例的民眾對政府的施政表示滿意。事實上研究者並不知道這個比例值(假設是p)是多少,還好我們可以設定某些特定的狀況,去估算樣本數。因為會影響樣本數的是p與(1-p)的積,即p(1-p),而當p=0.5時,p(1-p)會最大,因此一般都採取較保守的方式,寧願高估,不要低估樣本數的原則,假設p=0.5,去估算樣本數。藉此所估算的樣本數,可以確保抽樣誤差不會超過我們的估算區間。

以在國內進行的一般民調為例,假設母群體是國內20歲以上的民眾,2008年底台灣20歲以上人口總計超過1750萬人,若以1800萬人算,信心水準訂在95%,抽樣誤差範圍定在±3個百分點,所需要最多的樣本數是1068。

調查結果的抽樣誤差範圍有多大?

每一份民調應該至少要交代清楚該民調的抽樣誤差。最近世新大學民調中心指導公共關係系學生進行的「台灣樂活大調查」,就有下面的描述:「這項調查根據全國各縣市15歲以上民眾進行分層比例抽樣,5月19至21日進行電話訪問,成功訪問1189 份有效樣本,在95%的信心水準下,抽樣誤差不超過正負2.84個百分點。」該調查所得到的一個結果是:民眾認為最重要的樂活行為是每天固定運動,佔59.2%。59.2% x 2.84%=1.68%,也就是說,這份調查在該項目上面的估算區間是[57.52, 60.88](59.2%±1.68%)。

不過我們不要忘了,一份民調的誤差不只是抽樣誤差而已,其他的誤差也同樣重要,而且可能更不容易客觀去估算。以下接著討論未回覆誤差(non-response errors)的問題。

造成未回覆誤差的問題

未回覆率是多少?

假如我們有一份涵蓋母群體中的取樣清冊,並從中抽出具有能夠代表母群體的樣本,對樣本中的個體進行調查。可是在實際的狀況中,很少能夠達到100%回覆率,經常是樣本中的一部分對象願意接受調查或回填問卷,另一部分的對象不願回覆,因此我們所收到的實際民調回覆數並不齊全,與樣本數有落差。這種情況一方面會減少樣本數,產生較大的抽樣誤差,另一方面如果未回覆的對象與樣本中其他對象在民調議題上有很不一樣的意見時,便會導致未回覆誤差。

對單純的民調來說,回覆率當然愈高愈好,這樣的結果愈能夠代表母群體整體的情況。但是對選舉民調來說,情況不一定是這樣,因為如果未回覆人傾向不去投票,為了降低未回覆率,刻意請這些人表達投票意向,反而有可能扭曲所預測的選舉結果。

就我所知,台灣的民調在公布時,有些會交代未回覆率,有些則沒有交代。比較嚴謹的民調應該是要交代未回覆率。舉TVBS最近公布的國內民眾對今年下半年展望的民調為例,就有比較詳細的說明:「本次民調是TVBS民意調查中心於6月2日及3日晚間18:30-22:00進行的調查,共接觸1,335位20歲以上台灣地區民眾,其中拒訪為275位,拒訪率20.6%,最後成功訪問有效樣本1,060位,在95%的信心水準下,抽樣誤差為±3百分點。抽樣方法採用電話號碼後四碼隨機抽樣,人員電話訪問,所有資料並依母體性別、年齡、地區、教育程度、政黨結構進行統計加權處理。調查經費來源為TVBS。[5]

未回覆的可能是哪些對象?

在知道未回覆率之後,我們便要進一步去探究,未回覆的可能是哪些人?或者去了解是哪一類的人。如果該份民調有收集一些受訪者的基本資料(如年齡、性別、教育程度、居住地區,政黨支持傾向等),研究人員可以從比較最終樣本的組成與母群體組成之間的差異,去描述拒訪者的特質(假設原先的取樣很能夠反應母群體的整體條件),這有助於研究人員在分析時進行未回覆率的校正。我認為一份負責任的民調應該要交代拒訪率或未回覆率,同時呈現最終樣本的組成分析,如果可以的話,並說明最終樣本與母群體之間有何顯著的差異。

調查的議題是甚麼?

如果民調公布時並未提供這些訊息,我們也可以根據該民調的性質或主題試著去思考有哪些對象比較可能拒訪或未回覆。以前面提到的世新大學學生所做的「台灣樂活大調查」為例,這個民調的議題與用詞有比較濃厚的年輕人與都會型色彩,若再加上如果學生的電話訪問是採用國語[6],那可能對居住在鄉村、年長、非國語使用者的對象比較引不起興趣(或者無法了解調查的內容),受訪的動機也會比較低,那麼這個民調的未回覆率就會導致這些人的意見受到低估,而住在都會、較年輕、國語使用者的意見會被高估。如果這兩群人對此議題的想法有明顯的差異,民調的結果便會產生偏差,這便是未回覆誤差。

敏感議題也比較容易導致拒訪或較高的未回覆率。通常未回覆率是就整份調查來計算的,其實更仔細的話是應該要就每一個問題去看未回覆率。有時一份民調中會有一部分較敏感的問題,其未回覆率要比其他問題來得高。

調查是由哪一個機構執行的?

許多研究已經知道,調查的參與與否和受訪者對該調查機構的喜好或信賴程度有密切的關係。所以,對於由國民黨所執行的民調,泛綠民眾的拒訪率應該會比較高,因此這些民調的結果會低估泛綠民眾的意見。相反地,對於由民進黨所執行的民調,泛綠民眾的回覆率會偏高,這些民調的結果因此會高估泛綠民眾的意見。最近民進黨民調中心公布一份對馬英九總統兼任國民黨主席的民調[7],指出約有六成的民眾反對,我認為應該會有高估的可能(如果這份民調沒有考慮這個因素的話)。

很有趣的是,在國人的心目中,媒體也是有特定的政治色彩,因此由媒體民調中心所做的民調,也有類似的問題。有位學者劉夏念[8]比較聯合報、中國時報與TVBS民調中心在2008年台灣總統大選所做的民調結果,推估聯合報民調中,未表態選民約有75%把票投給長昌配,25%投給馬蕭配;中國時報民調中,未表態選民約有70%把票投給長昌配,30%投給馬蕭配;TVBS民調中,未表態選民的藍綠隱藏支持度約是65%與35%。他認為這個「藍綠隱藏支持比」間接表示了這些媒體在選民心目中的「藍綠屬性程度」。這是因為「受訪選民傾向拒絕透露自己的投票意向給予和本身政治立場不相同的媒體民調機構。因此,綠色選民受訪者如果認為某一媒體「愈藍」,就「愈不願意」透露其本身投票意向;綠色選民傾向不信任那些在他們(她們)眼裡視為「親藍」媒體的民調系統,因為他(她)們不相信自己的意見會得到公平的呈現,他(她)們害怕擔心自己的投票意向會受到不當的資訊利用。」如果這樣的觀點沒錯的話,那或許可以看出在一般選民(特別是綠色選民)的心目中,聯合報親藍的程度要大於中國時報,中國時報又大於TVBS。
這並不是說媒體所做的民調都不可信,事實上根據這個論點,如果這些媒體在選民中的政黨或意識形態取向沒有太大的改變的話,這些民調中心還是可以根據這些資料進行民調結果的校正,相當準確地預測選舉結果。不過這提醒我們,在觀看到這些媒體民調中心所做的民調結果時,要去注意該民調是否有進行受訪民眾政黨支持傾向的校正,將拒訪或未表態民眾的意見考慮進來。此外,對於非政治性議題的民調,這樣的影響可能會減輕一點。

所以,在評估未回覆所造成的誤差時,我們必須知道未回覆率的大小、未回覆或拒訪的原因是甚麼、以及這些未回覆對象與回覆對象在該民調議題上是否有明顯不同的意見,來評估可能的未回覆誤差程度。

造成測量誤差的問題

調查的性質是甚麼?

測量誤差是指調查的回覆者所提供的回答錯誤或不準確所造成的誤差。測量誤差有可能是故意或非故意的,比如病人在住院期間填寫醫院服務的滿意度調查時,擔心負面的意見會被醫療人員知道,因此故意只提供正面的評價。有時候問卷的填寫人或調查的受訪者不了解問題的意思,於是隨便找個答案回答,或者對問題理解錯誤,而填入錯誤的答案。這些都是屬於調查的測量錯誤。

前面提到的選舉民調中未表態受訪者如果事實上已經有投票意向,但基於對民調機構的不放心,而故意回答「尚未決定」或「不知道」,這也會造成民調的測量誤差。

學者將調查研究分為兩大類,一類是事實或行為的調查(如生活習慣、就醫情形的調查),另一類是意見、態度、或感受的調查(民意調查大多屬於此類)。受訪者在回答前者的問題時有比較客觀的根據,但在回答後者的問題時所依據的是主觀的判斷。前者的測量錯誤多半是因為回想錯誤所引起的,後者的測量錯誤主要原因包括沒有明確的意見、受當時環境的影響、敷衍了事(satisficing)、符合社會期待(social desirability bias)[9]、或對敏感議題的顧慮等等。

民調問卷的編排是如何設計的?

影響民調測量誤差最大的因素是問題的設計與問卷的編排。在問題的設計方面,重要的考量點有:調查的問題清不清楚、會不會模稜兩可?是否一個問題只問一件事?問題是否是中性、不帶任何立場或隱涉特定價值判斷?問題所用的句子是否簡單且平舖直述?所用的詞彙是特定人士才懂的術語,還是一般人都能夠瞭解的用詞?這些因素都會直接影響到受訪者對調查問題含意涵意的理解,以及後續回答的正確性。

回答選項的設計也是影響問卷品質的關鍵之一,每一個問題的回答選項不能有重疊的情況,而且必須涵蓋所有可能的回答選項;如果是採取正負兩端的選項設計(比如從最同意到最不同意),正反意見的選項必須平衡,中間是中立的選項(沒有特別的意見)。此外,有些問卷有「不知道」或/和「拒答」選項,有些問卷則否。前者容許受訪者不表態,可是遺失或空白資料會比較多(未回覆誤差);後者強迫受訪者表態,但是可能導致較多的測量誤差。

在問卷的整體編排上,必須注意連貫與流暢,不要使受訪者在問卷中迷路;也不要用太困難回答的方式(像是要受訪者排列優先順序或重要性),否則受訪者不是放棄受訪,就是敷衍了事,增加測量誤差。還有,有些問題的排列順序也會影響受訪者的回答。比如在調查民眾對定期運動的態度時,其中有兩個問題:(1)您認不認同「定期運動能夠維持或促進健康」?(2)您認不認同「我所居住的社區有足夠的運動設施」?對第二個問題來說,排在(1)之前,與排在(1)之後,所的到的答案可能是不同的,這是因為第一個問題可能會提醒許多受訪者定期運動的重要性,進而改變這些受訪者對運動設施的態度。

民調是如何執行的?

不同的民調執行方式有不同的測量誤差要考量。一般來說,郵寄或網路民調的隱私性或匿名度要比電話訪問來得高,電話訪問給受訪者的安全感又比當面訪談來得高。因此對於有爭議性或敏感性的民調,訪談的方式比郵寄或網路調查的測量誤差機會來得高。此外,研究也發現受訪者在回答問題時,會受到回答選項的先後順序影響,在紙張問卷或網路調查中,受訪者是靠視覺去選擇答案,因此第一個看到的回答選項被選擇的機率會高於其他選項(學者稱此為primacy effects);相反地,在電話或當面訪問的調查中,受訪者是憑聽覺去回答問題,這時受訪者會傾向選擇最後聽到的一個選項(學者稱此為recency effects)。現在有很多電話訪問或網路調查在電腦的輔助下,可以做到使回答選項排列方向隨機變化,以降低這些效應。

此外,紙張問卷的民調必須考慮到受訪民眾的識字能力;而訪問式的民調則必須考慮所使用語言的問題。目前大多數的民調都是採用電話訪問,應該有必要交代是使用哪一種,或哪些語言來進行民調。

電訪或家訪民調中,訪調員的經驗與素質也會對調查品質造成影響,民調中心必須使用經過訓練的訪調人員,以降低未回覆率,同時提高民調的測量準確性與一致性。

用以上的查檢表來檢視台灣的民意調查,我覺得可以努力的空間還很大,大部分的民調機構在公布民調結果時都相當籠統,交代不清楚,無從讓人評估其品質,也無法讓我們對其結果有十足的信心。美國有些著名的民調機構,如Pew Research Center for the People & the Press[10],對其民調的執行過程與分析方法都有相當詳盡的說明,並提供問卷內容供民眾下載,甚至有些還可以下載分析資料。我相信當民調中心對這些資訊愈透明,愈是負責任的表現,也愈能夠取信於社會。更重要的是,如果大多數民眾與媒體工作者具備評估民調品質的能力,對民調品質的要求愈高,民調機構在執行與公布民調過程中會更嚴謹,這時民調會真的成為了解社會民意的途徑,而不是成為製造民意或左右民意的工具。

[1] 取樣清冊(sampling frame)有很多種形式,不一定是記載於一本冊子中的名單。比如某個摸彩活動中,裝在摸彩箱裡的所有參與者的號碼簽條就是一種取樣清冊。如果我們要用系統取樣去研究醫院某一天病患滿意度調查,假如所有的病人都會去批價,則到批價處排隊等候批價的病患就是一份取樣清冊。
[2] 隨機取樣的基本原則是所有母群體中每個個體被抽中的機會是相同的,但是在從家戶中取出個別民眾時,每家戶中的成人民眾被抽到的機會不一樣。從兩個20歲以上成人組成的家戶被抽到的民眾代表兩個成人,而從四個成人組成家戶抽到的民眾則代表四個成人(假設一個家戶中所有成人的意見都是相同的),因此後者應該被賦予較高(2倍)的權重。
[3] 請參考這篇文章所舉生動的實例http://tw.myblog.yahoo.com/mclee632008/article?mid=2076&prev=2081&next=2075
[4] 請參考http://thchou.blogspot.com/2009/04/sampling-methods.html
[5] 請參考http://www.tvbs.com.tw/FILE_DB/DL_DB/even/200906/even-20090609185818.pdf
[6] 這必須進一步去看調查所用的問卷內容的用詞才能確定;此外,嚴格來說,採取電話訪問的民調也應該要交代是使用哪一種語言。
[7] 請參考http://www.dpp.org.tw/news_content.php?menu_sn=7&sub_menu=43&sn=3810
[8] 請參考http://www.npf.org.tw/post/1/4076,與 http://www.npf.org.tw/post/2/4312這兩篇文章

[9] 請參考http://thchou.blogspot.com/2009/02/blog-post_15.html
[10] 請連結http://people-press.org/

2009年6月15日 星期一

六輕所造成的空氣汙染與鄰近鄉鎮居民健康的關係

這禮拜有一則環境衛生的新聞引起很大的關切,幾個媒體也用相當醒目的標題去報導,TVBS的網路新聞的標題是「台大研究 六輕10公里內罹癌暴增[1]」;華視網路對此則新聞所用的標題是「雲林人易罹癌! 研究發現是六輕[2]」;民視網路新聞則是用比較沒有那麼斬釘截鐵的標題「雲林台西罹癌率 疑與六輕有關[3]」;自由時報所用的標題是「學者研究:5鄉鎮罹癌率 六輕『顯著相關[4]』」,在報導內容方面,自由時報這則報導是比其他報導交代得比較清楚一點。

根據這些報導所描述的,似乎這份研究找到了六輕所排放的廢氣與鄰近鄉鎮居民健康的關係。一般來說,環境中的危險因子與健康之間的關係並不容易確認,但是從報導中知道研究人員採用研究組(6個六輕附近鄰近的鄉鎮)與對照組(4個距離六輕十公里之外的雲林縣鄉鎮),而且比較六輕運轉前後,這些鄉鎮居民健康(用癌症發生率與死亡率為主要指標)變化的情況,看起來應該是很有說服力才對。這使我很想進一步了解這份研究是採用哪種方法來探討這兩者之間的關係。因此我從網路上找了這份研究報告[5]來瀏覽,發現這些報導與研究的結論之間有不小的落差。如果我沒有誤解這份研究的內容與結果的話,我覺得這份研究尚未提供十足的證據顯示六輕所排放的廢氣與鄰近鄉鎮居民健康之間有直接的關係,至少目前還無法斷言六輕附近鄉鎮居民的健康變化是六輕引起的。

這份研究報告的標題是《空氣污染對沿海地區環境及居民健康影響風險評估》,是由雲林縣環保局委託台大職業醫學與工業衛生研究所詹長權教授所做的研究分析。雖然標題中沒有直接指出是在探討六輕所排放的廢氣對鄰近鄉鎮居民健康的影響,從報告中的描述卻不難瞭解這份研究主要是針對六輕對附近區域空氣汙染與居民健康變化的貢獻進行研究。不過我覺得這個標題雖然比較籠統,卻比較接近研究結果,因為分析所獲得的結論應該還不能明確將這個地區的空氣汙染與民眾健康的惡化歸咎給六輕。

這份研究報告中很詳盡地收集並提供了國內外石化工業區環境監測以及居民健康效益的研究文獻,也彙整了雲林縣環境品質(以空氣與地下水品質為主)監測的資料、居民健康與人口統計的資料,為未來的研究奠定很好的基礎,這也是這份研究報告的主要目的之一。

不過這份研究還有另外一個重要目的,是去進行環境暴露與健康效應的相關性分析,包括六輕工業區周邊鄉鎮居民之死因資料分析(透過研究組與對照組的比較)、癌症登記資料分析、台西與崙背空氣品質監測站周邊鄉鎮居民的死亡與空氣汙染物關係的時間序列分析、以及空氣品質監測站周邊鄉鎮居民的健保門住診與空氣汙染物關係的時間序列分析。這個部分是我最感興趣的地方,不過作者將六輕周邊鄉鎮居民死因、癌症、死亡率、健保門住診使用率與空氣汙染關係的分析結果放在附錄,可惜我下載的這份研究報告並不包括附錄,無法看到第一手的分析資料與結果。

從研究設計的角度來看,要探討因果關係最理想的方法是隨機控制實驗,但是這種方式在此處顯然派不上用場。退而求其次,要評估六輕對周邊鄉鎮居民健康的影響,比較好的研究設計是:

OE1--------------X----------------OE2
OC1--------------------------------OC2

此處E是代表研究組(在此研究中,研究組是六輕工業區周邊6個鄉鎮),C是代表對照組(距離六輕工業區超過十公里、與研究組6個鄉鎮發展形態類似、且不在六輕下風處的4個鄉鎮);O是代表居民的健康指標,如死亡率及癌症發生率;X是代表六輕運轉所帶來的影響。OE1是表示六輕運轉前,周邊6個鄉鎮的死亡率或癌症發生率;OE2是表示六輕運轉後,周邊6個鄉鎮的死亡率或癌症發生率。OC1是表示六輕運轉前,對照鄉鎮的死亡率或癌症發生率;OC2是表示六輕運轉後,對照鄉鎮的死亡率或癌症發生率。

使用這種研究設計時,研究人員所要比較的是在六輕運轉前後,研究組鄉鎮的死亡率或癌症發生率的變化程度,與對照鄉鎮的死亡率或癌症發生率的變化程度有沒有顯著差別。如果前者的死亡率或癌症發生率增加幅度要比後者的增加程度來得大,那表示其中的差別很有可能是因為六輕的運轉所引起的。

這種研究設計的好處是研究人員可以排除兩種主要的干擾因素。第一種是研究組中的個體(鄉鎮)本身內在自然的變化(學者稱此為成熟效應,maturation effects),比如假使這些鄉鎮的癌症發生率本來就是逐年上升(由居民的職業型態、生活飲食習慣變化等所引起的),我們光是看到某些鄉鎮的癌症發生率剛好在六輕運轉前後有增加,就說這是六輕所造成的,便有可能做出偏差的推論。而這個研究設計提供了對照組的本身變化,讓我們做比較,如果對照組的鄉鎮本來的癌症發生率變化情況與研究組鄉鎮的變化情況類似的話,我們便能夠將這個因素排除掉(透過將這兩組鄉鎮癌症發生率變化相減,(OE2- OE1)-(OC2- OC1)),使我們單純看到六輕運轉對研究組鄉鎮所產生的影響,因為只有研究組鄉鎮直接受到六輕運轉的影響,而對照組並未受到六輕運轉直接的衝擊。

第二種干擾因素是歷史效應(history effects),這是指研究組鄉鎮癌症發生率變化有可能是受到六輕以外的外界作用的影響,比如與六輕之外的空氣物染(如其他工廠或汽機車排放的廢氣)、水源汙染(地下水質)、土壤汙染變化等所引起的。對照組也可以用來排除這些因素,如果研究組鄉鎮與對照組鄉鎮都經歷同樣的外界因素衝擊。

但是,這個研究設計主要的弱點,在於研究組與對照組通常並不是具備完全一樣的條件,因此會受到「選擇效應」(selection effects)的影響。雖然研究人員根據鄉鎮發展型態的相似性去選擇適合的鄉鎮來配對研究組鄉鎮,不過很明顯的是這兩組鄉鎮之間,除了與六輕工業區的距離不一樣之外(這是我們期待的),在人口結構、地理環境、生活形態、飲用水質、其他汙染源等方面可能也不相同(這是我們不希望看到的),使得我們的比較失去相同的基準。

這些問題或許可以用稍微複雜一點的研究設計來克服,例如以下的方式:

OE1-------OE2 -------OE3-------X-------OE4-------OE5-------OE6
OC1-------OC2--------OC3----------------OC4-------OC5-------OC6

這個研究設計與前面一個的不同,主要在於增加六輕運轉前後資料收集的時間點,這樣可以幫助我們更清楚看到這兩組鄉鎮本身的變化趨勢,只要這些造成變化的因素是在六輕運轉之前就存在的話,我們就可以知道這兩組之間原本就有哪些差異存在,因此可以加以排除。

事實上,這份研究在探討六輕運轉與周邊鄉鎮居民的死亡率與癌症發生率變化的關係時,使用的研究設計應該比較接近以下的情況:

OE1--------X1-3--------OE2 --------X4-6-------OE3
OC1----------------------OC2----------------------OC3

X1-3是六輕運轉第1~3年(1999-2001)對居民健康的衝擊,X4-6是六輕運轉第4~6年(2002-2004)的衝擊。由於六輕在這兩個階段有擴廠,產能持續增加,廢氣排放量應該也是增加,因此衝擊程度應該是X4-6 > X1-3。這也是一種不錯的研究設計,可以藉由六輕不同運轉程度所造成的居民健康各階段的變化,在與對照組變化的比較之下(假設沒有受到六輕直接的衝擊),讓研究人員較清楚釐清六輕的效應。

不過在這份研究報告中我看不到這些詳細的分析數據,不知道實際的分析結果。僅能從作者的總結描述中得知這部分的分析結果。

1. 六輕工業區周邊6個鄉鎮[6]居民的死亡率與工業區運轉的關係大致如下:

1-1. 臺西鄉的惡性腫瘤和肺癌死亡率在運轉第4-6年顯著比運轉第1-3年高、麥寮鄉的喉癌死亡率在運轉第1-3年顯著比運轉前高之外,其他四鄉鎮則未呈現增加情形。(請注意:這是拿某個鄉鎮癌症發生率與死亡率,進行運轉前後的比較,並未與對照組的變化做比較,因此不能有效排除歷史或成熟等干擾因素的影響。)

1-2. 六個鄉鎮與其個別對照鄉鎮的死亡率比較結果顯示,臺西鄉與麥寮鄉的肝癌在運轉前與運轉期間都一致地顯著高於其對照鄉鎮[7]。(請注意:這是拿某個鄉鎮在某個階段的癌症發生率與死亡率,與對照組進行橫斷面(cross-sectional)比較,因此也無法排除六輕以外的影響因素。)

1-3. 以全台灣的個別癌症死亡率為標準做比較,發現在六輕工業區運轉期間六個鄉鎮在惡性腫瘤、口腔癌、肝癌的標準化死亡比都顯著大於100,其中在工業區運轉前臺西鄉、麥寮鄉與四湖鄉的肝癌標準化死亡比也顯著大於100。(這個結論透露出來的訊息是,這些鄉鎮居民的癌症死亡率在六輕運轉前就已經偏高,顯然有六輕之外的影響因素存在,造成居民癌症死亡率的偏高)。

2. 在癌症的發生率與六輕運轉的關係方面,作者列出下列的分析結果:

2-1. 除褒忠鄉外的五個鄉鎮的全癌症年齡標準化發生率在工業區運轉期間都顯著比運轉前高,或是隨著運轉時間變長而增高;個別鄉鎮有不同的癌症發生率(如肺癌、甲狀腺癌、急性骨髓樣白血病、肝癌等)在工業區運轉期間顯著比運轉前高,其中值得注意得是麥寮鄉的急性骨髓樣白血病發生率在運轉第4-7年顯著比運轉第1-3年高,這項結果與國內外相關文獻有相似的發現。(基本上這還是研究組鄉鎮本身的運轉前後比較,無法完全排除其他干擾因素的影響)

2-2. 與個別對照鄉鎮的比較,發現臺西鄉與麥寮鄉的肝癌發生率在運轉期間顯著高於其對照鄉鎮,此外臺西鄉的口腔癌與麥寮鄉的急性骨髓樣白血病發生率在運轉期間也都顯著高於其對照鄉鎮。(這裡的比較方式與前面1-2的方式一樣,是研究鄉鎮與對照鄉鎮在運轉期間的比較,由於這兩組鄉鎮的基本條件與環境可能不一樣,因此不能因為研究鄉鎮的癌症發生率高於對照鄉鎮,就推論當中的差異是來自六輕的運轉。此外,目前三個已知的口腔癌致癌的因子是抽煙、喝酒及嚼檳榔,與空氣汙染的關係尚不明確)

2-3. 以雲林縣的個別癌症發生率為標準做比較,發現在工業區運轉前與運轉期間臺西鄉、麥寮鄉與四湖鄉的肝癌標準化發生比都顯著大於100;在運轉第1-3年間崙背鄉的急性骨髓樣白血病標準化發生比都顯著大於100。(這也是拿研究組鄉鎮的癌症標準化發生率,進行運轉前後比較;而且,據我所知,此處的疾病標準化發生比是經過人口年齡、性別校正的疾病發生率比較,並未控制其他干擾因素的影響。)

綜觀這六點分析結論,我認為目前還無法將這六個鄉鎮居民的死亡率或癌症發生率的變化與六輕的運轉連結起來。如果分析資料顯示研究鄉鎮居民的死亡率或癌症發生率在六輕運轉後增加的幅度要明顯大於對照鄉鎮增加的幅度,就能夠給研究人員比較充足證據,去推論這兩者之間的關係。如果能在分析模式中將其他造成研究鄉鎮與對照鄉鎮不一樣的可能因素加以控制,所得到的結果會更加有說服力。

這份研究還用時間序列(time series)模式[8]去分析臺西與崙背兩個空氣品質監測站所測到的空氣汙染物濃度與週邊10公里範圍內的鄉鎮居民每日健保門住診使用率以及死亡率的關係,得到以下的結論:

1.在2001-2006年間臺西站的二氧化硫與臭氧濃度,和崙背站的懸浮微粒與二氧化硫濃度和鄉鎮居民每日循環系統疾病住院之間有顯著相關
2.在2001-2007年間崙背站的二氧化硫與二氧化氮濃度和鄉鎮居民每日循環系統疾病死亡率之間有顯著相關。

如果這兩個空氣品質監測站附近除六輕之外,並沒有其他主要的空氣汙染來源的話,而且這兩個監測站所測到的空氣品質與這些鄉鎮的實際空氣品質都相同的話,那這個分析結論應該是可以說明六輕對居民的健康確實是有某種程度的影響。這點倒是都沒有被媒體注意與報導,媒體只挑聳動的癌症發生率與死亡率「暴增」做為報導主題。可是話說回來,如果六輕十公里範圍內的這些鄉鎮中除了六輕之外,還有其他空氣汙染源,那這些汙染源有可能成為干擾因素,導致我們做出偏差的結論。

實詹教授已經在這份研究報告的最後明確交代這些可能的研究限制,包括:(1)本計畫以台西或崙背空氣品質監測站的空氣汙染物濃度資料代表其週邊10公里內鄉鎮居民的暴露,受限於現有資料與資源無法實際量測各鄉鎮或各居民的空氣汙染暴露,可能對結果造成資訊偏差;(2)此時間序列分析採用單一汙染源模式,未同時考慮其他空氣汙染物的影響,結果可能有些偏差。

此外,這份報告也提到幾個重要的研究限制:(1)居民死因與癌症登記資料中所載的是案例的戶籍地,有可能與其實際居住地有差別;(2)居民門住診資料是來自這些鄉鎮內醫療院所的就醫統計資料,如果居民到外地醫療院所就醫,或其他地區民眾來到這些鄉鎮內的醫療院所就醫,有可能造成偏差(我認為這個問題很重要,從地理上來看,其他鄉鎮居民可能要比六輕周邊鄉鎮居民容易到外地就醫。如果可以用居民的基本資料去收集其所有就醫資料,而不限於所居住鄉鎮內的醫療院所,應該會比較準確);(3)在計算鄉鎮的標準化死亡率或癌症發生率時,並未控制年齡、性別與鄉鎮都市化程度之外的因素。

研究報告最後還提到,基於這些研究限制(大多與次級資料分析的限制有關),建議未來應該進一步採用分析型(analytical)的流行病學研究(如病例-對照研究與世代研究)探討,方能釐清暴露(於六輕所導致的空氣汙染)與健康效應之間真正的關係。我相信迴歸分析在這個問題上應該也可以發揮功能。最好是針對某一種與六輕所排放的汙染源有相關的疾病,去收集該種疾病的發生率或死亡率,採用研究組與對照組,並盡可能控制其他有可能導致該疾病的原因(需要同時收集研究組與對照組在這些因素的資料),這樣應該比較能夠找出真正的因果關係。

[1] 請參考http://tw.news.yahoo.com/article/url/d/a/090608/8/1kvmb.html
[2] 請參考http://tw.news.yahoo.com/article/url/d/a/090608/69/1kvuk.html
[3] 請參考http://tw.news.yahoo.com/article/url/d/a/090608/11/1kvwa.html
[4] 請參考http://www.libertytimes.com.tw/2009/new/jun/8/today-fo4.htm
[5] 這份研究報告可從此處下載http://e-info.org.tw/files/active/108/20090609-143700-report.pdf
[6] 包括麥寮、臺西、東勢、崙背、褒忠、四湖等六個鄉鎮。
[7] 麥寮鄉的對照鄉鎮是莿桐鄉;臺西鄉的對照鄉鎮是虎尾鎮。
[8] 在此時間序列的分析模式中,作者有控制每日溫度與星期日(一個禮拜中的哪一天)的因素對居民就醫可能的影響。

2009年6月6日 星期六

幾種常用的多變量分析方法

在各種計量方法中,只針對單一變數進行分析的方法稱為「單變量分析」(univariate analysis,比如用直方圖去分析某班學生英語的期末考成績的分布);同時分析兩個變數的方法稱為「雙變量分析」(bivariate analysis),這類的分析方法很多,比如用關聯性分析(correlation)去探討中學生的身高與體重的關係;用簡單迴歸(simple regression)或t-test去比較小學生的身高有沒有因為性別(男女兩組)不同而不一樣;用analysis of variance (ANOVA)去分析不同屬性醫院(營利、非營利與公立共三組)的經營績效是否有所不同,等等。

多變量分析(multivariate analysis)是泛指同時分析兩個以上變數的計量分析方法。在實際的情況中,我們所關心的某種現象通常不只跟另一個變數有關係,比如會影響醫院績效的變數不只是醫院的屬性而已,可能還與醫院本身的經營策略、醫院所在的地區、健保給付方式等有密切關係,因此多變量分析應該對實際的研究工作較有幫助。不過多變量分析的數統推論與運算過程比較複雜,如果要靠人去進行相當費時費工,但是在電腦時代,這些繁複運算便不成問題,因此多變量分析漸漸被廣泛運用。

最常見的多變量分析是複迴歸分析(multiple regression),除此之外,社會科學的研究還用到許多其他的多變量分析分法,以下簡單介紹幾種較常見的方法,以及這些方法在醫務管理可能的應用。

因素分析(factor analysis)

因素分析的主要目的,是要將一群互有關連的變數,加以簡化成幾個有意義的面向或因素。在這裡,一個因素可以用來代表或取代這一群變數中某些性質相近的變數,因此我們透過因素分析,希望能用少數幾個主要因素去涵蓋一群眾多的變數。

因素分析在調查研究的資料精簡上很有幫助。在問卷或訪談調查中研究人員經常會用好幾個問題去了解某一件事情,這也就是說研究人員用好幾個變數去衡量同一個概念。不過當變數愈多時,會加重分析工作的負荷,甚至降低分析的準確度。這時研究人員就可以考慮採用因素分析,看看這些相同概念的變數是否可以進一步加以統整或簡化。

上學期我在修「調查研究方法」時,有一份作業是去分析有哪些原因與可以用來解釋在美國的拉丁美洲裔人士(Latinos in the U.S.)受到歧視情況的輕重。在一份由Pew Research Center在2002年對將近兩千多位在美國居住的拉丁美洲裔人士所進行的調查資料中,用七個問題去問受訪的拉丁美洲裔人士被歧視的情形,分別是(1)他們覺得在學校中歧視的情況嚴不嚴重?(2)他們覺得在工作場合中歧視的情況嚴不嚴重?(3)他們覺得歧視對阻礙他們在美國出人頭地的情況嚴不嚴重?(4)他們覺得拉丁美洲裔人士之間彼此歧視的情況嚴不嚴重?(5)他們遇到被不禮貌對待的情況有多頻繁?(6)他們得到拙劣服務的情況有多頻繁?(7)他們遇到被侮辱的情況有多頻繁?

每一個問題都代表一個與歧視相關的變數,因此這份資料中有七個衡量歧視的變數,如果我不去簡化這些變數,那我便有七個應變數,必須做七次迴歸分析,才能回答作業的問題。為了讓我的分析更簡潔,我用因素分析去統整這七個變數,結果得到兩個因素,第一個因素是由前面四個變數所構成的,第二個因素是由後面三個變數所構成的。我發現這樣的歸類很有意思,構成第一個因素的四個變數所衡量的都是拉丁美洲裔人士感覺受到歧視的程度;而構成第二個因素的變數都與他們所經歷受到歧視的行為的頻繁程度有關,因此我將第一個因素命名為「受到歧視的感受程度」(felt discrimination),另一個因素為「經歷歧視的程度」(experienced discrimination)。這也就是說,這七個與歧視有關的變數其實可以用這兩個歧視的面向加以涵蓋。於是我便將原本七個變數簡化成兩個因素或新變數,做為我進行迴歸分析的對象。

因素分析完全是根據我們所提供的變數資料,透過統計方法去進行,它無法了解每一個變數本身所代表的意義,所得到的結果(因素的組成或歸類)有沒有意義必須由研究人員自己判斷。因素分析還提供一些方法讓研究人員對資料做進一步的調整或設定分析角度,以便產生最有意義的因素歸類。

因素分析在簡化問卷設計也很有用。比如我們要設計出一份新進員工的品格調查問卷,我們原來可能會用50個問題,以期全面去瞭解員工的品格。當我們想要簡化這份問卷的內容或長度,但又不想失去其周延性時,因素分析可以發揮作用。我們可以先用完整版的問卷,去收集足夠數量的資料(比如100位新進員工的品格問卷),然後根據這100份問卷的資料,去進行因素分析,看能不能找出幾個有意義的重要品格面向(因素),來涵蓋整份問卷。

判別分析(Discriminant analysis)

判別分析主要是用來找出一群個體分屬於不同群組的決定變數是哪些,並以此做為預測其他個體群組歸屬的依據。判別分析在醫療上應該有很廣的用途,特別是在高危險群的醫療處置方面可以發揮功能。比如我們可以拿一年來所有ICU病人的資料來做判別分析,我們將ICU病人分為兩組,一組病人在ICU中死亡,另一組病人順利轉入一般病房,而我們最關切的是哪些因素會決定ICU病人能夠順利轉入一般病房,或在ICU死亡。因此,我們可以用判別分析找出重要的影響變數,假如分析的結果告訴我們病人的年齡、診斷、手術與否、感染等變數是重要的決定因子,那我們就可以根據這些危險因子以及其影響程度,對每一位新進ICU的病人預測其預後(是可能屬於順利轉出一般病房或死亡的對象),然後針對有較高死亡可能性的病人進行重點風險管理,或加強照護。

其實用邏輯迴歸(logistic regression)與多項邏輯迴歸(multinomial logit model) 也可以進行與判別分析相同的功能。前者用於處理兩個組別,後者用於兩個組別以上的情況。

我覺得判別分析在健保開始實施DRGs之後,醫院在病人照護與費用管理上面可能可以派得上用場。在DRGs給付制度之下,醫院照護某一種case的病人的費用必須設法控制在健保局對該種case的給付定額之下,才不會虧損。因此醫院會很關心哪些情況的病人很有可能超過給付定額,哪些情況比較容易控制在給付額之內。因此我們可以用判別分析去找出這些重要的決定因素,然後根據這些因素去預測每一位病人的照護費用超過給付額的可能性。對於很有可能落入高額費用的高風險病人,醫院及醫師可以預作管理或因應,以避免超額情況的發生。

群集分析(Cluster analysis)

群集分析與判別分析有點類似,它們都希望根據個體的變數或特性,為一群個體進行分類,不過在群集分析中,我們事先並不知道這些個體的組別,完全是根據它們的變數資料去將相似特性的個體進行歸類。而在判別分析中,我們已經知道某些個體的所屬組別,用這些個體去進行判別分析,得知影響因子後再來對其它個體做分類。

群集分析在分類方面很有用,能夠幫助研究人員從一大群個體資料中釐出一些頭緒來,讓我們從中劃分出幾個有意義的群組。我們系上的Dr. Gloria Bazzoli與其他四位研究人員曾用cluster analysis,根據幾個組織特性變數(其所屬醫院所提供的服務類別、有否經營健保方案以及與其醫師之間維持何種關係),將美國眾多的醫院體系區分為五種主要類別[1]

理論上,我們應該可以透過群集分析來規劃DRGs,根據每位病人住院的總成本(醫療費用)、主診斷、次診斷、年齡等資料,將所有住院案例分成許多組別,每一組裡面的案例在醫療費用、診斷與病人年齡有其相似性。

群集分析應該也可以運用到醫院藥品或醫材管理上面,比如我們可以根據每種藥品或醫材的成本、使用數量、使用科別、訂貨所需時間等變數,將院內所使用的所有藥品或醫材分為幾個重點類別,根據每類藥品或醫材的特性規劃管理方針。
不過,群集分析跟因素分析一樣,是根據我們所提供的資料做數統運算所得到的結果,結果是否有任何實質或理論上的意義必須由我們去判斷,以及最後要採用幾個群組,也是由我們做最後的決定。

共變異數分析(Analysis of covariance, ANCOVA)

ANCOVA其實可以看為是ANOVA與迴歸分析的結合。傳統的ANOVA主要是用來比較兩組以上的樣本的平均值是否有差別,比如醫師要研究不同的治療組合對肝癌患者的預後是否有不同的效果,因此去比較(1)單純手術切除腫瘤、(2)單純進行化療、(3)以上兩種治療方式結合的病患的三年存活率。ANOVA能用來比較這三組病患的三年存活率的平均值是否有明顯不同,讓研究人員瞭解這三種治療組合的效果。

不過,ANOVA通常必須搭配隨機控制實驗來進行會比較好,因為隨機分配比較能夠提供研究人員相同的比較基準(比如使得這三組病人的病情分布情況大致上是相近的,不致於有某一組都是病情偏重的病人,其他組病人病情卻都較輕),這樣我們才能客觀地比較治療方式的效果差異。可是在這個例子中,這三組病人並不是透過隨機分配的方式去決定採用哪一種治療組合,醫師是依照每一位病人的病情(肝腫瘤的大小、期數、病人的健康情況等),建議採取的治療方式,而這些病情變數都會對肝癌病人的存活率造成影響,因此在此情況下直接用ANOVA並不恰當,最理想的方式是ANCOVA,因為ANCOVA在比較這三組病人的存活率時,可以同時考慮或控制其他對病人存活率有影響的病情變數,使我們在相同的背景或基礎上去比較這三組治療方式的效果。而控制其他變數對應變數的影響也是回歸分析的基本功能,因此ANCOVA可以說是結合了ANOVA與迴歸分析的功能。

話說如此,事實上用複迴歸分析就可以達到ANCOVA的目的,只要在迴歸分析模式中加入組別的虛擬變數(dummy variables),我們就可以看到不同組別的平均值是否有明顯差別。以前面的例子來說,我們必須建立兩個虛擬變數,分別代表第一組與第二組的病人(研究組),做為分析模式中的自變數,而以第三組為對照組,這樣我們就可以去比較第一組和第二組的病人分別與第三組病人的三年存活率有沒有差別。

多變量變異數分析(Multivariate analysis of variance, MANOVA)

MANOVA也是ANOVA的延伸與拓展。MANOVA與ANOVA最大的不同在於ANOVA一次只能分析一種應變數,而MANOVA能夠同時比較兩個或以上的應變數。比如我們想比較前面三組肝癌病人的三年存活率與治療後的生活品質。如果用ANOVA的話,我們必須做兩次ANOVA分析,一次針對病人的三年存活率,另一次比較病人的生活品質差異。如果是用MANOVA的話,只要一次就可以同時分析這兩個我們所關切的預後指標。

事實上,在這種情況下,MANOVA不僅在分析手續上比較省事,也比較準確,因為如果肝癌病人治療後三年存活率與生活品質這兩個指標之間有某種相關性的話(比如生活品質較高對存活率有所幫助),則分開單獨分析(ANOVA)所得到的結果會有偏差。而用MANOVA可以考慮這兩個指標之間的關聯性,提供我們較準確的結果。

多變量共變異數分析(Multivariate analysis of covariance, MANCOVA)

這其實就是MANOVA與ANCOVA的結合,不僅可以同時比較多個應變數,還可以考慮或控制多個會影響應變數的變數。因此,我們可以使用MANCOVA,在考量病人的病情並將這些變數的影響消除後,去同時比較這三組肝癌病人治療後的三年存活率與生活品質。

計量方法的發展趨勢

計量方法實在是族繁不及備載,這篇文章所提到的只是其中的一部分而已。每一種計量分析方法都有其使用前提與假設以及可以適用的狀況與條件,而在只用來解決某一類的研究問題。研究人員必須視研究的問題與資料形態,決定採用最合適的計量方法。不過我們可以看到這些計量方法之間也有不少共通性,這不免讓我們猜想有沒有可能發展出一種通用的計量方法,可以適用大部分的研究問題與資料形態?如果真能如此的話,這可以省去很多要個別去認識這些計量方法的麻煩。

前一陣子我去VCU的進階研究方法中心(CARMA)聽一個演講,主題是”General Linear Model” (GLM),主要在介紹最近學界在計量方法的發展趨勢,就是希望發展出一種廣泛通用的線性計量模型。GLM可以用來處理許多種計量方法所要處理的問題,包括:複迴歸、ANOVA、ANCOVA、MANOVA、MANCOVA、判別分析、因素分析、邏輯迴歸等等。看來,未來計量方法的世界大同境界是指日可待的。不過,我也在想,從理論上來講,越是一般化與通用的計量模式,背後一定牽涉到更多的數統假設才能夠成立,這些假設或先決條件應該也會對適用的情況產生某種程度的限制,這也是我們在瞭解與使用某種計量方法時,必須隨時保持警覺的。

[1] Bazzoli, GJ; Shortell, SM; Dubbs, N; Chan,C; and Kralovec, P; “A Taxonomy of Health Networks and Systems: Bringing Order Out of Chaos” Health Services Research, February; 1999.

2009年6月1日 星期一

從研究方法看消費券效果的評估

在學術研究的主題中,某種措施或方案有沒有效果一直是一個讓人很感興趣的題目。在醫學方面有很多研究都在探討服用某種藥物對病人病情或症狀是否有所改善,以及某種癌症手術的施行對病人的存活率有否幫助;公共衛生學者經常會針對某種健康介入措施(如定期運動或健康篩檢)對健康改善或疾病及早的發現與預後是否有正面的影響,或者某種保健政策(如補助年長者施打流感疫苗)對民眾的健康有否產生功效等主題進行研究。在經濟學或政治學領域,公共政策的實施效果更是一個重要的研究對象。

最近台灣政府所實施的政策中,最受到廣泛討論的可能就是消費券的發放。政府為此花了八百多億的經費,希望藉此刺激民眾消費與景氣。到底這個政策有沒有效?是否有達成原先設定的目標(發揮加乘效果,挹注GDP一個百分點)?一直是各界關切與討論的議題。最近聽說政府委託學界進行的評估報告即將出爐,屆時答案應該可以揭曉。不過這禮拜已經可以在媒體上看到不同學者對消費券效果評估不同的意見。這也可以讓我們瞭解到這一個看似簡單的問題,事實上並沒有想像中的那麼直接了當。

前經建會主委,現任台灣智庫董事長陳博志教授從消費券替代一般貨幣(金錢)的角度去分析,他的研究「鎖定農曆年前央行現金發行量,檢視民眾使用現金是否比正常情況減少;換言之,減少的程度,大致就是消費券替代現金的程度,也就是消費券『沒有發生作用』的程度。若民眾把消費券用在新增加的支出,要領出來的現金就不會減少,反之,若民眾把消費券用在原本就要買的東西上,則領出來的現金就會比正常時期少。」陳博志教授接著指出:「據央行資料,一月十八日發放消費券後,十九日至廿三日這五天央行新台幣發行額銳減,和二○○六至二○○八年三年平均值比較,足足少了四四五億元。再拿景氣和今年一樣差的二○○二至二○○三年的平均發行額比較,今年的發行額也減少了四四七億元。」這個數字跟估計在這段期間開始流通的消費券金額四三六億非常接近[1],使得他的假設(民眾只是將消費券拿來替代在這段期間原本要支出的現金,並沒有額外增加消費,因此對GDP並沒有挹注效果)得到支持。

針對陳博志的質疑,現任經建會主委陳添枝表示:「政府發放消費券造成民眾農曆年期間減少持有現金,並不意味著消費券所創造的消費完全是『替代消費』,就像『寒冷的冬天燒一把火』一樣,從過年期間大型賣場人潮,與搭配促銷盛況可以看出,消費券是有效的。陳添枝強調,如果光看一月十八日發放消費券後,零售、餐飲業營收數據,都比去年同期增加一成以上,就可以看出消費券效果十分明顯。」他說:「現鈔發行量多寡,是央行依據民間需求自行決定的,陳添枝說,央行過年期間印製很多新鈔,主要是應付民眾提領需求,現鈔發行量只占總體貨幣供給很小比率。」陳添枝還認為,「就算台灣地區農曆年前新台幣現鈔發行量減少,也不能以此主張減少的四四五億元發行量(相當於消費券預算的一半),就是消費券在過年期間替代了現金;畢竟一般民眾可以用信用卡、現金、消費券等多種支付工具消費。因此,消費券效果應該從民間實際消費金額去分析。」[2]

我覺得這兩位學者說的都有道理,但是他們所討論的是兩件不同的事。陳博志教授的分析是依據著名的經濟學者蔣碩傑所提出的「支出之前要先擁有貨幣」的理論,也就是消費者進行消費的前提是手上要有錢,消費者手上的現金多寡決定消費的程度,因此我們可以從民間貨幣或現金流通的變化去評估整體消費的變化。在他所研究的這五天期間中,雖然消費券發出了四百多億,可是央行發出的現金也減少了四百多億,等於民間的整體現金總額並沒有明顯改變,當所有民眾手頭上的現金總額沒有改變時,整體消費額度也就不會有大幅改變。這也就是說雖然消費券發了,可是整體消費量並沒有明顯改變,當然對GDP的成長便沒有貢獻。

陳添枝教授為政策辯護所提出的論點是說評估消費券的效果不能光從民眾手上持有多少現金來看,而是要直接去看消費券發放前後市場整體實際消費金額是否有變化,畢竟民眾在消費時除了可以使用現金之外,也可以使用信用卡等非現金的方式。因此,在評估消費券的效果時,陳博志所使用的是間接的指標(消費者所持有的現金總額的改變),陳添枝主張使用直接的指標(市場消費總額的變化)。

此外,評估期間也是一個關鍵所在。陳博志教授明確指出他所使用的比較期間是1月19-23日這五天,這五天裡民眾因為剛取得消費券(也是另一種形式的現金),而減少現金的持有是很正常的現象;重點應該在後續的發展。如果民眾只是拿消費券來進行原本就要做的消費,當消費券用完之後,就回歸平常的消費情況,那消費券就沒有產生額外的效果。不過如果當消費券使用後,民眾擴大消費習慣或增加消費的欲望,或者將這五天沒有使用的現金一併拿出來做消費,則消費券便有達到刺激消費的作用。因此,陳博志教授應該也要比較春節過後央行所發行現金總額是否與去年同期有明顯變化,才能做出更完整的推論。

陳添枝主委並沒有明確指出其比較的期間,只說是觀察消費券發放後,或過年期間,賣場熱絡的情況或某些行業營收較去年同期增加。姑且不論他的觀察是否準確,消費券發放後所帶來的立即消費熱潮是可以預見的,因為民眾等於取得了一些一定要要用來消費(不能存起來)的現金,但這並非消費券真正效果的所在。問題在於,這種由消費券所引起的立即消費現象能夠持續多久?熱潮一過之後民眾是否會將自己的3600元再拿出來進行消費?或者乾脆將3600元長期存進銀行。

在評估消費券的效果(對GDP成長的貢獻)上面,比較期間不同可能會導致很不一樣的結論。除了比較期間的長短之外,比較期間基準的選擇也會有很大的影響。如果我們要以一季的GDP做為比較期間,那我們應該是拿今年第一季去與去年同期(2008年第一季)做比較,還是與今年第一季的前一季(去年第四季)做比較?由於消費起伏通常有季節性,因此較理想的情況是與去年同期作比較。不過由於去年同期的景氣尚未受到美國金融風暴的影響,而消費券的發放主要是希望刺激國內經濟走出金融風暴所帶來的不景氣,兩者的環境因素並不相同,直接進行比較會有問題。這時或許將今年第一季(消費券發放當季)與同樣不景氣的去年第四季相比應該也是一種可行方式,不過必須考慮每一季的GDP起伏變化的因素,並予以校正。

另外一個評估角度,也是某些馬政府財經官員所持的觀點,是去問消費券發放與否對GDP有何改變?這些官員說就算消費券有很大比例只是替代現金,但是有發放有刺激,若沒有發放消費券的話可能GDP負成長更大,即使消費券沒有產生增加GDP的作用,若能減緩GDP的負成長,那也是一種正面的貢獻。問題在於,沒有人確實知道今年第一季若沒有消費券政策的話,景氣情況或整體的GDP會是怎樣。所以這種假設性的評估並不實用。

我對景氣變化評估完全是門外漢,不過若從研究方法的角度來看,理想的方案評估方式,如果能夠採用下面的這種研究實驗設計是最好的:

(R)---OE1-------X-------OE2
(R)---OC1----------------OC2

在此暫稱為「消費券效果實驗」中,我們從台灣18歲以上的成人(母群體)中隨機抽出1000人組成研究樣本,再將這1000人隨機分配到實驗組(experimental group,用E代表)與對照組(control group,用C代表)各500人。(R)就是指實驗組與對照組的組成是藉由隨機分配所形成的,以確保這兩組樣本在基本特徵上有相似性。

這份實驗的介入措施是消費卷的發放(用X代表),只有實驗組的人得到消費券,對照組的人沒有拿到消費券。然後我們要比較這兩組人在消費量的變化上面有沒有明顯的不同。OE1是實驗組的人在發放消費券前(第一階段)的總消費金額,OE2是實驗組的人在發放消費券後(第二階段)的總消費金額;OC1是對照組的人在第一階段的總消費金額;OC2是實驗組的人在第二階段的總消費金額。由於我們所要關切的是消費券所創造的消費(加乘)效果,因此OE2應該是實驗組的人在第二階段的總消費金額扣掉所得到的消費券總價值,這樣才能公平地比較這兩組消費者在消費券之外的消費總額的改變是否有所不同。如果研究者認為消費券有效果的話,這份研究的假設應該是(OE2 - OE1) > ( OC2 - OC1)

這樣的實驗設計很簡單,應該可以做為消費券政策實施前的效果測試評估,做為是否全面實施的根據。不過由於這樣的實驗規模很小,而且有很多實驗中人為因素的干擾,或者因為參與實驗所造成的心理作用,因此與真正的情況(全面發放消費券所產生的效果)之間可能還是會有落差。最佳的評估還是要從實際狀況中去進行。

要在實際的狀況中去評估消費券所創造的消費效果所使用的研究設計與前述的實驗設計很相似,以下面圖形表示:

OE1-------X-------OE2

OC1----------------OC2


這個研究設計與前述的實驗設計唯一不同的地方在於沒有透過隨機分配的過程去形成實驗組與對照組,因為實際上政策的實施對象不可能是隨機決定的,而是具有某種條件的人,或者全民。如果這次消費券只發放給中低收入民眾,那我們便可以比較中低收入民眾(實驗組)與非中低收入民眾(對照組)在政策實施前後消費金額的改變有沒有不同。問題是,這次消費券是發放給全民,因此缺乏對照組。如果有部分民眾未領取及使用消費券,那這些人可以成為對照組的樣本,但是如果這些人與其他有領取消費券的民眾在背景特徵上有很明顯的差異的話(比如這些人非常富裕或其生活與世隔絕,或者這些人有很大的比例是主張簡樸生活,反對過度消費),那這樣的比較也會造成很大的誤差,無法讓我們看清消費券的確實效果。

另外一種比較方式,是拿去年同期做為對照組,由於去年同期並沒有發放消費券,如果今年第一季(消費券發放後)與去年第四季(消費券發放前)的消費總額的差別明顯大於去年第一季與前年第四季消費總額的差別,那其中的變化也許是消費券所造成的。但是這個方式必須是這兩段期間中除了消費券的發放之外,並沒有其他會影響消費的不同重要事件。

還有一個比較方式,是拿其他財經狀況相似,但未實施消費券政策的國家來做為對照組。不過要找到一個比較基準很相近的國家並不容易。

另一篇採訪報導[3]中提到:「陳博志與一起合作研究的劉錦添,打聽到經建會委託進行消費券研究的是吳中書,甚至向吳『旁敲側擊』。陳博志推測吳的分析方法不外乎是計量模型和回歸分析,『一定是擺一個虛擬變數,那都是間接的方法』,和醫學界進行『吃肉是否造成高血壓』的研究一樣,做出的報告什麼結果都有,取決於要擺哪些變數,『那樣的研究是不可靠,可以操弄的。』陳博志相信,他採取的研究理論不用技巧,直接看替代效果,因為過年期間的錢大部分都是要花掉的,為什麼用替代效果做?因為替代效果是檢視的第一步,如消費券取代現金,就沒有後面的乘數效果,一旦產生替代效果,後面廠商再拿去進貨,還是無效。」

我對經建會所委託的消費券評估研究採用的計量方法也很感興趣,但不清楚經濟學者會使用怎樣的計量模式。不過我想陳博志教授在這裡所提到的應該是指參數分析(parametric analysis)與非參數分析(non-parametric analysis)的差別。他強調自己所使用的是非參數分析比較的方式。

非參數分析技術,顧名思義,就是我們在進行資料分析以前,不須先假設或構思計量分析的參數模式,而完全由手上所掌握的資料去進行估算,因此分析的結果不會受到研究人員所設定的參數的影響,而是直接藉由資料的比較、分析與運算來告訴我們結果。

相對來看,古典迴歸分析是典型的參數分析方法,當研究分析人員使用迴歸分析時,必須先建構參數關係模式(描述變數之間關係的數學公式,比如y=β0+β1x1+β2x2+β3x3,此處x1~x3就是參數或變數),再去進行資料分析。古典迴歸分析的結果則會受到我們所使用的關係模式的影響,當我們使用不同的關係模式時,即使是同樣的資料,也可能得到不一樣的結果。

此外,由於非參數分析技術不必像參數分析方法要去假設變數的分布狀況,也少了很多相關的分析前提與假設,因此受限程度也比較低。比如一般的迴歸分析多半必須假設應變數的分布是呈常態分布。非參數分析較不需要這些假設,而是忠實地照我們所給的資料去做分析。

不過,我認為不能因為參數分析可能會受到人為因素左右就加以全盤否定,應該是去看所使用的參數模式有沒有道理。無論是參數或非參數分析方法,都必須有理論做為基礎。參數模型中所使用的參數(變數)不能憑空臆測或增減,而是要有理論或文獻根據。同樣地,非參數分析若要得到正確的結果,也不能隨便拿資料來比較,而是要用理論來引導分析比較的進行。

要進行一份客觀正確的方案評估研究並不容易,首先要決定能夠正確衡量結果的指標(這要對方案本身與其實施背景有很深入的瞭解),然後要規劃妥當的研究設計,包括實驗組、對照組(客觀的比較基準),選擇有理論根據、合理的分析比較方法或模式,才能得到可靠的結果。

[1] 請參考http://tw.news.yahoo.com/article/url/d/a/090530/4/1kcwh.html
[2] 請參考http://tw.news.yahoo.com/article/url/d/a/090530/4/1kcwj.html
[3] 請參考http://tw.news.yahoo.com/article/url/d/a/090530/4/1kcwk.html