為了美麗的地面: 全民健保資料庫研習收穫

10月7日我去參加由台灣醫務管理學會舉辦的「健保資料庫應用研習營」，有不少收穫。本來想說這會是相當冷門的主題，當天卻發現參加的學員人數也比我預期的要踴躍許多。可見國內運用健保資料庫進行研究已逐漸受到重視。政大連賢明教授曾在2006年寫過一篇專文介紹健保資料庫，是有心使用健保資料庫的研究人員的入門，他說：「為了促進健保相關研究，中央健保局自2000 年起，委託國家衛生研究院發行全民健保資料庫，希望透過健保資料的發行，累積實證基礎，進而帶動健保政策的深入討論。這個資料庫累積了台灣兩千三百萬人口，自健保開辦以後的所有健保就醫資料，並允許研究者連結就醫病患、醫師、以及醫療院所的基本特性，不論就深度和廣度而言，和國外類似醫療資料庫相比較毫不遜色，在費用上更不及國外類似資料庫價格的數十分之一。令人惋惜的是，或受限於資料規模龐大，或受限於處理分析複雜，或受限於重要變數缺乏，許多研究者對使用健保資料庫猶豫不前，原先透過開放健保資料庫來深化健保政策討論的目標，並不如預期般的成功。」(連賢明，2006)

所幸，經過國衛院多年的努力，健保資料庫已經日趨完備，運用層面日廣。醫務管理學會舉辦此研習營的簡章提到：「我國目前全民健保納保率達到99%以上，使得健保資料成為醫藥衛生相關領域研究中具有代表性的實證資料，其研究成果可作為醫藥衛生政策的參考，為重要的研究資源。為協助對健保資料庫使用有興趣做研究但卻又不知如何踏入此領域之醫療產業人員，台灣醫務管理學會舉辦「健保資料庫應用研習營」，邀請成功大學醫學院公衛所李中一教授分享「如何運用健保資料庫做分析研究」，另邀請國家衛生研究院群體健康科學研究所陳麗光副研究員做「健保資料庫個案研討」剖析，期望藉由講師之經驗分享，讓與會者對於健康資料庫應用更能得心應手。」

李中一教授從一開始便參與健保資料庫的規劃與建置，是國內少數幾位最了解此資料庫的專家之一。他與多位研究生都曾經應用健保資料庫進行多項實證研究，並發表在國際上受到矚目的論文。在研習營中他以深入淺出的方式，豐富的研究實例，向學員說明：

1國內使用健保資料庫進行研究發表在國際學術期刊的篇數正以指數的成長速度增加，而且刊登期刊的影響指數愈(impact factor)來愈高，已經有幾篇刊登於影響指數超過10分的期刊上。其資料的公信力已經獲得國際學術界的肯定。

2應用健保資料庫所發表的文章範圍或性質相當廣泛，從臨床研究、流行病學研究、公共衛生到衛生政策研究都有。

3健保資料庫價格相較便宜，樣本數相當大，開放對象也逐漸擴大，不限於學術界使用，醫界、實務界也都可以申請，成為全民的共同資產。

4目前健保資料庫中涵蓋將近2300萬民眾的就醫與承保資料，跨越從1996至2009共14年的資料量，而且每年在增加。

5健保資料庫最大的優點在於其極大樣本數容許臨床學者進行罕見案例的分析與探討。其時序的資料也讓研究者能夠估算各種疾病的發生率。

6健保資料庫幾乎涵蓋全民，大大降低選樣偏差(selection bias)的可能性。

7由於健保資料庫是民眾就醫實際的紀錄，並非透過民眾的回想與回答所獲得，因此也可以避免一般抽樣訪談調查經常碰到的回想偏差/訊息偏差(recall bias/information bias)。

8不過，健保資料庫並非沒有缺點。由於此資料庫本質上是健保行政申報資料，並非醫學或公衛健康資料庫，欠缺許多臨床、公衛、醫管所需要的研究變數。採外，許多研究變數並非彙集在同一份資料檔案裡面，而是散在各個檔案，研究者必須花費許多心力運用資料庫整理的技術去將這些資料做適當的整合。如果無法找到適切的資料來代表重要的研究變數，很可能產生重要的干擾變數被忽略的問題，嚴重影響研究結果的正確性。

9健保資料庫也有潛在的選樣偏差和訊息偏差的問題。首先，由於健保資料庫是就醫資料，其涵蓋的樣本對有些研究來說可能代表性不夠，比如研究國內兒虐的問題，便不能僅靠健保資料庫中急診的診斷案例來分析。在訊息偏差方面，健保資料庫中的資料有時資訊不足，甚至有誤差。比如研究某地區空氣汙染對其居民健康影響時，健保資料庫中的投保所在地經常與被保險人的實際居住地不一樣，如果直接拿來使用，便會產生誤差。此外，申報資料中的診斷與最後的確診可能有落差，或醫師給錯誤的診斷碼，都會造成資料的偏差。

10雖然如此，李教授認為健保資料庫仍然大有可為，所謂「天道酬勤」，他舉許多卓越的研究實例指出，盡管健保資料庫絕非完美，但是若選對主題，徹底了解其所包含的資料內容，加上研究者的用心與創意，還是可以做出令人激賞的研究，對臨床與政策做出重大的貢獻。我覺得最實用的是，李教授用這些實例向我們說明上述資料庫本身的缺陷如何克服，以及如何說服期刊論文的審查者這些缺點不會對研究結果造成嚴重的偏差。這堂課讓我獲益良多。

陳麗光副研究員則是用她所實際參與的研究來說明健保資料庫應用的範圍、研究進行的過程、需注意的事項，以及如何運用健保資料庫估算疾病的盛行率與發生率。陳副研究員曾經使用健保資料庫去探討：(1)不同社經條件的民眾在健康方面與醫療照護使用方面的不平等；(2)政策實施後形成自然實驗，從中探討政策所帶來的效果；(3)病人使用呼吸器之後的結果分析與預測；(4)疾病(如氣喘)所帶來的經濟衝擊。

此外，她提到在使用健保資料庫之前，一定要先了解其各個資料庫的格式與內容，並熟讀其編碼簿。運用健保資料庫很可能要用到資料庫技術或撰寫資料整理的程式，所需要的資訊設備也需有較大的資訊處理能力。對許多臨床人員來說，這可能會是一個障礙與門檻。陳副研究員建議不同領域的研究者可以找合作夥伴，形成研究團隊，資源共享且互相支援。

上完一天的課，我覺得所有的次級資料(secondary data)或現成資料都絕非完美的，健保資料庫也不例外，它有其優點，亦有其缺點。但是透過研究者的用心與巧思，大多可以突破限制。如果要應用健保資料庫進行相關研究，研究者有三件必要的工作要做：(1)深入了解健保資料庫的內容、限制與可能性；(2)徹底清楚自己的研究主題與其中的脈絡；(3)從資料庫中盡可能找出有助於研究並符合研究要求的資訊來加以運用，以突破限制，達成研究的目的。這就像是烹飪一樣，使用同樣且現成的食材，好廚師一樣能夠煮出一道道色香味俱全的好菜。

我認為運用健保資料庫(或其他經過處理的公開資料庫)進行研究的另一個好處是省掉IRB審查的繁瑣過程。大多數期刊對此類研究並不要求IRB審查通過；如果有要求的話，一般而言也只要是快速審查即可。

其實不只是健保資料庫可以運用，每家醫院內部也有豐富的病人就醫資料庫，可以讓臨床研究者或管理人員使用，進行研究或特定主題的分析探討。

若有興趣進一步了解健保資料庫，下面有一些網路資源可供參考：
鄭守夏教授全民健保資料庫：簡介與研究經驗
歷年全民健康保險資料庫研習會教學資料