2009年4月5日 星期日

抽樣方法(Sampling methods)

抽樣調查是社會科學重要的根基,絕大多數社會科學研究都是使用抽樣調查所得到的資料,只不過量化研究比較強調及偏重使用由機率抽樣方法所得到的資料,而質性研究所根據的是非機率抽樣方法所獲得的資料。

抽樣調查也是了解民意、社經國情與施政的重要基礎。我一直認為美國是一個以抽樣調查治國的國家,如果沒有抽樣調查的技術,這個國家基本上很難運作。比如美國並沒有一套準確的全國戶口資料,更沒有全國一致的國民身分證,就連其國境內有多少合法人口,或國民人數到底有多少,並沒有人能夠說出一個確切的數目,最好的回答可能是大概三億加減多少,而這是透過許多現有的文件登記資料(如聯邦政府的社會安全號碼、各州的駕駛執照人數、醫院開出的出生證明等),再加上抽樣調查的統計推估所得到的。

抽樣方法分為兩大類,第一類是機率抽樣(probability sampling),第二類是非機率抽樣(non-probability sampling)。機率抽樣方法是指母群體中的每一個體都有某種已知的機會(機率)可以被選進研究樣本中;非機率抽樣方法則是指當這樣的條件不存在時所做的抽樣,當我們使用非機率抽樣方法時,對於樣本中的個體從母群體中被抽到的機率完全不得而知。在不知道樣本與母群體之間的機率關係的情況下,我們便無法對該份樣本的抽樣誤差進行估算,也就是說我們沒有任何概念或資料可以去判斷從該樣本所得到的推估結果與母群體真正的情況有多接近,或有多大的差別。如果是採用機率抽樣,我們便可以根據統計學理論,去獲得這些抽樣所可能導致的誤差程度,知道樣本統計值的推估區間與可信賴程度。

非機率抽樣

雖然學理上機率抽樣是比非機率抽樣來得理想,可是有時候或有些情況無法讓我們進行機率抽樣,或者有些研究的目的不在於推論母群體的情況或講究樣本的代表性(representativeness),而是希望獲得一組內涵最豐富,對探討的主題最有幫助的樣本資料(richness of data),這時非機率抽樣便有其必要性。

常見的非機率抽樣方法有三種:(1)便利抽樣(convenience sampling)、(2)立意抽樣(purposive sampling)、(3)配額抽樣(quota sampling)。顧名思義,便利抽樣是指研究者以自己最容易取得的一組樣本做為研究的資料。比如某位研究人員想用訪談的方式研究美國醫院院長對Obama總統所進行的醫療改革的看法與意見,照理說應該從全美國的醫院院長中隨機抽樣出足夠的人數,來進行個別訪談。可是該研究員的時間與研究經費有限,因此就退而求其次,就其目前所在的地區附近二十位認識的醫院院長個別進行訪談。這樣便可以省去大筆的交通費與往返的時間,並且透過交情也容易徵得這些院長們接受訪談的同意。便利抽樣有時又稱為偶遇抽樣(accidental sampling)。

使用二手資料的研究事實上非常倚重便利抽樣的研究樣本。在美國進行醫院相關的研究,學者經常使用美國醫院協會(American Hospital Association, AHA)每年對其會員醫院與非會員醫院的調查資料庫,這個資料庫近似美國所有醫院的普查資料,涵蓋面相當廣,可是並不是每一家醫院都有填寫資料回報,特別是非會員醫院的資料相當不齊全。因此嚴格來說,此資料庫中的醫院樣本並非美國所有醫院的一份機率抽樣樣本,而是一個方便抽樣的樣本。但是因為其所涵蓋的醫院樣本數很大,有相當程度的代表性,而且資料豐富,方便取得,因此受到研究人員的喜愛。

立意抽樣有時稱為專家抽樣(expert sampling)、或判斷抽樣(judgment sampling),是指研究人員根據某種目的,刻意尋找具備某種特質的個體來組成研究樣本。全民健保局為管控醫院的申報費用,在進行申報案件審查時,大量運用立意抽樣的方法,比如健保局先透過電腦系統了解某家醫院在哪些治療項目、科別或醫師的申報費用成長最快,然後針對該範圍密集抽取案件來做審查。

立意抽樣也是質性研究相當重視的抽樣方法,比如在grounded theory的質性研究中,研究資料的取得並非透過隨機取樣,而是根據資料的豐富性來決定,研究人員所考量的是哪一些研究對象最能夠提供完整且足夠的研究資料。比如我們要研究藥師給藥錯誤的原因,最好是去訪談曾經給錯藥的藥師,而不是從藥局中隨機抽出幾位藥師來做訪談。如果要研究糖尿病人血糖控制不好的原因,理想的訪談對象是血糖控制最不理想的病人,而不是從所有糖尿病人中隨機抽樣。這裡所謂的立意取樣是指考量哪些對象能夠提供對理論的建構或瞭解問題本質最能夠提供深入且完整資料與直接的幫助。在運用焦點團體(focus group)的研究中,通常焦點團體的組成是跟據立意抽樣的原則,而非機率抽樣。

配額抽樣是指根據一定的配額去組成樣本。例如我想比較美國公立、非營利與營利這三種屬性的醫院的效率,而我知道整體來看,全國每十家醫院當中,公立醫院只佔2家,非營利醫院約佔5家,營利醫院約佔3家。如果我希望研究樣本包括50家醫院,那我就照比例配額,去找10家公立醫院、25家非營利醫院,以及15家營利醫院的資料來進行分析。配額抽樣可以保證讓我們的研究樣本中包含我們所感興趣的各種性質的研究個體,不過因為本質上仍然是非機率抽樣的樣本,因此我們還是無法做估算及抽樣誤差與進行統計推論。

機率抽樣

機率抽樣是目前調查研究的主流,其最主要的優勢是可以搭配統計理論,用樣本去推論母群體某個重要的參數或特徵值,並且在某種信賴水準或信心程度上面提供相關的訊息讓研究人員瞭解這樣的推論可能的誤差範圍。

機率抽樣另一個奇妙之處,是當母群體愈龐大時愈能夠凸顯機率抽樣的好處。比如我想分別調查花蓮縣與全國20歲以上民眾對全民健保的滿意與否,並使用隨機抽樣去取得研究樣本;假設約有八成的民眾對健保滿意,其餘兩成民眾不滿意,如果我想得到的抽樣誤差在95%的信賴水準下不超過±3%,在針對花蓮縣民(假設20歲以上的縣民有150,000人)的調查上我必須從所有花蓮縣民中隨機抽出682位來做為研究樣本;如果我是針對全國(假設20歲以上的國民有15,000,000位),只要從全國20歲以上的民眾中抽出684位就可以達到同樣準確度的估算。雖然花蓮縣與全國的人口數相差很大,可是如果使用隨機抽樣的話,這兩份調查所需要的研究樣本數卻只有非常小的差距[1](幾乎一樣)。這表示當母群體中的個體數愈大時,所需樣本數也會跟著增加,但是增加的幅度卻是快速遞減,當母群體個數超過某一個程度時,所需的樣本數便都完全一樣,這對研究人員來說實在是一大福音。也正是因為如此,社會科學的研究與調查研究才可以用有限的成本與精力,相當準確地估算廣大的社會中的各種現象與變化。

常見的機率抽樣方法有四種:(1)簡單隨機抽樣(simple random sampling, SRS)、(2)系統抽樣(systematic sampling)、(3)分層抽樣(stratified sampling)、(4)群集抽樣(cluster sampling)。

簡單隨機抽樣(SRS)是我們經常接觸到的抽樣方法,比如摸彩或抽獎,或辦公室需要有人出公差去送資料時用抽籤決定人選。SRS的特色是母群體中的每一個體都有相同的機會被選中進入樣本,這是一種最公平且概念上最簡單的抽樣法,可以直接套用統計學原理去進行估算與推論。在進行SRS時,我們必須有一份所有母群體個體的名單(sampling frame),然後再隨機從中抽出個體來組成樣本;常用的方法可以將這個母群體的個體做成籤條,放入籤筒,加以充分攪散,再去抽籤;或者將名單加以編號,用亂數表或亂數產生器去得到所需要數目的亂數,用這些亂數所對應的個體組成樣本。

比如我要隨機抽樣50間醫院,再前往進行個別訪談,來研究台灣所有醫院(假設有500家醫院)的(非健保)自費收入服務與成果(如自費項目與收入金額),先要製作一份所有醫院的名單,並依順序加以編號(1-500),然後透過Excel中的亂數產生器得到50個介於1~500之間的號碼,將對應這些號碼的醫院從名單中找出來,便成為一份SRS樣本。

不過實際上在很多情況下SRS並不容易進行,甚至是不可能做到,像是如果我們沒有完整的醫院名單,或者這份研究計畫的交通費預算有限,無法讓我到由SRS所得到分散在各縣市的樣本醫院去一一做訪查,這時SRS便不是一個很實用的抽樣方法。

系統抽樣方法是一種簡化的隨機抽樣法,最普遍的做法是從母群體的名單中,按照一定的間隔取出足夠的個體組成樣本。比如我們可以從這500家醫院的名單中,每10間醫院取一間來做為樣本個體。但首先我們必須先隨機決定一個起始的號碼,也就是從1-10之間隨機選出一個號碼,假如選中的是3號,則我們從3號開始,每10號取一家醫院做為樣本(3, 13, 23, 33,…493)。

系統抽樣適用的情況是當我們有一份醫院名單,可是這份名單沒有編號(也許因為名單太長無法編號)或沒有按順序編號時,或者沒有現成的名單時。比如我想了解在今天馬上知道當天門診病人的就診滿意度,便可以用系統抽樣,先決定要抽樣的間隔(假設是每10位門診病人取一位),隨機決定一個1~10之間的號碼(假設是7號),然後在病人報到櫃台,從今天報到的第7位門診病人開始,每隔10位就抽訪一位病人(7, 17, 27,…)進行滿意度調查,直到當天門診結束為止。

系統抽樣如果要得到能夠代表母群體,沒有偏差的樣本,前提是母群體個體的排列方式與我們選取樣本的間隔數之間沒有關聯性,萬一這兩者之間有某種相關性時,會導致我們所抽出的樣本有所偏差。比如這家醫院剛好有10間診間與10位醫師在看診,門診病人是依照報到順序被櫃檯人員指定前往各個診間給醫師診療,因此我們所取到的病人樣本事實上都是由7號診間的醫師診療,而不是平均分散在各診間的病人,因此無法代表所有今天就診的病人。當然這樣的情況不常見,但是不能不注意。

分層或分組抽樣是一種比SRS更精準的隨機抽樣法,所用的方法是跟據我們的研究性質,依照相關的條件把母群體中的個體分成不同的層別或組別(strata),再分別從每一層別或組別中的個體隨機抽出一定的個體來組成樣本。分層抽樣可以再分為兩種,分別是分層比例抽樣(proportionate stratified sampling)與分層非比例抽樣(disproportionate stratified sampling)。比如我們將所有醫院分為地區醫院(假設有400家,佔醫院總家數的80%)、區域醫院(假設有80家,佔醫院總家數的16%)與醫學中心(假設有20家,佔醫院總家數的4%)三個層別,如果我們是依照各層別醫院佔醫院總家數的比例來分配樣本名額,便是分層比例抽樣,這時我們從20間醫學中心隨機抽出2家(50x4%=2),從80間區域醫院中抽選出8間(50x16%=8),再從400間地區醫院隨機選出40間(50x80%=40),來組成共50間醫院的樣本。

若採用分層非比例抽樣方法,則是須視研究需要決定各層別要抽選的醫院家數,比如樣本中要有各10間醫學中心與區域醫院,以及30間地區醫院,我們就分別從各層別中隨機抽出所被分配的數量,來組成最終的樣本。

這兩種方法原則上以分層比例抽樣較為理想,這是一種特殊情況的簡單隨機抽樣(因為母群體中的每一個體被選中的機會都一樣),事實上透過分層比例抽樣所得到的樣本比簡單隨機抽樣所得到的樣本更有代表性,其抽樣誤差的程度會等於或小於SRS。不過雖然分層非比例抽樣的抽樣誤差程度比較大,在某些情況下仍相當有必要且有用。這些情況包括:(1)如果調查經費有限,而進行某個層別的醫院的調查要比其他層別醫院來得容易或成本低時,我們基於經費或人力考量,可能需要多抽某個層別的醫院,而減少另外層別醫院的樣本;(2)如果某個層別的醫院數量很少時,當我們按照比例原則去抽樣時,此層別的醫院在樣本中個體可能會偏低(比如前面用分層比例抽樣所得到的醫院樣本中,醫學中心只有兩間,有可能不夠),這時我們就可以給予這個層別的醫院較多的樣本名額,以提高該層別在樣本中的代表性;(3)有時我們並不是要去估算整體醫院的自費服務或收入的情況,而是想去比較這三個層別醫院在自費服務方面的發展與成果是否有不同,這時每一層別醫院在樣本中必須有一定數量,才有足夠的比較基礎,因此就得用到分層非比例抽樣方法。

群集抽樣也是跟據某種母群體的特性,將母群體中的個體分成不同的群組(clusters),然後從這些群組中隨機抽出部分的群組,再從被選中的群組中隨機抽出足夠的個體來組成樣本。比如我們將500家醫院依北區、中區、南區與東區分為四個群組,再隨機抽出其中一區,最後從這一區的醫院中隨機抽出一定數量的醫院做為調查樣本。

群集抽樣的分類經常是用地理條件來分群組,當我們抽選出特定的群集時,我們也就縮小了樣本的範圍,這對於面對面的訪查工作非常有幫助,因為可以大幅節省調查工作中交通的時間與成本。不過群集抽樣若要得到正確的結果,每一個群集中的個體最好差異化越大越好,而且每一個群集之間個體的組成型態愈一致愈好。這是因為我們要用某一個或某些群集中的個體來代表母群體,所以理論上每一個群集中所含的個體最好就是母群體的縮影。前面的例子用北、中、南、東四區來畫分醫院群集其實對研究醫院的自費服務並不是很理想的方式,理由是這四區之間的社會經濟形態、人口密度、醫院分布與屬性都有很明顯的差異,這些因素都會影響醫院的自費服務發展,所以只用其中某一區的醫院來探討全國醫院的自費服務發展情況是會產生嚴重偏差的。

回過頭來看分層抽樣,所需要的理想條件正好與群集抽樣的相反。對分層抽樣來說,理想的狀況是層別中的個體相似性愈高愈好,而不同層別之間的個體相似性愈低愈好。因為在分層抽樣中,我們希望各主要類別的醫院都能被包含到樣本裡,使樣本有廣泛的代表性,所以如果我們能夠找到會直接影響研究主題的因素,根據這些因素來區分層別,便能夠確保樣本中不會漏掉重要的層別。

這四種機率抽樣的方法各有優缺,沒有哪一個絕對優於其他方式,而且可以適用任何的狀況。各種抽樣方法總是在效率/容易執行(efficiency)與精確(precision)這兩個目標之間做拉鋸戰,研究人員必須視實際狀況做取捨,選擇最適合的抽樣策略。

SRS好處是容易明瞭及估算,缺點是可能缺乏效率,費工費時,甚至有時候是不可行的,即使抽樣作業可行,所得到的樣本可能在後續的資料收集上無法執行。系統抽樣一般來說比SRS容易執行,不過有潛在的偏差可能性,有時候後續資料收集有實際困難。分層抽樣的好處是其樣本的代表性與所得到的結果的精確度比其他方法來得理想,但問題在於有時候研究人員缺乏相關的資訊去將母群體畫分為不同的層別,同時,分層抽樣調查一般來說執行成本相當高。最後,群集抽樣可能是這些方法中花費成本最低的調查方式,可是研究人員必須冒著某種程度的偏差風險,有時候我們連到底其中的誤差風險有多大都不完全能夠掌握。

當然,這四種方法也可以視需要與狀況互相結合,比如在系統抽樣、分層抽樣與群集抽樣中也都有部分用到SRS。對於大規模的調查計畫,也可以先採用分層抽樣或群集抽樣,然後再用系統抽樣決定最後樣本。好處是,只要是用機率抽樣方法,統計理論便可以派得上用場,讓我們獲得有一定準確程度的結果。

[1]這是單單比較所需樣本數的多寡,並沒有考慮對全國抽樣與對花蓮縣抽樣以及後續樣本的調查方面所需投入的技術難易度、成本、時間的差別。

10 則留言:

Tony 提到...

終於等到你談這範圍。

同意你說只要是用機率抽樣方法﹐統計理論便可以派上用場來作估算。這講容易﹐真的算起來就花了。四種機率抽樣不同的組合﹐算平均值的公式都一樣。但是估計樣本分配 (sampling distribution)的形狀和如何算標準誤的公式就各自不同﹐複雜得可怕﹐都是靠微積分加上什麼矩陣求出公式。不算出標準誤﹐又什麼統計考驗都做不成。這教科書講的容易﹐真槍實彈要做起來﹐就沒幾個人會。

讀者會問﹐難道不都靠那些統計軟體去算嗎﹖公式不就自然寫在裡面了﹖

錯了。那些統計軟體﹐比方STATA, SAS, or SPSS一般的統計考驗分析都假設是用SRS。必須要使用裡面特別的procedures跟survey相關的﹐定義好那些變數是strata, cluster, and primary sample unit (PSU)去算才是對得。

最近民調和商業統計開始使用bootstrap這種叫做重複抽樣的統計方法。這種統計分析法依靠簡單的公式﹐讓電腦去跑。比方說。從一個母群裡你抽出abc三個人/樣本。抽樣的方式和組合可以很複雜。

但是我用bootsstrap重複抽樣來估計母群的標準差時就很容易了解。重複抽樣的意思是我從abc這樣本本身再來抽。抽的時候是replaceable。如果我每次從這三人中抽兩人﹐就有aa, bb, cc, ab, ac, & bc 組合的可能。好﹐每次我抽兩人。這樣重複抽一百次﹐每次一抽出來﹐就這兩人就算一次平均值和標準差。所以最後我就有一百個平均值和一百個標準差。我再把這一百個平均值平均起來的最後平均值﹐不能正確估計母群(別太快失望)的平均值。但是把這一百個標準差平均起來的平均標準差﹐卻能逼近樣本分配的標準誤(the sampling error of sampling distribution)。所以真正的做法是我單純就求abc這樣本的平均值代表母群的平均值。不過用上面這bootstrap的方法估計母群的標準差。

當然事情還有更複雜的內情。比方用bootstrap在小樣本上﹐算出的估計信心範圍(confidence intervals)就不是不偏估計﹐需要其他方法修正。不過這起碼簡化了傳統統計的難度。

可以參考這份對resampling的介紹。
http://bcs.whfreeman.com/ips5e/content/cat_080/pdf/moore14.pdf

thchou 提到...

Tony,
果然被您逮個正著。這門課老師在春假期間開了一薄薄的本書(由U of Michigan生統所教授Kalton寫的Introduction to Survey Sampling)要我們唸。裡面是有簡單提到估算各種抽樣方法的standard error(se)的公式,不過說真的,我只知道有方法可以算,但沒有真正去瞭解。
看來bootsstrap就是回歸sampling distribution的基本面,透過重複抽樣去取得se,而非再透過統計公式去做。這的確是一大福音,而且電腦要做這件事可以說是輕而易舉(如果已經有這個功能的話)。
另外我的問題是如果是用stratified或cluster sampling所取的的樣本,從樣本中重複抽樣所估算的se都正確嗎?

Tony 提到...

對﹐bootstrap是回歸sampling distribution的基本面。不過重複抽樣是就母群抽出來的樣本又再抽﹐不是回去母群重抽﹐這個要搞清楚。回去母群重複抽樣得到的分配是sampling distribution﹐而且通常是採用not replaceable的方式﹐也就是樣本基本單位不會被重複揀選。從母群反覆抽樣並不是所謂的resampling。

用stratified和cluster sampling﹐甚至是stratified, cluster, 和simple random sampling任意組合的抽樣方式都可以用bootstrap得到對母群se的不偏估計值。就用一個公式到底﹐要操勞就操電腦﹐讓人腦清爽自在。至於電腦的功能﹐在STATA裡就叫做Resampling。在SPSS裡叫做Exact Tests。在SAS裡是用proc multtest。在SPSS 裡可能要另外加買來裝﹐比較麻煩。其他兩種都在基本配備裡就有。

那讀者又會問﹐那這些統計軟體裡另外分析survey的功能呢﹖跟resampling有何不同﹖是用什麼其他原理﹖那些分析survey的功能之所以要使用者告知抽樣裡的細節﹐定義strata﹑cluster﹑and primary sampling unit﹐就是要看複雜的抽樣方法如何排列組合﹐才選哪一套合用正確的公式。算出這些公式的原理﹐簡單講就是用微分把不是標準鐘形normal distribution線性化﹐用逼近的方式算。講到這裡﹐就不敢講太多了﹐因為我不是專搞統計的﹐只知道是用叫做Taylor linearization運算出來。比較起resampling﹐這傳統求se的統計方法對一般人而言實在是霧煞煞。

Kalton 寫的書就是採用這種傳統統計的方向。讀者如果看不懂那些公式﹐不必洩氣。商業界甚至教育界沒幾個人會用﹐反正都丟進去電腦﹐沒人去檢查公式和原理。所以說那些些靠統計軟體公司品牌寫這類功能的人就可信賴嗎﹖哈哈﹐反正大家賭就是了﹐專業是掛出來給別人信的。

注意哦﹐bootstrap和其他類似resampling的方法不是萬靈丹。因為是從一個從母群抽出來的樣本中又再抽樣﹐如果倒楣這第一個從母群抽出來的樣本太小﹐而且又是極端樣本﹐就沒折了。想像如果是一灘污水﹐你光是不斷地去攪﹐攪一百次就能看到大海的縮影嗎﹖所以這一個從母群抽出來的樣本也不能太極端離譜。可是實際上我們既然不知道母群的特性﹐怎麼能知道這一個抽出來樣本不離譜呢﹖這是使用bootstrap最令人懷疑的弱點。其他的部份倒是不難懂。

thchou 提到...

謝謝Tony詳細說明白,對我來說,resampling的概念確實要比用統計公式計算se來得容易明瞭。雖然resampling估算的正確性前提是取決於樣本的品質,事實上用統計公式計算se也是建立在同樣的基礎上,都是用一個樣本所得到的資訊去做估算與推論。但兩者相較之下,我當然會選擇傷電腦,而不要傷人腦的方式了。

Unknown 提到...

作者thchou還有Tony你們好:

這篇文章對我目前的研究相當有幫助,其中Tony所談到的resampling的方法,我想請問一下如果今天真的發生

"從一個從母群抽出來的樣本中又再抽樣﹐如果倒楣這第一個從母群抽出來的樣本太小﹐而且又是極端樣本"

已經考慮各種環境的情況,選擇一個最優的方法去採樣數據,但是還是很倒楣,拿到的數據代表性還是不足,後續應該怎麼處理? 

Tony 提到...
作者已經移除這則留言。
Tony 提到...

抽到極端樣本,事後所能補救的很有限。第一是丟掉幾個可以認定是極端的個體。但如果樣本因此剩下沒幾個,這招不管用,而且要交代為什麼主觀認定極端,就方法論上也很難拗(不然幹嘛要隨機抽樣?)。第二種方法就是去母群再抽些樣本,來跟已有的併成較大的樣本,藉此稀釋掉原有樣本的極端性。可是再次抽樣的條件要控制到跟前一次抽樣的條件幾乎相同,不然兩組合併就沒道理,所得結果因為有confounding effects, 不能正確歸因。

Unknown 提到...

不好意思,請問:量化研究一定要採機率抽樣嗎?如果沒有的話,以哪種非機率抽樣較合適?

thchou 提到...
作者已經移除這則留言。
thchou 提到...

使用非機率抽樣當然也可以進行量性研究,只是分析結果難以擴大對母群體進行推論。選擇何種抽樣方式取決於你的研究目的,時間和經費。可參考此篇文章的內容。