為了美麗的地面: 假設檢定(hypothesis testing)的統計原理

2008年9月14日星期日

假設檢定(hypothesis testing)的統計原理

假設檢定是推論統計中相當重要的一環，也是其主要目的之一，絕大多數的實證研究的結論也是來自或根據假設檢定的結果。不過假設檢定的統計原理其實有點吊詭，與我們直覺上所想的有些不一樣，有時候不同學者的見解也不一定完全相同，比如去年我上計量經濟學時，授課的Dr. Harless告訴我們單尾的虛無假設與對立假設的敘述方式分別是：H0: β≤0; H1:β>0；可是最近教我們計量經濟學的群組追蹤與非線性方法的Dr. Stratton卻告訴我們正確的敘述方式應該是：H0: β=0; H1:β>0[1]。這讓我想要進一步將相關的原理弄懂一點，並回顧一下以前所學的，希望能釐出一個較清楚的面貌。

推論統計的目的是要讓我們能夠根據一組樣本的資料，去推論母體的狀況，其中主要是透過母體參數的估計(population parameter estimating)以及假設檢定(hypothesis testing)來達成這個任務。首先，母體參數的估計讓我們用樣本去推算某一個母體參數的值，但是因為抽樣會有誤差，因此我們的估算值也會有誤差，這時假設檢定就是要透過一套系統的方法，提供客觀的訊息幫助我們知道估算值可靠的程度大概有多大。假設有一家醫院檢驗科實施一套新的抽血作業標準，希望將病人的抽血平均等候時間降到2分鐘以內。因此我們想去了解該醫院檢驗科實施新措施之後，病人抽血平均等候時間是否有低於2分鐘。首先我們可以隨機抽出一組病人，去取得他們在檢驗科等候抽血所花的時間，算出其平均等候時間(假設是1.7分鐘)，藉此值去代表該院檢驗科所有抽血病人的平均等候時間，可是由於我們從樣本所得到的估算值有誤差，我們不能因此就斬釘截鐵說該檢驗科抽血病人平均等候時間就是1.7分鐘，已經達到目標。這時我們必須藉由假設檢定，去探討這個估計值在統計上是否顯著低於2分鐘？

假設檢定的基本根據是抽樣分布(sampling distribution)，為容易討論起見，這裡僅就一組數字的檢定來看，而不考慮其他較複雜的兩變數或多變數的關係檢定。如果我們想藉由抽樣調查去了解某家醫院檢驗科病人抽血平均等候時間，於是隨機抽樣取得10個病人的等候時間資料(單位是分鐘)，假設是以下的數字：
1 2 2 3 0 1 2 4 2 0

這個樣本的樣本數N為10，平均值μ是1.7，樣本標準差s是1.25。
若依照統計原理，理想的狀況應該是要取得愈多組樣本資料愈好(重複抽樣很多次)，因為當我們進行愈多次抽樣，我們就能得到很多μ值，而這些μ值便能夠成一個新的分布，稱為抽樣分布，這是一個根據統計理論所建立起來的虛擬分布，而不是一個真實的分布，但是如果我們真正去做許多次抽樣，就可以建構出抽樣分布。統計學告訴我們，這個抽樣分布會是一個常態分布，其平均值會很接近真正的母體平均值(在這個例子中即為該醫院全部檢驗科病人抽血的平均等候時間)。

我們有辦法抽樣無限多次時，這個抽樣分布正好會是一個以母體平均值為中心的常態分布，此取樣分布的標準差就叫做平均值標準誤差(standard error of the mean)，簡稱標準誤差(以se表示)。不過實際上我們只做一次抽樣，而拿這組抽樣的平均值做為我們的參數統計(代表)值，而且統計學家告訴我們，s/√N這個值會非常接近取樣分布的標準誤差se。於是我們就根據一次的抽樣，以其平均值1.7為中點，se=s/√N=1.25/√10=0.39為標準誤差來模擬真正的取樣分布。

當我們用一個樣本的平均值(統計值)來代表母體的平均值時，儘管會有誤差，但有一個好消息是樣本平均值是一個一致(consistent)或不偏差(unbiased)的統計估算值，也就是，當我們的樣本數N(一個樣本中所含的數目量)愈大時，其平均值會愈接近母體平均值，所以我們可以靠增加樣本數來提升估算值的準確度。

不過，因為我們的樣本數總是有限的，因此實際上我們沒有十足的把握可以從樣本中得到完全正確的代表值，但是有一個辦法可以大致讓我們知道誤差的程度有多大。前面我們從樣本建構出一個以1.7為中點，0.39為標準誤差的取樣分布，由於取樣分布是一個常態分布，根據常態分布的特性，告訴我們當我們取樣100次時，大概有95次的樣本平均值會落在[0.92, 2.48]的區間(1.7±0.39*2)內，統計學稱這個區間為95% confidence interval(95%信心區間)。在這個例子中，1.7是一種點估算值，而[0.92, 2.48]是一種區間估算值。

這個樣本所給我們95%信心區間包括了2.0以上的值[2]，即(2.0~2.48)，這時我們要問，到底我們根據此樣本所得到的1.7分鐘與2分鐘到底有沒有不一樣？或者我們也可以問，我們是否有把握(或有多少把握)說這1.7分鐘確實低於2分鐘？前一個問題是屬於雙尾的假設檢定(two-tailed test)，後一個問題則是單尾的假設檢定(one-tailed test)。第一個問題的假設應該是這樣：
H0: 統計估算值=2
H1: 統計估算值‡2 (包括大於2或小於2)

H0稱為虛無假設(null hypothesis)，H1稱為對立假設(alternative hypothesis)，其實在統計學中，H1才是我們真正關心並且想要了解的條件/狀況，可是樣本估算有誤差，因此我們無法直接證明這些狀況是否為真，只好退而求其次，以推翻或拒絕相反的狀態(虛無假設)，來間接求證對立假設。

前面提到，根據這個樣本，我們所得到的是一個中間值為1.7，標準誤差為0.39的虛擬取樣分布，統計學家為了檢定以上的假設，提出檢定統計值(test statistics)的概念，不同型態的分布有不同的檢定統計值。在這個例子中是常態分布，因此所使用的檢定統計值z statistics[3]=(1.7-2)/se=-0.3/0.39=-0.77。其實是將取樣分布轉換成一個以0中點，標準差為1的標準化常態分布(standardized normal distribution)稱為z分布，我們便要去檢定這個z statistic在統計上是否與0有沒有明顯差別，或其差別的程度有多大。

由於我們所得到的z statistic是0.77，在標準化常態分布下，小於-0.77與大於0.77之間的面積占整個分布圖面積的0.426(42.6%)，意思是說當我們取樣100次時，大致有42.6次的z值會落在超過±0.77以外的兩端。在這裡，統計學稱0.426為p值，p值是一個介於0與1之間的值，當p值愈大，虛無假設(H0)成立的機會就愈高，我們就愈沒有立場去推翻虛無假設[4]。因此在假設檢定中，我們總是希望看到p值愈小愈好。在實務上我們會先根據z statistic去計算p值(此處是0.426)，代表當我們抽樣100次時，所得到的估算值會涵蓋到2的情況大致有42.6次的機會。因此雖然我們從該樣本所得到的估算值是1.7，但是如果我們真正取樣100次，我們可能有42.6次會得到等於或超過2的估算值。

不過，p值要多小，我們才有足夠的證據去推翻虛無假設呢？這是一個很不容易有定論的判斷。一般學術界是以0.05或0.01為一個基準值，當p值低於0.05或0.01時，我們便會推翻虛無假設。可是0.05或0.01並非一個亙古不變的定律，而且如果p值是0.055或0.012時，我們要怎麼辦？此外，是不是不管樣本數大小，都必須用同樣的基準值呢？事實上0.05的基準值是早期資料取得不易，也沒有電腦協助進行統計分析工作時所常用的基準，現在資料取得已經比以前容易，並且有電腦的輔助，大量資料的統計分析要比過去容易很多，當樣本數很大時，要達到0.05或0.01的基準值可以說易如反掌，所以p值的基準值應該也要調整才對。此外，有些研究對於假設檢定的標準要求較高，有些條件比較寬，因此也可能會採取不同的基準。比如與生命有關的研究(如藥物療效的檢定)，檢定的標準會比一般社會科學研究(如評估某種新教學方法的效果)的標準來得嚴格。
此處，我們所選擇的p值的基準值，統計學上也稱為α，是代表我們在做假設檢定的所用的顯著水準(significance level)，α值愈小表示我們採用愈嚴格的檢定標準。當我們決定採用的α值時(假設是0.05)，便在標準化常態分布圖形中設定了臨界區(critical region)，如果是雙尾的假設檢定，α所代表的區域是分布圖形下方超過臨界值兩端的面積臨界區佔整個分布圖型面積的比例(每一端的臨界區各佔0.025)。當我們得到的z值落在臨界區中時，表示我們可以推翻虛無假設。

如果我們想要了解的是我們能不能(或有多少把握)說從樣本所估算的這1.7分鐘確實低於2分鐘？這時我們要用單尾假設檢定(one-tailed test)，假設的敘述如下：
H0: 統計估算值=2 或統計估算值≥2
H1: 統計估算值<2

這時如果我們得到的估算值是大於2時，代表無法推翻H0，不用再計算z值。如果我們得到的估算值是小於2，如1.7，我們便去計算z值=-0.77，並得到p值=0.426。但由於此時我們所要檢定的只是左端(單尾)臨界區，但是p值是兩端的臨界區，因此我們再將p值除以2，得到單尾的p值=0.213。如果我們採用α=0.05的話，這個單尾p值還是比0.05大，因此我們無法拒絕虛無假設，表示我們從樣本得到的1.7分鐘還是無法給我們足夠的把握或證據，去下結論說檢驗科已經達成抽血病人平均等候時間低於2分鐘的作業目標。

如果用臨界區的圖形來看，在單尾的檢定中，左端臨界值以外的分布圖下方的面積會是整個分布圖面積的α，因此單尾的臨界值會比雙尾的臨界值更往右移，我們的z值會更容易落在臨界區內，虛無假設會更有機會被拒絕。一般來說，與雙尾檢定比較，單尾檢定比較容易呈現顯著的結果(比較沒那麼保守)。

至於單尾的假設敘述哪一種才對，H0:統計估算值=2還是H0:統計估算值≥2？主張前者(simple approach)的論點是說我們所要想推翻的虛無假設，總是針對某一個值(如2)，而非一個區間(如≥2)，這種論點應該是從先確定α值，訂出臨界區(拒絕區)，再看z值是否落在臨界區內來做假設檢定，因此是針對某一個值去考量虛無假設。不過我覺得這種主張有一個問題，當我們推翻H0:統計估算值=2時，並不能自動告訴我們H1:統計估算值<2，也有可能是h1:統計估算值>2的情況，因此有其敘述上的缺陷與不確定性。

主張後者(compound approach)的思考比較是從先算出z值，再求得小於z值的區域佔整個分布圖型的比例(單尾p值)，最後與α做比較，因此是針對某一個區段去考量虛無假設。

在進行假設檢定時，另外有幾個重要的統計概念。由於檢定是根據機率的法則，由於資料的誤差不可避免，不管再怎麼嚴謹，都還是有可能做出錯誤的結論。統計學列出四種主要的情況：(1)事實上虛無假設是對的，我們並予以接受、(2)事實上虛無假設是對的，我們卻加以推翻(型一錯誤)、(3)事實上虛無假設是錯的，我們並予以推翻、(4)事實上虛無假設是錯的，我們卻予以接受(型二錯誤)。

型一錯誤的機率剛好是我們所採用的檢定顯著水準α，因為當p值低於α值時，我們便會推翻虛無假設，所以我們還是會有α的機會將不該推翻的虛無假設給拒絕掉，犯下type 1 error。由此可見，當我們採用愈小的α值時，我們犯type 1 error的機率就愈小，而做出正確決定的機率(1-α)就愈大。

統計學用β來代表犯型二錯誤的機率，因此當虛無假設是錯的而我們加以推翻的機率就是(1-β)，統計學中稱此為power，代表我們能夠偵測出存在於母體中某種關係的精確度，這是研究的主要目的。理論上我們希望將α與β同時降到愈低愈好，可是這兩種錯誤事實上很難兼顧，因為當α降低，(1-α)增加，因此增加接受虛無假設的機會，也會增加犯型二錯誤的機會(β)。因此在現實的狀況中，α與β經常是要做取捨。

α與β這兩個值，α是由我們決定的，β則受到幾個因素的影響，第一個因素是α；第二個因素是樣本數，當樣本數增加，β減少，power增加；第三個因素是母體的關係強度(population effect size)，當母體中我們所關切的關係本身很明顯時，能夠被我們偵測出來的機會也就愈大，所以我們犯type 2 error的機率也就降低。

[1] 其實這兩種假設的敘述方式都有人使用，各有道理，前者稱為compound approach，後者稱為simple approach，但是出發點不太一樣。
[2] 如果我們得到的95%信心區間包括我們想要檢定的值，那表示我們所得到的估算值與該檢定值在統計上並沒有顯著差別。當我們抽樣100次，大致有5次以上的樣本所得到的估算值會靠近這個檢定值。
[3] 在原來的取樣分布中，z值代表的意義是距離我們的估算值z倍的se的一個點，當z絕對值愈大，表示該點離估算值愈遠。
[4] 此處，最妥當的假設檢定的陳述方式應該是：根據該樣本的估算，有以下這有兩種狀況：(1)要不是我們的虛無假設是錯的，不然就是(2)我們的虛無假設是對的，不過當我們隨機取樣100次時，這種情況會出現42.6次。

6 則留言:

Tony 提到...: 教過你的兩位老師對於虛無假設和替代假設之間差別的教導﹐實在都怪怪的。在文章
一開始你用β的符號﹐我想可能是這些老師在介紹多元線性迴歸的時候﹐討論到對
迴歸係數的考驗結果到底顯不顯著。

關於迴歸係數﹐前面的正或負符號其實比較指明的是迴歸預測線的方向﹐而不是表
示該迴歸係數淨值的大小。所以簡單的說﹐就是考驗 H0: β=0 or H1:β≠0。如
果硬要把H1當作是關乎β< 0或β> 0的考驗﹐就必須先要有很強的理論或文獻回顧
證明其方向性。不然﹐就是不管其作用的方向﹐先只看這迴歸係數﹐其實就是檢驗
這獨立變項(independent variable/predictor)是不是真的能有效地預測因變項(dependent
/ criterion variable)而已。

另外﹐你沒有提到假設檢驗的科學哲學問題。也就是說﹐在知識的證明上﹐我們是
用不斷地考驗和拒絕虛無假設﹐來“逼近”真理。所謂的逼近﹐就是說即使原有的
虛無假設H0經由實驗的數據和統計考驗﹐最後被拒絕。我們只是用H1來“替代”原
有的虛無假設而已。而不是直接證明H1就是最終的真理。換句話說﹐在統計上﹐你
只能按照抽樣所得的估計值偏離H1的假設值﹐來下結論說H0是錯﹔但卻不能證明H1就
永遠是對。當你拒絕了H0 而接受H1後﹐這H1馬上就變成是H0 ﹐等待著另一個H1來
替代它。

這樣的統計邏輯是建立在“有限未知”的前提。在有限和未知的知識空間裡﹐只要
我們一直證明推翻不正確的東西﹐縮小這未知的部份﹐最後的一個H1﹐一定就是那
不變和正確的真理。所以科學家認為真理是必須要透過證明什麼不是真理來加以反
照。

把科學哲學用在神學上就卡住了。如果把真理看作是神﹑上帝。那我們實在不能直
接證明上帝的存在。必須要逐一證明哪些不是上帝﹐最後才會對上帝有正確的了解。

不過這樣的邏輯依然有問題。這樣的上帝﹐已經被我們假定是可以被局限在人類有
限和未知的知識空間裡來加以了解。如此我們才能借著不斷地推翻替代假設H1來逼
近那個最終不變﹑不再能被取代的H0。但萬一上帝的本體其實是超越我們有限未知
的知識空間呢﹖科學到這裡就沒折了。

好在在基督教的神學裡﹐上帝自降格來成為一個人子耶穌﹐進入到我們有限的知識
空間﹐讓我們可以用統計考驗來修正對耶穌的認識。; 2008年9月16日凌晨3:00
thchou 提到...: 感謝Tony指正。
我喜歡你從統計學-科學哲學-神學的連貫想法，很有意思。
你對迴歸係數的討論我很贊同。β在這篇文章所指的是我們從某個樣本所得到的估計值或統計值，假設檢定就是想要去了解此統計值與某個我們所關切的數值或現象是否有明顯的差異，或者說它們在抽樣上有多少機會會相當接近。; 2008年9月16日上午11:45
Tony 提到...: 用統計邏輯推理神學﹐我還沒有看到有人系統地這麼做。我其實也不是原創。哲學家
康得在討論萬物和道德的因果關係時﹐把上帝當成是萬事萬物的第一個原因﹐其他
我們看到的現象都是這第一因演變產生的結果。在統計上推算這種因果關係最像的
就是以迴歸分析作基礎發展出來的路徑分析(path analysis)﹐用來分析和檢驗hypothetical
model。

很多自然科學家之所以有困難了解和接納神學的概念﹐是因為這些人沒有學﹑或是
學過但沒有深刻想過統計/機率中所謂的誤差和不確定性。在科學訓練中﹐目的都是
在避免誤差和減低不確定。即使在管理科學中﹐如何估計和降低風險(risk)好像也
被假定是理所當然。但人類知識的進展和探索﹐其實就是受誤差﹑未知﹑和風險所
引導。到了某個程度﹐人必須要謙卑的承認這些未知的部份是上帝可以涉入的神聖
空間。未知代表奧秘﹐而奧秘豐富我們的人生經驗。這是神學後自由主義﹐也就是
所謂的進步派基督教神學(progressive Christian theology)的核心理念。這不是
什麼新概念。其實是重新體會基督教宗教改革前的神秘主義﹐把古今的概念交織﹐
是一種後現代的做法。

另一方面﹐用一個很簡單的概念去跟其他的領域聯結﹐而有創意的思維和觀點﹐然
後把這創新的思維論述出來﹐是ph.D. 論文層次的訓練。這就是為什麼所有的學科
最高的層次都導向哲學。ph.D 就是Doctor of philosophy。大學讀應用學科的人﹐
在追求碩士學位時通常非常容易。但是到了博士論文階段很多人過不了﹐就是在思
維的訓練上不夠基礎扎實﹐在方法論的訓練上只讀解決問題的實驗方法﹐而不借著
方法論訓練邏輯和跨學科跨理論的思考。美國高等學院也逐漸不注重哲學和數學的
訓練﹐學位的品質越來越差。

博士學位的要求其實不在廣﹐而在精。而所謂精的意思﹐常被誤解是只鑽入某一種
學科而不顧其他。其實﹐是鑽入一個基本的概念和問題﹐而用這概念和問題問所有
學科所提出的理論。比方我博士論文的基本概念就是只問“人怎樣架構表明自己的
認同”。而用這問題看心理學﹑社會學﹑人類學裡所提出的各類認同理論。剛讀博
士學位的人﹐都在各種理論的大海中泊伯泅。但大量地讀到可以的程度﹐就不要再
逛來逛去﹐必須要開始想什麼是自己的核心問題。用這核心問題去選讀“有關的”
就好。但這“有關”的意思﹐其實是不限於自己習慣的學科﹐連新聞和社會現象都
是選讀研究的對象。所以Craig﹐要小心避免只用醫政的角度看全部的社會活動。; 2008年9月16日晚上11:01
Unknown 提到...: hi 请问下关于檢定統計值(test statistic），不同型態的分布有不同的檢定統計值这个关于如何选择分布可以介绍下吗？？; 2016年1月28日上午11:39
魯邦三世提到...: To New York 先生,

不才有一些關於假設檢定的問題想請教你,

不知道要如何跟你進行聯絡?

不才的電子信箱如下：

jayfei2000@gmail.com

如果先進有空的話, 麻煩撥冗跟不才聯絡一下。

預先謝謝您的指導。

Jay 敬上; 2016年10月15日凌晨12:38
魯邦三世提到...: 作者已經移除這則留言。; 2016年10月15日凌晨12:38

張貼留言

訂閱：張貼留言 (Atom)

2008年9月14日 星期日

假設檢定(hypothesis testing)的統計原理

6 則留言:

2008年9月14日星期日