2008年6月19日 星期四

統計學的基本概念

我以前在大學修過機率,在研究所上過兩次統計學,雖然考試都還可以過關,但是可能因為沒有實際去運用,因此有一些統計的基本觀念並不是真的很清楚。這一年來修計量經濟學、研究方法、而且實際參與老師的研究計畫,接觸統計的機會增多,希望藉此機會慢慢將以前沒有融會貫通的統計概念釐出一個比較清楚的面貌。

敘述統計

依照目的與功用的不同,統計學可以分為兩大類,一類稱為「敘述統計」(descriptive statistics),另一類稱為「推論統計」(inferential statistics)。敘述統計主要在幫助我們從一堆看似零亂的數字中整理出其中的型態、意義,讓我們對這些數字掌握其重點並能夠加以描述,將資料轉變為情報。最常用的敘述統計值(statistic)有平均值、極大/極小值、範圍、中間值(median)、標準差(standard deviation)等。我們也經常用圖形來呈現一組數字的形態或關係,比如這組數字出現頻率的分布圖(distribution)是統計最常使用的概念與方法。在各種機率分布圖中,常態分布(normal distribution)是最基本也是最常見的一個,比如在一個60個人的班級裡,學生的身高通常會呈現常態分布的情況,也就是非常高與非常矮的學生人數會很少,越接近平均身高的學生人數會越多。

常態機率分布是一個鐘型的對稱圖型,對稱的中間點是此組數值的平均值μ,而該組數值的標準差σ決定其分布廣度,σ越大,分布圖型就越廣。一個常態分布就是由μ及σ所決定的,而在μ±1σ之間的範圍佔整個圖型面積的67%,在μ±2σ之間的範圍約是95%,在μ±3σ之間的範圍約是99%,也就是:此組數字落在μ±1σ之間的值的個數佔總數的67%,落在μ±2σ之間的值的個數佔總數的95%,落在μ±3σ之間的值的個數佔總數的99%。因此當我們從整組數據中抽到在介於μ±1σ之間的值的機會(機率)是67%;抽到μ±3σ之外的值的機率只有1%,也代表μ±3σ之外的值的發生機率只有1%。常態機率分布不僅對敘述統計很重要,它也是推論統計的基礎。

推論統計

推論統計基本出發點是要透過有限的樣本(sample)的資料讓我們去推論母體(population)的狀況。母體就是我們所關切的現象或問題所涉及到的所有對象,不過有時候母體數目太多,或者因為資料欠缺,我們只能從中選擇具有代表性的一部分做為研究的sample來探討,希望藉此讓我們間接對population的狀況有所了解。

比如有一個老師出了一個作業,要學生在一天內找出今天花蓮縣所有家戶的平均子女數,可是不能直接去問戶政事務所,照理說學生應該要挨家挨戶去問,收集所有家戶的子女人數,加總之後再除以花蓮縣的總戶數,求得每戶的平均子女數。不過這件工作不可能在一天內完成,學生只好退而求其次,用隨機抽樣取得的樣本來做估算或推論。在這個例子中,全縣家戶(母體)的每戶子女數平均值是母體的一個特徵值或參數(parameter),由樣本所計算得到的每戶平均子女數是該參數的統計值(statistic)。假設老師知道花蓮縣所有家戶的平均子女數是2人,但是事實上學生們並不知道這個數字。於是學生用隨機抽樣的方式,取得10個家戶的子女數資料,假設是以下的數字:

1 2 2 3 0 1 2 4 2 0
這個樣本的樣本數N為10,平均值μ是1.7,標準差σ是1.25。

由於每一個樣本都可能有取樣上的偏差,因此根據一個樣本所得到的估算值有可能很不準確(與母體的參數值差距很大),所以我們重複上面的取樣方式15次,共取得15個樣本(每個樣本都有10個數字),計算得到15個平均值(μ1-μ15)與15個標準差(σ1-σ15)。假設這15個樣本的平均值(每戶平均子女數)分別是:

1.7 2.1 1.5 2.5 1.9 2.0 2.6 1.9 1.8 2.2 1.7 2.3 2.0 2.2 1.8

這個由樣本的統計值所構成的數字組合在統計學上非常重要,它們所形成的機率分布稱為「取樣分布」(sampling distribution),統計學家已經證明,取樣分布是一個常態分配,而且當取樣進行的次數愈多,這些統計值的平均值(此取樣常態分布的中點)會愈接近母體參數值。此外,取樣分布的標準差被稱為標準誤差(standard error,用s代表,意義是用這些樣本的統計值要去估算母體參數值所造成的誤差的平均值,s愈小愈好)。在以上的例子中,我們從這15個樣本的統計值得到:平均值μ是2.01(相當接近母體參數值2.0),標準誤差s是0.31。

不過,通常我們最容易混淆的地方在於,在真實的情況下,我們只有一次樣本的資料,也就是我們只進行一次取樣 (不是15次,更不是很多很多次),而拿一次取樣得到的資料作為樣本來估算母體的參數。因此,取樣分布是理論上的概念,並非實務的運用。在這種情況下,我們便用某個樣本的統計值做為概念上取樣分布的平均值,而且統計學家發現,取樣分布的標準誤差可以由該樣本的資料去計算,用以下的公式表示:s=σ/√N

用以上的例子,我們可以從第一次的樣本得到取樣分布的平均值μ=1.7, 標準誤差s=1.25/√10=0.39。(但是如果依照我們剛剛所取得的15個樣本來計算,取樣分布的μ是2.01,標準誤差s是0.31)

當然我們可以直接用該樣本所得到的統計值1.7做為母體參數的估算值(estimate),但是由於這只是從一個樣本的統計值來的,所以有可能誤差會不小。因此通常我們比較不採取這種「點估算」(point estimation,用某一點的統計值做為母體參數的估算值),而是採用「區間估算」(interval estimation,用某個範圍的值做為母體參數的估算值)。

由於取樣分布是常態分布,從前面的描述我們知道,落在μ±2s之間的值的個數是佔總數的95%,落在μ±3s之間的值的個數是佔總數的99%。因此,1.7±2*0.39=[0.92,2.48],這也就是說,如果我們進行100次的取樣,大約有95次的樣本統計值會落在[0.92,2.48]之間。因此,[0.92,2.48]是母體的參數的95%信心區間(confidence interval)。當我們用樣本去估算母體的參數值時,我們不可能得到有完全把握正確的值,只能用信心區間[1]去表示。

如果取樣分布的標準誤差s越小,我們所得到的信心區間會愈窄,表示我們所估算的範圍變化程度愈小,這是我們所希望的。由於s=σ/√N,所以當N愈大,s愈小。這表示如果我們取樣的樣本數(N)愈大,取樣分布的標準誤差就愈小,我們所估算的信心區間就愈集中。我覺得將這些基本觀念釐清之後,對瞭解統計的應用應該會有所幫助。

[1] 95%信心區間經常被誤解為該區間有95%的機率會涵蓋我們想要知道的母體參數值。信心區間必須從取樣分布去瞭解,它其實是一種對母體參數間接的代表值,是指有95%的樣本統計值會落在此區間內,而樣本的統計值並非真正的母體參數值,所以假設很不幸我們取到了100次都很沒有代表性的樣本,那所得到100個統計值其實都偏離母體參數值很遠,因此就算其中有95個落在該區間裡,該區間也是不能代表母體參數值。

4 則留言:

To New York 提到...

基本的概念徹底弄清楚﹐才有辦法駕馭研究需要的各類統計方法。太多人搞不清楚推
論統計最基本的概念﹐最後都不知道在讀什麼。然後論文的題目搞得很大﹐天花亂
墜。但是注意檢查這些人的研究法﹐卻是亂七八糟。垃圾進垃圾出。這種情形在有
關教育的研究特別多。

如果是走質化研究﹐就相對地比較不會接觸到統計方法。但是避免碰統計的質化研
究﹐分類歸納理論和英文寫作能力要很強﹐不見得就比較簡單。所以在社會和管理
科學裡面﹐大部份人還是走量化研究。從事社會科學的量化研究﹐因為顧慮被研究
者隱私和權益各類問題﹐還有是考慮到外在效度/應用性﹐除了心理學研究人類很基
本的認知歷程外﹐採用實驗室研究法。一般通常是採用量表和問卷來避免實驗室研
究法的限制和困難。

基礎的推論統計建立在簡單的隨機取樣(simple random sampling, SRS)。但實際在
作研究的時候﹐取樣的方法通常都不是那麼單純。理由有二。其一是通常代表母體
(母群)的樣本清單(roster)拿不到﹐比方說母群是美東地區所有的台灣人移民﹐要
去抽樣的時候並不一定能拿到所有住在該區台灣人的名冊﹐好作隨機抽樣。其二即
便能拿到這份清單﹐隨機去抽﹐樣本可能四散各處﹐或是只集中某些區域(隨機抽的
呀)﹐考量去訪視旅行所需的研究支出可能很龐大。所以就必須在抽樣上作某程度的
妥協﹐用特定抽樣的方式﹐比方採用stratification或是clustering。當抽樣作這
種調整的時候﹐計算集中量數的估計值﹐比方平均值的估計跟簡單隨機抽樣還是一
樣。但是標準誤差(standard error)會比簡單隨機抽樣大。如果用一般計算推論統
計的標準誤差公式﹐會低估真正的標準誤差﹐導致容易犯第一類的統計錯誤(type
one error or alpha error)。

至於用什麼另類公式﹐通常是採用Taylor series複雜的計算方式。不然就是採用replicate
methods來計算。這些進一步的統計﹐一般研究所的統計課程不會教。更麻煩的是連
一般統計軟體﹐比方SPSS或SAS在計算標準誤差時﹐都只是假定簡單隨機取樣﹐忽略
研究者真正面對的難題。這些東西研究所老師多少都知道﹐但除了統計系之外﹐其
他系所的老師也是混﹐為了省麻煩﹐不願開課教學生﹐卻會在審查論文的時候用這
挑學生的麻煩。所以如果可能﹐記得要看哪裡有開complex sampling & analysis的
課﹐要去拿(不然就推智芬去學﹐有統計的底子比較容易)。

這個很要緊。我在研究所的時候沒有人告訴我。好在我採用實驗室研究法﹐不然就
很慘。是我最近到ETS工作﹐去華府受教育統計局問卷資料庫分析訓練的時候才學到﹐
現在還在自修。

thchou 提到...

謝謝Tony提到幾個很實用且重要的提醒。我覺得統計充滿各種假設,在使用時實在是要很小心,這也是統計愈變愈複雜的原因。可是,為了處理某些"不完美"的樣本或特殊的狀況,就得再做新的假設。要應用研究的學者去熟悉這麼多的假設,實在是力有未逮。

LWR 提到...

冒昧打擾,近日在網路上搜尋許多抽樣方面的資訊,在本站上看到您對於一些統計概念清晰的論述,對沒有相關背景的我幫助頗大,有個小問題不曉得方不方便進一步跟您請教?

在您提到"取樣分佈的標準差被稱為標準誤差(standard error,用s代表,意義是用這些樣本的統計值要去估算母體參數值所造成的誤差的平均值)"的這個部分,不曉得此處的平均值,指的是否為此估計誤差之標準差的平均值?

另外,既然我們可以用公式s=σ/√N去簡單計算單次抽樣所估算的standard error,那麼我們又如何看待此方法與為了使結果能夠越趨近母體參數值而進行多次取樣後所求得的standard error兩值之間的差異?

希望貿然提問不要產生您太大的困擾,不管如何,先謝謝你了!

thchou 提到...

LWR:
謝謝您的留言與討論。
關於第一個問題,就我所知,s應該不是各個樣本的標準差的平均值,而是所有樣本的平均值的標準差。如果是前者的話,那s應該會與各個樣本的σ差不多。事實上s會比σ小很多才對。
有關第二個問題,如果我們可以多次取樣,所得到的估算質與標準誤差會是比較準確。不過因為我們很少這樣做,而只取樣一次,因此必須冒某種程度的風險,將標準誤差的估算值拿來當真正的s。如果我們這一次取樣有嚴重偏差,則s當然也會嚴重偏差。如果是重複多次取樣,這樣的問題便小很多,因為我們不是以一次取樣來決定結果。