2007年12月8日 星期六

統計分析的限制性

現在組織理論都強調須要有實證研究的支持,而實證研究的主流是量性的研究,也就是透過量性數據的收集,並藉由統計或數學模式的分析去檢視各個主要因素之間的關係是否真如理論所預測或描述的狀況。

統計分析的基本原理是藉由大量的樣本資料,希望去計算在母體(真正的群體狀況)中,某一個因素的代表值或估算值(estimator or predicted value),而通常最有代表性或預估能力的估算值,就是樣本資料的平均值。可是問題在於平均值是用一個數值去代表一整批數值,儘管統計學上有輔以變異數或標準差幫助我們瞭解樣本數值的分布情形,可是我們對於個別數值的掌握事實上還是很有限的。這讓我想到「見林不見樹」的問題。統計可以幫助我們了解整體上各個因素之間的關係,但是無法確實掌握因素之間細部的互動。就像如果我們想了解A班與B班學生的學習成效,我們可以將班級A與班級B的平均分數拿來比較,假設A班的平均分數較高,因此整體來說A班的學習成效與B班好,可是這並沒有告訴我們這兩班學生之間的個別差異,比如,A班所有學生的學習成效都比B班的學生差嗎?還是有些比較好,有些比較差?當我們的資料變數越多,或我們同時想所要探討好幾個因素時,就越難從統計中看到個別性。

在計量經濟學當中,我們有上到「某個預估值的信心區間」(confidence interval for a predicted vale)與「預估區間」(prediction interval)的不同之處。比如我們要探討「計量經濟學」這門課期中考的成績與期末考成績的關係,以便用學生期中考成績去預測期末考的成績。用迴歸模式去分析,我們馬上可以獲得兩個預估值,去代表所有學生的期末考成績與期中考成績的關係。比如:

期末考分數=17+0.76期中考分數

此外,統計軟體還會提供我們17與0.76這兩個預估值的信心區間,讓我們了解這兩個數值很有可能的變化範圍。如果我們的資料筆數夠多的話,通常這個預估值是蠻準確的,而且預估值信心區間也會相當小。但是,這可不代表每位學生的期末考成績都是被期中考成績所左右,事實上當我們去計算某一位學生的期末考成績時(用某一個期中考成績要去預估期末成績時),預估值雖然還是一樣,可是預估區間會變得大得多,也就是說,對某些學生來說,實際的期末考分數還是可能與用期中考分數所預估的期末考分數有很大的差距。這當中主要的原因在於統計是將資料加以統整,在這過程中資料本身的變異已經某個程度上被消除了,比如有些期中考分數不理想的學生期末考卻考得很好,有些期中考分數很好的學生期末考卻考得不好,但是在統計中,這兩個效果被中和掉了。所以所呈現的預估值並無法真正代表個別學生的期中與期末考的關係。這也是統計當中「見林不見樹」的現象之一。

這學期我們在進行美國天主教醫院體系的價值觀是否有影響其所屬醫院的服務種類這個題目的探討,當我們用統計去分析相關資料所得到的結果,是指有某種核心價值觀的醫院體系所屬的醫院提供某些性質的服務類別的傾向程度。假設我們發現關連性不明顯,甚至是反關聯;可是,其中可能有些體系的價值觀與其醫院所提供的服務性質關連性高,只不過卻被有些關連性很低的醫院體系給中和掉,因此我們只能說整體來說,關聯性不高,但是我們無法結論說所有的天主教醫院體系所屬醫院的服務性質與其價值觀都沒有關聯性。

統計是很好的研究分析工具,但是它也有其限制及前提,這是我們在運用量性方法進行研究時必須注意及提醒自己的地方,這樣才不會誤用工具,產生誤導的結果。

沒有留言: