為了美麗的地面: 研究測量的信度與效度

在計量研究中，研究人員必須將各種可能有關連的概念(如醫療品質)加以定義(沒有發生手術感染)，形成操作型定義(=術後病人院內感染件數/手術件數)，這時我們便可以用具體的變數(手術感染率)來衡量我們的抽象概念(醫療品質)，然後我們可以透過測量去取得這些變數的資料，再用計算或統計的方法去分析這些量化的資料。

測量誤差
研究測量過程及所取得資料的正確性與可靠度影響我們的研究品質甚巨。在測量過程中充滿各種誤差(error)的可能性，有一類的誤差稱為「隨機誤差」(random error)，是指突然、無預期而產生的誤差，這類誤差沒有一定的方向或偏好，任何情況、形式都有可能發生。主要的隨機誤差來源有包括如：填寫問卷的人誤解某一題問題的意思，或沒注意勾錯選項；電訪人員在訪問某一個人因為過於疲勞，記錄錯誤或表達不清楚；資料處理人員在輸入資料時不經意按錯數字；被研究人員(如學生)在接受測驗時因為心情不佳或生病，導致無法反應其真正的想法或學習效果；參與研究的訪查人員對於訪查內容或對象的表現認定標準不一致等等。大部分的隨機誤差都不容易避免，也不太可能完全避免。還好隨機誤差對我們所要了解的真象還不致於產生太大的偏差，但是會影響我們在進行統計推論及驗證假設時的準確性[1]。

另一類的誤差是「系統性偏差」(systematic bias)，這類的誤差有一定的型態，比如數據普遍都被高估或低估，導致所測量的資料偏向特定的方向。產生這類誤差的原因有包括：測量儀器沒有校正；研究人員的偏好/偏見；樣本選取的偏差；評量的所有問題都太難或太簡單；問卷設計錯誤等。系統性偏差對研究的正確性與推論的準確性都有嚴重的結構性影響，研究人員必須盡量予以避免。

測量的信度與效度
研究測量的品質當中有兩個面向特別重要，一個是「信度」(reliability)，另一個是「效度」(validity)。信度是指測量以及資料取得的可靠度、一致性、穩定度與準確性。比如我們要測量或收集醫院的手術感染率，如果我們從手術室所拿到的資料與電腦所獲得的數據一致或很接近；或者三位品質管理師去收集到的數據都很一致並且很接近真正的數值，就表示這次的測量或資料收集的信度很高；效度是指測量的方向正確的程度，是否對準我們真正想要測量的標的。比如我們本來要去瞭解醫院的手術臨床品質，我們卻去評量手術病人的滿意度，這就與我們原本想要測量的目標有所偏差了。

解釋信度與效度最好的例子是標靶射箭，如果我射出去的箭都集中在一個靶心附近，代表我射箭的信度很高(既穩定又準確)；如果射出去的箭雖然都集中在一個很小的區域，但離靶心很遠(穩定一致，但不準確)，或者射出去的每支箭分散在標靶的四處，那就是信度不佳(既不穩定也不準確)。效度的問題則是指原本我的目標是標靶A，結果我一直錯把標靶B當作標靶A在射，即使我差不多都射中了標靶B的靶心，可是卻射錯目標了，這是效度的問題。研究測量要先獲得足夠的信度(確保我所測量的差異性不會太大，有一定的一致性與穩定性)，再要求達成所需要的效度(正確測量到我真正想要測量的目標)。

信度的檢測
一般來說，研究測量的信度包含測量的穩定度(stability)、一致性(consistency)與相同性(equivalence)。穩定度是指用兩種以上不同的方法或不同時間所做的測量會得到相似的結果。檢測穩定度最常用的方法是針對相同的研究對象，實施「前後測」(test-retest)，再去計算兩次測試所得到的結果的關連係數(correlation coefficient)。比如我們醫院設計一份新的員工滿意度調查問卷，我們先要測試其穩定性，因此先選一群員工試填，兩個禮拜後再請同一批員工填寫一次(假設員工的滿意度在短期內不會有太大的改變)，將兩次的結果拿來比較，計算關連係數，如果呈現很高的正關連[2]，即表示這份新問卷有穩定性。

針對一致性，研究人員可以檢測評量工具的內部一致性(internal consistency)，以確定該評量工具所測量的內容有一致性(比如員工滿意度調查不會去把到員工的工作表現也混摻進來)。最常見的方法是將問卷中的問題分成兩大半，如果整個問卷有20題，那就分成兩個部分(split-half technique)，各含有10題問題。如果所有問題所測量的有一致性或共同性的，那我就可以比較及分析同一份問卷中這兩邊問題所呈現的結果是否有正關連性。

測量的相同性主要是指不同的測量人(如電訪人員)的認定方式、評量標準、準確度都沒有太大的差異，常用的方法是讓不同的測量人員分別去測量同樣的對象，然後計算及相關系數或相符比率，來檢測量測人員間的信度(inter-rater reliability)。

此外，若要評估問卷填寫人的一致性，通常在問卷中同樣的問題可以出現一次以上，但用相反或類似的意義描述，然後我們可以比較同一位填寫人所寫的內容是否有一致性。信度的檢測可以用量化的方式去進行，目前各種常用的統計軟體都有提供計算信度相關係數的功能。

效度的評估
效度的評估要比信度的評估更為困難一點，挑戰性比較高。因為效度的檢測缺乏較客觀的基準。不過，我們還是可以透過幾個方法去評估效度。第一個方式是「表面效度」(face validity)，也就是該測量工具”看起來”是否已經測量到應該測量的對象，這時研究人員所依靠的是自己的經驗與常識去做判斷。這也是效度檢測的第一關。第二種方法是「內容效度」(content validity)，以員工滿意度調查問卷為例，我們可以去檢查該份問卷內容是否涵蓋到所有與員工滿意相關的要素，比如薪資待遇、工作環境、人際關係、升遷管道等。如果我們要測量國小學生的數學四則運算能力，我們的試卷如果只有減法的問題，那就沒有達到內容效度的要求。內容效度經常是請一組該領域的專家來加以評估，再由個別專家所評估的分數去計算內容效度指數(content validity index)。

第三種評估效度的方式是「準則相關效度」(criterion-related validity)，假如員工離職與工作不滿意度有很密切的關係，那我們就可以拿員工離職做為檢測我們的員工滿意度調查問卷的一個準則，也就是去分析比較我們的問卷所測量到的某位員工不滿意度與離職是否有明顯的相關性，如果有的話，表示我們的問卷很能夠測量到員工滿意/不滿意度的程度，也就是有達到我們所要的效度。當然用某個準則來檢驗測量工具的效度有一個前提，就是該準則與我們的測量工具之間的關係必須是外在、具體且很明確的。這個方法可以分成兩種，一種稱為預測性的準則相關效度(predictive validity)，剛剛所舉的員工不滿意度與離職的例子是屬於預測性的效度，也就是這個準則是屬於預測性、未來的關係。我們則是用實施問卷之後所得到的結果去與該預測性的準則(是否離職)做關聯性比較。另一種是同時性的準則相關效度(concurrent validity)，同時性的效度則是我們所用的檢測準則與測量的對象之間的關係是同時存在的。比如如果極度不滿意的病人很可能馬上會提出訴怨的話，那我們就可以用病人抱怨事件做為準則，來檢測病人滿意度調查問卷的同時性效度。

第四種效度評估方法「構成效度」(construct validity)。「構成」(constructs)是指建構理論的主要成分，也就是理論的主要概念。所以構成效度的方法就是將前面所提到的準則相關效度方法中的準則換成重要的理論要素，用理論的構成來做為評判測量工具效度的依據，也可以說是用理論所描述的關係來檢驗我們的測量工具效度。

比如根據健康經濟學的效用函數與需求理論，年長者與壯年族對於感冒就醫與背痛手術會不同(相反)的考量與態度。我們可以用這個理論所描述的關係，來檢驗我們所設計的一份消費者就醫態度的問卷或量表的效度。我們可以先將問卷分別拿給一群年長者與一群壯年的上班族試填。如果該份工具有一定的效度的話，我們應該會看到這兩個族群對其中相關的問題呈現不同或相反的傾向。這種方法稱為「已知族群檢測法」(known-group technique)。另外一種方法可以比較填寫人對問卷中相同(或不同)取向的問題所填寫的結果是否有相同(不同)的傾向。比如從激勵理論我們知道有獲得適度獎勵的同工會有較高的工作動機，比較不會想離職。因此我們可以分析在問卷中填寫對獲得適度激勵表示贊同的人是否也呈現較高的工作動機(正相關[3])，而且離職意念較低(負相關[4])，藉此方法我們可以檢驗我們問卷的效度，瞭解我們是否測量到我們所關心的概念或要素。

[1] 因為該參數的標準誤差(standard error)會變大，t值或f值會變小，p值變大。
[2] 正關聯顯示員工甲第一次填寫的結果與第二次填寫的結果有很類似的形態，員工乙、丙…也大都是如此。
[3] 用相同關係去檢驗的效度稱為收斂效度(convergent validity)
[4] 用相反關係去檢驗的效度稱為歧異效度(discriminant validity)