教學評量：測驗大觀園|最新文章

facebook twitter line 中列印書籤

教學評量：測驗大觀園

100/06/02 24032

林世華｜臺灣師範大學教育心理與輔導學系

謝佩蓉｜國家教育研究院測驗及評量研究中心

測驗的目的

上課、考試、補習，這樣的三部曲對在臺灣長大的人一定不陌生；從幼稚園到大學，經驗過的大大小小考試，少說上百次。是不是也有過這樣的疑惑：「為什麼要考試？人生如果都不用考試，不是很好嗎？」

考試，專業的用語是「測驗」。中國歷史上，很早就開始以測驗舉才；然而究竟從何時開始，不同學者各有其觀點。有一說是從隋文帝時便開始以考試薦舉秀才，也就是利用測驗找出能為國家服務的人才。時至今日，這個職掌成為考選部的任務，藉由公務人員考試和專門職業及技術人員考試，挑選合宜的公務人力和專業人才。

除了讓國家「選人」外，測驗也用來讓學子們決定未來就讀的學程，例如國中基測、大學學測，還有大學指考、四技二專統測等各項入學測驗。由於升學考試關係到教育資源的分配，是高利害關係的測驗，應運而生的密集「每堂考試」、晚自習、補習，便成為國人求學過程中揮之不去的夢魘。

測驗的類型

測驗的類型很多，教育現場常見的測驗有4種，包括：成就測驗、性向測驗、態度測驗、人格測驗。

成就測驗是用來測量個人對於特定知識或技能的精熟程度，主要用以衡量學習表現。成就測驗可再概分為一般教學測驗和標準化測驗，這兩者因為測驗的目的不同，編製過程和計分解釋的方式也不一樣。

一般教學測驗由授課教師依據教學目標編寫，評估學生學習後所能達到的水準，像是各學科的小考、段考、期中考、期末考等都屬於這個範疇。標準化測驗通常是為了進行較大規模的比較，因此題目品質要好，通常邀集學科專家、測驗專家共同編製題目，測驗實施的過程也有一定的程序，最後所得到的分數也有固定的解釋和說明。大家比較熟悉的標準化測驗，有國中基測、臺灣學生學習成就評量資料庫、全民英檢、托福考試等。

性向測驗也稱為才能測驗，測量的是「未來」一個人在某一方面可能的表現，因此通常在特定的學習階段早期施測。廣義的性向測驗除了測量一個人多方面的性向外，也囊括智力測驗，臺灣各小學常用的「魏氏兒童智力量表」就是一例，藉由語文理解、知覺推理、工作記憶，以及處理速度的整體表現，做為一個人智力的代表。美國研究生入學考試 GRE，同樣屬於這一類的範圍，測量學生語文、數量及分析寫作 3 部分的能力，做為研究所入學資格的重要考量依據。

態度測驗測量的是一個人對於某個特定主題的信念、感受，以及行為傾向。最常見的測量形式是 1932 年由倫西斯‧李克特所發展的「李克特氏量表」，把測量同一特質的題目分數用「加總」的方式計分，成為一種總加量表。這個形式可測量人們對於某件事的態度，且使用上非常簡便，因而廣為各項調查研究所採用。

人格測驗則是測量性格的各個面向，試著詮釋個人在不同時間點、不同情境下，可能表現出相似行為的「傾向」。人格測驗的設計可分為「客觀性」和「投射性」兩類。客觀性人格測驗由填答者透過特定的題目描述自己，題型多為是非題和選擇題。廣被國中、高中職及大專校院採用的「賴氏人格測驗」，就是這一類的測驗，每 10 題構成一個量表，測量一項人格特質。

投射性人格測驗的發展者認為，經由「詮釋」，受測者會顯露出個人潛意識深層的信念、渴望及焦慮。應用最普遍的「羅夏克墨漬測驗」，請受測者看一系列印有圖案的卡片，並說出所看到的墨漬圖案像什麼；這些圖案本身沒有特定意義，由受測者自由解釋。受測者的反應並沒有對或錯，而是他潛在認知和情緒狀態的投射；精神科醫師或心理師則利用受測者對圖案的描述，做為解釋其人格特質的依據。

測驗的現代化

資訊時代的測驗，不只能採用傳統的「紙筆」形式，也可以透過電腦出題和作答。

電腦化的測驗擁有許多傳統紙筆測驗無法達到的功能。從學習的角度出發，電腦化成就測驗能提供學生即時性的回饋，讓學生獲悉自己需要補強的部分；也可以連結到補充教材，供學生自學精進。就教師的立場而言，除了能更有效率地了解學生的學習情況外，還能提升教師命題和修題的效率，以及降低閱卷的人力和時間；測驗題目能提供的訊息更加多元，不但可以是文字，也可以是一段影片，或是一個模擬的情境。每份測驗可以是難度相同而題目不同，而內容完全相同的一份測驗，題目可以隨機排列，選項也可以隨機排列。

網際網路使得學習無國界，測驗也無國界。電腦化測驗再加上網路的「加持」，任何一臺能夠上網的電腦都可能成為考場。像是現行的托福考試，自 2005 年開始採用以網路為基礎的測驗型態，意即整個測驗過程，不論是題目的讀取或答案的填寫，都透過網際網路傳送。而各大學授課教師規劃學習活動，也可以利用網路教學平臺，讓學生自行上網參與預習測驗、複習測驗，增進自學能力。

不僅朝向電腦化，現代測驗也講究「適應個別化」。由於一個班級學生的能力通常呈常態分配，中等資質的人比較多，為了符合與順應大多數學生的作答能力，班級老師出題的原則也類似，致使中等難度的題目較多，較難和較簡單的題目很少。

適性測驗則是適應學生個別差異的測驗，原理是「遇強則強」。如果一位學生前一道題目答對，下一題電腦就挑難度高一點的讓他作答；就像跳高一樣，第一個高度跳過去了，就繼續拉高給他跳，這樣才符合適性的原則。適性測驗的設計理念是，學生的資質在哪個高度，就用跟他資質相近的題目來測驗，不但使測量精確性提高，測驗長度也能縮短。

結合電腦化和適性化，使得現代測驗能更準確地評估一個人的能力。譬如，想到美國從事護理工作，就必須報考註冊護理師執照考試，才能取得執業執照。這項考試是電腦化適性測驗，考生直接面對電腦作答，由電腦判斷學生的護理能力是否已經達到「通過」的標準。每位學生考的「題目」和「題數」不盡相同，最少 75 題，最多 265 題，因此測驗時間的長短也因人而異，時間長短並不是測驗通過與否的決策指標。一旦電腦收集足夠的訊息，能對考生的護理能力做出「通過與否」的判定，測驗就結束。

測驗結果的解釋

測驗完成後，該如何針對結果解釋？如同《健康手冊》中的生長曲線圖，當量測某位女童的身高後，便可對照曲線圖得知，她的身高數值位於女性該年齡層的身高百分等級。也就是把個人的身高轉變成相對地位，和同性別、同年齡層的身高常模比較，便能對身高數值產生有意義的解釋，這就是「常模參照」的解釋功能。傳統上，最常採用常模參照的方式來說明測驗的結果，也就是和參照組或某個人對照，採用排序的觀念—我跟這個人比多幾分，大量地使用「名次」的概念來詮釋測驗分數。

時至今日，常模參照的解釋方式已不能滿足社會大眾對於測驗所得結果的期待。單單只知道這個學生「比幾個人表現好」並不夠，更期望能知道當到達某一個分數水平後，這個分數水平的學生所具備的共同知識、技巧、能力有哪些？也就是改以「標準參照」的方式來闡釋測驗表現結果。

例如，美國把學生的「科學」表現標準劃分為基礎、精熟及進階3個表現水平，期望高三學生「對於地球科學、物理及生活科技，能具備基本的知識和推理能力」。而達到基礎水平的學生，能「執行」一項調查研究，批判調查設計，並能理解最基本的科學原理。精熟水平的學生，能「分析」調查所得資料，並把科學原理應用至每日生活情境中。進階水平的學生，能「設計」一項調查研究，回答真實情境的研究問題，並進行邏輯推理和預測。

從不同的「動詞」可看出，對於分數的詮釋方式是建立在絕對標準上，有可能降低學生同儕競爭的壓力。

測驗結果的應用

談了這麼多和測驗有關的知識，可以看出「測驗」指的是一種「工具」。而「測量」是依照某種固定的規則，使用某項測驗來獲得學生或填答者在某個特質的得分，最後得到一個客觀數字來代表該特質，這個特質可以是學科能力、性向或職能行為等。「評量」則是老師根據他所收集到的、由測驗所測量出來的客觀分數，加上主觀的觀察等，最後所做出來的判斷。因此評量是老師的判斷，或多或少包含了主觀的判斷在內。

兩位學生考出一樣的分數，老師給予的回饋可能截然不同。同樣得到 80 分，老師皺著眉頭對Ａ生說：「下次要加油。」卻笑咪咪地對Ｂ生說：「表現得很好！」這是因材施教的原則，有些學生想在考試中多得到一分是非常不容易，有些學生想多得到一分卻是輕而易舉。因此，老師評量的時候，如果只依賴客觀的證據，可能會做出不恰當的評量處置。

或許你會疑惑：「難道老師評量我的方式，只能透過教室裡的紙筆測驗嗎？」事實上，評量的形式有很多，並不只是選擇題、配合題這種傳統「提供學生選項」的評量方式。例如，國文課評量除了閱讀範文外，還有寫作練習；音樂課的測驗可能是聽音樂打節拍或打鼓；體育課則可能透過游泳和籃球測驗，「換氣游完 50 公尺」再加上「兩人一組，互相八字傳球後上籃」來評量，學生所耗費的秒數越少，就表示技巧越熟悉，分數就越高。相對於傳統形式的評量，這些和真實情境高度相關的評量稱為實作評量。

以往醫學系的畢業生，只要通過「選擇題」題型的國家考試，就可以取得證書成為合法的醫師。然而，未來醫學系畢業生不僅要通過傳統的紙筆測驗，尚須通過「結構式臨床技能」資格認證，才能取得醫師證書。結構式臨床技能就是一種模擬真實臨床情境的實作評量，由訓練合格的「假病人」做為準醫師的真實情境模擬考題，不但能用來評估學生處理病患的實際過程，也能評估學生的學習成果。如此，紙筆測驗加上實作評量，是不是更適合用來評判醫學系學生有沒有達到合格的執業能力呢？

「測驗學」是一門博大精深的科學，為了達到精確測量人類心理特質或學習成就的目的，測驗學家發展出許許多多的理論，做為操作和解釋測驗的基礎。這也使得測驗的相關故事是說不完的，值得有志趣的人投注畢生心血深入研究。歡迎有志之士一起投入測驗研究的行列。

資料來源

《科學發展》2011年6月，462期，6 ~ 11頁

態度測驗(2) 適性測驗(3) 科發月刊(5221)

教學評量：測驗大觀園

推薦文章