教學評量:測驗大觀園
100/06/02
瀏覽次數
20352
林世華|
臺灣師範大學教育心理與輔導學系
謝佩蓉|
國家教育研究院測驗及評量研究中心
測驗的目的
上課、考試、補習,這樣的三部曲對在臺灣長大的人一定不陌生;從幼稚園到大學,經驗過的大大小小考試,少說上百次。是不是也有過這樣的疑惑:「為什麼要考試?人生如果都不用考試,不是很好嗎?」
考試,專業的用語是「測驗」。中國歷史上,很早就開始以測驗舉才;然而究竟從何時開始,不同學者各有其觀點。有一說是從隋文帝時便開始以考試薦舉秀才,也就是利用測驗找出能為國家服務的人才。時至今日,這個職掌成為考選部的任務,藉由公務人員考試和專門職業及技術人員考試,挑選合宜的公務人力和專業人才。
除了讓國家「選人」外,測驗也用來讓學子們決定未來就讀的學程,例如國中基測、大學學測,還有大學指考、四技二專統測等各項入學測驗。由於升學考試關係到教育資源的分配,是高利害關係的測驗,應運而生的密集「每堂考試」、晚自習、補習,便成為國人求學過程中揮之不去的夢魘。
測驗的類型
測驗的類型很多,教育現場常見的測驗有4種,包括:成就測驗、性向測驗、態度測驗、人格測驗。
成就測驗是用來測量個人對於特定知識或技能的精熟程度,主要用以衡量學習表現。成就測驗可再概分為一般教學測驗和標準化測驗,這兩者因為測驗的目的不同,編製過程和計分解釋的方式也不一樣。
一般教學測驗由授課教師依據教學目標編寫,評估學生學習後所能達到的水準,像是各學科的小考、段考、期中考、期末考等都屬於這個範疇。標準化測驗通常是為了進行較大規模的比較,因此題目品質要好,通常邀集學科專家、測驗專家共同編製題目,測驗實施的過程也有一定的程序,最後所得到的分數也有固定的解釋和說明。大家比較熟悉的標準化測驗,有國中基測、臺灣學生學習成就評量資料庫、全民英檢、托福考試等。
性向測驗也稱為才能測驗,測量的是「未來」一個人在某一方面可能的表現,因此通常在特定的學習階段早期施測。廣義的性向測驗除了測量一個人多方面的性向外,也囊括智力測驗,臺灣各小學常用的「魏氏兒童智力量表」就是一例,藉由語文理解、知覺推理、工作記憶,以及處理速度的整體表現,做為一個人智力的代表。美國研究生入學考試 GRE,同樣屬於這一類的範圍,測量學生語文、數量及分析寫作 3 部分的能力,做為研究所入學資格的重要考量依據。
態度測驗測量的是一個人對於某個特定主題的信念、感受,以及行為傾向。最常見的測量形式是 1932 年由倫西斯‧李克特所發展的「李克特氏量表」,把測量同一特質的題目分數用「加總」的方式計分,成為一種總加量表。這個形式可測量人們對於某件事的態度,且使用上非常簡便,因而廣為各項調查研究所採用。
人格測驗則是測量性格的各個面向,試著詮釋個人在不同時間點、不同情境下,可能表現出相似行為的「傾向」。人格測驗的設計可分為「客觀性」和「投射性」兩類。客觀性人格測驗由填答者透過特定的題目描述自己,題型多為是非題和選擇題。廣被國中、高中職及大專校院採用的「賴氏人格測驗」,就是這一類的測驗,每 10 題構成一個量表,測量一項人格特質。
投射性人格測驗的發展者認為,經由「詮釋」,受測者會顯露出個人潛意識深層的信念、渴望及焦慮。應用最普遍的「羅夏克墨漬測驗」,請受測者看一系列印有圖案的卡片,並說出所看到的墨漬圖案像什麼;這些圖案本身沒有特定意義,由受測者自由解釋。受測者的反應並沒有對或錯,而是他潛在認知和情緒狀態的投射;精神科醫師或心理師則利用受測者對圖案的描述,做為解釋其人格特質的依據。
測驗的現代化
資訊時代的測驗,不只能採用傳統的「紙筆」形式,也可以透過電腦出題和作答。
電腦化的測驗擁有許多傳統紙筆測驗無法達到的功能。從學習的角度出發,電腦化成就測驗能提供學生即時性的回饋,讓學生獲悉自己需要補強的部分;也可以連結到補充教材,供學生自學精進。就教師的立場而言,除了能更有效率地了解學生的學習情況外,還能提升教師命題和修題的效率,以及降低閱卷的人力和時間;測驗題目能提供的訊息更加多元,不但可以是文字,也可以是一段影片,或是一個模擬的情境。每份測驗可以是難度相同而題目不同,而內容完全相同的一份測驗,題目可以隨機排列,選項也可以隨機排列。
網際網路使得學習無國界,測驗也無國界。電腦化測驗再加上網路的「加持」,任何一臺能夠上網的電腦都可能成為考場。像是現行的托福考試,自 2005 年開始採用以網路為基礎的測驗型態,意即整個測驗過程,不論是題目的讀取或答案的填寫,都透過網際網路傳送。而各大學授課教師規劃學習活動,也可以利用網路教學平臺,讓學生自行上網參與預習測驗、複習測驗,增進自學能力。
不僅朝向電腦化,現代測驗也講究「適應個別化」。由於一個班級學生的能力通常呈常態分配,中等資質的人比較多,為了符合與順應大多數學生的作答能力,班級老師出題的原則也類似,致使中等難度的題目較多,較難和較簡單的題目很少。
適性測驗則是適應學生個別差異的測驗,原理是「遇強則強」。如果一位學生前一道題目答對,下一題電腦就挑難度高一點的讓他作答;就像跳高一樣,第一個高度跳過去了,就繼續拉高給他跳,這樣才符合適性的原則。適性測驗的設計理念是,學生的資質在哪個高度,就用跟他資質相近的題目來測驗,不但使測量精確性提高,測驗長度也能縮短。
結合電腦化和適性化,使得現代測驗能更準確地評估一個人的能力。譬如,想到美國從事護理工作,就必須報考註冊護理師執照考試,才能取得執業執照。這項考試是電腦化適性測驗,考生直接面對電腦作答,由電腦判斷學生的護理能力是否已經達到「通過」的標準。每位學生考的「題目」和「題數」不盡相同,最少 75 題,最多 265 題,因此測驗時間的長短也因人而異,時間長短並不是測驗通過與否的決策指標。一旦電腦收集足夠的訊息,能對考生的護理能力做出「通過與否」的判定,測驗就結束。
測驗結果的解釋
測驗完成後,該如何針對結果解釋?如同《健康手冊》中的生長曲線圖,當量測某位女童的身高後,便可對照曲線圖得知,她的身高數值位於女性該年齡層的身高百分等級。也就是把個人的身高轉變成相對地位,和同性別、同年齡層的身高常模比較,便能對身高數值產生有意義的解釋,這就是「常模參照」的解釋功能。傳統上,最常採用常模參照的方式來說明測驗的結果,也就是和參照組或某個人對照,採用排序的觀念—我跟這個人比多幾分,大量地使用「名次」的概念來詮釋測驗分數。
時至今日,常模參照的解釋方式已不能滿足社會大眾對於測驗所得結果的期待。單單只知道這個學生「比幾個人表現好」並不夠,更期望能知道當到達某一個分數水平後,這個分數水平的學生所具備的共同知識、技巧、能力有哪些?也就是改以「標準參照」的方式來闡釋測驗表現結果。
例如,美國把學生的「科學」表現標準劃分為基礎、精熟及進階3個表現水平,期望高三學生「對於地球科學、物理及生活科技,能具備基本的知識和推理能力」。而達到基礎水平的學生,能「執行」一項調查研究,批判調查設計,並能理解最基本的科學原理。精熟水平的學生,能「分析」調查所得資料,並把科學原理應用至每日生活情境中。進階水平的學生,能「設計」一項調查研究,回答真實情境的研究問題,並進行邏輯推理和預測。
從不同的「動詞」可看出,對於分數的詮釋方式是建立在絕對標準上,有可能降低學生同儕競爭的壓力。
測驗結果的應用
談了這麼多和測驗有關的知識,可以看出「測驗」指的是一種「工具」。而「測量」是依照某種固定的規則,使用某項測驗來獲得學生或填答者在某個特質的得分,最後得到一個客觀數字來代表該特質,這個特質可以是學科能力、性向或職能行為等。「評量」則是老師根據他所收集到的、由測驗所測量出來的客觀分數,加上主觀的觀察等,最後所做出來的判斷。因此評量是老師的判斷,或多或少包含了主觀的判斷在內。
兩位學生考出一樣的分數,老師給予的回饋可能截然不同。同樣得到 80 分,老師皺著眉頭對A生說:「下次要加油。」卻笑咪咪地對B生說:「表現得很好!」這是因材施教的原則,有些學生想在考試中多得到一分是非常不容易,有些學生想多得到一分卻是輕而易舉。因此,老師評量的時候,如果只依賴客觀的證據,可能會做出不恰當的評量處置。
或許你會疑惑:「難道老師評量我的方式,只能透過教室裡的紙筆測驗嗎?」事實上,評量的形式有很多,並不只是選擇題、配合題這種傳統「提供學生選項」的評量方式。例如,國文課評量除了閱讀範文外,還有寫作練習;音樂課的測驗可能是聽音樂打節拍或打鼓;體育課則可能透過游泳和籃球測驗,「換氣游完 50 公尺」再加上「兩人一組,互相八字傳球後上籃」來評量,學生所耗費的秒數越少,就表示技巧越熟悉,分數就越高。相對於傳統形式的評量,這些和真實情境高度相關的評量稱為實作評量。
以往醫學系的畢業生,只要通過「選擇題」題型的國家考試,就可以取得證書成為合法的醫師。然而,未來醫學系畢業生不僅要通過傳統的紙筆測驗,尚須通過「結構式臨床技能」資格認證,才能取得醫師證書。結構式臨床技能就是一種模擬真實臨床情境的實作評量,由訓練合格的「假病人」做為準醫師的真實情境模擬考題,不但能用來評估學生處理病患的實際過程,也能評估學生的學習成果。如此,紙筆測驗加上實作評量,是不是更適合用來評判醫學系學生有沒有達到合格的執業能力呢?
「測驗學」是一門博大精深的科學,為了達到精確測量人類心理特質或學習成就的目的,測驗學家發展出許許多多的理論,做為操作和解釋測驗的基礎。這也使得測驗的相關故事是說不完的,值得有志趣的人投注畢生心血深入研究。歡迎有志之士一起投入測驗研究的行列。