跳到主要內容
:::
登入
註冊
網站導覽
展開搜尋
全站搜尋
熱門關鍵字:
半導體
精準醫療
太空
煙火
關閉搜尋
您的瀏覽器不支援此script語法,請點選
搜尋
使用搜尋功能。
分類
分類項目
關閉分類項目
地理
天文
化學
醫學
科技
社會科學
人類文明
地科
心理
物理
數學
環境
生物
生活科學
醫療
地球科學
Menu
關於我們
文章
熱門文章
最新文章
精選文章
科學專題
科發月刊
影音
TechTalk
科普影片
活動
學生專區
夥伴
認證
公務人員
網站導覽
English
首長信箱
常見問答
雙語詞彙
關於我們
文章
文章
熱門文章
最新文章
精選文章
科學專題
科發月刊
影音
影音
TechTalk
科普影片
活動
學生專區
夥伴
認證
認證
公務人員
:::
首頁
文章
最新文章
Pleace Login!
×
請先登入
facebook
twitter
plurk
line
中
列印
書籤
:::
教學評量:測驗大觀園
100/06/02
瀏覽次數
21658
林世華
|
臺灣師範大學教育心理與輔導學系
謝佩蓉
|
國家教育研究院測驗及評量研究中心
測驗的目的
上課、考試、補習,這樣的三部曲對在臺灣長大的人一定不陌生;從幼稚園到大學,經驗過的大大小小考試,少說上百次。是不是也有過這樣的疑惑:「為什麼要考試?人生如果都不用考試,不是很好嗎?」
考試,專業的用語是「測驗」。中國歷史上,很早就開始以測驗舉才;然而究竟從何時開始,不同學者各有其觀點。有一說是從隋文帝時便開始以考試薦舉秀才,也就是利用測驗找出能為國家服務的人才。時至今日,這個職掌成為考選部的任務,藉由公務人員考試和專門職業及技術人員考試,挑選合宜的公務人力和專業人才。
除了讓國家「選人」外,測驗也用來讓學子們決定未來就讀的學程,例如國中基測、大學學測,還有大學指考、四技二專統測等各項入學測驗。由於升學考試關係到教育資源的分配,是高利害關係的測驗,應運而生的密集「每堂考試」、晚自習、補習,便成為國人求學過程中揮之不去的夢魘。
測驗的類型
測驗的類型很多,教育現場常見的測驗有4種,包括:成就測驗、性向測驗、態度測驗、人格測驗。
成就測驗
是用來測量個人對於特定知識或技能的精熟程度,主要用以衡量學習表現。成就測驗可再概分為一般教學測驗和標準化測驗,這兩者因為測驗的目的不同,編製過程和計分解釋的方式也不一樣。
一般教學測驗由授課教師依據教學目標編寫,評估學生學習後所能達到的水準,像是各學科的小考、段考、期中考、期末考等都屬於這個範疇。標準化測驗通常是為了進行較大規模的比較,因此題目品質要好,通常邀集學科專家、測驗專家共同編製題目,測驗實施的過程也有一定的程序,最後所得到的分數也有固定的解釋和說明。大家比較熟悉的標準化測驗,有國中基測、臺灣學生學習成就評量資料庫、全民英檢、托福考試等。
性向測驗
也稱為才能測驗,測量的是「未來」一個人在某一方面可能的表現,因此通常在特定的學習階段早期施測。廣義的性向測驗除了測量一個人多方面的性向外,也囊括智力測驗,臺灣各小學常用的「魏氏兒童智力量表」就是一例,藉由語文理解、知覺推理、工作記憶,以及處理速度的整體表現,做為一個人智力的代表。美國研究生入學考試 GRE,同樣屬於這一類的範圍,測量學生語文、數量及分析寫作 3 部分的能力,做為研究所入學資格的重要考量依據。
態度測驗
測量的是一個人對於某個特定主題的信念、感受,以及行為傾向。最常見的測量形式是 1932 年由倫西斯‧李克特所發展的「李克特氏量表」,把測量同一特質的題目分數用「加總」的方式計分,成為一種總加量表。這個形式可測量人們對於某件事的態度,且使用上非常簡便,因而廣為各項調查研究所採用。
人格測驗
則是測量性格的各個面向,試著詮釋個人在不同時間點、不同情境下,可能表現出相似行為的「傾向」。人格測驗的設計可分為「客觀性」和「投射性」兩類。客觀性人格測驗由填答者透過特定的題目描述自己,題型多為是非題和選擇題。廣被國中、高中職及大專校院採用的「賴氏人格測驗」,就是這一類的測驗,每 10 題構成一個量表,測量一項人格特質。
投射性人格測驗的發展者認為,經由「詮釋」,受測者會顯露出個人潛意識深層的信念、渴望及焦慮。應用最普遍的「羅夏克墨漬測驗」,請受測者看一系列印有圖案的卡片,並說出所看到的墨漬圖案像什麼;這些圖案本身沒有特定意義,由受測者自由解釋。受測者的反應並沒有對或錯,而是他潛在認知和情緒狀態的投射;精神科醫師或心理師則利用受測者對圖案的描述,做為解釋其人格特質的依據。
測驗的現代化
資訊時代的測驗,不只能採用傳統的「紙筆」形式,也可以透過電腦出題和作答。
電腦化的測驗擁有許多傳統紙筆測驗無法達到的功能。從學習的角度出發,電腦化成就測驗能提供學生即時性的回饋,讓學生獲悉自己需要補強的部分;也可以連結到補充教材,供學生自學精進。就教師的立場而言,除了能更有效率地了解學生的學習情況外,還能提升教師命題和修題的效率,以及降低閱卷的人力和時間;測驗題目能提供的訊息更加多元,不但可以是文字,也可以是一段影片,或是一個模擬的情境。每份測驗可以是難度相同而題目不同,而內容完全相同的一份測驗,題目可以隨機排列,選項也可以隨機排列。
網際網路使得學習無國界,測驗也無國界。電腦化測驗再加上網路的「加持」,任何一臺能夠上網的電腦都可能成為考場。像是現行的托福考試,自 2005 年開始採用以網路為基礎的測驗型態,意即整個測驗過程,不論是題目的讀取或答案的填寫,都透過網際網路傳送。而各大學授課教師規劃學習活動,也可以利用網路教學平臺,讓學生自行上網參與預習測驗、複習測驗,增進自學能力。
不僅朝向電腦化,現代測驗也講究「適應個別化」。由於一個班級學生的能力通常呈常態分配,中等資質的人比較多,為了符合與順應大多數學生的作答能力,班級老師出題的原則也類似,致使中等難度的題目較多,較難和較簡單的題目很少。
適性測驗則是適應學生個別差異的測驗,原理是「遇強則強」。如果一位學生前一道題目答對,下一題電腦就挑難度高一點的讓他作答;就像跳高一樣,第一個高度跳過去了,就繼續拉高給他跳,這樣才符合適性的原則。適性測驗的設計理念是,學生的資質在哪個高度,就用跟他資質相近的題目來測驗,不但使測量精確性提高,測驗長度也能縮短。
結合電腦化和適性化,使得現代測驗能更準確地評估一個人的能力。譬如,想到美國從事護理工作,就必須報考註冊護理師執照考試,才能取得執業執照。這項考試是電腦化適性測驗,考生直接面對電腦作答,由電腦判斷學生的護理能力是否已經達到「通過」的標準。每位學生考的「題目」和「題數」不盡相同,最少 75 題,最多 265 題,因此測驗時間的長短也因人而異,時間長短並不是測驗通過與否的決策指標。一旦電腦收集足夠的訊息,能對考生的護理能力做出「通過與否」的判定,測驗就結束。
測驗結果的解釋
測驗完成後,該如何針對結果解釋?如同《健康手冊》中的生長曲線圖,當量測某位女童的身高後,便可對照曲線圖得知,她的身高數值位於女性該年齡層的身高百分等級。也就是把個人的身高轉變成相對地位,和同性別、同年齡層的身高常模比較,便能對身高數值產生有意義的解釋,這就是「常模參照」的解釋功能。傳統上,最常採用常模參照的方式來說明測驗的結果,也就是和參照組或某個人對照,採用排序的觀念—我跟這個人比多幾分,大量地使用「名次」的概念來詮釋測驗分數。
時至今日,常模參照的解釋方式已不能滿足社會大眾對於測驗所得結果的期待。單單只知道這個學生「比幾個人表現好」並不夠,更期望能知道當到達某一個分數水平後,這個分數水平的學生所具備的共同知識、技巧、能力有哪些?也就是改以「標準參照」的方式來闡釋測驗表現結果。
例如,美國把學生的「科學」表現標準劃分為基礎、精熟及進階3個表現水平,期望高三學生「對於地球科學、物理及生活科技,能具備基本的知識和推理能力」。而達到基礎水平的學生,能「執行」一項調查研究,批判調查設計,並能理解最基本的科學原理。精熟水平的學生,能「分析」調查所得資料,並把科學原理應用至每日生活情境中。進階水平的學生,能「設計」一項調查研究,回答真實情境的研究問題,並進行邏輯推理和預測。
從不同的「動詞」可看出,對於分數的詮釋方式是建立在絕對標準上,有可能降低學生同儕競爭的壓力。
測驗結果的應用
談了這麼多和測驗有關的知識,可以看出「測驗」指的是一種「工具」。而「測量」是依照某種固定的規則,使用某項測驗來獲得學生或填答者在某個特質的得分,最後得到一個客觀數字來代表該特質,這個特質可以是學科能力、性向或職能行為等。「評量」則是老師根據他所收集到的、由測驗所測量出來的客觀分數,加上主觀的觀察等,最後所做出來的判斷。因此評量是老師的判斷,或多或少包含了主觀的判斷在內。
兩位學生考出一樣的分數,老師給予的回饋可能截然不同。同樣得到 80 分,老師皺著眉頭對A生說:「下次要加油。」卻笑咪咪地對B生說:「表現得很好!」這是因材施教的原則,有些學生想在考試中多得到一分是非常不容易,有些學生想多得到一分卻是輕而易舉。因此,老師評量的時候,如果只依賴客觀的證據,可能會做出不恰當的評量處置。
或許你會疑惑:「難道老師評量我的方式,只能透過教室裡的紙筆測驗嗎?」事實上,評量的形式有很多,並不只是選擇題、配合題這種傳統「提供學生選項」的評量方式。例如,國文課評量除了閱讀範文外,還有寫作練習;音樂課的測驗可能是聽音樂打節拍或打鼓;體育課則可能透過游泳和籃球測驗,「換氣游完 50 公尺」再加上「兩人一組,互相八字傳球後上籃」來評量,學生所耗費的秒數越少,就表示技巧越熟悉,分數就越高。相對於傳統形式的評量,這些和真實情境高度相關的評量稱為實作評量。
以往醫學系的畢業生,只要通過「選擇題」題型的國家考試,就可以取得證書成為合法的醫師。然而,未來醫學系畢業生不僅要通過傳統的紙筆測驗,尚須通過「結構式臨床技能」資格認證,才能取得醫師證書。結構式臨床技能就是一種模擬真實臨床情境的實作評量,由訓練合格的「假病人」做為準醫師的真實情境模擬考題,不但能用來評估學生處理病患的實際過程,也能評估學生的學習成果。如此,紙筆測驗加上實作評量,是不是更適合用來評判醫學系學生有沒有達到合格的執業能力呢?
「測驗學」是一門博大精深的科學,為了達到精確測量人類心理特質或學習成就的目的,測驗學家發展出許許多多的理論,做為操作和解釋測驗的基礎。這也使得測驗的相關故事是說不完的,值得有志趣的人投注畢生心血深入研究。歡迎有志之士一起投入測驗研究的行列。
資料來源
《科學發展》2011年6月,462期,6 ~ 11頁
態度測驗(2)
適性測驗(3)
科發月刊(5221)
推薦文章
114/01/24
半導體製程如何平衡高科技與環境永續?——專訪陳奕宏教授
簡永昌
|
科技大觀園特約編輯
儲存書籤
114/02/14
在火車上做實驗!「科普環島列車」讓小學生學習科學也增廣見聞——專訪周中祺副教授
寒波
|
科技大觀園特約編輯
儲存書籤
114/06/30
別讓防曬美意變環境負擔!看農業廢棄物如何變身科技材料,吸附水中有害環境荷爾蒙
余國賓
|
國立陽明交通大學 環境與職業衛生研究所教授
儲存書籤
114/02/26
Wi-Fi 不只能用來上網?看它如何成為居家照護與入侵者偵測的幕後功臣——專訪謝宏昀教授
簡永昌
|
科技大觀園特約編輯
儲存書籤
OPEN
關於我們
關於我們
文章
熱門文章
最新文章
精選文章
科學專題
影音
科普影片
TechTalk
活動
活動
學生專區
學生專區
回頂部