人與機器的對話:人機互動
92/08/07
瀏覽次數
13904
唐國豪|
逢甲大學工業工程學系
隨著電腦應用領域不斷延伸、軟體系統功能越趨複雜,人與電腦之間的互動模式也越加多樣化。從早期鍵盤輸入文字命令,到滑鼠、光筆、搖桿、數位板等輸入工具,配合今日大多數人所熟悉的選單系統的出現,電腦的使用已走入一般人的生活中,符合「簡單、自然、友好、一致」的人與電腦間互動模式,成為設計使用者介面的重要原則。
在趨勢引領下,人機互動模式不斷更新,語音辨識與合成、手寫體與手勢辨識、虛擬實境等技術,均已成為人與電腦互動的通道;其應用範圍也越來越廣,從傳統電腦到個人數位助理(PDA),甚至行動電話,在在均受其影響,而人機介面設計的良莠也對整體系統成效的影響越來越大。一個設計良好的人機介面,不但可以在使用初期減少學習時間、提早發揮系統效益,而在學習階段後,更可提升系統終極的整體績效,減低系統發生錯誤的機率。
然而,要如何設計一個支援良好人機互動的介面呢?經驗法則固然提供許多線索,但不可能所有的設計,尤其是新的設計,均依賴經驗。試想要設計一個幻象戰機使用的頭盔,或是機車安全帽,為了讓使用者戴得舒適,我們需要用到哪些資訊?人因工程中的人體計量可能是最重要的一部分,由這些資料我們可以得知使用者的顱圍及頸部承受力量的分布狀況,設計出符合大部分使用者需求的頭盔尺寸及重量。如果所得的量測值變異過大,我們可能還要進一步考慮依據量測值範圍,設計大、中、小不同尺寸的頭盔。
了解人類的各種尺寸結構及限制,並將其應用在這種有形產品的設計原則上是容易了解的,甚至在與電腦作業相關的範圍中,滑鼠、鍵盤尺寸大小及所需驅動力量等的設計,以及電腦螢幕位置及座椅高度等,都屬這一個範疇。人類固然對本身各種尺寸結構及生理限制,有相當的了解並能應用在設計中,然而令人驚訝的是,人類對自身的心智能力及認知限制等的了解卻較為缺乏。如果我們無法對這部分有足夠的了解,就很難如設計頭盔一般地,去設計一個符合使用者需求的介面,更遑論依據使用者的不同能力而有差別設計。我們都知道,大人和小孩的安全帽尺寸一定不會相同,但初學者和電腦專家所使用的個人電腦系統,在基本上卻沒有太大的差異。
人機介面或稱為人機互動(human-computer interaction, HCI)就是專注於研發理想的使用者介面設計的學科。人機介面是一個跨領域的學科,也是電腦相關領域中較為新興的學科之一。它是電腦科學和認知工程(cognitive engineering)兩大學門互相結合的產物;人機介面亦涉及當前許多熱門的電腦技術,如人工智慧、自然語言處理、多媒體系統等,同時也包含人因工程、語言學、社會學等研究成果的運用。
圖形使用者介面
圖形使用者介面(graphics user interface, GUI)最早應用在全錄公司於一九八一年發展出來的Xerox Star 8010商用機種上,並首度使用滑鼠控制,同時具備上網功能。由於價格及速度因素,到一九八四年蘋果電腦推出低價的麥金塔系列,圖形使用者介面才較為流行,直到一九九○年微軟推出視窗3.0,圖形使用者介面才真正普及。圖形使用者介面以圖形的方式,顯示使用者在螢幕上看見的一切,包含圖像、視窗、下拉式選單和指向裝置等,而互動方式則允許使用者藉由敲擊圖像、拖拉圖像到螢幕上的適當位置等方式來控制電腦。在統一的操作方式下,使用者能在學習後很快地熟悉其他程式的操作,是目前電腦系統與程式採用的最主要介面。
圖形使用者介面具有二項特點。直接操縱:藉由直接操縱螢幕上可視物件,以有如完成類似人類肢體的行動,造成系統狀態的改變,例如以滑鼠點選拖曳,或以光筆在螢幕上點選即屬直接操縱;隱喻互動:隱喻式理解是一種利用過去經驗或知識,與目前系統狀況類比,以進行新事物的學習。通常是運用熟悉的事物來傳遞抽象概念,它在使用者的心裡建立起一致性的預期,使得各種圖像代表原先的抽象意義如同日常經驗的一部分,例如「桌面」、「資源回收桶」等概念。
圖形使用者介面及隱喻的使用仍應考慮其效益,例如在選項分類上,利用檔案夾標籤的概念固然不錯,但如過度使用效果就會欠佳,若是濫用則只會造成使用者的困擾,而喪失了使用隱喻的原始用意了。同樣地,以運用檔案夾標籤的隱喻而言,在原先應以文字為主的標籤說明上使用意義不明確的圖像,只會徒增使用者困擾而已,是另一個過分強調圖形使用者介面反而導致誤用的例子。
介面滿意度及效率的分析
一個好的介面究竟要滿足哪些條件?通常從人機介面的角度來看,我們會說這個介面必須具備足夠的「使用度」。使用度本身其實是一個多面向的議題,根據傑克柏.尼耳森(Jakob Nielsen)的建議,使用度包含學習度、效率、記憶性、錯誤、及滿意度等五個向度。
學習度指的是使用者可以很容易學會一個系統,這個向度與記憶性相當接近,記憶性指的是在學會使用過後,經過一段中斷未使用的時間,使用者仍能記得如何操作,而通常容易學習的系統也較容易記得。效率指的則是在學會後,系統中的作業能夠很快執行完成,例如,某些醫院的電話語音掛號系統會按步驟指示下一個動作「請在嗶聲後輸入身分證字號,A請輸入01,B請輸入02,C請輸入03,依此類推」,並將使用者的輸入重複確認「您所輸入的身分證字號是A-1-2-3-4-5-6-7-8-9-0,正確請按1,重新輸入請按2」,相信許多人都有過等得不耐煩的經驗,像這樣的系統如果沒有對經常使用者設計快捷輸入方式,即使系統具備高學習度及記憶性,但過低的效率仍使該項產品使用度下降。
然而在上述類似的系統使用過程中,相信許多使用者曾有過輸入錯誤的經驗,好的系統除了讓使用者不易犯錯外,如果真有錯誤發生,也會提供最簡單的修正方法。在筆者的經驗中,就曾遇過在已經操作過許多正確步驟後,一不小心的錯誤輸入,系統即直接跳回第一步要求重新開始的難忘經驗。
系統使用度在錯誤方面的考量,除了易導致錯誤發生的傾向、錯誤發生後的修正方式之外,更須考慮錯誤發生的嚴重性。一九九五年十二月二十日一架美國航空公司波音757客機,就因為機長在飛航電腦中輸入一項不完整的命令,而失事撞毀在安地斯山脈,造成159人死亡。
失事的詳情是在距離目的地加里約44海里途中,機長因發現航道偏差而以無線電信標進行航向調整。機長本來想要以距離加里最近,代碼為Rozo的無線電信標調整航向,由於機長誤認電腦選項排列是以最近距離的信標優先,於是在飛航電腦上僅輸入單一字母R,然而系統的預設程式卻將資料庫中12項以R為首的無線電信標中的第一項,位於波哥大同樣在274 KHz頻率上代碼為Romeo的無線電信標設為航向。副機長一直到87秒後才發現航向有問題而嘗試再調整,但此時飛機已偏離航道93度,朝向東邊的山區飛去。因此在系統設計上,對潛在性危險越高的部分,越需要要求高標準的失誤回復能力。
在使用度中最後一項所討論的滿意度,是一個相對主觀也較無法量測的指標。經常對一個人主觀上滿意的設計,對另一個使用者卻不一定叫好。但一般而言,滿意度所表現的是上述四項的整合結果。
在系統操作效率或使用者心智工作負荷的分析上,我們經常會用到作業分析這類技術。作業分析泛指透過收集及分析使用者與系統間互動的資訊,以評估作業配置、人機互動等過程優缺點的技術。在作業分析中,所獲致的結果除了能夠預測系統或模式的優缺點,以進行設計上的評估與選擇外,更可進一步分析使用者在進行該項作業時的心智工作負荷,以預測其執行績效。常用的作業分析技術包含:階層式作業分析(HTA)、GOMS(goal,operations,methods,selection rules)家族、認知作業分析(cognitive task analysis)、認知複雜度理論(cognitive complexity theory, CCT)等,各有不同的應用領域,其中又以GOMS家族的分析方式最享盛名。
GOMS是以系統化及結構化的方式對電腦操作作業進行分析,進而衡量其介面的使用度,它的主要作法是將一作業區分為目標(goal)、操作(operations)、方法(methods)、選擇法則(selection rules) 等四種基本架構進行分析。G表示工作的目標,它定義作業所須完成的狀態,以及達成目標所可能使用的方法;一個主目標可以進一步分解為數個次目標。O表示操作,包含各項操作介面實際的基本的感知、運動以及認知等活動。M表示方法,描述完成一目標所需程序步驟,這些程序步驟是由一連串的操作與(或)其他目標所組成,使用者通常可選擇不同方式來完成。S表示選擇法則,當有超過一種以上的方法可供達成某一目標時,GOMS使用「選擇法則」來選定適當的方法。
GOMS描述使用者的目標,並且將其分解成次目標、次次目標等,再利用堆疊概念,將所須完成的各級目標按其先後發生順序,依序放入一堆疊中再逐一執行。對操作的定義則嘗試利用顯著的行為(如擊鍵)來描述目標的達成,此類操作單元通常定義為可以觀察到的外部活動,然而,有時操作單元為內部不可觀察到的認知活動。
設計者與使用者的對話
身邊的手機響起,你看到手機螢幕顯示有一通來電,正想按下接通鍵,卻發現這支手機上的按鍵除了數字鍵盤上的12個按鍵之外,剩下幾個標示為「發送(SEND)」、「結束(END)」、「功能(FCN)」、「電源(PWR)」、「儲存(STO)」、「清除(CLR)」、及「重撥(RCL)」的鍵,想想看,你會按哪一個鍵?正確的答案是「發送」鍵,你猜對了嗎?其實,大部分第一次使用的人都會猶豫一下,往往還會按錯鍵。
這是什麼時候的古董機種,哪來這麼怪異的設計?你或許會這樣問。不過,如果你知道就在數年前,連當時技術最領先的摩托羅拉(Motorola)及自詡「科技始終來自人性」的諾基亞(Nokia),它們生產的手機按鍵都是這樣標示時,你會覺得不解嗎?如果能夠認知「行動電話」其實並不算一臺電話,而是一具無線電的話,其實這樣的設計是可以理解的。無線電要接收前,需要先和來話方達成通話協議,因此在「接聽」前亦須先「發送」出一簡短的訊號給基地臺確認,由此看來,鍵上寫著「發送」似乎並無不妥。問題出在,早期的使用者通常把行動電話想成是一支家用的無線電話,因此期待手機上應有一個「通話(Talk)」鍵。然而,是否把「發送」鍵改成「通話」鍵,就能夠把使用者介面的問題完全解決呢?
早期,的確有一些手機經銷商,用這種似是而非的講法告訴使用者,結果顧客買回去後就發現手機壞了而抱怨連連,因為「按下通話鍵後聽不到接通的嗡嗡聲」,或是「按下通話鍵後也按了號碼,但卻接不通」。或許在手機已成為生活必需品的今日,這些問題看起來實在有些好笑,但在早期手機剛流行時,這種直接把電話經驗轉到手機上卻行不通的挫折,著實困擾了許多人呢!由於手機的普及,現在已經有一些電話製造商,將電話比照手機設計,先輸入號碼再按通話鍵的方式來撥打。
在上面的例子中,設計師或其他相關工程人員,所共同設計的手機操作介面稱為概念模型。但設計師的概念,是否可以準確而有效地傳遞給使用者呢?使用者無法直接與設計師進行對話,通常也不會認真把說明書從頭看到尾;透過與手機介面的互動,進而對該手機功能及操作所形成的了解,則稱為使用者對於該手機所形成的心智模型。一般而言,心智模型是在使用中自然逐步形成的,同時,藉由與系統不斷地互動,使用者會不斷修正心智模型。如果到了最後,使用者的心智模型與設計師的概念模型能一致或相當接近,那麼,介面設計就算是相當成功了。
使用者對一個軟硬體所發展出的心智模型,也可能移轉至其他軟硬體上,合適的移轉可以大幅減低所需的摸索或學習時間。例如,對一個已熟悉微軟文書處理軟體(MS Word)選單架構的使用者,可以輕易地將其心智模型移轉至類似的軟體如微軟試算表軟體(MS Excel)。當然,有合適的移轉也就會有不合適的移轉,如前所述,將使用家用無線電話的心智模型移轉至行動電話,就可能造成負面效應。因此,當我們進行一項產品或系統的介面設計時,設計者必須考量其概念模型與使用者心智模型發展之間的適配程度,同時也應考慮概念模型與使用者既有的心智模型間相互移轉的問題,如此的系統設計才能給予使用者完整且易於理解的人機介面環境。
未來介面趨勢
隨著世界電腦技術、通信技術和網際網路技術的發展,當前主流的圖形使用介面/窗像單點(GUI/WIMP)介面不斷地遭受批評。隨著人機互動模式的推陳出新,新一代人機互動模式被要求包含虛擬實境、語音辨識與合成、手寫體與手勢辨識等技術,而整合這些來自不同感知通道的資訊,有賴多通道介面的發展。例如,在手勢辨識方面,已可利用一張如桌面大小的姿態辨識板,對投影在上面的物件(如多張的相片),進行各種徒手的處理(如利用二根手指的挑選,或整隻手臂分類),其過程與人們對攤放在桌上的相片進行分類的動作幾乎是一致的。
開發多通道介面的目的在充分利用人類多種感覺和運動通道的互補特性,來達到使用者與電腦相互間的溝通,從而增進人機互動中的自然性。人類的感覺通道包含視覺、聽覺、觸覺、嗅覺和平衡等;而人類的運動通道則包含手、嘴、眼、頭、足及身體等。目前在操作電腦時,主要的互動是透過眼和手,除了易導致疲勞、效率不高外,這種限定通道的溝通方式,本身即是互動模式的一種限制。若將聽、說和手、眼等協同動作採用多通道以自然方式進行互動,不但可提升人機互動時的效率,亦可增加互動內容。
在資訊社會中,通過網路和分散式電腦系統的幫助,人們可以克服空間的區隔和時間上的差異,實現人與人之間的遠距互動和合作。要進行遠距離的人際互動,各種相關資訊須透過電腦介面進行,至於對分散式人機互動,它的要求就更高了。而支持人機互動所需的資訊,必須以多通道(至少包含語音和視覺)的方式呈現,同時也能支援多人之間以即時、協調的方式進行互動。在高速網際網路的新一代分散式多媒體資訊系統蓬勃發展的環境下,前述概念將成為未來人機互動的基礎之一。
從另一方面來看,人們的動作或思想往往不很精確,也並非常保理性。源於感性資訊支援的非語言溝通,它強調豐富的感性介面以及整合來自環境的資訊,將是今後設計互動模式時所追求的方向。電腦應該理解人的要求,甚至能糾正人的錯誤,智慧化的介面是達到此一要求的一個重要方向。
大熱天回到家,你想要一頓較開胃的晚餐,但又想要吃得清淡一些,你要如何和你的系統溝通?你的系統又如何替你找回資訊?目前大概只有透過關鍵字用搜尋引擎吧,你要花多少時間找?結果令你滿意嗎?為適應資訊大量湧現的情況,使用者是按照需要服務的形式獲得資訊,這一來對人機互動的要求標準將會更高。例如,對一個使用者尚不能明確描述的概念進行檢索等。在目前人機互動系統中,人被稱為使用者,與機器進行對話時,沒有主動控制系統反應的能力。而在未來系統中,人才是主動的參與者,電腦將對人的各種動作做出反應。人機介面的趨勢,終將從電腦為中心轉變為以人為中心。