首頁 > 中文語音技術的先驅–李琳山院士
:::

中文語音技術的先驅–李琳山院士

今天我們覺得語音輸入是很稀鬆平常的事,但早在四十年前,別說是手機,就連電腦都還尚未普及的年代,國內就有學者挑戰語音技術的尖端研究了。
 
 
「手機的語音助理」已是大家熟悉的功能,它不只能聽懂我們在說什麼,也能有適當的回應。但我們很難想像,早在四十年前,別說是手機,就連電腦都還尚未普及的年代,國內就有學者挑戰語音技術的尖端研究了。
 
「回家是不需要理由的」
 
李琳山院士正在示範使用「金聲一號」(相片來源:李琳山院士)
▲李琳山院士正在示範使用「金聲一號」(相片來源:李琳山院士)
 
李琳山院士從台大電機系畢業後,前往史丹佛大學攻讀碩士和博士學位,且僅花了三年就攻頂成功。求學過程在外人看來似乎十分順遂,但箇中的艱辛與困苦,卻是外人難以想像的。

當時,到美國留學需先匯一筆錢去美國,才能至美國大使館辦理簽證,那對家境並不寬裕的李院士是個非常嚴酷的挑戰。當他向父親提起要去國外留學時,父親毫不猶豫地全力支持、並適時匯出了那筆錢,讓李院士非常感動;但他不敢向父親說出口的是--那筆錢只是史丹佛大學三個學期(即九個月)的學費(不含生活費),這意謂著:當他在美國咬下第一口麵包時,已經付不出第三學期的學費了。因此,他必須盡快在兩個學期內找到願意給他獎學金的指導教授,否則就得打包回家。

李院士原計畫出國攻讀「控制理論」的相關學問。但到了美國才發現當時最熱門的領域是「半導體」,因此興起了轉攻讀半導體的念頭。不過當時想選擇半導體領域的學生太多,競爭過於激烈,找不到那個教授願意額外給他獎學金。眼見兩個學期的期限將至,李院士決定「只要有教授肯給獎學金,做甚麼領域都無所謂」,終於有位研究衛星通訊的教授願意給他獎學金了。雖然當時他對通訊領域毫無概念,但為了能繼續留在美國學習,即毫不猶豫地加入那個團隊,此一匆匆轉行逼得他須孜孜矻矻地鑽研功課以補足相關知識。因此在美國求學時,他真的是非常的努力,每天都待在圖書館,連放假也不例外,他常常感念他的博士論文題目就是在聖誕節時靈光乍現的。 

1979年,已得到學位的李博士申請到台大電機系的教職,並決定回台任教,當時身邊的人都潑他冷水「你別傻了,台灣怎麼可能做衛星通訊的研究」。的確,當時台灣的電子產業尚未起步,加上李院士申請到教職後,適逢中美斷交,當時台灣的處境非常艱困,人心惶惶。很多人都勸阻他「別回台灣」,但他還是毅然決然地回來了。後來有人問起:「當時為什麼要回到台灣?」李院士總是答說「離開家需要理由,但回家是不需要理由的」。李院士認為當時「台大電機系的教學、研究資源都很缺乏,他希望回來能 make difference」,因此他常以自身為例勉勵即將出國留學的學子「西天取經,志在中土」,希望他們學有所成後,不要忘了回台灣貢獻所學。
 
 
和語音的「教學奇緣」
 
李琳山院士回想,和「語音」的相遇源自於一段「教學奇緣」。當時台大電機系的老師每學期都要開兩門課,就在回台大的第二個學期,他偶然在書店看到一本和語音處理有關的教科書。雖然當時李院士並沒有任何語音方面的背景,但翻閱相關內容後,覺得用到的數學好像不難,遂決定開設一門和語音處理有關的課程。自此,他邊自學邊教課,直到學期結束,終於掌握到語音技術的內涵,也結下了和語音技術不解之緣。

80年代的中文打字機以大鍵盤為主流,鍵盤上有上千個中文字,可以想見使用是非常不便的。因此,中文打字曾經是一種專門的工作,當時街上很多打字行也有很多打字員專門打字,甚至有人鑽研中文輸入法(例如:倉頡、注音等等),但畢竟專精中打的還是不多。那時,李院士閃過一個念頭:「能否用語音輸入中文呢?」中文的特色是一字一音,且音的總數有限,讓機器可以認得中文的每一個音,不正適合中文輸入嗎?這就是今天語音辨識的雛形。但當時連讓機器辨識英文的技術都還只是起步,遑論是否有人在做中文語音技術的相關研究了。

李琳山院士一開始是從「讓電腦說華語」的想法開始研究,在沒有經費、沒有實驗室的情況下,好不容易從機械系借到一個小房間,用當時的微處理機開始進行相關研究,1984年終於成功讓機器可以念出半句的中文了。

此後,李院士開始深入語音辨識的研究,他的夢想非常前瞻,希望不管說什麼中文的詞彙、說任意中文的文句,機器都可以轉成文字。他從一字一音的中文語音輸入開始,就跟中文打字機一樣。每念一個字,機器要能辨識出其聲母、韻母、聲調,然後再決定從同音字中選取一個適當的輸出。當時個人電腦運作很慢,這些辨識主要是靠他自己設計的專用硬體來完成。惟因這個目標太複雜了,以致若干年後,依舊未能順利成功。直至李院士傾全實驗室的財力,從國外買進一台平行電腦後,才得以在1992年開發出第一台國語聽寫機「金聲一號」,這是全球首次的中文語音辨識,並在1995年開發了金聲三號,當時機器已經可以根據資料自己做學習,並在聽到一整句話後即進行語音辨識。
 
自從回台後,李琳山院士在台大一直同時進行著通訊和語音的研究。當時台灣的研究環境比較艱困,通訊理論的研究不必用到什麼設備,只要一張紙與一隻筆就可以了,於是他鎖定在「數位通訊理論」的領域;但「語音處理」當時卻是個全新的領域。尤其是開始研究的頭幾年,李琳山院士完全沒有相關論文的發表,投稿國際會議也屢被拒絕;而且當年語音的研究距離實際應用仍然非常遙遠,申請政府的補助並不容易。因此,李琳山院士只好靠著「通訊領域的研究」成果去申請政府補助和升等,才能維繫實驗室在語音方面的研究。 

如此雙管研究二十餘年後,李琳山院士自覺不堪再負荷,因此決定擇一專精。雖然當時他在通訊領域已經國際知名,並在國際電機電子工程師學會中的通訊學會(IEEE communications society)獲選為負責全球學術事務的副理事長(Vice President for International Affairs),但卻選擇了語音領域為最愛。曾有學生問他為什麼作這樣的選擇?李院士回答:那是「腦袋」自己決定的。因為在某次通訊相關的會議中,他發現腦中所浮現的卻全都是「語音」的問題,他就明白「腦袋」已經幫他做了決定。
 
 
「信號與人生」
 
李琳山院士的教學也相當精彩,他曾說過:他的每一堂課都是秉持著準備國際會議演講的心情去籌劃的。在《信號與系統》這門課的最後一堂,他常以自己的人生經驗來勉勵學生,因此台大電機系的同學都稱這堂課為「信號與人生」。
 
「信號與人生」–「多做加法」
 
綜觀李琳山院士的研究,從控制到半導體、通訊、最後到語音領域,變化之大用「離譜」來形容仍不為過。即使進入網路時代後,他的研究內涵也會加入網路的元素,不再局限於中文的語音辨識了,例如他就說要做「語音版的 Google」,讓機器可以聽懂網路上的多媒體資訊,使之幫助人類篩檢出需要的資訊。

在過往的研究生涯中,他學到了應融合多元知識於一爐,他說:「跨領域才有空間,因為單一領域中會人山人海,但跨領域卻地廣人稀。」因此他在「信號與人生」這門課中就勉勵學生要「多作加法、少做減法」,即不要怕進入新領域,因為新領域會像雨後春筍般、綿綿不絕地出來,如果心裡總覺得「這我沒學過我不要去」的話,那你就是給自己做了減法。反之如果你不怕那個新領域,而且勇敢地進去看看,這就是給自己做加法。 
 

「信號與人生」–「迎頭趕上」
 
電機資訊的技術和知識日新月異也千變萬化,今日所學的知識可能在不久的未來就會落伍、被淘汰,即使是盛極一時的科技產業也可能一夕之間泡沫化,學術界熱烈討論的熱門領域其實是隨時都在改變的。

李琳山院士勉勵學生要知道如何學習非結構化的知識(Unstructured Knowledge),不倚賴教授、課程或整理好的教材。唯有如此,畢業後才可以自行學習新的知識,進入任何領域、任何產業後,也能迅速調適,學會所需的新知識。但困難的是:現在是個知識爆炸的時代,當你進入一個新領域,剛讀完一本書,但抬頭一看卻發現又多了十本書;剛讀完五篇論文,但剎那間又出現了五百篇論文,讓我們常常苦苦追趕,卻總是落後,這時該怎麼做才是王道呢?

李琳山院士告訴學生:要「迎頭趕上」。他說:「迎頭趕上就是要知道哪裡是基礎,selectively(選擇性的)抓到哪裡是基礎後,你就讀基礎的東西就好;讀完後,直接跳到最前面去,若讀得懂就繼續讀,如果讀得障礙重重,需要什麼基礎,就回去重讀這個或那個,如此這般試誤性的前進後退走,終會有所成,這就是所謂的迎頭趕上。」
 
結語
 
語音輸入在今天已是日常生活常見的技術了,但回想一下在電腦仍不普及的時代,語音辨識應是那科幻小說才會出現的情節。李琳山院士在那樣的時代開始著手這方面的研究,努力不懈,並堅持到開花結果。驚人的意志力和遠見不是我們這些後生晚輩可以想像的。
 
在「信號與人生」這門課中,他勉勵學生:「人的一生中會不斷地遇到各種選擇 ,你一定要選擇那個難的選項。因為簡單的,大家都會,做到了也不會有什麼成就感﹔但選難的而你又做到了,那你就真的厲害了…… 人如果只想走一條穩紮穩打的路就好,那你只是在原地而已。但若要往上走的話,你就要挑難的,把難的東西做成功了,你就可以跳上去了。」李琳山院士在語音技術這條路上的披荊斬棘與持之不懈,正是以身教來體現他對學術的堅持及夢想終能成真的驗證。
 
 
責任編輯:郭啟東/國立中山大學
推薦文章