讓機器「看懂」世界–掌握人工智能發展關鍵的「DT42」團隊

 
2017/05/04 涂煥昌 | 特約文字編輯     675
 

2016年夏天,日本軟銀(SoftBank)發表一款會表達情緒的類人型機器人(Pepper)。這個機器人,具有感知周遭的基本能力,並有語音功能與觸控面板,能與面對的人進行簡單的雙向溝通。它的表現,震驚了在場所有人,也宣告了機器人的時代已經來臨。

 

「視覺」是溝通的根本

 

「Pepper」的出現並非突然,其實早在2000年左右,日本本田(HONDA)就 曾發表一款俱有四肢,能跑、能握的人形機器人「ASIMO」,甚至在更早的1980年代,電影「魔鬼終結者」(The Terminator)便是以人形機器人為主角;人們對於機器「人」的情有所鍾,其來有自。

 

但「機器人」畢竟是「機器」,雖然可以由電腦控制,但仍需靠人輸入指令,才能被動地去執行。隨著時代與科技的進步,科學家們開始期望未來的機器人,要能自我「思考」、「判斷」,甚至與外界「溝通」,而這一切能力的建立就必須先讓機器人能正確接收外界訊息,「看懂」世界開始。

 

人類具有視覺、聽覺、嗅覺等各種感官能力,這些都是接受外界訊息的主要來源;據研究,人類各種感官的訊息來源,以「視覺」占最大的比重,其次才是「聽覺」;嬰幼兒初認識這個世界,主要靠的就是「視覺」來快速累積訊息與學習。既然「視覺」是人類接受訊息最重要的來源,「DT42」團隊著眼于此,便想到應先賦予電腦「視覺」讓機器先有能力去「看」。

 

不只「看見」,還要「看懂」

 

相機的成像原理,其實與人類的眼睛相似,所以想讓電腦「看到」周遭事物,只要配備有「攝影」裝備即可,技術並不難,但問題最大的關鍵則是在如何讓被記錄到的影像,俱有「意義」,電腦能「看懂」。

 

我們能夠分辨、理解眼前事物的能力,在視覺上倚靠的是兩個重要的過程:一是辨別事物的「外觀」,另一則是「視覺經驗」的累積。通常物體的外觀,都是由其「輪廓線」所描繪的,故「DT42」成員先將鏡頭記錄到的原始數位訊號,轉化成有特殊意義的訊息,藉此先定義出物體的外觀,讓電腦「看見」;例如,「馬克杯」的外觀,即是由一個圓柱的(杯身)搭配了一個環形的(把手)所組合而成的輪廓線,電腦藉此定義,即可「看見」眼前的「物體」了。

 

那人類又是如何能正確辨識沒看過的馬克杯呢?首先我們需認識典型的「馬克杯」,並多看看各種類型的馬克杯,以及與馬克杯有關的任何事物,不斷累積相關的「視覺經驗」,而在腦中建立與馬克杯有關的各種「特徵」;當日後需要時,就能快速比對,進而正確辨識眼前這個從未見過的「新」馬克杯了。但想要將上述過程應用在電腦視覺辨識上,就得先建立大量的「特徵資料庫」。

 

初期,電腦視覺「特徵資料庫」是由人工去一一定義、建構,但世界上的「事物」樣貌、動作何其多,要想完全蒐集其實是不可能的;因此在實際應用的場合中,經常會遭遇「未見過」的情況,致使電腦誤判率極高。對此,「DT42」團隊嘗試使用了「深度學習」的技術,期以根本解決這個困境。

 

電腦深度學習的困境

 

電腦「自我學習」的技術自 2012始有了新突破,科學家利用「深度學習」(Deep Learning)的概念,以「卷積類神經網絡」法(Convolutional Neural Network)來進行影像辨識,結果發現其結果的精準度大幅超越了傳統人工建立的「特徵資料庫」方法,此一技術遂成為「人工智慧」發展的重要基石。

 

「DT42」成員應用這個新概念,開發了一套以「影片」為主,能讓電腦廣泛地,自動收集資料的方法。這是把「影片是連續時間上,諸多單張畫面的替換」與「動作,是諸多物體間的行為連結」,這兩個想法作結合。

 

以「喝水」流程為例,影片出現人拿起水杯的動作時,電腦先要辨識「手」、「水杯」、「口」等元素,接下來的幾個畫面,則會出現「水杯」與「口」的接觸、「手勢的變化」等動作特徵,「DT42」便以採集這些「相關的連續動作」為重點,設計讓電腦能自動記錄與「水杯」有關的所有「物件資訊」與「動作」;如此,往後若再看見另一個人喝水時,電腦也就能精準的辨識這種行為了。「DT42」希望借此擺脫人工一一標注的困境,讓電腦能自我擴展視覺辨識所需的資料,開始自我學習。

 

但是如同上述,要讓電腦「深度學習」除了需要極大量的「特徵資料」外,動輒數千萬的模型參數與運算,也得倚靠高階伺服器與雲端技術的輔助才可行,這無疑又樹立了一個極高的硬體門檻,使應用蒙上了一層障礙的陰影。

 

針對此問題,「DT42」同步提出一個解決的辦法:即透過特別設計的演算法,將一連串的影片資訊化整為零,使其能被分散處理,個別進行辨識,最後再進行資料的整合。這樣便可避開高門檻的硬體運算的限制,讓「人工智慧」未來能廣泛應用於人們的日常生活。

 

未來生活的好幫手

 

讓電腦擁有「視覺」,讓機器「看懂」世界,這種新穎的應用,已逐漸出現在日常生活中,例如:新一代的收費停車場,已可透過出入口與車位附近的監視系統與電腦系統,做到自動辨識車牌、記錄停車位置、管理車位使用、計算費用…等等,大幅度節省了人力管理的成本。

 

「DT42」技術的運用,開啟了在不久的未來,公共場所的監視器便能俱有相當「智能」的美景。透過視覺辨識系統,不需要再連線到雲端,便可自動判定監視範圍內,是否有暴力事件,或是意外傷殘的事故發生,並能作即時的通報,這遠比目前的監視器只有單純「記錄」的功能要積極許多,此外,監視系統的佈署,與影像傳輸與儲存的成本也可大幅降低。

 

上述應用,其實只是電腦「視覺辨識」、「人工智能」應用的初試啼聲。在不久的未來,諸多不需「思考」的行為與工作,也將大幅移轉給這些俱有「辨識」能力,能「判斷」的機器人去執行,成為我們生活中的好幫手。

 

對」的人是最重要的

 

「DT42」的成員都非常年輕,平均為卅歲上下;草創初期,幾位核心成員都是電腦視覺與軟體研發專業背景的好友。回首過去,他們認為創業最重要的,就是要選擇「對」的人成為夥伴;因為志同道合的人,會有共同的理想與目標,就算遇上「不對」的事,最終還是能導正回「對」的方向來。一個「對」的夥伴,是團隊最重要的資產。

 

在擁有好夥伴之後,新創的「DT42」團隊馬上面臨了另一個棘手的困難:由於團隊核心成員都是電腦資訊背景出身,完全缺乏法、商、行銷…等等其他專業領域的知識。這點,在科技部的協助之下,他們透過參與「創新創業激勵計劃」(FITI),適時補足了這些知識的匱乏;並且,透過這個平台,他們也結識了許多經驗豐富的業界前輩,以及同為新創背景的其他團隊,為未來合作的可能埋下了許多機會。

 

註1:楊琬晴博士創業團隊參加科技部「創新創業激勵計畫競賽」於105年第二梯次遴選中勇奪創業傑出獎殊榮,並獲200萬創業獎金。

 

註2:科技部推動「創新創業激勵計畫」之目的,在鼓勵我國年輕研究人員創業,引導高等教育研究機構建立創新創業文化,並營造研發成果或創意產業化的友善環境。該計畫每年舉辦兩梯次的創業團隊評選,每梯次遴選至多40個團隊,藉由系列課程與實作研習、國內及矽谷成功華人創業家與創投家擔任業師,並由國研院、3個科學工業園區管理局提供原型開發支援、技術試驗場域、資源轉介服務等,經過3階段的評選及決選、小額創業資金挹注,以及舉辦天使創投媒合會,協助團隊創業。