讓機器「看懂」世界–掌握人工智能發展關鍵的「DT42」團隊|最新文章

facebook twitter line 中列印書籤

讓機器「看懂」世界–掌握人工智能發展關鍵的「DT42」團隊

106/05/04 2370

涂煥昌｜特約文字編輯

2016年夏天，日本軟銀（SoftBank）發表一款會表達情緒的類人型機器人（Pepper）。這個機器人，具有感知周遭的基本能力，並有語音功能與觸控面板，能與面對的人進行簡單的雙向溝通。它的表現，震驚了在場所有人，也宣告了機器人的時代已經來臨。

「視覺」是溝通的根本

「Pepper」的出現並非突然，其實早在2000年左右，日本本田（HONDA）就曾發表一款俱有四肢，能跑、能握的人形機器人「ASIMO」，甚至在更早的1980年代，電影「魔鬼終結者」（The Terminator）便是以人形機器人為主角；人們對於機器「人」的情有所鍾，其來有自。

但「機器人」畢竟是「機器」，雖然可以由電腦控制，但仍需靠人輸入指令，才能被動地去執行。隨著時代與科技的進步，科學家們開始期望未來的機器人，要能自我「思考」、「判斷」，甚至與外界「溝通」，而這一切能力的建立就必須先讓機器人能正確接收外界訊息，「看懂」世界開始。

人類具有視覺、聽覺、嗅覺等各種感官能力，這些都是接受外界訊息的主要來源；據研究，人類各種感官的訊息來源，以「視覺」占最大的比重，其次才是「聽覺」；嬰幼兒初認識這個世界，主要靠的就是「視覺」來快速累積訊息與學習。既然「視覺」是人類接受訊息最重要的來源，「DT42」團隊著眼于此，便想到應先賦予電腦「視覺」讓機器先有能力去「看」。

不只「看見」，還要「看懂」

相機的成像原理，其實與人類的眼睛相似，所以想讓電腦「看到」周遭事物，只要配備有「攝影」裝備即可，技術並不難，但問題最大的關鍵則是在如何讓被記錄到的影像，俱有「意義」，電腦能「看懂」。

我們能夠分辨、理解眼前事物的能力，在視覺上倚靠的是兩個重要的過程：一是辨別事物的「外觀」，另一則是「視覺經驗」的累積。通常物體的外觀，都是由其「輪廓線」所描繪的，故「DT42」成員先將鏡頭記錄到的原始數位訊號，轉化成有特殊意義的訊息，藉此先定義出物體的外觀，讓電腦「看見」；例如，「馬克杯」的外觀，即是由一個圓柱的（杯身）搭配了一個環形的（把手）所組合而成的輪廓線，電腦藉此定義，即可「看見」眼前的「物體」了。

那人類又是如何能正確辨識沒看過的馬克杯呢？首先我們需認識典型的「馬克杯」，並多看看各種類型的馬克杯，以及與馬克杯有關的任何事物，不斷累積相關的「視覺經驗」，而在腦中建立與馬克杯有關的各種「特徵」；當日後需要時，就能快速比對，進而正確辨識眼前這個從未見過的「新」馬克杯了。但想要將上述過程應用在電腦視覺辨識上，就得先建立大量的「特徵資料庫」。

初期，電腦視覺「特徵資料庫」是由人工去一一定義、建構，但世界上的「事物」樣貌、動作何其多，要想完全蒐集其實是不可能的；因此在實際應用的場合中，經常會遭遇「未見過」的情況，致使電腦誤判率極高。對此，「DT42」團隊嘗試使用了「深度學習」的技術，期以根本解決這個困境。

電腦深度學習的困境

電腦「自我學習」的技術自 2012始有了新突破，科學家利用「深度學習」（Deep Learning）的概念，以「卷積類神經網絡」法（Convolutional Neural Network）來進行影像辨識，結果發現其結果的精準度大幅超越了傳統人工建立的「特徵資料庫」方法，此一技術遂成為「人工智慧」發展的重要基石。

「DT42」成員應用這個新概念，開發了一套以「影片」為主，能讓電腦廣泛地，自動收集資料的方法。這是把「影片是連續時間上，諸多單張畫面的替換」與「動作，是諸多物體間的行為連結」，這兩個想法作結合。

以「喝水」流程為例，影片出現人拿起水杯的動作時，電腦先要辨識「手」、「水杯」、「口」等元素，接下來的幾個畫面，則會出現「水杯」與「口」的接觸、「手勢的變化」等動作特徵，「DT42」便以採集這些「相關的連續動作」為重點，設計讓電腦能自動記錄與「水杯」有關的所有「物件資訊」與「動作」；如此，往後若再看見另一個人喝水時，電腦也就能精準的辨識這種行為了。「DT42」希望借此擺脫人工一一標注的困境，讓電腦能自我擴展視覺辨識所需的資料，開始自我學習。

但是如同上述，要讓電腦「深度學習」除了需要極大量的「特徵資料」外，動輒數千萬的模型參數與運算，也得倚靠高階伺服器與雲端技術的輔助才可行，這無疑又樹立了一個極高的硬體門檻，使應用蒙上了一層障礙的陰影。

針對此問題，「DT42」同步提出一個解決的辦法：即透過特別設計的演算法，將一連串的影片資訊化整為零，使其能被分散處理，個別進行辨識，最後再進行資料的整合。這樣便可避開高門檻的硬體運算的限制，讓「人工智慧」未來能廣泛應用於人們的日常生活。

未來生活的好幫手

讓電腦擁有「視覺」，讓機器「看懂」世界，這種新穎的應用，已逐漸出現在日常生活中，例如：新一代的收費停車場，已可透過出入口與車位附近的監視系統與電腦系統，做到自動辨識車牌、記錄停車位置、管理車位使用、計算費用…等等，大幅度節省了人力管理的成本。

「DT42」技術的運用，開啟了在不久的未來，公共場所的監視器便能俱有相當「智能」的美景。透過視覺辨識系統，不需要再連線到雲端，便可自動判定監視範圍內，是否有暴力事件，或是意外傷殘的事故發生，並能作即時的通報，這遠比目前的監視器只有單純「記錄」的功能要積極許多，此外，監視系統的佈署，與影像傳輸與儲存的成本也可大幅降低。

上述應用，其實只是電腦「視覺辨識」、「人工智能」應用的初試啼聲。在不久的未來，諸多不需「思考」的行為與工作，也將大幅移轉給這些俱有「辨識」能力，能「判斷」的機器人去執行，成為我們生活中的好幫手。

「對」的人是最重要的

「DT42」的成員都非常年輕，平均為卅歲上下；草創初期，幾位核心成員都是電腦視覺與軟體研發專業背景的好友。回首過去，他們認為創業最重要的，就是要選擇「對」的人成為夥伴；因為志同道合的人，會有共同的理想與目標，就算遇上「不對」的事，最終還是能導正回「對」的方向來。一個「對」的夥伴，是團隊最重要的資產。

在擁有好夥伴之後，新創的「DT42」團隊馬上面臨了另一個棘手的困難：由於團隊核心成員都是電腦資訊背景出身，完全缺乏法、商、行銷…等等其他專業領域的知識。這點，在科技部的協助之下，他們透過參與「創新創業激勵計劃」（FITI），適時補足了這些知識的匱乏；並且，透過這個平台，他們也結識了許多經驗豐富的業界前輩，以及同為新創背景的其他團隊，為未來合作的可能埋下了許多機會。

註1：楊琬晴博士創業團隊參加科技部「創新創業激勵計畫競賽」於105年第二梯次遴選中勇奪創業傑出獎殊榮，並獲200萬創業獎金。

註2：科技部推動「創新創業激勵計畫」之目的，在鼓勵我國年輕研究人員創業，引導高等教育研究機構建立創新創業文化，並營造研發成果或創意產業化的友善環境。該計畫每年舉辦兩梯次的創業團隊評選，每梯次遴選至多40個團隊，藉由系列課程與實作研習、國內及矽谷成功華人創業家與創投家擔任業師，並由國研院、3個科學工業園區管理局提供原型開發支援、技術試驗場域、資源轉介服務等，經過3階段的評選及決選、小額創業資金挹注，以及舉辦天使創投媒合會，協助團隊創業。

人工智慧(166)

讓機器「看懂」世界–掌握人工智能發展關鍵的「DT42」團隊

推薦文章