「可以看我，不要看QR Code嗎?」–擴增實境的辨識，科幻成真的最後一哩路？|最新文章

facebook twitter line 中列印書籤

「可以看我，不要看QR Code嗎?」–擴增實境的辨識，科幻成真的最後一哩路？

105/01/14 2735

曹盛威｜科技大觀園特約編輯

擴增實境，指得是將虛擬物件投射至現實中的技術，像是「遊戲王」中的立體影像裝置（去年已有神人完成決鬥盤與投影系統），或是去年的IKEA型錄，不過這只是一部份。

擴增實境的物件不一定是3D立體影像（只是最多人用，也較有互動性），其原始概念是在你眼前加入現實中沒有且可以即時互動的虛擬訊息，比如上面的血量、防禦、時間，或是將準星對到隊友身上跑出隊友的相關資訊。

前些日子一度爆紅的google glass已能讓擴增實境在真實世界中顯示虛擬訊息，但還有一個功能並不完善，那就是直接在真實物體上顯示正確的虛擬訊息。以CS的遊戲畫面來說，就是我們還無法讓準星（鏡頭）對準隊友（真實物體）後正確顯示相關資訊（虛擬物件）。

為什麼不行？人與機器在辨識物體上的差異

心理學將人辨識物體的方式分為「由下至上」與「從上到下」這兩種模式（注意，接下來的敘述富有無聊的哲學意味）。

「由下至上」指的是我們先是辨認出各種「特徵」，根據這些特徵進行辨認，這是一種被動的處理方式（也可以說，較為客觀）。例如：看到一個有著四條腿、毛茸茸還搖著尾巴又汪汪叫的東西，我們便能說這是一條狗。

「從上到下」則反過來，透過「情境」採取主動詮釋的方式（較為主觀），依據內心的期望來對接受的訊息進行解釋。比如在吧台上，擺著兩大罐開過的高粱以及一整排裝滿透明液體的shot glass，你馬上認定這透明液體就是高粱，但實際上你並沒有足夠多的資訊來辨認；如果把shot glass換成平常的玻璃杯，旁邊也沒有任何高粱酒瓶，你或許就會認為這只是一杯白開水。

辨認就是識別出「特徵」與「情境」這兩件事。對人來說，辨識是兩種過程交互進行的結果，但對機器就不是這麼一回事了，機器只有識別「特徵」的能力。因此同一物體只要看起來不一樣（換個角度或是光源不一樣），機器就會有判別上的困難。

解決方法－識別碼與機器學習

在IKEA的型錄影片中，我們可以看到使用者將IKEA型錄放在地上，device偵測型錄並顯示相對應的虛擬物件，這就是「識別碼」的概念(QR Code、二維條碼、RFID等技術)。既然機器只能辨識「特徵」，就為現實物體安上一個機器能夠明確辨識的識別碼，這樣問題就迎刃而解了！

不過這樣的方法治標不治本，主因是「想要在哪裡顯示虛擬物件，就要在那裡找到QR Code」，想一下賽亞人偵測戰鬥力時，還要跟對方說「抱歉我找不到你的QR Code」，實在是很不直覺又不帥氣阿！

但識別碼仍當前是解決辨識問題最常使用的方法，不只是電腦容易判讀，對人來說也容易製作。識別碼的相關技術也還在持續發展中，比如用紅外線感應的隱形識別碼，可以讓真實物體不會再有醜醜的條碼。

而另一個方法是讓機器也能搞懂複雜情境的能力，這涉及到已經被科幻小說寫到爛的人工智慧。而在工程領域，「機器學習」正是嘗試讓機器也能玩閱讀空氣的跨領域學科，但不要忘了機器基本上還是只有辨識「特徵」的能力，機器學習只是將複雜的真實情境簡化成機器能辨識的特徵。

所以該如何讓機器進行學習？其實跟人的學習一樣，不外乎是從經驗中（數據）找出共通點，並作為之後判斷的標準。比如說你跟朋友約見面，朋友經常晚十分鐘才到，那下次約見面時你就會去衡量自己要不要準時赴約，如果把他寫成機器邏輯，那會是「跟別人約見面要準時，但如果是你朋友的話，可能要晚十分鐘才對。」（如果對這部分有興趣，可以參考深度學習──人工智能的現在與未來）。

是最後一哩路？還是走不完的一哩路？

擴增實境從提出至今也過了二十年，許多成像與體感操作技術都在突飛猛進，但在辨識技術上卻沒飛的那麼快，這也使得擴增實境的運用大多還是在娛樂媒介上面，像今年E3展上，Microsoft開發的hololens，把Minecraft的世界直接投影在會場上並用體感進行操作；但在日常生活中，辨識技術的不足將使得擴增實境的便利性不佳，如果帶google glass還要找商品條碼才能看到價格，我為什麼不直接看櫃子上的價格告示牌呢？

人類技術能不能突破機器辨識上的落差，成為這最後一哩路最重要的關鍵，究竟這真的是最後一哩路，還是走不完的一哩路，還有待那些資料科學家們來為我們解答。
（本文由科技部補助「新媒體科普傳播實作計畫－智慧生活與前沿科技科普知識教育推廣」執行團隊撰稿）

責任編輯：鄭國威
審校：陳妤寧

擴增實境(31)

「可以看我，不要看QR Code嗎?」–擴增實境的辨識，科幻成真的最後一哩路？

推薦文章