跳到主要內容

科技大觀園商標

分類項目
Menu

「可以看我,不要看QR Code嗎?」–擴增實境的辨識,科幻成真的最後一哩路?

105/01/14 瀏覽次數 1825
擴增實境,指得是將虛擬物件投射至現實中的技術,像是「遊戲王」中的立體影像裝置(去年已有神人完成決鬥盤與投影系統),或是去年的IKEA型錄,不過這只是一部份。

擴增實境的物件不一定是3D立體影像(只是最多人用,也較有互動性),其原始概念是在你眼前加入現實中沒有且可以即時互動的虛擬訊息,比如上面的血量、防禦、時間,或是將準星對到隊友身上跑出隊友的相關資訊。

前些日子一度爆紅的google glass已能讓擴增實境在真實世界中顯示虛擬訊息,但還有一個功能並不完善,那就是直接在真實物體上顯示正確的虛擬訊息。以CS的遊戲畫面來說,就是我們還無法讓準星(鏡頭)對準隊友(真實物體)後正確顯示相關資訊(虛擬物件)。
 
為什麼不行?人與機器在辨識物體上的差異
 
心理學將人辨識物體的方式分為「由下至上」與「從上到下」這兩種模式(注意,接下來的敘述富有無聊的哲學意味)。

「由下至上」指的是我們先是辨認出各種「特徵」,根據這些特徵進行辨認,這是一種被動的處理方式(也可以說,較為客觀)。例如:看到一個有著四條腿、毛茸茸還搖著尾巴又汪汪叫的東西,我們便能說這是一條狗。

「從上到下」則反過來,透過「情境」採取主動詮釋的方式(較為主觀),依據內心的期望來對接受的訊息進行解釋。比如在吧台上,擺著兩大罐開過的高粱以及一整排裝滿透明液體的shot glass,你馬上認定這透明液體就是高粱,但實際上你並沒有足夠多的資訊來辨認;如果把shot glass換成平常的玻璃杯,旁邊也沒有任何高粱酒瓶,你或許就會認為這只是一杯白開水。

辨認就是識別出「特徵」與「情境」這兩件事。對人來說,辨識是兩種過程交互進行的結果,但對機器就不是這麼一回事了,機器只有識別「特徵」的能力。因此同一物體只要看起來不一樣(換個角度或是光源不一樣),機器就會有判別上的困難。
 
解決方法-識別碼與機器學習
 
在IKEA的型錄影片中,我們可以看到使用者將IKEA型錄放在地上,device偵測型錄並顯示相對應的虛擬物件,這就是「識別碼」的概念(QR Code、二維條碼、RFID等技術)。既然機器只能辨識「特徵」,就為現實物體安上一個機器能夠明確辨識的識別碼,這樣問題就迎刃而解了!

不過這樣的方法治標不治本,主因是「想要在哪裡顯示虛擬物件,就要在那裡找到QR Code」,想一下賽亞人偵測戰鬥力時,還要跟對方說「抱歉我找不到你的QR Code」,實在是很不直覺又不帥氣阿!

但識別碼仍當前是解決辨識問題最常使用的方法,不只是電腦容易判讀,對人來說也容易製作。識別碼的相關技術也還在持續發展中,比如用紅外線感應的隱形識別碼,可以讓真實物體不會再有醜醜的條碼。

 而另一個方法是讓機器也能搞懂複雜情境的能力,這涉及到已經被科幻小說寫到爛的人工智慧。而在工程領域,「機器學習」正是嘗試讓機器也能玩閱讀空氣的跨領域學科,但不要忘了機器基本上還是只有辨識「特徵」的能力,機器學習只是將複雜的真實情境簡化成機器能辨識的特徵。

所以該如何讓機器進行學習?其實跟人的學習一樣,不外乎是從經驗中(數據)找出共通點,並作為之後判斷的標準。比如說你跟朋友約見面,朋友經常晚十分鐘才到,那下次約見面時你就會去衡量自己要不要準時赴約,如果把他寫成機器邏輯,那會是「跟別人約見面要準時,但如果是你朋友的話,可能要晚十分鐘才對。」(如果對這部分有興趣,可以參考深度學習──人工智能的現在與未來)。
 
是最後一哩路?還是走不完的一哩路?

擴增實境從提出至今也過了二十年,許多成像與體感操作技術都在突飛猛進,但在辨識技術上卻沒飛的那麼快,這也使得擴增實境的運用大多還是在娛樂媒介上面,像今年E3展上,Microsoft開發的hololens,把Minecraft的世界直接投影在會場上並用體感進行操作;但在日常生活中,辨識技術的不足將使得擴增實境的便利性不佳,如果帶google glass還要找商品條碼才能看到價格,我為什麼不直接看櫃子上的價格告示牌呢?
人類技術能不能突破機器辨識上的落差,成為這最後一哩路最重要的關鍵,究竟這真的是最後一哩路,還是走不完的一哩路,還有待那些資料科學家們來為我們解答。
(本文由科技部補助「新媒體科普傳播實作計畫-智慧生活與前沿科技科普知識教育推廣」執行團隊撰稿)
 
責任編輯:
鄭國威
審校:陳妤寧
OPEN
回頂部