數位時代的淘金術–從大數據到人工智慧

 
2016/11/17 陳昇瑋 | 中央研究院資訊科學研究所研究員     3,244
 
活動(演講)時間: 2016/11/18
 
大數據在台灣蔚為風潮,無論是政府官員或販夫走卒,人人皆聽聞大數據的威力。因此,產業界及各級政府皆努力建置所謂的大數據平台,以蒐羅及保存資料為己任,並導入資料的視覺分析工具,讓決策者們能夠快速地查看管理或施政成效,以客觀數據來輔助主觀評價,以分析輔助經驗,以事實取代臆測。

這些都是好的進展。收集資料並整理成視覺化的分析圖表,對於評估及掌控現況有非常大的幫助,讓我們不再只能依直覺及經驗做決策。但,其實,這只是把資料平台準備好而已,要充份發揮資料的價值,還沒有沾到邊。

要發揮資料價值,不能光談大數據,機器學習與人工智慧是絕對不該忽略的。事實上,這三者環環相扣:大數據是材料,機器學習是處理方法,人工智慧是成品所呈現的特質。這個時代,蒐集了大量資料,只呈現給人看,而不是拿來餵給電腦學習,讓你的應用呈現人工智慧,就跟採集了大量松露結果拿來沾醬油一整碗吃掉一樣可惜。如同精靈寶可夢需要有訓練師才能發揮能力,擁有大數據後,我們也需要很多很多的機器學習專家(有人稱呼為AI訓練師),才能讓我們手中的大數據真正發揮價值。

在此演講中,陳博士為聽眾闡明資料科學、大數據、人工智慧、機器(深度)學習、資料探勘等相近但又不同的詞彙,再以各領域的實際案例來分享資料的可能應用及實用價值。同時,我將與聽眾分享其協助多家企業培訓資料科學家及導入資料科學團隊的各種經驗,從企業如何跳脫既有框架,讓資料科學團隊盡情揮灑無限創意著手,進而能活用資料、挖掘出潛藏在資料中不為人知的秘密,最終打造高信任度及高效率的工作環境,展現資料分析的價值。

聽講心得(撰文|孫維新館長)

眾所期待的頭場演講,由中央研究院資訊科學研究所陳昇瑋研究員擔綱,陳博士以「數位時代的淘金術─從大數據到人工智慧」為題,就資訊應用無所不在的今日,介紹數位世代的御劍訣:大數據分析,不僅要擷取有價值的資料,還要導入深度學習,讓馳騁在資訊前端的臺灣,打開發展的新視野,除了踏出認識資料科學的第一步,也要學習組裝數位時代中,跟上世界所不可或缺的齒輪。

陳博士在演講一開始,說到自己從小愛玩電玩遊戲,到後來甚至發揮創客精神,撰寫遊戲程式,自己的遊戲自己寫!如何定義「資料科學」?凡所有系統性、一般化,且能反覆驗證,幫助我們從資料中建構知識的方法,都是它的範疇。資料科學如同淘金術,具備良好的工具與方法,就能在最短的時間內搜尋到金礦!資料科學需要數學與統計的基礎,牽涉到模式識別、資料探勘、機器學習、類神經網路、大數據等技術。陳博士也說,事實上大數據雖為重要的趨勢,但僅是資料科學的一部份。

大數據包含三個 V:大量(Volume)、快速(Velocity)、以及多樣性(Variety),符合其中之一,就被認為在從事大數據的應用。以第二個 V(快速,Velocity)來講,瀏覽亞馬遜書店的網頁, 點進某本書的試閱,電腦就能夠在資料上傳的時候,瞬間用機器學習的演算法處理,建構出你可能有興趣的書籍。傳統上結構資料能用軟體分析,而非結構資料相對困 難,但現在經由技術的進步,已經能夠處理一些非結構資料,例如面試者的步伐、穿著、聲音、儀態等,都可以用影像判讀。

針對非結構性資料,陳博士指出,原來美國的職業運動球隊,都有資料分析團隊用電腦視覺(Computer Vision)將影片轉成結構化資料。他還打趣的說,像作為NBA 球隊的首席資料分析師,雖然打球遠不如專業球員,但卻能透過資料分析告訴他們怎麼打。還有輔助電腦視覺 FreeD 轉播技術,以數量足夠的攝影機,連接成無縫的全方位影像,接著用進一步技術作資料分析,可以捕捉每個運動軌跡,位置、轉速、方向等資訊。事實上,國外相對國內,比我們提供更多精確度高的資訊。根據調查,目前大數據普遍遇到的最大困難,不是量多(Volume),反而是第三個 V(多樣性,Variety),面對非結構性資料型態,難以使用的困難。

講完大數據,隨後進入到資料科學另一個重要趨勢:深度學習(Deep Learning)。深 度學習是機器學習的一個分支,希望把資料透過多個處理層中的線性或非線性轉換, 讓機器運算出最佳結果。此技術可以比喻成一種「比較深」的類神經網路,目前Google公司就經常將深度學習用在服務功能中,如Gmail的垃圾信件、自動回信, 甚至是Google Map。另外,AlphaGo也是很好的例子。

機器學習是透過演算法,使用歷史資料進行訓練,並於訓練完成後產生模型。未來,當有新的資料進來,就可以藉著訓練產生的模型進行預測。陳博士說到,以前多採用將資料視覺化,製作成圖表交由人為做出決斷分析,但那並不是真正的資料分析,應該要有「拆解」的步驟。以開放資料中台北市犯罪率高的地區為例,單純在地圖上標記出來,其實還未解決問題。分析能把整個空間切割成小塊,考慮各區的性別比、年齡、建築比例、離警察局的距離,甚至是路燈及監視器數目等,再進行關聯性的拆解。從描述開始,再來診斷、預測,進而達到指示(最佳化)結果。他也分 享了一個相當有趣的案例:社交感應器。經由胸前名牌中的感應器,我們可以得到整間公司員工彼此間的交談距離,是誰在發言,又是誰在聆聽,彼此講話距離的遠近,當中手勢、話題、音量為何,從中可以得到辦公室的社交情形,分析出工作態度、離職率、適當人選等,真是相當有意思!

此外,如今電腦進步飛速,還能夠計算社會科學,並以網路當作實驗對象,做 驗證與假設,最終再得到模型。舉例來說,我們經常使用的 Facebook 粉絲專頁,從一個人按讚的內容,就能夠得出他/她的性別、年齡、IQ、交友、性向、宗教等資訊。時至今日,現在我們按的每個讚都是一個訊息,若收集起來這些資料,就可以知道你/妳是什麼樣的人(You are what you like!)

最後,陳博士提及臺灣對大數據確實相當有興趣,但對深度學習、機器學習卻涉略較淺,相當可惜。期待社會大眾未來多接觸資料科學,實際運用資料分析來幫 助周遭,別讓大數據只是口中講講的玄學!

●〈展望〉系列科學普及演講官網:https://prospect.phys.ntu.edu.tw/
●〈展望〉系列科學普及演講部落格:http://prospect-speech.blog.ntu.edu.tw/