大數據專題報導(一):資料科學如何解決真實世界的問題?認識資料極限,打開分析視野-專訪DSP智庫驅動知識長謝宗震
105/01/21
瀏覽次數
11167
陳妤寧|
台灣數位文化協會
將 Big Data 回歸資料科學的本質,除了資訊工程之外,「統計」這個學門在 Big Data 時代能夠如何讓「數據」發揮更大價值?而在相信數據的無所不能之前,如何檢驗資料的可靠性、確定資料能解決的問題極限、甚至判斷結果背後的統計方式?本篇專訪邀請到清華統計所博士後研究員謝宗震,同時也是以推廣資料科學為目標的社會企業「DSP 智庫驅動」的知識長,分享如何透過資料科學解決真實世界的問題。
隨著時代演進的資料科學-大、雜、快、疑
「數據是人類活動的歷史記錄,透過資料科學『以古鑑今』是追求進步的捷徑。」謝宗震說,
一般來說,談及現今的資料科學或是 Big Data 都會提到 3 + 1 個特性:大、快、雜、疑。
隨著科技的發展,人類活動的軌跡越來越能夠被詳實記錄,譬如人們瀏覽電子新聞、購物商城的軌跡,人與人在社群網站的互動過程,人在操作汽車、電視、冷氣的習慣...等等。這種進步就好比是從一幅自畫像進步到一張照片,再到一部電影,現在甚至已經發展到近乎24小時不間段的實境節目。在人類活動被無時無刻記錄的同時,資料的量級爆炸性的成長,有一說:「現今世上的資料等於一個人每天24小時不停觀看超過2千億部的2小時HD電影,必須花上4700萬年才能看完。」
「Data Mining 是解析數據的方法,他的精神是連結不同來源的資料並挖掘價值,而不只是單一資料表分析而已。」謝宗震說,資料採礦(Data Mining)打從 1980 年代就伴隨高科技產業降生,台灣民間也在大約十五年前開始出現 Data Mining 的相關課程和協會,發展的一大關鍵在於資料倉儲的發展,使得「存取不同來源的大量資料」變得越來越便利。
以量販店的資料為例,就包括了產品庫存、發票銷售資料、產品擺放的順序、促銷資料、員工出勤資料......各式各樣的資料可能都儲存在不同的部門、不同的資料庫。除此之外,網路上各種影片、音樂、等難以量化或沒有標準欄位的資料的出現,也讓資料儲存的類型變得更為複雜。
在資料存儲的「巨量性」與「多樣性」之外,因應電子商務時代對「時效性」的要求,運算速度的需求也隨之提高。以著名的電話辨識 app「Whoscall」為例,為了協助使用者在接起電話之前,判別陌生來電是否為其他使用者回報的詐騙或騷擾電話,「Whoscall」必須在短短幾秒內告訴使用者這通電話該不該接。「資料越來越龐大,要讓使用者能在短時間內獲得反饋,提昇電腦計算能力和簡化演算方式就成為重要的發展方向。而後者正是統計人在資料科學中的任務。」謝宗震說。
除了「大」、「雜」、「快」,大數據近年還出現了第四個特性-「疑」,也就是指資料的「可靠性」問題。如果無法先檢驗資料的品質和來源,一味的把搜集到的數據趕快送進運算模型,「那麼只是『Garbage in, garbage out』。」舉例來說,當我們希望利用社群網站上的討論資料來分析選舉情勢,例如哪個候選人的討論度較高、討論是以正評還是負評居多。在此之前應該先關心網路上的討論者都是哪裡來的?如果這些討論者根本不隸屬於這個選區、甚至這些討論其實源出於機器人、殭屍,那麼這些「品質不佳」的資料就無法有力計算出具有參考價值的候選人支持度。
那麼,具體來拆解資料科學,可以分成哪些工作階段和角色?
資料科學的生命循環,交給四種角色通力合作
資料科學的生命循環,可對應到四種不同的角色。「資料產品經理人」負責將真實世界的問題轉換成資料可以解決的問題,通常是該問題領域的專業人士;「資料工程師」負責蒐集、整理、清理資料,通常是具備程式技術能力的工程師;「資料分析師」負責資料建模和分析,通常由擅長找出資料關聯的統計人擔當;「資料視覺化設計師」的任務則是要將報表變得簡明易懂。
「每種角色各有專精,但只有整合訓練、了解彼此的領域重點為何,才能形成完整的資料科學家的視野或團隊。」正因如此,由 Code for Tomorrow 孵化出來的社會企業「DSP 智庫驅動」,在設計資料科學的課程也更注重讓不同角色的「資料人」能夠在此學習和資料產品經理人、資料工程師、統計分析師、資料視覺化設計師合作,形成團隊共同進行專案實戰,幫助非營利組織和企業激發資料價值。
謝宗震以自己參加過的 Code for Healthcare 工作坊為例,實際說明資料科學的生命循環。小組成員包含:氣爆受災戶、救災人員、醫護人員、資料科學家、視覺設計師。小組研究的主題為高雄八一氣爆意外後的救護資訊,重大災難發生的當下,第一線消防人員如何得知高高屏地區醫院的急診室承載量,進一步決定如何把傷患送往哪間醫院?決定設計問題的第一步後,小組蒐集高高屏地區資料庫中每五分鐘更新的急診室資料,包括外科醫生人數、病患人數、傷患嚴重程度、呼吸器和各種設備的數量......。當欄位都蒐集好,接下來才是真正試算:如果意外現場有三十個人受傷,那麼最佳路徑下應該優先送到哪間醫院?如果高高屏地區滿載,是否應向北去找台南醫院協助?有些醫院雖然略遠,但是否在急診室不用排隊?當運算模型完備,最後可由資工專業寫成 app,提供給救護單位使用。
不過在踏入分析之前,謝宗震認為先練習「資料思考」更為重要,所謂先認識再交往,面對資料也要先多做評估,後續展開的分析才會更順利。
先了解資料的「極限」,才能展開有效分析
在建立模型、著手分析之前,如何蒐集、整理資料有著同等的重要性。手上資料能提供的訊息若不足以解答問題,那麼貿然展開分析便是緣木求魚。謝宗震說:「在 DSP 智庫驅動的課程中,我們會拿 YouBike 的公開資料當做上課教材,有些學員希望分析每個使用者從 A 點到 B 點會花多少時間,進一步替週遭店家推播廣告。然而 YouBike 提供的資料僅有『每個站點在每五分鐘有幾台車被騎走』,而沒有詳細的路線資訊。因此除非回過頭去徵求開放更多更精細的資料,目標問題是無法獲得解答的。」
謝宗震分享自身經驗:「在上課的時候,我們遇過最多學員的動機和問題是:『我不知道公司的資料要怎麼用,但資料科學很紅,我應該來進修。』所以我們將課程稍作微調,讓學員先練習『資料思考 Data Thinking』、了解資料能解決問題的極限在哪裡。舉例來說,如果我是一家希望分析手上銷售資料的速食店,但萬一銷售資料沒有記錄漢堡的類別,我就不可能找出人氣漢堡!」
當大數據時代幾乎能「海納百川」地計算海量的資料,傳統的「抽樣」方法以及必須隨之處理的「抽樣誤差」問題,是否就能夠一概免除?「很多書都會說,既然 Big Data 能蒐集並運算所有的資料的情況下,就能免除抽樣誤差的煩惱,但資料只是真實世界的片段,不可能透過資料完整反應真實世界。」謝宗震跳出大數據本位,直率地分析數據的極限。「就以台北市選舉的網路意見調查為例,可能很多發言者根本不設籍在台北市;而很多只是『潛水』閱讀而沒有公開發言的人,也不會形成資料;更甚者,有很多人可能連上網的能力都尚不具備!」
統計在做什麼?分析建模讓資料分析結果更精緻
目前資料科學領域中,統計人的身影遠少於資工人,謝宗震怎麼看待統計人在資料科學中的價值?他認為關鍵在於演算模型的建立,這個模型可用每個輸入值(x,Input)對應輸出值(f(x), Output)的函數關係來理解,資料被丟進此黑盒子進行運算,最後得出分析結果,而黑盒子中的方程式或各種演算法,就是統計建模的核心。「如果單純使用平均數或簡易的算法當然也能做出結果,但精緻度是不同的。」而分析建模正是統計的優勢所在。
為了要得到品質好、有代表性的資料,整理資料的過程也需要統計建模的幫忙,例如當問卷欄位上出現缺漏值,「有些人就是不喜歡填身高、體重、和心得,但如果他們有填寫其他題項,就能運用建模來反推可能的缺漏答案。」種種功夫,都是為了在正式展開分析之前,能夠確保資料品質能具有真正的參考價值。
除了計算資料,統計也能幫助我們更好地判讀資料。因為同樣一筆資料,透過不同的統計方法,可能得出天差地遠的結果,進而影響我們對於數據分析的認知立場。
統計在做什麼?洞察數據背後玄機,不同計算方式兩樣情
一般人看到充滿說服力的統計數字時,很容易忽視統計過程中所使用的方法,而直接相信算出來的「結果」。以「貧富差距」報告為例,比較「最富和最貧的年收入差距」是很有感的指標,但是倍數怎麼算,背後其實大有不同的算法。在不同的計算方式之下,一模一樣的原始數據,可能得出「6.08倍」和「99.39倍」這兩種相距甚大的年收入差距。
「要計算『最富有的那群人』和『最貧窮的那群人』的差距,可以依每戶綜所稅申報所得分成五等分,擷取最富和最貧的 20%,再將兩群的平均值相除得6.08。另一方面,也可以將人們分成二十等分,以最富最貧的5%計算得99.39倍,而美國、日本、澳洲以及國際組織如CIA、OECD的計算方式則為 10%。無論如何,當取樣的比例分別是 5%、10%或 20% 的時候,就會出現不同的統計結果。人們可以選出對自己最有利的計算方式。」
要更精準、更客觀的研究貧富差距,其實不能只看一兩個指標就下判斷。「較好的作法是連續比較 5%、10%、20% 一直到 50% 的差異為何,才能看的出演變趨勢。例如若以 20% 為標準時今年相對於去年的貧富差距變小、10% 時貧富差距上升,那麼代表中等富有和中等貧窮的群族差距拉近了、然而極端富有和極端貧窮的人反而差距更大了。」在貧富差距這個議題中,貧和富能分成更多種,進行更細緻的討論。而對不熟悉統計的一般人來說,至少可以學習注意兩件事:一、伴隨數字後面的「單位」是什麼?二、同一筆資料存在著不同的算法,在相信結果之前,應先留心它是如何被算出來的,而不是讓自己被數字牽著鼻子走。
總之,「資料是真實世界的一部分,指標是資料的一部分,一種指標只是反應資料的某一種面向,並不代表全部,唯有清楚知道指標的特質才能貼近真實。」
談了這麼多統計人的身懷絕技,但在 Big Data 時代,統計人會遇到什麼挑戰、應該如何自我調適才能充分大展身手?
面對 Big Data 時代,統計人要如何讓自己發揮價值?
「統計這門學科在每個時代都可以『玩資料』,有問題、有資料,就能建立模型分析問題。」謝宗震說,然而現在的 Big Data 時代,統計人難以好整以暇地等客戶捧上問題和資料再著手分析,資料「反客為主」,許多時候連客戶也不一定知道他想問的問題是什麼,統計人必須更主動參與第一線,甚至規劃如何蒐集資料,而非面對已經固定欄位的資料庫一籌莫展。如果統計人無法習慣處理非結構化的第一線資料,就如同打不開冰箱的廚師,拿不到食材,就更別談烹調出美味的食物了。
以電子商務領域為例,商家充滿各式各樣的疑問:要如何促進買氣?要推播給會員什麼廣告?廣告應該放在網站中的那個位置效果會最好?統計人應當參與更多第一線規劃蒐集資料的細節,然而現在設計網站與資料欄位的人卻少有統計學家的蹤影。「促銷應該統計過去一周賣的最好的前十名商品、還是消費者最想買的前十名商品?要計算廣告成效,應該以點擊率、還是最後轉換的購買率或購買金額為標準?」要得出更細緻的答案,就需要統計人更大程度的參與。若能從中改善使用者體驗,也就能搜集到更好的資料、做出更好的解讀。讓大數據不只是躺在資料庫中,而能走入真實世界,解決更多的真實問題。(本文由科技部補助「新媒體科普傳播實作計畫-智慧生活與前沿科技科普知識教育推廣」執行團隊撰稿)
責任編輯:鄭國威
審校:陳妤寧