將 Big Data 回歸資料科學的本質,除了資訊工程之外,「統計」這個學門在 Big Data 時代能夠如何讓「數據」發揮更大價值?而在相信數據的無所不能之前,如何檢驗資料的可靠性、確定資料能解決的問題極限、甚至判斷結果背後的統計方式?本篇專訪邀請到清華統計所博士後研究員謝宗震,同時也是以推廣資料科學為目標的社會企業「DSP 智庫驅動」的知識長,分享如何透過資料科學解決真實世界的問題。
隨著時代演進的資料科學-大、雜、快、疑
「數據是人類活動的歷史記錄,透過資料科學『以古鑑今』是追求進步的捷徑。」謝宗震說,
一般來說,談及現今的資料科學或是 Big Data 都會提到 3 + 1 個特性:大、快、雜、疑。
除了「大」、「雜」、「快」,大數據近年還出現了第四個特性-「疑」,也就是指資料的「可靠性」問題。如果無法先檢驗資料的品質和來源,一味的把搜集到的數據趕快送進運算模型,「那麼只是『Garbage in, garbage out』。」舉例來說,當我們希望利用社群網站上的討論資料來分析選舉情勢,例如哪個候選人的討論度較高、討論是以正評還是負評居多。在此之前應該先關心網路上的討論者都是哪裡來的?如果這些討論者根本不隸屬於這個選區、甚至這些討論其實源出於機器人、殭屍,那麼這些「品質不佳」的資料就無法有力計算出具有參考價值的候選人支持度。
在建立模型、著手分析之前,如何蒐集、整理資料有著同等的重要性。手上資料能提供的訊息若不足以解答問題,那麼貿然展開分析便是緣木求魚。謝宗震說:「在 DSP 智庫驅動的課程中,我們會拿 YouBike 的公開資料當做上課教材,有些學員希望分析每個使用者從 A 點到 B 點會花多少時間,進一步替週遭店家推播廣告。然而 YouBike 提供的資料僅有『每個站點在每五分鐘有幾台車被騎走』,而沒有詳細的路線資訊。因此除非回過頭去徵求開放更多更精細的資料,目標問題是無法獲得解答的。」
謝宗震分享自身經驗:「在上課的時候,我們遇過最多學員的動機和問題是:『我不知道公司的資料要怎麼用,但資料科學很紅,我應該來進修。』所以我們將課程稍作微調,讓學員先練習『資料思考 Data Thinking』、了解資料能解決問題的極限在哪裡。舉例來說,如果我是一家希望分析手上銷售資料的速食店,但萬一銷售資料沒有記錄漢堡的類別,我就不可能找出人氣漢堡!」
當大數據時代幾乎能「海納百川」地計算海量的資料,傳統的「抽樣」方法以及必須隨之處理的「抽樣誤差」問題,是否就能夠一概免除?「很多書都會說,既然 Big Data 能蒐集並運算所有的資料的情況下,就能免除抽樣誤差的煩惱,但資料只是真實世界的片段,不可能透過資料完整反應真實世界。」謝宗震跳出大數據本位,直率地分析數據的極限。「就以台北市選舉的網路意見調查為例,可能很多發言者根本不設籍在台北市;而很多只是『潛水』閱讀而沒有公開發言的人,也不會形成資料;更甚者,有很多人可能連上網的能力都尚不具備!」
談了這麼多統計人的身懷絕技,但在 Big Data 時代,統計人會遇到什麼挑戰、應該如何自我調適才能充分大展身手?
面對 Big Data 時代,統計人要如何讓自己發揮價值?
「統計這門學科在每個時代都可以『玩資料』,有問題、有資料,就能建立模型分析問題。」謝宗震說,然而現在的 Big Data 時代,統計人難以好整以暇地等客戶捧上問題和資料再著手分析,資料「反客為主」,許多時候連客戶也不一定知道他想問的問題是什麼,統計人必須更主動參與第一線,甚至規劃如何蒐集資料,而非面對已經固定欄位的資料庫一籌莫展。如果統計人無法習慣處理非結構化的第一線資料,就如同打不開冰箱的廚師,拿不到食材,就更別談烹調出美味的食物了。