大數據分析的迷思:以谷歌流感趨勢預測為例
105/04/08
瀏覽次數
8197
連怡斌|
國立彰化師範大學數學系
不管是在產、官或學界,大數據的應用可說是近年來最夯的議題之一。例如在一些演講及科普文章中,一再地聽到或看到以「谷歌流感趨勢預測」(Google Flu Trend)來作為宣揚大數據應用,我想就以這例子來談談大數據分析的迷思。
「2008年,Google的研究人員利用使用者在網路上檢索的海量關鍵詞,開發成流感預測系統,宣稱此系統所預測的結果與美國疾病預防管制中心(CDC)十分接近。」此項研究成果同年年底發表於世界頂級期刊nature,如圖1,當時Google將其開發的系統提供全世界隨時查詢。
這發想其實蠻有創新性:由google 搜尋找出100個和流感可能相關的關鍵字,從中挑選出45個;再透過常用的統計迴歸(卜松模式)來建模,以當日關鍵字的用量組合,來預測ㄧ週後流感的發生率。這應用就流感防治而言當然很有吸引力,且操作簡單,符合所謂大數據分析Velocity的要求:簡單快速。大多數大數據相關演講中,對它的介紹就到這裡,但卻沒有提到接下來發生的事。
這個有趣的應用和其他常聽到的應用,如「尿布和啤酒在星期五放在一起賣」等例子最大的差別是,它有辦法被科學方式驗證其對錯。圖2是谷歌流感趨勢的預測和美國疾病預防管制中心提供的實際發生率的對照。明顯的對2009年,谷歌的預測遠低於實際所發生的。谷歌以2008年前的資料建立的模式來「估計」2008年前已知的流感發生率,可以估計的很準,但對預測未來尚未發生的,就差很多。
失敗為成功之母,沒關係,經過修正後(主要是刪除掉一些無用的預測變數),谷歌研究團隊於2011年又在另一知名的研究期刊PloS ONE 發表修正後模式。由圖3來看,新模式已將2009年後的偏差修正回來,其應用前景又再度被看好。但在兩年後的2013,這模式的預測結果又再度破功。前一次是低估很多,這次則是高估很多,如圖4。這下子美國的學界與輿論界可不再客氣了。老美有句話:「fool me once, shame on you; fool me twice, shame on me.」(被你愚弄一次,是你可恥;被你愚弄兩次,那就是是我可恥了。)曾經首先刊登谷歌流感趨勢預測的Nature 期刊批判:When Google got flu wrong.(谷歌誤解流感了!),如圖5所示。 紐約時報抨擊更猛烈:Disruptions: Data without context tells misleading story.(全盤瓦解:不探索資料的來龍去脈,只能告訴你誤導的故事),如圖6。自此谷歌也封鎖了Google Flu的一些功能,並且未再更新資料。
在牛津大學學者麥爾荀伯格(Viktor Mayer-Schonberger) 於2012出版暢銷書「大數據」(Big data)後,其論點常被做為大數據分析的標竿;但在經歷類似的失敗後,美國學界與輿論界也開始檢討其一些論點。最近谷歌流感預測的最新發展則是2015年11月,哈佛大學Samuel Kao的研究團隊在美國國家科學院學報(PNAS,為僅次於Nature 和Science的頂尖學術期刊)發表最新谷歌流感預測模式:他們以2013年以前的資料,成功預測後兩年的流感發生率,如圖8。他們的模式和前者最大的不同是,Google團隊用的是淺顯而直接的統計方法,而Samuel Kao用了較成熟的進階統計技巧。當然他們的模式也需要更長時間來驗證,但起碼他們的模式及選取的變數都可以被公開檢驗的。
隨著大數據應用的加快與增廣,以前為它設立的定義似乎也不必那麼拘泥。但在一些攸關安全與健康的應用,則不能因追求快速而忽略對變異的控制。在這一點上,大數據的分析不能只講究資料存取的效能,更應該加強與統計界的合作,才能做出更好的決策與應用。(文中部分圖表經哈佛大學Dr Samuel Kao同意下使用)(本文由科技部補助「新媒體科普傳播:遇見無所不在的生活科學」執行團隊撰稿)
責任編輯:張尹貞
審校:張惠博