失敗為成功之母,沒關係,經過修正後(主要是刪除掉一些無用的預測變數),谷歌研究團隊於2011年又在另一知名的研究期刊PloS ONE 發表修正後模式。由圖3來看,新模式已將2009年後的偏差修正回來,其應用前景又再度被看好。但在兩年後的2013,這模式的預測結果又再度破功。前一次是低估很多,這次則是高估很多,如圖4。這下子美國的學界與輿論界可不再客氣了。老美有句話:「fool me once, shame on you; fool me twice, shame on me.」(被你愚弄一次,是你可恥;被你愚弄兩次,那就是是我可恥了。)曾經首先刊登谷歌流感趨勢預測的Nature 期刊批判:When Google got flu wrong.(谷歌誤解流感了!),如圖5所示。 紐約時報抨擊更猛烈:Disruptions: Data without context tells misleading story.(全盤瓦解:不探索資料的來龍去脈,只能告訴你誤導的故事),如圖6。自此谷歌也封鎖了Google Flu的一些功能,並且未再更新資料。
隨著大數據應用的加快與增廣,以前為它設立的定義似乎也不必那麼拘泥。但在一些攸關安全與健康的應用,則不能因追求快速而忽略對變異的控制。在這一點上,大數據的分析不能只講究資料存取的效能,更應該加強與統計界的合作,才能做出更好的決策與應用。(文中部分圖表經哈佛大學Dr Samuel Kao同意下使用)(本文由科技部補助「新媒體科普傳播:遇見無所不在的生活科學」執行團隊撰稿)