海量資料專題報導(一):什麼是海量資料
103/09/29
瀏覽次數
6532
王蒞君|
國立交通大學電機工程系暨科技與社會中心智庫研究團隊
林家瑜|
國立交通大學電信工程研究所
2013年11月精誠資訊股份有限公司與Splunk合作推出巨量資料運算平台SBOX產品,SBOX是目前唯一獲得原廠認證、針對Splunk量身訂製的大數據運算平台,並支援最新版本Splunk Enterprise 6,此產品還獲中華電信、新加坡及印尼等電信業者總金額逾千萬元訂單。精誠資訊股份有限公司總經理林隆奮說:巨量資料商機也巨量,並預估海量資料(Big Data)業務每年有機會成長3成以上。
美國白宮曾將海量資料喻為「未來的新石油」,是國家發展的戰略性資產;史隆管理學院教授布林約爾以「現代版的顯微鏡革命」來形容海量分析的潛在影響力,由此可看出海量資料的重要性及未來巨大的影響力。
要了解海量資料必須先知道什麼是資料(data)。看得到的即為資料(data);資料可被儲存(storage),並且可從其中取出有用的訊息即為資訊(information),資訊能夠被有效利用則為情報、智慧(intelligence)。Google也曾指出資料(data)裡面會有資訊(information),「現在用不到」並不表示「以後用不到」,世界經濟論壇更指出「資料」將是「未來新興的重要資產」,地位與重要性等同於黃金和貨幣,如何從資料中找出「看不見的價值」則為接下來要發展的重要技術。
在現今資訊化爆炸的時代,資料越來越多,「海量資料 (big data)」在2010年被IBM所提出,意指資料量規模巨大,無法在合理時間內以人工或以一般技術擷取、管理、處理成人類所能解讀的大量資料群。這些資料來自網路上的每一筆搜尋、網站上每一筆交易等等,數量巨大、結構複雜、型別眾多,必須透過雲端運算的資料處理與應用模式,將資料整合、交叉比對,以幫助企業決定經營決策,或是引導開發更大的消費能力。
海量資料擁有4種特性:資料巨大(Volume)、資料多樣性(Variety)、即時性(Velocity)、真實性(Veracity)。資料巨大(Volume)乃指海量資料的巨大,在2000年有800,000 petabytes (PB)的資料被儲存在世界上,而現在Facebook、Twitter等公司每天產生terabytes(TB)的資料;台灣義大醫院於2004年4月成立後採取全面無紙化策略,所有醫療影像,包括:X光照片、斷層掃描等資料直接採用電子化儲存,同時導入電子病歷等系統,歷經7年時間,資料量增加了60倍,從2TB暴增到120TB,因此有專家預言到了2020年,將有35 zettabytes (ZB)的資料將在世界上被儲存。在海量資料中,80%的資料都是非結構化的(unstructured),一般公司並沒有足夠資源及技術能儲存並分析資料。
資料多樣性(Variety)意指海量資料是從各種不同來源收集到的資料,包含:感測器資料、社群資料、智慧行動裝置上的位置、消費資料等等,這些資料型態不再是傳統關聯性資料,還包含各類非結構化的資料,諸如:文字、音訊、視訊、點擊串流、日誌檔等等,結構化與非結構化的資料儲存與計算系統將成為未來發展的重點。
即時性(Velocity)意指海量資料通常具有時效性,一旦串流到運算伺服器就須立即使用,即時得到結果才能發揮其最大價值。
真實性(Veracity)意指海量資料的可信程度,因資料來自四面八方,若要分析這些資料時,如何驗證資料真實性及保密資料的隱私性也是相當重要的。
從以上特性可得出海量資料的發展重點將是要發展結構化及非結構化資料的儲存以及快速分析運算架構,而各大公司紛紛提出了海量資料系統的解決方案,如:Google提出了Google File System(GFS)來儲存非結構化的資料;Yahoo也提出了Hadoop來儲存及針對非結構化資料進行平行運算;IBM則提出了InfoSphere Streams來即時分析海量資料,由此可見未來海量資料的發展是不容小覷的。(本文由科技部補助「新媒體科普傳播實作計畫─電機科技新知與社會風險之溝通」執行團隊撰稿/103年/07月)
責任編輯:黃承揚|英商牛津儀器海外行銷有限公司