跳到主要內容

科技大觀園商標

分類項目
Menu

海量資料專題報導(五):資料不用存?–江河運算

103/09/26 瀏覽次數 5653
海量資料擁有4種特性:資料巨大(Volume)、資料多樣性(Variety)、即時性(Velocity)、真實性(Veracity),然而目前的技術焦點均集中在如何儲存及計算龐大(Volume)且多樣性(Variety)的資料,卻忽略了1項差異化競爭的關鍵特性—即時性(Velocity)。

在海量資料運算中,即時性(Velocity)是相當重要的。全世界10億台以上的電腦、數兆個感測器及數億支智慧型手機,每分每秒都在創造動態資訊,若能即時掌握且分析這些動態資料流(In-motion Streaming),將能預測事件並做出當下最有價值的決策,如此將可增加消費、提升營收、減緩交通阻塞,甚至預防犯罪的發生。

在海量資料運算上,Apache Hadoop是目前最廣為人知的大資料處理平台,Hadoop包含Hadoop Distributed File System (HDFS)及MapReduce架構,用來進行資料的儲存和平行運算,然而Hadoop在運算效能上仍有需要改進之處,在Hadoop平台上的每個步驟均需對檔案系統進行存取;資料存在資料庫中,並在資料庫中對資料進行擷取、運算,運算的效能往往會因Input和Output存取造成瓶頸,使得海量資料無法進行即時的處理分析,然而現在許多應用均須即時得出運算結果,例如:無人偵察機收集的影像須立即進行分析,判斷出哪些地方有人受困等應用,這些分析都是有時間限制的,必須即時地完成資料分析,才能發揮海量資料的價值,因此海量資料的即時性分析成為目前研究的重要課題。為了能夠即時對海量資料進行分析,IBM推出了InfoSphere Steams平台,並將此種處理串流運算稱為江河運算(Streams Computing);資料不儲存在資料庫中,資料流過運算節點時就直接立即進行運算。在InfoSphere Streams平台的資料於流動時就已被計算出結果並記錄資料的特色模型或是被判斷要前往什麼地方,不像傳統資料會先被存入資料庫,等到運算需求進入後再把資料從資料庫拿出來計算,此種資料不儲存的運算模式在海量資料運算上可以對資料進行即時分析,即時得出結果。

 InfoSphere Streams平台不儲存資料即可針對串流資料進行即時運算,但是資料可能來自四面八方,因此在運算平台下要選擇何處硬體進行資料流的運算或是運算資源配置等均會嚴重影響到運算效能以及雲端資料中心的資源利用率,此將為後續雲端服務與海量資料運算結合時必須面對的重要課題。(本文由科技部補助「新媒體科普傳播實作計畫─電機科技新知與社會風險之溝通」執行團隊撰稿/103年/07月)

責任編輯:黃承揚|英商牛津儀器海外行銷有限公司
OPEN
回頂部