跳到主要內容
:::
登入
註冊
網站導覽
展開搜尋
全站搜尋
熱門關鍵字:
半導體
精準醫療
太空
煙火
關閉搜尋
您的瀏覽器不支援此script語法,請點選
搜尋
使用搜尋功能。
分類
分類項目
關閉分類項目
地理
天文
化學
醫學
科技
社會科學
人類文明
地科
心理
物理
數學
環境
生物
生活科學
醫療
地球科學
Menu
關於我們
文章
熱門文章
最新文章
精選文章
科學專題
科發月刊
影音
TechTalk
科普影片
活動
學生專區
夥伴
認證
公務人員
網站導覽
English
首長信箱
常見問答
雙語詞彙
關於我們
文章
文章
熱門文章
最新文章
精選文章
科學專題
科發月刊
影音
影音
TechTalk
科普影片
活動
學生專區
夥伴
認證
認證
公務人員
:::
首頁
Pleace Login!
×
請先登入
facebook
twitter
plurk
line
中
列印
書籤
:::
雲端儲存(三):把資料拆開放?雲端分散式儲存系統
102/08/22
瀏覽次數
22094
王蒞君
|
國立交通大學電機工程系暨科技與社會中心智庫研究團隊
2013年5月,國家高速網路與計算中心分別在新竹、台北、高雄、台中舉行「巨量資料來襲,雲端運算新企機」研討會,國內研究機構、學術單位及資訊服務業者出席踴躍。會中探討SynDriver與Hadoop和在巨量資料及雲端儲存領域的應用跟未來商機。未來將朝向「資料之所在,商機之所在」的方向發展,可見雲端巨量資料分析的兩個重要範疇:儲存與運算。本文將針對大資料的儲存技術–分散式儲存技術進行介紹。
在資料爆炸的時代,資料大小往往比電腦上的1顆硬碟還要多,且資料必須被保留的時間也比電腦的壽命還長,一般用戶可能會從不同的地方存取資料,或希望能把資料分享給不同地區的用戶,基於以上需求,分散式檔案系統被提出。分散式檔案系統大幅度提升資料可存放的空間,且同時會將檔案備份,降低某一存放空間毀損所造成的資料遺失,且因同一份檔案有多份備份,此檔案可同時分享給多個使用者。
2003年Google提出Google File System,簡稱GFS。GFS可提供大資料的應用程式採用分散式方式儲存資料;GFS具有容錯機制、高效能檔案整合等功能,但因Google未開放GFS的原始碼,只有發表論文說明GFS的系統架構,因此2006年Doug Cutting根據Google所發表的論文開發出Apache Hadoop,並用1隻黃色大象當成Hadoop的標誌。Hadoop為一個開放的軟體程式架構,包含Hadoop Distributed File System、MapReduce及HBase;Hadoop為目前在雲端系統上最常被使用進行大資料量運算的軟體架構,重要性不可小覷,因此以下將針對Hadoop架構中的儲存系統Hadoop Distributed File System做詳細的介紹。
Hadoop Distributed File System,簡稱HDFS,為分散式的儲存架構,適合儲存容量大的檔案,其系統穩定,因此不需使用昂貴的儲存設備來架設儲存系統,使用一般價格的硬碟架即可,大幅減少硬體成本。在HDFS中有兩個主要部分:namenode和datanode 。
namenode好比工廠裡的工頭,負責工人的管理及保管工人的資料,所以在儲存系統上,namenode負責管理整個儲存系統,包含1個檔案被切成幾份、每一份存在哪個儲存節點上、備份在哪個節點上及控制檔案的存取權限;但因namenode只有1個,所以具有單點失效的問題,即namenode毀損,整個檔案系統將會無法進行運作,因此Hadoop開發團隊也正在針對此問題進行修正。
datanode則像是工廠裡的工人,負責提供檔案儲存的空間、執行檔案的存取及備份,HDFS預設會以64MB的大小將檔案進行切割並將每份檔案儲存3份備份,因此若有1台儲存節點壞掉,依然可從其他備份中進行還原,大幅提升檔案儲存時的容錯率,同時也因檔案被切割成多份儲存,因此可以平行存取及平行運算提升運算時的效能。namenode儲存了MyFile檔案的資訊,包含MyFile被切成3份,分別為block 1、block 2、block 3,並備份3份,datanode則負責檔案實體的儲存。
我們用1個100MB的資料儲存例子來說明在HDFS上寫入與讀取的流程,使用者會在自己本機上先暫存這些資料,當達到64MB時,本機上的儲存系統會自動通知namenode,namenode回應使用者,告知可存放檔案的datanode位置,例如2號datanode,使用者將此64MB的資料存入2號datanode,本機上的臨時資料夾剩下36MB,再次通知namenode,namenode回應使用者,告知可存放檔案的datanode,例如5號datanode,使用者將剩下的36MB存入5號datanode;若使用者想要讀取資料時,會先向namenode詢問資料存在哪個節點上,namenode回應使用者,告知資料存在2號和5號節點上,使用者到2號和5號datanode上讀取資料並在本機端組合成原始的100MB資料。
分散式儲存系統,將資料切割儲存,讓使用者能使用平行技術加速資料的運算,並透過備份機制提升資料的容錯率,大資料儲存不再是問題,但將資料儲存在雲端上的分散式系統必有其安全性的疑慮,因此雲端儲存之安全性議題將是後續值得探討的。(本文由國科會補助「新媒體科普傳播實作計畫─電機科技新知與社會風險之溝通」執行團隊撰稿)
責任編輯:
黃承揚|英商牛津儀器海外行銷有限公司
巨量資料(24)
雲端運算(36)
雲端儲存(9)
科發月刊(5221)
推薦文章
113/09/30
從歷史中挖掘未來:綠豆的基因祕密與氣候生存法則
黃宜稜
|
科技大觀園特約編輯
儲存書籤
114/01/01
科學爭議中的研究方法
王秀雲
|
成功大學醫學系及醫學、科技與社會研究中心
儲存書籤
114/01/24
半導體製程如何平衡高科技與環境永續?——專訪陳奕宏教授
簡永昌
|
科技大觀園特約編輯
儲存書籤
113/09/30
為什麼 COVID-19 沒有引發糧食危機?——揭開全球糧食市場的抗疫祕訣
劉品萱
|
科技大觀園特約編輯
儲存書籤
OPEN
關於我們
關於我們
文章
熱門文章
最新文章
精選文章
科學專題
影音
科普影片
TechTalk
活動
活動
學生專區
學生專區
回頂部