微軟和Hadoopd企業開發商Hortonworks公司合作,提供了針對Windows Azure用戶的Hortonworks Data Platform (HDP)。HDP可讓使用者在Windows和Linux的機器上建立Hadoop叢集系統,微軟整合Windows Azure和HDP即為HDInsight,系統管理員可透過PowerShell和.NET管理Hadoop。OpenStack是1個開放式的雲端作業系統,可架設在私有雲或是公有雲上,其所開發的Savanna可讓系統管理這自動佈署Hadoop叢集系統。從Aamzon、微軟、OpenStack紛紛推出Hadoop as a service的現象可看出越來越多公司需要使用Hadoop進行資料分析,究竟Hadoop有什麼樣的魅力,在海量資料的分析上又占有怎樣的重要地位?
MapReduce是Hadoop的運算核心架構,map就是把東西拆開分開計算,reduce就是把最後結果合起來,例如:計算1 x 2 + 2 x 2 + 3 x 2,首先mapper會將1,2,3同時乘上2,最後再交由reducer將2,4,6此3個結果加起來,如此的計算模式可以將資料以平行化方式進行分析,分析後再統計出1個最後結果,達到加速的效果。可將MapReduce想像成執行平行化運算的工廠,工廠裡有工人「tasktracker」和工頭「jobtracker」所組成,工人「tasktracker」負責執行mapper和reducer的工作,工頭「jobtracker」則是負責分派工作給tasktracker,透過這2個元件互相溝通,MapReduce的模式可在HDFS的架構上順利執行。