Hadoop vs Apache Spark 5件事需要了解

株野 2015-12-16

展開全文

　　討論大數(shù)據(jù)的時候，你可能會聽到提及Hadoop 和 Apache Spark的話題，這里有一些簡單的知識，你需要了解他們之間的不同。

Hadoop vs Apache Spark 5件事需要了解

　　1.他們做的事情不同

　　Hadoop 和 Apache Spark都是大數(shù)據(jù)框架中用到的東西，但是他們并不是服務于同樣的目的。

　　Hadoop是本質上是一個分布式數(shù)據(jù)基礎架構，他能夠幫你利用商用服務器搭建一個集群，這意味著你不需要購買昂貴的專用硬件就能搭建橫跨多個節(jié)點的海量數(shù)據(jù)集。他還能夠跟蹤索引這些數(shù)據(jù)，更有力的幫你實現(xiàn)大數(shù)據(jù)的處理和分析。

　　Spark是一種數(shù)據(jù)處理工具，運行在這些分布式數(shù)據(jù)急群眾，他不是用來做分布式存儲的。

　　2.你們可以單獨的使用任何一個

　　Hadoop被稱為分布式文件系統(tǒng)，他不僅包含存儲組件，同時還有MapReduce處理元件，所以你在處理數(shù)據(jù)的時候并不一定需要Spark。當然，你也可以使用Spark。

　　Spark并不是只能在Hadoop中運行，他還可以運行在基于云的數(shù)據(jù)平臺。盡管創(chuàng)建 Spark 是為了支持分布式數(shù)據(jù)集上的迭代作業(yè)，但是實際上它是對 Hadoop 的補充，可以在 Hadoop 文件系統(tǒng)中并行運行。

　　第2頁：Spark更快

　　3.Spark更快

　　由于數(shù)據(jù)處理方式，Spark要比MapReduce快很多。

　　Spark 是一種與 MapReduce相似的開源集群計算環(huán)境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 Spark 在某些工作負載方面表現(xiàn)得更加優(yōu)越，換句話說，Spark 啟用了內(nèi)存分布數(shù)據(jù)集，除了能夠提供交互式查詢外，它還可以優(yōu)化迭代工作負載。

Hadoop vs Apache Spark 5件事需要了解