完整的大資料開發執行環境部署-第一篇?

作者準備寫一個系列經驗,可能是好久沒有寫經驗了,竟然沒有找到系列經驗編寫的地方,沒找到就不管了。

作者要寫的系列經驗是一整套大資料開發執行環境的部署,大資料開發執行環境沒有固定絕對的,大資料家族的工具有很多,需要根據專案實際情況來判斷使用哪個工具,或者哪幾個工具搭配使用,這裡作者講解的是作者實際用過的一套。

工具/原料

CentOS 6.5

方法/步驟

作者先說明一下這套大資料開發環境用到的工具有:CentOS/Hadoop/Spark/Rocket MQ。

第一篇主要講解工具的說明和專案中起到的作用。對於CentOS我覺得沒有什麼可說的,作者自己搭建的演示環境裡有兩臺虛擬機器,搭載CentOS 6.5。

我們接下來就用兩臺機器進行講解。

完整的大資料開發執行環境部署-第一篇

對於Hadoop,Hadoop分為兩部分,一個是儲存HDFS,一個是計算Yarn,專案中作者只是用了儲存HDFS。在安裝Hadoop的時候兩者會一起安裝上。

作者選擇HDFS作為儲存工具,基於兩個原因,第一分散式儲存,第二使用方便,可以在任意機器呼叫API對檔案進行操作。

完整的大資料開發執行環境部署-第一篇

Spark。專案中用Spark進行計算,Spark用起來不是很容易的,我們選擇它的原因就一個記憶體計算,速度快。但是在演示環境中,害苦了作者,記憶體消耗太快。

作者的演示環境,就是作者自己的8G筆記本,上面有兩個3G的虛擬機器。

完整的大資料開發執行環境部署-第一篇

Rocket MQ。這是Alibaba的一個訊息中介軟體,怎麼說呢,要是再次選擇的話,作者肯定不會再選它了,原因有兩個,第一記憶體消耗太大,第二時間一長自動掛掉。不知道為什麼自己掛掉,在開發環境中沒有問題,但是在演示環境中就會自己掛掉。

完整的大資料開發執行環境部署-第一篇

最後總結一下,這是一個系列經驗,當然作者不是很懶的話會寫完。這篇經驗的目的是讓更多的大資料愛好者能夠按照作者這個部署策略搭建出開發環境。當然了,部署策略各種各樣,需要基於專案判斷。

具體的安裝,在系列經驗的其他篇中。

完整的大資料開發執行環境部署-第一篇

注意事項

具體安裝步驟看作者的其他經驗

作者, 資料, 工具, 環境, 實際,
相關問題答案