中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Hadoop大數(shù)據(jù)平臺架構(gòu)與實踐

2018-11-23    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

一、什么是Apache Hadoop?

1.1 定義和特性

可靠的、可擴(kuò)展的、分布式計算開源軟件。

Apache Hadoop軟件庫是一個框架,允許使用簡單的編程模型,在計算機(jī)集群分布式地處理大型數(shù)據(jù)集。

它可以從單個服務(wù)器擴(kuò)展到數(shù)千臺機(jī)器,每個機(jī)器都提供本地計算和存儲。

每一臺計算機(jī)都容易出現(xiàn)故障,庫本身的目的是檢測和處理應(yīng)用層的故障,因此在一組計算機(jī)上提供高可用性服務(wù),而不是依靠硬件來提供高可用性。

1.2 主要模塊:

Hadoop Distributed File System(HDFS): 一個分布式文件系統(tǒng),它提供對應(yīng)用程序數(shù)據(jù)的高吞吐量訪問。

Hadoop YARN: 作業(yè)調(diào)度和集群資源管理的框架。

Hadoop MapReduce: 基于YARN的大型數(shù)據(jù)集并行處理系統(tǒng)。

二、Hadoop安裝(以hadoop-1.2.1為例)

2.1 準(zhǔn)備條件

Linux操作系統(tǒng)

安裝JDK以及配置相關(guān)環(huán)境變量

下載Hadoop安裝包,如:hadoop-1.2.1.tar.gz(官網(wǎng)下載地址:http://hadoop.apache.org/releases.html)

2.2 安裝

將hadoop-1.2.1.tar.gz解壓到指定目錄,如:/opt/hadoop-1.2.1/

2.3 配置hadoop環(huán)境變量

在/etc/profile中配置如下信息:

2.4 修改四個配置文件

這四個配置文件均在/opt/hadoop-1.2.1/conf/目錄下。

(a)修改hadoop-env.sh,設(shè)置JAVA_HOME:


(b)修改core-site.xml,設(shè)置hadoop.tmp.dir,dfs.name.dir,fs.default.name:

©修改mapred-site.xml,設(shè)置mapred.job.tracker:

(d)修改hdfs-site.xml,設(shè)置dfs.data.dir:


2.5 格式化

執(zhí)行命令:


正確執(zhí)行的結(jié)果如下所示:

2.6 啟動


2.7 查看當(dāng)前運(yùn)行的java進(jìn)程

在Terminal輸入命令,出現(xiàn)如下結(jié)果表示hadoop安裝成功:


三、HDFS簡介

3.1 HDFS基本概念

HDFS設(shè)計架構(gòu)

塊(Block):

HDFS的文件被分成塊進(jìn)行存儲
HDFS塊的默認(rèn)大小為64MB
塊是文件存儲處理的邏輯單元

管理節(jié)點(NameNode),存放文件元數(shù)據(jù):

文件與數(shù)據(jù)塊的映射表
數(shù)據(jù)塊與數(shù)據(jù)節(jié)點的映射表

DataNode:

DataNode是HDFS的工作節(jié)點
存放數(shù)據(jù)塊

3.2 數(shù)據(jù)管理策略與容錯

數(shù)據(jù)塊副本:每個數(shù)據(jù)塊至少3個副本,分布在兩個機(jī)架內(nèi)的多個節(jié)點

心跳檢測:DataNode定期向NameNode發(fā)送心跳消息


二級NameNode:二級NameNode定期同步元數(shù)據(jù)映像文件和修改日志,NameNode發(fā)生故障時,二級NameNode替換為主NameNode


3.3 HDFS中文件的讀寫操作

HDFS讀取文件的流程

HDFS寫入文件的流程

3.4 HDFS的特點

數(shù)據(jù)冗余,硬件容錯
流式的數(shù)據(jù)訪問(一次寫入、多次讀。
適合存儲大文件
適用性和局限性
適合數(shù)據(jù)批量讀寫,吞吐量高
不適合交互式應(yīng)用,低延遲很難滿足
適合一次寫入多次讀取,順序讀寫
不支持多用戶并發(fā)寫相同文件

3.5 HDFS使用

HDFS命令行操作:


四、MapReduce簡介

4.1 MapReduce的原理

分而治之,一個大任務(wù)分成多個小的子任務(wù)(map),并行執(zhí)行后,合并結(jié)果(reduce)


4.2 MapReduce的運(yùn)行流程

基本概念

Job(作業(yè)) & Task(任務(wù))
一個Job可以分成多個Task(MapTask & ReduceTask)
JobTracker(作業(yè)管理節(jié)點)

客戶端提交Job,JobTracker將其放入候選隊列中,在適當(dāng)?shù)臅r候進(jìn)行調(diào)度,將Job拆分成多個MapTask和ReduceTask,分發(fā)給TaskTracker執(zhí)行。JobTracker的角色:

作業(yè)調(diào)度
分配任務(wù)、監(jiān)控任務(wù)執(zhí)行進(jìn)度
監(jiān)控TaskTracker的狀態(tài)
TaskTracker(任務(wù)管理節(jié)點)

通常TaskTracker和HDFS的DataNode屬于同一組物理節(jié)點,實現(xiàn)了移動計算代替移動數(shù)據(jù),保證讀取數(shù)據(jù)開銷最小。TaskTracker的角色:

執(zhí)行任務(wù)
匯報任務(wù)狀態(tài)
MapReduce的體系結(jié)構(gòu)

MapReduce作業(yè)執(zhí)行過程

MapReduce的容錯機(jī)制

重復(fù)執(zhí)行
默認(rèn)為最多4次后放棄
推測執(zhí)行

原因:所有Map端運(yùn)算完成,才開始執(zhí)行Reduce端。
作用:保證整個任務(wù)的計算,不會因為某一兩個TaskTracker的故障,導(dǎo)致整個任務(wù)執(zhí)行效率很低。

五、YARN - Hadoop 資源管理器

YARN的基本思想是將資源管理和作業(yè)調(diào)度/監(jiān)控的功能拆分到不同的守護(hù)進(jìn)程。這種思想需要有一個全局的資源管理器(RM)和(每個應(yīng)用程序都要有的)應(yīng)用程序管理器(AM)。

資源管理器(RM)和節(jié)點管理器(NodeManager)形成了數(shù)據(jù)計算框架。資源管理器(RM)是在系統(tǒng)中所有應(yīng)用程序間仲裁資源的最終權(quán)威。節(jié)點管理器(NodeManager)是每臺機(jī)器的框架代理,負(fù)責(zé)容器的管理,監(jiān)控他們的資源使用情況(cpu、內(nèi)存、磁盤、網(wǎng)絡(luò)),并向資源管理器(RM)/調(diào)度器報告該情況。

每個應(yīng)用程序的應(yīng)用程序管理器(AM)實際上是一個特定的框架的庫,它的任務(wù)是與資源管理器(RM)協(xié)商資源,并與節(jié)點管理器(NodeManager)一起工作來執(zhí)行和監(jiān)視任務(wù)。

資源管理器(RM)有兩個主要組件:調(diào)度程序和應(yīng)用程序管理器(AM)。

調(diào)度程序負(fù)責(zé)將資源分配給各種運(yùn)行的應(yīng)用程序。調(diào)度程序是純粹的調(diào)度器,因為它不執(zhí)行應(yīng)用程序的狀態(tài)監(jiān)視或跟蹤。另外,它也不能保證重新啟動失敗的任務(wù),無論是由于應(yīng)用程序失敗還是硬件故障。

應(yīng)用程序管理器(AM)負(fù)責(zé)接收提交的工作,協(xié)商執(zhí)行應(yīng)用程序的第一個容器,并并提供在失敗時重新啟動應(yīng)用程序管理器(AM)容器的服務(wù)。每個應(yīng)用程序管理器(AM)負(fù)責(zé)從調(diào)度程序中協(xié)商適當(dāng)?shù)馁Y源容器,跟蹤它們的狀態(tài)并監(jiān)視進(jìn)程。

YARN 還支持資源預(yù)定的概念,保留資源以確保重要工作的可預(yù)見性執(zhí)行。預(yù)訂系統(tǒng)會對資源進(jìn)行跟蹤,對預(yù)訂進(jìn)行控制,并動態(tài)地指導(dǎo)底層的調(diào)度程序,以確保預(yù)訂是滿的。

Hadoop官網(wǎng):http://hadoop.apache.org
作者:Jochen_M
來源:CSDN

標(biāo)簽: linux 服務(wù)器 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:云計算、大數(shù)據(jù)、人工智能的關(guān)系

下一篇:大數(shù)據(jù)實踐 | Kafka不夠好,智聯(lián)招聘基于Pulsar打造企業(yè)級事件中心