站長(zhǎng)資訊平臺(tái)

首頁(yè) > IDC資訊 > IDC新聞

Hadoop大數(shù)據(jù)平臺(tái)架構(gòu)與實(shí)踐

2018-11-23 來(lái)源：raincent

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬(wàn)Linux鏡像隨意使用

一、什么是Apache Hadoop？

1.1 定義和特性

可靠的、可擴(kuò)展的、分布式計(jì)算開(kāi)源軟件。

Apache Hadoop軟件庫(kù)是一個(gè)框架，允許使用簡(jiǎn)單的編程模型，在計(jì)算機(jī)集群分布式地處理大型數(shù)據(jù)集。

它可以從單個(gè)服務(wù)器擴(kuò)展到數(shù)千臺(tái)機(jī)器，每個(gè)機(jī)器都提供本地計(jì)算和存儲(chǔ)。

每一臺(tái)計(jì)算機(jī)都容易出現(xiàn)故障，庫(kù)本身的目的是檢測(cè)和處理應(yīng)用層的故障，因此在一組計(jì)算機(jī)上提供高可用性服務(wù)，而不是依靠硬件來(lái)提供高可用性。

1.2 主要模塊：

Hadoop Distributed File System(HDFS): 一個(gè)分布式文件系統(tǒng)，它提供對(duì)應(yīng)用程序數(shù)據(jù)的高吞吐量訪問(wèn)。

Hadoop YARN: 作業(yè)調(diào)度和集群資源管理的框架。

Hadoop MapReduce: 基于YARN的大型數(shù)據(jù)集并行處理系統(tǒng)。

二、Hadoop安裝（以hadoop-1.2.1為例）

2.1 準(zhǔn)備條件

Linux操作系統(tǒng)

安裝JDK以及配置相關(guān)環(huán)境變量

下載Hadoop安裝包，如：hadoop-1.2.1.tar.gz（官網(wǎng)下載地址：http://hadoop.apache.org/releases.html）

2.2 安裝

將hadoop-1.2.1.tar.gz解壓到指定目錄，如：/opt/hadoop-1.2.1/

2.3 配置hadoop環(huán)境變量

在/etc/profile中配置如下信息：

2.4 修改四個(gè)配置文件

這四個(gè)配置文件均在/opt/hadoop-1.2.1/conf/目錄下。

(a)修改hadoop-env.sh,設(shè)置JAVA_HOME:

(b)修改core-site.xml,設(shè)置hadoop.tmp.dir,dfs.name.dir,fs.default.name:

©修改mapred-site.xml,設(shè)置mapred.job.tracker:

(d)修改hdfs-site.xml,設(shè)置dfs.data.dir:

2.5 格式化

執(zhí)行命令：

正確執(zhí)行的結(jié)果如下所示：

2.6 啟動(dòng)

2.7 查看當(dāng)前運(yùn)行的java進(jìn)程

在Terminal輸入命令，出現(xiàn)如下結(jié)果表示hadoop安裝成功：

三、HDFS簡(jiǎn)介

3.1 HDFS基本概念

HDFS設(shè)計(jì)架構(gòu)

塊（Block）：

HDFS的文件被分成塊進(jìn)行存儲(chǔ)
HDFS塊的默認(rèn)大小為64MB
塊是文件存儲(chǔ)處理的邏輯單元

管理節(jié)點(diǎn)（NameNode），存放文件元數(shù)據(jù)：

文件與數(shù)據(jù)塊的映射表
數(shù)據(jù)塊與數(shù)據(jù)節(jié)點(diǎn)的映射表

DataNode：

DataNode是HDFS的工作節(jié)點(diǎn)
存放數(shù)據(jù)塊

3.2 數(shù)據(jù)管理策略與容錯(cuò)

數(shù)據(jù)塊副本：每個(gè)數(shù)據(jù)塊至少3個(gè)副本，分布在兩個(gè)機(jī)架內(nèi)的多個(gè)節(jié)點(diǎn)

心跳檢測(cè)：DataNode定期向NameNode發(fā)送心跳消息

二級(jí)NameNode：二級(jí)NameNode定期同步元數(shù)據(jù)映像文件和修改日志，NameNode發(fā)生故障時(shí)，二級(jí)NameNode替換為主NameNode

3.3 HDFS中文件的讀寫(xiě)操作

HDFS讀取文件的流程

HDFS寫(xiě)入文件的流程

3.4 HDFS的特點(diǎn)

數(shù)據(jù)冗余，硬件容錯(cuò)
流式的數(shù)據(jù)訪問(wèn)（一次寫(xiě)入、多次讀�。�
適合存儲(chǔ)大文件
適用性和局限性
適合數(shù)據(jù)批量讀寫(xiě)，吞吐量高
不適合交互式應(yīng)用，低延遲很難滿足
適合一次寫(xiě)入多次讀取，順序讀寫(xiě)
不支持多用戶并發(fā)寫(xiě)相同文件

3.5 HDFS使用

HDFS命令行操作：

四、MapReduce簡(jiǎn)介

4.1 MapReduce的原理

分而治之，一個(gè)大任務(wù)分成多個(gè)小的子任務(wù)（map），并行執(zhí)行后，合并結(jié)果（reduce）

4.2 MapReduce的運(yùn)行流程

基本概念

Job(作業(yè)) & Task(任務(wù))
一個(gè)Job可以分成多個(gè)Task（MapTask & ReduceTask）
JobTracker（作業(yè)管理節(jié)點(diǎn)）

客戶端提交Job，JobTracker將其放入候選隊(duì)列中，在適當(dāng)?shù)臅r(shí)候進(jìn)行調(diào)度，將Job拆分成多個(gè)MapTask和ReduceTask，分發(fā)給TaskTracker執(zhí)行。JobTracker的角色：

作業(yè)調(diào)度
分配任務(wù)、監(jiān)控任務(wù)執(zhí)行進(jìn)度
監(jiān)控TaskTracker的狀態(tài)
TaskTracker（任務(wù)管理節(jié)點(diǎn)）

通常TaskTracker和HDFS的DataNode屬于同一組物理節(jié)點(diǎn)，實(shí)現(xiàn)了移動(dòng)計(jì)算代替移動(dòng)數(shù)據(jù)，保證讀取數(shù)據(jù)開(kāi)銷(xiāo)最小。TaskTracker的角色：

執(zhí)行任務(wù)
匯報(bào)任務(wù)狀態(tài)
MapReduce的體系結(jié)構(gòu)

MapReduce作業(yè)執(zhí)行過(guò)程

MapReduce的容錯(cuò)機(jī)制

重復(fù)執(zhí)行
默認(rèn)為最多4次后放棄
推測(cè)執(zhí)行

原因：所有Map端運(yùn)算完成，才開(kāi)始執(zhí)行Reduce端。
作用：保證整個(gè)任務(wù)的計(jì)算，不會(huì)因?yàn)槟骋粌蓚€(gè)TaskTracker的故障，導(dǎo)致整個(gè)任務(wù)執(zhí)行效率很低。

五、YARN - Hadoop 資源管理器

YARN的基本思想是將資源管理和作業(yè)調(diào)度/監(jiān)控的功能拆分到不同的守護(hù)進(jìn)程。這種思想需要有一個(gè)全局的資源管理器（RM）和（每個(gè)應(yīng)用程序都要有的）應(yīng)用程序管理器（AM）。

資源管理器（RM）和節(jié)點(diǎn)管理器（NodeManager）形成了數(shù)據(jù)計(jì)算框架。資源管理器（RM）是在系統(tǒng)中所有應(yīng)用程序間仲裁資源的最終權(quán)威。節(jié)點(diǎn)管理器（NodeManager）是每臺(tái)機(jī)器的框架代理，負(fù)責(zé)容器的管理，監(jiān)控他們的資源使用情況(cpu、內(nèi)存、磁盤(pán)、網(wǎng)絡(luò))，并向資源管理器（RM）/調(diào)度器報(bào)告該情況。

每個(gè)應(yīng)用程序的應(yīng)用程序管理器（AM）實(shí)際上是一個(gè)特定的框架的庫(kù)，它的任務(wù)是與資源管理器（RM）協(xié)商資源，并與節(jié)點(diǎn)管理器（NodeManager）一起工作來(lái)執(zhí)行和監(jiān)視任務(wù)。

資源管理器（RM）有兩個(gè)主要組件:調(diào)度程序和應(yīng)用程序管理器（AM）。

調(diào)度程序負(fù)責(zé)將資源分配給各種運(yùn)行的應(yīng)用程序。調(diào)度程序是純粹的調(diào)度器，因?yàn)樗粓?zhí)行應(yīng)用程序的狀態(tài)監(jiān)視或跟蹤。另外，它也不能保證重新啟動(dòng)失敗的任務(wù)，無(wú)論是由于應(yīng)用程序失敗還是硬件故障。

應(yīng)用程序管理器（AM）負(fù)責(zé)接收提交的工作，協(xié)商執(zhí)行應(yīng)用程序的第一個(gè)容器，并并提供在失敗時(shí)重新啟動(dòng)應(yīng)用程序管理器(AM)容器的服務(wù)。每個(gè)應(yīng)用程序管理器(AM)負(fù)責(zé)從調(diào)度程序中協(xié)商適當(dāng)?shù)馁Y源容器，跟蹤它們的狀態(tài)并監(jiān)視進(jìn)程。

YARN 還支持資源預(yù)定的概念，保留資源以確保重要工作的可預(yù)見(jiàn)性執(zhí)行。預(yù)訂系統(tǒng)會(huì)對(duì)資源進(jìn)行跟蹤，對(duì)預(yù)訂進(jìn)行控制，并動(dòng)態(tài)地指導(dǎo)底層的調(diào)度程序，以確保預(yù)訂是滿的。

Hadoop官網(wǎng)：http://hadoop.apache.org
作者：Jochen_M
來(lái)源：CSDN

標(biāo)簽： linux 服務(wù)器網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:云計(jì)算、大數(shù)據(jù)、人工智能的關(guān)系

下一篇:大數(shù)據(jù)實(shí)踐 | Kafka不夠好，智聯(lián)招聘基于Pulsar打造企業(yè)級(jí)事件中心

相關(guān)文章

最新資訊

熱門(mén)推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Hadoop大數(shù)據(jù)平臺(tái)架構(gòu)與實(shí)踐