一文理解 Apache Hadoop 機(jī)架感知

2018-10-31 來(lái)源：raincent

容器云強(qiáng)勢(shì)上線！快速搭建集群，上萬(wàn)Linux鏡像隨意使用

背景

分布式的集群通常包含非常多的機(jī)器，由于受到機(jī)架槽位和交換機(jī)網(wǎng)口的限制，通常大型的分布式集群都會(huì)跨好幾個(gè)機(jī)架，由多個(gè)機(jī)架上的機(jī)器共同組成一個(gè)分布式集群。機(jī)架內(nèi)的機(jī)器之間的網(wǎng)絡(luò)速度通常都會(huì)高于跨機(jī)架機(jī)器之間的網(wǎng)絡(luò)速度，并且機(jī)架之間機(jī)器的網(wǎng)絡(luò)通信通常受到上層交換機(jī)間網(wǎng)絡(luò)帶寬的限制。

具體到Hadoop集群，由于hadoop的HDFS對(duì)數(shù)據(jù)文件的分布式存放是按照分塊block存儲(chǔ)，每個(gè)block會(huì)有多個(gè)副本(默認(rèn)為3)，并且為了數(shù)據(jù)的安全和高效，所以hadoop默認(rèn)對(duì)3個(gè)副本的存放策略為：

第一個(gè)block副本放在和client所在的node里(如果client不在集群范圍內(nèi)，則這第一個(gè)node是隨機(jī)選取的)。

第二個(gè)副本放置在與第一個(gè)節(jié)點(diǎn)不同的機(jī)架中的node中(隨機(jī)選擇)。

第三個(gè)副本似乎放置在與第一個(gè)副本所在節(jié)點(diǎn)同一機(jī)架的另一個(gè)節(jié)點(diǎn)上

如果還有更多的副本就隨機(jī)放在集群的node里。

這樣的策略可以保證對(duì)該block所屬文件的訪問(wèn)能夠優(yōu)先在本rack下找到，如果整個(gè)rack發(fā)生了異常，也可以在另外的rack上找到該block的副本。這樣足夠的高效，并且同時(shí)做到了數(shù)據(jù)的容錯(cuò)。

但是，hadoop對(duì)機(jī)架的感知并非是自適應(yīng)的，亦即，hadoop集群分辨某臺(tái)slave機(jī)器是屬于哪個(gè)rack并非是只能的感知的，而是需要hadoop的管理者人為的告知hadoop哪臺(tái)機(jī)器屬于哪個(gè)rack，這樣在hadoop的namenode啟動(dòng)初始化時(shí)，會(huì)將這些機(jī)器與rack的對(duì)應(yīng)信息保存在內(nèi)存中，用來(lái)作為對(duì)接下來(lái)所有的HDFS的寫塊操作分配datanode列表時(shí)(比如3個(gè)block對(duì)應(yīng)三臺(tái)datanode)的選擇datanode策略，做到hadoop allocate block的策略：盡量將三個(gè)副本分布到不同的rack。

接下來(lái)的問(wèn)題就是：通過(guò)什么方式能夠告知hadoop namenode哪些slaves機(jī)器屬于哪個(gè)rack?以下是配置步驟。

配置

默認(rèn)情況下，hadoop的機(jī)架感知(Rack Awareness)是沒(méi)有被啟用的。所以，在通常情況下，hadoop集群的HDFS在選機(jī)器的時(shí)候，是隨機(jī)選擇的，也就是說(shuō)，很有可能在寫數(shù)據(jù)時(shí)，hadoop將第一塊數(shù)據(jù)block1寫到了rack1上，然后隨機(jī)的選擇下將block2寫入到了rack2下，此時(shí)兩個(gè)rack之間產(chǎn)生了數(shù)據(jù)傳輸?shù)牧髁�，再接下�?lái)，在隨機(jī)的情況下，又將block3重新又寫回了rack1，此時(shí)，兩個(gè)rack之間又產(chǎn)生了一次數(shù)據(jù)流量。在job處理的數(shù)據(jù)量非常的大，或者往hadoop推送的數(shù)據(jù)量非常大的時(shí)候，這種情況會(huì)造成rack之間的網(wǎng)絡(luò)流量成倍的上升，成為性能的瓶頸，進(jìn)而影響作業(yè)的性能以至于整個(gè)集群的服務(wù)。

要將hadoop機(jī)架感知的功能啟用，配置非常簡(jiǎn)單，在namenode所在機(jī)器的hadoop-site.xml配置文件中配置一個(gè)選項(xiàng)：

這個(gè)配置選項(xiàng)的value指定為一個(gè)可執(zhí)行程序，通常為一個(gè)腳本，該腳本接受一個(gè)參數(shù)，輸出一個(gè)值。接受的參數(shù)通常為某臺(tái)datanode機(jī)器的ip地址，而輸出的值通常為該ip地址對(duì)應(yīng)的datanode所在的rack，例如”/rack1”。Namenode啟動(dòng)時(shí)，會(huì)判斷該配置選項(xiàng)是否為空，如果非空，則表示已經(jīng)用機(jī)架感知的配置，此時(shí)namenode會(huì)根據(jù)配置尋找該腳本，并在接收到每一個(gè)datanode的heartbeat時(shí)，將該datanode的ip地址作為參數(shù)傳給該腳本運(yùn)行，并將得到的輸出作為該datanode所屬的機(jī)架，保存到內(nèi)存的一個(gè)map中。

至于腳本的編寫，就需要將真實(shí)的網(wǎng)絡(luò)拓樸和機(jī)架信息了解清楚后，通過(guò)該腳本能夠?qū)C(jī)器的ip地址正確的映射到相應(yīng)的機(jī)架上去。一個(gè)簡(jiǎn)單的實(shí)現(xiàn)如下：

由于沒(méi)有找到確切的文檔說(shuō)明到底是主機(jī)名還是ip地址會(huì)被傳入到腳本，所以在腳本中最好兼容主機(jī)名和ip地址，如果機(jī)房架構(gòu)比較復(fù)雜的話，腳本可以返回如：/dc1/rack1 類似的字符串。

執(zhí)行命令：chmod +x RackAware.py

重啟namenode,如果配置成功，namenode啟動(dòng)日志中會(huì)輸出：

網(wǎng)絡(luò)拓?fù)錂C(jī)器之間的距離

這里基于一個(gè)網(wǎng)絡(luò)拓?fù)浒咐榻B在復(fù)雜的網(wǎng)絡(luò)拓?fù)渲衕adoop集群每臺(tái)機(jī)器之間的距離

有了機(jī)架感知，NameNode就可以畫出上圖所示的datanode網(wǎng)絡(luò)拓?fù)鋱D。D1,R1都是交換機(jī)，最底層是datanode。則H1的rackid=/D1/R1/H1，H1的parent是R1，R1的是D1。這些rackid信息可以通過(guò)topology.script.file.name配置。有了這些rackid信息就可以計(jì)算出任意兩臺(tái)datanode之間的距離。

標(biāo)簽：安全機(jī)房腳本通信網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請(qǐng)與原作者聯(lián)系。

上一篇:正在被巨大數(shù)據(jù)中心吞噬的全球電力，谷歌臉書和比特幣的“源”罪

下一篇:大數(shù)據(jù)技術(shù)在金融行業(yè)中的應(yīng)用

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識(shí)分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請(qǐng)聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運(yùn)維經(jīng)驗(yàn) IT技術(shù)分享運(yùn)維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一文理解 Apache Hadoop 機(jī)架感知