中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

如何“神還原”數(shù)據(jù)中心? 阿里聯(lián)合NTU打造了工

2019-05-16    來(lái)源:天下數(shù)據(jù)IDC資訊

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

如何保障數(shù)據(jù)中心的穩(wěn)定運(yùn)行,是多年來(lái)一直困擾業(yè)界的難題。機(jī)房環(huán)境如果發(fā)生未預(yù)期變化,可能造成難以估計(jì)的損失。所以我們希望能構(gòu)建一個(gè)“變更沙盤(pán)”,在真實(shí)變更之前,操作人員可以先在沙盤(pán)中進(jìn)行試變更,若變更效果在預(yù)期內(nèi),再對(duì)真實(shí)環(huán)境進(jìn)行變更,從而盡可能減少變更導(dǎo)致的機(jī)房故障。

近期,阿里巴巴-南大聯(lián)合研究院聯(lián)合實(shí)現(xiàn)并上線完成了一個(gè)高精度,可連接實(shí)時(shí)監(jiān)控系統(tǒng)、基于 CFD 的變更沙盤(pán)系統(tǒng)。本系統(tǒng)在 off-the-shelf CFD 軟件上實(shí)現(xiàn)了工業(yè)級(jí)精度的變更沙盤(pán)測(cè)試和驗(yàn)證。今天,我們就來(lái)觀摩這個(gè)從零到一的嘗試。

項(xiàng)目背景

隨著阿里巴巴業(yè)務(wù)不斷拓展,其數(shù)據(jù)中心規(guī)模也越來(lái)越大。相應(yīng)地,數(shù)據(jù)中心內(nèi)的日常演練、運(yùn)營(yíng)優(yōu)化等變更操作越來(lái)越頻繁;而規(guī)模增加導(dǎo)致環(huán)境的復(fù)雜程度呈指數(shù)增長(zhǎng),變更是否可能導(dǎo)致故障,僅憑專家經(jīng)驗(yàn),已經(jīng)越來(lái)越難以判斷。同時(shí),數(shù)據(jù)中心變更故障可能造成的業(yè)務(wù)影響也越來(lái)越大,可能造成的損失已難以估計(jì)。所以,機(jī)房運(yùn)營(yíng)人員急需一個(gè)標(biāo)準(zhǔn)化的、可靠的機(jī)房變更安全驗(yàn)證系統(tǒng),幫助他們獲知變更產(chǎn)生的具體效果會(huì)是如何,是否影響生產(chǎn)安全,是否有更合理的變更建議。

對(duì)于電力變更,可以從電力拓?fù)鋱D著手構(gòu)建變更沙盤(pán)。但暖通變更,涉及到氣流組織變化、熱力變化,這些東西看不見(jiàn)也摸不著,傳統(tǒng)的方式難以模擬出現(xiàn)實(shí)世界中的變化。IDC 運(yùn)營(yíng)優(yōu)化團(tuán)隊(duì)對(duì)此進(jìn)行了一系列調(diào)研工作,認(rèn)為利用計(jì)算流體力學(xué)(ComputationalFluid Dynamics,簡(jiǎn)稱 CFD)進(jìn)行機(jī)房仿真是較為可能達(dá)到生產(chǎn)標(biāo)準(zhǔn)的一種方式。

現(xiàn)有的類似的解決方案

利用計(jì)算流體力學(xué)(Computational Fluid Dynamics,簡(jiǎn)稱 CFD)進(jìn)行機(jī)房仿真是檢查不同變更對(duì)機(jī)房的熱力學(xué)影響的通用解決方案。CFD 建?梢酝ㄟ^(guò)搭建物理模型,載入現(xiàn)實(shí)中的熱力學(xué)設(shè)置(冷熱量,空調(diào) server 風(fēng)速等)來(lái)計(jì)算一個(gè)包間內(nèi)部的氣流分布和溫度情況。CFD 模擬有較為成熟的技術(shù)積累,并被廣泛應(yīng)用與熱力學(xué)和空氣動(dòng)力學(xué)領(lǐng)域。在數(shù)據(jù)中心領(lǐng)域,也有從包間到芯片級(jí)的 CFD 模擬應(yīng)用。但由于其精度限制,一般只用于前期設(shè)計(jì)和規(guī)劃。

數(shù)據(jù)中心包間流線圖

應(yīng)用 CFD 建立沙盤(pán)系統(tǒng)的挑戰(zhàn):

1)現(xiàn)有商業(yè) CFD 軟件可以根據(jù)對(duì)包間進(jìn)行仿真,得到機(jī)房的熱力分布、氣流動(dòng)向。但該軟件通常應(yīng)用于設(shè)計(jì)階段,采用設(shè)計(jì)階段的粗略數(shù)據(jù)進(jìn)行模擬,對(duì)真實(shí)操作情況的還原度較低,溫度預(yù)測(cè)精度僅能達(dá)到 3 度或以上,不能滿足用于變更沙盤(pán)的精度需求。

2)當(dāng)前 CFD 軟件以人工交互為主,缺少對(duì)自動(dòng)化操作的支持,不能滿足自動(dòng)獲取數(shù)據(jù)和返回結(jié)果的需求。大量的操作只能通過(guò)人機(jī)交互進(jìn)行,效率低下。

3)建模所需要的數(shù)據(jù)真實(shí)性問(wèn)題。由于模型的準(zhǔn)確性與其所采用的模擬設(shè)置與實(shí)際是否一致息息相關(guān),因此獲取的模擬設(shè)置信息(如功耗,空調(diào)設(shè)置信息等)準(zhǔn)確性非常關(guān)鍵。通常這些信息是在設(shè)計(jì)階段確定的,也有部分是運(yùn)行時(shí)獲得的。這些數(shù)據(jù)只有進(jìn)行精細(xì)的核實(shí)才能保證建模的精度(反過(guò)來(lái)建模的過(guò)程可以反推設(shè)計(jì)實(shí)施情況和數(shù)據(jù)的標(biāo)準(zhǔn)化過(guò)程)。

我們的解決方案

阿里巴巴聯(lián)合新加坡南洋理工大學(xué)(NTU)計(jì)算機(jī)科學(xué)與工程學(xué)院文勇剛教授團(tuán)隊(duì),依托阿里巴巴-南大聯(lián)合研究院平臺(tái),通過(guò)接近 1 年的研究,開(kāi)發(fā)和測(cè)試,實(shí)現(xiàn)并上線完成了一個(gè)高精度,可連接實(shí)時(shí)監(jiān)控系統(tǒng)的基于 CFD 的變更沙盤(pán)系統(tǒng)。本系統(tǒng)在 off-the-shelf CFD 軟件上實(shí)現(xiàn)了工業(yè)級(jí)精度的變更沙盤(pán)測(cè)試和驗(yàn)證。

本次項(xiàng)目選定了某個(gè)機(jī)房包間作為技術(shù)試點(diǎn),并在對(duì)該機(jī)房的物理建模,模型校準(zhǔn)和工程落地上進(jìn)行了緊密合作。

1)物理建模:

該過(guò)程主要將包間內(nèi)各物理結(jié)構(gòu)設(shè)置到模型,提供仿真基礎(chǔ)。以達(dá)到最好還原度為準(zhǔn)則,我們實(shí)現(xiàn)了下面所述方面的建模操作:

結(jié)構(gòu)建模:對(duì)機(jī)房結(jié)構(gòu)、墻、通風(fēng)口、天花板、管道進(jìn)行設(shè)置

IT 部署建模:機(jī)列、機(jī)柜、機(jī)位設(shè)置

環(huán)境建模:空調(diào)設(shè)備、傳感器設(shè)置

設(shè)備建模:按廠商型號(hào)導(dǎo)入服務(wù)器模型

2)模型校準(zhǔn)

模型校準(zhǔn)的主要原則需要達(dá)到下述 3 個(gè)方面的真實(shí)還原:

機(jī)房冷熱溫度來(lái)源:校準(zhǔn)中需要確認(rèn)模型中冷熱量與實(shí)際一致。

機(jī)房氣流變化原因:校準(zhǔn)中需要保證冷熱風(fēng)氣流與實(shí)際一致。

溫度測(cè)量數(shù)據(jù):校準(zhǔn)中需要保證模型預(yù)測(cè)溫度與實(shí)際一致。

為了保證模型可以到工業(yè)級(jí)精度,項(xiàng)目團(tuán)隊(duì)進(jìn)行了大量的數(shù)據(jù)核準(zhǔn)和模型調(diào)整工作。這些工作全方位地對(duì)整個(gè)機(jī)房的相關(guān)信息和設(shè)置進(jìn)行了梳理和核實(shí),并形成了完整的標(biāo)準(zhǔn)化校準(zhǔn)文檔,為以后建模推廣打下了堅(jiān)實(shí)的基礎(chǔ)。這些校準(zhǔn)操作可以分為 2 類:

第 1 類:數(shù)據(jù)核準(zhǔn)

服務(wù)器核準(zhǔn)(包含:少數(shù)服務(wù)器U位沖突、服務(wù)器功耗校準(zhǔn))

傳感器核準(zhǔn)(包含:空調(diào)供風(fēng)溫度、轉(zhuǎn)速和冷熱通道傳感器位置、數(shù)據(jù))

第 2 類:模型調(diào)整

熱氣泄露設(shè)置調(diào)整,熱氣泄露會(huì)導(dǎo)致冷通道溫度升高。

機(jī)柜模擬模式調(diào)整,設(shè)置為細(xì)粒度模擬模式。

Server 風(fēng)量設(shè)置調(diào)整,精確設(shè)置 server 風(fēng)速以符合實(shí)際需求。

依托大量的傳感器數(shù)據(jù),通過(guò)上述校準(zhǔn)操作,最終模型達(dá)到了設(shè)計(jì)階段 CFD 使用未有過(guò)的精度。這些精度來(lái)源于我們精確地還原各項(xiàng)硬件的布置,各個(gè)操作的數(shù)據(jù)核準(zhǔn)和細(xì)粒度的 server 風(fēng)速校準(zhǔn)。

3)工程落地

如圖所示為沙盤(pán)系統(tǒng)的流程圖。在模型達(dá)到預(yù)期精度后,團(tuán)隊(duì)進(jìn)一步解決了 CFD 模擬的自動(dòng)化問(wèn)題。通過(guò)接入阿里巴巴自研的數(shù)據(jù)中心實(shí)時(shí)監(jiān)控系統(tǒng)(DCIM),我們獲取到實(shí)時(shí)的服務(wù)器功耗、空調(diào)出風(fēng)溫度和風(fēng)機(jī)轉(zhuǎn)速等數(shù)據(jù),通過(guò) 6Sigma 開(kāi)放 SDK 將數(shù)據(jù)寫(xiě)入 CFD 模型,從而使得模型能夠?qū)崟r(shí)模擬包間內(nèi)真實(shí)情況。此外,一旦仿真計(jì)算完成后,我們將計(jì)算結(jié)果從模型中導(dǎo)出,回傳到監(jiān)控系統(tǒng),從而完成一次仿真計(jì)算的閉環(huán)。

如此,我們實(shí)現(xiàn)了將沙盤(pán)系統(tǒng)整合進(jìn)入 DCIM 系統(tǒng),并且全程操作可以自動(dòng)化進(jìn)行,為將來(lái)沙盤(pán)系統(tǒng)的應(yīng)用和推廣打下了堅(jiān)實(shí)基礎(chǔ)。

最終成果:

1)精度達(dá)標(biāo):模型采用真實(shí)的監(jiān)控?cái)?shù)據(jù)作為輸入,并計(jì)算模擬的目標(biāo)傳感器測(cè)溫與實(shí)際的傳感器測(cè)溫之間的平均絕對(duì)誤差(MAE)來(lái)作為模型的準(zhǔn)確性的測(cè)量依據(jù)。經(jīng)過(guò)長(zhǎng)時(shí)間觀察(采用不同時(shí)刻的數(shù)據(jù)進(jìn)行驗(yàn)證),模型模擬精度均能達(dá)到阿里巴巴數(shù)據(jù)中心建設(shè)標(biāo)準(zhǔn)要求。理論上可以替代冷熱通道傳感器,進(jìn)行數(shù)據(jù)中心生產(chǎn)包間環(huán)境監(jiān)控。

2)成功落地:目前該模型已經(jīng)成功接入 DCIM 系統(tǒng),可以自動(dòng)從 DCIM 中抓取數(shù)據(jù),返回結(jié)果。當(dāng)前模擬的時(shí)耗為大約 1 小時(shí),通過(guò)升級(jí) 6Sigma License 規(guī)格未來(lái)有希望提升到 10 分鐘。接入該實(shí)時(shí) CFD 模擬系統(tǒng)意味著阿里自研 DCIM 系統(tǒng)成為世界上唯一有高精度實(shí)時(shí) CFD 模擬模塊的數(shù)據(jù)中心云維管理系統(tǒng)。

變更沙盤(pán)系統(tǒng)的價(jià)值

包間可視化:由原來(lái)的 2D、數(shù)字的方式,升級(jí)為 3D、圖形數(shù)字結(jié)合的展現(xiàn)方式,包括實(shí)際布局、熱力情況、氣流情況,從而可以讓機(jī)房經(jīng)理與設(shè)施專家能更直觀、全面、迅速地了解機(jī)房的整體情況,更快發(fā)現(xiàn)包間暖通環(huán)境問(wèn)題,輔助優(yōu)化現(xiàn)場(chǎng)供冷分配與氣流組織。

故障發(fā)現(xiàn):可以厘米級(jí)別監(jiān)測(cè)包間內(nèi)的溫度,快速發(fā)現(xiàn)溫升(局部熱點(diǎn)),從而具備更快、更強(qiáng)的風(fēng)險(xiǎn)識(shí)別能力,防止出現(xiàn)大范圍的機(jī)房溫升事件。  

設(shè)計(jì)驗(yàn)證:建模過(guò)程所需要的物理設(shè)置信息通常決定于設(shè)計(jì)階段。建模過(guò)程中得到的誤差反饋信息可以直接驗(yàn)證設(shè)計(jì)與實(shí)施的差別。

設(shè)計(jì)優(yōu)化(變更指引):沙盤(pán)系統(tǒng)可以模擬不同設(shè)計(jì)下數(shù)據(jù)中心的操作情況,從而可以用于設(shè)計(jì)上的優(yōu)化和數(shù)據(jù)中心變更的先驗(yàn)平臺(tái)。

暖通控制推薦:可以通過(guò)嘗試不同空調(diào)設(shè)置應(yīng)用到當(dāng)前環(huán)境,得到溫度控制最佳、能耗最低的空調(diào)設(shè)置,實(shí)現(xiàn)包間內(nèi)供冷可靠、智能的控制。

業(yè)務(wù)調(diào)度推薦:根據(jù)詳細(xì)的機(jī)房溫度分布情況,結(jié)合功耗水位數(shù)據(jù),可以向業(yè)務(wù)調(diào)度系統(tǒng)提供調(diào)度參考,使得業(yè)務(wù)分布更均勻,機(jī)房溫度分布也更加均勻,降低制冷能耗,提升服務(wù)器健康度。

未來(lái)展望

未來(lái)合作的方向之一是對(duì)變更沙盤(pán)系統(tǒng)進(jìn)行產(chǎn)業(yè)級(jí)推廣和驗(yàn)證,目標(biāo)是做出業(yè)界標(biāo)準(zhǔn)。使得變更沙盤(pán)系統(tǒng)可以應(yīng)用與阿里數(shù)據(jù)中心的更多機(jī)房,去驗(yàn)證設(shè)計(jì)和優(yōu)化管理控制。

未來(lái),我們希望將系統(tǒng)沙盤(pán)推廣到整個(gè)暖通系統(tǒng),覆蓋到機(jī)房外的制冷設(shè)備,實(shí)現(xiàn)全鏈條模擬。從而實(shí)現(xiàn)整個(gè)制冷系統(tǒng)的設(shè)計(jì)驗(yàn)證和控制優(yōu)化。

綜上,變更沙盤(pán)系統(tǒng)將可以顯著促進(jìn)數(shù)據(jù)中心設(shè)計(jì)到運(yùn)維的自動(dòng)化水平,為實(shí)現(xiàn)更穩(wěn)定更高效的數(shù)據(jù)中心運(yùn)維提供支撐。這是一次從零到一的嘗試,我們構(gòu)建了第一個(gè)可實(shí)時(shí)的、高精度的暖通變更系統(tǒng),幫助數(shù)據(jù)中心運(yùn)維人員能夠判斷一次變更是否可能造成故障,從而減少由變更導(dǎo)致的故障。進(jìn)一步,我們可以給出具體的變更后環(huán)境變化,給出變更建議,甚至能夠?qū)崿F(xiàn)自動(dòng)變更。如此,我們將離機(jī)房無(wú)人值守的目標(biāo)越來(lái)越近。

【凡本網(wǎng)注明來(lái)源非中國(guó)IDC圈的作品,均轉(zhuǎn)載自其它媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。】

延伸閱讀:

  • 實(shí)力圈粉開(kāi)發(fā)者,華為企業(yè)通信自信漫步云端,完美!
  • 經(jīng)驗(yàn)泛談,綜合布線中容易被忽視的事項(xiàng)
  • 聯(lián)想田日輝:以數(shù)字化轉(zhuǎn)型方法論+最佳實(shí)踐集,引領(lǐng)數(shù)字化轉(zhuǎn)型

標(biāo)簽: [db:TAGG]

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:2019運(yùn)維技能風(fēng)向標(biāo)

下一篇:TCP/IP客戶端和服務(wù)器的角色