站長資訊平臺

高密度主機托管和企業(yè)數(shù)據(jù)中心的冷卻系統(tǒng)考慮

2018-07-12 來源：天下數(shù)據(jù)IDC資訊

當前，在計算機技術領域的最新進展以及高性能CPU和GPU的日益普及使得企業(yè)用戶們能夠在計算機分析方面達到新的高度，包括使用大數(shù)據(jù)分析、人工智能、高頻交易、石油和天然氣研究以及網(wǎng)絡規(guī)模化商業(yè)模式。對于這些技術普及采用的快速增長已經(jīng)超過了大多數(shù)主機托管和企業(yè)基礎設施大規(guī)模冷卻這些高度密集的服務器機架的能力。

雖然許多基礎設施均承諾能夠以每平方英尺一瓦特為基礎，以便能夠為高于標準服務器機架密度的計算機系統(tǒng)提供冷卻的能力，但是許多基礎設施(如果不是全部的話)均無法大規(guī)模地實現(xiàn)對于如此高密度的新的計算機系統(tǒng)的有效管理。故而主機托管和企業(yè)數(shù)據(jù)中心必須考慮這些新的計算機如何在數(shù)據(jù)中心環(huán)境中進行交互，了解可用于冷卻這些密集服務器的各種解決方案，并構建可支持當前和未來使用的最新計算機機架的基礎架構。

隨著當前的IT企業(yè)組織對于高密度計算機使用的不斷增加，運行這些先進系統(tǒng)的要求也在相應提升。推動更高效的數(shù)據(jù)中心是與數(shù)據(jù)中心建筑物的電源使用效率(PUE)密切相關的主題，而后者的定義計算公式為：(數(shù)據(jù)中心總設備能耗)/(IT設備的能耗)。對于高性能計算(HPC)集群和高密度計算機架而言，其每臺機架的功率密度高達100 kW，有時甚至更高，每臺機架的平均密度估計為35 kW。

故而當前的建筑物業(yè)主、主機托管設施、企業(yè)數(shù)據(jù)中心、Web規(guī)�；髽I(yè)、政府機構、大學和國家級的研究實驗室都在積極努力的升級其冷卻基礎設施，以便不僅能夠為這些新的計算機系統(tǒng)所產(chǎn)生的熱量提供冷卻散熱，并且與此同時還要盡可能的減少或消除它們對建筑的能源消耗量或PUE的影響。

當前在石油和天然氣勘探研究、金融交易機構、網(wǎng)絡營銷等行業(yè)中對于“大數(shù)據(jù)分析”技術的快速采用進一步突顯了對數(shù)據(jù)中心高效冷卻的需求。這是因為世界上大多數(shù)的計算機服務器機房和數(shù)據(jù)中心都沒有配備或準備好處理當前和下一代服務器計算機所產(chǎn)生的大量熱負荷。如果我們假設由高密度計算機所消耗的功率都100%的轉換為熱能的話，那么也就很容易理解“為什么當下的企業(yè)數(shù)據(jù)中心必須要以有效且高效的方式去除這些熱量”這一議題會成為業(yè)界廣泛關注的焦點了。

研究高密度計算機系統(tǒng)的冷卻解決方案

1、浸沒式冷卻方案

新的超高性能計算機芯片能夠讓HPC系統(tǒng)的設計人員們開發(fā)出每臺機架可達100 kW的特殊集群，并且?guī)缀蹩梢猿侥壳八锌捎玫姆⻊掌骼鋮s方法。浸沒式冷卻系統(tǒng)提供填充有特殊設計的非導電介電液體的槽，允許整個服務器浸沒在液體中，而不會跨計算機電路產(chǎn)生電導的風險。這些高效系統(tǒng)可以消除高密度計算機系統(tǒng)產(chǎn)生的熱量高達100%。一旦這些熱量被轉移到介電流體中，然后就可以通過熱交換器，泵和閉環(huán)冷卻系統(tǒng)很容易地移除了。

通常，傳統(tǒng)的企業(yè)數(shù)據(jù)中心為了能夠順利部署采用新的浸沒式冷卻系統(tǒng)，都需要進行翻新。包括CRAC、高架地板和垂直服務器機架等傳統(tǒng)的冷卻設備都將被浸沒式的液體槽和更新的閉環(huán)溫水冷卻系統(tǒng)所取代。這些液體槽水平安置在地板上，為IT人員提供了一大新的優(yōu)勢，但卻是以占據(jù)了每平方英尺高成本的數(shù)據(jù)中心占地面積空間為代價的。服務器由其所有者或第三方通過移除可能受到電介質流體負面影響的組件被修改——例如硬盤驅動器和原始設備制造商(OEM)可能無法保證的其他組件�？紤]到對于相關基礎設施所實施的這些巨大改變將極大地限制企業(yè)未來的OEM服務器選項，并且僅限于具有專用浸入式冷卻技術的服務器機房使用，故而企業(yè)數(shù)據(jù)中心應該專門考慮未來的服務器更新選項。

雖然浸入式冷卻為世界上最極端的HPC系統(tǒng)提供了極高的效率，但這種HPC系統(tǒng)的普遍稀缺性及其所需的對于基礎設施升級和維護方面的挑戰(zhàn)是目前市場廣泛對其普及接受的一大難題。

圖一：浸沒式冷卻

2、直接到冷卻芯片，片上冷卻方案

最近，直接冷卻到芯片或片上冷卻技術在HPC行業(yè)取得了重大進展。小型散熱器被直接連接到計算機的CPU和GPU，從而創(chuàng)建了高效的緊密耦合服務器散熱。來自服務器的高達70%的散熱將由直接到芯片的散熱器收集，并通過小型的毛細管系統(tǒng)傳輸?shù)嚼鋮s液分配單元(CDU)。然后，CDU將熱量傳遞到單獨的閉環(huán)冷卻系統(tǒng)，以排出來自計算機房的熱量。其熱平衡使得30%或更多的熱量被拒絕進入到現(xiàn)有的服務器房間冷卻基礎設施。

通常用于直接到芯片冷卻的溫水冷卻系統(tǒng)一般被認為是不使用制冷設備的冷卻系統(tǒng)，例如閉環(huán)干式冷卻器(類似于大型散熱器)和冷卻塔，并且最近由美國供暖制冷與空調工程師協(xié)會(ASHRAE)進行了量化。以生產(chǎn)“W-3或W-4”水溫或介乎2°C - 46°C(36°F-115°F)的水溫。與典型的冷藏冷卻系統(tǒng)相比，這些系統(tǒng)所消耗的能量顯著減少，并為直接到芯片的冷卻系統(tǒng)提供了足夠的散熱，因為它們可以在W3-W4范圍內的冷卻水供應溫度下保持運行。

如果重新利用和恰當?shù)氖褂媚軌蛴兄谔岣邤?shù)據(jù)中心整體建筑的效率和PUE的話，直接芯片冷卻解決方案也可用于回收低等級的水熱。這種形式的熱回收的優(yōu)點會受到該建筑物的采暖、通風和空氣調節(jié)(HVAC)系統(tǒng)功能的限制。HVAC建筑設計在世界各地是不同的。由于大多數(shù)建筑物中都普遍使用基于水的終端設備，因此歐洲的許多地方都可以從低等級的熱回收中受益。相比之下，大多數(shù)北美地區(qū)的HVAC建筑設計使用具有電子再熱終端盒的中央強制空氣加熱和冷卻系統(tǒng)，故而很少使用從直接到芯片或片上冷卻系統(tǒng)的低等級熱回收。分配再生溫水的可行性也應在使用建筑水力基礎設施之前一起進行研究。

根據(jù)最近由歐內斯特·勞倫斯伯克利國家實驗室所進行的一項名為“電子設備的直接液體冷卻”的研究得出結論：在優(yōu)化的實驗室條件下，市場領先的直接芯片冷卻系統(tǒng)所達到的最佳冷卻性能為70%。這對于這樣的系統(tǒng)留下了有趣且可能適得其反的結果，因為來自計算機系統(tǒng)的大量熱量仍然必須禁止進入到周圍的房間，然后必須通過諸如計算機房空調(CRAC)或計算機室空氣處理器(CRAH)等更傳統(tǒng)、效率更低的裝置來冷卻。(如下圖二)。

為了更好地了解部署直接或片上冷卻系統(tǒng)的新效果，必須將HPC集群視為整體建筑能耗的一部分，然后可以直接與建筑物PUE相連�？紤]到具有直接芯片冷卻功能的35 kW機架將至少拒絕10.5 kW(占30%)的熱量散發(fā)到計算機房，平均一臺HPC群集包括6臺機架式計算機(不包括高密度存儲陣列)，直接到芯片或片上冷卻系統(tǒng)將在既定空間內排出至少60kW的熱負荷。利用CRAC或CRAH排除這種余熱的最常用方法會導致原始效率增益的顯著下降。

在采用片上冷卻系統(tǒng)時，還需要考慮數(shù)據(jù)中心內部實際基礎設施的需求，以及更重要的服務器機架內部的需求所提出其他方面的挑戰(zhàn)。為了使溫水冷卻到芯片水平，必須通過許多小軟管將水輸送到機架內部，然后這些軟管又將直接輸送到芯片熱交換器/泵。雖然這些安裝的規(guī)模很小，但是需要IT人員來管理裝滿大量軟管的機架背面，以及用于連接冷卻系統(tǒng)入口和出水的分配頭。

直接芯片冷卻系統(tǒng)直接連接到HPC集群的主板，設計或多或少是永久性的。通常根據(jù)需求或預算，HPC群集平均每3到5年需要進行更新(或替換)。考慮到這一點，如果在托管環(huán)境中使用，則每次實施更新或客戶端重定位都需要為冷卻系統(tǒng)基礎結構的更改準備好設施規(guī)劃。

直接芯片冷卻在高效冷卻當今高密度計算機集群方面取得了顯著進步，但是一旦進入更大的計算機房或建筑物環(huán)境，就必須考慮整體的建筑性能，基礎設施成本影響和在其整個使用壽命周期內總的投資回報率了。

圖二：直接片上冷卻方案

3、具備密封容器系統(tǒng)的機架行級冷卻方案

在2000年代初，冷卻開始向數(shù)據(jù)中心內的服務器機架靠近，主要是由于服務器熱負荷的快速增加，以及傳統(tǒng)CRAC和CRAH空調系統(tǒng)無法推動足夠的冷空氣來滿足服務器的冷卻散熱需求。早期推出的方案之一便是機架行級冷卻(In-Row Cooler)技術，其是傳統(tǒng)CRAC和CRAH的變體，但重新設計了不同的外形，夾在相鄰的服務器機架之間。

機架行級冷卻方案為較高密度服務器機架提供了卻管理冷能力，只需將冷卻部件放置在靠近熱源的位置即可。來自熱通道(服務器機架后部)的暖空氣通過機架行級冷卻器吸入，由冷水或制冷劑冷卻，然后排放到冷通道(服務器機架前部)。通常，服務器的熱負荷決定了兩種最常用的機架行內冷卻器的尺寸分別為12英寸寬或24英寸寬。機架密度越高，服務器機架和行內冷卻器之間的比例就越接近。每臺5x服務器機架的低密度數(shù)據(jù)中心可以使用1x 12英寸規(guī)格的機架行內冷卻器，而對于其他服務器機架的更高密度系統(tǒng)，可能需要1x 24英寸規(guī)格的機架行內冷卻器。

盡管將機架行內冷卻器定位在服務器機架附近可以實現(xiàn)冷卻效率的提高，但是曾經(jīng)占據(jù)數(shù)據(jù)中心周邊空間的大型CRAC或CRAH單元則需要被轉移到服務器機架之間的可能更有價值的空間。

對于主機托管設施而言，其機架空間與企業(yè)的凈利潤直接相關，因此這種進行成本的權衡變得至關重要。許多大型企業(yè)和托管設施還在可重復的網(wǎng)格模式上加載空白區(qū)域，從而允許在IT和基礎設施設計布局上逐步擴展和統(tǒng)一。如果按規(guī)�；渴穑梢砸赃@種方式管理機架行內的系統(tǒng)，但是如果用作高密度區(qū)域的補充冷卻技術，或者在集合的情況下用于支持本地化高密度客戶端的冷卻，則機架行內系統(tǒng)可能會破壞整個空白區(qū)域的一致性，并為負責部署的MEP站點團隊帶來額外的挑戰(zhàn)。

圖三：具有熱通道密封遏制方案的行內冷卻器

密封遏制系統(tǒng)，無論其是熱通道還是冷通道，都為行內冷卻策略增添了另一種巧妙的方案。熱通道密封系統(tǒng)最常用于熱通道，旨在將熱空氣夾在服務器機架后部的過道中。關于設施基礎設施所面臨的挑戰(zhàn)的討論將被排除在該討論之外，許多企業(yè)已成功克服這些挑戰(zhàn)。與本文所探討的更相關的是熱通道密封系統(tǒng)對更高密度IT設備的性能影響，這是經(jīng)常被企業(yè)數(shù)據(jù)中心管理人員們所疏忽的重大問題。

從熱力學的角度來看，密封遏制的熱通道有助于實現(xiàn)熱通道中的熱空氣溫度的最大化，從而使得在機架行內系統(tǒng)進入行內熱交換器的熱空氣與冷水或制冷劑之間具有更大的ITD(初始溫差)，以便用來去除熱量。這增加了機架行內冷卻器系統(tǒng)的性能和效率。然而，這種策略未能解決當今最新的密集型IT設備的極其重要的氣流要求。每千瓦計算功率的空氣流量可以從80cfm到130cfm不等，這不僅僅是由于計算機制造商的不同，而且還會因CPU和GPU制造商的不同而變化。目前可用的大多數(shù)(如果不是全部的話)行內冷卻器在這些情況下均會存在氣流不足的情況。

通常，在部署完成之后所發(fā)現(xiàn)的問題往往是熱通道中的熱空氣的熱堆疊效應。看到熱通道的目的是捕獲熱空氣似乎是很明顯的。然而，更重要的關鍵點則是行內系統(tǒng)必須能夠移動服務器排放到熱痛到的相同流量的空氣。任何不足都會導致服務器風扇的背壓，以前稱為堆疊。熱堆疊往往會在服務器風扇上產(chǎn)生過多的工作負載，盡管更有問題的情況是芯片級產(chǎn)生的過熱。熱堆疊迫使CPU和GPU退回，限制了計算級別的性能，實際上會破壞計算機的設計性能。即使安裝后的糾正不是不可能的，這種情況也會相當困難。在高密度IT設備上部署帶有密封系統(tǒng)的行內冷卻器之前，企業(yè)數(shù)據(jù)中心的MEP團隊，IT運營團隊和客戶(如果適用的話)應共享設計成功的行內冷卻策略所需的相關數(shù)據(jù)。

背板換熱器

在制造和使用HPC集群和高密度服務器機架的過程中，背板換熱器(Active Rear Door Heat Exchangers，ARDH)越來越受歡迎。ARDH能夠在幾乎沒有基礎設施變化的情況下從服務器機架中移除100%的熱量，從而提高系統(tǒng)效率和便利性。這些系統(tǒng)通常與機架無關，并能夠取代任何行業(yè)標準服務器機架的后門背板。他們利用一系列高效風扇和冷卻水來消除計算機系統(tǒng)的熱量。電子換向(EC)風扇用于匹配CFM中的服務器空氣流量，以確保從服務器中移除所有熱量。

一款ARDH在57F-75F之間使用清潔水或乙二醇混合物，這在大多數(shù)數(shù)據(jù)中心通常都很容易獲得，如果沒有的話，可以利用冷凍水廠，閉式冷卻系統(tǒng)如冷卻塔，干式冷卻器或這些系統(tǒng)的組合來生產(chǎn)。利用ARDH允許將高密度服務器機架安裝在現(xiàn)有計算機房中，例如主機托管設施或傳統(tǒng)數(shù)據(jù)中心，并且?guī)缀醪恍枰淖兓A設施，對周圍的計算機機架也沒有任何影響。

背板換熱器可以為每臺計算機架移除高達75 kW的功率，并能夠隨著集群經(jīng)歷多個更新周期，為企業(yè)用戶提供大量的擴展功能。這些系統(tǒng)一旦部署，通過監(jiān)控內部服務器機架溫度和外部室溫，為數(shù)據(jù)中心所有者提供相應的優(yōu)勢，確保維持熱中性環(huán)境。

最近，服務器制造商的實驗室測試發(fā)現(xiàn)，添加ARDH實際上降低了機架內計算機的風扇功耗，而并未抵消ARDH風扇陣列的最小功耗。雖然這初略看上去是違反直覺的，但深入研究表明，即使在高密度工作負載下，ARDH風扇有助于使得服務器的風扇消耗更少的能量，并且性能更好。測試還表明了硬件性能提高，從而延長了服務器的預期壽命。

ARDH提供對機架后部的完全訪問，可以安裝在頂部和底部供水配置中，提供進一步的靈活性，無論是否使用高架活動地板，都可以集成到新的或現(xiàn)有的設施中。大多數(shù)主機托管機構都希望吸引最廣泛的潛在客戶，這使得ARDH成為數(shù)據(jù)中心冷卻的一個方便且具有戰(zhàn)略重要性的選擇。冷卻方案可以根據(jù)需要隨時隨地的快速部署，而不會影響周圍的機架或相鄰客戶。ARDH可以在整個數(shù)據(jù)中心或更高密度區(qū)域進行規(guī)�；渴稹�

圖四：位于俄勒岡州波特蘭的Infomart數(shù)據(jù)中心的LinkedIn服務器上所部署的機架冷卻系統(tǒng)

結論

企業(yè)數(shù)據(jù)中心已經(jīng)成為當前許多大型財富500強乃至100強企業(yè)運營的支柱，特別是當考慮到當下最為火爆的網(wǎng)絡規(guī)模化商業(yè)模式的情況下。大型主機托管設施已經(jīng)大大超越了過去那些僅僅只是為客戶提供簡單的服務器管理的傳統(tǒng)商業(yè)模式，其現(xiàn)在通常作為外部投資者的復雜金融工具。對于企業(yè)和主機托管數(shù)據(jù)中心而言，應注重特別設計方面的考慮，這些數(shù)據(jù)中心現(xiàn)在在推動企業(yè)利潤方面發(fā)揮著不可或缺的作用，同時還希望能夠更進一步的降低操作風險。這些曾用于分析金融投資的財務條款，但現(xiàn)在在描述新的數(shù)據(jù)中心建設所將涉及到的風險回報時也經(jīng)常聽到。

當前，CPU和GPU芯片技術的演變大約已經(jīng)經(jīng)歷了18個月了，這意味著計算機性能升級和密度還將增加。在考慮更新之前，主機托管和企業(yè)基礎設施通常預計有10到15年的使用壽命周期。由于這兩條趨勢線很少相互交叉，因此數(shù)據(jù)中心設計團隊必須考慮能夠與其所需的相關IT設備相媲美的計算機冷卻系統(tǒng)。最近在這些關鍵設施中，每平方英尺的建筑設計輪廓的總瓦數(shù)方面得到了太多關注。每平方英尺所消耗的瓦特數(shù)的計算和模擬計算流體動力學(CFD)設計很少考慮高密度IT設備的大規(guī)模部署，限制了這些機架在彼此靠近和相鄰的低密度IT設備上按比例的安排。每臺機架級別25kW及以上的服務器機架的普及程度很容易超過傳統(tǒng)冷卻技術的成就，并且暴露了大量數(shù)據(jù)中心的準備不足，而這些數(shù)據(jù)中心無法很好的管理當今最新計算機的冷卻要求和許多主機托管客戶的要求。

目前有幾種可靠的技術可用于冷卻當今的高密度服務器，而企業(yè)數(shù)據(jù)中心必須選擇一種高效實用的系統(tǒng)，該系統(tǒng)可匹配相關建筑的冷卻基礎設施，以及未來的更新策略和預算順利運行。冷卻這些高級計算機的工程和設計計劃應該在選擇采購相關計算機系統(tǒng)之前或同時進行，因為現(xiàn)在的企業(yè)經(jīng)常利用冷卻系統(tǒng)本身來確保最佳和有保證的計算機性能，以及確保對于所簽署的SLA協(xié)議的遵守。

標簽： idc idc資訊大數(shù)據(jù) 大數(shù)據(jù)分析服務器服務器管理服務器機房機房機房空調金融數(shù)據(jù)分析網(wǎng)絡

版權申明：本站文章部分自網(wǎng)絡，如有侵權，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:服務器三種DIMM類型的區(qū)別及應用

下一篇:起底讓人類汗顏的DeepMind：竟是個谷歌大包袱！

最新資訊

熱門推薦

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

高密度主機托管和企業(yè)數(shù)據(jù)中心的冷卻系統(tǒng)考慮