中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

【IDCC2019】騰訊栗權(quán):騰訊智維平臺(tái)與數(shù)據(jù)中心運(yùn)

2019-12-23    來(lái)源:天下數(shù)據(jù)IDC資訊

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

大數(shù)據(jù)時(shí)代,數(shù)據(jù)呈現(xiàn)爆炸式的增長(zhǎng),全球掀起了興建數(shù)據(jù)中心的熱潮。在新時(shí)代,未來(lái)數(shù)據(jù)中心如何建設(shè)運(yùn)營(yíng),又將呈現(xiàn)出怎樣的發(fā)展趨勢(shì)?2019年12月19日,第十四屆中國(guó)IDC產(chǎn)業(yè)年度大典(IDCC2019)第二日精彩繼續(xù),行業(yè)專家和企業(yè)代表云集“IDC建設(shè)與發(fā)展論壇”,為數(shù)據(jù)中心未來(lái)的建設(shè)與發(fā)展獻(xiàn)計(jì)獻(xiàn)策。騰訊天津?yàn)I海數(shù)據(jù)中心經(jīng)理栗權(quán)先生在會(huì)上為與會(huì)者進(jìn)行了《騰訊智維平臺(tái)與數(shù)據(jù)中心運(yùn)營(yíng)體系結(jié)合》的主題演講。

騰訊天津?yàn)I海數(shù)據(jù)中心經(jīng)理栗權(quán)

騰訊天津?yàn)I海數(shù)據(jù)中心經(jīng)理栗權(quán)

大家上午好,很高興能夠參加今天的分享。我今天分享的主題是騰訊的智維平臺(tái)是如何實(shí)際應(yīng)用到數(shù)據(jù)中心的市場(chǎng)運(yùn)營(yíng)過(guò)程中的。

首先做一下自我介紹。我是來(lái)自騰訊按天津?yàn)I海數(shù)據(jù)中心的經(jīng)理栗權(quán)。天津?yàn)I海機(jī)房是騰訊第一個(gè)自建機(jī)房,而是騰訊運(yùn)營(yíng)中單體體量最大的一個(gè)園區(qū)。天津?yàn)I海這個(gè)機(jī)房單體服務(wù)器數(shù)量已經(jīng)超過(guò)10萬(wàn)臺(tái),機(jī)架數(shù)量5400架左右。

我今天分享的主要有三個(gè)議題。首先跟大家一起回顧一下騰訊的智維平臺(tái)發(fā)展歷程。其次跟大家詳細(xì)介紹一下騰訊智維平臺(tái)在日常運(yùn)營(yíng)以及數(shù)據(jù)分析方面對(duì)運(yùn)營(yíng)過(guò)程發(fā)揮了哪些作用。三是智維平臺(tái)的優(yōu)勢(shì)和落地的應(yīng)用。

騰訊2000年建立了自己第一個(gè)數(shù)據(jù)中心,當(dāng)然那個(gè)時(shí)候我們是跟深圳電信租賃的一個(gè)機(jī)房,直到2006年騰訊有了第一個(gè)正式算作IT機(jī)房的數(shù)據(jù)中心,在深圳寶安機(jī)房。到2011年騰訊有了第一個(gè)在天津自建的數(shù)據(jù)中心,就是我所運(yùn)營(yíng)的機(jī)房。時(shí)間很快,到2013年騰訊發(fā)布了第三代以微模塊為主導(dǎo)的MDC的數(shù)據(jù)中心技術(shù)。2015年推出了第四代T—BLOCK集裝箱式的數(shù)據(jù)中心。到現(xiàn)在我們已經(jīng)經(jīng)歷了四代數(shù)據(jù)中心的發(fā)展歷程。在這么多年的建設(shè)和運(yùn)營(yíng)過(guò)程中,有一點(diǎn)體會(huì)是非常深刻的:一套高效可用的管理平臺(tái),對(duì)整個(gè)數(shù)據(jù)中心的運(yùn)營(yíng)質(zhì)量和運(yùn)營(yíng)效率來(lái)說(shuō)是能夠帶來(lái)指數(shù)級(jí)的幫助的。所以,基于這個(gè)理念,我們?cè)?014年自主研發(fā)并且上線了一套騰訊智維平臺(tái)的前身。

數(shù)據(jù)中心在運(yùn)營(yíng)過(guò)程中會(huì)遇到不同的挑戰(zhàn),有四點(diǎn)我總結(jié)的日常運(yùn)營(yíng)過(guò)程中我們可能會(huì)面臨的最大的幾個(gè)挑戰(zhàn):管人、管物、管好服務(wù)以及控制好成本。智維平臺(tái)針對(duì)這四個(gè)模塊都進(jìn)行了核心能力的打造。DCOM,在騰訊內(nèi)部我們把它定義成日常的運(yùn)營(yíng)流程平臺(tái),所有的事件變更、維護(hù)維保都是通過(guò)DCOM來(lái)驅(qū)動(dòng)的,它的主要目的是為了管好我們外包人員,進(jìn)行人的管理。現(xiàn)場(chǎng)運(yùn)營(yíng)著數(shù)萬(wàn)臺(tái)的設(shè)備,有幾十萬(wàn)個(gè)監(jiān)控測(cè)點(diǎn),每天產(chǎn)生數(shù)T的數(shù)據(jù)。如何應(yīng)用和分析這些數(shù)據(jù),讓它最大化產(chǎn)生價(jià)值,是在DCRM平臺(tái)進(jìn)行擴(kuò)充和分析的。此外,由于騰訊云會(huì)對(duì)外提供很多托管的業(yè)務(wù)。所以,我們給用戶提供的服務(wù)目錄的管理,會(huì)在DCIM平臺(tái)進(jìn)行管控。所有的運(yùn)營(yíng)過(guò)程中,所發(fā)生的物料以及資源成本,我們都會(huì)在DCSM模塊進(jìn)行統(tǒng)一監(jiān)管。

下面我分別展開(kāi)跟大家介紹一下。DCIM平臺(tái)是騰訊智維整個(gè)產(chǎn)品的核心。五年之前,就是已經(jīng)跟BA等廠商打通了底層的數(shù)據(jù)接口,把數(shù)據(jù)中心內(nèi)50萬(wàn)個(gè)測(cè)點(diǎn)全部通過(guò)標(biāo)準(zhǔn)的接口進(jìn)行對(duì)接,并且自己進(jìn)行統(tǒng)一的存儲(chǔ);谶@些數(shù)據(jù),我們制定N多種運(yùn)營(yíng)場(chǎng)景,為每種運(yùn)營(yíng)場(chǎng)景設(shè)置一個(gè)模型。這個(gè)數(shù)據(jù)模型分別可以應(yīng)用到我們的可視化試圖以及告警分析、智能分析中,這樣說(shuō)可能會(huì)比較抽象,后面大家可以看兩個(gè)具體的例子。

分享一個(gè)騰訊天津數(shù)據(jù)中心三號(hào)樓的一個(gè)實(shí)時(shí)數(shù)據(jù),因?yàn)槲覀円呀?jīng)切了節(jié)約模式,所以功率法算出的實(shí)時(shí)PUE是1.18,負(fù)荷是12.4兆瓦。每一天作為運(yùn)營(yíng)管理人員,可以通過(guò)這個(gè)頁(yè)面對(duì)整個(gè)機(jī)房當(dāng)前的運(yùn)營(yíng)容量,以及外室電,以及當(dāng)前機(jī)架的使用情況有一個(gè)整體的了解。進(jìn)一步可以通過(guò)采集上來(lái)的監(jiān)控?cái)?shù)據(jù),對(duì)外室電的供電質(zhì)量以及每一臺(tái)變壓器的質(zhì)量和供電質(zhì)量進(jìn)行跟蹤。這些數(shù)據(jù)都可以經(jīng)過(guò)簡(jiǎn)單的模型處理,在運(yùn)營(yíng)綜合視圖里展現(xiàn)出來(lái)。

采集到的50多萬(wàn)條數(shù)據(jù)如何應(yīng)用到綜合視圖里,我們會(huì)進(jìn)一步把它應(yīng)用到監(jiān)控告警中。由于傳統(tǒng)的監(jiān)控告警只是進(jìn)行紙回執(zhí)的監(jiān)控,設(shè)置一個(gè)上下限,描述物理過(guò)程,但是騰訊智維平臺(tái)很早就實(shí)現(xiàn)了基于拓?fù)涞倪壿嬍諗俊?huì)把從室電進(jìn)線到中壓側(cè)到UPS直到末端全部都進(jìn)行數(shù)字化的轉(zhuǎn)譯,我們把每一個(gè)設(shè)備之間的元器件建立起來(lái)一個(gè)拓?fù)潢P(guān)系,從空開(kāi)狀態(tài)到采集值;谶@個(gè)拓?fù)潢P(guān)系設(shè)置我們的告警策略。這樣一旦源頭有任何的告警產(chǎn)生,我們都可以通過(guò)拓?fù)潢P(guān)系以及所設(shè)定的告警策略進(jìn)行告警的收斂以及快速的故障定位,用這種方式來(lái)防止告警泛紅,以及幫助一線人員快速進(jìn)行故障處理和響應(yīng)。

第二個(gè)例子是健康管理。單單有這些告警數(shù)據(jù)還是不夠的,因?yàn)楦婢呀?jīng)有一個(gè)滯后效應(yīng)了。被管理人員看到,被處理的時(shí)候,說(shuō)明已經(jīng)造成了一定的影響。我們基于現(xiàn)場(chǎng)海量的數(shù)據(jù),除了進(jìn)行被動(dòng)的告警響應(yīng)以外,還會(huì)進(jìn)行很多主動(dòng)的健康狀態(tài)的預(yù)警檢測(cè)。這里分享的是我們對(duì)于電池健康狀態(tài)檢測(cè)的案例。我們除了會(huì)對(duì)電池的溫度、內(nèi)阻和電壓傳統(tǒng)的三類相量進(jìn)行監(jiān)控以外,還引入了機(jī)器學(xué)習(xí)、監(jiān)督學(xué)習(xí)的AI算法,通過(guò)整組以及落后電池分析多種AI分析的方法,幫助我們發(fā)現(xiàn)哪些電池雖然表象上目前的容量和電壓都正常,但是它確實(shí)在歷次放電中或者在運(yùn)營(yíng)過(guò)程中是存在落后的風(fēng)險(xiǎn),或者落后的隱患的。我們也累計(jì)了半年的數(shù)據(jù)進(jìn)行分析。通過(guò)AI的方式發(fā)現(xiàn)的電池故障或者電池異常的準(zhǔn)確率要高于我們對(duì)傳統(tǒng)電壓和內(nèi)阻監(jiān)控而發(fā)現(xiàn)的準(zhǔn)確率。

下一個(gè)智維平臺(tái)的亮點(diǎn)是關(guān)于容量的管理。容量對(duì)于數(shù)據(jù)中心運(yùn)營(yíng)安全來(lái)說(shuō)是非常重要的,但傳統(tǒng)的IDC如果要做到精細(xì)化的容量管理可能要借助非常多的報(bào)表,或者在末端部署非常多的智能PDU。但是基于騰訊DCIM接口,我們可以進(jìn)行電壓電流的檢測(cè),所有檢測(cè)上來(lái)的數(shù)據(jù)可以繪制一張容量視圖中。通過(guò)平面圖,再結(jié)合當(dāng)前CMBD里面機(jī)架機(jī)位實(shí)際的空閑狀態(tài),就可以馬上繪制出來(lái)一張綜合了電量以及機(jī)位的物理狀態(tài)資源表,根據(jù)這張表就可以進(jìn)一步進(jìn)行后續(xù)設(shè)備上架時(shí)所使用的資源狀態(tài)的分配。

我們不但做了容量管理,還可以基于現(xiàn)有空閑的容量,未來(lái)對(duì)于不同型號(hào)的服務(wù)器,再上架新設(shè)備也做了一個(gè)預(yù)測(cè)的模型。這個(gè)模型可以給到我們后續(xù)的資源分配以及資源上架進(jìn)行預(yù)估的指導(dǎo),模型的準(zhǔn)確率高達(dá)90%以上。

還有一個(gè)亮點(diǎn)是能耗分析。首先我們可以基于剛剛提到的18個(gè)測(cè)點(diǎn)的采集和監(jiān)控,對(duì)現(xiàn)場(chǎng)所發(fā)生的每一個(gè)千瓦,甚至每一臺(tái)設(shè)備它的實(shí)際能耗以及它對(duì)整個(gè)能耗的成本到底有什么貢獻(xiàn),以及有什么弊端,做一目了然的分析和統(tǒng)計(jì)。分析完這些數(shù)據(jù),最終的目的可能是要將能耗進(jìn)行合理的控制。騰訊仿照Google的一個(gè)做法,使用了基于網(wǎng)絡(luò)的算法,在數(shù)據(jù)中心之內(nèi)做了一個(gè)PUE節(jié)能的預(yù)測(cè)。首先我們導(dǎo)出了歷史五年所有的從BA冷站到末端到服務(wù)器,AI負(fù)載的將近70多維度的歷史數(shù)據(jù)。對(duì)所有的數(shù)據(jù)按照影響因子進(jìn)行建模和排序,這里的影響因子變化量非常多。其中一個(gè)重要的參考量就是我剛剛提到的這張拓?fù)洌驗(yàn)槲覀兠恳慌_(tái)設(shè)備,不管是通過(guò)管路連接起來(lái)的也好,還是通過(guò)冷凍水能量形式連接起來(lái)的也好,內(nèi)在都有一種關(guān)聯(lián)關(guān)系。我們根據(jù)這些關(guān)聯(lián)關(guān)系的疏與密,可以排列出來(lái)一個(gè)影響因子。

大家可以理解為影響因子排序在前的就是對(duì)機(jī)房PUE貢獻(xiàn)比較大的;趯(duì)這些影響因子的分析,我們又引入了一個(gè)靈敏度分析的算法,給出來(lái)一個(gè)通過(guò)AI計(jì)算而輸出的推薦值意見(jiàn)。平臺(tái)告訴我們基于當(dāng)前的供水溫度和送風(fēng)溫度,在保證我們所輸入的安全邊界不被打破的情況下,你可以有多少的優(yōu)化空間,以及優(yōu)化到什么程度的時(shí)候PUE值會(huì)降低多少。這個(gè)項(xiàng)目出于謹(jǐn)慎起見(jiàn),對(duì)于系統(tǒng)給出的每一個(gè)優(yōu)化建議我們都有一個(gè)嚴(yán)格的變更流程進(jìn)行控制,變更完之后,我們要根據(jù)實(shí)測(cè)值與系統(tǒng)的推薦值進(jìn)行比較,因?yàn)橐蕹艉芏喔蓴_因素,所以我現(xiàn)在沒(méi)有辦法直接告訴大家通過(guò)AI算法我們的PUE到底降低了多少,但是PUE能夠在一定空間內(nèi)通過(guò)AI算法安全地調(diào)優(yōu),這個(gè)方向已經(jīng)被我們的實(shí)驗(yàn)認(rèn)證了。

分析完DCIM之后,再給大家介紹一下智維平臺(tái)在DCOM這個(gè)模塊里的設(shè)計(jì)理念。DCOM是指我們?nèi)粘_\(yùn)營(yíng)過(guò)程中的流程以及流程之間的關(guān)聯(lián)關(guān)系。我們?cè)诖罱―COM的時(shí)候,有一個(gè)基本的理念,海恩法則。任何一起數(shù)據(jù)中心的事故,比如導(dǎo)致我的服務(wù)受到影響,導(dǎo)致宕機(jī)或供冷中斷的事故,背后都有很多潛在隱患和未遂的風(fēng)險(xiǎn)存在。所以,只要我們?cè)谌粘_\(yùn)營(yíng)過(guò)程中,在事前盡量多地將隱患消除掉,讓隱患不成立,一定程度上就可以保證末端服務(wù)的連續(xù)和穩(wěn)定。這是我們DCOM搭建的一個(gè)核心理念。由于數(shù)據(jù)中心運(yùn)營(yíng)行業(yè)使用的已經(jīng)比較成熟了,所以我這里重點(diǎn)提一下騰訊正在使用的智能化巡檢模塊。

智能化巡檢模塊基于一個(gè)理念,我們把現(xiàn)場(chǎng)每一臺(tái)設(shè)備,或者我們所管理的每一臺(tái)設(shè)備都以結(jié)構(gòu)化的方式把它的巡檢相、巡檢標(biāo)準(zhǔn)和設(shè)備編號(hào)進(jìn)行結(jié)構(gòu)化的處理或者轉(zhuǎn)譯,F(xiàn)場(chǎng)借助于RFID掃碼的形式激活每一臺(tái)待巡檢設(shè)備,以此獲得巡檢項(xiàng),這樣天然提升了巡檢效率,而且也能保證巡檢質(zhì)量,也能夠降低執(zhí)行巡檢人員能力門(mén)檻。

在這個(gè)理念之上,騰訊在2019年下半年又對(duì)巡檢工作做了升級(jí)。我們認(rèn)為巡檢只是對(duì)監(jiān)控系統(tǒng)的不足以及監(jiān)控系統(tǒng)無(wú)法覆蓋的設(shè)備進(jìn)行人工確認(rèn),對(duì)于監(jiān)控系統(tǒng)已經(jīng)能夠?qū)崿F(xiàn)遠(yuǎn)程監(jiān)管的設(shè)備,我們已經(jīng)從巡檢系統(tǒng)中剝離了。所以,我們經(jīng)歷了對(duì)于現(xiàn)場(chǎng)巡檢由繁到簡(jiǎn)又從繁化簡(jiǎn)的過(guò)程。

關(guān)于智維平臺(tái)的DCSM管理。騰訊云業(yè)務(wù)形態(tài)有很多種,其中一個(gè)重要的是托管用戶比如58同城,他對(duì)我們騰訊機(jī)房的機(jī)架進(jìn)行整機(jī)架租賃,機(jī)架上托管著他們自己的服務(wù)器。像58這種用戶,他對(duì)他所享受的服務(wù)更關(guān)注的是當(dāng)前的溫濕度,環(huán)境怎么樣,我的設(shè)備分布在你的機(jī)房里哪個(gè)位置,我還有多少空間或者多少的容量能夠繼續(xù)使用。基于這個(gè)需求,DCSM就重點(diǎn)解決了用戶關(guān)注的綜合視圖以及資源查看、運(yùn)營(yíng)過(guò)程透明化的挑戰(zhàn)。托管用戶可以在平臺(tái)里看到他所有所使用或所托管設(shè)備的運(yùn)營(yíng)情況,并且可以通過(guò)平臺(tái)看到每一臺(tái)設(shè)備的資源信息,發(fā)起所有服務(wù)目錄中我們已經(jīng)跟他簽約的每一個(gè)服務(wù)項(xiàng),確保所有的需求能夠被線上記錄,精準(zhǔn)的傳遞到我們的現(xiàn)場(chǎng)。這樣將運(yùn)營(yíng)過(guò)程中的風(fēng)險(xiǎn)控制到最低。

騰訊智維本身源于騰訊自己的一個(gè)運(yùn)營(yíng)平臺(tái),從2014年至今這套平臺(tái)已經(jīng)推廣到了騰訊的四大片區(qū),包括我們所有的自建機(jī)房以及合建租賃機(jī)房。截止到目前,這一套運(yùn)維平臺(tái)已經(jīng)覆蓋了騰訊全部10萬(wàn)個(gè)機(jī)架以及100萬(wàn)服務(wù)器所在的數(shù)據(jù)中心的基礎(chǔ)設(shè)施運(yùn)營(yíng)管理。如果大家對(duì)騰訊智維平臺(tái)更詳細(xì)的功能和特點(diǎn)有興趣,可以跟我繼續(xù)聯(lián)系,咱們?cè)龠M(jìn)一步溝通。

我今天的分享結(jié)束,謝謝大家!

延伸閱讀:

  • 【IDCC2019】易信科技運(yùn)營(yíng)總裁葉輝:增效降費(fèi)、共建綠色數(shù)據(jù)中心
  • 【IDCC2019】PLDT吳昊:PLDT如何幫助中國(guó)企業(yè)進(jìn)軍菲律賓市場(chǎng)
  • 【IDCC2019】阿里巴巴任華華:IDC液冷化-正在發(fā)生的未來(lái)

標(biāo)簽: 騰訊智維平臺(tái) 數(shù)據(jù)中心運(yùn)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:2019 年薪水最高的十三個(gè)技術(shù)崗位

下一篇:中國(guó)移動(dòng)啟動(dòng)2020年5G無(wú)線網(wǎng)絡(luò)維護(hù)儀表集中采購(gòu)