中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

機器學習+在線遷移=Azure復原能力UP

2018-12-21    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

編者按:微軟Azure團隊一直努力為企業(yè)的云平臺使用提供更好的服務。借助于微軟亞洲研究院軟件分析組最新的磁盤故障預測和節(jié)點故障預測的兩項研究成果(論文見文末),Azure團隊能夠更好地利用機器學習和在線遷移技術來主動地提前解決Azure可能出現(xiàn)的問題。本文編譯自微軟研究院博客文章“Improving Azure Virtual Machine resiliency with predictive ML and live migration”

微軟Azure團隊致力于確保用戶部署在Azure上的業(yè)務得以持續(xù)可靠地運行。為了優(yōu)化Azure的可靠性,他們和微軟亞洲研究院合作,利用機器學習來預測潛在的故障,并使用在線遷移技術提前緩解故障的影響。

 

 

自2018年初以來,Azure一直采用在線遷移技術來應對各種各樣的故障場景, 比如硬件故障、機架維護和軟件/BIOS更新等常規(guī)操作過程中出現(xiàn)的錯誤等。借助在線遷移,Azure能夠從容處理故障,并將故障的影響降低了50%。

盡管如此,想要進一步拓展在線遷移的應用領域,仍需要探究如何利用系統(tǒng)中的有效預測信號來挖掘在線遷移的用武之地。基于集群管理系統(tǒng)的各種監(jiān)控數(shù)據(jù),微軟研究員實現(xiàn)了基于機器學習的故障預測模型,通過與自動在線遷移技術相結合,該故障預測模型被應用在了磁盤故障、IO延遲和CPU頻率異常等多種硬件故障情況的處理中。

微軟Azure團隊與微軟亞洲研究院聯(lián)袂打造的高精度故障預測的機器學習模型,能夠在出現(xiàn)故障跡象之前就把正在運行的任務從“有風險”的機器上遷移出去,這也就意味著在Azure上運行的虛擬機比底層硬件還要可靠。

利用這個模型,在線遷移對虛擬機的影響被控制到了最低。從客戶的反饋來看,虛擬機在線遷移從未引發(fā)任何問題。在線遷移的過程中,虛擬機的狀態(tài)和所有網(wǎng)絡連接能夠都保持正常。遷移的最后階段,虛擬機會暫停幾秒,繼而遷移至新的主機。只有極少量對性能敏感的任務可能會在虛擬機暫停前的幾分鐘內受到輕微影響。

硬件故障預測

由于磁盤故障是導致硬件故障的主要因素,所以Azure團隊最初主要專注于磁盤故障預測。在Azure這樣復雜的系統(tǒng)中預測磁盤故障是十分困難的,需要克服多種挑戰(zhàn)。磁盤預測模型必須考慮到下面一些因素:

• 多種多樣的系統(tǒng)狀態(tài)信號:例如客戶虛擬機性能降級、主機操作系統(tǒng)行為以及磁盤狀態(tài)的監(jiān)測信號

• 不同的客戶工作負荷:不同工作負載下的磁盤故障癥狀不同。磁盤操作密集型的任務中,磁盤故障可能在剛偵測到早期癥狀后就立即發(fā)生;而在磁盤操作強度相對較低的節(jié)點上,可能在癥狀出現(xiàn)后的幾周或幾個月內都不發(fā)生故障。

• 不同的磁盤制造商:不同制造商的磁盤行為和故障模式不同,甚至相同廠商的不同磁盤型號之間都會有差異。

• 樣本極不均衡:通常,每10,000個節(jié)點中只有1個節(jié)點會出現(xiàn)磁盤故障跡象。經(jīng)典的機器學習方法并不能很好地應對這種極度不均衡的情況。

為了應對這些挑戰(zhàn),Azure團隊設計了一種創(chuàng)新的方法,既可以全面地收集各種信號,又可以靈活地應對故障誤報。

首先,同時運用系統(tǒng)級和磁盤層級的監(jiān)測數(shù)據(jù)。系統(tǒng)層級包括主機IO性能數(shù)據(jù)和系統(tǒng)中各類事件數(shù)據(jù),磁盤級信號則利用S.M.A.R.T(標準磁盤遙測數(shù)據(jù)標準)數(shù)據(jù)。研究人員綜合利用多種特征工程方法從異構信號中學習故障模式。

其次,將問題視為排序問題而非分類問題。在對磁盤故障概率進行排序以后,研究人員利用優(yōu)化模型挑出N個故障可能性最高的磁盤(N的大小由最優(yōu)成本/收益權衡來確定)。

第三,設計排序方法時把信號的異質性和相關性考慮進去。這樣就降低了模型訓練的復雜程度,并提高了驗證方法的可用性。

我們來看一個今年10月30日在Azure上發(fā)生的一個真實案例:

• 01:59:26,系統(tǒng)預測到磁盤存在很高的故障概率,此故障可能會影響該節(jié)點上運行的5個虛擬機。

• 02:10:38,使用在線遷移,將這5個可能被影響的虛擬機移出節(jié)點。“斷電”時間范圍在0.1秒至1.6秒之間。

• 將節(jié)點遷出,進行詳細診斷。

• 06:20:34,該節(jié)點未能通過磁盤壓力測試,被送去維修。

這一案例中,借助磁盤故障預測技術,客戶在Azure上運行的任務得以免受影響。

想要了解更多有關機器學習模型的應用細節(jié),請參閱文末關于磁盤故障預測[1]和節(jié)點故障預測[2]的論文。

在線遷移的幕后工作

概括來說,在線遷移包含三個主要階段:遷移前準備、過渡和中斷。

在遷移前準備階段,在線遷移協(xié)調器負責選擇最佳目標節(jié)點,導出虛擬機配置并進行授權設置。在這個階段,虛擬機仍在源節(jié)點上保持運行,資源的可用性或性能也不會受到影響。

在過渡階段,內存和磁盤狀態(tài)從源節(jié)點傳輸?shù)侥繕斯?jié)點;虛擬機仍在運行,但由于處理額外的工作,性能可能會有輕微下降。過渡階段的時長取決于虛擬機的大小(特別是內存和磁盤)以及內存的變化率。過渡時長通常在“分鐘”的量級——對于我們最常見的虛擬機規(guī)模,過渡階段時長范圍在1分鐘至30分鐘。

在線遷移的最后階段是中斷。一旦過渡階段結束,源節(jié)點和目標節(jié)點上的虛擬機都將處于掛起狀態(tài)。在啟動目標虛擬機之前,Azure在線遷移程序還會傳輸其它Azure特有的狀態(tài)信息。中斷階段的時間長度取決于虛擬機暫停后仍然有待傳輸?shù)臓顟B(tài)信息數(shù)量。與前文案例中的情況相同,中斷階段通常能控制在5秒以內。

局限性

利用在線遷移技術,Azure服務的可靠性已經(jīng)取得了顯著提升,但Azure團隊始終深知還有更多工作要做,他們正逐步增加在線遷移的應用情境,并不斷擴展它的技術能力。目前,在線遷移尚不支持以下情境:

• 硬件退役

• 專用計算(包括高性能計算[3]、GPU優(yōu)化虛擬機[4]、內存優(yōu)化虛擬機[5]和存儲優(yōu)化虛擬機[6])

• Legacy A系列虛擬機[7]

• Cloud Services所使用的虛擬機[8]

虛擬機可用性對于客戶在Azure平臺的使用體驗至關重要,而機器學習和在線遷移技術也是Azure能否實現(xiàn)對用戶的服務承諾的關鍵所在。Azure團隊使用在線遷移可以更透明地進行平臺更新,并復原各種硬件和軟件故障,機器學習的應用提升了在線遷移的有效性。在線遷移還存在一些技術上的局限性,Azure也一直在持續(xù)努力地進行改進。

參考文獻

1. Improving Service Availability of Cloud Systems by Predicting Disk Error. Yong Xu, Kaixin Sui, Randolph Yao, Hongyu Zhang, Qingwei Lin, Yingnong Dang, Peng Li, Keceng Jiang, Wenchi Zhang, Jian-Guang Lou, Murali Chintalapati, Dongmei Zhang

USENIX ATC 2018 | July 2018

https://www.microsoft.com/en-us/research/publication/improving-service-availability-cloud-systems-predicting-disk-error/

2. Predicting Node Failure in Cloud Service Systems. Qingwei Lin, Ken Hsieh, Yingnong Dang, Hongyu Zhang, Kaixin Sui, Yong Xu, Jian-Guang Lou, Chenggang Li, Youjiang Wu, Randolph Yao, Murali Chintalapati, Dongmei Zhang

ESEC/FSE 2018 | November 2018

https://www.microsoft.com/en-us/research/publication/predicting-node-failure-in-cloud-service-systems/

3. 高性能計算:

https://docs.microsoft.com/en-us/azure/virtual-machines/windows/sizes-hpc

4. GPU優(yōu)化虛擬機:

https://docs.microsoft.com/en-us/azure/virtual-machines/windows/sizes-gpu

5. 內存優(yōu)化虛擬機:

https://docs.microsoft.com/en-us/azure/virtual-machines/windows/sizes-memory

6. 存儲優(yōu)化虛擬機:

https://docs.microsoft.com/en-us/azure/virtual-machines/windows/sizes-storage

7. Legacy A系列虛擬機:

https://docs.microsoft.com/en-us/azure/virtual-machines/windows/sizes-previous-gen

8. Cloud Services所使用的虛擬機:

https://docs.microsoft.com/en-us/azure/cloud-services/cloud-services-choose-me

標簽: 網(wǎng)絡

版權申明:本站文章部分自網(wǎng)絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:機器學習在美團配送系統(tǒng)的實踐:用技術還原真實世界

下一篇:MIT Fridman教授最新課程:一月通關自動駕駛、強化學習、以人為本的AI三大領域