中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

谷歌備份互聯(lián)網(wǎng)和海量數(shù)據(jù)的經(jīng)驗(yàn)

2019-02-26    來源:多智時(shí)代

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

雷蒙布盧姆(Raymond Blum)領(lǐng)導(dǎo)著一支站點(diǎn)可靠性工程師團(tuán)隊(duì),主要負(fù)責(zé)谷歌數(shù)據(jù)的保密性和安全性。當(dāng)然,谷歌永遠(yuǎn)也不會(huì)透露那些數(shù)據(jù)的總量是多少,但是從其高管的言語中來看,那些數(shù)據(jù)總量沒達(dá)到Y(jié)B級(jí)至少也達(dá)到了EB級(jí)。僅Gmail服務(wù)的相關(guān)數(shù)據(jù)就達(dá)到了EB級(jí)。

布盧姆在解釋谷歌如何互聯(lián)網(wǎng)時(shí)稱,常規(guī)的備份策略在谷歌是行不通的,原因是:在一般情況下,它們會(huì)隨著容量進(jìn)行調(diào)整。

谷歌備份互聯(lián)網(wǎng)和海量數(shù)據(jù)的經(jīng)驗(yàn)

他談到了以下要點(diǎn):

·     從未出現(xiàn)過數(shù)據(jù)丟失的事故。即使在GMail服務(wù)宕機(jī)時(shí)也沒有丟失過數(shù)據(jù),但是這比磁帶備份要復(fù)雜得多。 整個(gè)系統(tǒng)的各個(gè)地方都需要檢索數(shù)據(jù),這就要求它在包括人在內(nèi)的每一個(gè)層級(jí)上都提供引擎。

·     備份無用。它其實(shí)是你最關(guān)心的數(shù)據(jù)恢復(fù)功能。 它是一個(gè)恢復(fù)系統(tǒng)而不是備份系統(tǒng)。備份只是數(shù)據(jù)恢復(fù)戰(zhàn)略中的一部分內(nèi)容。 將任務(wù)轉(zhuǎn)至備份,讓它具備所需的各種功能,以便將數(shù)據(jù)恢復(fù)工作盡可能地簡化。

·     你無法按比例調(diào)整。 如果數(shù)據(jù)量增加一百倍,你不可能將人力資源或機(jī)器資源也增加一百倍。你應(yīng)該去尋找倍增器。 自動(dòng)化是提高利用率和效率的重要方法之一。

·     無處不在的備用冗余。谷歌有很多種服務(wù),總是會(huì)有某一些服務(wù)出現(xiàn)故障。 這是不可避免的,就象人體內(nèi)的細(xì)胞也在不停地老化死去一樣。 谷歌從未想過能夠避開這種情況,而是未雨綢繆地制定對應(yīng)的計(jì)劃。

·     無處不在的多樣性問題。如果你擔(dān)心某個(gè)站點(diǎn)不完全,那就請把數(shù)據(jù)放到多個(gè)站點(diǎn)上儲(chǔ)存。 如果你擔(dān)心的問題是用戶誤操作,那就請?jiān)O(shè)置各種隔離政策,對用戶互動(dòng)進(jìn)行限制。如果你想免于受到軟件漏洞的危害,那就請使用不同的軟件。 將數(shù)據(jù)保存在不同廠商的設(shè)備上可以減少軟件漏洞的危害性。

·     將人中整個(gè)工作流程中解放出來。Gmail保存了多少份電子郵件的副本?人們不應(yīng)該去關(guān)心這樣的問題。有些參數(shù)是由Gmail設(shè)置,然后由系統(tǒng)來管理的。 這是慣例。高級(jí)政策設(shè)置完成后,系統(tǒng)就會(huì)照此執(zhí)行。 只有出現(xiàn)超常規(guī)的事情后,才需要人工介入。

·     用實(shí)際應(yīng)用去證明它。如果你根本就不去嘗試,那么它肯定是無法正常工作的。 備份和恢復(fù)一直處于被測試狀態(tài)中,目的是驗(yàn)證它們是否能夠正常運(yùn)作。

不管是大型企業(yè)還是小型企業(yè),都能從中學(xué)到不少知識(shí)。 布盧姆談到的那些內(nèi)容既風(fēng)趣,又有教益,非常值得一讀。他本人似乎也非常喜愛這項(xiàng)工作所具備的挑戰(zhàn)性。

以下是我個(gè)人獲得的一些心得:

·     數(shù)據(jù)有效性必須是100%。 永遠(yuǎn)也不會(huì)出現(xiàn)數(shù)據(jù)丟失的情況。

o  從統(tǒng)計(jì)學(xué)的角度來說,如果你在一個(gè)2GB的文件中丟掉200K的數(shù)據(jù),那可能并不是很多,但是那份文件可能就變得不能用了。

o  數(shù)據(jù)有效性比訪問通道有效性重要得多。如果一個(gè)系統(tǒng)宕機(jī)了,情況并不會(huì)變得十分糟糕。 但是如果數(shù)據(jù)丟失了,那就非常糟糕了。

o  谷歌保證你會(huì)遇到下列情況的各種組合:

§ 場地隔離

§ 因應(yīng)用層出現(xiàn)問題導(dǎo)致的隔離

§ 因存儲(chǔ)層出現(xiàn)問題導(dǎo)致的隔離

§ 因媒體失效導(dǎo)致的隔離

o  你必須考慮到你能控制的范圍。將軟件標(biāo)在縱軸上,地點(diǎn)標(biāo)在橫軸上。 如果你想覆蓋所有的東西,你就需要在每個(gè)不同地點(diǎn)都保留一份軟件層的副本。你可以在不同地點(diǎn)使用虛擬機(jī)來實(shí)現(xiàn)這個(gè)目標(biāo)。

·     備用冗余與可恢復(fù)性并不是一回事。

o  保留再多的數(shù)據(jù)副本也不能保證不發(fā)生數(shù)據(jù)丟失的事故。

o  對于某些類型的宕機(jī)事故來說,保留很多份數(shù)據(jù)副本確實(shí)是有用的。如果一顆流星撞擊了一個(gè)數(shù)據(jù)中心,而你在遠(yuǎn)程站點(diǎn)保留了數(shù)據(jù)副本,那你當(dāng)然不會(huì)受到影響。

o  如果你的存儲(chǔ)設(shè)備中有一個(gè)軟件漏洞,那么將數(shù)據(jù)復(fù)制到再多的設(shè)備上也無濟(jì)于事,因?yàn)樗械臄?shù)據(jù)副本都存在那個(gè)漏洞。Gmail宕機(jī)就是最好的例子。

o  數(shù)據(jù)中心遭流星撞擊的概率絕不會(huì)比軟件漏洞、用戶誤操作或錯(cuò)誤數(shù)據(jù)寫入等情況出現(xiàn)的概率高。

o  備用冗余非常適用于局部引用。當(dāng)你希望所有的數(shù)據(jù)引用盡可能接近數(shù)據(jù)被使用的地點(diǎn)時(shí),復(fù)制是個(gè)很好的方法。

·     整個(gè)系統(tǒng)的實(shí)用性達(dá)到了驚人的程度。

o  谷歌有很多種服務(wù),總是會(huì)有某一些服務(wù)出現(xiàn)故障,這是不可避免的。 就象人體內(nèi)的細(xì)胞在不斷地死亡一樣。我們從未想過實(shí)現(xiàn)服務(wù)從不出現(xiàn)故障的目標(biāo)。 我們?yōu)樗贫A(yù)案計(jì)劃。各種設(shè)備總是會(huì)出現(xiàn)故障。

o  備用冗余就是解決問題的方法。事實(shí)證明,多臺(tái)設(shè)備的可靠性比一臺(tái)優(yōu)質(zhì)設(shè)備的可靠性更高。 一臺(tái)設(shè)備可能會(huì)因?yàn)槟撤N災(zāi)難而被毀掉。但是存放在50個(gè)不同地點(diǎn)的很多臺(tái)設(shè)備是很難在同一時(shí)間一起被毀掉的。

·     大規(guī)模并行系統(tǒng)出現(xiàn)數(shù)據(jù)丟失的概率更高。

o  如果沒有漏洞的話,MapReduce在3萬臺(tái)設(shè)備上運(yùn)行還是不錯(cuò)的。但是如果系統(tǒng)有漏洞的話,那后果立刻就會(huì)被放大無數(shù)倍。

·     如果整個(gè)站點(diǎn)出現(xiàn)宕機(jī),那么即便有本地?cái)?shù)據(jù)副本也無濟(jì)于事。

o  如果你的服務(wù)器機(jī)房進(jìn)水了,那么即便你使用了RAID也沒用。

o  谷歌直到一年前才停止使用的Google File System(GFS)系統(tǒng)充分發(fā)揮了RAID的概念。利用編碼技術(shù)同時(shí)向不同城市的多個(gè)數(shù)據(jù)中心寫入數(shù)據(jù),因此你只要一些碎片就能完成數(shù)據(jù)的重建工作。 因此,即便3個(gè)數(shù)據(jù)中心同時(shí)熄火,你仍然能夠使用自己的數(shù)據(jù)。

·     有效性和完整性都是整個(gè)機(jī)構(gòu)的特征。

o  谷歌工程師、BigTable、GFS、Colossus都知道保證數(shù)據(jù)耐用性和完整性是首要大事。現(xiàn)在有很多系統(tǒng)就是用來檢查和糾正數(shù)據(jù)有效性和完整性方面的錯(cuò)誤的。

·     你想要多樣化的配置。

o  如果你擔(dān)心站點(diǎn)問題,請把數(shù)據(jù)存放到多個(gè)站點(diǎn)。

o  如果你擔(dān)心用戶人為誤差問題,請禁止用戶人工操作。

o  如果你想讓數(shù)據(jù)不受軟件錯(cuò)誤的影響,就請把它放到不同的軟件中。將數(shù)據(jù)保存到不同廠商的設(shè)備上可以降低大廠商故障的影響。

·     利用磁帶將數(shù)據(jù)備份起來真的非常好。

o  磁帶其實(shí)很好用,因?yàn)樗疟P不一樣。如果可以的話,他們可能還會(huì)使用打孔卡片來儲(chǔ)存數(shù)據(jù)。

o  試想一下,如果你的SATA硬盤的設(shè)備驅(qū)動(dòng)程序中出現(xiàn)了一個(gè)漏洞,會(huì)出現(xiàn)什么樣的后果呢?如果使用磁帶的話,就不會(huì)有這樣的問題了。 它增加了你的多樣性,因?yàn)椴煌拿襟w需要使用不同的軟件。

o  磁帶容量符合摩爾法則的規(guī)定,因此將磁帶當(dāng)作備份媒介來使用是很不錯(cuò)的,即便它們能夠在其他設(shè)備上使用,它們也不會(huì)泄密。

o  磁帶是加密的,這就意味著壞人很難從中得到有用的東西。

·     備份是無用的。你關(guān)心的其實(shí)是數(shù)據(jù)修復(fù)問題。

o  如果系統(tǒng)存在問題的話,你就必須在用戶使用數(shù)據(jù)前找出它們。當(dāng)你需要修復(fù)數(shù)據(jù)時(shí),你就需要用到它了。

o  持續(xù)不斷地進(jìn)行數(shù)據(jù)修復(fù)。隨機(jī)選擇5%的數(shù)據(jù)進(jìn)行備份,然后修復(fù)數(shù)據(jù)并進(jìn)行對比。 為什么呢? 在數(shù)據(jù)丟失前,搞清楚備份系統(tǒng)是否工作正常。這樣可以找出并解決很多的問題。

o  進(jìn)行自動(dòng)對比。不能跟原始數(shù)據(jù)進(jìn)行對比,因?yàn)樵紨?shù)據(jù)已經(jīng)發(fā)生了變化。 因此,給所有的數(shù)據(jù)分配檢驗(yàn)數(shù)字,然后對比那些檢驗(yàn)數(shù)字。將數(shù)據(jù)放回源媒體、磁盤、閃存或是其他任何存儲(chǔ)媒介。 確定數(shù)據(jù)能夠環(huán)行一周再回來。這個(gè)過程一直在進(jìn)行之中。

·     如果故障率出現(xiàn)變化,就發(fā)出警報(bào)。

o  如果有些東西發(fā)生了變化,你可能想知道到底是怎么回事。如果一切運(yùn)行正常,那就別來煩我。

o  系統(tǒng)肯定會(huì)不時(shí)出現(xiàn)一些故障,但是如果只是某個(gè)文件在首次修復(fù)時(shí)出現(xiàn)問題,那就不用發(fā)警報(bào)了。

o  假設(shè)第一次出現(xiàn)故障的概率為N,第二次出現(xiàn)故障的概率為Y。 如果故障率出現(xiàn)了變化,那么肯定是哪里出錯(cuò)了。

·     一切都停止下來。

o  磁盤經(jīng)常因?yàn)楣收隙V构ぷ,但是這種事情一發(fā)生你就會(huì)知道,因?yàn)槟阋恢北O(jiān)控著磁盤。

o  如果使用磁帶的話,那出現(xiàn)故障時(shí)你是不知道的,只有當(dāng)你想去使用它時(shí)才會(huì)知道它出現(xiàn)了故障。磁帶可以存放很長的時(shí)間,但是在你需要用到它之前,你需要先進(jìn)行測試。

·     磁帶上的RAID4。

o  不要將數(shù)據(jù)只寫到一盤磁帶上。它們都是盒式磁帶。 機(jī)械臂也許會(huì)失手掉落磁帶,磁帶上的磁粉也許會(huì)掉。不要冒險(xiǎn)。

o  當(dāng)把數(shù)據(jù)寫到磁帶上的時(shí)候,告訴寫入軟件將數(shù)據(jù)保存好,知道我們發(fā)出它可以改變的命令。如果你這樣做的話,你已經(jīng)違約了。

o  寫滿4盒磁帶后,通過XORing即可生成第五盤代碼磁帶。這5盒磁帶中丟掉任何一盤磁帶,你都依然可以恢復(fù)數(shù)據(jù)。

o  現(xiàn)在告訴寫入程序它們可以改變源數(shù)據(jù)了,因?yàn)閿?shù)據(jù)已經(jīng)被存放到最終的位置上,現(xiàn)在那些源數(shù)據(jù)變成備份冗余副本了。

o  谷歌備份的每一點(diǎn)數(shù)據(jù)都要經(jīng)過這種處理。

o  每月丟失的磁帶可能達(dá)到數(shù)百盒,但是由于這個(gè)處理程序的關(guān)系,每個(gè)月的數(shù)據(jù)丟失事故并不會(huì)達(dá)到數(shù)百次。

o  如果一盒磁帶丟失了,可以利用持續(xù)不斷的數(shù)據(jù)修復(fù)檢測出來,然后你就可以利用相關(guān)的磁帶重新制作一盒與丟失的磁帶一模一樣的磁帶,所有的數(shù)據(jù)就都恢復(fù)了。如果碰巧遇到兩盒磁帶都損壞的情況,那只有當(dāng)那兩盒磁帶的損壞點(diǎn)也是一樣的時(shí)候,你才會(huì)丟失數(shù)據(jù),你可以利用磁帶重新恢復(fù)數(shù)據(jù)。

o  不要因?yàn)檫@些技術(shù)而令數(shù)據(jù)丟失。數(shù)據(jù)丟失的代價(jià)太大了,但這就是商業(yè)成本。

·     備份是你為避免發(fā)生數(shù)據(jù)修復(fù)成本而采取的預(yù)防措施。

o  它是一個(gè)數(shù)據(jù)修復(fù)系統(tǒng)而不是備份系統(tǒng)。數(shù)據(jù)修復(fù)是不可避免的中斷。 它們非常有用。利用備份來恢復(fù)數(shù)據(jù)。

o  按照要求對數(shù)據(jù)進(jìn)行備份并根據(jù)需要將它們保留足夠長的時(shí)間。盡可能快和盡可能自動(dòng)去進(jìn)行數(shù)據(jù)修復(fù)。

o  數(shù)據(jù)修復(fù)操作應(yīng)該是簡單、迅速和快捷的。你應(yīng)該能夠通過一項(xiàng)簡單的操作來啟動(dòng)數(shù)據(jù)修復(fù)。

o  數(shù)據(jù)修復(fù)工作可以在你休息或睡覺的時(shí)候進(jìn)行。因此,最好不要在數(shù)據(jù)修復(fù)操作中添加任何人工操作的要素。 你承受著壓力。因此,當(dāng)你在備份數(shù)據(jù)時(shí)請把數(shù)據(jù)修復(fù)的準(zhǔn)備工作也做充足。

o  很大一部分系統(tǒng)都是這樣工作的。

o  數(shù)據(jù)源也許必須將數(shù)據(jù)保存一段時(shí)間,這段時(shí)間也許是幾天,然后才能將那些數(shù)據(jù)備份。但是一旦數(shù)據(jù)被備份好,它應(yīng)該能夠迅速被恢復(fù)。

o  為了讓數(shù)據(jù)修復(fù)的速度盡可能快一點(diǎn),請不要頻繁使用備份媒體;▋蓚(gè)小時(shí)的時(shí)間去讀一盒磁帶的做法是不可取的。 只將一盒磁帶寫一半,然后同時(shí)讀取兩盒磁帶,這樣你就可以將數(shù)據(jù)恢復(fù)的時(shí)間縮短一半。

·     調(diào)整是一個(gè)問題。

o  當(dāng)你有EB級(jí)的數(shù)據(jù)需要備份時(shí),現(xiàn)實(shí)中還有其他一些限制條件。如果你必須拷貝10份EB級(jí)的數(shù)據(jù),那你可能需要10個(gè)星期的時(shí)間去備份每天的數(shù)據(jù)。

o  由于數(shù)據(jù)中心遍布全球各地,因此你還有一些選擇的余地。你是否會(huì)給每一個(gè)站點(diǎn)分配近乎無限的備份容量? 你是否會(huì)按地區(qū)將所有的備份數(shù)據(jù)集合在一起? 傳輸數(shù)據(jù)的帶寬如何? 你難道不需要為業(yè)務(wù)流量預(yù)留帶寬嗎?

o  相關(guān)成本。這里有很多折中方案。 并不是每一個(gè)站點(diǎn)都有備份設(shè)施。必須保證網(wǎng)絡(luò)上的可用容量處于均衡狀態(tài)。 備份必須在X站點(diǎn)進(jìn)行,因?yàn)樗兴璧膸挕?/p>

·     你不可能成比例地調(diào)整規(guī)模。

o  不能說你想要多少網(wǎng)絡(luò)帶寬和磁帶都行。磁盤會(huì)出現(xiàn)故障,因此如果你有1萬塊磁盤的話,你可能需要1萬多名操作員去更換它們。 你有1萬個(gè)裝載支架來放磁帶嗎?這都不是成比例增加的。

o  雖然磁帶庫的數(shù)量已經(jīng)上升了一個(gè)數(shù)量級(jí),但是對人員數(shù)量的要求并沒有同步提高10倍。需要的人數(shù)肯定會(huì)增加一些,但肯定不會(huì)象按比例增加那么多。

o  有一個(gè)例子可以說明這一點(diǎn),早期人們曾預(yù)測電話數(shù)量會(huì)增加30%,那么話務(wù)員的數(shù)量也應(yīng)該增加30%,但是事實(shí)上并非如此,因?yàn)楹髞硎褂昧顺炭丶夹g(shù)自動(dòng)接線。

·     自動(dòng)化技術(shù)

o  日程安排已經(jīng)實(shí)現(xiàn)了自動(dòng)化。如果你有一項(xiàng)服務(wù)并且需要儲(chǔ)存數(shù)據(jù),你可能每隔一段時(shí)間就需要對數(shù)據(jù)進(jìn)行備份一次,然后需要每隔一段時(shí)間對數(shù)據(jù)進(jìn)行修復(fù)。 這些數(shù)據(jù)備份和數(shù)據(jù)恢復(fù)工作都可以由內(nèi)部系統(tǒng)自動(dòng)完成。備份是計(jì)劃好的,系統(tǒng)可以自動(dòng)進(jìn)行數(shù)據(jù)恢復(fù)的測試工作和完整性測試。 當(dāng)系統(tǒng)檢測出某一盒磁帶出現(xiàn)故障時(shí),它會(huì)自動(dòng)進(jìn)行處理。

o  作為人,你不需要了解這些東西。也許在未來的某個(gè)時(shí)候,你才會(huì)想起來去查看一下有多少磁帶出現(xiàn)過問題。 如果磁帶故障率發(fā)生變化,從每天100盒增加到每天300盒,系統(tǒng)才會(huì)發(fā)出警報(bào)。 但是在系統(tǒng)發(fā)出警報(bào)之前,系統(tǒng)是不會(huì)提示你每天有100盒磁帶出現(xiàn)問題是在正常范圍以內(nèi)的。

·     人工不應(yīng)介入穩(wěn)態(tài)運(yùn)行的系統(tǒng)。

o  包裝和運(yùn)輸硬盤仍然需要人工來完成。 自動(dòng)準(zhǔn)備運(yùn)輸標(biāo)簽,獲得RMA編碼,核對發(fā)出的包裹,接收回執(zhí),這都是自動(dòng)進(jìn)行的。只有當(dāng)這個(gè)流程中斷時(shí),才需要人為干預(yù)。

o  庫軟件維護(hù)也是如此。如果有一個(gè)固件需要升級(jí),并不需要派一名員工去給每個(gè)系統(tǒng)升級(jí)。 下載固件升級(jí),然后將它送到總控制庫即可。對固件升級(jí)進(jìn)行測試,盡可能準(zhǔn)確地驗(yàn)證測試結(jié)果。 然后將它發(fā)出去。這套正常操作不需要人工干預(yù)。

·     自動(dòng)處理設(shè)備宕機(jī)事故。

o  很多設(shè)備每分鐘會(huì)宕機(jī)兩次。如果在使用3萬臺(tái)設(shè)備執(zhí)行MapReduce作業(yè)時(shí)有一臺(tái)設(shè)備宕機(jī),那就別告訴我了,只要自動(dòng)處理好它然后繼續(xù)執(zhí)行作業(yè)就行了。 再找一臺(tái)設(shè)備,將工作負(fù)載移動(dòng)過去,然后重啟設(shè)備。

o  如果設(shè)備之間存在關(guān)聯(lián)性,那就請?jiān)谟?jì)劃中加一個(gè)等待指令。如果系統(tǒng)等待的時(shí)間太長,則可以向管理員發(fā)出警報(bào)。 你處理你自己的計(jì)劃工作。這是算法應(yīng)該做的事,而不是人應(yīng)該做的事。

·     在數(shù)據(jù)增長的同時(shí),保持效率不斷提高。

o  提高利用率和效率。數(shù)據(jù)量增長100倍的時(shí)候,決不能出現(xiàn)對人員或設(shè)備的需求量也增長100倍的情況。

o  2011年的GMail宕機(jī)事故和修復(fù)情況。從中可以看出谷歌是如何丟掉數(shù)據(jù)然后又找回那些數(shù)據(jù)的。他在周日上午10:31收到一條警報(bào)信息,上面寫著:“Holly Crap呼叫xxx-xxxx”。如需了解更多關(guān)于那次宕機(jī)事故的信息,請點(diǎn)擊這里。

o  Gmail服務(wù)的數(shù)據(jù)量已經(jīng)達(dá)到EB級(jí)了。那需要使用很多很多的磁帶。

o  100%恢復(fù)。數(shù)據(jù)可用性并不是100%。 丟失的數(shù)據(jù)在事故發(fā)生后的第一天或第二天并沒有全部恢復(fù)。 但是最終,所有的數(shù)據(jù)都被恢復(fù)了。

o  復(fù)制層發(fā)生了一系列故障和事故。是的,我們有三個(gè)相同的文件,但是它們都空了。 即使進(jìn)行過設(shè)備測試、系統(tǒng)測試和裝配測試,故障也無法避免。

o  從磁帶恢復(fù)數(shù)據(jù)。這是一項(xiàng)繁重的工作。 數(shù)據(jù)恢復(fù)的時(shí)間與數(shù)據(jù)規(guī)模是成正比的;謴(fù)1GB的數(shù)據(jù)也許只要1毫秒到幾秒的時(shí)間就行了。 但是要恢復(fù)20萬個(gè)收件箱(每個(gè)收件箱中都有幾GB的數(shù)據(jù)),那就要一些時(shí)間了。

o  叫醒了歐洲的兩名員工來處理此事,因?yàn)楫?dāng)時(shí)他們那里是白天。將人員分配在不同的地方,就是有這樣的好處。

o  數(shù)據(jù)被從每一盒磁帶上恢復(fù)過來,并經(jīng)過了驗(yàn)證。這項(xiàng)工作沒有花太多的時(shí)間,只用了幾天就完成了。 員工們對此感到滿意。遇到類似事故的其他公司花了一個(gè)月的時(shí)間才意識(shí)到他們無法將數(shù)據(jù)恢復(fù)回來。 谷歌采取了一些措施來保證下次遇到類似事故時(shí)會(huì)更快地完成相關(guān)的處理工作。

o  讀一盒磁帶要花2個(gè)小時(shí)的時(shí)間。磁帶散布在很多地點(diǎn)。 沒有哪一個(gè)站點(diǎn)有足夠的計(jì)算能力去讀取所有與數(shù)據(jù)恢復(fù)有關(guān)的磁帶。

o  利用壓縮技術(shù)和檢驗(yàn)數(shù)字技術(shù),其實(shí)并不需要把20萬盒磁帶都讀一遍。

o  從那以后,數(shù)據(jù)恢復(fù)工作就一直在不斷改進(jìn)。

·     為各種數(shù)據(jù)的恢復(fù)工作設(shè)定優(yōu)先等級(jí)。

o  你應(yīng)該對各種數(shù)據(jù)的恢復(fù)工作設(shè)定優(yōu)先等級(jí),比如先恢復(fù)你正在使用的收件箱的數(shù)據(jù)和已發(fā)送的電子郵件數(shù)據(jù),然后再恢復(fù)歸檔數(shù)據(jù)。

o  一個(gè)月都沒有被碰過的帳戶可以放在后面恢復(fù),優(yōu)先恢復(fù)相對比較活躍的用戶的帳戶的數(shù)據(jù)。

·     備份系統(tǒng)被視為一個(gè)巨大的全局有機(jī)組織。

o  例如,不要只在紐約備份GMail服務(wù)的數(shù)據(jù),因?yàn)槿绻麛?shù)據(jù)中心的規(guī)模擴(kuò)大或縮小,備份數(shù)據(jù)的規(guī)模就應(yīng)該相應(yīng)地進(jìn)行調(diào)整。

o  將備份當(dāng)作一個(gè)巨大的全球性系統(tǒng)來對待。當(dāng)備份發(fā)生的時(shí)候,它也許是在其他任何地點(diǎn)進(jìn)行的。

o  利用磁帶來恢復(fù)數(shù)據(jù)必須在磁帶所在的地點(diǎn)進(jìn)行。但是數(shù)據(jù)可以在紐約而備份卻在俄勒岡進(jìn)行,因?yàn)槎砝諏臄?shù)據(jù)中心有足夠的容量。 地點(diǎn)隔離是自動(dòng)處理的,谷歌沒有將數(shù)據(jù)的備份地點(diǎn)告知客戶。

o  容量是可以移動(dòng)的。由于有一個(gè)全局容量并得到網(wǎng)絡(luò)的支持,因此磁帶在哪里并不重要。

·     你擁有的數(shù)據(jù)越多,數(shù)據(jù)備份工作就越重要。

o  東西越大就越重要,這是一條常規(guī)定律。谷歌以前只做搜索業(yè)務(wù)。 現(xiàn)在它有了GMail服務(wù),因此它變得更大和更重要了。

·     建立一套優(yōu)秀的基礎(chǔ)設(shè)施

o  隨身攜帶一把瑞士軍刀真的很好。當(dāng)MapReduce被開發(fā)出來的時(shí)候,他們可能從未想到過它會(huì)被用于備份。 但是如果不是已經(jīng)開發(fā)出MapReduce的話,那么人們也不會(huì)想到把它用于備份。

·     調(diào)整規(guī)模真的很重要,你不能只擁有它的一部分,比如軟件、基礎(chǔ)設(shè)施、硬件、流程等等。

o  你不能說,我有足夠多的員工,因此我打算使用更多的磁帶。如果你打算將員工人數(shù)增加一倍,先想想你公司外面的停車場是否能增加一倍的停車位吧。 公司的自助餐廳和休息室呢? 每一樣都要增加一倍,最后你肯定會(huì)遇到一個(gè)過不去的瓶頸,然后不得不停下來。

·     在實(shí)際應(yīng)用中證明它。

o  凡事都不要想當(dāng)然。希望并不是一種策略。

o  如果你不去測試它,它就無法正常工作。要想驗(yàn)證備份,就必須進(jìn)行數(shù)據(jù)恢復(fù)工作。 除非你到最終都沒有證明任何東西。事實(shí)證明,這樣的做法會(huì)導(dǎo)致大量的事故出現(xiàn)。

·     災(zāi)難恢復(fù)測試。

o  每過N個(gè)月都會(huì)出現(xiàn)一種災(zāi)難。你應(yīng)當(dāng)在企業(yè)組織的每個(gè)層級(jí)模擬災(zāi)難發(fā)生時(shí)的反應(yīng)。

o  如果災(zāi)難什么都不帶走,公司將如何生存呢? 必須學(xué)會(huì)適應(yīng)。

o  在基礎(chǔ)設(shè)施和物理安全設(shè)備中找出巨大的漏洞。

o  設(shè)想一下,如果有一個(gè)數(shù)據(jù)中心只有一條路通向外界,那么那條路上必然塞滿了運(yùn)輸發(fā)動(dòng)機(jī)燃料的卡車。如果那條路不在了,會(huì)怎么樣? 最好再增加一條通道和另一條輸送柴油機(jī)燃料的供應(yīng)管道。

o  制定供應(yīng)鏈備用策略。

·     在不同的時(shí)間點(diǎn)和不同的地理位置及時(shí)對不同軟件的數(shù)據(jù)進(jìn)行備份。

o  不要只是讓數(shù)據(jù)在不同的系統(tǒng)層級(jí)之間移動(dòng),而是應(yīng)該將數(shù)據(jù)保存在系統(tǒng)的不同層級(jí)中。 這樣當(dāng)你丟失某些數(shù)據(jù)時(shí),你還可以從其他地方恢復(fù)它們。時(shí)間、地點(diǎn)和軟件,這都很重要。

o  以GMail宕機(jī)事故為例。如果復(fù)制軟件存在漏洞,怎么可能不出現(xiàn)數(shù)據(jù)丟失事故呢? 這是某位聽眾提出的問題,他并不想要知道處理的細(xì)節(jié)。數(shù)據(jù)不斷被備份。 假設(shè)從晚上9點(diǎn)之后的數(shù)據(jù)我們都有,而數(shù)據(jù)錯(cuò)誤是在晚上8點(diǎn)發(fā)生的,但是錯(cuò)誤的數(shù)據(jù)還沒有被備份到磁帶上。 錯(cuò)誤被停止了。軟件被恢復(fù)到之前某個(gè)正常運(yùn)行的狀態(tài)。 在某一時(shí)刻,所有的數(shù)據(jù)都是完好的。那些數(shù)據(jù)都在磁帶上。 有些數(shù)據(jù)被復(fù)制了。 有些數(shù)據(jù)在前端,有些數(shù)據(jù)在日志里,這些數(shù)據(jù)源的某些數(shù)據(jù)是重復(fù)的,你是有可能重新所有的數(shù)據(jù)的。 在這些情況下,不要將數(shù)據(jù)從設(shè)備中提取出來,直到它被存入另一臺(tái)設(shè)備后過了N小時(shí)才能那么做。

·     刪除問題。

o  我想刪除這些數(shù)據(jù)。不要通過重寫磁帶的方式去刪除磁帶上的數(shù)據(jù)。 由于磁帶的規(guī)模太大,那樣做的成本就太高了。

o  有一種更加可行的做法是,利用密鑰來達(dá)到目的。它不會(huì)告訴我們谷歌在做什么。 也許鑰匙丟掉就等于把數(shù)據(jù)刪除了。

·     只有當(dāng)員工們彼此信任且共同承擔(dān)責(zé)任時(shí),一個(gè)規(guī)模龐大的組織才能高效運(yùn)轉(zhuǎn)。

o  彼此信任。

o  確定組織界面和軟件界面都得到了明確的定義。在各個(gè)層級(jí)之間進(jìn)行驗(yàn)證測試。

·     制定白名單和黑名單。

o  確保數(shù)據(jù)被存放在一個(gè)受到保護(hù)的地方并且保證那些數(shù)據(jù)不會(huì)被存放到某個(gè)特定的地點(diǎn)。這有助于保證地點(diǎn)多樣性和地點(diǎn)獨(dú)立性。

o  這并不是設(shè)備固有的功能。必須添加到支持管理?xiàng)l件中。

o  將責(zé)任下方到盡可能低的層級(jí)。填寫正確的檔案,它就象魔術(shù)一樣發(fā)生了。

在不久的將來,云計(jì)算一定會(huì)徹底走入我們的生活,有興趣入行未來前沿產(chǎn)業(yè)的朋友,可以收藏云計(jì)算,及時(shí)獲取人工智能、大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)的前沿資訊和基礎(chǔ)知識(shí),讓我們一起攜手,引領(lǐng)人工智能的未來!

標(biāo)簽: Google 安全 大數(shù)據(jù) 代碼 電子郵件 服務(wù)器 服務(wù)器機(jī)房 谷歌 互聯(lián)網(wǎng) 機(jī)房 漏洞 媒體 搜索 網(wǎng)絡(luò) 云計(jì)算

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:云存儲(chǔ)安全漏洞引發(fā)業(yè)界憂慮

下一篇:云存儲(chǔ)發(fā)展進(jìn)入快速發(fā)展普及期