運維是數(shù)據(jù)中心的重要工作,數(shù)據(jù)中心一旦建成,后期要經(jīng)歷一段漫長的運維期,期間不僅要保證業(yè)務(wù)的平穩(wěn)運行,還要不斷對系統(tǒng)進行升級和擴容,以便數(shù)據(jù)中心可以不斷開展新的業(yè)務(wù)。所以,數(shù)據(jù)中心對運維的工作都異常重視,運維的水平高低反映出了這個數(shù)據(jù)中心整體業(yè)務(wù)水平的高低。隨著數(shù)據(jù)中心領(lǐng)域的蓬勃發(fā)展,對運維的工作提出了更高要求,運維的工作也需要持續(xù)改進,去適應(yīng)新形勢,數(shù)據(jù)中心發(fā)展的需要。本文就來詳細講一講數(shù)據(jù)中心運維的水平發(fā)展路標,看看高水平運維的工作體現(xiàn)在哪些方面。
數(shù)據(jù)中心運維的發(fā)展原則有兩個方面:一個是盡量不去依賴人去管理,要知道數(shù)據(jù)中心里百分之八十的故障是人為故障,人參與程度越高的工作出錯概率越高,反而機器永遠都按照預(yù)定的程序去執(zhí)行,除非設(shè)備出了BUG,否則永遠都不會出錯,當然BUG也是人造的,所以往往一個數(shù)據(jù)中心自動化運維的水平越高,反而越安全,故障發(fā)生的概率更低;另一個是要盡量避免發(fā)生故障,而不是事后諸葛,“亡羊補牢,為之晚矣”,不要總?cè)プ鐾鲅蜓a牢的事情,要把可能預(yù)知的風險消除掉,避免故障的發(fā)生。故障發(fā)生后,迅速解決故障是一種能力,但不要過于依賴這個,不能什么問題都要等到故障發(fā)生后才去解決,早早就應(yīng)該規(guī)避風險!案菜y收”,故障發(fā)生后給數(shù)據(jù)中心帶來的負面影響,往往要花更多的精力去修復(fù),有時發(fā)生的故障是致命的,數(shù)據(jù)中心可能會從此一蹶不振,只能關(guān)門大吉了。任何一個數(shù)據(jù)中心運維的工作,都要依照這兩個原則去發(fā)展,這樣才能不斷提升其數(shù)據(jù)中心運維的水平。
數(shù)據(jù)中心運維的水平高低也可以從兩個方面來看,一方面是運維效率,另一個方面是規(guī)范建立機制。首先,在運維的效率方面,從低到高要經(jīng)歷四個階段:一是全人工運維。這種運維的方式適用于早期數(shù)據(jù)中心規(guī)模不大或者業(yè)務(wù)流量不大的情況,這類數(shù)據(jù)中心系統(tǒng)復(fù)雜度不高,設(shè)備數(shù)量較少。日常的業(yè)務(wù)運維操作,更多的是依靠手工逐臺登錄設(shè)備進行操作,缺少必要的操作標準、流程機制。運維的人員個人經(jīng)驗非常重要,可繼承性不強,數(shù)據(jù)中心要過度依賴個別的幾個運維的技術(shù)大牛來維持,其它人員操作犯錯概率會增高,同時工作效率底下;二是工具化的運維。這種運維的方式適用于較大規(guī)模的數(shù)據(jù)中心,運維的人員開始使用批量化的操作工具,針對不同操作類型出現(xiàn)了不同的腳本程序,需要做設(shè)備配置變更時,通過腳本程序統(tǒng)一執(zhí)行,提升操作效率。比如設(shè)備批量升級,可以提前寫好腳本程序,然后到了指定時間,腳本程序自動運行,將服務(wù)器上的軟件程序下載到設(shè)備上,然后執(zhí)行升級命令,所有設(shè)備的執(zhí)行步驟都一樣,可以大大節(jié)省人力,以往人工升級每晚只能升級幾臺設(shè)備,通過腳本一個晚上就可以將整個數(shù)據(jù)中心的設(shè)備升級完畢。不過,每次操作需求都不同,需要不斷調(diào)整腳本工具,可程序化處理能力較弱,批量執(zhí)行還可能導(dǎo)致更大規(guī)模的問題出現(xiàn),此時仍需要人工監(jiān)督腳本執(zhí)行情況,發(fā)現(xiàn)腳本有問題及時調(diào)整,運維效率并不高;三是平臺運維。這種運維對運維效率和誤操作率有了更高要求,通過平臺承載標準、流程,進而解放人力和提高質(zhì)量。平臺運維對服務(wù)的變更動作進行了抽象,形成了操作方法、服務(wù)目錄環(huán)境、服務(wù)運行方式等統(tǒng)一的標準,通過平臺來約束操作流程;四是自運維系統(tǒng)。這種運維適用于更大規(guī)模的服務(wù)數(shù)量、更復(fù)雜的數(shù)據(jù)中心系統(tǒng),是當前數(shù)據(jù)中心推崇的運維方式,極大地解放人力。自運維系統(tǒng)對服務(wù)變更進行抽象,由調(diào)度系統(tǒng)根據(jù)資源使用情況,將服務(wù)調(diào)度、部署到合適的服務(wù)器上,自動化完成與周邊各個運維系統(tǒng)聯(lián)動,比如監(jiān)控系統(tǒng)、日志系統(tǒng)、備份系統(tǒng)等。自運維的系統(tǒng)還具備發(fā)現(xiàn)故障,并自動消除故障的能力。
另一方面是規(guī)范機制的建立。俗話說“沒有規(guī)矩,不成方圓”,數(shù)據(jù)中心里也要立規(guī)矩,制定各種規(guī)章制定,并有效地執(zhí)行下去,規(guī)范的建立同樣也要經(jīng)歷從低到高的四個階段:一是無規(guī)范機制,整個數(shù)據(jù)中心運維的工作處于無序狀態(tài),工作效率低下,這在一些小型的數(shù)據(jù)中心或機房普遍存在,過多規(guī)范制度反而顯得有些累贅;二是建立規(guī)范人工約束,這個階段通過規(guī)范制度加強對人的管理,通過規(guī)范人的操作流程,從而減少人為出錯的概率。數(shù)據(jù)中心制定了一系列操作規(guī)范,哪些不能做,哪些可以做,哪些人能做哪些事兒等等,運維的人員要按照規(guī)范來執(zhí)行;三是完善規(guī)范,不斷對規(guī)范進行改進,防止出現(xiàn)管理漏洞,運維的工作開展遵從一系列規(guī)范制度,有理有據(jù)去做,提升數(shù)據(jù)中心的運維效率,對運維的人員獎罰分明,依據(jù)就是這些之前制定好的規(guī)范制度;四是系統(tǒng)自動約束,此時數(shù)據(jù)中心已經(jīng)完全采用自運維的系統(tǒng)方式,人工參與極少,所以以往制定的一系列規(guī)范制度成為了廢紙,我們只要將標準的操作輸入給運維的系統(tǒng)即可,系統(tǒng)可以自我調(diào)整,自動運行完成,保證不會出現(xiàn)不符合規(guī)范操作的情況。
數(shù)據(jù)中心建設(shè)的規(guī)模越來越大,采用人工方式已不現(xiàn)實。要將所有運維的工作都能走向自動化,減少人的重復(fù)工作,使我們的運維交付更高效、更安全。數(shù)據(jù)中心運維的技術(shù)發(fā)展宗旨就是將人從復(fù)雜枯燥的運維工作中解脫出來。數(shù)據(jù)中心的所有運維活動,均由人工處理變成系統(tǒng)自動實現(xiàn)。
來源:中國IDC圈
石家莊服務(wù)器托管 石家莊服務(wù)器租用 石家莊機柜租用 石家莊機房 |