數(shù)據(jù)中心承載著大量的應用業(yè)務,每逢重大節(jié)日或者訪問洪峰的到來都需要做各種保障,以防出現(xiàn)突發(fā)事件,對應用造成影響。比如:互聯(lián)網(wǎng)電商的雙11大促銷,高中考網(wǎng)站的報名,APEC等重要事件等等,這些事件有的是時間節(jié)點特別重要,盡量不要出問題,有的是訪問數(shù)據(jù)中心流量壓力特別大,盡量不要出問題。所以一年時間下來,數(shù)據(jù)中心需要保障的大大小小事件的確不少,而且每次服務保障任務側(cè)重點也有不同,如何做好這些保障工作,考驗著數(shù)據(jù)中心的運維服務能力水平。本文著重介紹做數(shù)據(jù)中心服務保障工作需要依據(jù)五個原則,下面將逐條講述一些原則,通過這些原則將服務保障工作做好。
首先,數(shù)據(jù)中心要對每次需要保障的業(yè)務弄得清清楚楚,抓住痛點,解決痛點。如果是大型的節(jié)假日,這時考驗的是數(shù)據(jù)中心整體業(yè)務的穩(wěn)定性,尤其是節(jié)假日哪些應用訪問量會增大,要提前做預案,根據(jù)往年積累的經(jīng)驗積極應對。如果往年系統(tǒng)出現(xiàn)了這樣那樣的問題,一定在這次的服務保障之前消除掉隱患。如果是電商促銷,就要關(guān)注集中時間內(nèi)訪問用戶的數(shù)量,模擬大規(guī)模數(shù)量的訪問用戶,看系統(tǒng)是否可以承受,這時就要關(guān)注計算、帶寬這些資源是否足夠,可能不足的地方要及時補全。一個數(shù)據(jù)中心可能承載了數(shù)百個甚至上千各種應用,要明確哪些是需要服務故障的,哪些是重要的,哪些是次要的,應用的重要性要有分級。在不同的活動中,不同的應用重要性是有變化的,要及時進行調(diào)整,將重要力量投入到關(guān)鍵節(jié)點的保障上來。
其次,數(shù)據(jù)中心的設計和運維的人員要坐到一起,共同討論保障事宜。業(yè)務運維的人要深入理解數(shù)據(jù)中心的系統(tǒng)架構(gòu),從全局的視角去對待服務保障工作。數(shù)據(jù)中心的規(guī)模和應用有大有小,投入上必要有差異。如果一個數(shù)據(jù)中心僅有數(shù)十臺的服務器和小型網(wǎng)絡設備,沒有必要對整體服務保障大動干戈,準備一些備用端口和設備,萬一關(guān)鍵時刻出了問題,及時恢復業(yè)務就可以了,不需要將過多的資源和精力投入到服務保障上來。數(shù)據(jù)中心做服務保障也要綜合考慮,資金和人力也是需要衡量的重要方便,要用最少的投入得到最好的效果。掌握整體架構(gòu),對服務保障非常重要,避免各種應急方案在關(guān)鍵時刻失效,要盡可能將可能的突發(fā)情況考慮完全。數(shù)據(jù)中心要建立實時的監(jiān)控體系,建設服務依賴的降級系統(tǒng),建設具有冗余能力的架構(gòu)體系,從整體架構(gòu)層面做服務保障,這樣可以避免將精力投入到某個特定環(huán)節(jié)中,而忽略了整體,而且架構(gòu)層面一定具有冗余性,以便在出現(xiàn)突發(fā)情況時,有備份方案可選,將應用切割到備用系統(tǒng)上來,避免出現(xiàn)應用中斷的情況。如果在服務保障期間,仍出現(xiàn)了較嚴重的應用中斷事件,那服務保障工作就是徹底的失敗。
第三,要豐富服務保障工具,現(xiàn)在的數(shù)據(jù)中心應用業(yè)務越來越復雜,簡單地靠PING、TRACERT等命令有時也很難判斷問題,尤其是應用層面的問題,所以有必要引入一些排查和監(jiān)控的工具。正所謂“巧婦難為無米之炊”,工欲做其事,必先利其器,手上需要有一些獨門“暗器”,在關(guān)鍵時候能發(fā)揮效用,F(xiàn)在工具已經(jīng)從純手工,經(jīng)歷工具化、系統(tǒng)化,直至容器化和彈性調(diào)度上,什么Scribe、Wtool等免費監(jiān)控的管理工具都可以派上用場,要善于使用這些工具,通過這些工具對數(shù)據(jù)中心運行各種數(shù)據(jù)參數(shù)進行分析,服務保障才更有效。
第四,要關(guān)注新技術(shù)。每一次的服務保障都是發(fā)現(xiàn)數(shù)據(jù)中心隱患和弱點的最好時機,有時甚至要在服務保障之前做演練,以便能提前暴露隱患,及時進行糾正。當遇到一些困難時,要看是否有些新技術(shù)可以很好解決,F(xiàn)在數(shù)據(jù)中心的技術(shù)更新?lián)Q代很快,這些新技術(shù)都是應對數(shù)據(jù)中心發(fā)展過程中遇到的新情況,當自己的數(shù)據(jù)中心也遇到這些問題時不妨考慮引入一些新技術(shù)解決問題。數(shù)據(jù)中心是當今信息技術(shù)發(fā)展的寫照,不能墨守陳規(guī),需改變的時候就是要做出改變。引進新的技術(shù),不僅讓自己的數(shù)據(jù)中心有耳目一新的感覺,也可以提升數(shù)據(jù)中心的應用處理能力。當然,引入這些新技術(shù)時也要保留謹慎,特別新的不成熟的技術(shù)要充分考慮引入風險,是否適得其反。在引入新技術(shù)的道路上,不能一下子步子邁得太大,要小碎步地快速向前跑,最終利用新技術(shù)的優(yōu)勢解決數(shù)據(jù)中心面臨的各種問題。
最后,數(shù)據(jù)中心要做服務保障需要投入大量人力,有時單靠數(shù)據(jù)中心自己有些力不從心,畢竟有很多系統(tǒng)和設備都不是數(shù)據(jù)中心運維的人員所能掌握的,這時可以按照事情的重要性,請一些專門提供第三方服務的專業(yè)公司人員來數(shù)據(jù)中心做服務保障。這些服務公司有著豐富的服務保障經(jīng)驗,將任務交由這些公司來做,花錢省心,而且萬一出了什么差錯,還可以獲得一些補償。數(shù)據(jù)中心還可以將系統(tǒng)或設備廠商的人請來做服務保障,數(shù)據(jù)中心每年采購大量的設備,有時還會購買原廠人員服務,這些在服務保障時都可以用上。所做這些雖然投入的資金和人力會多一些,但在應對突發(fā)事情的處理能力上將大為提高。數(shù)據(jù)中心應該將各種內(nèi)外部資源都充分利用上,做好服務保障工作。
以上介紹的是數(shù)據(jù)中心服務保障的五個原則,依據(jù)這五個原則指導服務保障的實際工作,將大大提升服務保障的質(zhì)量。數(shù)據(jù)中心上的應用在特定時段特別重要,關(guān)鍵時刻不能掉鏈子,必須依仗這五個原則,切實做好服務保障工作。
來源:機房360
石家莊服務器托管 石家莊服務器租用 石家莊機柜租用 石家莊機房