摘要:服務器宕機一直是業(yè)界關(guān)注的焦點,我們該如何確保自己的品牌不會受到停機事故的負面影響呢?這確實是個值得思考的問題。
停機事故
2016年發(fā)生的一系列停機事故已經(jīng)導致眾多知名品牌遭受嚴重損失,其商業(yè)信譽與消費者信心亦因此受到重大打擊。發(fā)生停機事故的主要原因之一在于計劃外的系統(tǒng)配置變更,這通常是因為即時bug或者潛在系統(tǒng)安全漏洞修復意外引發(fā)了更為嚴重的問題。
為了避免發(fā)生計劃外停機,我們將在這里回顧過去一年中出現(xiàn)的那些最為嚴重的服務停機事故,希望能夠以此為鑒指導新一年中的業(yè)務連續(xù)性保障工作。
美國西南航空
去年10月,836條西南航空航線遭遇延誤,而根源在于該公司航線技術(shù)系統(tǒng)中的問題。根據(jù)該公司介紹,技術(shù)人員不得不全力修復主要系統(tǒng)并利用備份規(guī)程以幫助客戶及其托運行李正確到達目的地。
達美航空
達美航空公司證實,亞特蘭大當?shù)氐囊淮坞娏χ袛嘤绊懙狡淞璩繒r開始進行的系統(tǒng)更新,并最終導致計算機系統(tǒng)癱瘓以及大量航班延誤。該公司同時警告稱,當周一其被迫因此取消大量航班,且機場屏幕及其它飛行狀態(tài)系統(tǒng)將無法正常顯示航班相關(guān)信息。
根據(jù)統(tǒng)計,此次時長達5小時的停機共造成2000次航班取消,總體損失估計達1.5億美元。
Salesforce
這家云應用廠商在其官方網(wǎng)站上指出,其NA14實例上的一套數(shù)據(jù)庫出現(xiàn)文件完整性問題,并導致超過12個小時的服務停機事故。
根據(jù)統(tǒng)計,由此次停機造成的經(jīng)濟損失約為2000萬美元。
蘋果
去年6月,蘋果公司放下的iCloud、App Store、iTunes以及Apple TV等一系列互聯(lián)網(wǎng)服務發(fā)生長達9小時的停機事故。另外,去年12月初用戶們亦發(fā)現(xiàn)其暫時無法登錄自己的iCloud賬戶。
Slack
去年6月,高達300萬用戶在2小時內(nèi)由于Web服務器過載而無法正常訪問Slack。
該公司目前正在就如何避免再次發(fā)生類似問題而進行討論。
身份是解決問題的關(guān)鍵
為了避免發(fā)生停機事故,IT運營團隊應當對現(xiàn)有服務進行分層,同時將系統(tǒng)身份識別作為業(yè)務中的關(guān)鍵性因素。其中頂級應用應是那些與業(yè)務成敗直接關(guān)聯(lián)的重要應用,例如銷售點、票務或者計費等功能相關(guān)的應用。
為頂級系統(tǒng)制定故障切換計劃
高可用性水平不可能自然實現(xiàn),我們必須為其做好規(guī)劃及實施。具體而言,高可用性立足于系統(tǒng)架構(gòu)中的各個方面。頂級系統(tǒng)需要切實配合故障切換計劃,同時利用額外負載容量處理意外出現(xiàn)的負載峰值。
投資建立高水平監(jiān)控堆棧
如果無法把握服務的當前運行狀態(tài),那么保證其運行狀態(tài)也將成為癡人說夢。事實上,準確了解IT系統(tǒng)運行狀態(tài)的惟一途徑就是在堆棧中的各個層面上引入一流監(jiān)控工具(例如系統(tǒng)監(jiān)控、應用監(jiān)控、Web與用戶監(jiān)控、日志記錄以及錯誤追蹤等方案)。目前IT行業(yè)正積極利用這種分層式功能獨立方案取代原有的整體式服務監(jiān)控機制,從而適應持續(xù)提升的IT系統(tǒng)復雜性與動態(tài)水平。
在警報機制內(nèi)區(qū)分有效信號與干擾信號
工具數(shù)量的增加同時意味著我們需要面對更多干擾信號。為了有效識別、分類并解決潛在問題,IT團隊必須找到可行方式以正確進行有效信號與干擾信號分離。通過采用警報關(guān)聯(lián)解決方案,IT團隊將能夠了解各監(jiān)控工具的警報信息間存在哪些聯(lián)系,從而快速過濾掉非關(guān)鍵性問題,最終集中精力處理最重要的風險因素。
來源:機房360
石家莊服務器托管 石家莊服務器租用 石家莊機柜租用 石家莊機房 |