業(yè)務中斷的一個主要問題,其嚴重性超出了許多人的想像。研究表明,人為錯誤占導致數(shù)據(jù)中心所有停機時間因素的60%至80%。而FORTRUST公司首席運營官Robert McClary認為人為錯誤是導致數(shù)據(jù)中心意外中斷的最主要的原因之一,并為此制定了專門減輕數(shù)據(jù)中心人為錯誤的策略。
客戶可以通過他們的數(shù)據(jù)中心和托管提供商尋找?guī)追N行為和策略,這些行為和策略可以表明提供商消除人為錯誤的承諾。
"過程控制和過程的全面記錄至關(guān)重要,因為許多計劃外停機事件是人為錯誤的結(jié)果。"McClary表示,"采用文檔化、驗證和可重復的過程為操作、服務交付和維護創(chuàng)建標準化的方法,同時減輕或消除與人為錯誤相關(guān)的風險。"
(1)穩(wěn)健的流程和文檔
在FORTRUST公司發(fā)布的"數(shù)據(jù)中心最大可靠性操作指南"中,McClary建議不僅要確定具體的操作流程控制和程序,而且還要記錄這一活動的強大策略。
以這種方式,在數(shù)據(jù)中心內(nèi)進行的每個操作過程都應該按照一個文檔化,驗證和經(jīng)過良好實踐的程序進行。
雖然數(shù)據(jù)中心管理人員和工作人員需要花費一些時間和精力來創(chuàng)建、記錄和維護這些程序,但這種方法帶來了很大的好處。除了減輕人為錯誤之外,建立適當?shù)某绦驇爝可以鼓勵一致性,支持持續(xù)的培訓和學習,并幫助工作人員建立知識庫。這一切都有助于確保問題始終不會出現(xiàn)。
(2)培訓員工確保具有必要的技能
對于數(shù)據(jù)中心工作人員來說,擁有保持數(shù)據(jù)中心正常運行所需的技能也是很重要的,并且在故障停機之前查明并處理任何問題都是很重要的。
某些技能是關(guān)鍵的,而其他技能可以隨著時間的推移而被傳授?偟膩碚f,數(shù)據(jù)中心工作人員應該了解電氣和機械系統(tǒng)的基本知識,數(shù)據(jù)中心系統(tǒng)之間的相互關(guān)系,以及如何解決在這些類型的環(huán)境中可能出現(xiàn)的常見問題。此外,工作人員還應具有良好的解釋能力和分析解決問題的能力。
為了建立一致的基礎知識,服務供應商也應該定期培訓他們的員工。McClary指出,許多數(shù)據(jù)中心設施運營商只提供短暫的工作培訓,但不一定會長期進行。培訓必須持續(xù)開展,而每個員工都應該對自己的教育和能力負責。
記錄的流程和程序可為培訓工作奠定基礎。隨著知識范圍的不斷變化和擴展,額外的培訓可以確保對每個工作人員的角色,責任,以及所需技能有著敏銳的了解。
(3)檢查和演練
數(shù)據(jù)中心員工花費時間去體驗并檢查數(shù)據(jù)中心設施中的所有關(guān)鍵系統(tǒng)至關(guān)重要。這些演練可以與培訓工作結(jié)合起來,幫助工作人員認識到關(guān)鍵組成部分和任何可能出現(xiàn)的問題。
數(shù)據(jù)中心管理人員應該通過他們的檢查來制定一些文檔化的程序來幫助指導這些工作。這包括在演練期間應該檢查的項目的列表,工作人員應該記錄的具體參數(shù),以及在參數(shù)結(jié)果中應采取的步驟。
McClary指出,雖然這些演練肯定需要一定的時間,但他們也可以幫助工作人員找出容易糾正的問題,防止以后出現(xiàn)更大的問題。
總體而言,防止人為錯誤的關(guān)鍵因素需要制定正確的戰(zhàn)略和程序、培訓工作人員,并花時間檢查關(guān)鍵系統(tǒng)。這三種方法對于致力于數(shù)據(jù)中心高效穩(wěn)定運營的工作人員來說至關(guān)重要。
來源:中國IDC圈
石家莊服務器托管 石家莊服務器租用 石家莊機柜租用 石家莊機房