海爾總裁張瑞敏在管理上提出了著名的“擦桌子理論”,這完全適用于IT運維管理中的日常檢查維護工作,看似簡單的工作,卻可能因為枯燥變得沒有監督和效率。作為國內領先的IT運維管理專家,北塔軟件建議用戶要把“事前管理”放在IT運維管理工作的第一位去抓,因為日常的巡檢工作不但是網絡故障防患于未然的關鍵,也是進一步釋放IT運維管理價值和不斷創新的基礎。IT運維管理容易忽視的監管問題
如果讓一位員工每天擦桌子6遍,那么他在第一天可能擦6遍,第二天也可能擦6遍,但到了第三天,可能就只會擦5遍、4遍或3遍,到后來,就不了了之。
這就是著名的“擦桌子理論”,越來越多的管理者深受這一理論的影響,不再簡單的通過行為來管理員工的工作過程。這同樣適用于IT運維管理領域,因為一個企業的信息化管理者,在IT的日常運營維護中,有時根本就記不住日常布置了哪些事情,就算記住了也沒辦法做到“及時”檢查,即使管理者真的要做到“及時檢查”,那也很可能會陷入到“如何檢查”的陷阱里去。
很多企業的IT主管將“擦桌子的工作”,與IT運維管理中的日常巡檢對號入座,這種比喻非常恰當。在很多情況下,如果缺少自動巡檢的運維工具,依靠管理人員每天按部就班的每一臺服務、網絡設備,逐個去檢查它們的狀況,或者從幾千條日志中找到有價值的內容,確實需要耐心、細心和責任心。另外,IT主管在進行檢查工作時,面對的大量的紙質表單,其實也沒有耐心看完。當工程師的耐心被消磨殆盡,他們就會敷衍了事,或者無法完所有范圍內的巡檢,干脆填寫“空想出來”的監控數據,嚴重的影響了出現故障時的排查和修復工作進度。
如何擺脫IT運維管理中的“擦桌子”
隨著企業業務的不斷發展,提供運行環境的網絡系統日趨龐大、復雜,IT管理規模隨之日益擴大,如何保障BSM(BusinessServiceManagement,即業務服務管理)這些嶄新的理念真實落地、確保網絡高效通暢運維,這是很多IT主管和工程師無從逃避的核心問題。所以,桌子必須要堅持擦下去,關鍵是靠誰去擦、如何檢查擦的質量?
準確的講,自動巡檢主要是指預防性檢查(PM)。相對于被動式的運維服務模式,預防性維護可對企業的IT環境主動的找出可能會影響系統可用性和性能降低的原因,發現可能會影響軟硬件嚴重故障,以及業務系統性能瓶頸等等,可以很大程度地提供用戶業務使用環境的可用性和穩定性。
北塔軟件認為:“自動化的運維巡檢需要大量收集系統運行的監控數據,并以此為依據建立一種可持續性的優化目標。首先要利用自動化的收集工具,確定巡檢的范圍,進而再把整個范圍內的運維對象形成邏輯關系。通過對這些監控數據的歸集和分析,預先發現故障隱患,提前采取措施,才能變被動式管理為主動式管理,才能提高IT系統服務管理水平,并引領企業的IT部門進入到BSM的時代。
以北塔軟件的BTIM(BetasoftIntegratedManagement,IT綜合管理軟件)為例,它是兼顧基礎設施監控,并支持企業實現從設備管理跨越到BSM的典型產品。作為BTIM的核心功能之一,自動巡檢可以打破以往人工操作單調枯燥、周期漫長、可靠性差等弊端,實現自動而高效的智能巡檢。同時,由于可以實現按圖索引的簡便操作,這樣便把故障根源定位和巡檢路徑結合起來,從業務系統使用者的角度去監控系統可能存在的隱患,主動發掘問題。另外,當企業規模從小到大,運維從易到難時,北塔軟件提供了適用于數據大集中的BTCM(BetasoftCentral Management)產品,可以將大量巡檢數據進行匯總整合,使用統計分析理念,使得經由巡檢產生的海量數據不只是被機械的存儲,而是更進一步延伸出IT運維管理的價值。
企業越大自動巡檢的價值越大
如果企業“只有一張桌子”,自動巡檢的價值也就沒有必要如此被釋放出來。自動巡檢的意義還不止于此,尤其是在IT運維管理要遵循的三個階段中,即:基礎設施管理、業務服務管理、大集中管理階段,自動巡檢的實現將為運維狀況的改變提供平滑的軌道,而非跳躍的階梯。
表面上看,自動巡檢主要是關注底層數據,但沒有這一層的數據,向上一層的業務服務層,和再上一層的公司決策層,也就缺少了支撐力。尤其是我們在數據大集中的趨勢面前,在更遠端的,或者物理范圍較廣的企業中,他們的分支機構是不是也一絲不茍的擦桌子呢,這是否也需要監管起來呢?答案是肯定得。因為,總部的工程師、領導層面不會千里迢迢跑到桌子前,看每一張桌子擦好沒,而只需要知道這個子公司或者辦事處的IT運維質量和健康程度。
一個成功的IT運維管理團隊,缺少不了“英雄”,因為不論是IT運維管理創新還是企業營銷戰略的創新,人的因素永遠都起著決定作用。在成功的道路上我們不能忽略任何細節,而我們又常因一些突發事件而顯得緊張。事實上,我們需要有一雙眼睛,為我們做保障,而自動巡檢就是保證IT運維管理的重要細節不會因為時間緊迫而被忽略。