海爾總裁張瑞敏在管理上提出了著名的“擦桌子理論”,這完全適用于IT運(yùn)維管理中的日常檢查維護(hù)工作,看似簡單的工作,卻可能因?yàn)榭菰镒兊脹]有監(jiān)督和效率。作為國內(nèi)領(lǐng)先的IT運(yùn)維管理專家,北塔軟件建議用戶要把“事前管理”放在IT運(yùn)維管理工作的第一位去抓,因?yàn)槿粘5难矙z工作不但是網(wǎng)絡(luò)故障防患于未然的關(guān)鍵,也是進(jìn)一步釋放IT運(yùn)維管理價(jià)值和不斷創(chuàng)新的基礎(chǔ)。IT運(yùn)維管理容易忽視的監(jiān)管問題
如果讓一位員工每天擦桌子6遍,那么他在第一天可能擦6遍,第二天也可能擦6遍,但到了第三天,可能就只會(huì)擦5遍、4遍或3遍,到后來,就不了了之。
這就是著名的“擦桌子理論”,越來越多的管理者深受這一理論的影響,不再簡單的通過行為來管理員工的工作過程。這同樣適用于IT運(yùn)維管理領(lǐng)域,因?yàn)橐粋(gè)企業(yè)的信息化管理者,在IT的日常運(yùn)營維護(hù)中,有時(shí)根本就記不住日常布置了哪些事情,就算記住了也沒辦法做到“及時(shí)”檢查,即使管理者真的要做到“及時(shí)檢查”,那也很可能會(huì)陷入到“如何檢查”的陷阱里去。
很多企業(yè)的IT主管將“擦桌子的工作”,與IT運(yùn)維管理中的日常巡檢對(duì)號(hào)入座,這種比喻非常恰當(dāng)。在很多情況下,如果缺少自動(dòng)巡檢的運(yùn)維工具,依靠管理人員每天按部就班的每一臺(tái)服務(wù)、網(wǎng)絡(luò)設(shè)備,逐個(gè)去檢查它們的狀況,或者從幾千條日志中找到有價(jià)值的內(nèi)容,確實(shí)需要耐心、細(xì)心和責(zé)任心。另外,IT主管在進(jìn)行檢查工作時(shí),面對(duì)的大量的紙質(zhì)表單,其實(shí)也沒有耐心看完。當(dāng)工程師的耐心被消磨殆盡,他們就會(huì)敷衍了事,或者無法完所有范圍內(nèi)的巡檢,干脆填寫“空想出來”的監(jiān)控?cái)?shù)據(jù),嚴(yán)重的影響了出現(xiàn)故障時(shí)的排查和修復(fù)工作進(jìn)度。
如何擺脫IT運(yùn)維管理中的“擦桌子”
隨著企業(yè)業(yè)務(wù)的不斷發(fā)展,提供運(yùn)行環(huán)境的網(wǎng)絡(luò)系統(tǒng)日趨龐大、復(fù)雜,IT管理規(guī)模隨之日益擴(kuò)大,如何保障BSM(BusinessServiceManagement,即業(yè)務(wù)服務(wù)管理)這些嶄新的理念真實(shí)落地、確保網(wǎng)絡(luò)高效通暢運(yùn)維,這是很多IT主管和工程師無從逃避的核心問題。所以,桌子必須要堅(jiān)持擦下去,關(guān)鍵是靠誰去擦、如何檢查擦的質(zhì)量?
準(zhǔn)確的講,自動(dòng)巡檢主要是指預(yù)防性檢查(PM)。相對(duì)于被動(dòng)式的運(yùn)維服務(wù)模式,預(yù)防性維護(hù)可對(duì)企業(yè)的IT環(huán)境主動(dòng)的找出可能會(huì)影響系統(tǒng)可用性和性能降低的原因,發(fā)現(xiàn)可能會(huì)影響軟硬件嚴(yán)重故障,以及業(yè)務(wù)系統(tǒng)性能瓶頸等等,可以很大程度地提供用戶業(yè)務(wù)使用環(huán)境的可用性和穩(wěn)定性。
北塔軟件認(rèn)為:“自動(dòng)化的運(yùn)維巡檢需要大量收集系統(tǒng)運(yùn)行的監(jiān)控?cái)?shù)據(jù),并以此為依據(jù)建立一種可持續(xù)性的優(yōu)化目標(biāo)。首先要利用自動(dòng)化的收集工具,確定巡檢的范圍,進(jìn)而再把整個(gè)范圍內(nèi)的運(yùn)維對(duì)象形成邏輯關(guān)系。通過對(duì)這些監(jiān)控?cái)?shù)據(jù)的歸集和分析,預(yù)先發(fā)現(xiàn)故障隱患,提前采取措施,才能變被動(dòng)式管理為主動(dòng)式管理,才能提高IT系統(tǒng)服務(wù)管理水平,并引領(lǐng)企業(yè)的IT部門進(jìn)入到BSM的時(shí)代。
以北塔軟件的BTIM(BetasoftIntegratedManagement,IT綜合管理軟件)為例,它是兼顧基礎(chǔ)設(shè)施監(jiān)控,并支持企業(yè)實(shí)現(xiàn)從設(shè)備管理跨越到BSM的典型產(chǎn)品。作為BTIM的核心功能之一,自動(dòng)巡檢可以打破以往人工操作單調(diào)枯燥、周期漫長、可靠性差等弊端,實(shí)現(xiàn)自動(dòng)而高效的智能巡檢。同時(shí),由于可以實(shí)現(xiàn)按圖索引的簡便操作,這樣便把故障根源定位和巡檢路徑結(jié)合起來,從業(yè)務(wù)系統(tǒng)使用者的角度去監(jiān)控系統(tǒng)可能存在的隱患,主動(dòng)發(fā)掘問題。另外,當(dāng)企業(yè)規(guī)模從小到大,運(yùn)維從易到難時(shí),北塔軟件提供了適用于數(shù)據(jù)大集中的BTCM(BetasoftCentral Management)產(chǎn)品,可以將大量巡檢數(shù)據(jù)進(jìn)行匯總整合,使用統(tǒng)計(jì)分析理念,使得經(jīng)由巡檢產(chǎn)生的海量數(shù)據(jù)不只是被機(jī)械的存儲(chǔ),而是更進(jìn)一步延伸出IT運(yùn)維管理的價(jià)值。
企業(yè)越大自動(dòng)巡檢的價(jià)值越大
如果企業(yè)“只有一張桌子”,自動(dòng)巡檢的價(jià)值也就沒有必要如此被釋放出來。自動(dòng)巡檢的意義還不止于此,尤其是在IT運(yùn)維管理要遵循的三個(gè)階段中,即:基礎(chǔ)設(shè)施管理、業(yè)務(wù)服務(wù)管理、大集中管理階段,自動(dòng)巡檢的實(shí)現(xiàn)將為運(yùn)維狀況的改變提供平滑的軌道,而非跳躍的階梯。
表面上看,自動(dòng)巡檢主要是關(guān)注底層數(shù)據(jù),但沒有這一層的數(shù)據(jù),向上一層的業(yè)務(wù)服務(wù)層,和再上一層的公司決策層,也就缺少了支撐力。尤其是我們?cè)跀?shù)據(jù)大集中的趨勢(shì)面前,在更遠(yuǎn)端的,或者物理范圍較廣的企業(yè)中,他們的分支機(jī)構(gòu)是不是也一絲不茍的擦桌子呢,這是否也需要監(jiān)管起來呢?答案是肯定得。因?yàn),總部的工程師、領(lǐng)導(dǎo)層面不會(huì)千里迢迢跑到桌子前,看每一張桌子擦好沒,而只需要知道這個(gè)子公司或者辦事處的IT運(yùn)維質(zhì)量和健康程度。
一個(gè)成功的IT運(yùn)維管理團(tuán)隊(duì),缺少不了“英雄”,因?yàn)椴徽撌荌T運(yùn)維管理創(chuàng)新還是企業(yè)營銷戰(zhàn)略的創(chuàng)新,人的因素永遠(yuǎn)都起著決定作用。在成功的道路上我們不能忽略任何細(xì)節(jié),而我們又常因一些突發(fā)事件而顯得緊張。事實(shí)上,我們需要有一雙眼睛,為我們做保障,而自動(dòng)巡檢就是保證IT運(yùn)維管理的重要細(xì)節(jié)不會(huì)因?yàn)闀r(shí)間緊迫而被忽略。