任何計算機系統(tǒng)都有出現(xiàn)故障的時候,可能發(fā)生在測試階段,也可能發(fā)生在系統(tǒng)剛剛上線,還可能發(fā)生在已經(jīng)穩(wěn)定運行很多年的系統(tǒng)上,又可能發(fā)生在系統(tǒng)一個小小的升級之后。而這些系統(tǒng)出現(xiàn)故障所帶來的負面影響則可大可小,小到一個終端的軟件無法使用,大到整個系統(tǒng)癱瘓,所有業(yè)務(wù)不能辦理。由此便有了IT故障處理分級的運作形式,將問題或故障做到先后有序,將IT運維故障劃分為普通、急、緊急……依靠這套省力的約定建立故障處理流程,是解放IT支持部門最有效的法則。
當計算機故障升級到“核災(zāi)難”
佩特羅夫是原蘇聯(lián)一位年輕軍人、計算機工程師。1983年9月26日晚上,他正在莫斯科附近的某個導彈中心值班,他回憶說:“忽然,我面前的計算機屏幕變成了刺眼的紅色,刺耳的警報聲也隨之響起,聲音大得簡直能把死人都從墳?zāi)估飮樞?。這是計算機預警系統(tǒng)發(fā)出美國向蘇聯(lián)實施核進攻的警報,美國人向我們發(fā)射核武器了!”一般人認為,計算機按事先編制的程序工作,它提供的信息應(yīng)是絕對可靠的,計算機不會玩花招,但這次出現(xiàn)的情況卻不是這樣。警報還在不斷地響,佩特羅夫沒有被嚇呆,而是在積極思考。根據(jù)他掌握的情況來判斷,他認為,美國沒有理由在當時對蘇聯(lián)發(fā)動核攻擊,唯一的可能是計算機出錯。導彈中心接到佩特羅夫的報告后,急如星火地派人對計算機進行緊急檢修。結(jié)果證明,錯誤警報的發(fā)出完全是由計算機的故障造成的,計算機在這起故障中,充當了挑起核戰(zhàn)爭的罪魁禍首。
上面這個真實存在的計算機故障被列為IT界十大故障之首。雖然這起故障最終沒有引發(fā)全世界的“災(zāi)難”,但是不是今后的數(shù)十年之后,就會完全避免此類事件發(fā)生呢?這引起了我們深深地思考。
作為IT運維產(chǎn)品和服務(wù)提供商的北塔軟件認為:“無論從技術(shù)角度出發(fā),還是就業(yè)務(wù)角度而言,我們都需要對經(jīng)常發(fā)生的IT故障進行各種考慮和權(quán)衡。在看起來似乎無法立即解決所有故障的情況下進行正確的權(quán)衡,則是IT運維人員成功的關(guān)鍵。這意味著要首先確定有哪些系統(tǒng)出現(xiàn)問題,會波及到核心業(yè)務(wù)的停滯范圍,以及理解并確定如何在出現(xiàn)故障的時候按照緊急度權(quán)衡,從而避免影響面最大的災(zāi)難事件發(fā)生?!?
北塔軟件的技術(shù)專家以一家正在實施BTIM IT綜合管理系統(tǒng)的銀行IT系統(tǒng)為例,為我們說明了故障和災(zāi)難的區(qū)別。例如,對于一般的電腦系統(tǒng)故障,信科部或業(yè)務(wù)部門通過通常的措施(如激線、重組、重起、切換、脫機交易、沖證等)在短時間內(nèi)能夠恢復對外的服務(wù),對銀行業(yè)務(wù)和客戶利益沒有造成重大影響,此類事件稱之為故障。如果信息中心發(fā)生嚴重故障,導致管轄內(nèi)大部分或全部的業(yè)務(wù)無法進行,且在一天內(nèi)仍無法恢復正常對外服務(wù),此類故障則要稱之為“災(zāi)難”了。