企業(yè)數(shù)字化的運(yùn)維變革
數(shù)字化時(shí)代,IT對(duì)企業(yè)業(yè)務(wù)的重要程度與日俱增,是推動(dòng)機(jī)構(gòu)進(jìn)行智能運(yùn)維變革的關(guān)鍵。舉例而言,在幾年前,很多企業(yè)機(jī)構(gòu)會(huì)在半夜12點(diǎn)-1點(diǎn)暫停交易進(jìn)行系統(tǒng)維護(hù),而如今的企業(yè)交易必須達(dá)到24小時(shí)不間斷的秒級(jí)響應(yīng)要求。這就意味著,IT對(duì)于企業(yè)而言已經(jīng)由業(yè)務(wù)支撐系統(tǒng)轉(zhuǎn)變?yōu)闃I(yè)務(wù)本身。我們?cè)诟髽I(yè)行業(yè)用戶交流的時(shí)候,大家談的都是業(yè)務(wù),關(guān)注的也是業(yè)務(wù)。在這樣的應(yīng)用環(huán)境下,傳統(tǒng)運(yùn)維針對(duì)IT系統(tǒng)或者單獨(dú)IT平臺(tái)的監(jiān)控已經(jīng)不能滿足需求。客戶關(guān)心的是交易是否成功,用戶交易的體驗(yàn)怎么樣,所以對(duì)運(yùn)維要求與過去相比有很大的不同。過去,IT從底層設(shè)備、操作系統(tǒng)、應(yīng)用、到業(yè)務(wù)這幾層,運(yùn)維的關(guān)注點(diǎn)在于底層設(shè)備的高可用和穩(wěn)定性,衡量指標(biāo)是SLA能達(dá)到幾個(gè)9。今天,大家的關(guān)注點(diǎn)集中到業(yè)務(wù)層面,衡量IT對(duì)業(yè)務(wù)影響程度的指標(biāo)變成了MTTR(Meantime to Recovery,平均故障修復(fù)時(shí)間),這就需要從業(yè)務(wù)的視角,實(shí)現(xiàn)覆蓋所有業(yè)務(wù)鏈路的端到端全局監(jiān)控、管理和分析,把監(jiān)控的點(diǎn)和面都做完整,還要與業(yè)務(wù)指標(biāo)進(jìn)行關(guān)聯(lián),這就比傳統(tǒng)運(yùn)維復(fù)雜度高很多。
當(dāng)前企業(yè)運(yùn)維的另外一個(gè)挑戰(zhàn)來自于數(shù)字化轉(zhuǎn)型的推進(jìn)。區(qū)塊鏈、虛擬化、容器、IoT等新技術(shù)的應(yīng)用,導(dǎo)致IT規(guī)模和復(fù)雜度呈指數(shù)增長(zhǎng)。過去,傳統(tǒng)運(yùn)維收到不明原因的告警信息,可以把相關(guān)設(shè)備一臺(tái)臺(tái)關(guān)掉,再逐一重啟來進(jìn)行排查,解除故障。但在企業(yè)系統(tǒng)如此龐大的今天,這類單純依靠人工的故障修復(fù)方法顯然是不可取的。不僅如此,隨著IT運(yùn)行環(huán)境越來越復(fù)雜,每時(shí)每刻產(chǎn)生的IT數(shù)據(jù)量更加驚人,依靠人工設(shè)定告警閾值、分析處理海量告警信息同樣不現(xiàn)實(shí)。這就需要利用大數(shù)據(jù)和AI技術(shù)的助力,通過模式識(shí)別和算法對(duì)歷史數(shù)據(jù)進(jìn)行學(xué)習(xí),設(shè)置更加有效的動(dòng)態(tài)告警閾值,同時(shí)對(duì)海量告警信息進(jìn)行實(shí)時(shí)壓縮、收斂和關(guān)聯(lián)分析,利用根因分析追蹤導(dǎo)致事件發(fā)生的根本原因,實(shí)現(xiàn)告警事件的及時(shí)處置,有效降低MTTR。
智能運(yùn)維的認(rèn)知和核心技術(shù)
到目前為止,業(yè)界針對(duì)AIOps(智能運(yùn)維)的認(rèn)知尚未統(tǒng)一,有人說AIOps就是算法,有的則認(rèn)為是自動(dòng)化運(yùn)維。AIOps并不是像APM那樣的產(chǎn)品,而是一種理念。用AI技術(shù)去提升企業(yè)機(jī)構(gòu)的運(yùn)維能力和效率,讓它具有更好的智能化,更高效的解決企業(yè)業(yè)務(wù)運(yùn)行過程中遇到的種種問題。同時(shí),AI是一種可以工程化的實(shí)用科技,AIOps就是AI在IT運(yùn)維領(lǐng)域的落地,通過AI技術(shù)的工程化,全面提升現(xiàn)有ITOM、ITSM 和ITOA產(chǎn)品和解決方案能力。
業(yè)行業(yè)智能運(yùn)維管控中心
AIOps(智能運(yùn)維)核心關(guān)鍵不是算法,很多算法都已經(jīng)非常成熟而且開源了。但是,客戶的應(yīng)用場(chǎng)景千差萬(wàn)別,需求也各不相同,到底哪種算法用什么樣的模式匹配到客戶場(chǎng)景中,這才是核心。這是一個(gè)‘技術(shù)工程化’落地的過程,對(duì)于智能運(yùn)維提供商來說,既要有非常好的算法能力,又要對(duì)客戶的應(yīng)用場(chǎng)景有非常好的理解力,還要有工程化落地的能力。這幾種能力都具備,才能幫客戶解決問題。此外,AIOps需要完整數(shù)據(jù)。因此,要實(shí)現(xiàn)AIOps落地,數(shù)據(jù)采集能力同樣必不可少,只有這樣才能通過AI得到有價(jià)值的結(jié)果。
企業(yè)行業(yè)智能運(yùn)維落地的理念和建議
部署智能運(yùn)維首先要理解傳統(tǒng)運(yùn)維管理與智能運(yùn)維的邏輯差異:傳統(tǒng)運(yùn)維管理是依賴流程,依靠工單系統(tǒng)把這些串起來。智能運(yùn)維是基于數(shù)據(jù)和智能化分析結(jié)果進(jìn)行運(yùn)維管理,與傳統(tǒng)運(yùn)維的邏輯完全不一樣。
智能運(yùn)維中臺(tái)
與傳統(tǒng)運(yùn)維管理依靠ITSM平臺(tái)管理所有IT問題不同,智能運(yùn)維的落地注重場(chǎng)景化,解決的是某一類問題。當(dāng)然,智慧運(yùn)維的基礎(chǔ)仍然是數(shù)據(jù),在數(shù)據(jù)之上構(gòu)建AI分析能力,在AI之上是各個(gè)運(yùn)維產(chǎn)品模塊。這些模塊以松耦合的方式組成,可根據(jù)用戶需求的不同任意組合,提供各種運(yùn)維場(chǎng)景化解決方案能力。最后通過可視化運(yùn)維監(jiān)控中心,把IT價(jià)值直觀呈現(xiàn)在IT和業(yè)務(wù)部門面前,讓管理者和業(yè)務(wù)運(yùn)營(yíng)負(fù)責(zé)人都能看懂IT。
IT團(tuán)隊(duì)在逐步積累AIOps經(jīng)驗(yàn)的同時(shí),可以樹立起智能運(yùn)維成功部署的信心。而業(yè)務(wù)部門可以從一個(gè)場(chǎng)景的變化快速看到AIOps價(jià)值和成效,自然更愿意配合IT部門的變革,推進(jìn)業(yè)務(wù)與IT的融合。
本文節(jié)選自 新企業(yè)世界,文案內(nèi)容有所修改,如有侵權(quán),請(qǐng)聯(lián)系刪除。
---------------------------------------------------- ------------------------------------------------
同耕股份是一家中國(guó)領(lǐng)先的軟件與信息技術(shù)服務(wù)商,致力于深入行業(yè)專屬定制打造基于云的企業(yè)軟件解決方案。同耕股份擁有深厚的行業(yè)積累和領(lǐng)先的技術(shù)實(shí)力,以客戶應(yīng)用價(jià)值為中心圍繞高端制造業(yè),以自主技術(shù)、自主知識(shí)產(chǎn)權(quán)為本,以核心技術(shù)平臺(tái)衍生各行業(yè)應(yīng)用,為客戶提供從智能制造、智能運(yùn)維、智慧營(yíng)銷、智慧應(yīng)急等行業(yè)端到端全價(jià)值鏈數(shù)字化解決方案。經(jīng)過多年發(fā)展,為汽車、國(guó)防、應(yīng)急、航天船舶、環(huán)保等多個(gè)重要行業(yè)領(lǐng)域的客戶創(chuàng)造了巨大價(jià)值,成為客戶穩(wěn)定、可信賴的合作伙伴。