- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-03-28來源:懷念蜜桃多瀏覽數:818次
在數字化經濟高速發展的背景下,給運營商帶來了巨大的藍海市場,也倒逼運營商加速自身的數字化轉型。中國移動率先提出“在2025年實現自智網絡L4級高度自治”,目標是構建全生命周期的自動化、智能化能力,實現三零(零等待、零故障、零接觸)三自(自配置、自修復、自優化)的用戶體驗和網絡能力。浙江移動在這一路線的牽引下,開展了一系列的創新實踐。通信網絡智能運維面臨多項挑戰
通信網絡是由無線、傳輸、IP網、核心網、業務系統等設備組成的龐大網絡,隨著網絡的不斷演進,存在新老設備、新老網絡形態(2/3/5G)以及多廠家并存等復雜狀態;且通信網絡面向2C用戶體驗保障、2B用戶的可靠性要求5個9,安全性要求極高。智能運維存在以下幾項挑戰:
1
數據標準化低
智能運維賴以應用的告警、日志、性能、資源等數據規格不一,設備提供有效數據的能力參差不齊。
2
故障樣本量不足
通信設備的高可靠性要求,同一類型故障發生的概率極低,AI訓練樣本數量不足。
3
試錯成本高
通信網絡的保障性和可靠性要求,無法忍受由于自動化運維帶來的不可控風險,自動化運維不可能一蹴而就。
4
端到端能力差
傳統自動化運維建設依賴設備商提供的設備或網管能力,存在自動化能力分散、單域運維能力參差不齊等問題,無法解決跨域或復雜組網下的故障問題。
5
網絡協同復雜
無線5網(NB、GSM、4G FDD、4G TDD、5G)共存、核心網設備云化帶來的設備量徒增及復雜多層關聯關系,已無法通過簡單的增加人手或憑借專家經驗保障網絡的安全運行。浙江移動實踐方案
為此浙江移動打破傳統碎片化式的能力建設現狀,充分剖析網絡運維的第一性原理,通過拆分、優化、重組,從流程、手段、人員三個方面進行變革,探索了一套基于原力矩陣的故障自愈實踐方案。
流程重塑:由“面向人的人工操作流程”轉變為“面向機器的自動化流程”
傳統的網絡運維監控部門統一監控網絡故障,故障時通知各專業處理人員,各專業按照指導手冊或者個別專家的運維經驗進行故障處理,處理過程中往往需要多方溝通且存在個體差異,影響故障處理效率和質量。我們將這種依賴多人參與以及各操作手冊指導的流程進行數字化重構,設計出由機器自動感知、分析、決策、處置的故障處理流程,實現網絡運維由人工依賴指導手冊操作設備,向人監控機器人,機器人操作設備的變革。

系統重構:構建運維能力集和原力矩陣支撐故障自動處理
傳統的運維能力內生于場景化的應用和平臺中,或存在于運維人員的大腦中,能力較為分散,需要建設一套能串接已有自動化能力、固化人工經驗、支撐全流程自動執行的平臺。
浙江公司不斷探索和實踐,建設了一個基于原力矩陣的故障自愈支撐平臺:首先將依賴人工處理的故障處理流程拆分成一個一個的運維動作,將單個動作實現自動化,形成運維能力集;再根據故障場景和處理流程,即感知、分析、決策、執行的過程,將運維能力集進行編排重組,形成處理故障端到端流程自動化處理的原力鏈,多個原力鏈組成原力矩陣,從而實現故障場景全覆蓋。故障時,系統自動匹配原力矩陣及原力鏈,執行相關自動化處理能力,從而實現網絡故障自愈。

平臺特點
“搭積木式”構建運維能力集:本實踐解決離散能力和數據的問題,將萃取已有應用和平臺中的運維自動化能力、或將運維人員大腦中的規則開發沉淀,實現單個運維能力自動化,并按照規范的格式注入到運維能力集中,形成一個網絡運維能力資產庫,從而實現運維能力的敏捷沉淀和多場景復用。
AI升級運維能力:局限于通信網絡數據規范性、樣本數量等問題,AI無法使能故障端到端處理過程,但AI可以升級優化部分運維能力,如基于動態閾值和時序預測的KPI異常監測能力使感知更明顯、基于歷史真實故障的多維數據關聯使故障分析更高效。
自動化能力端到端可編排:從分析、感知、決策、執行環節,拉通各專業數據和能力,任意編排組裝運維能力,滿足不同故障場景、不同處理過程的需求,并不斷累積,從而實現故障場景的全覆蓋。
自動化結合人工使能故障全流程:一方面是通信網絡高可靠性要求,使得我們使用故障自愈能力時謹小慎微,一方面是由于網絡的復雜性,使得很多故障場景無法一次性做到全流程自動化。本實踐可暫時通過ChatOps或人工串接的方式實現自動化手段輔助人工處理故障,同時不斷的反推、補充斷點能力,實現全流程自動化。
自動化敏捷容錯:整個端到端過程都是由機器人自動執行,但執行異常或需要人工決策時可自動通知到人,故障流程隨時中斷執行或由人工接管,極大的保障網絡安全性。
人員轉型:傳統運維人員向數智化人才轉變
為適應智能運維要求,浙江公司以價值為向導,推出 “三域六師”數智人才培養體系、SRE轉型實踐、原力共創等一系列轉型指導和實踐活動,引導員工數智化轉型。我們傳統的監控人員、各專業維護人員轉變為運維設計師,設計運維場景、運維流程、以及需要的運維能力,轉變為編排開發工程師,落地開發運維能力,并編排成運維流程和運維場景,實踐流程制度和運維經驗的數字化沉淀,從而實現網絡運維由“口口相傳”式人工運維向數字傳承式的智能運維轉變。

實踐成效
通過不斷的總結和實踐,目前浙江移動已累積241個原力矩陣,即覆蓋無線、傳輸等基礎網絡故障場景,又覆蓋移動業務、家庭業務、政企業務等業務故障場景,場景覆蓋率達98%。沉淀KPI異常監測、RCA根因智薦、一鍵業務保活等1236個自動化、智能化運維能力,實現100%故障自動調度、75%故障自動處理。
未來展望“道阻且長,行則將至,行而不輟,未來可期”,智能運維是一項復雜的、持續的業務活動,浙江移動將進一步從強化基礎網絡數據和能力的標準化、推進AI人工智能技術的規模應用、深化數字化轉型的組織保障等方面,持續踐行網絡運維數字化轉型,加速邁向高階自智網絡。
作者介紹
竺士杰,浙江移動網管中心副經理
長期致力于浙江移動運維體系建設,在建設新一代網絡運營支撐系統、推動自智網絡演進、推進網絡運維數智化轉型等方面有著深刻的理解和豐富的經驗。
AIOps系統和工具評估

2021年,中國移動通信集團浙江有限公司率先通過了由中國信通院開展的《云計算智能化運維(AIOps)能力成熟度模型第2部分:系統和工具技術要求》評估,并在【故障預測模塊】、【異常檢測模塊】、【告警收斂模塊】獲得全面級評價,代表行業領先水平。
智能化運維(AIOps)能力成熟度模型介紹:
《智能化運維AIOps能力成熟度模型》系列標準由中國信息通信研究院牽頭,云計算開源產業聯盟、高效運維社區、BATJ等頂級互聯網公司以及各大金融、通信企業共同制定的國內外首個智能運維(AIOps)國際標準,并在國際電信聯盟第十三研究組 ITU-T SG13 成功立項!


AIOps系統和工具評估報名
目前,基于《云計算智能化運維(AIOps)能力成熟度模型 第2部分:系統和工具技術要求》的智能運維(AIOps)系統和工具技術要求評估已開放質量、成本、效率部分:【異常檢測】、【故障預測】、【告警收斂】、【根因分析】、【故障自愈】、【故障預防】、【容量預測】、【知識庫構建】共8個模塊的評估。企業可根據自身情況任選一項或多項進行參與。