- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2023-02-13來源:帥瞎你眼瀏覽數:809次
元數據治理平臺首先要解決的問題是構建統一的元數據模型,支持多源異構數據的元數據智能識別。在企業內部的不同業務部門,對數據的定義,隨著業務的變化,標準是不一樣的。比如說,對于電力設備,在市場相關部門的定義與生產部門的定義是有一定差異的。這是在企業進行統計分析會遇到的問題。
01、成果背景

構建數據要素國家治理體系不僅是我國推進國家治理現代化的迫切需要,而且是我國釋放數據要素價值、占據國際數字競爭制高點的迫切需要。以數據為關鍵,通過全方位的數字經濟發展和數字化轉型,全面提升了各產業、各行業的業務變革和決策能力。對于南方電網公司來說,自 2017 年左右就明確提出了建設“數字電網”和數字化轉型的目標,進一步強調了強化數據資產管理,挖掘數據資產價值,落實國家大數據發展戰略的舉措。到目前為止,南方電網云南電網公司管理的數據已超過 500T,支撐了包括能源行業、政府部門、公眾民生在內的上百個應用。

在大數據時代,傳統的數據治理手段已無法應付治理過程中產生的問題,例如多源異構數據的獲取和定義、數據治理效率、標準和規則的時效性、治理知識的利用率、多維治理知識的融合等問題。
在數據管理和數據價值發揮的過程中,對于數據資產和數據價值的管理是很關鍵的,要求數據準確一致,質量高,并能夠真實的反應情況,才能夠服務支撐相關業務的準確提升。而在實際的數據資產管理中往往不能達到這樣的理想情況,而遇到了很多問題。具體來說:
(1)電力企業主要針對結構化數據的技術元數據實現了自動采集,而管理元數據和業務元數據往往以非結構化的形式存在,需要人工進行錄入、管控。每年需要花費大量的資源、成本。
(2)不同來源的業務數據,其數據標準存在不一致的情況;一是隨著業務變化而發生的數據標準的變化,無法及時更新對應的數據治理規則。二是對于內部不同的業務線條,對數據標準上可能存在不一致的情況,比如對設備的定義、生產、營銷等數據標準就不一致。這就帶來了數據管理應用和數據指標統計分析時的一些問題。
(3)數據質量規則清單主要依賴于人工經驗梳理和維護,目前情況下只能覆蓋核心業務和部分常規業務,對于新興業務、綜合能源業務、產業金融等業務覆蓋仍有待加強。
(4)在對數據問題進行分析時,數據邏輯和業務流程還存在著緊耦合,支撐基層業務人員開展數據治理的服務能力亟待加強。
(5)元數據、數據標準、數據質量規則、問題數據分析結果、整改指引、整改經驗等方面的知識獨立積累,數據治理知識未能全面有效地形成體系。
總結起來,在傳統數據治理過程中,會遇到很多問題:
(1)多源異構數據的數據定義與標準不統一,數據覆蓋不全。
(2)數據治理過程缺乏自動化和智能化手段,工作量很大,效率較低。
(3)數據標準和數據質量規則的時效性無法保障。
(4)治理專家知識未能有效利用,問題發現效率不高。
(5)數據治理知識融合程度低,無法多維度的查詢和展示關聯信息。

在面臨上述問題時,如果還是依靠傳統”人海戰術“的數據治理模式,將無法適應業務數字化轉型的要求。因此,在 2020 年底,南方電網云南電網公司在實踐中開展了元數據智能治理的探索,嘗試通過智能識別、智能分析、知識圖譜等自動化和智能化的數據治理手段實現基于元數據的智能治理,深挖電力數據要素價值,“以智促質、以質增值”。

數據治理的目標主要圍繞五個方面:
(1)多源異構元數據智能采集和元模型管理。
(2)采集技術元數據、業務元數據、管理元數據等多源數據,構建電力治理知識圖譜。
(3)在知識圖譜的基礎上,通過對數據項的掃描自動的生成一些自適應的質量標準和規則。
(4)通過數據特征分析的算法,智能識別和挖掘數據標準。
(5)基于案例庫和知識庫的沉淀,對數據問題智能分析,提升數據資產管理和數據質量。
02、成果內容
南方電網云南電網公司基于元數據的智能治理經歷理論研究、平臺建設、場景應用三個階段,從“治理知識圖譜化”、“元數據自動化管理”等五個關鍵方向進行突破。

為實現“以智促質、以質增值”的目標,南方電網云南電網公司通過對治理理論體系的研究提出了“治理知識圖譜化“等五個改進點,打造數據治理智能化技術的平臺建設,以應用場景實現價值挖掘,初步探索了一條智能化數據治理的前進方向。以使用智能化的數據治理手段,替代一些人工工作。這條技術路線主要分為三步:
(1)統一大數據治理體系研究。
(2)基于數據治理智能化技術的平臺建設。這包括治理知識的圖譜化構建、元數據自動化管理,并在此基礎上進行數據標準和規則的自動生成,通過數據規則的應用,將研究成果通過平臺建設工具化,以支撐數據治理和數據問題的智能分析。
(3)數據治理智能化技術應用場景。

基于元數據的智能治理體系主要分為兩層:
(1)基礎數據治理底層技術服務能力,基于機器學習、自然語言處理、智能算法等技術能力,面向電力數據治理問題所構建的基礎技術服務能力。在原先包括數據管理、數據標準管理、數據質量檢查、質量問題的處理,都是依靠人工和專家經驗進行梳理,因此,進行底層技術服務的提升是非常有必要的,這是治理體系的基礎。
(2)智能數據治理框架,在應用數據治理技術服務能力的基礎上,根據治理應用需求搭建的智能數據治理平臺。

接下來對技術實現思路進行一個簡要的介紹。
元數據治理平臺首先要解決的問題是構建統一的元數據模型,支持多源異構數據的元數據智能識別。在企業內部的不同業務部門,對數據的定義,隨著業務的變化,標準是不一樣的。比如說,對于電力設備,在市場相關部門的定義與生產部門的定義是有一定差異的。這是在企業進行統計分析會遇到的問題。同時,隨著數據應用的逐漸增多,此時電力數據需要更多的和相關行業的外部數據進行聯合應用,以使數據要素的價值持續釋放。在這個過程中,內外部不同的單位對數據的定義也存在著較大的差異。因此,需要解決多源異構數據的智能識別問題。
具體的,通過構建多源異構的元數據模型,將企業內外部數據的元數據基于業務對象進行重新組織;利用元數據智能識別,在技術元數據基礎上提取完善元數據和管理元數據,構建結構統一、維度多樣的數據資產目錄。在這個過程中,需要將企業的內外部數據按照業務對象進行重新組織,例如對于同一臺設備,電力行業與銀行間進行共同的識別,以構建統一的數據資產目錄。此外,元數據智能識別需要引用圖像識別、文本挖掘等技術,這是元數據智能治理的第一步。

元數據智能治理體系的第二步是構建元數據治理的知識圖譜,實現多元數據知識的融合。以識別的技術元數據為枝干,自動采集“元數據與標準、標準與規則、規則與治理案例、規則與治理問題、元數據之間的父子關系”等信息形成樹葉,構建具備實體、關系、屬性等信息的治理知識圖譜,并以此圖譜作為整個智能數據治理的基座和核心。為下一步進行標準的自動質量規則生成打下基礎。

元數據智能治理體系的第三步是通過智能化技術,實現數據標準和規則的自生成,并支持規則的動態更新。基于治理知識圖譜,通過工具掃描自動生成數據標準和數據質量規則,并且隨著業務系統的更新,能夠自動的更新這些規則。在實際業務中,也需要每年進行數據治理,以及時掌握變化。

最后,在進行數據質量治理的過程中,需要利用治理案例進行知識沉淀,實現質量問題的智能分析,并利用算法實現質量問題的快速定位。利用之前數據治理所積累的知識庫,利用機器學習技術,訓練質量問題分析模型,根據數據質量規則的執行結果中質量問題的特征情況,通過算法技術計算特征的相似程度,自動的推薦問題分析原因,以及治理案例,使用戶通過治理知識圖譜能夠一站式查詢所有相關治理知識。通過建立知識庫,在遇到一些質量問題的時候,可以使用知識庫定位解決,作為數據質量整改的根據,方便一線數據治理人員的工作。

通過之前所提到的技術手段,進行整個數據治理平臺的搭建,通過多源異構數據,利用元數據的智能識別技術,實現元數據自動管理,并基于元數據構成,實現數據標準和質量規則的自動生成,以及智能化的問題分析處理和治理知識圖譜的自動構建。平臺通過智能和自動化手段實現多源異構數據的治理,有效的支撐數據交互服務和數據應用。

在數據治理平臺中,使用了以下關鍵技術。
1. 非結構化數據的元數據智能感知技術對于結構化數據的處理技術是非常成熟的,但對于管理元數據、業務元數據,往往是沉淀在一些文檔里的,利用自然語言處理、圖像特征識別、語言識別、動態特征識別等智能技術,可快速對圖像、文檔、音頻、視頻等非結構化數據的元數據信息的分析和識別。此外,對非結構化數據的管理在現實中還存在漏洞,沒有進行統一分類。

2. 構建電力元數據知識圖譜
首先對業務系統數據庫采集技術元數據,構建知識圖譜原型;其次根據從技術文檔、規范制度、數據特征中智能識別的業務元數據和管理元數據,提取實體、關系、屬性等信息,不斷循環完善知識圖譜,形成體系化、一站式的圖譜。

3. 數據標準智能挖掘技術
通過在數據治理知識圖譜中選擇業務對象的相關字段,可以在數據挖掘頁面可通過數據特征算法計算出該字段的數據類型特征分布情況,以此作為在業務發生變動時,對數據標準的變化感知和完善補充,重點強化對外部數據的元數據管控能力和數據治理能力。首先通過知識圖譜,選擇需要進行標準挖掘的字段元數據,其次自動定位到該字段,通過智能算法進行數據特征分析,可分析出該字段長度、枚舉值、值域等數據特征,最后人工確定后形成標準。

4. 數據質量規則自生成自適應技術
數據質量規則通過元數據的庫表名稱、字段名稱、數據標準的關系信息,利用規則生成引擎,對參數和標準信息按照規則腳本規范進行組裝,形成可執行的SQL腳本。并支持通過感知元數據、數據標準和數據特征變化情況,進行自適應更新。通過這項技術實現普適性數據質量規則的生成,實現數據治理的全域覆蓋。

5. 質量問題自動化歸因分析技術
數據質量問題自動化歸因分析基于南方電網云南電網公司歷年積累的數據質量問題分析報告、整改指引等治理案例信息,采用基于特征相似度計算,分析匹配,形成最佳的綜合治理建議推薦。以治理知識圖譜為基礎,實現通過元數據對數據治理相關所有信息的統一查詢。
03、成果價值
基于元數據的智能治理經過一年的實踐,已覆蓋銀行、新能源、客戶服務等應用場景,有效促進了電力數據要素價值挖掘與釋放。

首先,南方電網云南電網公司的團隊在相關的研究成果已應用于數據智能治理平臺,能夠基本實現自動化的治理,并且聚焦于一些具體的核心業務上,并能夠覆蓋到外部數據或者非核心數據等更大范圍的數據。截止目前,已管理 5000+ 數據,自動生成 3000+ 規則,支持處理 1000 多類問題,以及對內對外的 20 多個應用場景。在擴大元數據覆蓋、解決多源異構問題、實現智能化管控等方面均取得明顯成效,治理后的數據交換服務已覆蓋銀行、新能源、客戶服務等應用場景,有效支撐大數據應用落地,促進了電力數據要素價值挖掘與釋放。
04、典型應用案例

第一個典型應用案例是云電貸。在這個場景中,主要通過對電力用戶的數據,與銀行合作構建用戶的信用畫像,并提供給小微企業進行參考。
在這個項目中,通過對用戶電力數據的元數據定義,以及元模型構建,給“云電貸”產品在數據庫設計和數據模型構建提供了極大的便利性,將應用落地推廣的時間提前了半年, 率先在昆明、曲靖、玉溪三地同時落地推廣,成功由用電客戶自主申請達成首單。通過智能化數據治理,云電貸產品所管理的數據得到大量治理,數據服務訪問的成功率從 81.3% 提升至 95.7%,有效的支撐了“云電貸”數據增值服務的訪問, 目前產品已有 ?2000+ 次訪問量。到目前為止,已有累計對幾十家云南中小微企業開展幾十次的授信,成功放出貸款上千萬元。

第二個典型的應用案例是彩云充。這個平臺通過對充電數據的分析和治理,將數據問題從 8% 下降到 2%,支撐了新能源汽車及充電設施的實時數據統計服務,以及新能源汽車及充電設施一體化的大數據應用分析服務。通過對充電數據和布局數據進行協同治理,為充電樁精準定位和布局夯實基礎,解決新能源汽車用戶找樁難、充電難的業務困境,通過電網數據接口與其他平臺數據接口標準化的元數據統一定義,優化數據交互的兼容性。