這篇文章主要講
數據治理中的重要內容:
數據質量管理。數據治理的理論和實踐不斷向前發展,但數據質量管理始終是數據治理的初衷,也是最重要的目的。我會從數據質量管理的目標,質量問題產生的根源,質量評估標準,質量管理流程,質量管理的取與舍幾個方面進行闡述。
一、數據質量管理的目標
數據質量管理主要解決“數據質量現狀如何,誰來改進,如何提高,怎樣考核”的問題。
為什么這篇文章的標題中有“不忘初心方得始終”這幾個字呢。因為最開始的關系型數據庫時代,做數據治理最主要的目的,就是為了提升數據質量,讓報表、分析、應用更加準確。時至今日,雖然數據治理的范疇擴大了很多,我們開始講
數據資產管理、知識圖譜、自動化的數據治理等等概念,但是提升數據的質量,依然是數據治理最重要的目標之一。
為什么數據質量問題如此重要?
因為數據要能發揮其價值,關鍵在于其數據的質量的高低,高質量的數據是一切
數據應用的基礎。
如果一個組織根據劣質的
數據分析業務、進行決策,那還不如沒有數據,因為通過錯誤的數據分析出的結果往往會帶來“精確的誤導”,對于任何組織來說,這種“精確誤導”都無異于一場災難。
根據統計,數據科學家和數據分析員每天有30%的時間浪費在了辨別數據是否是“壞數據”上,在數據質量不高的環境下,做數據分析可謂是戰戰兢兢。可見數據質量問題已經嚴重影響了組織業務的正常運營。通過科學的數據質量管理,持續地提升數據質量,已經成為組織內刻不容緩的優先任務。
二、數據質量問題產生的根源
做數據質量管理,首先要搞清楚數據質量問題產生的原因。原因有多方面,比如在技術、管理、流程方面都會碰到。但從根本上來時,數據質量問題產生的大部分原因在于業務上,也就是管理不善。許多表面上的技術問題,深究下去,其實還是業務問題。
我在給客戶做數據治理咨詢的時候,發現很多客戶認識不到數據質量問題產生的根本原因,局限于只想從技術角度來解決問題,希望通過購買某個工具就能解決質量問題,這當然達不到理想的效果。經過和客戶交流以及雙方共同分析之后,大部分組織都能認識到數據質量問題產生的真正根源,從而開始從業務著手解決數據質量問題了。
從業務角度著手解決數據質量問題,重要的是建立一套科學、可行的數據質量評估標準和管理流程。
三、數據質量評估的標準
當我們談到數據質量管理的時候,我們必須要有一個數據質量評估的標準,有了這個標準,我們才能知道如何評估數據的質量,才能把數據質量量化,并知道改進的方向,比較改進后的效果。
目前業內認可的數據質量的標準有:
準確性: 描述數據是否與其對應的客觀實體的特征相一致。
完整性: 描述數據是否存在缺失記錄或缺失字段。
一致性: 描述同一實體的同一屬性的值在不同的系統是否一致。
有效性: 描述數據是否滿足用戶定義的條件或在一定的域值范圍內。
唯一性: 描述數據是否存在重復記錄。
及時性: 描述數據的產生和供應是否及時。
穩定性: 描述數據的波動是否是穩定的,是否在其有效范圍內。
以上數據質量標準只是一些通用的規則,這些標準是可以根據數據的實際情況和業務要求進行擴展的,如交叉表校驗等。
四、數據質量管理的流程
要提升數據質量,需要以問題數據為切入點,注重問題的分析、解決、跟蹤、持續優化、知識積累,形成數據質量持續提升的閉環。
首先需要梳理和分析數據質量問題,摸清楚數據質量的現狀;然后針對不同的質量問題選擇適合的解決辦法,制定出詳細的解決方案;接著是問題的認責,追蹤方案執行的效果,監督檢查,持續優化;最后形成數據質量問題解決的知識庫,以供后來者參考。上述步驟不斷迭代,形成數據質量管理的閉環。
很顯然,要管理好數據質量,僅有工具支撐是遠遠不夠的,必須要組織架構、制度流程參與進來,做到數據的認責,數據的追責。
億信華辰的數據治理產品---睿治是是億信華辰自主研發的由多個產品組成的數據全生命周期管理應用平臺,也是目前國內功能齊全的數據治理工具,助力數據標準落地,提升數據質量。
(部分內容來源網絡,如有侵權請聯系刪除)