“熵”是熱力學第二定律的核心概念,熵其實就是指的“混亂程度”,簡單來說熵是衡量我們這個世界中事物混亂程度的一個指標。在一個孤立系統中它的總混亂度(熵)是不會減小的,也就是說如果不做任何管控,事物往往會不斷的向無序發展。
其實數據也是一個不斷熵增的過程,隨著時間的推移會出現無效數據、錯誤數據、冗余數據、不規范數據、相沖突數據等。如果不好好進行管控,去減少我們數據中的“熵”,我們最后會得到一些無序低價值的數據。
如何化“熵增”為“熵減”,數據質量管理尤為重要。
下定義:解讀數據質量管理
數據質量管理是對數據從計劃、獲取、共享、維護、應用、消亡生命周期的每個階段里可能引發的各類數據質量問題,進行識別、度量、監控、預警等一系列管理活動,并通過改善和提高組織的管理水平使得數據質量獲得進一步提高。數據質量管理是循環管理過程,其終極目標是通過可靠的數據提升數據在使用中的價值,并最終為企業贏得經濟效益。
所以,數據質量是保證
數據應用的基礎,而要評估數據是否達到預期設定的質量要求,需要有專業權威的評價標準來約束。目前為止,最權威的標準是由全國信息技術標準化技術委員會提出的數據質量評價指標(GB/T36344-2018 ICS 35.24.01),它包含以下幾個方面:

理框架:
數據質量管理系統框架
數據質量很重要,我們知道數據存在的問題,我們也知道數據質量要符合6大評價標準,但是我們要怎么系統化建設和管理呢?數據質量管理一般以
數據標準為數據檢核依據,以元數據為數據檢核對象,將質量評估、質量檢核、質量整改與質量報告等工作環節進行流程整合,形成完整的數據質量管理閉環。

▲數據質量管理架構圖
方法論:數據質量管理的四個階段
然而,我們需要按照什么流程來對數據質量進行有效的管控,從而提升數據質量,釋放
數據價值?一般來講,
數據質量控制流程分為4個階段:啟動、執行、檢查、處理。在管控過程中這4個階段需不斷循環,螺旋上升。
第一階段:啟動
在這個階段我們需要根據所在機構的現行組織架構和工作規范基礎上,建立一套質量管控流程和規范,如建立質量管控委員會、制定質量管控辦法等。質量管控委員會不必是全職,可由現有組織中如信息中心相關人員兼任。而關于數據質量管控辦法則應明確質量管控的角色、職責,建立可執行的工作流程、可量化的工作評估方法,同時也應具備績效考核、沖突解決與管控方式等。
有了流程和規范后,相應的責任人就應明確本輪質量管控的目標。如:數據質量提升范圍,或是滿足一些業務的預期。目標制定完成后我們就可以進入下一個執行階段。
第二階段:執行
進入執行階段,我們就要開始具體的質量管控工作,整個工作應該圍繞啟動階段制定的目標進行。適當引入一些質量管控工具可幫助我們更高效的完成工作。
第一步、數據剖析
首先應該進行已知數據問題的評估,這里評估的范圍也應控制本輪管控的目標范圍內。其次,通過對數據進行剖析,發現數據問題,具體規則又可通過標準或業務調研進行提取。
1)根據標準,提出標準規則
比如,我們可以根據標準,提煉出如下圖所示的編碼規則,并進行檢驗。

2)調研業務,提取業務規則
接著,我們可以從業務調研中提取規則,如金融業的大中小微企業貸款當年累放額計算口徑:大中小微企業貸款當年累計發放額=大型企業貸款當年累計發放額+中型企業貸款當年累計發放額+小型企業貸款當年累計發放額+微型企業貸款當年累計發放額+個人經營性貸款當年累計發放額,這樣的指標計算規則,并進行檢查管控。
當然業務規則也可以是圍繞我們既定的業務預期展開。目標不同,業務剖析的方向也應隨之調整。
第二步、設計數據質量控制操作程序
獲得已知數據問題后,就應設計數據質量控制操作程序。主要包括以下3個方面:
1)制定檢查和監控的頻率及方式
2)制定質量問題評估方式和整改方式
3)制定質量報告內容及對象
第三步、定義數據質量需求
根據剖析的質檢規則和控制操作程序,對數據質量需求進行定義,這里又可拆分成以下三步。
1)梳理數據模型
梳理數據模型的主要工作是確定檢查對象實體之間的關系,如關鍵字、主外鍵關系梳理、字段類型、長度等。

2)建立質量規則
這一步是將我們剖析的數據檢驗業務規則,轉化成可執行、有結果的技術規則。

3)建立質檢方案
將可以同時評價且主責部門劃分一致的規則集合起來,建立質檢方案。也可根據業務或者評價規范再對規則進行細分并建立方案。
第四步、確定數據質量水平
數據質量需求定義完畢之后,我們就需要確定在此需求下,目前數據質量的水平處于什么位置。明確反應質量水平的并最直觀的就是錯誤數據的詳情情況,如下圖所示。

根據匯報的對象不同,一般也需要出具質檢情況的統計報告。

第五步、管理數據質量問題
問題找到,下一步我們就應該進行問題的管理了。根據不同的質量問題,進行不同的質量整改方案。一般方式有以下4種:
1)源頭修改,即問題數據生產系統中進行修改。
2)補錄,即在數據中心,建立一個新的倉庫,針對數據問題進行補充錄入,一般情況為源系統升級或其他原因導致無法從源系統進行修改,而采取的變通方案。
3)技術修復,即通過如ETL工具等技術手段,對問題數據進行清洗、轉換。

4)遺留問題管控,即對一些無法修復處理的數據進行特殊處理,一般情況下進行標記或者例外處理。
第三階段:檢查
檢查階段,主要是對執行階段的成果進行檢查并分析原因,包括以下3個方面。
1)確定整改質量
對處理后的數據進行再次質檢,出具數據質量的報告。

2)對比整改效果
對比處理前后效果,總結改進措施。

3)檢查數據質量是否合格,分析不合格原因
在這輪管控中檢查數據質量是否合格,并找到不合格的原因,在下一輪管控中進行技術上或者操作程序上的改進。
第四階段:處理
1)監控數據質量,控制管理程序和績效
根據既定的操作程序,對質量管控過程中各個環節參與者進行績效評估。還可以根據不同時期的重點制定不同的評分標準,有針對性的進行評價和管控,如整改初期數據缺失嚴重,則可對完整性規則權重調大,以期更快看到成效或者達到更好的效果。

2)建立質量控制意識與文化
在這一步中溝通與推廣是重點,要讓所有參與者了解數據質量問題和其實質影響,宣貫系統化的數據質量管控方法,同時挖掘各個環節參與者的價值,尤其是業務方,傳達一種“數據質量問題不能只靠技術手段解決”的意識。最終形成一種數據質量管理的文化。
數據質量管控在
數據治理體系中占據了十分重要的地位,是看見實質成效最快的一環,也是數據治理過程中的重要一環,億信華辰睿治智能
數據治理平臺,是一款融合數據治理十大產品模塊,覆蓋數據全生命周期管理的應用平臺,其中也包括了數據質量模塊,可幫助政企有效提升數據質量,挖掘數據價值。

質量管控是長期且動態的過程,需要企業上下不斷的探索思考,有了睿治的助力相信這個過程會變得順利并快捷的多。
(部分內容來源網絡,如有侵權請聯系刪除)