- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-06-20來源:賣萌嘟嘴瀏覽數:664次
數據是數字化時代企業的重要資產,數據可以以產品或服務的形態為企業創造價值。既然數據可以是產品、可以是服務,那問題就簡單了。雖然數據質量管理沒有成熟方法論支撐,但是產品和服務的質量管理體系卻已非常的成熟了。比如,國際上權威的質量管理體系IOS9001、六西格瑪等體系方法,對企業的數據質量管理會有什么啟發呢?
ISO9001質量管理體系標準是由ISO/TC176/SC2(國際標準化組織質量管理和質量保證技術委員會質量體系分技術委員會)負責制定和修訂,旨在為組織質量管理體系的建設提供指導。采用質量管理體系是組織的一項戰略決策,能夠幫助其提高整體績效,為推動可持續發展奠定良好基礎。ISO9001質量管理體系結合了 PDCA(策劃、實施、檢查、處置)循環與基于風險的思維,過程方法能使企業策劃其過程及其相互作用。PDCA 循環使得組織確保對其過程進行恰當管理,提供充足資源,確定改進機會并采取行動。基于風險的思維使得企業能確定可能導致其過程和質量管理體系偏離策劃結果的各種因素,采取預防控制,最大限度地降低不利影響,并最大限度地利用出現的機遇。

圖:ISO9001質量管理體系,來源:《一本書講透數據治理》機械工業出版社
ISO9001質量管理體系的核心思想是以客戶為中心,強調領導作用、過程方法、持續改進、循證決策和關系管理。以下內容是根據作者對ISO9001質量體系粗淺理解和多年的數據治理實踐,嘗試給出企業數據質量管理的方法論,不免有所偏誤,姑且用于學習和參考。
(1)以客戶為中心在企業的數據質量管理中,誰是客戶?我認為在企業中凡是使用數據的“用戶”都應該是數據質量管理的客戶,包括:企業的中高層管理者、業務部門、IT部門、以及相關的業務系統或數據庫。企業的數據質量管理必須要以用戶的最終需求為中心,實現數據的可用、適用、易用。對于企業來講,數據質量一定是越高越有價值,這點無可置疑。但是數據質量管理是一項管理工作,是會產生成本的。我們在堅持“客戶為中心”的原則同時要做好數據治理實施路線規劃,緊密結合企業的數據管理現狀,“客戶要求”以及相關方的要求和期望,企業的數據治理不可“照搬照抄”,更不能“眉毛胡子一把抓”。
(2)領導作用質量管理體系的建設特別強調領導作用,其實數據質量管理、數據治理甚至所有數據類項目“領導作用”都十分重要。企業的數據治理涉及范圍廣,協調難度大,要想獲得項目的成功必須獲得高層的支持,高層領導在數據治理體系中的作用:
a)企業數據戰略的制定者和主要推動者,企業數據質量體系建設的決策層;
b)確保制定數據質量管理體系的方針和目標,并與企業環境和戰略方向相一致;
c)確保數據治理體系要求融入與企業的業務過程;
d)確保提供企業數據治理及數據質量管理所需的各種資源;
e)推動建設企業數據文化、培養企業員工數據思維;
f)推動企業數據質量的持續改進;
g)推動實現企業數據治理/數據質量管理的最終目標;
h)數據治理過程中的重大問題決策和關鍵資源協調。
(3)數據質量策劃基于“以客戶為中心”的原則,明確企業數據質量管理的目標,通過對企業數據質量管理現狀的評估,制定適合企業的數據質量管理策略和計劃。中醫看病講求“標本兼治”,企業數據質量管理也一樣,因從引發數據質量問題的根源抓起。從管理入手,對數據運行的全過程進行監控,強化全面數據質量管理的思想觀念,把這一觀念滲透到數據生命周期的全過程。企業數據質量計劃切不可“貪大求全”,應該“小步快跑”快速迭代,持續改進。企業數據質量管理的計劃應具備以下特點:a)與企業戰略目標保持一致;
b)有明確的數據質量目標,并數據質量目標可實現、可測量;
c)要考慮到適用性要求,不能為了治理而治理;
d)要明確實現目標企業要采取的措施;
e)要明確所需的資源和指定負責人;
f)要明確實現目標的計劃表。
(4)數據質量過程執行根據定義數據質量目標和計劃執行數據質量管理。a)資源的準備。企業應確定并提供為建立、實施、保持和持續改進數據質量管理體系所需的資源,包括:現有內部資源的能力和約束;需要從外部供方獲得的資源。b)環境的準備。企業應對數據質量改進所涉及的應用系統、數據倉庫和相關工具準備就緒。c)定義數據質量維度和數據治理指標。
d)對目標數據集實施監控和測量,對測量出的數據質量問題進行匯總,形成數據質量報告。
(5)數據質量分析與評估根據數據質量報告中的數據質量問題匯總,進行數據質量問題的評估和根因分析,確定數據治理改進策略和方案。a)數據質量維度和數據質量指標的有效性;b)分析并明確產生數據質量問題的直接原因;c)分析并明確產生數據質量問題的根本原因;d)分析并明確是否存在潛在的、類似的數據質量問題和風險,并找到它;e)制定合適的數據質量改進方案;f)明確數據質量改進計劃和負責人;
(6)數據質量改進企業應確定并選擇改進機會,采取必要措施,滿足數據治理目標要求和增強“客戶”滿意。這應包括:a)必要的數據清洗和轉換,修正錯誤數據、清理臟數據、補齊不完整的數據;b)必要的數據模型優化、數據結構改進、應用程序改造;c)必要的業務流程優化,數據操作培訓;d)必要的數據管理制度的約束和績效考核;最后,“數據質量管理是一場馬拉松,而不是短跑”,企業需要考慮數據質量的持續改進和預防措施。注:改進的例子可包括糾正、糾正措施、持續改進、突變、創新和重組。小結:以ISO9001質量管理體系為指導,以“客戶需求為中心”,以提高數據質量、提升“客戶”滿意度為目標,制定企業數據質量方針,實施數據治理策略實現企業數據質量管理的PDCA,即數據質量策劃、實施數據質量管理、數據質量分析和評估、數據質量改進的閉環管理。

圖:6 Sigma質量管理體系,來源:《一本書講透數據治理》機械工業出版社
(1)定義階段(D階段)定義階段是DMAIC歷程中最長的階段之一,最重要的任務是界定數據質量治理的范圍,并將數據質量改進的方向和內容界定在合理的范圍內。通過使用主數據識別法、專家小組法、問卷調查法、漏斗法等方法,定義出數據質量管理的對象。該階段還有一個重要的任務就是對數據的理解。這些數據稍后將在項目中用于識別可能發生質量問題的根本原因,進行統計測試等。因此,數據治理團隊理解數據的含義、數據質量的規則以及何時使用它們、如何使用它們是定義階段的當務之急。企業數據質量治理一般主要包括兩類數據:一類是離散數據,即無法進一步細分,數量有限且基于計數的數據類型,例如:通過考試的人數、賬單上的錯誤計數或錯誤數、樣品中的缺陷數量、一周中的天數、走進餐廳的顧客數。另一類是連續數據,即可以進一步細分的數據。連續數據可以采用連續規模的任何值,例如溫度,重量,距離,時間,利潤、貨幣等。兩類數據的比較如下:|
連續數據 |
離散數據 |
|
更精確 |
不太精確 |
|
提供更多信息 |
信息較少 |
|
可以刪除估算值和四舍五入的測量值 |
無法完全刪除估算值 |
|
獲取連續數據比較耗時 |
耗時少 |
(2)測量階段(M階段)基于對數據治理對象的含義、質量維度、質量規則的理解后,需要選取以下若干個質量維度并定義每個維度的質量指標,建立數據質量測量及評估模型。此階段的重點是確定需要量化的參數,測量參數的方式,收集必要的數據并通過不同的技術進行測量。度量標準:度量標準,即需要測量數據集的數據質量維度和指標,質量維度我們之間已經介紹過,其主要包含一致性、完整性、正確性、有效性、及時性、唯一性等;質量指標是即衡量數據質量目標的參數,預期中要達到的指數、規格、標準,一般用數據表示。操作定義:定義如何進行數據測量以及在操作中使用哪種測量類型。數據類型:明確測量對象的數據類型是連續數據還是離散數據。基于此信息,將在項目的其他階段中選擇不同的統計分析或控制圖。測量頻率:需要明確對測量數據集的測量頻率。測量工具:在測量階段,可以使用不同的工具,例如控制圖,基準測試等。在此過程中,將分析輸入數據源的結構完整性和一致性,有效的數值和范圍,統計異常,重復的值,缺失的值以及其他違反業務規則或預期行為的數據錯誤。通過對數據集的測量,輸出實際測量結果和預期的期望形成對比,找出差距
。(3)分析階段(A階段)此階段也被稱為六西格瑪的核心,因為此處執行統計測試以驗證在測量階段中確定的原因,并找到發生數據質量問題的根本原因。數據質量的根因分析是為了明確數據質量的原因和改進的機會。分析階段遵循一種追溯方法,從最初確定的各種潛在原因中找出確切的根本原因。通過數據分析,找到發生數據質量問題的重災區,確定出影響數據質量的關鍵因素。此階段從探索導致主要問題的所有可能原因開始。然后,通過假設和統計工具對這些原因進行驗證和確認。此階段的結果是經過驗證的根本原因–需要采取行動以改善流程。分析階段需要格外小心,以識別和驗證根本原因。因為通過六個西格瑪項目改進數據質量管理過程的有效性取決于對根本原因的正確識別。數據治理的目標是提升數據質量從而提高數據分析和業務決策的準確性,通過使用六西格瑪的經典工具進行數據分析,能夠更準確、更直觀的定位到發生數據質量問題的癥結所在,找出數據質量問題發生的根因,再對癥下藥。在分析階段,常用的工具是:魚骨圖、帕累托圖、5WHY分析、頭腦風暴、假設檢驗,時間序列圖和散點圖等。
(4)改進階段(I 階段)此階段通過確定改進管理和業務流程、優化數據質量的方案。在此階段,將咨詢流程所有者并提出改進建議,明確改進的行動計劃,并將改進行動計劃分發給相關利益方,該行動計劃規定–采取什么樣的行動,誰來執行、何時實施等內容。隨著改進行動計劃的形成,實施階段同時開始,在實施過程中,將采取相應的數據質量改進措施,通過優化數據管理流程,優化數據模型以及數據管理策略,最大化消除數據質量問題或將數據質量問題帶來的影響降低到最小程度。這里,再次強調企業數據質量的提升,不單單是技術問題,應將數據管理的技術、流程、工具以及組織和人員進行有效融合,以支持數據質量的持續改進。
(5)控制階段(C階段)此階段的主要目標是生成詳細的數據質量監控計劃,該計劃可確保維持所需的能力,包括:固化數據標準,優化數據管理流程,并通過數據管理和監控手段,確保流程改進成果,提升數據質量。在此階段,將評估實施后的結果,確定是否達到了預期的目標。在大多數情況下,控制階段是過渡階段,從當前的實踐和系統過渡到新的實踐。該階段主要方法有:標準化、程序化、制度化等,該階段還有一個很最重要是為所有利益相關者提供有關數據質量改進的培訓和數據標準的宣貫,培養企業數據思維和數據文化。
小結:基于六西格瑪的DMAIC模型為企業的數據質量管理提供一系列的原則、思路、方法和工具,他為企業數據質量管理提供了一個參考的框架,對于發現數據質量問題及如何改進提供了完整的解決思路。
ISO9001是一個應用廣泛的質量管理體系,能夠幫助企業構建全面的數據治理管理框架,包括制定數據質量計劃,實施數據質量管理計劃,檢查數據質量實施效果,優化管理策略和流程。同時,可以借鑒ISO9001質量管理思想,以客戶為中心,建立數據質量管理的PDAC閉環管理流程和組織支撐體系,強調企業高層領導對數據質量管理體系建設和數據質量的持續改進的重要作用,切實使數據質量管理體系得到有效運行,保障數據質量的持續提升。六西格瑪是一個在制造行業廣泛應用的質量管理體系,而數據質量管理相對于傳統行業來說還是非常新的領域,管理的理論和方法都比較匱乏,六西格瑪為企業數據質量管理體系的建設提供了可參考的完整視角。
相比ISO9001,六西格瑪本身強調“以數據說話”,它配套的各種數據分析工具也非常更適合數據質量管理。但由于六個西格瑪擅長處理生產和計劃流程等方面的內容,所以它也可能會產生僵化和官僚主義,增加企業數據管理的成本,甚至影響企業的創新能力。尤其對于一些中小型企業來講,實施六西格瑪進行數據質量管理將帶來很高的成本,從投資收益比上來說,需要找到一個平衡。不論ISO9001,還是六西格瑪都是企業數據質量管理的參考框架。
由于數據——這一個特殊的生產要素,具有可復制性、非排他性、可再生性等特點,注定傳統的任何管理體系都不一定能夠完全適配它。所以,在實際應用中,企業應探索一種敏捷的、精益的數據治理模式,在可控的成本范圍之內,實現數據質量帶來的利潤最大化。
注:本文節選自《一本書講透數據治理》,機械工業出版社。