- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2018-11-30來源:御數坊瀏覽數:3294次
數據治理這項基礎數據能力的重要性越來越多突出。2017年4月22日,中國數據標準化及治理獎實踐獎的現場評審在清華大學成功舉行。
但無論是剛剛數據治理接觸的朋友還是已經從業多年的朋友,對于其中的一些基本概念的理解似乎還有不少版本,最近在微信群中也有一些討論。考慮到這些概念主要是來自國際,涉及到字面翻譯及實質上與本地文化落地融合的問題,各方就更難達成共識。理越辨越明,卻無需強求達成共識,各學科發展本就有諸多流派,在互相碰撞中彼此啟發、推動領域整體發展,這是有益之事。本文題為“小議”,一方面是說并非權威論述、只是表達一家之言;另一方面,本篇求得輕松自在一些,對讀者有些啟發即可。
在本文中,我們主要探討最基本的兩個概念:數據,治理。在這兩個基本詞匯之外,其實還有諸多需要辨析的概念,比如:數據模型與數據標準,數據標準與元數據,元數據與主數據等等,且留待以后合適的機會另行成文吧。
什么是數據?
談數據治理,還是應該先談數據。有關數據,在網絡和各類大數據書籍中有許多定義,無法一一列舉,只推薦《數據質量測量的持續改進》一書對數據的探討。

在書中,作者首先介紹了DAMA DMBOK及多位業界專家對數據的定義,然后提出了自己的定義:
Data are abstract representations of selected characteristics of real-world objects, events, and concepts, expressed and understood through explicitly definable conventions related to their meaning, collection, and storage.
數據是對真實世界的對象、事件和概念的被選擇的屬性的抽象表示,通過可明確定義的約定對其含義、采集和存儲進行表達和理解。
不難看出,作者在信息化背景下,對數據的定義進行了非常考究的詮釋。我們先拋開信息化背景,對這張圖概括:數據,是人對客觀世界的記錄。嚴格來講,還應該補充一點:數據,是人對客觀世界的記錄和判斷。為何加上判斷?因為我們一直在做各種數據統計、數據加工、數據分析、數據挖掘,希望以此洞察客觀世界中存在的規律并對未來作出預測和判斷。這些預測和判斷,也被作為數據記錄在信息系統中。
遵循上述定義再考慮信息化的背景,不難理解:客觀世界的人、事、物,在信息系統中被記錄下來,而記錄哪些屬性,則是由系統設計師、數據架構師,根據業務目標進行了裁剪和選擇,“記錄企業希望記錄的內容”。那么,一系列的問題就來了:企業的“希望記錄的”是什么?這個希望是否達成了共識?這個希望是否真的在真實世界中可以被記錄?系統設計師、數據架構師是否理解了這些希望?信息系統、數據架構的設計,是否表達了這些希望?使用系統、使用數據的人,是否理解這些希望?使用者又有哪些希望?這些希望是否融入了企業的希望中?使用者是否能理解這些數據?....上面這些問題中,如果有一兩個存在不確定、模糊的理解,就會影響到最終數據使用者的滿意度,即:數據不能符合使用需求(Not fit for purpose)——數據質量不好。
因此,以提升數據質量為目標,我們要充分理解客觀世界(即企業的業務活動)、明確“企業的希望”、達成共識、設計合理的信息系統和數據架構、管理好數據定義(元數據)、確保數據生成方、數據使用方對數據的理解一致、并對上述過程中的關鍵點進行適當檢查、監控,確保數據忠實記錄了客觀世界、反映了企業的數據使用希望...這段話,做數據治理的朋友們應該都能更好的理解了。這也是為什么筆者非常推薦這個版本對數據的定義——從數據的本質是什么,到數據如何生成、如何理解,再到數據質量問題產生的根源。在原書中還有另一張有啟發意義的圖,結合了香農信息論的原理說明了數據質量問題產生的原因,就不再展開介紹了。
什么是治理?
談過了數據,我們再來推敲一下何為治理。治理對應的英文是Governance,但是Governance對應的詞,卻不止是治理,下文再來談。之前曾經考察過幾個與數據治理相關的詞,在此做些分析。
治理:
治理是或公或私的個人和機構經營管理相同事務的諸多方式的總和。它是使相互沖突或不同的利益得以調和并且采取聯合行動的持續的過程。——全球治理委員會
解讀:第一句比較抽象,但第二句的含義很明確——協調多個利益相關方的目標、達成共識、一致行動,強調的更多是橫向協同的關系。用一張圖來形象的比喻,治理是這樣的:
公司治理:
從廣義角度理解,是研究企業權力安排的一門科學。從狹義角度上理解,是居于企業所有權層次,研究如何授權給職業經理人并針對職業經理人履行職務行為行使監管職能的科學。——百度百科
解讀:公司治理的定義中,已經和前面所說的治理有了一些區別,將相關方在縱向上分為了“企業所有權層次”和“職業經理人層次”,一方面強調授權,一方面強調監管。在用一張圖來比喻,公司治理是這樣的:

數據治理:
數據治理是對數據資產的管理活動行使權力和控制的活動集合(規劃、監控和執行)。——DAMA 國際數據管理協會
解讀:有關DAMA對于數據治理的定義,以及數據治理與數據管理的區別,我們已經討論過很多次了,在此不再重復,給出一張圖來做簡要說明。值得指出的是,在國外語境下,治理僅包括目標、原則、組織、制度、流程等軟性要求,取其“狹義”;而在國內語境下,會將數據架構、數據標準、數據質量、數據安全等一系列數據管理活動納入數據治理的范疇,取其“廣義”。

對比“治理、公司治理、數據治理”三個概念,不難發現,類似于公司治理,數據治理的概念區分了“治理層與管理層”,強調了治理層與管理層的縱向分權以及治理層對管理層的管理(指導、評估、監督),但對于“促成利益不同的相關方達成共識和一致行動”,這一關鍵含義強調的還不夠。這實際上會對數據治理的實踐產生一些誤導:只強調縱向管理、忽視了橫向協同。
在這里,也不妨斗膽給出御數坊對數據治理的定義,供參考、探討:
數據治理,是組織為實現數據資產價值最大化所開展的一系列持續工作過程,明確數據相關方的責權、協調數據相關方達成數據利益一致、促進數據相關方采取聯合數據行動。
數據治理 vs 數據管控:
在中文語境下有一個和“治理”非常類似的詞——“管控”,Data Governance早期也被翻譯為數據管控,所以我們這里要特別談一談管控,辨析數據治理與數據管控的區別。
如果大家感興趣,可以做個搜索。你會發現“管控”在理論層面沒有非常標準的學術定義,一般會解釋為“管理和控制”。但是,無論根據法約爾對“管理五大職能”的定義——計劃、組織、指揮、協調、控制,還是根據DAMA DMBOK將數據管理活動分為的四類——計劃、開發、控制、操作,控制已經屬于管理或數據管理職能之一,那么管控一詞,似乎顯得有些“畫蛇添足”了。
在實踐應用層面,管控一詞主要用于集團企業的管控模式——包括戰略管控、財務管控、運營管控,強調的是集團總部對下屬分子公司的縱向管控深度、力度不同,這在國內企業管理環境中顯得特別突出。
從作用方向來看,用“數據管控”一詞替代“數據治理”,加劇了這種縱向管控的文化,非常強調“總部定標準、下屬公司執行”。由此,企業做所謂的“數據管控”項目,從某些業務條線、某些系統出發定義了不少數據模型、數據標準,也許能夠實現“縱向到底”的管控深度。但由于跨業務、跨系統的橫向協同不力,過于強調縱向管控實際上建立了一個又一個的“數據煙囪”,根本無法實現“橫向到邊”的順暢協同,數據質量問題仍然多發、企業各個職能也就無法實現高效運轉。
從作用時間維度來看,“數據管控”更側重的是對增量數據的管理和控制,而“數據治理”則會關注存量數據+增量數據,在理清存量數據問題的基礎之上,治好增量數據。因此,我們強調,無論是管理還是治理,“理”是前提,“管”或“治”是跟進措施,沒有理的基礎,就沒有管或治的依據。
結語
根據CMMI的數據管理成熟度模型(DMM)的設計思路,數據為什么需要治理?是因為不同業務背景的人、業務背景與IT背景的人對數據的理解不一致,因此,業務術語、元數據這兩個與“數據定義、數據理解”相關的領域,被放入了數據治理主題中進行成熟度評估。由此可見,業務術語的重要性。作為數據治理從業者,如果我們連我們自身工作所談的“數據”與“治理”這兩個我們業務術語的概念都沒有理清,又何談幫助企業把他們的數據、他們的業務術語治理好呢?
希望以此文更清晰的說明:在談論數據治理的時候,我們在談論什么?
上一篇:數據治理與數據質量的關系...
下一篇:數據治理的7大誤區...