智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一，入選IDC企業數據治理實施部署指南。同時，在IDC發布的《中國數據治理市場份額》報告中，連續四年蟬聯數據治理解決方案市場份額第一。

在線免費試用 DEMO體驗視頻介紹

睿治智能數據治理平臺

IDC蟬聯數據治理解決方案市場第一

元數據：數據治理的燃料

時間：2019-08-02來源：知乎瀏覽數：700次

實現數據質量的最佳方法是組合或混合這三種技術：解碼后的譜系，數據相似性譜系和手動譜系映射。
企業渴望從可提供競爭優勢的數據中獲取洞察力。實現這一目標的最常見障礙是數據質量差。如果輸入到預測算法的數據是“臟的”（具有丟失或無效的值），則該算法產生的任何見解都不可信。

要實現數據質量，僅清理現有的歷史數據是不夠的。您還需要通過建立一組稱為數據治理的功能和流程來確保所有新生成的數據都是干凈的。在受管數據環境中，每種類型的數據都有一名數據管理員，負責定義和實施數據清潔標準。并且，每個數據值都有一個明確定義的譜系：我們知道它來自何處，它在此過程中經歷了哪些轉換，以及從該數據值派生的其他數據項。

數據沿襲為企業提供了許多好處：

通過向后追蹤譜系（以查找影響當前數據的所有數據）或轉發（以識別受當前數據影響的所有其他數據）從給定數據項執行影響分析和根本原因分析的能力;
業務詞匯和術語的標準化，有助于跨業務部門的清晰通信;
歸功于對數據所做的任何更改的所有權，責任和可追溯性，這歸功于譜系全面記錄了誰做出了哪些更改以及何時更改。
聽起來不錯，但數據沿襲信息來自哪里？查看數據庫中的特定數據值會告訴我們其當前值，但它不會提供有關數據如何演變為其當前值的信息。缺少的是有關數據的數據（沿襲元數據），它自動記住每個數據項所做的每次更改的時間和來源，無論是由軟件還是由人工數據庫管理員進行的更改。

收集沿襲元數據有三種競爭技術，每種技術都有其優點和缺點：

1.解碼后的血統

該方法不是檢查模式的數據值以尋找相似性，而是專注于操縱數據的代碼。此類工具（MANTA，Octopai，Spline）掃描所有邏輯以理解它并對其進行反向工程，以了解數據如何變化以及哪些數據用作計算其他數據的輸入。這種方法提供最準確，完整和詳細的沿襲元數據，因為每一條邏輯都被處理。但它有一些缺點：

為數十種語言開發足夠的支持可能并不容易，這些語言必須進行分析才能涵蓋環境的基礎知識。它也可能會阻止您采用新技術，因為您的已解碼的沿襲引擎尚不支持它。
代碼版本會隨著時間的推移而發生變化，因此您對當前代碼數據流的分析可能會錯過已被取代的重要流程。
當代碼是動態的（您根據程序輸入，表中的數據，環境變量等）動態構建表達式時，您需要一種方法來解碼動態代碼。
并非所有數據更改都是由代碼生成的。例如，假設您的網站發生緊急中斷，您的DBA會通過直接在生產數據庫上執行一系列SQL命令來手動修復。Decoded Lineage工具永遠不會檢測到這些更改，因為它們是由DBA而不是代碼生成的。
代碼可能對數據做錯了。例如，假設您的代碼存儲違反GDPR的個人識別信息，并且產品經理明確要求相反。解碼的血統工具將忠實地捕獲代碼所做的事情，而不會引發紅旗。
假設兩個獨立進程中的兩段代碼執行相同的計算，以在數據庫中創建相同的重復數據。代碼分析無法發現這種情況，因為每段代碼都表現得很好。只有通過檢查數據庫才能發現并消除重復。

2.數據相似性譜系

此方法通過檢查數據和模式而無需訪問代碼來構建沿襲信息。此類別中的工具（Tamr，Paxata，Trifacta）會在表中分析數據并讀取有關表，列等的數據庫元數據，然后使用所有這些信息根據相似性創建沿襲。一方面，無論您的編碼技術如何，這種方法都將始終有效，因為無論哪種技術生成數據，它都會分析結果數據。但它有幾個明顯的弱點：

檢測大型數據庫中的數據相似性需要花費大量時間和處理能力。
結果元數據將缺少許多細節，例如轉換邏輯。
它無法檢測尚未執行的沿襲元數據。例如，假設您有一個年終會計流程來調整收入和庫存。在該流程于12月31日運行之前，您將無法獲得有關它的沿襲元數據。

3.手動譜系映射

這種方法通過映射和記錄人們頭腦中的業務知識來構建沿襲元數據（例如，與應用程序所有者，數據管理員和數據集成專家交談）。這種方法的優點是它提供了規范的數據沿襲（數據應該如何流動，而不是在實現錯誤后如何流動）。但是，因為元數據是基于人類的知識，它可能是矛盾的（因為兩個人不同意所需的數據流）或部分（如果你不知道數據集的存在，你不會問任何人它）。

正如你所看到的，沒有靈丹妙藥 - 每種方法都有其優點和缺點。最佳解決方案結合了所有三種方法。

使用MANTA，Octopai或Spline等工具從解碼后的血統開始。
使用Tamr，Paxata或Trifacta等工具增加數據相似性譜系，以發現數據庫中的模式。
使用手動沿襲映射進行擴充，以捕獲規定的沿襲規則（例如，應該如何實現數據流）。
成功組合這些技術后，您可以收集開始享受受管數據優勢所需的全面血統元數據。

（部分內容來源網絡，如有侵權請聯系刪除）

立即申請數據分析/數據治理產品免費試用我要試用

上一篇：企業數據治理框架...

下一篇：并非所有數據都是平等的：為什么公司需要數據治理戰略才能成功...