- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2019-08-02來源:知乎瀏覽數:700次
實現數據質量的最佳方法是組合或混合這三種技術:解碼后的譜系,數據相似性譜系和手動譜系映射。
企業渴望從可提供競爭優勢的數據中獲取洞察力。實現這一目標的最常見障礙是數據質量差。如果輸入到預測算法的數據是“臟的”(具有丟失或無效的值),則該算法產生的任何見解都不可信。
數據沿襲為企業提供了許多好處:
通過向后追蹤譜系(以查找影響當前數據的所有數據)或轉發(以識別受當前數據影響的所有其他數據)從給定數據項執行影響分析和根本原因分析的能力;
業務詞匯和術語的標準化,有助于跨業務部門的清晰通信;
歸功于對數據所做的任何更改的所有權,責任和可追溯性,這歸功于譜系全面記錄了誰做出了哪些更改以及何時更改。
聽起來不錯,但數據沿襲信息來自哪里?查看數據庫中的特定數據值會告訴我們其當前值,但它不會提供有關數據如何演變為其當前值的信息。缺少的是有關數據的數據(沿襲元數據),它自動記住每個數據項所做的每次更改的時間和來源,無論是由軟件還是由人工數據庫管理員進行的更改。
為數十種語言開發足夠的支持可能并不容易,這些語言必須進行分析才能涵蓋環境的基礎知識。它也可能會阻止您采用新技術,因為您的已解碼的沿襲引擎尚不支持它。
代碼版本會隨著時間的推移而發生變化,因此您對當前代碼數據流的分析可能會錯過已被取代的重要流程。
當代碼是動態的(您根據程序輸入,表中的數據,環境變量等)動態構建表達式時,您需要一種方法來解碼動態代碼。
并非所有數據更改都是由代碼生成的。例如,假設您的網站發生緊急中斷,您的DBA會通過直接在生產數據庫上執行一系列SQL命令來手動修復。Decoded Lineage工具永遠不會檢測到這些更改,因為它們是由DBA而不是代碼生成的。
代碼可能對數據做錯了。例如,假設您的代碼存儲違反GDPR的個人識別信息,并且產品經理明確要求相反。解碼的血統工具將忠實地捕獲代碼所做的事情,而不會引發紅旗。
假設兩個獨立進程中的兩段代碼執行相同的計算,以在數據庫中創建相同的重復數據。代碼分析無法發現這種情況,因為每段代碼都表現得很好。只有通過檢查數據庫才能發現并消除重復。
2.數據相似性譜系
檢測大型數據庫中的數據相似性需要花費大量時間和處理能力。
結果元數據將缺少許多細節,例如轉換邏輯。
它無法檢測尚未執行的沿襲元數據。例如,假設您有一個年終會計流程來調整收入和庫存。在該流程于12月31日運行之前,您將無法獲得有關它的沿襲元數據。
3.手動譜系映射