智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一，入選IDC企業(yè)數(shù)據(jù)治理實施部署指南。同時，在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報告中，連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

在線免費試用 DEMO體驗視頻介紹

睿治智能數(shù)據(jù)治理平臺

IDC蟬聯(lián)數(shù)據(jù)治理解決方案市場第一

什么是數(shù)據(jù)血緣？

時間：2022-07-21來源：別惹我我是男神瀏覽數(shù)：1702次

數(shù)據(jù)部門經(jīng)常被業(yè)務Diss數(shù)據(jù)是不是有問題，長此以往，會降低業(yè)務對數(shù)據(jù)準確度的信任，搞數(shù)據(jù)的天天被打上數(shù)據(jù)不準的標簽還是很無奈的。在數(shù)據(jù)產(chǎn)出任務層面對數(shù)據(jù)質(zhì)量的準確性、一致性、及時性、完整性等維度進行監(jiān)控覆蓋，觸發(fā)報警機制后，利用數(shù)據(jù)血緣關系，對下游應用進行通知提醒。業(yè)務看到后，至少知道數(shù)據(jù)部門在處理問題了，不會利用錯的數(shù)據(jù)做錯誤的決策，或者形成每次都是業(yè)務先發(fā)現(xiàn)問題的認知。

在數(shù)據(jù)資產(chǎn)管理與數(shù)據(jù)治理領域，數(shù)據(jù)之間的血緣關系是一個繞不開的話題，數(shù)據(jù)血緣的完備程度也是評價一個企業(yè)數(shù)據(jù)中臺成熟度的重要度量之一。到底什么是數(shù)據(jù)血緣，它對于數(shù)據(jù)工作者和數(shù)據(jù)使用者有哪些舉足輕重的作用呢？

一、從數(shù)據(jù)應用場景看什么是數(shù)據(jù)血緣

1.數(shù)據(jù)問題排查與運維

工作日早上上班，業(yè)務人員打開電腦看到昨日數(shù)據(jù)報表同比下降60%，于是找到數(shù)據(jù)部門“你們數(shù)據(jù)是不是有問題？”。常見數(shù)據(jù)異常的原因包括： 及時性問題，大數(shù)據(jù)集群資源不足或者平臺系統(tǒng)故障導致任務延遲代碼質(zhì)量問題，開發(fā)修改邏輯，導致數(shù)據(jù)清洗邏輯有誤帶來數(shù)據(jù)不準業(yè)務規(guī)則變更，業(yè)務變動數(shù)據(jù)加工代碼未及時更新源端臟數(shù)據(jù)問題，業(yè)務開發(fā)系統(tǒng)發(fā)布數(shù)據(jù)源問題導致結果錯誤 數(shù)據(jù)人員的排查路徑如下：第一步：找到報表指標來源的API接口，確定來源數(shù)據(jù)表（可能是GP表或者ClickHouse表）第二步：查找GP表對應的數(shù)據(jù)同步任務，以及Hive表的產(chǎn)出任務，查看任務是否正常執(zhí)行完畢第三步：找到Hive表加工任務的上游，逐層向上排查，先保證整個鏈路的任務都是正常執(zhí)行的，因為及時性問題是最高頻、常見且容易處理的問題第四步：檢查數(shù)據(jù)加工流程各項正常后，再看指標產(chǎn)出表的加工代碼，一是看是否近期有人為變更，二是翻代碼校驗對應的邏輯，按照指標加工的代碼層級逐級定位有問題的數(shù)據(jù)表。第五步：通過層層排查，定位了問題，但是問題的修復和數(shù)據(jù)重跑需要些時間，得趕緊通知下游，避免錯誤數(shù)據(jù)給業(yè)務帶來的錯誤決策和應用，比如錯把老客算成新客，帶來營銷費用損失，數(shù)據(jù)開發(fā)就要背鍋了。

2.數(shù)據(jù)治理與成本優(yōu)化

數(shù)據(jù)部門通常是一個企業(yè)的成本中心（toB商業(yè)化數(shù)據(jù)產(chǎn)品除外），一個中大型數(shù)據(jù)驅(qū)動的互聯(lián)網(wǎng)企業(yè)大數(shù)據(jù)集群服務器一般會占公司服務器比例在15%~30%，一臺服務器成本4W，每天10PB數(shù)據(jù)存儲和計算處理量，大概需要1000+服務器節(jié)點，機器折舊周期3年算，平均個月也需要大幾十萬的硬件成本。所以，數(shù)據(jù)部門除了做增量的業(yè)務支撐外，還要常態(tài)化的數(shù)據(jù)治理，把長期沒人使用的冷數(shù)據(jù)進行刪除，釋放存儲和計算資源。直接刪庫跑路肯定不行，刪除或歸檔任何一個數(shù)據(jù)，都需要盡可能全面的確認到底有沒有下游的業(yè)務方在使用。

3.數(shù)據(jù)血緣的定義

數(shù)據(jù)血緣，顧名思義，數(shù)據(jù)之間的血緣關系，好比人之間親情遠近親疏一樣。百科定義：數(shù)據(jù)血緣關系是指數(shù)據(jù)在產(chǎn)生、處理、流轉(zhuǎn)到消亡過程中，數(shù)據(jù)之間形成的一種類似于人類社會血緣關系的關系。數(shù)據(jù)血緣從數(shù)據(jù)角度可以是數(shù)據(jù)庫、表、字段、系統(tǒng)、應用程序，即數(shù)據(jù)存儲在什么數(shù)據(jù)庫的什么表，對應的字段是什么以及字段的屬性。從業(yè)務角度主要是數(shù)據(jù)所屬業(yè)務線，涉及到業(yè)務便要梳理清楚數(shù)據(jù)的產(chǎn)生邏輯、數(shù)據(jù)的使用邏輯以及業(yè)務線之間的關聯(lián)關系。因為數(shù)據(jù)的生產(chǎn)加工最終是要回歸和賦能業(yè)務，什么數(shù)據(jù)，被哪個業(yè)務場景使用，需要血緣關系進行串聯(lián)。

二、數(shù)據(jù)血緣作用與表現(xiàn)形式

1.數(shù)據(jù)血緣的作用

開篇的場景中的案例是數(shù)據(jù)血緣的兩個典型的作用，總結成一句話就是數(shù)據(jù)血緣可以幫助數(shù)據(jù)生產(chǎn)者以及消費者更好地對數(shù)據(jù)進行追根溯源，提升數(shù)據(jù)運維、數(shù)據(jù)治理的效率。

(1)提升數(shù)據(jù)問題排查效率

數(shù)據(jù)從生產(chǎn)到賦能業(yè)務應用經(jīng)過很多的處理環(huán)節(jié)，業(yè)務端報表或數(shù)據(jù)應用服務異常時，需要第一時間定位問題，排查修復。如果靠一層一層的人肉翻代碼效率非常低下，一方面數(shù)據(jù)開發(fā)人力花費在排查上，另一方面定位問題時間越長業(yè)務影響和損失越大，基于血緣數(shù)據(jù)加以可視化的展現(xiàn)形式，可以直觀地發(fā)現(xiàn)數(shù)據(jù)生產(chǎn)鏈路，以及各個環(huán)節(jié)有無異常。

(2)有助于優(yōu)化數(shù)據(jù)資產(chǎn)成本

隨著業(yè)務地發(fā)展數(shù)據(jù)不斷增長，任務、數(shù)據(jù)表只增不減會不斷膨脹大數(shù)據(jù)資源成本。很多時候不是不愿意做數(shù)據(jù)、服務治理，二是不敢。也就是不知道對應的服務有哪些業(yè)務在使用，缺少治理的依據(jù)，與其直接下線帶來業(yè)務影響，倒不如一直維持現(xiàn)狀。構建全面準確的全鏈路數(shù)據(jù)血緣，就可以找出數(shù)據(jù)下游應用方，做好溝通和信息同步，長期沒有調(diào)用的服務，及時做下線處理，節(jié)省數(shù)據(jù)成本。

(3)提升數(shù)據(jù)產(chǎn)品及應用體驗

(4)方便確認數(shù)據(jù)處理邏輯

業(yè)務部門在使用數(shù)據(jù)時，有時候需要確認數(shù)據(jù)口徑和加工邏輯是什么，是否符合自己的需求，通過血緣的可視化展示，可以方便業(yè)務部門查看數(shù)據(jù)的處理過程。

2.血緣的表現(xiàn)形式每個數(shù)據(jù)表、字段、指標都可以認為是一個數(shù)據(jù)實體，而生產(chǎn)它的上游，以及使用它的下游，都是對應的數(shù)據(jù)實體之間的關系，因此，在血緣數(shù)據(jù)的可視化展示時，主要采用可以直觀表示數(shù)據(jù)生產(chǎn)鏈路的形態(tài)，每個節(jié)點需要包含以下要素：

當前節(jié)點信息：名稱、類型、狀態(tài)

上游：關系、上游名稱、類型、狀態(tài)下游：關系、上游名稱、類型、狀態(tài)

三、血緣數(shù)據(jù)獲取與數(shù)據(jù)存儲

1.血緣數(shù)據(jù)的獲取方式

數(shù)據(jù)血緣的獲取主要有程序解析與人工采集兩種方式。比如流式數(shù)據(jù)處理的flink任務，從哪個源（source）的Kafka topic，加工清洗后，存儲到哪個Sink，離線批處理任務Hive數(shù)倉模型，也可以基于SQL輸入輸出表進行解析得到。數(shù)據(jù)開發(fā)調(diào)度任務之間的依賴關系等。一般早期時因技術和實現(xiàn)成本問題，血緣會以Hive數(shù)據(jù)源為主，但實際應用時，只有構建成全鏈路的數(shù)據(jù)血緣，才能最大發(fā)揮其價值。所以在相關數(shù)據(jù)平臺、系統(tǒng)建設時，要有意識的進行血緣數(shù)據(jù)的采集。人工采集主要是程序解析的輔助形式，畢竟從統(tǒng)計的概率上看，人比機器更容易犯錯。對于一些Jar包短期難以解析的流程，可以輔以人工輸入的形式。

2.血緣數(shù)據(jù)的存儲演進

雖然傳統(tǒng)的MySQL數(shù)據(jù)庫也可以存儲血緣數(shù)據(jù)，但是由于血緣數(shù)據(jù)的形態(tài)以及查詢使用的場景對性能要求更高，所以在實際應用時，主要采用圖數(shù)據(jù)庫存儲的方式。常見的圖數(shù)據(jù)庫的特點對比如下：圖片來源網(wǎng)絡

四、總結

數(shù)據(jù)血緣是數(shù)據(jù)開發(fā)者效能提升利器，同時也是貫通數(shù)據(jù)采、存、管、用全鏈路流程的紐帶，建立完善的數(shù)據(jù)血緣關系，數(shù)據(jù)應用的成熟度才會更高。針對數(shù)據(jù)血緣這一領域，也可以構建獨立的數(shù)據(jù)產(chǎn)品模塊，以數(shù)據(jù)產(chǎn)品提升血緣應用的效率。

（部分內(nèi)容來源網(wǎng)絡，如有侵權請聯(lián)系刪除）

立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費試用我要試用

上一篇：數(shù)字化鍛造企業(yè)韌性...

下一篇：詳解客商主數(shù)據(jù)的輸入及相關管理...