日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實施部署指南。同時,在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

什么是數(shù)據(jù)血緣?

時間:2022-07-21來源:別惹我我是男神瀏覽數(shù):1702

數(shù)據(jù)部門經(jīng)常被業(yè)務Diss數(shù)據(jù)是不是有問題,長此以往,會降低業(yè)務對數(shù)據(jù)準確度的信任,搞數(shù)據(jù)的天天被打上數(shù)據(jù)不準的標簽還是很無奈的。在數(shù)據(jù)產(chǎn)出任務層面對數(shù)據(jù)質(zhì)量的準確性、一致性、及時性、完整性等維度進行監(jiān)控覆蓋,觸發(fā)報警機制后,利用數(shù)據(jù)血緣關系,對下游應用進行通知提醒。業(yè)務看到后,至少知道數(shù)據(jù)部門在處理問題了,不會利用錯的數(shù)據(jù)做錯誤的決策,或者形成每次都是業(yè)務先發(fā)現(xiàn)問題的認知。

數(shù)據(jù)資產(chǎn)管理數(shù)據(jù)治理領域,數(shù)據(jù)之間的血緣關系是一個繞不開的話題,數(shù)據(jù)血緣的完備程度也是評價一個企業(yè)數(shù)據(jù)中臺成熟度的重要度量之一。到底什么是數(shù)據(jù)血緣,它對于數(shù)據(jù)工作者和數(shù)據(jù)使用者有哪些舉足輕重的作用呢?

一、從數(shù)據(jù)應用場景看什么是數(shù)據(jù)血緣

1.數(shù)據(jù)問題排查與運維

工作日早上上班,業(yè)務人員打開電腦看到昨日數(shù)據(jù)報表同比下降60%,于是找到數(shù)據(jù)部門“你們數(shù)據(jù)是不是有問題?”。常見數(shù)據(jù)異常的原因包括: 及時性問題,大數(shù)據(jù)集群資源不足或者平臺系統(tǒng)故障導致任務延遲 代碼質(zhì)量問題,開發(fā)修改邏輯,導致數(shù)據(jù)清洗邏輯有誤帶來數(shù)據(jù)不準 業(yè)務規(guī)則變更,業(yè)務變動數(shù)據(jù)加工代碼未及時更新 源端臟數(shù)據(jù)問題,業(yè)務開發(fā)系統(tǒng)發(fā)布數(shù)據(jù)源問題導致結果錯誤 數(shù)據(jù)人員的排查路徑如下:第一步:找到報表指標來源的API接口,確定來源數(shù)據(jù)表(可能是GP表或者ClickHouse表)第二步:查找GP表對應的數(shù)據(jù)同步任務,以及Hive表的產(chǎn)出任務,查看任務是否正常執(zhí)行完畢第三步:找到Hive表加工任務的上游,逐層向上排查,先保證整個鏈路的任務都是正常執(zhí)行的,因為及時性問題是最高頻、常見且容易處理的問題第四步:檢查數(shù)據(jù)加工流程各項正常后,再看指標產(chǎn)出表的加工代碼,一是看是否近期有人為變更,二是翻代碼校驗對應的邏輯,按照指標加工的代碼層級逐級定位有問題的數(shù)據(jù)表。第五步:通過層層排查,定位了問題,但是問題的修復和數(shù)據(jù)重跑需要些時間,得趕緊通知下游,避免錯誤數(shù)據(jù)給業(yè)務帶來的錯誤決策和應用,比如錯把老客算成新客,帶來營銷費用損失,數(shù)據(jù)開發(fā)就要背鍋了。

2.數(shù)據(jù)治理與成本優(yōu)化

數(shù)據(jù)部門通常是一個企業(yè)的成本中心(toB商業(yè)化數(shù)據(jù)產(chǎn)品除外),一個中大型數(shù)據(jù)驅(qū)動的互聯(lián)網(wǎng)企業(yè)大數(shù)據(jù)集群服務器一般會占公司服務器比例在15%~30%,一臺服務器成本4W,每天10PB數(shù)據(jù)存儲和計算處理量,大概需要1000+服務器節(jié)點,機器折舊周期3年算,平均個月也需要大幾十萬的硬件成本。所以,數(shù)據(jù)部門除了做增量的業(yè)務支撐外,還要常態(tài)化的數(shù)據(jù)治理,把長期沒人使用的冷數(shù)據(jù)進行刪除,釋放存儲和計算資源。直接刪庫跑路肯定不行,刪除或歸檔任何一個數(shù)據(jù),都需要盡可能全面的確認到底有沒有下游的業(yè)務方在使用。

3.數(shù)據(jù)血緣的定義

數(shù)據(jù)血緣,顧名思義,數(shù)據(jù)之間的血緣關系,好比人之間親情遠近親疏一樣。百科定義:數(shù)據(jù)血緣關系是指數(shù)據(jù)在產(chǎn)生、處理、流轉(zhuǎn)到消亡過程中,數(shù)據(jù)之間形成的一種類似于人類社會血緣關系的關系。數(shù)據(jù)血緣從數(shù)據(jù)角度可以是數(shù)據(jù)庫、表、字段、系統(tǒng)、應用程序,即數(shù)據(jù)存儲在什么數(shù)據(jù)庫的什么表,對應的字段是什么以及字段的屬性。從業(yè)務角度主要是數(shù)據(jù)所屬業(yè)務線,涉及到業(yè)務便要梳理清楚數(shù)據(jù)的產(chǎn)生邏輯、數(shù)據(jù)的使用邏輯以及業(yè)務線之間的關聯(lián)關系。因為數(shù)據(jù)的生產(chǎn)加工最終是要回歸和賦能業(yè)務,什么數(shù)據(jù),被哪個業(yè)務場景使用,需要血緣關系進行串聯(lián)。

二、數(shù)據(jù)血緣作用與表現(xiàn)形式

1.數(shù)據(jù)血緣的作用

開篇的場景中的案例是數(shù)據(jù)血緣的兩個典型的作用,總結成一句話就是數(shù)據(jù)血緣可以幫助數(shù)據(jù)生產(chǎn)者以及消費者更好地對數(shù)據(jù)進行追根溯源,提升數(shù)據(jù)運維、數(shù)據(jù)治理的效率。

(1)提升數(shù)據(jù)問題排查效率

數(shù)據(jù)從生產(chǎn)到賦能業(yè)務應用經(jīng)過很多的處理環(huán)節(jié),業(yè)務端報表或數(shù)據(jù)應用服務異常時,需要第一時間定位問題,排查修復。如果靠一層一層的人肉翻代碼效率非常低下,一方面數(shù)據(jù)開發(fā)人力花費在排查上,另一方面定位問題時間越長業(yè)務影響和損失越大,基于血緣數(shù)據(jù)加以可視化的展現(xiàn)形式,可以直觀地發(fā)現(xiàn)數(shù)據(jù)生產(chǎn)鏈路,以及各個環(huán)節(jié)有無異常。

(2)有助于優(yōu)化數(shù)據(jù)資產(chǎn)成本

隨著業(yè)務地發(fā)展數(shù)據(jù)不斷增長,任務、數(shù)據(jù)表只增不減會不斷膨脹大數(shù)據(jù)資源成本。很多時候不是不愿意做數(shù)據(jù)、服務治理,二是不敢。也就是不知道對應的服務有哪些業(yè)務在使用,缺少治理的依據(jù),與其直接下線帶來業(yè)務影響,倒不如一直維持現(xiàn)狀。構建全面準確的全鏈路數(shù)據(jù)血緣,就可以找出數(shù)據(jù)下游應用方,做好溝通和信息同步,長期沒有調(diào)用的服務,及時做下線處理,節(jié)省數(shù)據(jù)成本。

(3)提升數(shù)據(jù)產(chǎn)品及應用體驗

數(shù)據(jù)部門經(jīng)常被業(yè)務Diss數(shù)據(jù)是不是有問題,長此以往,會降低業(yè)務對數(shù)據(jù)準確度的信任,搞數(shù)據(jù)的天天被打上數(shù)據(jù)不準的標簽還是很無奈的。在數(shù)據(jù)產(chǎn)出任務層面對數(shù)據(jù)質(zhì)量的準確性、一致性、及時性、完整性等維度進行監(jiān)控覆蓋,觸發(fā)報警機制后,利用數(shù)據(jù)血緣關系,對下游應用進行通知提醒。業(yè)務看到后,至少知道數(shù)據(jù)部門在處理問題了,不會利用錯的數(shù)據(jù)做錯誤的決策,或者形成每次都是業(yè)務先發(fā)現(xiàn)問題的認知。

(4)方便確認數(shù)據(jù)處理邏輯

業(yè)務部門在使用數(shù)據(jù)時,有時候需要確認數(shù)據(jù)口徑和加工邏輯是什么,是否符合自己的需求,通過血緣的可視化展示,可以方便業(yè)務部門查看數(shù)據(jù)的處理過程。

2.血緣的表現(xiàn)形式每個數(shù)據(jù)表、字段、指標都可以認為是一個數(shù)據(jù)實體,而生產(chǎn)它的上游,以及使用它的下游,都是對應的數(shù)據(jù)實體之間的關系,因此,在血緣數(shù)據(jù)的可視化展示時,主要采用可以直觀表示數(shù)據(jù)生產(chǎn)鏈路的形態(tài),每個節(jié)點需要包含以下要素:

當前節(jié)點信息:名稱、類型、狀態(tài)

上游:關系、上游名稱、類型、狀態(tài)下游:關系、上游名稱、類型、狀態(tài)

三、血緣數(shù)據(jù)獲取與數(shù)據(jù)存儲

1.血緣數(shù)據(jù)的獲取方式

數(shù)據(jù)血緣的獲取主要有程序解析與人工采集兩種方式。比如流式數(shù)據(jù)處理的flink任務,從哪個源(source)的Kafka topic,加工清洗后,存儲到哪個Sink,離線批處理任務Hive數(shù)倉模型,也可以基于SQL輸入輸出表進行解析得到。數(shù)據(jù)開發(fā)調(diào)度任務之間的依賴關系等。一般早期時因技術和實現(xiàn)成本問題,血緣會以Hive數(shù)據(jù)源為主,但實際應用時,只有構建成全鏈路的數(shù)據(jù)血緣,才能最大發(fā)揮其價值。所以在相關數(shù)據(jù)平臺、系統(tǒng)建設時,要有意識的進行血緣數(shù)據(jù)的采集。人工采集主要是程序解析的輔助形式,畢竟從統(tǒng)計的概率上看,人比機器更容易犯錯。對于一些Jar包短期難以解析的流程,可以輔以人工輸入的形式。

2.血緣數(shù)據(jù)的存儲演進

雖然傳統(tǒng)的MySQL數(shù)據(jù)庫也可以存儲血緣數(shù)據(jù),但是由于血緣數(shù)據(jù)的形態(tài)以及查詢使用的場景對性能要求更高,所以在實際應用時,主要采用圖數(shù)據(jù)庫存儲的方式。常見的圖數(shù)據(jù)庫的特點對比如下:圖片來源網(wǎng)絡

四、總結

數(shù)據(jù)血緣是數(shù)據(jù)開發(fā)者效能提升利器,同時也是貫通數(shù)據(jù)采、存、管、用全鏈路流程的紐帶,建立完善的數(shù)據(jù)血緣關系,數(shù)據(jù)應用的成熟度才會更高。針對數(shù)據(jù)血緣這一領域,也可以構建獨立的數(shù)據(jù)產(chǎn)品模塊,以數(shù)據(jù)產(chǎn)品提升血緣應用的效率。

(部分內(nèi)容來源網(wǎng)絡,如有侵權請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢