日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺(tái)

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

數(shù)據(jù)血緣落地實(shí)施

時(shí)間:2022-07-25來源:社區(qū)小辣妹瀏覽數(shù):799

針對(duì)銀行、保險(xiǎn)、政府等對(duì)安全關(guān)注度較高的行業(yè),數(shù)據(jù)安全-數(shù)據(jù)泄露-數(shù)據(jù)合規(guī)性需要重點(diǎn)關(guān)注。由于數(shù)據(jù)存在ETL鏈路操作,下游表的數(shù)據(jù)來源于上游表,所以需要基于數(shù)據(jù)全鏈路來進(jìn)行安全審計(jì),否則可能會(huì)出現(xiàn)下游數(shù)據(jù)安全等級(jí)較低,導(dǎo)致上游部分核心數(shù)據(jù)泄露。

?在復(fù)雜的社會(huì)分工協(xié)作體系中,我們需要明確個(gè)人定位,才能更好的發(fā)揮價(jià)值,數(shù)據(jù)也是一樣,于是,數(shù)據(jù)血緣應(yīng)運(yùn)而生。

圖:數(shù)據(jù)血緣實(shí)例一、數(shù)據(jù)血緣是什么

數(shù)據(jù)血緣是在數(shù)據(jù)的加工、流轉(zhuǎn)過程產(chǎn)生的數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系。

提供一種探查數(shù)據(jù)關(guān)系的手段,用于跟蹤數(shù)據(jù)流經(jīng)路徑。

二、數(shù)據(jù)血緣的組成

1、數(shù)據(jù)節(jié)點(diǎn)

數(shù)據(jù)血緣中的節(jié)點(diǎn),可以理解為數(shù)據(jù)流轉(zhuǎn)中的一個(gè)個(gè)實(shí)體,用于承載數(shù)據(jù)功能業(yè)務(wù)。例如數(shù)據(jù)庫、數(shù)據(jù)表、數(shù)據(jù)字段都是數(shù)據(jù)節(jié)點(diǎn);從廣義上來說,與數(shù)據(jù)業(yè)務(wù)相關(guān)的實(shí)體都可以作為節(jié)點(diǎn)納入血緣圖中,例如指標(biāo)、報(bào)表、業(yè)務(wù)系統(tǒng)等。

按照血緣關(guān)系劃分節(jié)點(diǎn),主要有以下三類:流出節(jié)點(diǎn)->中間節(jié)點(diǎn)->流入節(jié)點(diǎn)

流出節(jié)點(diǎn): 數(shù)據(jù)提供方,血緣關(guān)系的源端節(jié)點(diǎn)。中間節(jié)點(diǎn): 血緣關(guān)系中類型最多的節(jié)點(diǎn),既承接流入數(shù)據(jù),又對(duì)外流出數(shù)據(jù)。流入節(jié)點(diǎn): 血緣關(guān)系的終端節(jié)點(diǎn),一般為應(yīng)用層,例如可視化報(bào)表、儀表板或業(yè)務(wù)系統(tǒng)。

2、節(jié)點(diǎn)屬性

當(dāng)前節(jié)點(diǎn)的屬性信息,例如表名,字段名,注釋,說明等。

3、流轉(zhuǎn)路徑

數(shù)據(jù)流轉(zhuǎn)路徑通過表現(xiàn)數(shù)據(jù)流動(dòng)方向、數(shù)據(jù)更新量級(jí)、數(shù)據(jù)更新頻率三個(gè)維度的信息,標(biāo)明了數(shù)據(jù)的流入流出信息:

數(shù)據(jù)流動(dòng)方向: 通過箭頭的方式表明數(shù)據(jù)流動(dòng)方向數(shù)據(jù)更新量級(jí): 數(shù)據(jù)更新的量級(jí)越大,血緣線條越粗,說明數(shù)據(jù)的重要性越高。數(shù)據(jù)更新頻率: 數(shù)據(jù)更新的頻率越高,血緣線條越短,變化越頻繁,重要性越高。

4、流轉(zhuǎn)規(guī)則-屬性

流轉(zhuǎn)規(guī)則體現(xiàn)了數(shù)據(jù)流轉(zhuǎn)過程中發(fā)生的變化,屬性則記錄了當(dāng)前路徑對(duì)數(shù)據(jù)的操作內(nèi)容,用戶可通過流轉(zhuǎn)路徑查看該路徑規(guī)則與屬性,規(guī)則可以是直接映射關(guān)系,也可以是復(fù)雜的規(guī)則,例如:

數(shù)據(jù)映射: 不對(duì)數(shù)據(jù)做任何變動(dòng),直接抽取。數(shù)據(jù)清洗 表現(xiàn)數(shù)據(jù)流轉(zhuǎn)過程中的篩選標(biāo)準(zhǔn)。例如要求數(shù)據(jù)不能為空值、符合特定格式等。數(shù)據(jù)轉(zhuǎn)換: 數(shù)據(jù)流轉(zhuǎn)過程中,流出實(shí)體的數(shù)據(jù)需要進(jìn)行特殊處理才能接入到數(shù)據(jù)需求方。數(shù)據(jù)調(diào)度: 體現(xiàn)當(dāng)前數(shù)據(jù)的調(diào)度依賴關(guān)系。數(shù)據(jù)應(yīng)用 為報(bào)表與應(yīng)用提供數(shù)據(jù)。

三、我們?yōu)槭裁葱枰獢?shù)據(jù)血緣

1、日益龐大的數(shù)據(jù)開發(fā)導(dǎo)致表間關(guān)系混亂,管理成本與使用成本激增

數(shù)據(jù)血緣產(chǎn)生最本質(zhì)的需求。大數(shù)據(jù)開發(fā)作為數(shù)據(jù)匯集與數(shù)據(jù)服務(wù)提供方,龐大的數(shù)據(jù)與混亂的數(shù)據(jù)依賴導(dǎo)致管理成本與使用成本飆升。

2、數(shù)據(jù)價(jià)值評(píng)估,數(shù)據(jù)質(zhì)量難以推進(jìn)

表的優(yōu)先級(jí)劃分,計(jì)算資源的傾斜,表級(jí)數(shù)據(jù)質(zhì)量監(jiān)控,如何制定一個(gè)明確且科學(xué)的標(biāo)準(zhǔn)。

3、什么表該刪,什么表不能刪,下架無依據(jù)

業(yè)務(wù)庫,數(shù)倉庫,中間庫,開發(fā)庫,測試庫等眾多庫表,是否存在數(shù)據(jù)冗余(一定存在)。以及存儲(chǔ)資源如何釋放?

4、動(dòng)了一張表,錯(cuò)了一堆表

你改了一張表的字段,第二天醒來發(fā)現(xiàn)郵件里一堆任務(wù)異常告警。

5、ETL任務(wù)異常時(shí)的歸因分析、影響分析、恢復(fù)

承接上個(gè)問題,如果存在任務(wù)異常或者ETL故障,我們?nèi)绾味ㄎ划惓T颍⑶疫M(jìn)行影響分析,以及下游受影響節(jié)點(diǎn)的快速恢復(fù)。

6、調(diào)度依賴混亂

數(shù)據(jù)依賴混亂必然會(huì)帶來調(diào)度任務(wù)的依賴混亂,如何構(gòu)建一個(gè)健壯的調(diào)度依賴。

7、數(shù)據(jù)安全審計(jì)難以開展

針對(duì)銀行、保險(xiǎn)、政府等對(duì)安全關(guān)注度較高的行業(yè),數(shù)據(jù)安全-數(shù)據(jù)泄露-數(shù)據(jù)合規(guī)性需要重點(diǎn)關(guān)注。由于數(shù)據(jù)存在ETL鏈路操作,下游表的數(shù)據(jù)來源于上游表,所以需要基于數(shù)據(jù)全鏈路來進(jìn)行安全審計(jì),否則可能會(huì)出現(xiàn)下游數(shù)據(jù)安全等級(jí)較低,導(dǎo)致上游部分核心數(shù)據(jù)泄露。

四、數(shù)據(jù)血緣可以做什么

1、流程定位,追蹤溯源

通過可視化方式,將目標(biāo)表的上下游依賴進(jìn)行展示,一目了然。

2、確定影響范圍

通過當(dāng)前節(jié)點(diǎn)的下游節(jié)點(diǎn)數(shù)量以及類型可以確定其影響范圍,可避免出現(xiàn)上游表的修改導(dǎo)致下游表的報(bào)錯(cuò)。

3、評(píng)估數(shù)據(jù)價(jià)值、推動(dòng)數(shù)據(jù)質(zhì)量

通過對(duì)所有表節(jié)點(diǎn)的下游節(jié)點(diǎn)進(jìn)行匯總,排序,作為數(shù)據(jù)評(píng)估依據(jù),可重點(diǎn)關(guān)注輸出數(shù)量較多的數(shù)據(jù)節(jié)點(diǎn),并添加數(shù)據(jù)質(zhì)量監(jiān)控。

4、提供數(shù)據(jù)下架依據(jù)

例如以下數(shù)據(jù)節(jié)點(diǎn),無任何下游輸出節(jié)點(diǎn),且并無任何存檔需求,則可以考慮將其下架刪除。

5、歸因分析,快速恢復(fù)

當(dāng)某個(gè)任務(wù)出現(xiàn)問題時(shí),通過查看血緣上游的節(jié)點(diǎn),排查出造成問題的根因是什么。同時(shí)根據(jù)當(dāng)前任務(wù)節(jié)點(diǎn)的下游節(jié)點(diǎn)進(jìn)行任務(wù)的快速恢復(fù)。

6、梳理調(diào)度依賴

可以將血緣節(jié)點(diǎn)與調(diào)度節(jié)點(diǎn)綁定,通過血緣依賴進(jìn)行ETL調(diào)度。

7、數(shù)據(jù)安全審計(jì)

數(shù)據(jù)本身具有權(quán)限與安全等級(jí),下游數(shù)據(jù)的安全等級(jí)不應(yīng)該低于上游的安全等級(jí),否則會(huì)有權(quán)限泄露風(fēng)險(xiǎn)。

可以基于血緣,通過掃描高安全等級(jí)節(jié)點(diǎn)的下游,查看下游節(jié)點(diǎn)是否與上游節(jié)點(diǎn)權(quán)限保持一致,來排除權(quán)限泄露、數(shù)據(jù)泄露等安全合規(guī)風(fēng)險(xiǎn)。

五、數(shù)據(jù)血緣落地方案

目前業(yè)內(nèi)常見的落地?cái)?shù)據(jù)血緣系統(tǒng)以及應(yīng)用,主要有以下三種方式:

1、采用開源系統(tǒng):

Atlas、Metacat、Datahub等

采用開源系統(tǒng)最大的優(yōu)點(diǎn)是投入成本較低,但是缺點(diǎn)主要包括

1、適配性較差,開源方案無法完全匹配公司現(xiàn)有痛點(diǎn)。

2、二開成本高,需要根據(jù)開源版本進(jìn)行定制化開發(fā)。

2、廠商收費(fèi)平臺(tái):

億信華辰,網(wǎng)易數(shù)帆等

此類數(shù)據(jù)平臺(tái)中會(huì)內(nèi)置數(shù)據(jù)血緣管理系統(tǒng),功能較為全面,使用方便。但是同樣也有以下缺點(diǎn):

1、貴

2、需要ALL IN平臺(tái),為保障數(shù)據(jù)血緣的使用,數(shù)據(jù)業(yè)務(wù)需要全部遷移到廠商平臺(tái)中。

3、自建

通過圖數(shù)據(jù)庫、后端、前端自建數(shù)據(jù)血緣管理系統(tǒng),此方案開發(fā)投入較大,但是有以下優(yōu)點(diǎn)

1、因地制宜,可根據(jù)核心痛點(diǎn)定制化開發(fā)元數(shù)據(jù)及數(shù)據(jù)血緣系統(tǒng)。

2、技術(shù)積累,對(duì)于開發(fā)人員來說,從0-1開發(fā)數(shù)據(jù)血緣系統(tǒng),可以更深刻的理解數(shù)據(jù)業(yè)務(wù)。

3、平臺(tái)解耦,獨(dú)立于數(shù)據(jù)平臺(tái)之外,數(shù)據(jù)血緣的開發(fā)不會(huì)對(duì)正常業(yè)務(wù)造成影響。

接下來我們講講如何自建數(shù)據(jù)血緣系統(tǒng)

六、如何構(gòu)建數(shù)據(jù)血緣系統(tǒng) 1、明確需求,確定邊界

在進(jìn)行血緣系統(tǒng)構(gòu)建之前,需要進(jìn)行需求調(diào)研,明確血緣系統(tǒng)的主要功能,從而確定血緣系統(tǒng)的最細(xì)節(jié)點(diǎn)粒度,實(shí)體邊界范圍。

例如節(jié)點(diǎn)粒度是否需要精確到字段級(jí),或是表級(jí)。一般來說,表級(jí)粒度血緣可以解決75%左右的痛點(diǎn)需求, 字段級(jí)血緣復(fù)雜度較表級(jí)血緣高出許多,如果部門人數(shù)較少,可以考慮只精確到表級(jí)粒度血緣。

常見的實(shí)體節(jié)點(diǎn)包括:任務(wù)節(jié)點(diǎn)、庫節(jié)點(diǎn)、表節(jié)點(diǎn)、字段節(jié)點(diǎn)、指標(biāo)節(jié)點(diǎn)、報(bào)表節(jié)點(diǎn)、部門節(jié)點(diǎn)等。血緣系統(tǒng)可以擴(kuò)展數(shù)據(jù)相關(guān)的實(shí)體節(jié)點(diǎn),可以從不同的場景查看數(shù)據(jù)走向,例如表與指標(biāo),指標(biāo)與報(bào)表的血緣關(guān)系。但是實(shí)體節(jié)點(diǎn)的范圍需要明確,不可無限制的擴(kuò)展下去。

明確需求,確定節(jié)點(diǎn)粒度與范圍之后,才可根據(jù)痛點(diǎn)問題給出準(zhǔn)確的解決方案,不至于血緣系統(tǒng)越建越臃腫,提高ROI(投入產(chǎn)出比)

2、構(gòu)建元數(shù)據(jù)管理系統(tǒng)

目前市面上所有的血緣系統(tǒng)都需要依賴于元數(shù)據(jù)管理系統(tǒng)而存在。

元數(shù)據(jù)作為血緣的基礎(chǔ),一是用于構(gòu)建節(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系,二是用于填充節(jié)點(diǎn)的屬性,三是血緣系統(tǒng)的應(yīng)用需要基于元數(shù)據(jù)才能發(fā)揮出最大的價(jià)值。所以構(gòu)建血緣系統(tǒng)的前提一定是有一個(gè)較全面的元數(shù)據(jù)。

元數(shù)據(jù)管理系統(tǒng)將會(huì)在下周發(fā)布的《元數(shù)據(jù)管理系統(tǒng)落地實(shí)施》文章中進(jìn)行詳細(xì)講解

3、技術(shù)選型:圖數(shù)據(jù)庫

目前業(yè)內(nèi)通常采用圖數(shù)據(jù)庫進(jìn)行血緣關(guān)系的存儲(chǔ)。

對(duì)于血緣關(guān)系這種層級(jí)較深,嵌套次數(shù)較多的應(yīng)用場景,關(guān)系型數(shù)據(jù)庫必須進(jìn)行表連接的操作,表連接次數(shù)隨著查詢的深度增大而增多,會(huì)極大影響查詢的響應(yīng)速度。

而在圖數(shù)據(jù)庫中,應(yīng)用程序不必使用外鍵約束實(shí)現(xiàn)表間的相互引用,而是利用關(guān)系作為連接跳板進(jìn)行查詢,在查詢關(guān)系時(shí)性能極佳,而且利用圖的方式來表達(dá)血緣關(guān)系更為直接。

下圖為圖數(shù)據(jù)庫與關(guān)系型數(shù)據(jù)庫在查詢?nèi)嗣}時(shí)的邏輯對(duì)比:

4、血緣關(guān)系錄入:自動(dòng)解析and手動(dòng)登記

自動(dòng)解析:

獲取到元數(shù)據(jù)之后,首先可以根據(jù)元數(shù)據(jù)表中的SQL抽取語句,通過SQL解析器可自動(dòng)化獲取到當(dāng)前表的來源表【SQL解析器推薦jsqlparse】,并進(jìn)行血緣關(guān)系錄入。

手動(dòng)登記:

如果當(dāng)前表無SQL抽取語句,數(shù)據(jù)來源為手動(dòng)導(dǎo)入、代碼寫入、SparkRDD方式等無法通過自動(dòng)化方式確定來源表的時(shí)候,我們需要對(duì)來源表進(jìn)行手動(dòng)登記,然后進(jìn)行血緣關(guān)系的錄入。

血緣關(guān)系錄入需要基于圖數(shù)據(jù)庫進(jìn)行,圖數(shù)據(jù)庫的建模、語句與關(guān)系型數(shù)據(jù)庫截然不同,如有疑問可以加入社區(qū)交流群進(jìn)行解答。

5、血緣可視化

血緣系統(tǒng)構(gòu)建完成后,為了能夠更好的體現(xiàn)血緣價(jià)值,量化產(chǎn)出,需要進(jìn)行血緣可視化的開發(fā),分為兩步:

(1)鏈路-屬性展示:

根據(jù)具體節(jié)點(diǎn),通過點(diǎn)擊操作,逐級(jí)展示血緣節(jié)點(diǎn)間的鏈路走向與涉及到的節(jié)點(diǎn)屬性信息。

(2)節(jié)點(diǎn)操作:

基于可視化的血緣節(jié)點(diǎn)與當(dāng)前節(jié)點(diǎn)附帶的元數(shù)據(jù)屬性,我們可以設(shè)想一些自動(dòng)化操作例如:

節(jié)點(diǎn)調(diào)度:直接基于血緣開啟當(dāng)前表節(jié)點(diǎn)的調(diào)度任務(wù)

屬性修改:通過前端修改當(dāng)前節(jié)點(diǎn)的元數(shù)據(jù)屬性并保存

還有更多可視化操作可以加入社區(qū)交流群進(jìn)行討論

6、血緣統(tǒng)計(jì)分析

數(shù)據(jù)血緣構(gòu)建完成后,我們可以做一些統(tǒng)計(jì)分析的操作,從不同層面查看數(shù)據(jù)的分布與使用情況,從而支撐業(yè)務(wù)更好更快更清晰。

以我們團(tuán)隊(duì)舉例,在工作過程中,我們需要以下血緣統(tǒng)計(jì)用于支撐數(shù)據(jù)業(yè)務(wù),例如:

數(shù)據(jù)節(jié)點(diǎn)下游節(jié)點(diǎn)數(shù)量排序,用于評(píng)估數(shù)據(jù)價(jià)值及其影響范圍

查詢當(dāng)前節(jié)點(diǎn)的所有上游節(jié)點(diǎn),用于業(yè)務(wù)追蹤溯源

數(shù)據(jù)節(jié)點(diǎn)輸出報(bào)表信息詳情統(tǒng)計(jì),用于報(bào)表的上架與更新

查詢孤島節(jié)點(diǎn),即無上下游節(jié)點(diǎn)的節(jié)點(diǎn),用于數(shù)據(jù)刪除的依據(jù)

7、血緣驅(qū)動(dòng)業(yè)務(wù)開展

數(shù)據(jù)血緣構(gòu)建完成,統(tǒng)計(jì)分析結(jié)果也有了,業(yè)務(wù)痛點(diǎn)也明確了,接下來我們即可利用數(shù)據(jù)血緣驅(qū)動(dòng)業(yè)務(wù)更好更快開展。

我們團(tuán)隊(duì)目前落地的血緣相關(guān)業(yè)務(wù)有以下幾點(diǎn):

(1)影響范圍告警:

將血緣關(guān)系與調(diào)度任務(wù)打通,監(jiān)測當(dāng)前血緣節(jié)點(diǎn)的調(diào)度任務(wù),如果當(dāng)前節(jié)點(diǎn)調(diào)度出現(xiàn)異常,則對(duì)當(dāng)前節(jié)點(diǎn)的所有下游節(jié)點(diǎn)進(jìn)行告警。

(2)異常原因探查:

還是將血緣關(guān)系與調(diào)度任務(wù)打通,監(jiān)測當(dāng)前血緣節(jié)點(diǎn)的調(diào)度任務(wù),如果當(dāng)前節(jié)點(diǎn)調(diào)度出現(xiàn)異常,則會(huì)給出當(dāng)前節(jié)點(diǎn)的直接上游節(jié)點(diǎn),用于探查異常原因。

(3)異常鏈路一鍵恢復(fù):

基于上一應(yīng)用,異常原因定位并且修復(fù)完成之后,可以通過血緣系統(tǒng),一鍵恢復(fù)當(dāng)前數(shù)據(jù)節(jié)點(diǎn)的所有下游節(jié)點(diǎn)調(diào)度任務(wù),真正實(shí)現(xiàn)一鍵操作。

團(tuán)隊(duì)目前已經(jīng)基于血緣系統(tǒng)構(gòu)建出一整套的異常調(diào)度影響范圍告警->異常原因探查->異常鏈路一鍵恢復(fù)的故障響應(yīng)修復(fù)機(jī)制。

(4)支撐數(shù)據(jù)下架:

目前團(tuán)隊(duì)已經(jīng)根據(jù)探查孤島節(jié)點(diǎn)即無上下游節(jié)點(diǎn)的節(jié)點(diǎn),累計(jì)歸檔數(shù)據(jù)表628張,節(jié)省了13%的存儲(chǔ)空間。

(5)數(shù)據(jù)質(zhì)量監(jiān)控:

對(duì)當(dāng)前血緣中所有節(jié)點(diǎn)輸出的下有節(jié)點(diǎn)數(shù)量進(jìn)行排序,可以精確的判斷某張表的影響范圍大小,從而可以根據(jù)此對(duì)高排序表進(jìn)行數(shù)據(jù)質(zhì)量的監(jiān)控。

(6)數(shù)據(jù)標(biāo)準(zhǔn)化監(jiān)控:

如果當(dāng)前公司制定了基于庫、表、字段的命名規(guī)范,我們可以通過探查血緣中的所有數(shù)據(jù)節(jié)點(diǎn),并命名規(guī)范進(jìn)行匹配,得到不符合規(guī)范的庫、表、字段進(jìn)行整改。

當(dāng)然了,此業(yè)務(wù)僅基于元數(shù)據(jù)也可實(shí)現(xiàn),放在此處屬于博主強(qiáng)行升華了。

(7)數(shù)據(jù)安全審計(jì):

團(tuán)隊(duì)基于用戶職級(jí)、部門、操作行為等權(quán)重對(duì)目前的庫表進(jìn)行了數(shù)據(jù)權(quán)限等級(jí)劃分,權(quán)限等級(jí)越高,當(dāng)前表的安全級(jí)別越高。

團(tuán)隊(duì)基于血緣進(jìn)行數(shù)據(jù)全鏈路的安全等級(jí)監(jiān)測,如果發(fā)現(xiàn)下游節(jié)點(diǎn)安全等級(jí)低于上游節(jié)點(diǎn),則會(huì)進(jìn)行告警并提示整改。確保因?yàn)榘踩燃?jí)混亂導(dǎo)致數(shù)據(jù)泄露。

八、血緣系統(tǒng)評(píng)價(jià)標(biāo)準(zhǔn)

在推動(dòng)數(shù)據(jù)血緣落地過程中,經(jīng)常會(huì)有用戶詢問:血緣質(zhì)量如何?覆蓋場景是否全面?能否解決他們的痛點(diǎn)?做出來好用嗎?

于是我也在思考,市面上血緣系統(tǒng)方案那么多,我們自建系統(tǒng)的核心優(yōu)勢在哪里,血緣系統(tǒng)的優(yōu)劣從哪些層次進(jìn)行評(píng)價(jià),于是我們團(tuán)隊(duì)量化出了以下三個(gè)技術(shù)指標(biāo):

1、準(zhǔn)確率

定義: 假設(shè)一個(gè)任務(wù)實(shí)際的輸入和產(chǎn)出與血緣中該任務(wù)的上游和下游相符,既不缺失也不多余,則認(rèn)為這個(gè)任務(wù)的血緣是準(zhǔn)確的,血緣準(zhǔn)確的任務(wù)占全量任務(wù)的比例即為血緣準(zhǔn)確率。

準(zhǔn)確率是數(shù)據(jù)血緣中最核心的指標(biāo),例如影響范圍告警,血緣的缺失有可能會(huì)造成重要任務(wù)沒有被通知,造成線上事故。

我們?cè)趯?shí)踐中通過兩種途徑,盡早發(fā)現(xiàn)有問題的血緣節(jié)點(diǎn):

人工校驗(yàn): 通過構(gòu)造測試用例來驗(yàn)證其他系統(tǒng)一樣,血緣的準(zhǔn)確性問題也可以通過構(gòu)造用例來驗(yàn)證。實(shí)際操作時(shí),我們會(huì)從線上運(yùn)行的任務(wù)中采樣出一部分,人工校驗(yàn)解析結(jié)果是否正確。

用戶反饋: 全量血緣集合的準(zhǔn)確性驗(yàn)證是個(gè)漫長的過程,但是具體到某個(gè)用戶的某個(gè)業(yè)務(wù)場景,問題就簡化多了。實(shí)際操作中,我們會(huì)與一些業(yè)務(wù)方深入的合作,一起校驗(yàn)血緣準(zhǔn)確性,并修復(fù)問題。

2、覆蓋率

定義: 當(dāng)有數(shù)據(jù)資產(chǎn)錄入血緣系統(tǒng)時(shí),則代表數(shù)據(jù)血緣覆蓋了當(dāng)前數(shù)據(jù)資產(chǎn)。被血緣覆蓋到的數(shù)據(jù)資產(chǎn)占所有數(shù)據(jù)資產(chǎn)的比例即為血緣覆蓋率。

血緣覆蓋率是比較粗粒度的指標(biāo)。作為準(zhǔn)確率的補(bǔ)充,用戶通過覆蓋率可以知道當(dāng)前已經(jīng)支持的數(shù)據(jù)資產(chǎn)類型和任務(wù)類型,以及每種覆蓋的范圍。

在內(nèi)部,我們定義覆蓋率指標(biāo)的目的有兩個(gè),一是我方比較關(guān)注的數(shù)據(jù)資產(chǎn)集合,二是尋找當(dāng)前業(yè)務(wù)流程中尚未覆蓋的數(shù)據(jù)資產(chǎn)集合,以便于后續(xù)血緣優(yōu)化。

當(dāng)血緣覆蓋率低時(shí),血緣系統(tǒng)的應(yīng)用范圍一定是不全面的,通過關(guān)注血緣覆蓋率,我們可以知曉血緣的落地進(jìn)度,推進(jìn)數(shù)據(jù)血緣的有序落地。

3、時(shí)效性

定義: 從數(shù)據(jù)資產(chǎn)新增和任務(wù)發(fā)生修改的時(shí)間節(jié)點(diǎn),到最終新增或變更的血緣關(guān)系錄入到血緣系統(tǒng)的端到端延時(shí)。

對(duì)于一些用戶場景來說,血緣的時(shí)效性并沒有特別重要,屬于加分項(xiàng),但是有一些場景是強(qiáng)依賴。不同任務(wù)類型的時(shí)效性會(huì)有差異。

例如:故障影響范圍告警以及恢復(fù),是對(duì)血緣實(shí)時(shí)性要求很高的場景之一。如果血緣系統(tǒng)只能定時(shí)更新T-1的狀態(tài),可能會(huì)導(dǎo)致嚴(yán)重業(yè)務(wù)事故。

提升時(shí)效性的瓶頸,需要業(yè)務(wù)系統(tǒng)可以近實(shí)時(shí)的將任務(wù)相關(guān)的修改,以通知形式發(fā)送出來,并由血緣系統(tǒng)進(jìn)行更新。

(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即申請(qǐng)數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢