日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺(tái)

睿治作為國(guó)內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國(guó)數(shù)據(jù)治理市場(chǎng)份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場(chǎng)份額第一。

數(shù)據(jù)血緣的管控方法及應(yīng)用場(chǎng)景

時(shí)間:2022-04-23來源:捌月瀏覽數(shù):2011

數(shù)據(jù)血緣是在數(shù)據(jù)的加工、流轉(zhuǎn)過程產(chǎn)生的數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系。隨著銀行數(shù)字化轉(zhuǎn)型的不斷深入,數(shù)據(jù)量的爆發(fā)式增長(zhǎng)為數(shù)據(jù)治理工作帶來了巨大的挑戰(zhàn),加強(qiáng)對(duì)數(shù)據(jù)血緣的管控變得愈發(fā)重要。數(shù)據(jù)血緣管控貫穿于數(shù)據(jù)的全生命周期中,確保血緣管控的完整性與及時(shí)性,有助于追蹤數(shù)據(jù)的上游來源和下游去向。同時(shí),自動(dòng)化工具提高了血緣管控的效率,在數(shù)據(jù)質(zhì)量評(píng)估、個(gè)人信息追蹤、應(yīng)用程序遷移等應(yīng)用場(chǎng)景中發(fā)揮著重要的作用。


01數(shù)據(jù)血緣概述

數(shù)據(jù)血緣的核心要素包括數(shù)據(jù)節(jié)點(diǎn)、流轉(zhuǎn)路徑、流轉(zhuǎn)規(guī)則等,可分為水平數(shù)據(jù)血緣和垂直數(shù)據(jù)血緣。

1.數(shù)據(jù)血緣要素

數(shù)據(jù)血緣關(guān)系一般由數(shù)據(jù)節(jié)點(diǎn)、數(shù)據(jù)流轉(zhuǎn)路徑、數(shù)據(jù)流轉(zhuǎn)規(guī)則構(gòu)成,它們?cè)谘夑P(guān)系中以直接或間接可見的方式標(biāo)志血緣信息。

1)數(shù)據(jù)節(jié)點(diǎn)

數(shù)據(jù)節(jié)點(diǎn)是有獨(dú)立數(shù)據(jù)功能業(yè)務(wù)的載體,體現(xiàn)了數(shù)據(jù)的業(yè)務(wù)屬性與存儲(chǔ)位置。從廣義上來說,數(shù)據(jù)庫(kù)、數(shù)據(jù)表、數(shù)據(jù)字段都是數(shù)據(jù)節(jié)點(diǎn);在實(shí)際運(yùn)用中,一般使用元數(shù)據(jù)信息作為區(qū)分?jǐn)?shù)據(jù)節(jié)點(diǎn)的依據(jù),每個(gè)數(shù)據(jù)節(jié)點(diǎn)都有唯一的身份標(biāo)識(shí)。同時(shí),每個(gè)節(jié)點(diǎn)在血緣圖中都占有一定的比重,比重越高的節(jié)點(diǎn),對(duì)整個(gè)數(shù)據(jù)網(wǎng)絡(luò)的影響越大。數(shù)據(jù)節(jié)點(diǎn)分為以下三類:

數(shù)據(jù)流出節(jié)點(diǎn):用于提供最基礎(chǔ)的數(shù)據(jù),一般是底層源數(shù)據(jù) 中間節(jié)點(diǎn):是數(shù)據(jù)血緣關(guān)系中類型最多的節(jié)點(diǎn),既承接流入的數(shù)據(jù),又向流入節(jié)點(diǎn)提供數(shù)據(jù)

數(shù)據(jù)流入節(jié)點(diǎn):是整個(gè)數(shù)據(jù)血緣的終端節(jié)點(diǎn),承接中間節(jié)點(diǎn)流入的數(shù)據(jù)后,不再往下流轉(zhuǎn)。數(shù)據(jù)流入節(jié)點(diǎn)的數(shù)據(jù)一般即業(yè)務(wù)系統(tǒng)的輸出,用作可視化報(bào)表或者儀表板展示;在少數(shù)情況下,會(huì)對(duì)其他業(yè)務(wù)系統(tǒng)進(jìn)行數(shù)據(jù)反哺

2)數(shù)據(jù)流轉(zhuǎn)路徑

數(shù)據(jù)流轉(zhuǎn)路徑通過表現(xiàn)數(shù)據(jù)流動(dòng)方向、數(shù)據(jù)更新量級(jí)、數(shù)據(jù)更新頻率三個(gè)維度的信息,標(biāo)明了數(shù)據(jù)的流入流出信息:

數(shù)據(jù)流動(dòng)方向:通過箭頭的方式表明數(shù)據(jù)流動(dòng)方向 數(shù)據(jù)更新量級(jí):數(shù)據(jù)更新的量級(jí)越大,說明數(shù)據(jù)的重要性越高

數(shù)據(jù)更新頻率:數(shù)據(jù)更新的頻率越高,說明數(shù)據(jù)的變化越頻繁,重要性越高

3)數(shù)據(jù)流轉(zhuǎn)規(guī)則

數(shù)據(jù)流轉(zhuǎn)規(guī)則體現(xiàn)了數(shù)據(jù)流轉(zhuǎn)在過程中發(fā)生的變化以及如何成為其他實(shí)體的構(gòu)成部分,每一條數(shù)據(jù)流轉(zhuǎn)路徑都可以包含一個(gè)或者多個(gè)流轉(zhuǎn)規(guī)則,用戶通過查看流轉(zhuǎn)路徑,可查看該段流轉(zhuǎn)路徑的規(guī)則,規(guī)則可以是直接映射關(guān)系,也可以是復(fù)雜的規(guī)則,例如:

數(shù)據(jù)映射:不對(duì)數(shù)據(jù)做任何變動(dòng),直接抽取 數(shù)據(jù)清洗:由于各個(gè)節(jié)點(diǎn)對(duì)數(shù)據(jù)質(zhì)量的要求不同,數(shù)據(jù)需要基于一定的數(shù)據(jù)標(biāo)準(zhǔn)流入實(shí)體,通過數(shù)據(jù)清洗的方式表現(xiàn)數(shù)據(jù)流轉(zhuǎn)過程中的篩選標(biāo)準(zhǔn)。例如要求數(shù)據(jù)不能為空值、符合特定格式等 數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)流轉(zhuǎn)過程中,流出實(shí)體的數(shù)據(jù)需要進(jìn)行特殊處理才能接入到數(shù)據(jù)需求方

數(shù)據(jù)預(yù)警:針對(duì)數(shù)據(jù)檢測(cè)規(guī)則,一旦觸發(fā)預(yù)警閾值,就以特定方式進(jìn)行報(bào)警,并對(duì)整條數(shù)據(jù)流轉(zhuǎn)路徑上的節(jié)點(diǎn)自動(dòng)進(jìn)行關(guān)聯(lián)檢測(cè)

數(shù)據(jù)血緣要素

2.水平數(shù)據(jù)血緣

數(shù)據(jù)血緣以手工記錄入檔的方式在系統(tǒng)之間流轉(zhuǎn),從抽象的維度來理解,即為水平數(shù)據(jù)血緣。水平數(shù)據(jù)血緣通常是數(shù)據(jù)集(系統(tǒng))粒度,適用人群主要為業(yè)務(wù)用戶與架構(gòu)師。水平數(shù)據(jù)血緣通過提供大量圖文,來展示客戶數(shù)據(jù)在組織系統(tǒng)之間是如何流動(dòng),但無法實(shí)現(xiàn)從數(shù)據(jù)項(xiàng)切入并深入挖掘的需求。

3.垂直數(shù)據(jù)血緣

垂直數(shù)據(jù)血緣一般是由系統(tǒng)級(jí)、報(bào)表級(jí)、字段級(jí)三個(gè)不同層次組成的樹形結(jié)構(gòu),描繪了數(shù)據(jù)自下而上層層匯集的過程中各個(gè)實(shí)體之間的血緣關(guān)系,體現(xiàn)了逐層分析數(shù)據(jù)細(xì)節(jié)與逐列分析數(shù)據(jù)在遷移過程中的轉(zhuǎn)換處理邏輯,便于尋找報(bào)表中特定單元項(xiàng)數(shù)據(jù)值的來源,或者數(shù)據(jù)值在兩列數(shù)據(jù)之間流轉(zhuǎn)時(shí)的計(jì)算邏輯等問題。垂直數(shù)據(jù)血緣在出現(xiàn)數(shù)據(jù)報(bào)告指標(biāo)異常、確認(rèn)平臺(tái)遷移時(shí)數(shù)據(jù)影響范圍等場(chǎng)景應(yīng)用較廣,適用于業(yè)務(wù)分析人員,能夠支持銀行業(yè)務(wù)系統(tǒng)的開發(fā)、測(cè)試與運(yùn)維工作。


02數(shù)據(jù)血緣管控思路

數(shù)據(jù)血緣管控的過程中,單純對(duì)存量血緣的管控是治標(biāo)不治本的,管控的重點(diǎn)在于對(duì)增量血緣的管控。同時(shí),血緣管控應(yīng)確保血緣的完整性與及時(shí)性,保證血緣分析與數(shù)據(jù)的同步。

1.增量血緣管控思路

由于數(shù)據(jù)之間的復(fù)雜關(guān)系與流動(dòng)性,數(shù)據(jù)的細(xì)微變動(dòng)會(huì)引起系統(tǒng)級(jí)別數(shù)據(jù)的變化,因此,增量血緣管控的核心在于從源頭進(jìn)行管控。數(shù)據(jù)血緣的分析通常按層級(jí)逐步推進(jìn),一般將分析層級(jí)分為系統(tǒng)級(jí)、表級(jí)與字段級(jí),為了確保數(shù)據(jù)血緣的完整,需要將整個(gè)系統(tǒng)作為數(shù)據(jù)血緣的分析對(duì)象。通過增量數(shù)據(jù)血緣的源頭管控,實(shí)現(xiàn)數(shù)據(jù)來源的精準(zhǔn)追溯與準(zhǔn)確還原,進(jìn)而在排查問題時(shí)實(shí)現(xiàn)精準(zhǔn)定位。

2.存量血緣管控思路

存量數(shù)據(jù)血緣通?;诮y(tǒng)一的溯源模板,通過報(bào)表口徑梳理的方式進(jìn)行管控。以存量報(bào)表溯源模板為例,每一張目標(biāo)表對(duì)應(yīng)一個(gè)血緣文件。除目標(biāo)表外,同文件的其他頁簽均為該文件的臨時(shí)表,通過查看相關(guān)代碼,尋找目標(biāo)表的來源表,并完善加工邏輯與表之間的關(guān)聯(lián)信息。

報(bào)表溯源模板實(shí)例

03數(shù)據(jù)血緣管控方式

通過數(shù)據(jù)血緣分析,針對(duì)數(shù)據(jù)流轉(zhuǎn)過程中產(chǎn)生的各類信息進(jìn)行采集、處理和分析,并對(duì)數(shù)據(jù)之間的血緣關(guān)系進(jìn)行系統(tǒng)性梳理、關(guān)聯(lián),將梳理完成的信息進(jìn)行存儲(chǔ)。

1.增量血緣管控方式

血緣分析需要以實(shí)現(xiàn)業(yè)務(wù)需求為目標(biāo)展開,針對(duì)增量數(shù)據(jù)血緣的管控,一般要求業(yè)務(wù)部門規(guī)范填寫報(bào)表需求模板,明確新增指標(biāo)項(xiàng)或標(biāo)準(zhǔn)項(xiàng)的數(shù)據(jù)內(nèi)容,而開發(fā)部門應(yīng)通過數(shù)據(jù)一體化開發(fā)平臺(tái)的技術(shù)機(jī)制完善數(shù)據(jù)加工血緣,便于后續(xù)進(jìn)行血緣管控與登記。業(yè)務(wù)部門新增報(bào)表主要包括以下內(nèi)容:

報(bào)表屬性:包括功能碼、需求內(nèi)容(新增整表/修改取數(shù)邏輯)、加工頻率(按月加工/按日加工)等 報(bào)表說明:包括業(yè)務(wù)說明、數(shù)據(jù)時(shí)間跨度、取數(shù)來源、邏輯簡(jiǎn)述等 數(shù)據(jù)內(nèi)容:包括字段名稱、指標(biāo)類型、業(yè)務(wù)口徑等

其他內(nèi)容:時(shí)效性要求、驗(yàn)證要求等

2.存量血緣管控方式

存量數(shù)據(jù)血緣的管控分為自動(dòng)管控與人工管控,自動(dòng)管控方式主要有自動(dòng)解析、系統(tǒng)跟蹤與機(jī)器學(xué)習(xí)。數(shù)據(jù)血緣的自動(dòng)管控通過大規(guī)模掃描IT環(huán)境,快速生成數(shù)據(jù)血緣圖譜,處理大量的數(shù)據(jù)列和ETL流程,進(jìn)而節(jié)省追蹤數(shù)據(jù)血緣的工作的人力成本,在復(fù)雜場(chǎng)景下能夠?qū)崿F(xiàn)記錄數(shù)據(jù)血緣口徑一致,但數(shù)據(jù)血緣自動(dòng)化工具往往缺少業(yè)務(wù)場(chǎng)景需求,開發(fā)人員缺乏對(duì)數(shù)據(jù)血緣使用場(chǎng)景的理解與自動(dòng)化工具落地的思維。

1)自動(dòng)解析

自動(dòng)解析通過對(duì)SQL語句、存儲(chǔ)過程、ETL過程等文件進(jìn)行分析,從而收集數(shù)據(jù)血緣,是當(dāng)前應(yīng)用最普遍的血緣收集方法。自動(dòng)解析血緣具有自動(dòng)化、及時(shí)性、程度高的優(yōu)點(diǎn),但根據(jù)國(guó)際廠商的經(jīng)驗(yàn),當(dāng)代碼復(fù)雜或應(yīng)用環(huán)境不適配時(shí),自動(dòng)解析可以覆蓋到企業(yè)數(shù)據(jù)的70-95%,目前無法做到100%全面覆蓋。

2)系統(tǒng)跟蹤

系統(tǒng)跟蹤是在數(shù)據(jù)加工流動(dòng)過程中,加工主體工具發(fā)送數(shù)據(jù)映射的過程,一般適用于統(tǒng)一的、能夠管理自身全數(shù)據(jù)血緣周期的平臺(tái)。系統(tǒng)跟蹤具備更高的準(zhǔn)確性與及時(shí)性、更細(xì)的顆粒度,但系統(tǒng)跟蹤一般適用于統(tǒng)一的加工平臺(tái),并不能集成所有工具。

3)機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)的方法能夠基于數(shù)據(jù)集之間的依賴關(guān)系,計(jì)算數(shù)據(jù)的相似度,對(duì)工具和業(yè)務(wù)的依賴性較低,但需要人工確認(rèn)準(zhǔn)確率。

4)人工管控

通過人工的方式對(duì)數(shù)據(jù)血緣進(jìn)行梳理適用于特定業(yè)務(wù)需求的場(chǎng)景,相比自動(dòng)化的梳理方式,具備更高的準(zhǔn)確性,但及時(shí)性不足,處理速度較慢。

人工、自動(dòng)血緣管控方式優(yōu)缺點(diǎn)對(duì)比


04數(shù)據(jù)血緣應(yīng)用場(chǎng)景

數(shù)據(jù)血緣能夠解讀并體現(xiàn)一個(gè)組織中的大多數(shù)業(yè)務(wù)流程,通過數(shù)據(jù)血緣挖掘業(yè)務(wù)價(jià)值鏈,是完善業(yè)務(wù)流程最有效或最高效的處理方式,以下為數(shù)據(jù)血緣的幾種應(yīng)用場(chǎng)景:

1.保證報(bào)告數(shù)據(jù)的完整性

開發(fā)人員可以通過檢查數(shù)據(jù)血緣鏈中的每個(gè)節(jié)點(diǎn),追溯異常數(shù)據(jù)元素的血緣,以確認(rèn)數(shù)據(jù)的計(jì)算處理方式,并分析與該異常數(shù)據(jù)有交互的業(yè)務(wù)用戶行為,實(shí)現(xiàn)異常數(shù)據(jù)元素的排查,確認(rèn)數(shù)據(jù)變更影響的下游數(shù)據(jù)對(duì)象,保證數(shù)據(jù)的完整性。

2.追蹤個(gè)人信息,控制傳播范圍

數(shù)據(jù)血緣可以將追蹤個(gè)人信息擴(kuò)展到數(shù)據(jù)報(bào)告層和數(shù)據(jù)庫(kù)層,如果將報(bào)表中的特定數(shù)據(jù)元素進(jìn)行標(biāo)識(shí),則能夠在涉及該數(shù)據(jù)元素的所有血緣路徑中找到標(biāo)識(shí)元素所在列,并使用數(shù)據(jù)血緣工具控制數(shù)據(jù)傳播范圍。

3.遷移應(yīng)用程序和報(bào)告

數(shù)據(jù)血緣不僅僅是數(shù)據(jù)流的簡(jiǎn)單映射,更體現(xiàn)了對(duì)如何實(shí)現(xiàn)業(yè)務(wù)流程的理解。在遷移應(yīng)用程序和報(bào)告時(shí),能持續(xù)監(jiān)控未使用到的數(shù)據(jù)表和ETL流程,發(fā)現(xiàn)并糾正在數(shù)據(jù)遷移過程中的不兼容性問題,實(shí)現(xiàn)可疑數(shù)據(jù)的提取,協(xié)助企業(yè)梳理并合理重構(gòu)業(yè)務(wù)流程。


參考文獻(xiàn)[1]朱金寶:數(shù)據(jù)血緣的那些事兒. Datablau. 2019.[2]李俊杰:數(shù)據(jù)血緣基本指南. DAMA數(shù)據(jù)管理. 2022.[3]李旭風(fēng), 羅強(qiáng):面向數(shù)據(jù)字段的血緣關(guān)系分析[J]. 中國(guó)金融電腦, 2016,07:14-21.[4]金泳:基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)血緣管理研究[J]. 輕工科技, 2019,35(4):81-93.
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即申請(qǐng)數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
  • 相關(guān)主題
  • 相關(guān)大數(shù)據(jù)問答
  • 相關(guān)大數(shù)據(jù)知識(shí)
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢