什么是元數(shù)據(jù)?在前面的什么是元數(shù)據(jù)文章中,我們也提到過,元數(shù)據(jù)是數(shù)據(jù)的數(shù)據(jù),可以幫助數(shù)據(jù)平臺(tái)解決“有哪些數(shù)據(jù)”、“數(shù)據(jù)存儲(chǔ)有多少”、“數(shù)據(jù)流中的血緣關(guān)系”、“如何找到我需要的數(shù)據(jù)”、“如何使用數(shù)據(jù)”和“數(shù)據(jù)的生產(chǎn)進(jìn)度”問題。

元數(shù)據(jù)管理是做什么?
元數(shù)據(jù)在數(shù)據(jù)平臺(tái)對(duì)原信息的收集、匯總和傳遞將數(shù)據(jù)平臺(tái)各個(gè)模塊整合起來。元數(shù)據(jù)管理系統(tǒng)是收集線上db、solor集群、hbase集群和hive集群的元數(shù)據(jù)信息,并將其傳遞給各其他系統(tǒng)。
元數(shù)據(jù)管理為大數(shù)據(jù)平臺(tái)繪制數(shù)據(jù)地圖、統(tǒng)一數(shù)據(jù)口徑、標(biāo)明數(shù)據(jù)方位、分析數(shù)據(jù)關(guān)系、管理模型變更及精確到字段級(jí)別的影響分析。打通上下游數(shù)據(jù)繼承關(guān)系斷層,為數(shù)據(jù)質(zhì)量維護(hù)和業(yè)務(wù)邏輯可視化打下堅(jiān)實(shí)基礎(chǔ)。
要實(shí)現(xiàn)元數(shù)據(jù)管理有三個(gè)方面:
1、采集:指從各種工具中,把各種類型的元數(shù)據(jù)采集進(jìn)來,采集是元數(shù)據(jù)管理第一步。
2、存儲(chǔ):采集之后需要相應(yīng)的存儲(chǔ)策略來對(duì)元數(shù)據(jù)進(jìn)行存儲(chǔ),這需要在不改變存儲(chǔ)架構(gòu)的情況下擴(kuò)展元數(shù)據(jù)存儲(chǔ)的類型;
3、分析:在采集和存儲(chǔ)完成后,對(duì)已經(jīng)存儲(chǔ)的元數(shù)據(jù)進(jìn)行管理分析。

在這里我們主要對(duì)元數(shù)據(jù)管理應(yīng)用的元數(shù)據(jù)分析、數(shù)據(jù)地圖功能進(jìn)行深入了解。
元數(shù)據(jù)分析
假設(shè)有一天,我們需要對(duì)某一些業(yè)務(wù)信息指標(biāo)做一個(gè)報(bào)表統(tǒng)計(jì),用于前端的數(shù)據(jù)展示,這些業(yè)務(wù)信息可能來自于不同的表,通過不同的ETL過程到目標(biāo)數(shù)據(jù)倉庫,最后展示在一個(gè)報(bào)表中,如下圖所示:

a、血緣分析
假設(shè)你在管理報(bào)表,有一天你發(fā)現(xiàn)有報(bào)表數(shù)據(jù)異常,你需要找出錯(cuò)誤的數(shù)據(jù)并提交流程修正,那么這個(gè)錯(cuò)誤數(shù)據(jù)從何而來?一個(gè)個(gè)核對(duì)數(shù)據(jù)顯然不夠高效,那你就得知道這個(gè)報(bào)表的的指標(biāo)來源,元數(shù)據(jù)管理工具的血緣分析功能會(huì)自動(dòng)幫助你分析這個(gè)錯(cuò)誤數(shù)據(jù)的上游路徑,比如這些數(shù)據(jù)是由table1和table2經(jīng)過ETL過程進(jìn)入DW,那么此時(shí)你只需要去查找table1和table2以及相關(guān)的ETL過程即可。

血緣分析可以清晰的幫助我們了解到所維護(hù)的數(shù)據(jù)的使用與被使用情況,猶如資產(chǎn)一般,便于維護(hù)定位與統(tǒng)一管理。
b、影響分析
數(shù)據(jù)終于更正了,此時(shí)你需要及時(shí)提醒大家這個(gè)數(shù)據(jù)的更正信息,只需要通知這個(gè)數(shù)據(jù)影響到的實(shí)體就可以了,然而整個(gè)報(bào)表流程的數(shù)據(jù)傳遞這么復(fù)雜,怎么判斷哪些實(shí)體會(huì)受到這個(gè)數(shù)據(jù)的影響呢。

元數(shù)據(jù)管理工具的影響分析功能會(huì)分析出這個(gè)數(shù)據(jù)的影響范并能用可視化的方式展現(xiàn)出來,只需要更新受所影響的實(shí)體。
c、數(shù)據(jù)地圖展現(xiàn)
隨著業(yè)務(wù)規(guī)模的日益擴(kuò)大,報(bào)表日益增多,有一天你想了解這個(gè)業(yè)務(wù)所有報(bào)表整體情況,有多少數(shù)據(jù)源和ETL過程組成,此時(shí)元數(shù)據(jù)管理工具的數(shù)據(jù)地圖可以幫助你獲取到想要的信息,數(shù)據(jù)地圖展現(xiàn)功能可以通過可視化的方式,對(duì)整個(gè)業(yè)務(wù)的情況了如指掌,幫助你更好地觀察整個(gè)業(yè)務(wù)流程的情況。

在當(dāng)今這個(gè)大數(shù)據(jù)時(shí)代下,數(shù)據(jù)即為資產(chǎn)。數(shù)據(jù)因需求而成為有價(jià)資產(chǎn),數(shù)據(jù)多寡即窮富,然而無法挖掘的數(shù)據(jù)是沒有任何的價(jià)值,換句話說,如果沒有管理好元數(shù)據(jù),收集和存儲(chǔ)的數(shù)據(jù)都會(huì)失去意義,也就沒有業(yè)務(wù)價(jià)值。如何管理好元數(shù)據(jù)是非常重要的,根據(jù)權(quán)威數(shù)據(jù)管理研究機(jī)構(gòu)TDWI對(duì)數(shù)百家國(guó)際企業(yè)的調(diào)研結(jié)果,元數(shù)據(jù)管理的重要性在全部技術(shù)主題中位列第一。通過元數(shù)據(jù)管理,可以形成系統(tǒng)化數(shù)據(jù)資產(chǎn)的準(zhǔn)確視圖,通過對(duì)元數(shù)據(jù)的統(tǒng)一視圖,管理由各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù),梳理業(yè)務(wù)元數(shù)據(jù)之間的關(guān)系,并可以對(duì)這些數(shù)據(jù)進(jìn)行來源、變遷進(jìn)行跟蹤分析。通過精確把握數(shù)據(jù)獲取數(shù)據(jù),從而把數(shù)據(jù)轉(zhuǎn)為有價(jià)資產(chǎn)。
市場(chǎng)上對(duì)企業(yè)級(jí)元數(shù)據(jù)管理的需求還在不斷增長(zhǎng),伴隨著需求的增加,企業(yè)對(duì)數(shù)據(jù)模型和元數(shù)據(jù)管理互操作性的標(biāo)準(zhǔn)的關(guān)注會(huì)明顯增加。
對(duì)企業(yè)技術(shù)人員而言,元數(shù)據(jù)管理平臺(tái)通過將分散、存儲(chǔ)結(jié)構(gòu)差異大的資源信息進(jìn)行描述、定位、檢索、評(píng)估、分析,實(shí)現(xiàn)了信息的結(jié)構(gòu)化,為機(jī)器處理創(chuàng)造了可能,從而大大降低數(shù)據(jù)治理人工成本。正因如此,元數(shù)據(jù)已經(jīng)成為了很多大型數(shù)據(jù)治理項(xiàng)目的基礎(chǔ)。
對(duì)企業(yè)業(yè)務(wù)人員而言,元數(shù)據(jù)管理平臺(tái)通過對(duì)業(yè)務(wù)指標(biāo)、業(yè)務(wù)術(shù)語、業(yè)務(wù)規(guī)則、業(yè)務(wù)含義等業(yè)務(wù)信息進(jìn)行管控,協(xié)助業(yè)務(wù)人員了解業(yè)務(wù)含義、行業(yè)術(shù)語和規(guī)則、業(yè)務(wù)指標(biāo)取數(shù)據(jù)口徑和影響范圍等。
未來,元數(shù)據(jù)管理勢(shì)必將成為數(shù)字化轉(zhuǎn)型的核心,也是未來趨勢(shì)。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)