數(shù)據(jù)架構(gòu)總是在更新迭代的路上,以使其快速適應(yīng)變化的數(shù)據(jù)環(huán)境,更為敏捷和規(guī)模化地給業(yè)務(wù)部門交付數(shù)據(jù)。在傳統(tǒng)的數(shù)據(jù)架構(gòu)中,存在數(shù)據(jù)復(fù)雜度高、缺乏敏捷性、不便于協(xié)作、數(shù)據(jù)和一致性可解釋性低下等問題。這些挑戰(zhàn)阻礙了企業(yè)邁向數(shù)據(jù)驅(qū)動(dòng)型企業(yè)的道路,也難以實(shí)現(xiàn)快速響應(yīng)業(yè)務(wù)需求。
在尋求最佳數(shù)據(jù)架構(gòu)的過程中,Data Fabric 和 Data Mesh 常常被關(guān)注到,這兩者乍一看很相似,但是這兩種方法存在著根本差異。
Data Fabric 是一種設(shè)計(jì)概念和架構(gòu)方法,旨在解決數(shù)據(jù)管理的復(fù)雜性,最大限度地減少對(duì)數(shù)據(jù)使用者的干擾,確保任何位置、任何平臺(tái)上的任何數(shù)據(jù)都可以被有效觸達(dá)使用。Data Fabric 本質(zhì)上是一種元數(shù)據(jù)驅(qū)動(dòng)的方式,兼有 AL/ML 驅(qū)動(dòng)的增強(qiáng),和包含云原生、微服務(wù)、API 驅(qū)動(dòng)等在內(nèi)的強(qiáng)大的基礎(chǔ)設(shè)施,用于鏈接不同的數(shù)據(jù)工具集。在日益異構(gòu)化的環(huán)境中,Data Fabric 的出現(xiàn)顯得至關(guān)重要。因?yàn)榇藭r(shí)此刻,數(shù)據(jù)多樣性的問題在變得更加嚴(yán)重。
Data Mesh 在解決的問題和 Data Fabric 十分相似,也就是在異構(gòu)數(shù)據(jù)環(huán)境中管理數(shù)據(jù)的難題。但二者的不同之處在于,Data Mesh 允許分布式團(tuán)隊(duì)在遵守共同的治理規(guī)定的前提下按照自己的方式管理數(shù)據(jù),而 Data Fabric 是在分布式數(shù)據(jù)之上構(gòu)建單個(gè)的虛擬管理層。Data Mesh 希望能糾正數(shù)據(jù)湖和數(shù)據(jù)倉庫之間的不一致性。
再往上一層總結(jié),Data Mesh 則側(cè)重于組織變革,它關(guān)注人員和流程,而不是架構(gòu),而 Data Fabric 以技術(shù)為中心,它是一種架構(gòu)方法,它以一種智能的方式處理數(shù)據(jù)和元數(shù)據(jù)的復(fù)雜性,并且可以很好地協(xié)同工作。二者并不沖突,甚至可以有效協(xié)作,你可以將它們當(dāng)作框架而不是架構(gòu)。
前面提到數(shù)據(jù)湖和數(shù)據(jù)倉庫,其實(shí)在目前,如何為數(shù)據(jù)分析需求提供最佳數(shù)據(jù)存儲(chǔ)一直是一個(gè)火熱的話題,相關(guān)產(chǎn)品競(jìng)爭激烈。數(shù)據(jù)倉庫和數(shù)據(jù)湖一直是使用最廣泛的大數(shù)據(jù)存儲(chǔ)架構(gòu),近幾年橫空出世的湖倉一體,號(hào)稱結(jié)合了數(shù)據(jù)湖的靈活性和數(shù)據(jù)倉庫的數(shù)據(jù)管理便捷性,但截至目前,行業(yè)內(nèi)的最佳實(shí)踐偏少,營銷眾多。
數(shù)據(jù)湖 vs 數(shù)據(jù)倉庫 ?vs 湖倉一體的討論在很長一段時(shí)間內(nèi)都會(huì)持續(xù)下去,選擇哪一種架構(gòu),取決于你正在處理的數(shù)據(jù)類型、數(shù)據(jù)源以及數(shù)據(jù)使用方式。
我們希望找到最佳實(shí)踐,供您參考。因此將于 7 月 31 日 -8 月 1 日舉辦的 QCon 全球軟件開發(fā)大會(huì)(廣州站)特別策劃了「現(xiàn)代數(shù)據(jù)架構(gòu)選型」專題,將湖倉一體、Flink 最新更新、Data Fabric、Data Mesh 的相關(guān)實(shí)踐集結(jié)于此,希望對(duì)你的選型有幫助。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)