日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

談談數據湖分布式數據治理的數據目錄應具備的四大能力

時間:2022-11-16來源:細嫩長腿歐巴瀏覽數:168

在構建數據平臺時,數據團隊必須做出的首要決定之一是選擇數據倉庫還是數據湖來為他們的分析提供存儲和計算能力。

在過去幾年中,數據湖已成為現代數據堆棧的必備要素。但是,雖然支持我們訪問和分析數據的技術已經成熟,但在分布式環境中理解和信任這些數據的機制卻落后了。

數據發現可以幫助確保數據湖不會變成數據沼澤。數據發現可以通過提供跨不同域的數據的分布式實時洞察力來取代現代數據目錄,同時遵守一組統一的治理標準。數據發現通過根據一組特定消費者攝取、存儲、聚合和使用數據的方式提供對數據的特定領域動態理解,從而取代了對數據目錄的需求。

在構建數據平臺時,數據團隊必須做出的首要決定之一是選擇數據倉庫還是數據湖來為他們的分析提供存儲和計算能力。

雖然數據倉庫提供的結構使數據團隊可以輕松高效地操作數據,即收集分析洞察力和支持機器學習功能,但該結構可能會使它們在某些應用程序中變得不靈活且成本高昂。

數據湖具有無限的靈活性和可定制性,可以支持廣泛的用例,但隨著這種更大的敏捷性,出現了許多與數據組織和治理相關的其他問題。因此,數據團隊在轉向數據湖的路線往往難以回答有關其數據的關鍵問題,例如:


  • 數據存放在哪里?
  • 誰有權訪問它?
  • 這個數據是最新的嗎?
  • 如何使用這些數據?


隨著數據操作的成熟和數據管道變得越來越復雜,傳統的數據目錄往往無法回答這些問題。

這就是為什么一些最好的數據工程團隊正在重新考慮他們構建數據目錄的方法以及數據湖需要什么。

數據目錄可能在湖中失效

數據目錄作為元數據清單,并提供有關數據健康狀況、可訪問性和位置的信息。它們幫助數據團隊回答有關在哪里查找數據、數據代表什么以及如何使用數據的問題。但是,如果我們不知道這些數據是如何組織的,那么所有最好的計劃或更確切地說是管道都是徒勞的。

對于現代數據團隊來說,它越來越重要。隨著公司向數據湖發展,他們通常會損害在倉庫中存儲數據時隱含的組織和順序。數據倉庫使數據工程團隊構建或至少半構建他們的數據,這使得根據業務用戶的需求進行分類、搜索和檢索變得容易。

從歷史上看,許多公司使用數據目錄來執行數據質量數據治理標準,因為他們傳統上依賴數據團隊隨著數據資產的發展手動輸入和更新目錄信息。在數據湖中,數據是分布式的,因此很難記錄數據在其生命周期過程中的演變。

非結構化數據是有問題的,因為它與數據目錄相關,因為它沒有組織,即便被組織通常也不會被作為組織整體擁有。這可能適用于在數據倉庫中管理的結構化或半結構化數據,但在分布式數據湖的背景下,如果沒有某種自動化措施,隨著數據的發展手動實施數據治理是無法持續的。

隨著時間的推移理解不同數據資產之間的關系是一個關鍵,但傳統數據目錄往往缺乏維度。雖然包括數據湖在內的現代數據架構通常是分布式的,但數據目錄通常不是,將數據視為一維實體。非結構化數據沒有大多數數據目錄所依賴的那種預定義模型,必須經過多次轉換才能使用。

盡管如此,公司仍需要知道他們的數據存放在哪里以及誰可以訪問它,并能夠衡量其整體健康狀況,即使是存儲在湖中而不是倉庫中。如果沒有對數據沿襲的可見性,當下游出現數據問題時,團隊將花費大量的時間進行故障排除。

數據發現可以通過跨數據堆棧的不同部分提供分布式、實時的數據洞察來取代或補充現代數據目錄,同時遵守通用治理和可訪問性標準。

傳統的數據目錄通常可以滿足倉庫中結構化數據的需求,但是數據工程師如何在數據湖的復雜水域中航行呢?

雖然許多數據目錄具有以 UI 為中心的工作流,但數據工程師需要以編程方式與目錄進行交互。他們使用目錄來管理模式和元數據,并且需要一種 API 驅動的方法來完成范圍廣泛的數據管理任務。

此外,數據可以通過多個入口點進入一個湖泊,工程師需要一個能夠適應并說明每個入口點的目錄。與數據在輸入前進行清理和處理的倉庫不同,數據湖在不對端到端健康狀況做任何假設的情況下接收原始數據。

在湖中,存儲數據既便宜又靈活,但這讓我們了解擁有什么以及如何使用這些數據成為真正的挑戰。數據可能以多種方式存儲,例如 JSON 或 Parquet,數據工程師根據要完成的工作以不同方式與數據交互。他們可能將 Spark 用于聚合作業或將 Presto 用于報告或臨時查詢——這意味著損壞或不良數據有很多機會導致故障。如果沒有沿襲,數據湖中的那些故障可能會變得混亂且難以診斷。

在湖中,可以通過多種方式與數據進行交互,而目錄必須能夠提供對正在使用的內容和未使用的內容的理解。當傳統目錄不足時,我們可以將數據發現作為前進的道路。

未來:數據發現

現代數據發現需要構建四種關鍵能力解決傳統數據目錄不足的問題:

使用機器學習,數據發現自動跟蹤表和字段級沿襲,映射上游和下游依賴關系。隨著數據的發展,數據發現可確保對數據及其使用方式的理解也在發生變化。

與傳統的數據目錄不同,數據發現要提供對數據當前狀態的實時可見性,而不是其“編目”或理想狀態。由于發現涵蓋消費者如何攝取、存儲、聚合和使用數據,因此可以收集洞察力,例如哪些數據集已經過時并且可以棄用,給定的數據集是否符合使用質量,或者給定的表何時可用最后更新。

數據發現需要具有靈活性和動態性,使數據發現非常適合將沿襲帶入數據湖,能夠在正確的時間顯示正確的信息,并在許多可能的輸入和輸出之間建立聯系。使用沿襲,可以在數據管道中斷時更快地解決問題,因為將檢測到模式更改等經常被忽視的問題并映射相關依賴項。

數據發現還需要支持自助服務,使團隊無需專門的支持團隊即可輕松利用和理解他們的數據。為確保這些數據值得信賴和可靠,團隊還應該專注于數據可觀察性,它使用機器學習和自定義規則在數據湖或下游管道出現問題時提供實時警報和監控。

現代數據發現使公司不僅可以了解在其生命周期過程中正在使用、應用、存儲和棄用哪些數據,還可以了解如何使用、應用、存儲和棄用數據,這對于數據治理至關重要,并提供可用于優化整個數據湖的見解.

從優化的角度來看,數據發現工具還可以讓利益相關者輕松識別最重要的數據資產以及未使用的數據資產,這兩者都可以為團隊優化提供見解他們的管道。

數據湖的分布式發現

隨著公司不斷增加數據的攝取、存儲和利用,提高透明度和可發現性的技術將成為關鍵。

一些最好的目錄越來越多地在分布式、特定于域的發現中分層,為數據團隊提供生命周期的所有階段完全信任和利用數據所需的可見性。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢