- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-04-22來源:落寂的人間瀏覽數:261次
數據目錄讓用戶可以看到與數據相關的所有內容,增強對所查看內容的信任度,為數據治理奠定一個絕佳的起點。
簡而言之,數據目錄就是關于企業數據資產的一個有序清單。它可以使用元數據來幫助企業管理數據,幫助數據專業人員收集、組織、訪問和充實元數據,從而為數據發現和數據治理提供支持。
數據目錄的定義和類比在上文我們簡單介紹數據目錄的定義,也就是使用元數據來幫助企業管理數據。接下來,我們使用圖書館作類比,帶您詳細了解數據目錄。當您前往圖書館查找某一圖書時,您可以使用圖書目錄來查找該圖書是否存在,了解它的版本、位置以及相關描述。您可以使用所有這些信息來決定是否真的需要這本書,了解如何找到它。當今的許多對象存儲、數據庫和數據倉庫就相當于一座座圖書館。
我們再回到圖書館和圖書目錄。現在,我們對圖書目錄進行擴展,涵蓋整個國家的所有圖書館。想象一下,這樣您就可以在一個界面中查找整個國家中儲藏了您所需圖書的所有圖書館,查找關于您所需的每一本圖書的所有詳細信息。
企業數據目錄之于數據,正如圖書目錄之于圖書。它可以為您提供一個整體視圖,提供關于您所有數據的深度可見性,而不僅僅是一次只查看某一項數據。
您為什么需要這樣一個視圖呢?
數據目錄可以解決那些問題?與過去相比,想從如今前所未有的數據海洋中找到正確的數據更加困難。同時,關于數據的監管條例和法規(例如 GDPR)也比過去更多、更嚴格。在這一背景下,除了數據訪問之外,數據治理也成為了一個嚴峻的挑戰。您不僅要了解當前您所擁有數據的類型、哪些人在移動數據、數據的用途以及如何保護數據,還必須避免過多的數據層和封裝,避免數據因太難使用而毫無用處。遺憾的是,很多企業和用戶在查找和訪問數據上面臨著很多問題,包括:
數據工程師、數據科學家、數據管理員和首席數據官等用戶無不受到以上數據管理問題的困擾,無不希望能夠輕松訪問可靠的數據。他們面臨的一些常見的挑戰包括:
數據工程師想知道任意更改將對整個系統產生哪些影響,他們可能會問:
數據科學家希望能夠輕松訪問數據并進一步了解數據質量,他們想了解以下信息:
數據管理員負責管理數據流程,關注概念、利益相關者間協議以及數據生命周期管理。他們希望了解:
首席數據官關心哪些人在組織中做了哪些事,一般不使用數據目錄。但是,他們仍然希望了解:
有了數據目錄,這些問題就能迎刃而解。
數據目錄使用場景
在過去幾年中,隨著需要管理和訪問的數據的數量日益增長,數據目錄這一概念開始流行起來。在這一切的背后,是云、大數據分析、人工智能和機器學習正逐漸改變人們查看、管理和使用數據的方式 — 不僅要管理數據,還要訪問和充分利用數據。
使用數據目錄,您可以更好地使用數據,獲得以下優勢:
等等,這些只是數據目錄的一部分使用場景。實際上,數據目錄的使用方式多種多樣。從根本上說,它的宗旨就是提供更廣泛的數據可見性和更深入的數據訪問支持。
1 自助分析:
許多用戶難以找到正確的數據,同時,除了查找數據外,他們還難以判斷數據是否有用。例如,您可能會發現一個名為 customer_info.csv 的文件,而又恰好需要一個關于客戶的文件。但這并不意味著它就是您需要的,它可能只是 50 個類似文件中的一個。同時,該文件可能包含許多字段,您可能并不了解所有這些數據元素代表什么。對此,您需要通過一種更簡單的方法來查看數據的業務上下文,例如它是否是來自正確的數據存儲的托管資源以及它與其他數據工件之間的關系。
數據發現還包括通過各種方式來理解數據的形態和特征,例如簡單的值分布和統計信息,或者重要且復雜的個人身份信息 (PII) 或個人健康信息 (PHI)。
2 審計、合規和變更管理:
隨著關于數據的政府監管法規數量不斷增長,企業經常需要證明數據的來源,例如特定數據工件的來源,或在實現最終目標之前進行了哪些數據轉換;在查看表格、報告或文件時,數據用戶通常也希望理解數據的具體來源以及數據通過各種方式在整個組織中的移動過程。同時,對于變更管理來說,一項重要任務就是查看數據管道中某部分的變更將如何影響系統的其他部分。這就是為什么客戶希望詳細了解數據沿襲的原因。
3 使用業務術語表增強數據治理:
如今大多數企業都建立了一個所有人都認可的術語表,就業務概念達成了一致。通常,業務術語表記錄在 Excel 工作簿中。其實,數據目錄比 Excel 工作簿更適合存儲和管理這一重要業務信息。
此外,數據目錄還支持在業務術語之間建立鏈接,從而創建分類;可以記錄業務術語與實物資產(例如表和列)之間的關系;可以幫助用戶理解哪些業務概念與哪些技術工件相關;可以幫助用戶按業務概念線對數據資產分類,隨后直接使用業務概念(而不是技術名稱)來進行數據搜索和發現。數據目錄讓用戶可以看到與數據相關的所有內容,增強對所查看內容的信任度,為數據治理奠定一個絕佳的起點。
如何充分利用數據目錄中的數據?許多人可能不熟悉元數據,我們有必要先介紹一些簡單的概念。元數據是什么?元數據分為 3 類:
技術元數據:模式、表、列、文件名、報告名 — 源系統中記錄的所有信息
業務元數據:通常指用戶具備的關于組織資產的業務知識,包括業務描述、備注、注釋、分類、適用性、評級等等。
操作元數據:這一對象的刷新時間?它由哪一個 ETL 作業創建?表格被訪問次數有多少?具體有哪些?
在過去幾年里,這些寶貴的元數據的使用方式發生了一次細微的變革。曾經,元數據僅用于審計、來歷追溯和報告。如今,無服務器處理、圖形數據庫等技術創新,尤其是全新、更加便捷的 AI 和機器學習技術正在突破元數據的界限,帶來新的可能。
在今天,元數據可增強數據管理。從自助數據準備到角色和數據內容庫訪問控制,自動化數據打通,異常監視和警報,自動化資源供應和擴展等等,元數據可以全面增強所有這些功能。數據目錄可以使用元數據幫助您實現比數據管理更強大的功能。
數據目錄應當具備哪些功能?一個優秀的數據目錄應當具備以下功能:
1 數據搜索和發現:數據目錄應當具備靈活的搜索和過濾選項,從而賦能用戶快速找到相關數據集,以實施數據科學、分析或數據工程;按照數據資產的技術層級來瀏覽元數據。此外,如支持用戶輸入技術信息、自定義標簽或業務術語,數據目錄可以進一步改善搜索功能。
2 從各種數據源收集元數據:請確保您的數據目錄可以從各種互聯數據資產中收集技術元數據,包括對象存儲、自治駕駛數據庫、本地部署系統等等。
3 元數據管理:數據目錄應支持主題專家通過企業業務術語表、標簽、關聯、用戶自定義注釋、分類、評級等形式來貢獻業務知識。
4 自動化和數據智能:對于大規模數據,人工智能和機器學習通常必不可少。因此,數據目錄應利用 AI 和機器學習技術來處理所收集的元數據,讓所有可以自動化的手動任務都實現自動化。此外,人工智能和機器學習還可以切實增強數據功能,例如為數據目錄用戶以及現代化數據平臺上其他服務的用戶提供數據建議。
5 企業級功能:您需要利用強大的企業級功能來正確使用您至關重要的數據資產,例如身份與訪問管理功能以及基于 REST API 的重要功能。同時,這還意味著客戶和合作伙伴可以貢獻元數據(例如自定義收集器),通過 REST 公開其應用中的數據目錄功能。
除此之外,您的數據目錄還應當成為事實上的系統目錄,從而為所有持久層(例如對象存儲、Hadoop、數據庫和數據倉庫)以及跨所有數據存儲運行的查詢服務提供抽象。
正是因為如此,數據目錄已不再僅僅是錦上添花,而是成為了一項必不可少的工具。
下一篇:數據中臺解決方案...