- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2023-01-31來源:我想我愛你瀏覽數:723次
在數據管理方面,數據編織通過自動執行創建數據產品和管理數據產品生命周期所需的許多任務,提供了實施和充分利用數據網格所需的功能。通過使用數據編織基礎的靈活性,您可以實施數據網格,繼續利用以用例為中心的數據架構,無論數據駐留在本地還是云端。
Data Fabric 和 Data Mesh 是新興的數據管理概念,旨在解決組織變革以及在混合多云生態系統中理解、管理和使用企業數據的復雜性。這兩個數據架構概念是互補的。但究竟什么是數據編織和數據網格,如何使用這些數據管理解決方案來利用企業數據來做出更好的決策?

一 什么是數據編織
Gartner 將數據編織定義為“一種設計概念,用作數據和連接過程的集成層。數據編制利用對現有的、可發現的和推斷的元數據的持續分析來支持跨所有環境(包括混合和多云平臺)的集成和可重用數據集的設計、部署和利用。”
數據編織架構方法可以簡化組織中的數據訪問,并促進大規模的自助數據消費。這種方法打破了數據孤島,為塑造數據治理、數據集成、單一事實視圖和可信賴的人工智能實施以及其他常見行業用例提供了新的機會。換句話說,數據訪問、數據集成和數據保護的障礙被最小化,為最終用戶提供最大的靈活性。

使用這種方法,組織不必將所有數據移動到一個位置或數據存儲,也不必采用完全分散的方法。相反,數據編織架構意味著需要在邏輯上或物理上分散的內容與需要集中的內容之間取得平衡。由于這種平衡,可以參與數據編織生態系統的專用數據存儲的數量沒有限制。這意味著將獲得一個全局數據目錄,該目錄用作抽象層、單一事實來源和具有注入治理的單點數據訪問。
二 數據編織的六個核心功能1.知識目錄:此抽象層為360度客戶視圖提供對數據的通用業務理解,從而實現透明度和協作。知識目錄充當一個圖書館,其中包含有關數據的見解。為了幫助了解數據,該目錄包含業務詞匯表、分類法、數據資產(數據產品)以及相關信息,例如質量得分、與每個數據元素關聯的業務術語、數據所有者、活動信息、相關資產等。
2.自動數據豐富:要創建知識目錄,需要自動數據管理服務。這些服務包括自動發現和分類數據、檢測敏感信息、分析數據質量、將業務術語鏈接到技術元數據以及將數據發布到知識目錄的能力。為了處理企業內部如此龐大的數據量,自動化數據豐富需要由機器學習驅動的智能服務。
3.自助服務管理數據訪問:這些服務使用戶能夠輕松地查找、理解、操作和使用具有關鍵管理功能的數據,例如數據分析、數據預覽、向數據集添加標簽和注釋、在項目中協作以及使用 SQL 接口在任何地方訪問數據或 API。

4.智能集成:數據集成功能對于提取、攝取、流式傳輸、虛擬化和轉換數據至關重要,無論數據位于何處。使用旨在同時最大化性能和最小化存儲和訪問成本的數據策略,智能集成有助于確保數據隱私。保護應用于每個數據管道。
5.數據治理、安全性和合規性:使用數據編制,可以通過統一且集中的方式來創建策略和規則。通過元數據(例如數據分類、業務術語、用戶組、角色等)自動將這些策略和規則鏈接到各種數據資產的能力很容易獲得。這些政策和規則,包括數據訪問控制、數據隱私、數據保護和數據質量,然后可以在數據訪問或數據移動期間在所有數據中大規模應用和強制執行。
6.統一生命周期:端到端生命周期,使用 MLOps 和 AI 在統一體驗中組合、構建、測試、部署、編排、審查和管理數據編制的各個方面,例如數據管道。
Data Fabric 架構的這六項關鍵功能使數據消費者能夠更加信任和自信地使用數據。無論數據是什么,或駐留在何處——無論是在傳統數據中心還是混合云環境中,在傳統數據庫或 Hadoop、對象存儲或其他地方——Data Fabric 架構都為數據訪問和使用提供了一種簡單且集成的方法,為用戶提供自助服務并使企業能夠使用數據來最大化其價值鏈。
三 什么是數據網格根據 Forrester 的說法,“數據網格是一種分散的社會技術方法,用于在復雜和大規模的環境中共享、訪問和管理分析數據——在組織內部或跨組織使用。”
Data Mesh的主要目標是超越利用數據倉庫和數據湖的傳統集中式數據管理方法。Data Mesh 通過賦予數據生產者和數據消費者訪問和管理數據的能力來強調組織敏捷性的理念,而無需將任務委托給數據湖或數據倉庫團隊。Data Mesh 的分散方法將數據所有權分配給特定領域的組,這些組將數據作為產品提供服務、擁有和管理。
Data Mesh 的實施提高了希望在不確定的經濟環境中蓬勃發展的組織的組織敏捷性。所有組織都需要能夠以低成本、高回報的方式應對環境變化。引入新的數據源、需要遵守不斷變化的監管要求或滿足新的分析要求都是促使組織數據管理活動發生變化的驅動因素。當前的數據管理方法通常基于操作和分析系統之間復雜且高度集成的 ETL,這些系統努力及時改變以在面對這些驅動因素時及時支持業務需求。Data Mesh 的目的是針對數據提供一種更具彈性的方法,以有效地響應這些變化。
四 數據網格的四個基本原則是由Zhamak Dehghani在2019 年創造的,基于四個基本原則:
領域所有權原則要求領域團隊對其數據負責。根據這一原則,分析數據應該圍繞域組成,類似于與系統的有界上下文對齊的團隊邊界。遵循領域驅動的分布式架構,分析和操作數據所有權從中央數據團隊轉移到領域團隊。
數據作為產品原則將產品思維哲學投射到分析數據上。這個原則意味著域外的數據有消費者。領域團隊負責通過提供高質量的數據來滿足其他領域的需求。基本上,域數據應該被視為任何其他公共 API。
自助數據基礎設施平臺背后的想法是將平臺思維應用于數據基礎設施。一個專門的數據平臺團隊提供與領域無關的功能、工具和系統來為所有領域構建、執行和維護可互操作的數據產品。借助其平臺,數據平臺團隊使領域團隊能夠無縫地使用和創建數據產品。
聯邦治理原則通過標準化實現所有數據產品的互操作性,由治理組通過整個數據網格來推動。聯邦治理的主要目標是創建一個遵守組織規則和行業規則的數據生態系統。

數據網格架構是一種將業務領域或功能的數據源與數據所有者對齊的方法。通過數據所有權去中心化,數據所有者可以為他們各自的領域創建數據產品,這意味著數據消費者,包括數據科學家和業務用戶,可以使用這些數據產品的組合來進行數據分析和數據科學。
數據網格方法的價值在于,與依賴數據工程師清理和集成下游數據產品相比,它將數據產品的創建轉移給最了解業務領域的上游主題專家。

此外,數據網格通過啟用發布-訂閱模型和利用 API 加速數據產品的重用,這使數據消費者更容易獲得他們需要的數據產品,包括可靠的更新。
五 數據編織與數據網格的關系
數據編織和數據網格可以共存。事實上,數據編織可以通過三種方式實現數據網格:
1.為數據所有者提供數據產品創建功能,例如對數據資產進行編目、將資產轉化為產品以及遵循聯合治理策略
2.使數據所有者和數據消費者能夠以各種方式使用數據產品,例如將數據產品發布到目錄、搜索和查找數據產品以及利用數據虛擬化或使用 API 查詢或可視化數據產品。
3.通過學習模式作為數據產品創建過程的一部分或作為監控數據產品過程的一部分,使用來自數據編織元數據的見解來自動化任務
在數據管理方面,數據編織通過自動執行創建數據產品和管理數據產品生命周期所需的許多任務,提供了實施和充分利用數據網格所需的功能。通過使用數據編織基礎的靈活性,您可以實施數據網格,繼續利用以用例為中心的數據架構,無論數據駐留在本地還是云端。