- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2019-12-13來源:億信華辰瀏覽數:841次
隨著企業信息化的發展,企業內部建立了大量的信息化系統。然而,這些信息系統的數據源大多彼此獨立、相互封閉,使得數據難以在系統之間交流和共享,從而形成了所謂的“信息孤島”。企業急需通過數據整合平臺來聯系整個企業的異構系統,完成在企業內部信息化系統之間無縫的共享和交換數據。

(圖 1 )數據整合
數據工廠提供了一個統一的接口,屏蔽底層數據源的不同,使得用戶不必考慮底層數據模型和地理位置不同等問題,能夠通過一個統一的界面實現對異構數據源的整合。這樣就使得對多數據源的操作就像操作一個數據源一樣簡單。
傳統的ETL工具的數據整合方式是,首先從多種數據源抽取數據,然后在一個獨立的ETL引擎轉換數據,最后裝載轉換后的數據到目標數據庫。

(圖 2)傳統數據整合
這種方式下,數據一定要在網絡間傳輸兩次,一次是源數據源和ETL服務器之間,一次是ETL服務器和目標數據源之間。如果用戶想要確保源數據的參照完整性,需要根據目標數據庫的標準維表進行參照,那么被參照的數據也一定要從目標數據源抽取到ETL服務器,這樣就更增加了不必要的網絡數據傳輸,降低了整體的處理性能。
數據工廠抽象了一個數據集結區的概念,用戶定義的數據轉換工作將在數據集結區上運行。
1、運行前分析整個ETL過程,根據盡少移動數據的原則選擇數據集結區,消除不必要的網絡傳輸;
2、直接在源數據源上進行轉化操作,減少遷移的數據量;
3、通過異構數據同步工具,使得不同數據源之間的數據能夠方便快捷的進行同步。
1數據集結區適配
1.1 數據集結區在源數據庫
當需要整合的數據源都在同一個數據庫時,數據工廠將數據集結區設置在源數據庫上。在源數據庫上對數據進行轉換后,再將整合后的數據裝載表到目標數據庫。

(圖 3)源數據源集結
1.2 數據集結區在目標數據庫
當數據源來自于不同的數據庫時,數據工廠將數據集結區設在目標數據庫上。從源數據庫抽取數據,裝載表到目標服務器,然后在目標數據庫上執行轉換操作。

(圖 4)目標數據源集結
1.3 數據集結區在默認數據庫
當源和目標數據源都不是關系數據庫時,數據工廠將數據集結區設置在默認數據庫。將數據源的數據抽取到默認數據庫中進行轉換,最后再加載到目標數據源。

(圖 5)默認數據源集結
2異構數據同步
數據工廠提供了一個通用的異構數據同步工具,通過該工具我們可以高效的在各種異構數據源之間進行數據的同步。該數據同步工具采用插件式架構,增加新的數據源支持時,僅需要擴展對應的讀和寫接口接口完成新數據源與原有數據源的數據同步支持。

(圖 6)數據同步
通過靈活選擇數據集結區與利用異構數據同步工具,數據工廠使得用戶在跨數據源整合過程中達到性能和生產效率的完美結合。