1. 數據倉庫
數據倉庫(Data Warehouse)是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理決策和信息的全局共享。
所謂面向主題,是指根據使用者實際需求,將不同數據源的數據在一個較高的抽象層次上做整合,所有數據都圍繞某一主題來組織,例如:采購主題、生產主題、客戶主題、銷售主題等。
所謂集成性,是指數據倉庫中存儲的數據是來源于多個數據源的集成、匯總。由于原始數據來自不同的數據源,存儲方式各不相同。要整合成為最終的數據集合,需要從數據源經過一系列抽取、清洗、轉換的過程。
所謂相對穩定,是指數據倉庫中存儲的數據一般為“既成事實”的數據,也可理解為歷史數據的一個快照,只做查詢分析用,不允許修改。
所謂反映歷史變化,是指數據倉庫根據不斷集成新的主題數據,反應出該主題的數據變化情況,例如:銷售業績完成情況。
2. 數據湖
數據湖是將來自不同數據源、不同數據類型(結構化、半結構化、非結構化)的數據,以原始格式存儲進行存儲的系統,它按原樣存儲數據,而無需事先對數據進行結構化處理。
有人認為數據湖是數據倉庫的PLUS版,增強了
數據存儲的能力。而實際上,數據湖不簡單是數據倉庫一個技術上的升級,更重要的是數據管理思維的升級。數據倉庫是需要事先定義好數據結構,然后是報表取數。而大數據的發展,數據形式越發多樣化,傳統數倉這種定義數據結構、取數、出表的模式,已經很難滿足業務上的需求了。
因此,數據湖以原始格式存儲各種類型數據,以及按需進行數據結構化處理、數據清理、提供數據服務,以更加靈活的方式支持多種應用場景的能力越來越受到人們的歡迎。
3. 數據工廠
前邊提到的數據倉庫和數據湖,重點側重于數據的存儲,本質上是“原材料”的存儲系統,而要讓數據發揮價值,就必須將這個“原材料”需要加工成用戶需要的“產品”。數據工廠就是根據用戶的需求,將原始數據進行加工、處理、清洗、轉換、匯總等各種加工工序,生產出能夠被用戶直接使用的數據產品。
數據工廠包含了多種數據處理的工具,以滿足不同處理工序的作業需要,例如:數據源連接、數據同步、
數據清洗、數據轉換、數據工作流、數據目錄、數據服務等等。
4. 數據中臺
其實,如果從功能構件上來講,我認為:數據中臺就是數據湖+數據工廠的一個綜合。但不同的是數據中臺更注重
數據應用,離業務更近,強調一個快速敏捷。
數據中臺不僅關注原始數據的存儲及處理加工,更側重將數據處理過程中,常用的邏輯、算法、標簽、模型進行沉淀,而形成一系列的“數據半成品”,然后根據前臺業務的需要,快速生產出用戶需要的“數據產品”。數據中臺能力強弱,要看這個“數據半成品”積累的多少了。
在數據生產的整個鏈條中,對于如何筑湖、如何選址建廠、按什么工序加工、以及如何配送,這是技術部門的事情,而“數據半成品”的沉淀和積累,卻不是技術能決定的了。因此,數據中臺的建設更強調需求驅動、業務主導。

(部分內容來源網絡,如有侵權請聯系刪除)