睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一，入選IDC企業數據治理實施部署指南。同時，在IDC發布的《中國數據治理市場份額》報告中，連續四年蟬聯數據治理解決方案市場份額第一。

在線免費試用 DEMO體驗視頻介紹

睿治智能數據治理平臺

IDC蟬聯數據治理解決方案市場第一

關于數倉基礎知識的超全概括

時間：2023-01-13來源：掏心止痛瀏覽數：211次

數據倉庫，英文名稱為Data Warehouse，可簡寫為DW或DWH。數據倉庫，是為企業所有級別的決策制定過程，提供所有類型數據支持的戰略集合。它出于分析性報告和決策支持目的而創建。為需要業務智能的企業，提供指導業務流程改進、監視時間、成本、質量以及控制。

2、數據倉庫能干什么？

年度銷售目標的指定，需要根據以往的歷史報表進行決策，不能拍腦袋

如何優化業務流程

例如：一個電商網站訂單的完成包括：瀏覽、下單、支付、物流，其中物流環節可能和中通、申通、韻達等快遞公司合作。快遞公司每派送一個訂單，都會有訂單派送的確認時間，可以根據訂單派送時間來分析哪個快遞公司比較快捷高效，從而選擇與哪些快遞公司合作，剔除哪些快遞公司，增加用戶友好型。

簡而言之就是匯總八方數據，清洗后提供對我服務。

3、數據倉庫的特點

1. 數據倉庫的數據是面向主題的

與傳統數據庫面向應用進行數據組織的特點相對應，數據倉庫中的數據是面向主題進行組織的。什么是主題呢？首先，主題是一個抽象的概念，是較高層次上企業信息系統中的數據綜合、歸類并進行分析利用的抽象。

在邏輯意義上，它是對應企業中某一宏觀分析領域所涉及的分析對象。面向主題的數據組織方式，就是在較高層次上對分析對象的數據的一個完整、一致的描述，能完整、統一地刻劃各個分析對象所涉及的企業的各項數據，以及數據之間的聯系。所謂較高層次是相對面向應用的數據組織方式而言的，是指按照主題進行數據組織的方式具有更高的數據抽象級別。說白了就個寫作文一樣，寫什么你總的有個主題思想啊！

2. 數據倉庫的數據是集成的

數據倉庫的數據是從原有的分散的數據庫數據抽取來的。操作型數據與分析型數據之間差別甚大。

數據倉庫的每一個主題所對應的源數據在原有的各分散數據庫中有許多重復和不一致的地方，且來源于不同的聯機系統的數據都和不同的應用邏輯捆綁在一起；

數據倉庫中的綜合數據不能從原有的數據庫系統直接得到。因此在數據進入數據倉庫之前，必然要經過統一與綜合。

這一步是數據倉庫建設中最關鍵、最復雜的一步，所要完成的工作有：

要統一解決源數據中所有矛盾之處，如字段的同名異義、異名同義、單位不統一、字長不一致等

進行數據綜合和計算。數據倉庫中的數據綜合工作可以在從原有數據庫抽取數據時生成，但許多是在數據倉庫內部生成的，即進入數據倉庫以后進行綜合生成的

大部分情況下一般數倉的建立是由大數據部門負責構建，而別的分析業務部門是無權直接用線上的table的

3. 數據倉庫的數據是不可更新的

數據倉庫的數據主要供企業決策分析之用，所涉及的數據操作主要是數據查詢，一般情況下并不進行修改操作。數據倉庫的數據反映的是一段相當長的時間內歷史數據的內容，是不同時點的數據庫快照的集合，以及基于這些快照進行統計、綜合和重組的導出數據，而不是聯機處理的數據。

數據庫中進行聯機處理的數據經過集成輸入到數據倉庫中，一旦數據倉庫存放的數據已經超過數據倉庫的數據存儲期限，這些數據將從當前的數據倉庫中刪去。因為數據倉庫只進行數據查詢操作，所以數據倉庫管理系統相比數據庫管理系統而言要簡單得多。

4.?數據倉庫的數據是隨時間不斷變化的

數據倉庫中的數據不可更新是針對應用來說的，也就是說，數據倉庫的用戶進行分析處理時是不進行數據更新操作的。但并不是說，在從數據集成輸入數據倉庫開始到最終被刪除的整個數據生存周期中，所有的數據倉庫數據都是永遠不變的。

數據倉庫的數據是隨時間的變化而不斷變化的，這是數據倉庫數據的第四個特征。這一特征表現在以下3方面：

數據倉庫隨時間變化不斷增加新的數據內容。數據倉庫系統必須不斷捕捉OLTP數據庫中變化的數據，追加到數據倉庫中去，也就是要不斷地生成OLTP數據庫的快照，經統一集成后增加到數據倉庫中去；但對于確實不再變化的數據庫快照，如果捕捉到新的變化數據，則只生成一個新的數據庫快照增加進去，而不會對原有的數據庫快照進行修改。形象來說就是對數據進每日全量數據的收集

數據倉庫隨時間變化不斷刪去舊的數據內容。數據倉庫的數據也有存儲期限，一旦超過了這一期限，過期數據就要被刪除。只是數據倉庫內的數據時限要遠遠長于操作型環境中的數據時限。在操作型環境中一般只保存有60到90天的數據，而在數據倉庫中則需要保存較長時限的數據（如5~10年），以適應DSS(Decision Support System)進行趨勢分析的要求

數據倉庫中包含有大量的綜合數據，這些綜合數據中很多跟時間有關，如數據經常按照時間段進行綜合，或隔一定的時間片進行抽樣等等。這些數據要隨著時間的變化不斷地進行重新綜合。因此，數據倉庫的數據特征都包含時間項，以標明數據的歷史時期

4、數據倉庫發展歷程

數據庫與數據倉庫的區別

????

OLTP跟OLAP

數據庫與數據倉庫的區別實際講的是OLTP與OLAP的區別。

操作型處理：叫聯機事務處理OLTP（On-Line Transaction Processing），也可以稱面向交易的處理系統，它是針對具體業務在數據庫聯機的日常操作，通常對少數記錄進行查詢、修改。用戶較為關心操作的響應時間、數據的安全性、完整性和并發支持的用戶數等問題。傳統的數據庫系統作為數據管理的主要手段，主要用于操作型處理

分析型處理：叫聯機分析處理OLAP（On-Line Analytical Processing）一般針對某些主題的歷史數據進行分析，支持管理決策，ETL

數據倉庫架構分層(重點)

1. 數據倉庫架構

數據倉庫標準上可以分為四層：ODS（臨時存儲層）、PDW（數據倉庫層）、DM（數據集市層）、APP（應用層）。

各個系統的元數據通過ETL同步到操作性數據倉庫ODS中，對ODS數據進行面向主題域建模形成DW（數據倉庫），DM是針對某一個業務領域建立模型，具體用戶（決策層）查看DM生成的報表。

臨時存儲數據運營層：ODS(Operational Data Store)：ODS層是這樣一種數據存儲系統，它將來自不同數據源的數據（各種操作型數據庫、外部數據源等）通過ETL（Extract-Transform-Load）過程匯聚整合成面向主題的、集成的、企業全局的、一致的數據集合（主要是最新的或者最近的細節數據以及可能需要的匯總數據）。從數據粒度上來說ODS層的數據粒度是最細的。ODS層的表通常包括兩類，一個用于存儲當前需要加載的數據，一個用于存儲處理完后的歷史數據。歷史數據一般保存3-6個月后需要清除，以節省空間。但不同的項目要區別對待，如果源系統的數據量不大，可以保留更長的時間，甚至全量保存

數據倉庫層：DW（Data Warehouse）：為數據倉庫層，DW層的數據應該是一致的、準確的、干凈的數據，即對源系統數據進行了清洗（去除了雜質）后的數據。這一層的數據一般是遵循數據庫第三范式的，其數據粒度通常和ODS的粒度相同。在DW層會保存BI系統中所有的歷史數據，例如保存10年的數據

DW : Data Warehouse 翻譯成數據倉庫，DW由下到上分為 DWD、DWB、DWS。DWD：Warehouse Detail 細節數據層，有的也稱為 ODS層，是業務層與數據倉庫的隔離層 DWB：Data Warehouse Base 基礎數據層，存儲的是客觀數據，一般用作中間層，可以認為是大量指標的數據層。DWS：Data Warehouse Service 服務數據層，基于DWB上的基礎數據，整合匯總成分析某一個主題域的服務數據，一般是寬表。

數據集市層：DM(Data Mart)：為數據集市層，這層數據是面向主題來組織數據的，通常是星形或雪花結構的數據。從數據粒度來說，這層的數據是輕度匯總級的數據，已經不存在明細數據了。從數據的時間跨度來說，通常是DW層的一部分，主要的目的是為了滿足用戶分析的需求，而從分析的角度來說，用戶通常只需要分析近幾年（如近三年的數據）的即可。從數據的廣度來說，仍然覆蓋了所有業務數據。

應用層：Application層：這層數據是完全為了滿足具體的分析需求而構建的數據，也是星形或雪花結構的數據。從數據粒度來說是高度匯總的數據。從數據的廣度來說，則并不一定會覆蓋所有業務數據，而是DM層數據的一個真子集，從某種意義上來說是DM層數據的一個重復。從極端情況來說，可以為每一張報表在APP層構建一個模型來支持，達到以空間換時間的目的數據倉庫的標準分層只是一個建議性質的標準，實際實施時需要根據實際情況確定數據倉庫的分層，不同類型的數據也可能采取不同的分層方法。

2. 為什么要對數據倉庫分層？

用空間換時間，通過大量的預處理來提升應用系統的用戶體驗（效率），因此數據倉庫會存在大量冗余的數據

解偶，如果不分層的話，如果源業務系統的業務規則發生變化將會影響整個數據清洗過程，工作量巨大

通過數據分層管理可以簡化數據清洗的過程，因為把原來一步的工作分到了多個步驟去完成，相當于把一個復雜的工作拆成了多個簡單的工作，把一個大的黑盒變成了一個白盒，每一層的處理邏輯都相對簡單和容易理解，這樣我們比較容易保證每一個步驟的正確性，當數據發生錯誤的時候，往往我們只需要局部調整某個步驟即可。

元數據介紹

當需要了解某地企業及其提供的服務時，電話黃頁的重要性就體現出來了。元數據(Metadata)類似于這樣的電話黃頁。

1. 元數據的定義

2. 元數據的存儲方式

3. 元數據的作用

星型模型和雪花模型

在多維分析的商業智能解決方案中，根據事實表和維度表的關系，又可將常見的模型分為星型模型和雪花型模型。在設計邏輯型數據的模型的時候，就應考慮數據是按照星型模型還是雪花型模型進行組織。

1. 星型模型

當所有維表都直接連接到事實表上時，整個圖解就像星星一樣，故將該模型稱為星型模型。

星型架構是一種非正規化的結構，多維數據集的每一個維度都直接與事實表相連接，不存在漸變維度，所以數據有一定的冗余，如在地域維度表中，存在國家A 省B的城市C以及國家A省B的城市D兩條記錄，那么國家A和省B的信息分別存儲了兩次，即存在冗余。

2. 雪花模型

當有一個或多個維表沒有直接連接到事實表上，而是通過其他維表連接到事實表上時，其圖解就像多個雪花連接在一起，故稱雪花模型。雪花模型是對星型模型的擴展。它對星型模型的維表進一步層次化，原有的各維表可能被擴展為小的事實表，形成一些局部的層次區域，這些被分解的表都連接到主維度表而不是事實表。

如圖所示，將地域維表又分解為國家，省份，城市等維表。它的優點是：通過最大限度地減少數據存儲量以及聯合較小的維表來改善查詢性能。雪花型結構去除了數據冗余。

星型模型因為數據的冗余所以很多統計查詢不需要做外部的連接，因此一般情況下效率比雪花型模型要高。星型結構不用考慮很多正規化的因素，設計與實現都比較簡單。雪花型模型由于去除了冗余，有些統計就需要通過表的聯接才能產生，所以效率不一定有星型模型高。

正規化也是一種比較復雜的過程，相應的數據庫結構設計、數據的 ETL、以及后期的維護都要復雜一些。因此在冗余可以接受的前提下，實際運用中星型模型使用更多，也更有效率。

3. 星型模型和雪花模型對比

星形模型和雪花模型是數據倉庫中常用到的兩種方式，而它們之間的對比要從四個角度來進行討論。

數據優化：雪花模型使用的是規范化數據，也就是說數據在數據庫內部是組織好的，以便消除冗余，因此它能夠有效地減少數據量。通過引用完整性，其業務層級和維度都將存儲在數據模型之中。相比較而言，星形模型使用的是反規范化數據。在星形模型中，維度直接指的是事實表，業務層級不會通過維度之間的參照完整性來部署

業務模型：在雪花模型中，數據模型的業務層級是由一個不同維度表主鍵-外鍵的關系來代表的。而在星形模型中，所有必要的維度表在事實表中都只擁有外鍵

性能：第三個區別在于性能的不同。雪花模型在維度表、事實表之間的連接很多，因此性能方面會比較低。舉個例子，如果你想要知道一個用戶的詳細信息，雪花模型就會進行若干表的join最終匯總結果。而星形模型的連接就少的多，在這個模型中，如果你需要對應信息，你只要將維度表和事實表連接即可

ETL：雪花模型加載數據集市，因此ETL操作在設計上更加復雜，而且由于附屬模型的限制，不能并行化。星形模型加載維度表，不需要再維度之間添加附屬模型，因此ETL就相對簡單，而且可以實現高度的并行化

總結：雪花模型使得維度分析更加容易，比如針對特定的廣告主，有哪些客戶或者公司是在線的? 星形模型用來做指標分析更適合，比如給定的一個客戶他們的收入是多少?

（部分內容來源網絡，如有侵權請聯系刪除）

立即申請數據分析/數據治理產品免費試用我要試用

上一篇：數字孿生城市白皮書（2022年）...

下一篇：怎樣減少報表后臺的中間表？...