一、數(shù)據(jù)倉庫的定義
數(shù)據(jù)倉庫是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策。它是為企業(yè)所有級別的決策制定過程,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。它是單個數(shù)據(jù)存儲,出于分析性報告和決策支持目的而創(chuàng)建。為需要業(yè)務智能的企業(yè),提供指導業(yè)務流程改進、監(jiān)視時間、成本、質(zhì)量以及控制。數(shù)據(jù)倉庫管理存儲的是數(shù)據(jù)以及數(shù)據(jù)結(jié)構,本質(zhì)上是一種特殊的數(shù)據(jù)組織形式:
1、集成性,是指將企業(yè)中各大業(yè)務系統(tǒng)進行數(shù)據(jù)集中、整合、加工從而形成全局統(tǒng)一的數(shù)據(jù)視圖;
2、面向主題,即數(shù)據(jù)倉庫中表的設計是按照一個個主題進行組織的而非按照業(yè)務流程設計;
3、反應歷史變化,表明數(shù)據(jù)倉庫通常會保存數(shù)據(jù)的歷史備份,因此就可以從中獲取數(shù)據(jù)歷史變化情況;
4、相對穩(wěn)定,則是指數(shù)據(jù)倉庫中的數(shù)據(jù)不會做頻繁的增刪改操作,相對于業(yè)務系統(tǒng)中頻繁的事務處理,其數(shù)據(jù)變化相對穩(wěn)定。
二、數(shù)據(jù)倉庫的價值
1、時間價值
數(shù)據(jù)倉庫作為數(shù)據(jù)的集合,所有的信息都可以從數(shù)據(jù)倉庫直接獲取,數(shù)據(jù)倉庫的最大優(yōu)勢在于一旦底層從各類數(shù)據(jù)源到數(shù)據(jù)倉庫的ETL流程構建成型,那么每天就會有來自各方面的信息通過自動任務調(diào)度的形式流入數(shù)據(jù)倉庫,從而使一切基于這些底層信息的數(shù)據(jù)獲取的效率達到迅速提升。
2、高效的數(shù)據(jù)組織形式
所有數(shù)據(jù)在進入數(shù)據(jù)倉庫之前都經(jīng)過清洗和過濾,使原始數(shù)據(jù)不再雜亂無章,基于優(yōu)化查詢的組織形式,有效提高數(shù)據(jù)獲取、統(tǒng)計和分析的效率。
3、歷史數(shù)據(jù)
數(shù)據(jù)倉庫能夠還原歷史時間點上的產(chǎn)品狀態(tài)、用戶狀態(tài)、用戶行為等,以便于能更好的回溯歷史,分析歷史,跟蹤用戶的歷史行為,更好地比較歷史和總結(jié)歷史,同時根據(jù)歷史預測未來。
4、集成價值
數(shù)據(jù)倉庫是所有數(shù)據(jù)的集合,包括日志信息、數(shù)據(jù)庫數(shù)據(jù)、文本數(shù)據(jù)、外部數(shù)據(jù)等都集成在數(shù)據(jù)倉庫中,對于應用來說,實現(xiàn)各種不同數(shù)據(jù)的關聯(lián)并使多維分析更加方便,為從多角度多層次地數(shù)據(jù)分析和決策制定提供的可能。
三、如何搭建數(shù)據(jù)倉庫
1、模板調(diào)研
找出實際存在的業(yè)務問題,領導的KPI問題,現(xiàn)在沒有提出未來可能出現(xiàn)的問題,這是數(shù)據(jù)倉庫建立的核心所在。
2、主題域模型設計
主題域的界定、每個主題主實體的準入原則、數(shù)據(jù)處理規(guī)范、核心的分類決定了數(shù)據(jù)模型的主體框架,保持主體框架的穩(wěn)定性確保了倉庫的穩(wěn)定性。
3、概念模型設計
詳細的實體屬性的設計,大量數(shù)據(jù)分析業(yè)務規(guī)則驗證的工作,模型設計的同時完成到邏輯 數(shù)據(jù)模型的簡要數(shù)據(jù)映射
4、邏輯模型數(shù)據(jù)設計
提供與生產(chǎn)一致版本的數(shù)據(jù)結(jié)構,準確完善的數(shù)據(jù)字典,符合分析需求的樣本數(shù)據(jù);并能對樣本數(shù)據(jù)分析中的 問題進行及時準確的回復跟蹤
5、物理存儲模型設計
協(xié)調(diào)倉庫數(shù)據(jù)的相關方達成共識,既包容當前數(shù)據(jù)滿足現(xiàn)有需求,又具備一定的前瞻性便于擴展,還必須具備操作性
6、模型優(yōu)化設計回顧
模型設計是多人協(xié)同的團隊工作,是一項持續(xù)不斷地擴展演化完善的過程,遵循模型設計規(guī)范、沿用一致的模型客戶化方式是至關重要的。