最簡單的數(shù)據(jù)倉庫是用于存儲和報告數(shù)據(jù)的系統(tǒng)。數(shù)據(jù)通常源自多個系統(tǒng),然后將其移入數(shù)據(jù)倉庫以進(jìn)行長期存儲和分析。該存儲的結(jié)構(gòu)使得組織內(nèi)的許多部門或部門的用戶可以根據(jù)他們的需要訪問和分析數(shù)據(jù)。

數(shù)據(jù)倉庫包含來自許多操作源的數(shù)據(jù)。它用于分析數(shù)據(jù)。
數(shù)據(jù)倉庫是分析工具,旨在支持跨多個部門的用戶的決策和報告。它們也是檔案,包含未在操作系統(tǒng)中維護(hù)的歷史數(shù)據(jù)。
數(shù)據(jù)倉庫致力于為整個組織創(chuàng)建單一,統(tǒng)一的真實(shí)系統(tǒng)。不幸的是,正如您可能想象的那樣,嘗試在這樣的系統(tǒng)中保持準(zhǔn)確性和徹底性是非常困難的。
為什么使用數(shù)據(jù)倉庫?
因此,如果數(shù)據(jù)倉庫的構(gòu)建和維護(hù)非常復(fù)雜,那么組織為什么要這么做呢?
數(shù)據(jù)倉庫可以提供:
-
????????????所有數(shù)據(jù)的單一訪問點(diǎn),而不是要求用戶單獨(dú)連接數(shù)十個甚至數(shù)百個系統(tǒng)
-
????????????保證數(shù)據(jù)質(zhì)量
-
????????????他們存儲的數(shù)據(jù)的歷史記錄
-
????????????出于安全原因,在日常操作系統(tǒng)和分析系統(tǒng)之間進(jìn)行分離
-
????????????圍繞數(shù)據(jù)的標(biāo)準(zhǔn)語義集,例如:命名約定的一致性,不同類型的產(chǎn)品,語言和貨幣的代碼等等
在結(jié)構(gòu)化關(guān)系中存儲全面的數(shù)據(jù)意味著數(shù)據(jù)倉庫還可以提供各種復(fù)雜問題的答案,例如:
-
????????????在過去十年中,我們的每個產(chǎn)品線每月帶來多少收入,按城市分類?
-
????????????我們的其中一臺ATM的平均交易規(guī)模是多少,按時間和客戶資產(chǎn)總額分列?
-
????????????在已開業(yè)至少三年的商店中,過去一年的員工營業(yè)額百分比是多少?這些員工每周工作多少小時?
數(shù)據(jù)倉庫架構(gòu)
數(shù)據(jù)倉庫以多種不同的形式構(gòu)建,試圖考慮并構(gòu)建使用它們的組織的復(fù)雜性。
但基本架構(gòu)非常一致:
首先,原始數(shù)據(jù)被格式化,有時稱為清理和規(guī)范化。您可以將此視為將源數(shù)據(jù)從源移動到倉庫的管道,確保數(shù)據(jù)被適當(dāng)?shù)孛透袷交⑴c存儲的其余數(shù)據(jù)保持準(zhǔn)確的關(guān)系。這通常稱為集成層,不一定被視為數(shù)據(jù)倉庫本身的一部分。
然后將格式化的數(shù)據(jù)存儲在數(shù)據(jù)倉庫中。訪問層允許工具和應(yīng)用程序以適合其需要的格式檢索數(shù)據(jù)。
數(shù)據(jù)倉庫架構(gòu)還有另一個方面,它管理稱為元數(shù)據(jù)的整個結(jié)構(gòu)。元數(shù)據(jù)是有關(guān)數(shù)據(jù)的數(shù)據(jù)。維護(hù)數(shù)據(jù)倉庫的數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家收集有關(guān)數(shù)據(jù)源,命名約定,刷新計劃等的信息,并使用此信息來維護(hù)數(shù)據(jù)質(zhì)量并確保數(shù)據(jù)倉庫滿足其預(yù)期目的。
關(guān)鍵概念
提取,轉(zhuǎn)換,加載(ETL)
ETL系統(tǒng)管理源數(shù)據(jù)系統(tǒng)和數(shù)據(jù)倉庫系統(tǒng)之間的數(shù)據(jù)移動(即:數(shù)據(jù)倉庫架構(gòu)部分中提到的管道),以及從數(shù)據(jù)倉庫到數(shù)據(jù)集市的移動。首先必須從源中提取數(shù)據(jù),然后根據(jù)下一層存儲的標(biāo)準(zhǔn)進(jìn)行轉(zhuǎn)換,最后必須將格式化的數(shù)據(jù)正確加載到下一層。
數(shù)據(jù)倉庫與數(shù)據(jù)庫
嚴(yán)格地說,數(shù)據(jù)庫是任何結(jié)構(gòu)化數(shù)據(jù)集合。Excel電子表格,Rolodex或地址簿都是非常簡單的數(shù)據(jù)庫示例。Excel,Oracle或MongoDB等軟件是一個數(shù)據(jù)庫管理系統(tǒng)(DBMS),允許用戶訪問和管理數(shù)據(jù)庫。人們通常將DBMS稱為數(shù)據(jù)庫。然后,數(shù)據(jù)倉庫是一種數(shù)據(jù)庫。它專門用于存儲的數(shù)據(jù) - 來自多個來源的歷史數(shù)據(jù) - 以及它所服務(wù)的目的分析。
數(shù)據(jù)倉庫與數(shù)據(jù)湖
數(shù)據(jù)庫和數(shù)據(jù)倉庫的關(guān)鍵屬性是它們包含結(jié)構(gòu)化數(shù)據(jù)。存儲數(shù)據(jù)的方式 - 從可用的字段到日期格式,以及介于兩者之間的所有內(nèi)容 - 事先達(dá)成一致,整個數(shù)據(jù)庫嚴(yán)格遵循此結(jié)構(gòu)或模式。它們的相對一致性和穩(wěn)定性意味著數(shù)據(jù)倉庫可以為組織中的多種類型的角色提供查詢。這個過程非常有條理,非常可預(yù)測,而且效率很高,但也很難做得很好。
圍繞數(shù)據(jù)湖的精確定義仍然形成共識。但是,一般來說,數(shù)據(jù)湖是另一種存儲數(shù)據(jù)的方法,但沒有嚴(yán)格的數(shù)據(jù)倉庫模式。與數(shù)據(jù)倉庫相比,查詢應(yīng)用數(shù)據(jù)湖中的模式。這意味著將數(shù)據(jù)加載到數(shù)據(jù)湖中要容易得多,但構(gòu)建查詢要復(fù)雜得多,這限制了數(shù)據(jù)湖對數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家等復(fù)雜角色的使用。與數(shù)據(jù)倉庫相比,數(shù)據(jù)湖通常需要更長的時間才能返回結(jié)果。大多數(shù)數(shù)據(jù)湖都是基于Hadoop構(gòu)建的。
數(shù)據(jù)倉庫與數(shù)據(jù)集市
如果數(shù)據(jù)倉庫保存并集成來自整個組織的數(shù)據(jù),則數(shù)據(jù)集市是數(shù)據(jù)的較小子集,專門用于使用給定的部門或部門。數(shù)據(jù)集市通常由單個部門構(gòu)建和控制,使用中央數(shù)據(jù)倉庫以及內(nèi)部操作系統(tǒng)和外部數(shù)據(jù)。數(shù)據(jù)集市通常僅包含一個主題領(lǐng)域,例如營銷或銷售。因為它們更小且更具體,所以它們通常更易于管理和維護(hù),并且具有更靈活的結(jié)構(gòu)。
OLAP多維數(shù)據(jù)集
OLAP系統(tǒng)通常包含大量數(shù)據(jù),這會使運(yùn)行特定查詢的速度變慢。為了加速和簡化查詢,可以將OLAP系統(tǒng)進(jìn)一步細(xì)分為稱為多維數(shù)據(jù)集的子數(shù)據(jù)庫,這些子數(shù)據(jù)庫包含一組有限的維度,因此可以提供更快的查詢時間。
商業(yè)智能軟件是數(shù)據(jù)倉庫之上的關(guān)鍵層,允許其中的信息用于制定業(yè)務(wù)決策。商業(yè)智能軟件具有許多不同類型的功能,但它通常包括用于構(gòu)建和執(zhí)行查詢的某種引擎,以及存儲和可視化結(jié)果以便合并到包含業(yè)務(wù)分析的文檔中的方法。
數(shù)據(jù)倉庫技術(shù)
在考慮使用哪些工具時,重要的是確保它們在可擴(kuò)展性方面滿足您的要求(可以根據(jù)您的需求增長),訪問權(quán)限(用戶以及需要訪問倉庫和從哪些位置訪問的數(shù)量)以及集成(此系統(tǒng)是否與您的數(shù)據(jù)源和BI工具集成)。
關(guān)系數(shù)據(jù)庫
關(guān)系數(shù)據(jù)庫是存儲大多數(shù)業(yè)務(wù)數(shù)據(jù)的系統(tǒng)。他們已經(jīng)存在了幾十年并且非常成熟。存在用于OLTP和OLAP用例的關(guān)系數(shù)據(jù)庫。他們非常了解并為管理和數(shù)據(jù)訪問提供了廣泛的互補(bǔ)技術(shù)生態(tài)系統(tǒng)。流行的關(guān)系數(shù)據(jù)庫包括:
-
????????????IBM DB2。IBM將其核心關(guān)系數(shù)據(jù)庫DB2與其應(yīng)用程序服務(wù)器,數(shù)據(jù)挖掘技術(shù),用于多維數(shù)據(jù)集和BI的Cognos以及其他技術(shù)捆綁在一起。他們稱之為DB2 Warehouse。DB2最受IBM使用IBM硬件,軟件和服務(wù)的商店的歡迎。
-
????????????Microsoft SQL Server。Microsoft已在許多版本中構(gòu)建其核心關(guān)系數(shù)據(jù)庫的功能,以支持大型數(shù)據(jù)倉庫部署。他們還構(gòu)建了與云產(chǎn)品和Hadoop的集成,為結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)提供更全面的產(chǎn)品。Microsoft還擁有最好的管理工具和與其他Microsoft產(chǎn)品(包括Windows)的集成。SQL Server最受微軟商店歡迎,并且往往更具成本競爭力。
-
????????????Oracle Exadata。與IBM一樣,Oracle也是硬件供應(yīng)商。Exadata是一種基于核心Oracle數(shù)據(jù)庫的設(shè)備,其硬件和軟件已針對大規(guī)模,高性能系統(tǒng)進(jìn)行了優(yōu)化。Oracle是市場上最受歡迎的數(shù)據(jù)庫。Exadata非常昂貴。
MPP(大規(guī)模并行處理)分析數(shù)據(jù)庫
MPP數(shù)據(jù)庫是一種數(shù)據(jù)倉庫技術(shù),專注于支持并行處理的硬件和軟件。也就是說,查詢處理被分解為跨多個服務(wù)器一起執(zhí)行的許多較小的并行任務(wù)。這種方法可以大大加快查詢和攝取時間。但是,MPP數(shù)據(jù)庫可能很昂貴,因為最受歡迎的供應(yīng)商都有閉源產(chǎn)品。
流行的MPP數(shù)據(jù)庫包括:
-
????????????Teradata的。Teradata是黃金標(biāo)準(zhǔn)。它是使用最廣泛,最成熟的。與上面列出的關(guān)系供應(yīng)商不同,Teradata一直專注于數(shù)據(jù)倉庫。它僅作為設(shè)備提供,而且非常昂貴。
-
????????????IBM Netezza。Netezza是另一種數(shù)據(jù)倉庫設(shè)備,由于價格昂貴且易于使用而迅速增長。該軟件部分基于開源關(guān)系數(shù)據(jù)庫PostgreSQL。Netezza的一項重要創(chuàng)新是使用現(xiàn)場可編程門陣列(FPGA)來加速查詢處理。Netezza于2010年被IBM收購。
-
????????????HP Vertica。Vertica是一個創(chuàng)新的面向列的MPP數(shù)據(jù)庫,來自麻省理工學(xué)院的研究。與當(dāng)時的競爭產(chǎn)品不同,Vertica可作為支持多種硬件平臺的軟件提供,并且由于新穎的SQL執(zhí)行引擎和強(qiáng)大的壓縮功能而提供了引人注目的性能。Vertica于2011年被惠普收購。
-
????????????Pivotal Greenplum。Greenplum是一個基于PostgreSQL的MPP數(shù)據(jù)庫。因為它基于PostgreSQL,所以它具有更廣泛的互補(bǔ)工具生態(tài)系統(tǒng)。而且因為它是面向行的,所以與面向列的產(chǎn)品相比,它會產(chǎn)生不同的權(quán)衡。它于2010年被EMC收購,隨后于2015年由Pivotal開源。
-
????????????SAP Sybase IQ。Sybase IQ是最早的面向列的數(shù)據(jù)庫之一,并于20世紀(jì)90年代末進(jìn)入市場。它有著悠久的歷史記錄,特別是在以金融服務(wù)等以Sybase為中心的市場中。IQ因其強(qiáng)勁的表現(xiàn)而聞名,但被認(rèn)為價格昂貴且難以管理和擴(kuò)展。Sybase于2010年被SAP收購。
Hadoop的
與MPP方法類似,Hadoop還能夠在計算機(jī)集群中分配計算任務(wù)。但是,Hadoop是開源的,因此企業(yè)采用它更容易,也更便宜。大多數(shù)數(shù)據(jù)湖都使用Hadoop,因為它能夠廉價快速地處理大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并且因為它非常適合以原生格式存儲數(shù)據(jù),因此分析師可以應(yīng)用他們需要的任何轉(zhuǎn)換。Hadoop在技術(shù)上不是一個數(shù)據(jù)庫,但它在許多功能區(qū)域都有重疊。
數(shù)據(jù)倉庫的替代品
每家公司都管理著一個數(shù)據(jù)倉庫,以捕獲其業(yè)務(wù)歷史。但是,當(dāng)涉及到通用分析時,經(jīng)常使用數(shù)據(jù)倉庫,因為它們是唯一可用的工具。數(shù)據(jù)倉庫功能強(qiáng)大且有用,但需要在前期和持續(xù)的基礎(chǔ)上進(jìn)行大量工作才能使用和維護(hù)。由于數(shù)據(jù)倉庫必須集中和標(biāo)準(zhǔn)化才能為整個組織中的許多用戶提供服務(wù),因此它們始終包含對應(yīng)存儲的內(nèi)容以及如何對所有用戶不是最佳的假設(shè)。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)