- 產(chǎn)品
- 產(chǎn)品解決方案
- 行業(yè)解決方案
- 案例
- 數(shù)據(jù)資產(chǎn)入表
- 賦能中心
- 伙伴
- 關于
-
數(shù)據(jù)治理
-
醫(yī)療衛(wèi)生
制造
-
億信動態(tài)
時間:2022-07-08來源:天生我才必有用瀏覽數(shù):476次
當創(chuàng)建未來數(shù)據(jù)倉庫的架構時,企業(yè)必須考慮多種因素,例如將連接到數(shù)據(jù)倉庫的數(shù)據(jù)源數(shù)量、每個數(shù)據(jù)源中的信息量及其性質(zhì)和復雜性、企業(yè)的分析目標、現(xiàn)有技術環(huán)境等。

預計到 2025 年,全球數(shù)據(jù)量將增長到 180 澤字節(jié),企業(yè)必須處理兩個主要問題——將數(shù)據(jù)存儲在何處以及如何使用數(shù)據(jù)。自 1980 年代以來一直存在并不斷擴展其功能,數(shù)據(jù)倉庫可以幫助企業(yè)應對這兩個挑戰(zhàn)。然而,根據(jù)獨立市場研究公司 Vanson Bourne 的研究,無論技術的成熟度以及數(shù)據(jù)倉庫通常由商業(yè)智能服務專家開發(fā)的現(xiàn)狀如何,失敗項目的百分比都會令人不安。
在本文中,我們將通過概述數(shù)據(jù)倉庫設計和數(shù)據(jù)倉庫開發(fā)步驟的兩種基本方法來深入探討數(shù)據(jù)倉庫實現(xiàn)的細節(jié)。我們還就如何為數(shù)據(jù)倉庫項目配備人員提供建議,并推薦用于創(chuàng)建可擴展解決方案的技術。
01 數(shù)據(jù)倉庫架構的 3 個核心組件當創(chuàng)建未來數(shù)據(jù)倉庫的架構時,企業(yè)必須考慮多種因素,例如將連接到數(shù)據(jù)倉庫的數(shù)據(jù)源數(shù)量、每個數(shù)據(jù)源中的信息量及其性質(zhì)和復雜性、企業(yè)的分析目標、現(xiàn)有技術環(huán)境等。但是,說每種架構在其類型中都是獨一無二的是錯誤的,因為實際上它們中的每一個都具有以下三個組件:
1、源系統(tǒng)——捕獲交易的操作數(shù)據(jù)庫、物聯(lián)網(wǎng)設備流傳感器數(shù)據(jù)、SaaS 應用程序、外部數(shù)據(jù)源等。
2、數(shù)據(jù)暫存區(qū)——臨時托管復制數(shù)據(jù)的區(qū)域和一組流程,可幫助您在加載到數(shù)據(jù)倉庫之前根據(jù)業(yè)務定義的規(guī)則對其進行清理和轉換。使用暫存區(qū),您可以在 ETL 作業(yè)失敗時依賴原始數(shù)據(jù)的歷史記錄。通常,一旦 ETL 作業(yè)成功完成,暫存區(qū)的信息就會被刪除。但是,由于遺留原因,您仍可以將其保存一段時間,或存檔。如果所有數(shù)據(jù)轉換都發(fā)生在數(shù)據(jù)倉庫數(shù)據(jù)庫本身中,則可以省略此區(qū)域。
3、數(shù)據(jù)存儲——為特定部門或業(yè)務線創(chuàng)建的公司范圍內(nèi)信息和數(shù)據(jù)集市(數(shù)據(jù)倉庫的子集)的數(shù)據(jù)庫。
除了這些元素,企業(yè)數(shù)據(jù)倉庫解決方案還包括數(shù)據(jù)治理和元數(shù)據(jù)管理組件。擴展數(shù)據(jù)倉庫環(huán)境還可能包括OLAP多維數(shù)據(jù)集(存儲聚合數(shù)據(jù)以實現(xiàn)交互式查詢的多維數(shù)據(jù)結構)和數(shù)據(jù)訪問層(最終用戶訪問和操作存儲信息的工具和應用程序)。但是,這些元素更多地屬于 BI 工具包,因此我們不會在此探討它們。
02 構建數(shù)據(jù)倉庫的兩種方法
用于構建數(shù)據(jù)倉庫的兩種基本設計方法是 Inmon 的(自上而下)和 Kimball 的(自下而上)方法。 1、Inmon方法論 在 Inmon 的方法中,首先,企業(yè)信息的集中存儲庫是根據(jù)規(guī)范化數(shù)據(jù)模型設計的,其中原子數(shù)據(jù)存儲在表中,這些表在連接的幫助下按主題區(qū)域分組在一起。企業(yè)數(shù)據(jù)倉庫建成后,存儲在那里的數(shù)據(jù)用于構建數(shù)據(jù)集市。在您需要以下情況時,Inmon 的方法更可?。?
獲得單一事實來源,同時確保數(shù)據(jù)的一致性、準確性和可靠性
快速開發(fā)數(shù)據(jù)集市,無需重復從原始來源提取數(shù)據(jù)、清理等。 但是,與 Kimball 的方法相比,此方法的主要限制之一是設置和實施更耗時且更耗費資源。
2、Kimball?方法論 Kimball 的方法建議應該首先創(chuàng)建維度數(shù)據(jù)集市,然后如果需要,公司可以繼續(xù)創(chuàng)建邏輯企業(yè)數(shù)據(jù)倉庫。這種方法的倡導者指出,由于維度數(shù)據(jù)集市需要最少的規(guī)范化。因此,此類數(shù)據(jù)倉庫項目花費的時間和資源更少。另一方面,您可能會在表中發(fā)現(xiàn)重復數(shù)據(jù),并且必須重復 ETL 活動,因為每個數(shù)據(jù)集市都是獨立創(chuàng)建的。
盡管這兩種方法可能看起來相當不同,但它們可以很好地互補,這可以通過結合兩種設計方法原則的替代方法的出現(xiàn)來證明。03 數(shù)據(jù)倉庫構建的分步指南 通常的做法是通過全面的就緒評估來啟動數(shù)據(jù)倉庫計劃。在評估數(shù)據(jù)倉庫項目的準備情況時,請考慮以下因素:
強大的業(yè)務贊助商的可用性 - 有影響力的經(jīng)理可以預見該計劃的潛力并幫助推廣它。?
業(yè)務動機——數(shù)據(jù)倉庫是否可以幫助解決一些關鍵的業(yè)務問題。?
整個公司當前的數(shù)據(jù)成熟度——換句話說,最終用戶是否意識到數(shù)據(jù)驅動決策的重要性、高數(shù)據(jù)質(zhì)量等。
IT 專家和業(yè)務用戶的協(xié)作能力。
現(xiàn)有技術和數(shù)據(jù)環(huán)境的可行性。
在您評估了項目的準備情況并希望對它感到滿意之后,您需要開發(fā)一個用于項目規(guī)劃和管理的框架,然后最終進行數(shù)據(jù)倉庫開發(fā),從定義您的業(yè)務需求開始。
1、業(yè)務需求定義
業(yè)務需求幾乎影響整個數(shù)據(jù)倉庫開發(fā)過程中的每一個決策——從應該提供哪些信息到應該多久訪問一次。因此,從采訪您的業(yè)務用戶開始定義:
公司的總體目標以及特定業(yè)務單位、部門等的目標。 用于衡量成功的方法和指標。 企業(yè)面臨的關鍵問題 。公司目前執(zhí)行的常規(guī)數(shù)據(jù)分析類型,包括用于此的數(shù)據(jù)、分析的頻率、它帶來了哪些潛在的改進等)。
在采訪業(yè)務用戶時,您還應該與您的關鍵 IT 專家(數(shù)據(jù)庫管理員、運營源系統(tǒng)專家等)進行有效的溝通,以確定當前可用的信息是否足以滿足以下業(yè)務需求:
關鍵操作系統(tǒng)? 數(shù)據(jù)更新頻率 歷史數(shù)據(jù)的可用性 設置了哪些流程來確保將信息傳遞給業(yè)務用戶 使用哪些工具來訪問和分析信息 通常會產(chǎn)生哪些類型的見解 如果對信息的臨時請求處理得很好,等等。?
2、數(shù)據(jù)倉庫概念化與技術選型
上一步的結果被用作定義未來解決方案范圍的基礎,因此應仔細分析您的業(yè)務和 IT 用戶的需求和期望并確定其優(yōu)先級,以制定最佳數(shù)據(jù)倉庫功能集。
之后,您必須確定構建數(shù)據(jù)倉庫解決方案的架構方法,評估和選擇每個架構組件的最佳技術——暫存區(qū)、存儲區(qū)等。在制定技術堆棧時,請考慮以下因素:
您當前的技術環(huán)境 規(guī)劃的戰(zhàn)略技術方向 內(nèi)部 IT 團隊成員的技術能力具體數(shù)據(jù)安全要求等
此時,您還應該定義部署選項——本地、云或混合。部署選項的選擇取決于許多因素,例如數(shù)據(jù)量、數(shù)據(jù)性質(zhì)、成本、安全要求、用戶數(shù)量及其位置以及系統(tǒng)可用性等。
3、數(shù)據(jù)倉庫環(huán)境設計在設計數(shù)據(jù)倉庫之前和期間,您需要定義數(shù)據(jù)源并分析其中存儲的信息——可用的數(shù)據(jù)類型和結構、每天、每月生成的信息量等,以及其質(zhì)量、敏感性、刷新率頻率。
下一步將是邏輯數(shù)據(jù)建模,或將公司數(shù)據(jù)排列成一系列稱為實體(現(xiàn)實世界對象)和屬性(定義這些對象的特征)的邏輯關系。實體關系建模用于各種建模技術,包括規(guī)范化模式(關系數(shù)據(jù)庫的一種設計方法)和星型模式(用于維度建模)。


接下來,將這些邏輯數(shù)據(jù)模型轉換為數(shù)據(jù)庫結構,例如將實體轉換為表,將屬性轉換為列,將關系轉換為外鍵約束等等。

數(shù)據(jù)建模完成后,第一步是設計數(shù)據(jù)暫存區(qū),首先為數(shù)據(jù)倉庫提供高質(zhì)量的聚合數(shù)據(jù),并在所有后續(xù)數(shù)據(jù)加載過程中定義和控制源到目標的數(shù)據(jù)流.
設計步驟還包括創(chuàng)建數(shù)據(jù)訪問和使用策略、建立元數(shù)據(jù)目錄、業(yè)務詞匯表等。
4、數(shù)據(jù)倉庫開發(fā)上線該步驟從定制和配置所選技術(DWH 平臺、數(shù)據(jù)轉換技術、數(shù)據(jù)安全軟件等)開始。然后,該公司開發(fā) ETL 管道并引入數(shù)據(jù)安全性。
在引入所有主要組件之后,它們必須與現(xiàn)有數(shù)據(jù)基礎架構(數(shù)據(jù)源、BI 和分析軟件、數(shù)據(jù)湖等)以及彼此集成,以便之后可以遷移數(shù)據(jù)。
在最終匯總之前,您必須確保您的最終用戶能夠處理新技術環(huán)境,這意味著他們所有人都了解可用的信息、信息的含義、訪問方式以及使用的工具。針對標準用戶和高級用戶的定制培訓以及支持文檔將對此有所幫助。除此之外,您還需要:
測試數(shù)據(jù)倉庫性能、ETL等。 驗證數(shù)據(jù)質(zhì)量(數(shù)據(jù)易讀性、完整性、安全性等) 確保用戶可以訪問數(shù)據(jù)倉庫等。?
5、售后支持和維護
在初始部署之后,您需要專注于您的業(yè)務用戶并提供持續(xù)的支持和教育。隨著時間的推移,必須衡量數(shù)據(jù)倉庫性能指標和用戶滿意度分數(shù),因為它將幫助您確保數(shù)據(jù)倉庫的長期健康和增長。
04 數(shù)據(jù)倉庫項目的關鍵角色1、項目經(jīng)理
定義數(shù)據(jù)倉庫項目及其可交付成果的范圍。 概述項目計劃,包括預算估算、項目資源和時間表。? 管理日常數(shù)據(jù)倉庫項目任務和活動(資源協(xié)調(diào)、項目狀態(tài)跟蹤、項目進度和溝通瓶頸等)2、業(yè)務分析師
識別業(yè)務用戶的需求并確保將其清楚地傳達給技術團隊。
進行采訪并記錄下來。
協(xié)助數(shù)據(jù)建模師和 DBA 進行數(shù)據(jù)建模、數(shù)據(jù)映射活動等。
3、數(shù)據(jù)建模師執(zhí)行詳細的數(shù)據(jù)分析。
設計數(shù)據(jù)倉庫的整體技術架構,尤其是每個組件(數(shù)據(jù)分段、數(shù)據(jù)存儲、數(shù)據(jù)模型等)。
監(jiān)督架構開發(fā)和實施。
就技術堆棧提供建議。
記錄整體解決方案及其組成部分的范圍。
4、數(shù)據(jù)庫管理員 (DBA)將邏輯模型轉換為物理表結構。
確保對數(shù)據(jù)庫的操作支持,調(diào)整數(shù)據(jù)庫性能以確保數(shù)據(jù)的可用性和完整性。
計劃數(shù)據(jù)備份/恢復計劃等。
5、ETL 開發(fā)人員計劃、開發(fā)和設置提取、轉換和加載管道。
6、質(zhì)量保證工程師
制定測試策略以確保數(shù)據(jù)倉庫的正常運行和數(shù)據(jù)準確性。
識別潛在錯誤并確保其得到解決。
在開發(fā)的 DWH 解決方案上運行測試。
除了這些關鍵角色之外,其他專業(yè)人員也可能參與該項目,例如解決方案架構師、技術支持專家、DevOps 工程師、數(shù)據(jù)管家、數(shù)據(jù)倉庫培訓師等。值得注意的是,有時個別工作人員可以扮演多個角色。
05 3種領先的數(shù)據(jù)倉庫技術
使用不恰當?shù)募夹g是數(shù)據(jù)倉庫項目失敗的原因之一。除了您需要正確識別您的用例之外,您還需要從市場上眾多看似相似的選項中選擇最佳軟件。在這里,我們回顧了客戶滿意度得分很高并在各種市場研究報告中獲得高度評價的數(shù)據(jù)倉庫服務和平臺。雖然描述的功能并不詳盡:在起草它們的描述時,我們主要關注它們的數(shù)據(jù)集成能力、與分析和商業(yè)智能服務的內(nèi)置連接、可靠性和數(shù)據(jù)安全性。
1、亞馬遜 Redshift
提供聯(lián)合查詢功能以及與 Amazon S3 的內(nèi)置集成,以跨運營數(shù)據(jù)庫和數(shù)據(jù)湖查詢和分析任何類型、格式和大小的數(shù)據(jù)。 允許使用 AWS Data Pipeline、AWS Data Migration Services、AWS Glue 和 AWS Kinesis Firehose 在 AWS 服務內(nèi)部和外部以流和批次的形式攝取和轉換數(shù)據(jù)。 提供與 AWS 分析服務(AWS Lake Formation、Amazon EMR、Amazon QuickSight、Amazon SageMaker 等)的原生集成。 提供內(nèi)置的容錯和災難恢復能力(自動化集群快照、快照復制、持續(xù)集群監(jiān)控和替換等)。 通過對表的精細權限、多因素用戶身份驗證、數(shù)據(jù)加密等來保護數(shù)據(jù)。 滿足 SOC1、SOC2、SOC3、PCI DSS 1 級、HIPAA、ISO 27001 等的合規(guī)性要求。 允許分離存儲和計算資源。?
2、谷歌BigQuery
通過 Cloud Fusion 提供與 150 多個數(shù)據(jù)源的原生數(shù)據(jù)集成
提供多云分析支持(由 Google BigQuery (Omni) 提供)以跨 AWS 和 Azure(即將推出)查詢數(shù)據(jù),而無需復制數(shù)據(jù)。
與 Looker 和整個 Google Cloud Analytics 生態(tài)系統(tǒng)的原生集成。
冷熱數(shù)據(jù)以及存儲和計算資源分別收費。
默認情況下,在多個位置免費提供復制存儲。
提供對數(shù)據(jù)集、表、視圖、多因素用戶身份驗證、數(shù)據(jù)加密(默認)等的精細權限。
滿足 HIPAA、ISO 27001、PCI DSS、SOC1、SOC2 等的合規(guī)性要求。
3、Azure Synapse Analytics
通過 Azure 數(shù)據(jù)工廠為本地和云數(shù)據(jù)源提供 95 多個本機連接器。
通過 Azure Synapse Link 提供對本機 HTAP 的支持。
使用內(nèi)置的 Apache Spark 和 Azure 流分析事件處理引擎支持大數(shù)據(jù)和流數(shù)據(jù)攝取和處理。
與 Power BI、Azure 機器學習、Azure 認知服務、Azure Data Lake Storage 等的本機集成。
允許單獨擴展存儲和計算。
提供內(nèi)置的容錯和災難恢復功能(自動快照、異地備份等)。
默認數(shù)據(jù)安全功能(模式、表、視圖、單個列、過程等的細化權限,多因素用戶身份驗證、數(shù)據(jù)加密等)。
滿足 HIPAA、ISO 27001、PCI DSS、SOC1、SOC2 等的合規(guī)性要求。
06 確保DW項目成功的關鍵要素?
1、實施敏捷 DW?開發(fā)
數(shù)據(jù)倉庫開發(fā)項目耗費時間和資源,因此選擇一種敏捷方法,這意味著通過增量投資將項目分解為迭代,將幫助您盡早開始獲得 ROI,并最大限度地降低風險并避免大量的前期投資。
2、確保 IT 和業(yè)務之間的密切合作數(shù)據(jù)倉庫的成功是 IT 和業(yè)務專家的共同努力,他們共同承擔從收集業(yè)務需求到數(shù)據(jù)倉庫部署和發(fā)布后支持的計劃責任。
3、關注最終用戶為最終用戶提供可靠的支持文檔、培訓和自助數(shù)據(jù)訪問工具,確保數(shù)據(jù)倉庫的高采用率。
07 結論巧妙構建的現(xiàn)代數(shù)據(jù)倉庫可以幫助您實現(xiàn)許多當前的數(shù)據(jù)管理和分析目標,包括分解數(shù)據(jù)孤島、實時分析、交互式報告和受保護的公司數(shù)據(jù)。而且,即使要使您的數(shù)據(jù)倉庫取得長期成功,您也需要大量投資,不要讓它嚇倒您。依靠具有扎實領域專業(yè)知識的值得信賴的 BI 供應商,切實的數(shù)據(jù)倉庫優(yōu)勢很快就會顯現(xiàn)出來。
在線咨詢
點擊進入在線咨詢