
數(shù)據(jù)湖是存儲所有數(shù)據(jù)的中心位置,無論源或格式如何。它通常使用Hadoop構(gòu)建。數(shù)據(jù)可以是結(jié)構(gòu)化的或非結(jié)構(gòu)化的。您可以使用各種存儲,分析和處理工具快速提取價值,以便為關(guān)鍵的組織決策提供信息。
由于歡迎所有數(shù)據(jù),因此數(shù)據(jù)湖是傳統(tǒng)企業(yè)數(shù)據(jù)倉庫的有力替代或補充。此外,隨著組織轉(zhuǎn)向基于云的應(yīng)用程序和物聯(lián)網(wǎng),數(shù)據(jù)湖是一個主要選擇。
在早期用例中,組織經(jīng)常將數(shù)據(jù)加載到數(shù)據(jù)湖中而不嘗試對其進行管理。隨著數(shù)據(jù)湖泊的成熟并對組織變得更具戰(zhàn)略性,將數(shù)據(jù)轉(zhuǎn)儲到數(shù)據(jù)湖中并希望獲得最佳效果已經(jīng)不夠了。
數(shù)據(jù)湖具有靈活性,可擴展性和成本效益。但是,如果您添加數(shù)據(jù)管理和治理功能(如數(shù)據(jù)質(zhì)量,元數(shù)據(jù)管理,安全性,轉(zhuǎn)換以及分組或組合數(shù)據(jù)的能力),它還可以擁有傳統(tǒng)EDW的大部分內(nèi)容。如果管理得當,數(shù)據(jù)湖可以改進現(xiàn)有的數(shù)據(jù)計劃并實現(xiàn)新的計劃。您的組織可以在構(gòu)建數(shù)據(jù)湖時選擇以下四種路徑之一:
選項1:稍后解決治理問題
第一種選擇是忽略治理并將數(shù)據(jù)自由加載到湖中。之后,當您需要從數(shù)據(jù)中發(fā)現(xiàn)見解時,您將不得不找到清理數(shù)據(jù)的工具,例如機器學(xué)習(xí)技術(shù)。這種方法存在實際風險。即便是最智能的推理引擎也需要在湖中的大量數(shù)據(jù)中啟動。不可避免地,數(shù)據(jù)湖的某些部分將被忽略,變得停滯,孤立,并包含結(jié)構(gòu)如此之少的數(shù)據(jù),即使是最聰明的自動化工具 - 或人類分析師 - 也不知道從哪里開始。
選項2:調(diào)整現(xiàn)有的傳統(tǒng)工具
您可以利用最初為EDW設(shè)計的應(yīng)用程序和流程。可以使用軟件工具執(zhí)行在EDW中導(dǎo)入干凈數(shù)據(jù)時使用的ETL過程。您可以使用這些工具將數(shù)據(jù)導(dǎo)入湖中,但這樣做成本很高,并且只能解決您需要的部分管理和治理功能。另一個缺點是ETL發(fā)生在Hadoop集群之外,減慢了操作并增加了成本,因為每個查詢都必須將數(shù)據(jù)移出集群。
選項3:編寫自定義腳本
使用第三個選項,您可以使用自定義腳本構(gòu)建工作流,該腳本連接流程,應(yīng)用程序,質(zhì)量檢查和數(shù)據(jù)轉(zhuǎn)換以滿足治理需求。這是一個受歡迎的選擇,但是最不可靠和最耗費資源。您需要熟練掌握Hadoop及其生態(tài)系統(tǒng)的高技能分析師來利用開源工具,他們需要編寫腳本來連接各個部分。隨著您在湖中成長,這個過程變得更加耗時且成本更高,因為您必須不斷修改復(fù)雜的代碼和工作流程。
選項4:部署集成數(shù)據(jù)湖管理平臺
第四種選擇是整合數(shù)據(jù)湖泊管理平臺,該平臺專門用于攝取和管理數(shù)據(jù)湖中的大量不同數(shù)據(jù)集。Zaloni的Bedrock提供此功能。它允許您對數(shù)據(jù)進行編目,利用元數(shù)據(jù),并支持確保數(shù)據(jù)質(zhì)量,數(shù)據(jù)沿襲和自動化工作流程的持續(xù)過程。這種方法正在成為數(shù)據(jù)湖管理和治理的最佳解決方案。
當您轉(zhuǎn)換到數(shù)據(jù)湖時,選擇完全集成的數(shù)據(jù)湖泊管理平臺將使您對數(shù)據(jù)充滿信心,并對其進行擴展以包含越來越多的用戶和有利于業(yè)務(wù)的用例。畢竟,這就是數(shù)據(jù)的用途,通知和改善整個組織的決策流程,并以新的和令人興奮的方式幫助您的業(yè)務(wù)增長。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)