數(shù)據(jù)集成是將來自不同來源的數(shù)據(jù)組合到統(tǒng)一視圖中的過程:從攝取,清理,映射和轉(zhuǎn)換到目標(biāo)接收器,最后使數(shù)據(jù)對訪問它的人更具可操作性和價值。?今天的企業(yè)建立數(shù)據(jù)集成計劃,以更有效地分析和處理其數(shù)據(jù),特別是隨著數(shù)據(jù)和新云和大數(shù)據(jù)技術(shù)的爆炸式增長。數(shù)據(jù)集成是現(xiàn)代企業(yè)改善戰(zhàn)略決策和提高競爭優(yōu)勢的必要條件。
數(shù)據(jù)集成沒有通用的方法。但是,數(shù)據(jù)集成解決方案通常涉及一些常見元素,包括數(shù)據(jù)源網(wǎng)絡(luò),主服務(wù)器和從主服務(wù)器訪問數(shù)據(jù)的客戶端。
在典型的數(shù)據(jù)集成過程中,客戶端向主服務(wù)器發(fā)送請求以獲取數(shù)據(jù)。然后,主服務(wù)器從內(nèi)部和外部源獲取所需的數(shù)據(jù)。數(shù)據(jù)從源中提取,然后以統(tǒng)一的統(tǒng)一形式組合。這以可用,有凝聚力的形式回饋給客戶。
為什么數(shù)據(jù)集成很重要
即使公司正在接收所需的所有數(shù)據(jù),該數(shù)據(jù)通常也存在于許多單獨的數(shù)據(jù)源中。例如,對于典型的客戶360視圖用例,必須組合的數(shù)據(jù)可能包括來自其CRM系統(tǒng),網(wǎng)絡(luò)流量,營銷運營軟件,面向客戶的應(yīng)用程序,銷售和客戶成功系統(tǒng),甚至合作伙伴數(shù)據(jù)的數(shù)據(jù),僅舉幾例。來自所有這些不同來源的信息通常需要整合在一起以用于分析需求或操作操作,對于數(shù)據(jù)工程師或開發(fā)人員來說,將這些信息匯集在一起并非易事。
我們來看一個典型的分析用例。如果沒有統(tǒng)一數(shù)據(jù),單個報告通常涉及在分析可能發(fā)生之前,在多個站點上登錄,訪問本機應(yīng)用程序中的數(shù)據(jù),復(fù)制數(shù)據(jù),重新格式化和清理。
盡可能高效地開展所有這些操作突出了數(shù)據(jù)集成的重要性。它還展示了深思熟慮的數(shù)據(jù)集成方法的主要好處:
1.數(shù)據(jù)集成改善了系統(tǒng)的協(xié)作和統(tǒng)一
每個部門的員工 - 有時在不同的物理位置 - 越來越需要訪問公司的共享和個人項目數(shù)據(jù)。IT需要一個安全的解決方案,通過所有業(yè)務(wù)線的自助服務(wù)訪問來提供數(shù)據(jù)。
此外,幾乎每個部門的員工都在生成和改進其他業(yè)務(wù)所需的數(shù)據(jù)。數(shù)據(jù)集成需要協(xié)作和統(tǒng)一,以改善整個組織的協(xié)作和統(tǒng)一。
2.數(shù)據(jù)集成節(jié)省時間
當(dāng)公司采取措施正確整合其數(shù)據(jù)時,它會大大減少準(zhǔn)備和分析數(shù)據(jù)所需的時間。統(tǒng)一視圖的自動化消除了手動收集數(shù)據(jù)的需要,員工不再需要在需要運行報表或構(gòu)建應(yīng)用程序時從頭開始建立連接。
此外,使用正確的工具,??而不是手動編寫??集成,可以為開發(fā)團隊返回更多的時間(以及整體資源)。
在這些任務(wù)中節(jié)省的所有時間都可以用于其他更好的用途,更多的時間用于分析和執(zhí)行,以使組織更具生產(chǎn)力和競爭力。
3.數(shù)據(jù)集成減少錯誤(和返工)
關(guān)于公司的數(shù)據(jù)資源,有很多事要跟上。要手動收集數(shù)據(jù),員工必須知道他們可能需要探索的每個位置和帳戶,并在開始之前安裝所有必需的軟件,以確保他們的數(shù)據(jù)集完整和準(zhǔn)確。如果添加了數(shù)據(jù)存儲庫,并且該員工不知道,則他們將擁有不完整的數(shù)據(jù)集。
此外,如果沒有同步數(shù)據(jù)的數(shù)據(jù)集成解決方案,則必須定期重新報告以應(yīng)對任何更改。但是,通過自動更新,可以在需要時實時輕松地運行報告。
4.數(shù)據(jù)集成提供更有價值的數(shù)據(jù)
數(shù)據(jù)集成工作實際上會隨著時間的推移提高業(yè)務(wù)數(shù)據(jù)的價值。隨著數(shù)據(jù)集成到集中式系統(tǒng)中,可以識別質(zhì)量問題并實施必要的改進,最終產(chǎn)生更準(zhǔn)確的數(shù)據(jù) - 質(zhì)量分析的基礎(chǔ)。
現(xiàn)代商業(yè)中的數(shù)據(jù)整合
數(shù)據(jù)集成并非一刀切的解決方案;?正確的公式可以根據(jù)眾多的業(yè)務(wù)需求而變化。以下是數(shù)據(jù)集成工具的一些常見用例:
利用大數(shù)據(jù)
數(shù)據(jù)湖可能非常復(fù)雜且數(shù)量龐大。例如,F(xiàn)acebook和谷歌等公司處理來自數(shù)十億用戶的不間斷數(shù)據(jù)涌入。這種信息消費水平通常被稱為大數(shù)據(jù)。隨著越來越多的大數(shù)據(jù)企業(yè)的出現(xiàn),企業(yè)可以利用更多的數(shù)據(jù)。這意味著對復(fù)雜數(shù)據(jù)集成工作的需求成為許多組織運營的核心。
數(shù)據(jù)集成計劃 - 尤其是大型企業(yè) - 通常用于創(chuàng)建數(shù)據(jù)倉庫,這些倉庫將多個數(shù)據(jù)源組合到關(guān)系數(shù)據(jù)庫中。數(shù)據(jù)倉庫允許用戶以一致的格式運行查詢,編譯報告,生成分析和檢索數(shù)據(jù)。
通過提供來自眾多來源的統(tǒng)一數(shù)據(jù)視圖,數(shù)據(jù)集成簡化了商業(yè)智能(BI)分析過程。組織可以輕松查看并快速理解可用數(shù)據(jù)集,以便獲得有關(guān)業(yè)務(wù)當(dāng)前狀態(tài)的可操作信息。通過數(shù)據(jù)集成,分析人員可以編譯更多信息以進行更準(zhǔn)確的評估,而不會被大量產(chǎn)品所淹沒。
與業(yè)務(wù)分析不同,BI不使用預(yù)測分析來進行未來預(yù)測;?相反,它側(cè)重于描述現(xiàn)在和過去,以幫助戰(zhàn)略決策。這種數(shù)據(jù)集成的使用非常適合數(shù)據(jù)倉庫,其中易于消費的格式的高級概述信息很好地對齊。
ETL和數(shù)據(jù)集成
提取,轉(zhuǎn)換,加載(通常稱為??ETL)是數(shù)據(jù)集成中的一個過程,其中數(shù)據(jù)從源系統(tǒng)獲取并傳送到倉庫中。這是數(shù)據(jù)倉庫正在進行的持續(xù)流程,可將多個數(shù)據(jù)源轉(zhuǎn)換為有用的,一致的商業(yè)智能和分析工作信息。
數(shù)據(jù)集成的挑戰(zhàn)
采用多個數(shù)據(jù)源并將其轉(zhuǎn)換為單一結(jié)構(gòu)內(nèi)的統(tǒng)一整體對自身來說是一項技術(shù)挑戰(zhàn)。隨著越來越多的企業(yè)構(gòu)建數(shù)據(jù)集成解決方案,他們的任務(wù)是創(chuàng)建預(yù)先構(gòu)建的流程,以便在需要的地方持續(xù)地移動數(shù)據(jù)。雖然這可以在短期內(nèi)節(jié)省時間和成本,但實施可能受到許多障礙的阻礙。
以下是組織在構(gòu)建集成系統(tǒng)時面臨的一些常見挑戰(zhàn):
-
如何到達終點??- 公司通常會從數(shù)據(jù)集成中了解他們的需求 - 針對特定挑戰(zhàn)的解決方案。他們經(jīng)常沒有想到的是到達那里需要的路線。任何實現(xiàn)數(shù)據(jù)集成的人都必須了解需要收集和分析的數(shù)據(jù)類型,數(shù)據(jù)的來源,將使用數(shù)據(jù)的系統(tǒng),將要進行的分析類型以及需要更新數(shù)據(jù)和報告的頻率。
-
來自遺留系統(tǒng)的數(shù)據(jù)??- 集成工作可能需要包括存儲在遺留系統(tǒng)中的數(shù)據(jù)。然而,這些數(shù)據(jù)往往缺少標(biāo)記,例如活動的時間和日期,而現(xiàn)代系統(tǒng)通常包括這些標(biāo)記。
-
來自更新業(yè)務(wù)需求的數(shù)據(jù) -如今的新系統(tǒng)正在從各種來源(如視頻,物聯(lián)網(wǎng)設(shè)備,傳感器和云)生成不同類型的數(shù)據(jù)(如非結(jié)構(gòu)化或實時)。弄清楚如何快速調(diào)整數(shù)據(jù)集成基礎(chǔ)架構(gòu)以滿足集成所有這些數(shù)據(jù)的需求對于您的企業(yè)獲勝至關(guān)重要,但由于數(shù)據(jù)量,速度,新格式都帶來了新的挑戰(zhàn),因此非常困難。
-
外部數(shù)據(jù)??- 從外部來源獲取的數(shù)據(jù)可能不會以與內(nèi)部來源相同的詳細(xì)程度提供,因此難以以相同的嚴(yán)格程度進行檢查。此外,與外部供應(yīng)商簽訂的合同可能會使整個組織內(nèi)的數(shù)據(jù)共享變得困難。
-
保持聯(lián)系??- 一旦集成系統(tǒng)啟動并運行,任務(wù)就不會完成。數(shù)據(jù)團隊有責(zé)任使數(shù)據(jù)集成工作與最佳實踐保持一致,以及組織和監(jiān)管機構(gòu)的最新要求。
然而,正確的數(shù)據(jù)集成平臺可以緩解大多數(shù)這些挑戰(zhàn)。有??免費的開源數(shù)據(jù)集成解決方案??,有助于開展業(yè)務(wù)。
如何整合業(yè)務(wù)數(shù)據(jù)
以下是幾種集成數(shù)據(jù)的方法,這些方法取決于業(yè)務(wù)規(guī)模,滿足需求和可用資源。
-
?手動數(shù)據(jù)集成??只是個別用戶通過直接訪問接口手動從各種來源收集必要數(shù)據(jù),然后根據(jù)需要清理它,并將其組合到一個倉庫中的過程。這是非常低效和不一致的,除了最小的數(shù)據(jù)資源最小的組織之外,幾乎沒有任何意義。
-
中間件數(shù)據(jù)集成??是一種集成方法,其中中間件應(yīng)用程序充當(dāng)中介,有助于規(guī)范化數(shù)據(jù)并將其帶入主數(shù)據(jù)池。(考慮使用過時連接點的舊電子設(shè)備的適配器)。傳統(tǒng)應(yīng)用程序通常不能很好地與其他人一起使用。當(dāng)數(shù)據(jù)集成系統(tǒng)無法獨立訪問其中一個應(yīng)用程序的數(shù)據(jù)時,中間件就會發(fā)揮作用。
-
基于應(yīng)用程序的集成??是一種集成方法,其中軟件應(yīng)用程序定位,檢索和集成數(shù)據(jù)。在集成期間,軟件必須使來自不同系統(tǒng)的數(shù)據(jù)彼此兼容,以便它們可以從一個源傳輸?shù)搅硪粋€源。
-
統(tǒng)一訪問集成??是一種數(shù)據(jù)集成,專注于創(chuàng)建前端,使數(shù)據(jù)在從不同來源訪問時看起來一致。但是,數(shù)據(jù)保留在原始來源中。使用此方法,可以使用面向?qū)ο蟮臄?shù)據(jù)庫管理系統(tǒng)來創(chuàng)建不同數(shù)據(jù)庫之間的一致性外觀。
-
通用存儲集成??是數(shù)據(jù)集成中最常用的存儲方法。來自原始源的數(shù)據(jù)副本保存在集成系統(tǒng)中,并進行處理以獲得統(tǒng)一視圖。這與統(tǒng)一訪問相反,后者在源中留下數(shù)據(jù)。通用存儲方法是傳統(tǒng)數(shù)據(jù)倉庫解決方案背后的基本原則。
在數(shù)據(jù)集成工具中查找的內(nèi)容
數(shù)據(jù)集成工具??有可能大大簡化這一過程。您應(yīng)該在數(shù)據(jù)集成工具中查找的功能包括:
-
很多連接器。?世界上有許多系統(tǒng)和應(yīng)用程序;?數(shù)據(jù)集成工具擁有的預(yù)構(gòu)建連接器越多,團隊節(jié)省的時間就越多。
-
開源。?開源架構(gòu)通常提供更大的靈活性,同時有助于避免供應(yīng)商鎖定。
-
可移植性??隨著公司越來越多地轉(zhuǎn)向混合云模型,能夠構(gòu)建一次數(shù)據(jù)集成并在任何地方運行它們,這一點非常重要??。
-
便于使用。數(shù)據(jù)集成工具應(yīng)易于學(xué)習(xí),并且易于使用GUI界面,以使數(shù)據(jù)管道的可視化更加簡單。
-
透明的價格模型。?您的數(shù)據(jù)集成工具提供商不應(yīng)該指望您增加連接器或數(shù)據(jù)量。
-
云兼容性。您的數(shù)據(jù)集成工具應(yīng)在單個云,多云或混合云環(huán)境中本機工作。
數(shù)據(jù)集成入門
對于組織來說,跟上現(xiàn)代商業(yè)需求的步伐越來越迫切,并且越來越多地需要數(shù)據(jù)沖擊。了解數(shù)據(jù)集成所服務(wù)的需求,實現(xiàn)數(shù)據(jù)集成的方法以及實現(xiàn)中出現(xiàn)的障礙應(yīng)該為發(fā)現(xiàn)任何企業(yè)或組織的最佳數(shù)據(jù)集成選項提供充分的先機。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)