日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺(tái)

睿治作為國(guó)內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國(guó)數(shù)據(jù)治理市場(chǎng)份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場(chǎng)份額第一。

數(shù)據(jù)湖,下一代數(shù)據(jù)倉(cāng)庫(kù)?

時(shí)間:2022-09-06來(lái)源:奇葩少女萌噠噠瀏覽數(shù):272

數(shù)據(jù)湖是數(shù)據(jù)倉(cāng)庫(kù)的補(bǔ)充,是為了解決數(shù)據(jù)倉(cāng)庫(kù)漫長(zhǎng)的開(kāi)發(fā)周期,高昂的開(kāi)發(fā)、維護(hù)成本,細(xì)節(jié)數(shù)據(jù)丟失等問(wèn)題出現(xiàn)的。數(shù)據(jù)湖大多是相對(duì)于傳統(tǒng)基于RDBMS的數(shù)據(jù)倉(cāng)庫(kù),而從2011年前后,也就是數(shù)據(jù)湖概念出現(xiàn)的時(shí)候,很多數(shù)據(jù)倉(cāng)庫(kù)逐漸遷移到以Hadoop為基礎(chǔ)的技術(shù)棧上,而且除了結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化、非結(jié)構(gòu)數(shù)據(jù)也逐漸的存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中,并提供此類(lèi)服務(wù)。這樣的數(shù)據(jù)倉(cāng)庫(kù),已經(jīng)具有了數(shù)據(jù)湖的部分功能。數(shù)據(jù)湖正在成為一種越來(lái)越流行的大數(shù)據(jù)解決方案,而數(shù)據(jù)湖這個(gè)詞已經(jīng)被大數(shù)據(jù)供應(yīng)商賦予了太多不同的含義,如果有什么工作是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)做不了的,那就把它塞進(jìn)數(shù)據(jù)湖,以至于數(shù)據(jù)湖已經(jīng)變成了一個(gè)定義模糊的概念。數(shù)據(jù)湖是不是就是傳說(shuō)中的銀彈,可以解決所有數(shù)據(jù)倉(cāng)庫(kù)不能解決的問(wèn)題呢?

01 什么是數(shù)據(jù)湖?

維基百科對(duì)數(shù)據(jù)湖的定義是,數(shù)據(jù)湖是一種在系統(tǒng)或存儲(chǔ)庫(kù)中以自然格式存儲(chǔ)數(shù)據(jù)的方法,它有助于以各種模式和結(jié)構(gòu)形式配置數(shù)據(jù),通常是對(duì)象塊或文件。數(shù)據(jù)湖的主要思想是對(duì)企業(yè)中的所有數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ),從原始數(shù)據(jù)(源系統(tǒng)數(shù)據(jù)的精確副本)轉(zhuǎn)換為用于報(bào)告、可視化、分析和機(jī)器學(xué)習(xí)等各種任務(wù)的目標(biāo)數(shù)據(jù)。數(shù)據(jù)湖中的數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)(關(guān)系數(shù)據(jù)庫(kù)數(shù)據(jù)),半結(jié)構(gòu)化數(shù)據(jù)(CSV、XML、JSON等),非結(jié)構(gòu)化數(shù)據(jù)(電子郵件,文檔,PDF)和二進(jìn)制數(shù)據(jù)(圖像、音頻、視頻),從而形成一個(gè)容納所有形式數(shù)據(jù)的集中式數(shù)據(jù)存儲(chǔ)

詳見(jiàn):2萬(wàn)字詳解數(shù)據(jù)湖:概念、特征、架構(gòu)與案例

可見(jiàn),企業(yè)使用數(shù)據(jù)湖架構(gòu),核心出發(fā)點(diǎn)就是把不同結(jié)構(gòu)的數(shù)據(jù)統(tǒng)一存儲(chǔ),使不同數(shù)據(jù)有一致的存儲(chǔ)方式,在使用時(shí)方便連接,真正解決數(shù)據(jù)集成問(wèn)題。因此,數(shù)據(jù)湖架構(gòu)最主要的特點(diǎn),一是支持異構(gòu)數(shù)據(jù)聚合,二是無(wú)需預(yù)定義數(shù)據(jù)模型即可進(jìn)行數(shù)據(jù)分析。

數(shù)據(jù)湖從本質(zhì)上來(lái)講,是一種企業(yè)數(shù)據(jù)架構(gòu)方法,物理實(shí)現(xiàn)上則是一個(gè)數(shù)據(jù)存儲(chǔ)平臺(tái),用來(lái)集中化存儲(chǔ)企業(yè)內(nèi)海量的、多來(lái)源,多種類(lèi)的數(shù)據(jù),并支持對(duì)數(shù)據(jù)進(jìn)行快速加工和分析。

從實(shí)現(xiàn)方式來(lái)看,目前Hadoop是最常用的部署數(shù)據(jù)湖的技術(shù),但并不意味著數(shù)據(jù)湖就是指Hadoop集群。為了應(yīng)對(duì)不同業(yè)務(wù)需求的特點(diǎn),MPP數(shù)據(jù)庫(kù)+Hadoop集群+傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)這種“混搭”架構(gòu)的數(shù)據(jù)湖也越來(lái)越多出現(xiàn)在企業(yè)信息化建設(shè)規(guī)劃中。

Data Lake是一個(gè)存儲(chǔ)庫(kù),可以存儲(chǔ)大量結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。它是以原生格式存儲(chǔ)每種類(lèi)型數(shù)據(jù)的地方,對(duì)帳戶(hù)大小或文件沒(méi)有固定限制。它提供高數(shù)據(jù)量以提高分析性能和本機(jī)集成。

Data Lake就像一個(gè)大型容器,與真正的湖泊和河流非常相似。就像在湖中你有多個(gè)支流進(jìn)來(lái)一樣,數(shù)據(jù)湖有結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù),機(jī)器到機(jī)器,實(shí)時(shí)流動(dòng)的日志。

Data Lake使數(shù)據(jù)民主化,是一種經(jīng)濟(jì)有效的方式來(lái)存儲(chǔ)組織的所有數(shù)據(jù)以供以后處理。研究分析師可以專(zhuān)注于在數(shù)據(jù)中找到意義模式而不是數(shù)據(jù)本身。

與數(shù)據(jù)存儲(chǔ)在文件和文件夾中的分層數(shù)據(jù)倉(cāng)庫(kù)不同,Data湖具有扁平的架構(gòu)。Data Lake中的每個(gè)數(shù)據(jù)元素都被賦予唯一標(biāo)識(shí)符,并標(biāo)記有一組元數(shù)據(jù)信息。

02 數(shù)據(jù)湖與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的區(qū)別?

數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)優(yōu)化的數(shù)據(jù)庫(kù),用于分析來(lái)自事務(wù)系統(tǒng)和業(yè)務(wù)線(xiàn)應(yīng)用程序的關(guān)系數(shù)據(jù)。事先定義數(shù)據(jù)結(jié)構(gòu)和 Schema 以?xún)?yōu)化快速 SQL 查詢(xún),其中結(jié)果通常用于操作報(bào)告和分析。數(shù)據(jù)經(jīng)過(guò)了清理、豐富和轉(zhuǎn)換,因此可以充當(dāng)用戶(hù)可信任的“單一信息源”。

數(shù)據(jù)湖有所不同,因?yàn)樗鎯?chǔ)來(lái)自業(yè)務(wù)線(xiàn)應(yīng)用程序的關(guān)系數(shù)據(jù),以及來(lái)自移動(dòng)應(yīng)用程序、IoT 設(shè)備和社交媒體的非關(guān)系數(shù)據(jù)。捕獲數(shù)據(jù)時(shí),未定義數(shù)據(jù)結(jié)構(gòu)或 Schema。這意味著您可以存儲(chǔ)所有數(shù)據(jù),而不需要精心設(shè)計(jì)也無(wú)需知道將來(lái)您可能需要哪些問(wèn)題的答案。您可以對(duì)數(shù)據(jù)使用不同類(lèi)型的分析(如 SQL 查詢(xún)、大數(shù)據(jù)分析、全文搜索、實(shí)時(shí)分析和機(jī)器學(xué)習(xí))來(lái)獲得見(jiàn)解。

數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)這兩個(gè)概念很容易被混淆,它們的區(qū)別主要有三個(gè)方面:

一是存儲(chǔ)數(shù)據(jù)類(lèi)型不同。數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的主要是結(jié)構(gòu)化數(shù)據(jù),對(duì)于加載到數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),首先需要定義數(shù)據(jù)存儲(chǔ)模型。而數(shù)據(jù)湖以其原生格式保存大量原始數(shù)據(jù),包括結(jié)構(gòu)化的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù),并且在使用數(shù)據(jù)之前,不對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行定義。

二是數(shù)據(jù)處理模式不同。數(shù)據(jù)倉(cāng)庫(kù)是高度結(jié)構(gòu)化的架構(gòu),數(shù)據(jù)在清洗轉(zhuǎn)換之后才會(huì)加載到數(shù)據(jù)倉(cāng)庫(kù),用戶(hù)獲得的是處理后數(shù)據(jù)。而在數(shù)據(jù)湖中,數(shù)據(jù)直接加載到數(shù)據(jù)湖中,然后根據(jù)分析的需要再處理數(shù)據(jù)。

三是服務(wù)對(duì)象不同。從用戶(hù)差異上來(lái)看,數(shù)據(jù)倉(cāng)庫(kù)適合企業(yè)中大數(shù)據(jù)產(chǎn)品開(kāi)發(fā)人員和業(yè)務(wù)用戶(hù)。而數(shù)據(jù)湖最適合數(shù)據(jù)分析師或數(shù)據(jù)科學(xué)家,他們直接基于數(shù)據(jù)沙箱做自由探索和分析,這些人要求有技術(shù)背景,會(huì)寫(xiě)代碼或熟悉SQL。

通過(guò)以上對(duì)比,可見(jiàn)數(shù)據(jù)湖不是簡(jiǎn)單的數(shù)據(jù)倉(cāng)庫(kù)升級(jí)版,兩者有各自的存在必要。與此同時(shí),還有一種數(shù)據(jù)沼澤的提法,這是指一種設(shè)計(jì)不良、未充分歸檔或未有效維護(hù)的數(shù)據(jù)湖,用戶(hù)無(wú)法有效地分析和利用其中存儲(chǔ)的數(shù)據(jù)。

更為詳細(xì)的區(qū)別如下表所示:

詳見(jiàn):3萬(wàn)字詳解數(shù)據(jù)中臺(tái)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)庫(kù)、和數(shù)據(jù)湖(下)

03 為何選擇Data Lake以及數(shù)據(jù)湖的概念和架構(gòu) 構(gòu)建數(shù)據(jù)湖的主要目標(biāo)是向數(shù)據(jù)科學(xué)家提供未經(jīng)定義的數(shù)據(jù)視圖。使用Data Lake的原因主要有

隨著存儲(chǔ)引擎的出現(xiàn),Hadoop讓存儲(chǔ)不同的信息變得更加容易。需要使用Data Lake將數(shù)據(jù)建模到企業(yè)范圍的模式中。

隨著數(shù)據(jù)量,數(shù)據(jù)質(zhì)量和元數(shù)據(jù)的增加,分析質(zhì)量也會(huì)提高。

Data Lake提供業(yè)務(wù)敏捷性

機(jī)器學(xué)習(xí)和人工智能可用于進(jìn)行有利可圖的預(yù)測(cè)。

它為實(shí)施組織提供了競(jìng)爭(zhēng)優(yōu)勢(shì)。

沒(méi)有數(shù)據(jù)孤島結(jié)構(gòu)。Data Lake提供360度的客戶(hù)視圖,使分析更加健壯。

1、數(shù)據(jù)湖架構(gòu) 下圖顯示了Business Data Lake的體系結(jié)構(gòu)。較低級(jí)別表示大部分處于靜止?fàn)顟B(tài)的數(shù)據(jù),而較高級(jí)別表示實(shí)時(shí)交易數(shù)據(jù)。此數(shù)據(jù)流經(jīng)系統(tǒng),沒(méi)有延遲或延遲很小。以下是Data Lake Architecture的重要層次: 1 攝取層 :左側(cè)的層描述了數(shù)據(jù)源。數(shù)據(jù)可以批量或?qū)崟r(shí)加載到數(shù)據(jù)湖中。

2 洞察層:右側(cè)的層代表研究方面,使用系統(tǒng)的見(jiàn)解。SQL,NoSQL查詢(xún)甚至excel都可用于數(shù)據(jù)分析。

3 HDFS是結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的經(jīng)濟(jì)高效的解決方案。它是系統(tǒng)中靜止的所有數(shù)據(jù)的著陸區(qū)。

4 蒸餾層從存儲(chǔ)輪胎中獲取數(shù)據(jù)并將其轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)以便于分析。

5 處理層運(yùn)行分析算法和用戶(hù)查詢(xún),具有不同的實(shí)時(shí),交互,批處理以生成結(jié)構(gòu)化數(shù)據(jù),以便于分析。

6 統(tǒng)一操作層管理系統(tǒng)管理和監(jiān)視。它包括審計(jì)和熟練管理,數(shù)據(jù)管理,工作流程管理。

2、數(shù)據(jù)湖的關(guān)鍵概念

以下是Data Lake的核心概念,人們需要了解這些概念才能完全理解Data Lake的架構(gòu):

數(shù)據(jù)攝取 數(shù)據(jù)提取允許連接器從不同的數(shù)據(jù)源獲取數(shù)據(jù)并加載到Data湖中。數(shù)據(jù)提取支持:所有類(lèi)型的結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。批量,實(shí)時(shí),一次性負(fù)載等多次攝取;許多類(lèi)型的數(shù)據(jù)源,如數(shù)據(jù)庫(kù),Web服務(wù)器,電子郵件,物聯(lián)網(wǎng)和FTP。數(shù)據(jù)存儲(chǔ) 數(shù)據(jù)存儲(chǔ)應(yīng)該是可擴(kuò)展的,提供經(jīng)濟(jì)高效的存儲(chǔ)并允許快速訪(fǎng)問(wèn)數(shù)據(jù)探索。它應(yīng)該支持各種數(shù)據(jù)格式。數(shù)據(jù)治理 數(shù)據(jù)治理是管理組織中使用的數(shù)據(jù)的可用性,可用性,安全性和完整性的過(guò)程。安全 需要在Data Lake的每個(gè)層中實(shí)現(xiàn)安全性。它始于存儲(chǔ),發(fā)掘和消耗。基本需求是停止未授權(quán)用戶(hù)的訪(fǎng)問(wèn)。它應(yīng)該支持不同的工具來(lái)訪(fǎng)問(wèn)數(shù)據(jù),易于導(dǎo)航GUI和儀表板。身份驗(yàn)證,會(huì)計(jì),授權(quán)和數(shù)據(jù)保護(hù)是數(shù)據(jù)湖安全的一些重要特性。數(shù)據(jù)質(zhì)量 數(shù)據(jù)質(zhì)量是Data Lake架構(gòu)的重要組成部分。數(shù)據(jù)用于確定商業(yè)價(jià)值。從劣質(zhì)數(shù)據(jù)中提取洞察力將導(dǎo)致質(zhì)量差的洞察力。數(shù)據(jù)發(fā)現(xiàn) 數(shù)據(jù)發(fā)現(xiàn)是您開(kāi)始準(zhǔn)備數(shù)據(jù)或分析之前的另一個(gè)重要階段。在這個(gè)階段,標(biāo)記技術(shù)用于表達(dá)數(shù)據(jù)理解,通過(guò)組織和解釋數(shù)據(jù)湖中攝取的數(shù)據(jù)。數(shù)據(jù)審計(jì) 兩個(gè)主要的數(shù)據(jù)審計(jì)任務(wù)是跟蹤對(duì)關(guān)鍵數(shù)據(jù)集的更改:跟蹤重要數(shù)據(jù)集元素的更改;捕獲如何/何時(shí)/以及更改這些元素的人員。數(shù)據(jù)審計(jì)有助于評(píng)估風(fēng)險(xiǎn)和合規(guī)性。數(shù)據(jù)沿襲 該組件處理數(shù)據(jù)的來(lái)源。它主要涉及隨著時(shí)間推移它的推動(dòng)者以及它發(fā)生了什么。它簡(jiǎn)化了從始發(fā)地到目的地的數(shù)據(jù)分析過(guò)程中的錯(cuò)誤更正。數(shù)據(jù)探索 這是數(shù)據(jù)分析的開(kāi)始階段。在開(kāi)始數(shù)據(jù)探索之前,確定正確的數(shù)據(jù)集是至關(guān)重要的。所有給定的組件需要協(xié)同工作,在Data Lake構(gòu)建中發(fā)揮重要作用,輕松演化和探索環(huán)境。Data Lake的成熟階段 數(shù)據(jù)湖成熟階段的定義不同于教科書(shū)。雖然癥結(jié)仍然是一樣的。成熟后,階段定義是從外行的角度出發(fā)的。

第一階段:大規(guī)模處理和攝取數(shù)據(jù)數(shù)據(jù)成熟度的第一階段涉及提高轉(zhuǎn)換和分析數(shù)據(jù)的能力。在這里,企業(yè)所有者需要根據(jù)他們的技能組找到工具,以獲取更多數(shù)據(jù)并構(gòu)建分析應(yīng)用程序。第二階段:建立分析能力這是第二階段,涉及提高轉(zhuǎn)換和分析數(shù)據(jù)的能力。?在這個(gè)階段,公司使用最適合他們技能的工具。他們開(kāi)始獲取更多數(shù)據(jù)和構(gòu)建應(yīng)用程序。在這里,企業(yè)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的功能一起使用。第三階段:EDW和Data Lake協(xié)作這一步涉及將數(shù)據(jù)和分析交給盡可能多的人。在此階段,數(shù)據(jù)湖和企業(yè)數(shù)據(jù)倉(cāng)庫(kù)開(kāi)始在聯(lián)合中工作。兩者都在分析中發(fā)揮作用。第四階段:數(shù)據(jù)湖的企業(yè)能力在數(shù)據(jù)湖的成熟階段,企業(yè)功能被添加到Data Lake中。采用信息治理,信息生命周期管理功能和元數(shù)據(jù)管理。但是,很少有組織可以達(dá)到這種成熟水平,但這種情況將在未來(lái)增加。

04 典型的數(shù)據(jù)湖解決方案

數(shù)據(jù)湖的概念誕生之后,一些大數(shù)據(jù)廠(chǎng)商也提出了自己對(duì)數(shù)據(jù)湖的理解,并依托自身核心產(chǎn)品或開(kāi)源軟件,發(fā)布了側(cè)重于不同應(yīng)用場(chǎng)景下的數(shù)據(jù)湖解決方案。華為數(shù)據(jù)湖探索服務(wù)(DLI)解決方案基于Apache Spark生態(tài),提供完全托管的大數(shù)據(jù)處理分析服務(wù)。用戶(hù)使用標(biāo)準(zhǔn)SQL或Spark程序就能完成異構(gòu)數(shù)據(jù)源的聯(lián)邦分析,支持多種數(shù)據(jù)格式(CSV、JSON、Parquet、ORC、CarbonData等)和云上多種數(shù)據(jù)源(OBS、DWS、CloudTable、RDS等)。在對(duì)AI能力的支持上,實(shí)現(xiàn)了將對(duì)圖片、視頻、語(yǔ)言的處理分析能力嵌入在SQL里,存儲(chǔ)和計(jì)算資源自動(dòng)實(shí)現(xiàn)彈性擴(kuò)容。目前的應(yīng)用場(chǎng)景主要包括海量日志分析、異構(gòu)數(shù)據(jù)源聯(lián)邦分析和大數(shù)據(jù)ETL處理。AWS數(shù)據(jù)湖方案主要是基于AWS云服務(wù),該方案提出在 AWS 云上部署高可用的數(shù)據(jù)湖架構(gòu),并提供用戶(hù)友好的數(shù)據(jù)集搜索和請(qǐng)求控制臺(tái),AWS數(shù)據(jù)湖方案主要借助了Amazon S3、AWS Glue等AWS 服務(wù)來(lái)提供諸如數(shù)據(jù)提交、接收處理、數(shù)據(jù)集管理、數(shù)據(jù)轉(zhuǎn)換和分析、構(gòu)建和部署機(jī)器學(xué)習(xí)工具、搜索、發(fā)布及可視化等功能。建立以上基礎(chǔ)后,再由用戶(hù)選擇其它大數(shù)據(jù)工具來(lái)擴(kuò)充數(shù)據(jù)湖。Dell EMC 數(shù)據(jù)湖方案則是基于其存儲(chǔ)技術(shù),它將數(shù)據(jù)湖定義為一個(gè)現(xiàn)代化的數(shù)據(jù)倉(cāng)庫(kù),是可整合數(shù)據(jù)的橫向擴(kuò)展存儲(chǔ)方案。該方案包括了EMC信息基礎(chǔ)設(shè)施、Pivotal和VMware的存儲(chǔ)及大數(shù)據(jù)分析技術(shù),來(lái)實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)、分析、應(yīng)用三項(xiàng)核心需求,支持不同的數(shù)據(jù)存儲(chǔ)技術(shù)(Data Domain、Isilon、ECS)和數(shù)據(jù)移動(dòng)技術(shù)(DistCp、snapshot、NDMP)。據(jù)稱(chēng)已成功應(yīng)用于醫(yī)療服務(wù)領(lǐng)域,用來(lái)改進(jìn)預(yù)測(cè)性護(hù)理工作以及發(fā)現(xiàn)數(shù)據(jù)趨勢(shì)。但總體來(lái)言,業(yè)界提出數(shù)據(jù)湖解決方案的供應(yīng)商并不多,大多數(shù)企業(yè)只是在做這方面的研究和探索,數(shù)據(jù)湖解決方案中提倡的自助分析、數(shù)據(jù)沙箱在實(shí)際中應(yīng)用程度也并不高。

05 數(shù)據(jù)湖的未來(lái)

數(shù)據(jù)湖相對(duì)于以往的關(guān)系型數(shù)據(jù)庫(kù)、傳統(tǒng)式數(shù)據(jù)倉(cāng)庫(kù),更多體現(xiàn)的是一種數(shù)據(jù)存儲(chǔ)技術(shù)上的融合。數(shù)據(jù)湖的提出,改變了用戶(hù)使用數(shù)據(jù)的方式,同時(shí),數(shù)據(jù)湖也整合了各種類(lèi)型數(shù)據(jù)的分析和存儲(chǔ),用戶(hù)不必為不同的數(shù)據(jù)構(gòu)建不同數(shù)據(jù)存儲(chǔ)庫(kù)。但是,現(xiàn)階段數(shù)據(jù)湖更多是作為數(shù)據(jù)倉(cāng)庫(kù)的補(bǔ)充,它的用戶(hù)一般只限于專(zhuān)業(yè)數(shù)據(jù)科學(xué)家或分析師。數(shù)據(jù)湖概念和技術(shù)還在不斷演化,不同的解決方案供應(yīng)商也在添加新的特性和功能,包括架構(gòu)標(biāo)準(zhǔn)化和互操作性、數(shù)據(jù)治理要求、數(shù)據(jù)安全性等。未來(lái),數(shù)據(jù)湖可能會(huì)進(jìn)一步發(fā)展,作為一種云服務(wù)隨時(shí)按需滿(mǎn)足對(duì)不同數(shù)據(jù)的分析、處理和存儲(chǔ)需求,數(shù)據(jù)湖的擴(kuò)展性,可以為用戶(hù)提供更多的實(shí)時(shí)分析,基于企業(yè)大數(shù)據(jù)的數(shù)據(jù)湖正在向支持更多類(lèi)型的實(shí)時(shí)智能化服務(wù)發(fā)展,?將會(huì)為企業(yè)現(xiàn)有的數(shù)據(jù)驅(qū)動(dòng)型決策制定模式帶來(lái)極大改變。詳見(jiàn):數(shù)據(jù)湖與湖倉(cāng)一體架構(gòu)實(shí)踐

06 結(jié)束語(yǔ)

從理論上講,數(shù)據(jù)湖是一種存儲(chǔ)大量復(fù)雜格式數(shù)據(jù),避免企業(yè)數(shù)據(jù)孤島化的數(shù)據(jù)架構(gòu)方案,它一方面降低數(shù)據(jù)集成成本,另一方面為用戶(hù)提供更靈活的數(shù)據(jù)訪(fǎng)問(wèn)支持。但同時(shí),各類(lèi)數(shù)據(jù)湖解決方案目前在技術(shù)實(shí)現(xiàn)上還不夠成熟,仍處在演化過(guò)程中,其訪(fǎng)問(wèn)控制、數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量、元數(shù)據(jù)管理等特性仍需要完善。在大數(shù)據(jù)+AI時(shí)代里,從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)湖,不僅僅是數(shù)據(jù)存儲(chǔ)架構(gòu)的變革,更是大數(shù)據(jù)思維方式的升級(jí)。隨著基于深度學(xué)習(xí)技術(shù)的AI應(yīng)用需求廣泛出現(xiàn),需要提供一個(gè)數(shù)據(jù)平臺(tái),支持對(duì)原始數(shù)據(jù)的輕松訪(fǎng)問(wèn),開(kāi)展算法模型訓(xùn)練和驗(yàn)證,數(shù)據(jù)湖解決方案將可能成為解決AI應(yīng)用需求最好的選擇。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即申請(qǐng)數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
customer

在線(xiàn)咨詢(xún)

在線(xiàn)咨詢(xún)

點(diǎn)擊進(jìn)入在線(xiàn)咨詢(xún)