日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

淺析數據湖和數據中臺的關系

時間:2022-03-03來源:夕陽無限好瀏覽數:321

01 那些讓人眼花繚亂的概念

不知道大家有沒有發現,這幾年的數據領域有好多的概念,例如:大數據、人工智能、物聯網、邊緣計算、數據治理、數據湖、數據中臺、數據可視化……。這說明數據這個領域真的很“火”,可謂是“百花齊放”!

新技術、新概念的出現,為企業業務和管理的創新,社會經濟的發展,注入新活力,激發新動能。很多企業都認識到了數據的重要性,數據是企業的重要資產,成為了企業的普遍共識。這激活了企業創新和改革的動力,加速了企業向互聯網化、數字化方向的轉型,提高了企業跨行業、跨領域的學習能力,推動了整個社會的數字化發展。

紛至沓來的新概念在推動社會的數字化發展的同時,給相關領域的從業人員帶來了一定的困惑。一個新概念還未來及吸收和消化,新新的概念又來了。再加上,一些“別有用心”的廠商不遺余力的“忽悠”和“炒作”,導致了很多人的迷茫困惑、心浮氣躁!有的人一味追求新概念、新技術而脫離了業務、脫離了實際,認為新概念(例如:數據中臺)能夠“包治百病”,一些企業花費很大的成本買來數據中臺之后才發現:在人家那兒是治病的良藥,而到了你這里卻成了“埋人的深坑”。所以有人叫苦道:“中臺搞了2年,項目叫停,CIO被裁!本以為是個送分題,沒想到是個送命題!”

面對著紛繁蕪雜的新概念,面對著浩瀚的數字化海洋,面對著“廠商們”的炒作,不論是企業,還是我們這些IT從業人員,都需要保持好初心,堅守初衷。不要看:“人家都【數據中臺】了,你還在做數據報表,人家都【數據湖】了,你還在搞數據倉庫,人家都【人工智能】了,你還在抽數、取數”!

這里說明下,我并不是一個頑固的守舊派,也不是排斥新概念、新技術。反而,我也非常喜歡研究一些新概念,也非常支持大家對新的概念、技術進行探索和實踐。但要強調的是,企業也好,個人也好,在使用引進或使用一個新概念和新技術的同時,不要忘記問自己:我們使用它們的初衷是什么?我們的本質需求是什么?要用這些新的概念和技術來幫我們解決什么問題?……

堅守初心,不被繁雜的概念所迷惑,才能找到適合企業或個人的數字化轉型之路!

02 數據湖和數據中臺的概念

我們先說說數據湖

數據湖(Data Lake)概念最早是2011年由CITO Research網站的CTO和作家Dan Woods所提出,其比喻是:如果我們把數據比作大自然的水,那么各個江川河流的水未經加工,源源不斷地匯聚到數據湖中。

數據湖的權威定義(來自維基百科):數據湖(Data Lake)是一個以原始格式存儲數據的存儲庫或系統,它按原樣存儲數據,而無需事先對數據進行結構化處理。一個數據湖可以存儲結構化數據(如關系型數據庫中的表),半結構化數據(如CSV、日志、XML、JSON),非結構化數據(如電子郵件、文檔、PDF)和二進制數據(如圖形、音頻、視頻)。

數據湖概念的提出時間是僅次于大數據,可以說是一個很老的概念了。筆者認為數據湖本質上就是一個大數據平臺,它隨著大數據的技術不斷完善,目前成熟的數據湖體系已具備了大數據存儲、大數據處理、機器學習、大數據分析等等能力。國外公司好像對數據湖情有獨鐘,像亞馬遜的AWS、Informatica、微軟等公司都有數據湖的相關產品和解決方案。而在國內,數據湖到底是個啥?他有啥用?時至今日依然存在著不少的爭議。

正如來自網友 @流風(網名)的疑問:絕大部分企業的需求數據倉庫基本都能滿足了,只有少部分企業才能用到數據湖或大數據平臺,好多企業都被忽悠上了大數據平臺,光有個架子,卻不知道能用來干嘛。對非結構化數據的處理,大多數企業本身除了數據存儲之外,幾乎不知道該怎么用。甚至大多數據企業連結構化數據都還處理不好,數據意識還停留在起步階段。

@流風(網名)所說的是事實,也是目前的普遍現象。但在筆者看來:一項新技術,一個新事物從誕生到發展到普及,是需要一個由“基礎認知---知識學習---能力建設---探索應用---成熟應用”的過程。在這個過程中,各企業的發展水平一定是參差不齊的,沒有那兩家企業的現狀、需求、目標、數據是完全相同的,所以不同企業對數據的意識程度不相同、技術能力不一樣、應用水平差異大也是正常的。

我們再說數據中臺

對于數據中臺,筆者閱讀了很多大咖的文章,查閱了很多資料,也沒有找到關于數據中臺的標準定義。事實上也確實如此,數據中臺是具有“中國特色”的一個概念,在國外并沒有太多的人談數據中臺。而我們中國人創造的數據中臺概念,目前還未形成一個統一的認知和基于共識的標準定義。

中臺概念的鼻祖——阿里巴巴的數據產品部總經理朋新宇表示:“數據中臺是數據+技術+產品+組織的組合,是企業開展新型運營的一個中樞系統。具象的說,它是一套解決方案,抽象的理解,它是一種新的公司運營理念”。

云徙首席架構師陳新宇表示:“數據中臺與業務中臺的一體化,其核心作用便是業務中臺天然打通、統一了各個渠道的數據,所有數據都是高質量的,而這些數據通過分析能夠反哺到業務本身,業務本身又將數據留給數據平臺,從而形成良好的正向反饋”。

網易嚴選的魏文慶給出了網易嚴選對數據中臺的定義:“數據中臺是高質量、高效賦能數據前臺的一系列數據系統和數據服務的組合”,無論是數據中臺、業務總臺、技術中臺,核心都是“標準化”,實現流程都是先“規范化”,然后把規范“產品化工具化”。

百分點程佳表示:“數據中臺是一個集數據采集、融合、治理、組織管理、智能分析為一體,持續促進業務創新為目標的整體平臺”。

我們看到這么多企業都試圖給數據中臺下一個標準的定義,盡管各家的說法都略有差異,并不相同,但卻也有異曲同工之妙!那么,數據湖與數據中臺到底有什么關系?我們不妨先看一看業界典型的數據湖和數據中臺架構。

03 典型的數據湖和數據中臺架構

1、亞馬遜AWS數據湖

亞馬遜AWS的張俠看來:“數據湖是一個中心數據存儲的容器,這個容器可以存儲格式化、非格式化的各種各樣的數據;這些數據非常容易被快速縮放、有各種方法和工具對這些數據進行查詢、可以做各種各樣的分析”。如下圖所示,AWS數據湖提供了大量的數據處理組件,支持把數據按需要移動、加載到不同地方;然后把數據清理好,建成數據目錄。這些數據要安全的、合規的存好、管好,需要的時候使用工具把這些數據拿出來做各種分析。

AWS數據湖架構

2、微軟Azure數據湖

Azure數據湖是在微軟內部的大數據平臺Cosmos的技術和經驗教訓基礎上構建的。Cosmos用來處理應用程序比如Azure, AdCenter, Bing,MSN, Skype和Windows Live的數據。Cosmos有一個像SQL一樣的查詢引擎叫做SCOPE,U-SQL是在其上構建的。Azure數據湖包括Azure Datalake Store和Azure Datalake Analytics。前者是存儲,有API提供。后者是分析平臺。它的分析平臺支持Hadoop的那一套,也支持一個全新的U-SQL。如果你想要同時讀取在Datalake里面的數據和Datalake外面的數據做分析的話,那就只有U-SQL可以選了。由于U-SQL和Hadoop生態圈不兼容,而且是基于沒有多少人愿意學習的C#語言的,這導致了Azure數據湖賣的并不好。也有內部人傳由于各種原因,Azure數據湖幾乎要涼涼了。

微軟Azure數據湖

3、阿里系數據中臺

作為“中臺”的開山鼻祖——阿里巴巴的數據中臺全景圖如下圖所示:阿里巴巴數據中臺核心內核是OneData體系,即數據中臺構建的方法論體系總稱,包括數據構建管理的OneModel,實現數據融通連接的OneID,再到提供統一數據服務的One Service,貫穿于整個數據研發流程中并且通過工具實施落地,幫助企業高效建設及管理數據。有興趣可以參考筆者之前寫的一篇:《什么是One Data體系?阿里數據中臺解讀》。

阿里巴巴數據中臺

實際上阿里的數據中臺并不是一套產品,而是阿里的數據中臺方法論體系+生態產品。這里所謂的數據中臺生態產品,就是帶著明顯的阿里基因的數據中臺產品或解決方案,例如:奇點云、云徙等創業公司都屬于阿里生態,他們很多公司的核心成員甚至創始人都是從阿里巴巴出來的,所以帶著阿里基因也很正常。阿里基因是什么?筆者認為的阿里基因即做電商或者說2C業務的商業化思維。由于這篇文章重點在寫數據湖與數據中臺的關系,就不對阿里基因和阿里系數據中臺做過多介紹了。其實,通過以下各公司的數據中臺架構,您就可以窺探一二了。

04 數據湖與數據中臺的關系

看過了各大廠的數據湖和數據中臺的介,我們回過頭來再來看數據湖與數據中臺的關系。大數據時代,數據量越來越多,數據形式日益復雜,而以數據倉庫為代表的、現有的數據存儲和處理技術無法滿足海量、多樣的數據處理需求的背景下產生的?!皵祿笔菍碗s的事物具象化,偏技術一些,以一個形象的名字,反應了它在大數據存儲和大數據處理方面的優勢和能力。數據湖作為一個集中的存儲庫,可以在其中存儲任何形式(結構化和非結構化)、任意規模的數據。在數據湖中,可以不對存儲的數據進行結構化,只有在使用數據的時候,再利用數據湖強大的大數據查詢、處理、分析等組件對數據進行處理和應用。因此,數據湖具備運行不同類型數據分析的能力。數據中臺從技術的層面承接了數據湖的技術,通過數據技術,對海量、多源、多樣的數據進行采集、處理、存儲、計算,同時統一標準和口徑,把數據統一之后,以標準形式存儲,形成大數據資產層,以滿足前臺數據分析和應用的需求。數據中臺更強調應用,離業務更近,強調服務于前臺的能力,實現邏輯、算法、標簽、模型、數據資產的沉淀和復用,能更快速的相應業務和應用開發的需求,可追溯,更精準。

05 數據湖和數據中臺哪家強?

我們都數據中臺了,為什么老外還在數據湖?

在近代史上,由于歐美國家的工業起步早,所以在科技領域我們的創新能力(從0到1的能力)一直不如一些歐美國家,但是中國人的應用能力非常強,更注重商業和管理的創新(商業模式的各種玩法和創新),中國人始終要比老外玩的溜,也就是說我們從1到100的能力是極強的。因此,更強調業務和應用的“數據中臺”在國內以迅雷不及掩耳之勢,迅速成為了國內IT界的“頭牌網紅”。隨著以大數據、云計算、人工智能等新技術為主要特征的第四次工業革命的到來,中國大數據戰略的布局和“新基建”的發展,我相信,在這場數字化的變革中,我們的技術創新能力也一定會追上甚至超越歐美的!

最后,再回答網友的一個問題:數據湖與數據中臺哪家強?

在筆者來看,不論是數據湖還是數據中臺,都是“千人千面”的,不同的人理解不同,數據湖和數據中臺也沒有孰弱孰強之說。對企業而言,不為眼花繚亂的“概念”所迷惑,一切要從實際需求出發,不能人云亦云,盲目跟風,也不能墨守成規、固步自封。企業數據項目的建設還是應當從企業的業務需求出發構建與企業相匹配的一套數據管理和使用流程,以及與之需求相匹配的數據平臺和工具。


(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢