前段時(shí)間訂閱學(xué)習(xí)了網(wǎng)易大佬的《數(shù)據(jù)中臺實(shí)戰(zhàn)課》專欄,一口氣學(xué)完后,做了一些總結(jié)筆記分享給大家,希望會對你有所幫助!
總結(jié)的文章我會分為上下兩篇來寫,先講原理,再談實(shí)踐,從原理到技術(shù),最后到實(shí)踐。
這樣大家也能跟著我一起,既能看到數(shù)據(jù)中臺支撐技術(shù)的全貌,又不會錯(cuò)過一些技術(shù)實(shí)現(xiàn)的細(xì)節(jié) ? Here We Go !
一、開篇詞?
1.1 數(shù)據(jù)中臺為什么很難成功呢? 客觀原因:數(shù)據(jù)中臺的建設(shè)是一項(xiàng) 系統(tǒng)性工程,從 組織架構(gòu)、支撐技術(shù)到流程規(guī)范,既要有宏觀的頂層設(shè)計(jì),又要有強(qiáng)有力的落地執(zhí)行,團(tuán)隊(duì)要求較高 主觀原因:企業(yè)本身數(shù)據(jù)建設(shè)經(jīng)驗(yàn)不足,不清楚數(shù)據(jù)建設(shè)中的痛點(diǎn),更不知道用什么樣的技術(shù)手段和管理機(jī)制去解決問題?
1.2 方法論先行
通過原理方法論的學(xué)習(xí),希望大家能弄明白下面三個(gè)問題:
什么是數(shù)據(jù)中臺?
數(shù)據(jù)中臺解決了什么問題?
如何來規(guī)劃數(shù)據(jù)中臺的建設(shè)?
不管是數(shù)據(jù)中臺還是業(yè)務(wù)中臺,歸根結(jié)底都是業(yè)務(wù)驅(qū)動第一性原理。
中臺是 技術(shù)+方法論+工具 的沉淀,在做任何的系統(tǒng)前我們都需要深刻反思業(yè)務(wù)的來源、現(xiàn)狀,未來我們業(yè)務(wù)的核心價(jià)值觀是什么?
這當(dāng)中有管理也有技術(shù),驅(qū)動業(yè)務(wù)數(shù)據(jù)化,數(shù)據(jù)資產(chǎn)化,資產(chǎn)服務(wù)化,服務(wù)業(yè)務(wù)化的循環(huán)。
而數(shù)據(jù)中臺無疑是要讓數(shù)據(jù)這種資產(chǎn)價(jià)值最大化,成為企業(yè)的重要基礎(chǔ)設(shè)施,重要的生產(chǎn)資料。
1.3 實(shí)踐出真知
這部分主要側(cè)重?cái)?shù)據(jù)中臺支撐技術(shù)的整體架構(gòu),逐一講述每個(gè)模塊的具體實(shí)現(xiàn)。
了解企業(yè)在數(shù)據(jù)建設(shè)中到底存在哪些痛點(diǎn),以及如何解決這些痛點(diǎn)。

數(shù)據(jù)中臺一定是基于大數(shù)據(jù)體系的,內(nèi)在是數(shù)倉,底座是大數(shù)據(jù)計(jì)算平臺。
數(shù)據(jù)中臺建設(shè)的目的就是為了讓數(shù)據(jù)持續(xù)的用起來,賦能業(yè)務(wù),提高響應(yīng)能力和洞察能力,而上述的每一個(gè)點(diǎn)都是不可或缺的。
二、為什么數(shù)據(jù)中臺是大數(shù)據(jù)的下一站??
2.1 啟蒙時(shí)代:數(shù)據(jù)倉庫的出現(xiàn)
商業(yè)智能(Business Intelligence)誕生在上個(gè)世紀(jì)90年代,數(shù)據(jù)分析需要聚合多個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù),傳統(tǒng)數(shù)據(jù)庫已經(jīng)不能滿足數(shù)據(jù)分析場景。
Bill Inmon 1991年 給出數(shù)倉定義:
數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時(shí)間相關(guān)的,不可修改的數(shù)據(jù)集合。
Bill Inmon 提出的建模方法:
自頂向下(這里的頂指數(shù)據(jù)來源)
基于業(yè)務(wù)中各個(gè)實(shí)體以及實(shí)體之間的關(guān)系構(gòu)建數(shù)據(jù)倉庫
Kimball 則提出了與 Bill Inmon 正好相反的建模方法,一種自底向上的模型設(shè)計(jì)方法。
兩種方法各有優(yōu)劣:
Bill Inmon
從數(shù)據(jù)源開始構(gòu)建,構(gòu)建成本高,適用于比較固定的業(yè)務(wù),如金融領(lǐng)域
冗余數(shù)據(jù)少是它的優(yōu)勢
Kimball
從分析場景出發(fā),適用于變化速度較快的業(yè)務(wù),比如互聯(lián)網(wǎng)業(yè)務(wù)
現(xiàn)在業(yè)務(wù)變化較快,更適合用kimball維度建模?
2.2 技術(shù)變革:從Hadoop到數(shù)據(jù)湖
互聯(lián)網(wǎng)時(shí)代的變革
數(shù)據(jù)規(guī)模前所未有的龐大
數(shù)據(jù)類型的異構(gòu)化
數(shù)據(jù)規(guī)模和數(shù)據(jù)類型的限制,導(dǎo)致傳統(tǒng)數(shù)據(jù)倉庫無法支撐互聯(lián)網(wǎng)時(shí)代的商業(yè)智能。
互聯(lián)網(wǎng)巨頭谷歌率先開始相關(guān)的探索,三駕馬車奠定了現(xiàn)代大數(shù)據(jù)的技術(shù)基礎(chǔ)。
《The Google File System》
《MapReduce:Simplified Data Processing on Large Clusters》
《Bigtable:A Distributed Storage System for Structed Data》
Hadoop相比于傳統(tǒng)數(shù)倉的優(yōu)勢
完全分布式,易于擴(kuò)展,價(jià)格低廉能滿足海量數(shù)據(jù)的處理需求
弱化數(shù)據(jù)格式
Data Lake
數(shù)據(jù)湖(Data Lake)是一個(gè)以原始格式存儲數(shù)據(jù)的存儲庫或系統(tǒng)。
隨著Hadoop技術(shù)日趨成熟,2010年 數(shù)據(jù)湖的概念在 Hadoop World 大會上被提出,同樣也拉開了Hadoop商業(yè)化的大幕。
2.3 數(shù)據(jù)工廠時(shí)代:大數(shù)據(jù)平臺興起
進(jìn)入數(shù)據(jù)工廠的時(shí)代,我們首先要面對的就是數(shù)據(jù)開發(fā)復(fù)雜的流程:從數(shù)據(jù)集成、數(shù)據(jù)開發(fā)再到數(shù)據(jù)測試、數(shù)據(jù)發(fā)布、任務(wù)運(yùn)維。
如此繁雜的工作流程,如果沒有搞高效的平臺支撐,自然效率低下。大數(shù)據(jù)平臺概念的提出,就是為了提高數(shù)據(jù)研發(fā)的效率,降低研發(fā)門檻。
大數(shù)據(jù)平臺是面向數(shù)據(jù)研發(fā)場景的,覆蓋數(shù)據(jù)研發(fā)的完整鏈路的數(shù)據(jù)工作臺

2.4
數(shù)據(jù)價(jià)值時(shí)代:數(shù)據(jù)中臺崛起
在大規(guī)模數(shù)據(jù)的應(yīng)用場景下,也逐漸暴露除了一些問題:
煙囪式的開發(fā)導(dǎo)致企業(yè)的數(shù)據(jù)互相割裂,業(yè)務(wù)對數(shù)據(jù)的信任度下降
大量重復(fù)的計(jì)算、開發(fā),導(dǎo)致研發(fā)效率的浪費(fèi),大
數(shù)據(jù)應(yīng)用成本越來越高
我們需要明白數(shù)據(jù)中臺的核心:避免數(shù)據(jù)的重復(fù)計(jì)算,通過數(shù)據(jù)服務(wù)化,提高數(shù)據(jù)的共享能力,賦能數(shù)據(jù)應(yīng)用。
共享、連接和服務(wù),這是中臺思想的根。
那為什么說數(shù)據(jù)中臺是大數(shù)據(jù)的下一站呢?
我想可以從下面四點(diǎn)來考慮:
數(shù)據(jù)中臺構(gòu)建于數(shù)據(jù)湖之上,具備數(shù)據(jù)湖異構(gòu)數(shù)據(jù)統(tǒng)一計(jì)算、存儲的能力,同時(shí)讓數(shù)據(jù)湖中雜亂的數(shù)據(jù)通過規(guī)范化的方式管理起來;
數(shù)據(jù)中臺需要依賴大數(shù)據(jù)平臺,大數(shù)據(jù)平臺完成了數(shù)據(jù)研發(fā)的全流程覆蓋,數(shù)據(jù)中臺增加了數(shù)據(jù)治理和數(shù)據(jù)服務(wù)化的內(nèi)容;
數(shù)據(jù)中臺借鑒了傳統(tǒng)數(shù)據(jù)倉庫面向主題域的數(shù)據(jù)組織模式,基于維度建模的理論,構(gòu)建統(tǒng)一的數(shù)據(jù)公共層;
數(shù)據(jù)中臺吸收了傳統(tǒng)數(shù)據(jù)倉庫、數(shù)據(jù)湖、大數(shù)據(jù)平臺的優(yōu)勢,同時(shí)又解決了數(shù)據(jù)共享的難題,通過數(shù)據(jù)應(yīng)用,實(shí)現(xiàn)數(shù)據(jù)價(jià)值的落地;
學(xué)習(xí)思考:數(shù)據(jù)中臺的下一站是什么?
實(shí)時(shí)數(shù)據(jù)中臺,實(shí)現(xiàn)流批一體
云上數(shù)據(jù)中臺,全面擁抱K8S,實(shí)現(xiàn)在線、離線混合部署,進(jìn)一步提高資源利用率
智能元數(shù)據(jù)管理+增強(qiáng)分析,降低數(shù)據(jù)分析的門檻,進(jìn)一步釋放數(shù)據(jù)智能
自動化代碼構(gòu)建,進(jìn)一步釋放數(shù)據(jù)研發(fā)的效能
數(shù)據(jù)產(chǎn)品的時(shí)代,面向各行業(yè)的數(shù)據(jù)產(chǎn)品全面涌現(xiàn),并和數(shù)據(jù)中臺實(shí)現(xiàn)聯(lián)動?
三、什么樣的企業(yè)應(yīng)該建數(shù)據(jù)中臺?
企業(yè)數(shù)據(jù)日常在使用時(shí),往往會面臨以下的問題:
指標(biāo)口徑不一致
需求響應(yīng)慢
取數(shù)效率低
數(shù)據(jù)質(zhì)量差
數(shù)據(jù)成本增長過快
而這些問題的背后,主要由以下幾點(diǎn)原因構(gòu)成:
缺少全局統(tǒng)一的指標(biāo)管理;
煙囪式的開發(fā)導(dǎo)致數(shù)據(jù)重復(fù)建設(shè);
找不到數(shù)據(jù),非技術(shù)的同學(xué)取數(shù)困難;
數(shù)據(jù)加工的鏈路過長,出現(xiàn)問題很難及時(shí)發(fā)現(xiàn);
數(shù)據(jù)重復(fù)建設(shè),無用的數(shù)據(jù)加工消耗了大量的資源。
數(shù)據(jù)中臺該如何解決這些問題呢?
確保全局指標(biāo)業(yè)務(wù)口徑、數(shù)據(jù)來源、計(jì)算邏輯一致
相同聚合粒度的度量、指標(biāo)只加工一次,避免重復(fù)建設(shè)
構(gòu)建企業(yè)數(shù)據(jù)資產(chǎn)目錄,提供非技術(shù)人員取數(shù)工具
全鏈路稽查監(jiān)控,早發(fā)現(xiàn)、早處理、早恢復(fù)
計(jì)算每個(gè)應(yīng)用、報(bào)表、指標(biāo)的ROL,避免低價(jià)值的數(shù)據(jù)加工
那什么樣的企業(yè)適合建數(shù)據(jù)中臺呢?
擁有多個(gè)數(shù)據(jù)應(yīng)用場景
存在業(yè)務(wù)數(shù)據(jù)孤島
面臨效率、質(zhì)量和成本的問題
需要借助數(shù)據(jù)提高企業(yè)經(jīng)營效率
業(yè)務(wù)相對穩(wěn)定的有一定規(guī)模的公司?
四、數(shù)據(jù)中臺建設(shè)的板斧
如果我們把建數(shù)據(jù)中臺比作是蓋房子,那么設(shè)計(jì)圖紙就是數(shù)據(jù)中臺建設(shè)的方法論;工具是數(shù)據(jù)中臺的支撐技術(shù);施工隊(duì)伍就是數(shù)據(jù)中臺的組織架構(gòu)。這三者缺一不可。
4.1 方法論
早在 2016 年,阿里巴巴就提出了數(shù)據(jù)中臺建設(shè)的核心方法論:OneData 和 OneService。
OneData
OneData的核心就是復(fù)用,所有的數(shù)據(jù)只加工一次。數(shù)據(jù)中臺就是要在整個(gè)業(yè)務(wù)中形成一個(gè)公共數(shù)據(jù)層,消滅那些跨部門的小數(shù)倉,實(shí)現(xiàn)數(shù)據(jù)的復(fù)用,所以強(qiáng)調(diào)數(shù)據(jù)只加工一次,不會因?yàn)椴煌膽?yīng)用場景,不同的部門數(shù)據(jù)重復(fù)加工。
具體來說主要由以下五點(diǎn):
分主題域管理
命名規(guī)范定義
指標(biāo)一致
數(shù)據(jù)模型復(fù)用
數(shù)據(jù)完善
這里離不開OneData的具體的實(shí)施流程,前面在 :什么是OneData?阿里數(shù)據(jù)中臺實(shí)施方法論解讀 有詳細(xì)的解讀,這里就不再贅述。
OneData 體系的目標(biāo)是構(gòu)建統(tǒng)一的數(shù)據(jù)規(guī)范標(biāo)準(zhǔn),讓數(shù)據(jù)成為一種資產(chǎn),而不是成本。資產(chǎn)和成本的差別在于資產(chǎn)是可以沉淀的,是可以被復(fù)用的。成本是消耗性質(zhì)的、是臨時(shí)的、無法被復(fù)用的。
OneService
OneService 數(shù)據(jù)即服務(wù),強(qiáng)調(diào)數(shù)據(jù)中臺中的數(shù)據(jù)應(yīng)該通過API接口的方式被訪問。
屏蔽異構(gòu)數(shù)據(jù)源:數(shù)據(jù)服務(wù)必須要能夠支撐類型豐富的查詢引擎,滿足不同場景下數(shù)據(jù)的查詢需求。
數(shù)據(jù)網(wǎng)關(guān):實(shí)現(xiàn)包括權(quán)限、監(jiān)控、流控、日志在內(nèi)的一系列管控能力,哪個(gè)應(yīng)用的哪個(gè)頁面訪問了哪個(gè)模型,要做到實(shí)時(shí)跟蹤,如果有一些模型長時(shí)間沒有被訪問,應(yīng)該予以下線。
邏輯模型:從用戶的視角出發(fā),屏蔽底層的模型設(shè)計(jì)的實(shí)現(xiàn),面向用戶提供邏輯模型。
性能和穩(wěn)定性:由于數(shù)據(jù)服務(wù)侵入到用戶的訪問鏈路,所以對服務(wù)的可用性和性能都有很高的要求,數(shù)據(jù)服務(wù)必須是無狀態(tài)的,可以做到橫向擴(kuò)展。
OneService 體系的目標(biāo)是提高數(shù)據(jù)的共享能力,讓數(shù)據(jù)可以被用得好,用得爽。
4.2 支撐技術(shù)

這個(gè)圖完整地描述了數(shù)據(jù)中臺支撐技術(shù)體系,它的底層是以 Hadoop 為代表的大數(shù)據(jù)計(jì)算、存儲基礎(chǔ)設(shè)施,提供了大數(shù)據(jù)運(yùn)行所必須的計(jì)算、存儲資源。
以 HDFS 為代表的分布式文件系統(tǒng),以 Yarn/Kubernates 為代表的資源調(diào)度系統(tǒng),以 Hive、Spark、Fink 為代表的分布式計(jì)算引擎,都屬于基礎(chǔ)設(shè)施范疇。如果把數(shù)據(jù)中臺比作是一個(gè)數(shù)據(jù)工廠,那可以把它們比作是這個(gè)工廠的水、電。
灰色的部分,是數(shù)據(jù)中臺的核心組成部分:數(shù)據(jù)治理模塊。它對應(yīng)的方法論就是 OneData 體系。
深綠色的部分是數(shù)據(jù)服務(wù),它是數(shù)據(jù)中臺的門戶,對外提供了統(tǒng)一的數(shù)據(jù)服務(wù),對應(yīng)的方法論就是 OneService。
4.3 組織架構(gòu)
什么樣的組織架構(gòu)是適合數(shù)據(jù)中臺建設(shè)的呢?簡單總結(jié)幾點(diǎn)如下:
獨(dú)立于業(yè)務(wù)線的中臺組織部門
中臺團(tuán)隊(duì)必須深入業(yè)務(wù),懂業(yè)務(wù)
中臺團(tuán)隊(duì)的組織架構(gòu)
數(shù)據(jù)產(chǎn)品
數(shù)據(jù)開發(fā)
數(shù)據(jù)平臺
數(shù)據(jù)應(yīng)用
中臺團(tuán)隊(duì)的組織績效必須與業(yè)務(wù)綁定
。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)