- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-11-04來源:骨子里的代碼瀏覽數:219次
現在講數據中臺跟數據倉庫、數據湖、數據平臺等區別的文章很多了,新人與老人看了這些文章后,對于數據中臺的態度往往是不一樣的。
數據新手更愿意接受數據中臺這個新概念,但由于缺乏實踐,往往抓不住本質,特別容易將其與其他概念混淆,然后領導問到底是什么區別的時候,支支吾吾答不上來。
數據倉庫老手接觸到數據中臺這個概念的時候,更習慣于跟原有認知體系比較,然后抓住一些本質相同的東西,甩出一句:“換個名字而已”的觀點,從而喪失了學習新東西的機會。
自己看了很多講數據中臺區別的文章,也寫過一些文章,總體感覺是抓不到最本質的東西,大家似乎都在找相關關系,但因果關系難找,因為阿里在提出數據中臺的時候,給出的是一個泛泛的定義,比如以下這種:
“數據中臺是指通過企業內外部多源異構的數據采集、治理、建模、分析,應用,使數據對內優化管理提高業務,對外可以數據合作價值釋放,成為企業數據資產管理中樞。數據中臺是一套可持續“讓企業的數據用起來”的機制,一種戰略選擇和組織形式,是依據企業特有的業務模式和組織架構,通過有形的產品和實施方法論支撐,構建一套持續不斷把數據變成資產并服務于業務的機制。數據中臺建立后,會形成數據API,為企業和客戶提供高效各種數據服務。”
沒有比較就沒鑒別,其實數據倉庫也完全可以這么定義,我們必須要找到一種直戳本質的定義,你只要通過這種定義去判斷,就可以把數據中臺跟數據倉庫,數據湖,數據平臺等區分開來。
我這里嘗試給出數據中臺的一個定義,即數據中臺是支持多個前臺業務且具備業務屬性的共性數據能力體系,其包括了四方面的特征:
(1)數據中臺必須直接支撐前端業務
(2)數據中臺提供的數據能力可以復用共享
(3)數據中臺的數據模型構建以業務為核心
(4)數據中臺是個體系,包括組織、平臺、工具、數據等等
我們可以將這四個特征作為判斷是否屬于數據中臺的依據,下面就數據平臺、數據倉庫、數據工具鏈等概念做具體的比較。
什么是平臺?這里舉個例子:
我們拿一個飲料廠的產品線來講,他它可以生產果汁,還可以生產其他的產品,從原材料加工成飲料,它有很多環節,雖然品種不一樣,但是它很多環節是類似的,比如裝瓶、攪拌。
那么這幾個不同的生產流程、生產線,我們可以把那些公共的部分合并起來,更加專業化,然后并且讓他們獨立去維護,之后把那些不同的產品面向客戶,使客戶體驗不同的產品,使它獨立出來,這就是平臺化的思路。
所以,平臺化的思路很重要的就是把那些有共性的資源,有共性的能力合并在一起,然后把那些面向客戶的價值獨立出來,這樣的話,專業的人做專業的事情,并且對于企業的績效也非常的有利,不揉在一塊了,更加的清晰,這就是平臺化的思路,可以看到,平臺也是具有沉淀共享的性質的,因此很多人把平臺當成中臺來講。
但平臺每天想得是如何將業務系統中跟業務無關的技術剝離出來,然后制定這些技術的標準和規范,然后由自己來打造這些共性的底層的基礎設施,然后鼓勵大家統一接入,然后平臺收收通道費就可以了。
同樣的道理,數據平臺強調的共性基礎設施是數據,我把大家所需要的各種數據都采集好了,并且對所有人開放,大家按需取用就可以了,再也不用自己去匯聚各種數據了,當然我可能要收取一些使用費,比如數據交易中心就是一個典型的數據平臺。
由此可見,數據平臺不符合數據中臺特征的(1)(3),即它跟業務是沒有直接關系的,因為一旦有關系,意味著跨行業的規模化復制就存在問題,這是數據平臺不想看到的。
你很容易發現,數據中臺是限于行業或企業的,而數據平臺則有更大的普適性,這是由數據中臺的業務特性所決定的,如果一個企業跳出來對所有企業來說我有數據中臺可以銷售,顯然是混淆了數據中臺與數據平臺的區別,但賣產品嘛,大家都懂的。
以hadoop為核心的大數據平臺顯然不能稱其為數據中臺,這很容易理解,如果一個企業把所有業務的數據都存儲在Oracle里,我們能說這個Oracle數據庫是數據中臺嗎?
數據湖可以認為是一種特殊的數據平臺,其出發點是快速的探索數據從而創造價值,為了靈活性它拋棄了數據倉庫的預先建模,暴露的就是直接的原始數據,因此不可能去沉淀什么共性能力,數據湖其實比一般的數據平臺還差點中臺的意思,不符合數據中臺特征的(1)(2)(3),即跟業務無關,也不沉淀模型,更不可能開放復用。
數據倉庫是一個面向主題的、集成的、隨時間變化的、但信息本身相對穩定的數據集合,用于對管理決策過程的支持,一般有四個特征:
(1)面向主題:數據倉庫都是基于某個明確主題,僅需要與該主題相關的數據,其他的無關細節數據將被排除掉
(2)集成的:從不同的數據源采集數據到同一個數據源,此過程會有一些ETL操作
(3)隨時間變化:關鍵數據隱式或顯式的基于時間變化
(4)數據倉庫的數據是不可更新的:數據裝入以后一般只進行查詢操作,沒有傳統數據庫的增刪改操作。數據倉庫的數據反映的是一段相當長的時間內歷史數據的內容,是不同時點的數據庫快照的集合,以及基于這些快照進行統計、綜合和重組的導出數據,而不是聯機處理的數據。
數據倉庫一般是分層的,目的是為了解耦和共享,從而提升對應用的支撐效率,這其實非常符合中臺的沉淀共性能力的理念:
(1) ODS(Operation Data Store),操作數據層,即原始數據層,又叫貼源層,與業務系統基本同構(可能會增加管理字段),目的是保留歷史,解耦業務數據庫,這樣整個數據平臺只需要訪問一次業務數據庫即可。所以ODS層存在的意義是盡可能減少對業務數據庫的訪問壓力。ODS層有些時候會細分為兩層,一個STG數據緩沖層,存原始數據,一個ODS,存簡單清洗的數據。
(2)DWD(Data Warehouse Detail),明細數據層,對數據進行清洗、代碼統一、字段統一、格式統一、簡單聚合等工作。DWD層存在的意義是做數據的標準化,為后續的處理提供干凈、統一、標準的數據。
(3)DWB(Data Warehouse Base),基礎數據層,又叫輕度匯總層,遵照維度模型的原理,將數據拆成維度和事實,進行維度、事實的統一。對數據進行輕度匯總,形成指標結果。
(4)DWS(Data Warehouse Service),服務數據層,按照業務目標,對已經處理好的數據進行橫向匯聚、縱向匯總。按照寬表模型進行數據冗余和預計算,以空間換時間。
數據倉庫剛起步的時候,目的是融合整個企業的全部數據,打通數據之間的隔閡,消除數據標準和口徑不一致問題,從而做好決策支持,表現形式一般是報表和指標,BI是其升級版本,從本質的角度來講,數據倉庫是面向業務主題的,其符合數據中臺的標準(1),即為業務服務。
可惜的是,數據倉庫恰恰也被困在了決策支持這個唯一的業務上,其對業務系統很少直接提供數據服務的支持,數據倉庫對于業務的價值,大多需要通過管理者的決策體現出來,偶偶的侵入業務系統,也是做做亮點,比如搞個數據挖掘。
理論上,數據倉庫跟數據中臺很難說有本質區別,這是數據中臺被數據倉庫從業者詬病的原因,但兩者對業務的支撐廣度和深度不在一個級別上,數據倉庫僅僅賦能決策支持,而數據中臺對業務的支持是全方位的,其不僅通過API等形式直接嵌入到業務流程中發揮作用,而且還能通過數據產品直接創造價值。
事實上,由于數據倉庫以前局限于決策支持這個業務,反倒限制了數據價值的發揮,管理者又對報表和指標這個業務特別敏感,因此元數據和數據質量管理成了數據倉庫最核心的工作,而數據中臺所倡導的模型開放、共享復用并不為老的數據倉庫時代所重視。
現在很多人把匯聚全域數據作為數據中臺與數據倉庫的區別,顯然沒有抓住本質的東西,其實只有更多的前端業務需要數據倉庫提供數據服務,才能驅動數據倉庫去真正的匯聚全域數據,否則領導關注的KPI指標就那幾個,匯聚全域數據對于這些KPI指標來說,其實沒有那么高的價值。
量變導致質變,數據中臺的提出有進步意義,它讓我們基于業務的需要去打造數據倉庫,而不是倒過來,即建了數據倉庫然后再想著業務場景,數據中臺與數據倉庫的區別也不在于技術本身,而在于有沒有業務思維。
由上可知,從技術角度上去否認數據中臺意義不大,其實如果有了業務思維,不建數據倉庫又如何?你提供一個位置API服務了很多前端應用,那這個API就可以稱為微型的數據中臺,從這個角度看,由于業務的牽引,數據中臺又是超越數據倉庫的。
因此,雖然數據倉庫表面上符合數據中臺特征的(1)(2)(3)(4),但如果你的企業建設數據倉庫的業務思維沒有轉變,沒有建立其之適配的業務運營體系,你建的數據倉庫就不能稱為數據中臺。
實際上,業務思維的不同也影響到了數據倉庫和數據中臺技術實現的差異,以前的數據倉庫雖然也在業務建模,但由于出口有限,因此打造API服務的必要性不是很大,因此,大多數據倉庫其實都在做One-Data,One-ID的事情,但One-Service鮮有提及,阿里顯然對于這個有更深入的認識,數據中臺其實更應關注One-Service的實現和運營。
阿里提出數據中臺這個概念的時候,很多數據倉庫搖生一變都成為了數據中臺,但這些數據倉庫其實仍然是20年前的那個數據倉庫。
很多廠家把數據開發、治理及運維工具當成了數據中臺去售賣,顯然混淆了數據中臺這個概念,這跟大廠的宣傳有點關系,比如很多大廠就把數據工具鏈、數據模型、數據服務合在一起當成數據中臺,但這是不嚴謹的。
數據工具鏈只是高效實現數據中臺的手段,但你不能把工具鏈當成數據中臺本身,就好比業務中臺包括很多收斂的微服務,但你不能把實現云原生的基礎設施當成業務中臺的本身,比如DevOps工具鏈。
為什么大廠要把數據工具鏈也畫在數據中臺架構圖里呢?
因為數據模型和數據服務是比較薄的一層,沒啥好說的,各行各業對于業務的抽象建模對于其它行業來講缺乏借鑒意義,但實現這些數據模型和數據服務卻需要強大的數據工具鏈支持,而數據工具鏈顯然具有全行業的通用性,這是Show能力的賣點。
我們的確從大廠的數據工具鏈學到很多東西,但不能被工具迷糊了眼睛,把手段當成了目的,其實企業的軟實力才是最重要的。
我們的目的永遠是用數據直接服務業務,不管用什么手段,數據工具鏈顯然不滿足(1)(2)(3)(4),因此不能稱是數據中臺,也不建議納入數據中臺的范疇。
從以上的分析可知,數據倉庫是跟數據中臺最像的東西,奧妙就在于業務。