在傳統IT建設方式下,企業的各種信息系統和數據庫大多是獨立采購或者獨立建設的,新舊IT系統中沉淀的數據之間難以打通,導致企業內部形成一個個“數據孤島”“數據煙囪”,分散割裂且不易形成可共享的數據服務,無法滿足企業降本增效、高質量發展的訴求,因而成為企業在數字化轉型過程中的一個最大痛點。而且,隨著互聯網技術和移動通信技術的蓬勃發展,企業和政府獲得的數據呈指數級增長。同時,數據類型也從原來的結構化數據擴展到視圖聲等非結構化數據。為了解決海量異構數據帶來的上層應用問題,數據中臺的定義應運而生。數據中臺的出現,彌補了數據開發與應用開發因開發速度不匹配而缺乏反應的問題。目前,組織和企業采用集中式的數據采集、存儲和應用分層建設。一方面有利于應用系統的快速部署,另一方面也保證了數據的集中管理和運行,體現了數據的資產和資源屬性。在滿足日常數據分析需求的同時,也為業務創新提供了堅實的基礎。
阿里自從2014年從芬蘭Supercell公司取經中臺的理念后,在阿里集團內部開始積極實踐,提出了"大中臺,小前臺"的組織架構和業務架構。阿里的中臺是從管理的角度出發,其中臺事業部包括搜索事業部、共享業務平臺、數據技術及產品部,數據技術及產品部應是數據中臺建設的核心部門。其他組織或企業建設數據中臺不一定需要成立中臺事業部,但是數據集中治理與提升數據價值轉換效率的思路是一致的。有學者認為數據中臺是一種大數據治理平臺 ;也有學者認為數據中臺并非指大數據平臺,是一套可持續“讓企業的數據用起來”的機制,一種戰略選擇和組織形式,是依據企業特有的業務模式和組織架構,通過有形的產品和實施方法論支撐,構建一套持續不斷把數據變成資產并服務于業務的機制。數據中臺的作用已經在生產實踐中得到普遍認可。阿里的線上商城離不開數據中臺,運營商的項目投資建設、銷售品管理及用戶管理也離不開數據中臺。
1 數據中臺系統定位
數據中臺是一種大數據架構,用來完成數據治理,進而支撐線上應用系統建設,挖掘數據隱含價值。根據數據治理協會的定義,數據治理指的是對數據相關事宜的決策制定與權力控制。數據治理的目標是提高數據的準確性、及時性、完整性、唯一性、一致性和有效性,確保數據的保密性、完整性及可用性,推進數據資源的整合、服務和共享,從而提升組織機構信息化建設水平,充分發揮數據資產作用,在商業競爭中取得先機。
數據中臺是組織機構需要建設的位于數據源與數據應用系統之間的一個中間平臺。數據中臺先將采集到的低質量的數據匯集成大數據,再治理成高質量、具備商業價值的數據資產。作為數據結構中的中間層,數據中臺主要負責數據采集、數據治理和提供數據服務。這里的數據中臺是指通過數據技術對海量的數據進行采集、計算、存儲和加工,并統一標準和口徑。數據中臺完成數據統一后會形成標準數據,然后再對數據進行存儲,進而形成大數據資產層,為用戶提供高效的優質服務。
數據中臺是眾多數據應用系統中可集中建設與維護的一個共享數據平臺,是數據生產系統中的一環。數據治理是數據中臺及大數據平臺不可或缺的核心功能,數據中臺一定具有大數據平臺的功能,但大數據平臺不需要具備數據中臺的功能。以億信華辰為例,數據中臺框架如圖 1 所示。
圖 1 數據中臺的系統定位
2 數據中臺總體架構
可以將數據中臺定義為一個集成了數據集成、數據治理、數據管理和數據分析的完整平臺,為業務應用提供數據服務,促進業務創新。筆者認為,數據中臺可以分為四層:大數據技術平臺、數據管理平臺、數據挖掘分析平臺、以及數據服務平臺這四個層次。
大數據技術平臺
大數據技術平臺為數據管理平臺提供了技術支持,可以解決基于Hadoop架構的異源、異構的海量數據的收集、儲存和分析計算。數據中臺所要用到的大數據技術體系結構不僅限于單一體系結構,而且是復雜多樣,需要高度兼容的體系結構,并在國內外得到廣泛融合。
數據管理平臺
數據管理平臺主要是為了將數據進行資產化,主要是利用數據開發引擎以及大數據平臺進行數據上的交互。數據生命周期管理是數據中臺的核心步驟,所有的數據都應經過采集、存儲、處理、應用、歸檔、銷毀這一流程。組織機構可通過多種智能工具來對各個階段進行管控。面向分析挖掘的數據倉庫是搭建數據中臺的基礎,數據中臺所需的數據倉庫不僅包括結構化數據和非結構化數據,還包括實時業務數據。因此,企業需要了解數據倉庫的設計概念,管理全局業務數據并構建新的數據倉庫以支持更高級別的應用程序的需求。實現數據資產化,是現在數據中臺建設過程中周期最長的一個環節,也是數據管理平臺在數據中臺中解決的關鍵問題。
數據分析挖掘平臺
數據分析挖掘平臺是一個架構在數據管理平臺之上,為數據研究者提供穩定、安全、高質量的數據資源以及一組易于使用的分析工具集合。如果想滿足大數據時代下政府和企業的各種數據挖掘需求,就必須基于數據挖掘分析平臺。比如:
1.自然語言分析處理,通過機器學習以及深度學習這些技術的開發應用,能夠從文檔中快速提取信息,構建出各種實體及其所映射的關系,形成知識圖譜,支撐商業智能決策。
2.基于動態知識圖譜的智能標簽管理,動態知識圖是一個由知識本體和業務領域中數據的方法和分類相關聯的知識網絡,用于支持復雜分析場景中的知識發現和數據挖掘。核心是組成“Something-RelationshipLabel”的三個業務元素。實體包括人、物體、地方、組織等。 對于復雜業務場景中的知識圖,使用不同的存儲介質將不同類型的數據儲存于不一樣的儲存介質中,并且在數據融合之后,把來自不同介質的數據進行連接并關聯起來,以實現相關的訪 問和挖掘效果。
3.交互式機器學習,交互式機器學習包括從建模到上線的一站式、全方位流程,包括數據導入、預處理、模型學習、評估、預測、發布、管理、任務管理、作業監視等。內置多種算法模型利用拖放組件的可視化建模方式降低了科學建模技術的門檻,使數據科學家可以最大 化其數據中心的數據資源,以實現智能業務。與大數據相比,機器學習中的數據分析和挖掘是一個未知的領域,實現基于場景的服務是直接的挑戰。隨著人工智能概念的飛速發展,用戶突飛猛進,闡明業務需求,結合機器學習和深度 運行方法逐步解決業務問題,并將人工智能帶入真實的業務和場景。基于以上數據處理技術,成就了數據中臺系統。
數據服務平臺
數據服務平臺以數據服務的形式向外界提供數據處理和分析結果,前端應用程序更清楚地使用數據中心中的所有類型的數據,從而滿足核心業務的要求并促進了前端的發展。
3 數據中臺通用體系架構
不同的企業信息化建設程度不一,對數據有不同的需求。而且企業數據應用不斷更新迭代,企業的中臺系統也需要不斷變化。 因此,筆者認為有必要創建統一、規范的數據中臺模板供其他企業借鑒與使用。從數字系統的核心任務分析,數據中臺一方面對大量上層數據應用系統公共數據處理的部分功能集中建設,另一方面對數據進行治理,利用算法挖掘數據中的隱藏價值,提升數據質量并開放給其他數據應用系統,因此一個通用的數據中臺至少應滿足數據應用的中間處理與數據治理。從數據處理與數據治理兩個維度出發,通用數據中臺體系架構需要具有一定的柔性,可按照企業應用需求進行組合,或者對單個模塊進行擴充,能滿足大多數企業數據中臺建設的需求。
數據中臺的通用體系架構如圖 2 所示。該中臺體系架構以減少功能冗余和提高功能復用為原則,把數據中臺解耦為5個可以分別獨立建設、演進的 功能子系統。數據治理系統是數據中臺體系架構的核心,數據治理是提升數據價值的重要手段。該數據中臺體系架構的通用性表現在以下幾點。
(1)該數據中臺體系架構綜合考慮了數據中臺的各種要素,參考這個架構進行建設可以有效提升數據資產價值,提供數據及服務的共享。
(2)參考這個數據中臺體系架構,企業可以一次規劃、分步實施。首先建設數據存儲計算系統以及數據治理系統,然后根據業務發展需求,逐步補充數據集成、數據服務。
(3)該數據中臺由5個系統組成。 企業在立項建設時可以靈活組合,每個系統單獨 招標建設,也可以把多個系統合并招標建設。
圖 2 數據中臺體系架構示例
數據中臺通用體系架構包含數據源采集框架、數據集成框架、數據計算存儲框架、數據治理框架以及數據服務框架等5大部分。
3.1數據源采集框架
數據中臺的采集框架應對納入數據中臺的各種源數據進行統一采集管理。采集框架中應提供多種數據采集方式,如文件傳輸協議(File Transfer Protocol,FTP)采集、數據庫采集、接口應用程序 (Application Programming Interface,API)接入采集、流式采集及網絡爬蟲采集。同時采集框架應按照數據采集規范對源數據進行預處理,從而去除明顯不需要的數據及多余數據,并對采集過程進行管理。雖然數據中臺的體系架構沒有統一模板,但各企業數據采集框架基本一致。
3.2數據集成框架
數據集成管理可實現跨部門數據的傳輸、加載、清洗、轉換和整合,支持自定義調度和圖形化監控,實現統一調度、統一監控,滿足運維可視化需求,提高運維管理工作效率。其結構功能如圖3所示
圖 3 數據集成框架
3.3數據計算存儲框架
數據計算存儲需要支持海量數據的高效儲存和統一管理,為企業決策提供實時的數據支撐。主要解決結構化,非結構化融合存儲的混合應用場景。應該具備以下特點:
-
多源數據接入:支持多種傳輸協議,實現結構化、半結構化、非結構化數據的統一接入。
-
實時數據處理:對資源做統一管理,可同時進行離線計算和流式處理,滿足高吞吐、大數據量和低時延實時處理等多方面的數據計算要求。
-
海量數據存儲:要有很高的容錯性、穩定性和可用性,可支持TB、PB級以上結構化與非結構化數據存儲。
-
數據敏捷計算:實現TB級數據查詢秒級響應。
-
智能學習庫:提供聚類、回歸、分類等豐富的算法庫分析等。
-
統一運維管理:支持對集群、節點、服務、組件等諸多對象的管理,幫助用戶及時了解整個平臺系統運行狀態,并且提供健康預警和實時監測,實現大數據平臺的極簡管理。以億信華辰為例,數據計算存儲框架如圖4所示
圖4 數據計算存儲框架
3.4 數據治理框架
廣義的數據治理不僅包含提升數據價值的內容,如數據標準管理、數據質量管理、數據資產管理等,也包含數據安全管理及數據交換。首先建設全面完整的數據標準管理流程及辦法,保證數據的完整性、有效性、一致性、規范性、開放性和共享性管理,再以數據標準為數據檢核依據,以元數據為數據檢核對象,通過向導化、可視化等簡易操作手段,將質量評估、質量檢核、質量整改與質量報告等工作環節進行流程整合,形成完整的數據質量管理閉環。對共享的數據建立統一視圖和集中管理,為各業務系統數據調用提供黃金數據。然后數據交換服務將若干個業務子系統之間進行數據或者文字的傳輸和共享,提高信息資源的利用率。最后數據資產服務可以幫助我們更好的支撐各種數據的應用,豐富的服務接口拓展,支撐數據資產的多渠道應用,如數據共享、決策支持等,最終實現數據資產價值最大化。數據安全管理貫穿于數據治理全過程,提供對隱私數據的加密、脫敏、模糊化處理、數據庫授權監控等多種數據安全管理措施,全方位保障數據的安全運作。以億信華辰為例,數據治理框架如圖5。
圖5 數據治理框架
3.5數據服務框架
數據中臺的最終目的還是為業務提供數據服務,由于數據服務功能將直接面向不確定的外部對象。因此單獨建設數據運營,一方面有利于針對外部用戶提供針對性功能;另一方面,數據運營模塊作為用戶與數據中臺核心數據服務之間的中間層,可以有效隔離外部用戶直接控制、接觸核心數據及應用,可保護數據中臺的安全性及內部功能的穩定性。綜合以上因素, 數據運營應配置運營門戶、能力開放、數據開放及運營監控等功能。
-
運營門戶:對數據中臺管理者提供管理門戶,對開發者提供開發者門戶。對內部應用提供內部應用門戶,對外部應用提供外部應用門戶。運營門戶針對不同的用戶提供不同的通道并開放不同的數據中臺能力。
-
能力開放:把數據中臺的數據處理能力、 數據分析能力等經過適當的封裝后對用戶提供服務,可以是微服務,也可以是API 接口,或者直接提供二次開發能力。
-
數據開放:通過數據目錄,數據模型展示(可視化、數據視圖等)為其他數據應用系統提供數據服務。
-
運營監控:對數據中臺的總體運營情況 進行監控管理,包括硬件環境、軟件環境,并且確定監控指標,按需求提供運營日報,處理告警信息。
數據中臺旨在利用數據技術對海量數據進行采集、存儲、計算、加工、統一表示,形成規范后的數據API,進而提高數據的共享能力,做好數據治理的前提是建設數據中臺。通用數據中臺的建設,能實現企業或機構數據資產的高效管理和數據價值最大化,為機構帶來了數據平臺化的運營機制,有望解決應用開發與數據開發速度不匹配的問題。利用數據中臺,可以將機構的核心技術或團隊凝聚在一起,建設機構內強大的數據開發、運營等團隊,提升機構的團隊的硬實力和軟實力。