- 產(chǎn)品
- 產(chǎn)品解決方案
- 行業(yè)解決方案
- 案例
- 數(shù)據(jù)資產(chǎn)入表
- 賦能中心
- 伙伴
- 關于
-
數(shù)據(jù)治理
-
醫(yī)療衛(wèi)生
制造
-
億信動態(tài)
時間:2022-06-01來源:飛刀劍瀏覽數(shù):168次
企業(yè)級數(shù)據(jù)平臺難以滿足生產(chǎn)系統(tǒng)數(shù)據(jù)應用需求,生產(chǎn)系統(tǒng)就沒有動力將自身數(shù)據(jù)和應用遷入數(shù)據(jù)平臺,進而數(shù)據(jù)平臺的數(shù)據(jù)質(zhì)量和可用性越來越差。同時,還導致生產(chǎn)系統(tǒng)和各個大數(shù)據(jù)平臺的數(shù)據(jù)重復采集、重復存儲,且相互之間數(shù)據(jù)訪問技術和管理壁壘嚴重,建設和維護成本大幅提高。
與傳統(tǒng)的數(shù)據(jù)架構要求整合、面向主題、固定分層等特點不同,數(shù)據(jù)湖為企業(yè)全員獨立參與數(shù)據(jù)運營和應用創(chuàng)新提供了極大的靈活性,并可優(yōu)先確保數(shù)據(jù)的低時延、高質(zhì)量和高可用,給運營商數(shù)據(jù)架構優(yōu)化提供了很好的參考思路。
01 運營商數(shù)據(jù)管理的現(xiàn)狀及挑戰(zhàn)
從數(shù)據(jù)的系統(tǒng)歸屬上看,運營商數(shù)據(jù)可分為MSS(管理支撐系統(tǒng))的面向人、財、物管理類數(shù)據(jù),BSS(業(yè)務支撐系統(tǒng))的面向客戶和產(chǎn)品的營銷及客戶服務數(shù)據(jù),OSS(運營支撐系統(tǒng))的面向產(chǎn)品和網(wǎng)絡的功能及運營服務數(shù)據(jù),三者之間既相對松耦合,又有著緊密的協(xié)作關系,BSS和OSS的銜接點主要在產(chǎn)品及開通、排障服務,MSS和BSS、OSS的銜接點主要在參與人和資源。從數(shù)據(jù)分類來看,運營商的數(shù)據(jù)可分為作為企業(yè)核心的功能類實體數(shù)據(jù)、表示企業(yè)所有運營過程的活動類數(shù)據(jù)、體現(xiàn)內(nèi)外部客戶感知并圍繞兩大主線所產(chǎn)生的感知類指標數(shù)據(jù)以及與管理相關的人、財、物及流程數(shù)據(jù)。電信運營商數(shù)據(jù)范圍示例如圖1所示。


企業(yè)級數(shù)據(jù)平臺難以滿足生產(chǎn)系統(tǒng)數(shù)據(jù)應用需求,生產(chǎn)系統(tǒng)就沒有動力將自身數(shù)據(jù)和應用遷入數(shù)據(jù)平臺,進而數(shù)據(jù)平臺的數(shù)據(jù)質(zhì)量和可用性越來越差。同時,還導致生產(chǎn)系統(tǒng)和各個大數(shù)據(jù)平臺的數(shù)據(jù)重復采集、重復存儲,且相互之間數(shù)據(jù)訪問技術和管理壁壘嚴重,建設和維護成本大幅提高。
02 數(shù)據(jù)湖方案的價值及可行性分析數(shù)據(jù)湖推崇存儲原生數(shù)據(jù),對不同結(jié)構的數(shù)據(jù)統(tǒng)一存儲,使不同數(shù)據(jù)有一致的存儲方式,在使用時方便連接,真正解決數(shù)據(jù)集成問題。數(shù)據(jù)湖的本質(zhì)是一種數(shù)據(jù)管理的思路,利用低成本技術來捕捉、提煉和探索大規(guī)模、長期的原始數(shù)據(jù)存儲的方法與技術。數(shù)據(jù)湖可存儲任何種類的數(shù)據(jù),高質(zhì)量、高效率地存儲數(shù)據(jù),更快速、更廉價地處理數(shù)據(jù),將建模應用問題丟給最終開發(fā)者[9]。數(shù)據(jù)湖的方案應用可以帶來如下幾個顯著的好處規(guī)模大、成本低全企業(yè)海量數(shù)據(jù)統(tǒng)一存儲,采用開源技術,基于低成本硬件資源,建立和維護成本相比數(shù)據(jù)倉庫低一個數(shù)量級。數(shù)據(jù)“原汁原味”數(shù)據(jù)湖以原始形式保存數(shù)據(jù),并在整個數(shù)據(jù)生命周期捕獲對數(shù)據(jù)和上下文語義的更改,尤其便于進行合規(guī)性和內(nèi)部審計。如果數(shù)據(jù)經(jīng)歷了轉(zhuǎn)換、聚合和更新,將很難在需求出現(xiàn)時將數(shù)據(jù)拼湊在一起,而且?guī)缀鯖]有希望確定清晰出處。數(shù)據(jù)方便易用結(jié)構化、非結(jié)構化、半結(jié)構化的數(shù)據(jù)都是原樣加載和存儲,以后再進行轉(zhuǎn)換,開發(fā)和保存成本低,產(chǎn)生和使用之間時延小。客戶、供應商和數(shù)據(jù)運營者不需要數(shù)據(jù)擁有者提供太多幫助即可整合數(shù)據(jù),消除了數(shù)據(jù)共享的內(nèi)部政治或技術障礙。應用按需建模數(shù)據(jù)湖提供數(shù)據(jù)給靈活的、面向任務的結(jié)構化應用,詳細的業(yè)務需求和艱苦的數(shù)據(jù)建模都不是數(shù)據(jù)湖的先決條件。數(shù)據(jù)湖給予最終用戶最大的靈活度來處理數(shù)據(jù),對于同一份原始數(shù)據(jù),不同的用戶可能有不同的理解。目前,大部分運營商采用傳統(tǒng)的以數(shù)據(jù)為中心的處理架構(存儲計算一體化,如主流MPP、Hive和分布式計算廠商產(chǎn)品),好處是計算效率高、技術成熟,缺點也很明顯,如靈活性不足,使得數(shù)據(jù)應用適用于少數(shù)人,這也制約了原生數(shù)據(jù)提供者向平臺提供的積極性,進而導致數(shù)據(jù)的質(zhì)量、數(shù)據(jù)的全面性都得不到很好的保障。引入數(shù)據(jù)湖概念的一個顯著特點就是存儲和計算松耦合,可采用以計算為中心的處理模式(存儲與計算分離,如Spark技術及AWS、阿里云等云服務提供商產(chǎn)品),使得運營商可以更加專注于數(shù)據(jù)的存儲和管理,存儲和計算不用相互制約,從而優(yōu)先確保數(shù)據(jù)的高質(zhì)量、低時延、高可用,并為數(shù)據(jù)應用的快速構建提供了極大的靈活性。數(shù)據(jù)湖按照成熟度可劃分為4個階段:第一個階段,應用程序獨立建設,部分應用將數(shù)據(jù)提供給數(shù)據(jù)倉庫,基于數(shù)據(jù)倉庫構建分析應用;第二個階段,數(shù)據(jù)湖和數(shù)據(jù)倉庫并存,應用程序向數(shù)據(jù)湖提供副本數(shù)據(jù),基于數(shù)據(jù)湖開發(fā)分析型應用,數(shù)據(jù)倉庫和應用也可從數(shù)據(jù)湖提取數(shù)據(jù);第三個階段,新系統(tǒng)以數(shù)據(jù)湖為中心構建,應用通過數(shù)據(jù)湖交互彼此數(shù)據(jù),數(shù)據(jù)湖成為數(shù)據(jù)架構的核心,數(shù)據(jù)倉庫基于數(shù)據(jù)湖提供特定的應用需求,數(shù)據(jù)治理變得重要;第四個階段,所有新的應用均基于數(shù)據(jù)湖構建,數(shù)據(jù)湖成為彈性的分布式平臺,數(shù)據(jù)的治理和安全需持續(xù)加強,支撐企業(yè)的數(shù)據(jù)運營和分析能力。電信運營商目前普遍處于第二個階段向第三個階段演進的過程中,在構建數(shù)據(jù)技術方案方面具備較好的基礎條件。
03 電信運營商數(shù)據(jù)湖架構調(diào)整現(xiàn)有分析型數(shù)據(jù)平臺建設思路,將其數(shù)據(jù)與應用解耦,引入數(shù)據(jù)湖概念,強調(diào)原生數(shù)據(jù)入湖,并與全網(wǎng)生產(chǎn)系統(tǒng)模型和主數(shù)據(jù)標準化協(xié)同推進,兼顧層次化的傳統(tǒng)數(shù)據(jù)架構和扁平化的數(shù)據(jù)湖架構的優(yōu)點,SchemaonRead和SchemaonWrite并存,統(tǒng)一支撐企業(yè)實時、準實時和離線數(shù)據(jù)應用快速創(chuàng)新,是電信運營商實現(xiàn)以數(shù)據(jù)為中心IT架構轉(zhuǎn)型的有效途徑。數(shù)據(jù)湖作為運營商數(shù)據(jù)存儲和訪問的唯一出口,成為所有IT系統(tǒng)共享的基礎設施,統(tǒng)一存儲全企業(yè)IT和網(wǎng)絡數(shù)據(jù),通過開放架構支撐智慧運營,并可作為IT系統(tǒng)集約化演進的紐帶。數(shù)據(jù)統(tǒng)一存儲統(tǒng)一存儲MSS、BSS、OSS及網(wǎng)元平臺的實時、歷史、在線、離線數(shù)據(jù),全網(wǎng)的原生數(shù)據(jù)只存儲一份在邏輯統(tǒng)一的分布式數(shù)據(jù)湖內(nèi),原生數(shù)據(jù)與生產(chǎn)系統(tǒng)數(shù)據(jù)模型標準和主數(shù)據(jù)一致,新IT系統(tǒng)/網(wǎng)元平臺的生產(chǎn)數(shù)據(jù)直接使用數(shù)據(jù)湖存儲。數(shù)據(jù)統(tǒng)一管理所有入湖數(shù)據(jù)的目錄、元數(shù)據(jù)、數(shù)據(jù)應用及數(shù)據(jù)質(zhì)量、數(shù)據(jù)標準、數(shù)據(jù)安全必須統(tǒng)一管理。數(shù)據(jù)模型標準和主數(shù)據(jù)動態(tài)維護,數(shù)據(jù)質(zhì)量集中治理,原生系統(tǒng)的數(shù)據(jù)問題溯源處理,生產(chǎn)系統(tǒng)建設者全程參與數(shù)據(jù)管理,責任權利保持一致。數(shù)據(jù)統(tǒng)一標準生產(chǎn)系統(tǒng)管理部門負責31省市系統(tǒng)模型和主數(shù)據(jù)的標準化;數(shù)據(jù)湖統(tǒng)一管理生產(chǎn)系統(tǒng)的數(shù)據(jù)模型及主數(shù)據(jù);暫未進行標準化的生產(chǎn)系統(tǒng)數(shù)據(jù)模型,由對應系統(tǒng)的管理部門負責數(shù)據(jù)模型的轉(zhuǎn)換和運營,協(xié)調(diào)推進生產(chǎn)系統(tǒng)數(shù)據(jù)標準進程。數(shù)據(jù)近源采集提供數(shù)據(jù)統(tǒng)一采集、實時訂閱分發(fā)框架,支撐實時/準實時數(shù)據(jù)、離線數(shù)據(jù)的采集。各網(wǎng)元/平臺數(shù)據(jù)采集能力以組件方式納入數(shù)據(jù)湖,分專業(yè)采集、預處理加工,海量實時數(shù)可靠近網(wǎng)絡近源部署前置采集模塊。非網(wǎng)絡類數(shù)據(jù)(如BSS、MSS、OSS流程等),初期以副本采集方式匯聚入湖,遠期直接以服務交互方式入湖。數(shù)據(jù)與應用分離數(shù)據(jù)應用環(huán)境與數(shù)據(jù)存儲環(huán)境分離,按應用計算的網(wǎng)絡帶寬需要就近部署。提供統(tǒng)一的服務化訪問、小批量數(shù)據(jù)訂閱、數(shù)據(jù)分析計算云平臺環(huán)境。基于云平臺環(huán)境,應用開發(fā)者可自行整合數(shù)據(jù)、構建應用,數(shù)據(jù)存儲、數(shù)據(jù)整合、平臺組件、數(shù)據(jù)應用間相互解耦,建設的進程不會相互制約。同時,建立全生命周期數(shù)據(jù)目錄,統(tǒng)一標識各項數(shù)據(jù),完善數(shù)據(jù)治理機制,管理數(shù)據(jù)湖數(shù)據(jù)的生產(chǎn)加工流程,對各項數(shù)據(jù)生成和使用過程進行跟蹤記錄,支撐數(shù)據(jù)的應用和溯源,是數(shù)據(jù)湖方案順利實施的關鍵要素。并且還需要加強數(shù)據(jù)標準的全生命周期流程以及數(shù)據(jù)標準的元數(shù)據(jù)及數(shù)據(jù)質(zhì)量問題收集、自動稽核、問題溯源、影響分析及跟蹤處理等數(shù)據(jù)管理能力。可以采用爬蟲的方式生成數(shù)據(jù)目錄,在不影響數(shù)據(jù)所有者或用戶的情況下自動生成,

決定數(shù)據(jù)湖能否順利實施的因素有很多,包括數(shù)據(jù)湖涵蓋哪些數(shù)據(jù)及如何分區(qū)存儲、數(shù)據(jù)湖如何分布式部署、紛繁復雜的現(xiàn)有IT系統(tǒng)數(shù)據(jù)如何入湖、數(shù)據(jù)和應用能否分離、數(shù)據(jù)湖與現(xiàn)有各類數(shù)據(jù)平臺的演進關系等。當然,更重要的是數(shù)據(jù)管理思維的轉(zhuǎn)變,這是一切的基礎。
04?電信運營商數(shù)據(jù)湖實施的要點
針對運營商數(shù)據(jù)湖的實施,提出如下4個方面的關鍵要點及建議。要點1:數(shù)據(jù)湖分區(qū)數(shù)據(jù)湖邏輯上可劃分為生產(chǎn)數(shù)據(jù)區(qū)、原生數(shù)據(jù)區(qū)、整合數(shù)據(jù)區(qū)、匯總數(shù)據(jù)區(qū)4個大的存儲區(qū)域。數(shù)據(jù)湖的應用可基于PaaS平臺按需使用各個區(qū)的數(shù)據(jù),4個區(qū)的數(shù)據(jù)目錄、元數(shù)據(jù)、數(shù)據(jù)加工處理流程及數(shù)據(jù)應用需要統(tǒng)一管理、維護和治理。生產(chǎn)數(shù)據(jù)區(qū)M/B/O系統(tǒng)生產(chǎn)數(shù)據(jù)的存儲區(qū)域,涵蓋實時交易型數(shù)據(jù)、實時/準實時網(wǎng)絡采集數(shù)據(jù)等,可以是關系型和非關系型混搭的存儲結(jié)構,各生產(chǎn)系統(tǒng)需要進行架構優(yōu)化,數(shù)據(jù)與應用分層解耦,將數(shù)據(jù)存入生產(chǎn)數(shù)據(jù)區(qū)。原生數(shù)據(jù)區(qū)將各系統(tǒng)的生產(chǎn)數(shù)據(jù)直接寫入數(shù)據(jù)湖原生數(shù)據(jù)區(qū),以非關系型數(shù)據(jù)格式存儲生產(chǎn)系統(tǒng)數(shù)據(jù),方便各數(shù)據(jù)應用使用,生產(chǎn)數(shù)據(jù)和原生數(shù)據(jù)模型標準、主數(shù)據(jù)一致。原生數(shù)據(jù)區(qū)涵蓋企業(yè)的任何內(nèi)容,無限接近企業(yè)各系統(tǒng)、部門的敏感信息。供數(shù)據(jù)湖科學家和技術人員訪問使用。整合數(shù)據(jù)區(qū)存儲按照數(shù)據(jù)分析需求建模加工后的公用數(shù)據(jù)。模型從生產(chǎn)/原生數(shù)據(jù)模型派生而來,被業(yè)務和IT部門熟知,可供企業(yè)各種應用程序使用。原生數(shù)據(jù)區(qū)中依然有很多數(shù)據(jù)或?qū)傩詻]有被真正理解,并未完全包含在這個數(shù)據(jù)區(qū)的模型中。匯總數(shù)據(jù)區(qū)存儲按需求分析匯總的結(jié)果數(shù)據(jù),一般可存儲在關系型數(shù)據(jù)存儲內(nèi),便于數(shù)據(jù)服務的快速加載呈現(xiàn)。數(shù)據(jù)湖生產(chǎn)數(shù)據(jù)區(qū)和原生數(shù)據(jù)區(qū)作為最重要的數(shù)據(jù)分區(qū),是數(shù)據(jù)湖內(nèi)數(shù)據(jù)整合和匯總的源頭數(shù)據(jù),數(shù)據(jù)質(zhì)量必須得到保障。另外,數(shù)據(jù)湖雖不鼓勵應用特定模型,但也可劃分特定數(shù)據(jù)區(qū)給私有應用使用,提供快速構建數(shù)據(jù)應用的途徑,這些應用獲取數(shù)據(jù)湖數(shù)據(jù)且具有數(shù)據(jù)處理能力,數(shù)據(jù)湖構建初期,可將已有業(yè)務應用數(shù)據(jù)導入數(shù)據(jù)湖特定數(shù)據(jù)區(qū)中。電信運營商數(shù)據(jù)湖數(shù)據(jù)分區(qū)示例如圖4所示。





在線咨詢
點擊進入在線咨詢