日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實施部署指南。同時,在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

數(shù)據(jù)湖技術在某行業(yè)的實踐

時間:2022-06-01來源:飛刀劍瀏覽數(shù):168

企業(yè)級數(shù)據(jù)平臺難以滿足生產(chǎn)系統(tǒng)數(shù)據(jù)應用需求,生產(chǎn)系統(tǒng)就沒有動力將自身數(shù)據(jù)和應用遷入數(shù)據(jù)平臺,進而數(shù)據(jù)平臺的數(shù)據(jù)質(zhì)量和可用性越來越差。同時,還導致生產(chǎn)系統(tǒng)和各個大數(shù)據(jù)平臺的數(shù)據(jù)重復采集、重復存儲,且相互之間數(shù)據(jù)訪問技術和管理壁壘嚴重,建設和維護成本大幅提高。

與傳統(tǒng)的數(shù)據(jù)架構要求整合、面向主題、固定分層等特點不同,數(shù)據(jù)湖為企業(yè)全員獨立參與數(shù)據(jù)運營和應用創(chuàng)新提供了極大的靈活性,并可優(yōu)先確保數(shù)據(jù)的低時延、高質(zhì)量和高可用,給運營商數(shù)據(jù)架構優(yōu)化提供了很好的參考思路。

01 運營商數(shù)據(jù)管理的現(xiàn)狀及挑戰(zhàn)

從數(shù)據(jù)的系統(tǒng)歸屬上看,運營商數(shù)據(jù)可分為MSS(管理支撐系統(tǒng))的面向人、財、物管理類數(shù)據(jù),BSS(業(yè)務支撐系統(tǒng))的面向客戶和產(chǎn)品的營銷及客戶服務數(shù)據(jù),OSS(運營支撐系統(tǒng))的面向產(chǎn)品和網(wǎng)絡的功能及運營服務數(shù)據(jù),三者之間既相對松耦合,又有著緊密的協(xié)作關系,BSS和OSS的銜接點主要在產(chǎn)品及開通、排障服務,MSS和BSS、OSS的銜接點主要在參與人和資源。從數(shù)據(jù)分類來看,運營商的數(shù)據(jù)可分為作為企業(yè)核心的功能類實體數(shù)據(jù)、表示企業(yè)所有運營過程的活動類數(shù)據(jù)、體現(xiàn)內(nèi)外部客戶感知并圍繞兩大主線所產(chǎn)生的感知類指標數(shù)據(jù)以及與管理相關的人、財、物及流程數(shù)據(jù)。電信運營商數(shù)據(jù)范圍示例如圖1所示。

由于國內(nèi)運營商以兩級經(jīng)營模式為主體,系統(tǒng)的集約化建設程度相對較低,以分域(M/B/O)、分省建設為主,即便是同類系統(tǒng)的數(shù)據(jù),因為分31個省市建設,各省市的業(yè)務管理模式、數(shù)據(jù)模型標準、主數(shù)據(jù)等千差萬別,跨省、跨域、跨系統(tǒng)的模型標準統(tǒng)一非常困難,即便通過數(shù)據(jù)副本的模式進行整合匯聚,也存在轉(zhuǎn)換不專業(yè)和數(shù)據(jù)失真等問題。同時,域與域之間雖是松耦合的,但因為使用者和建設者的不同,相互之間會冗余存儲對方數(shù)據(jù),而建模和主數(shù)據(jù)又不同,跨域之間數(shù)據(jù)的關聯(lián)整合非常復雜,跨域、跨省的端到端應用困難。運營商的數(shù)據(jù)還有一個顯著的特點,就是與網(wǎng)絡密切相關,網(wǎng)絡運行數(shù)據(jù)和網(wǎng)絡拓撲數(shù)據(jù)需要與網(wǎng)絡保持實時一致,且數(shù)據(jù)量比較大,網(wǎng)絡智能化后的實時數(shù)據(jù)應用需求也越來越多。通信網(wǎng)絡是一張大網(wǎng),即便引入云計算、虛擬化技術,依然有大量網(wǎng)絡節(jié)點遍布31個省市,海量網(wǎng)絡數(shù)據(jù)的實時采集、處理及應用也是運營商數(shù)據(jù)架構需要考慮的一個重要因素。國內(nèi)運營商目前都不同程度地建立了自己的企業(yè)級大數(shù)據(jù)平臺,有的分總部/省兩級部署,支撐兩級數(shù)據(jù)分析,統(tǒng)一全網(wǎng)的架構、來源、算法、規(guī)則,總部數(shù)據(jù)輕度匯總,按需采集匯聚高價值詳單數(shù)據(jù);有的采用1+N模式,建設總部和省互補協(xié)作平臺,總部提供跨域數(shù)據(jù)和特定的大數(shù)據(jù)能力,作為N的省向總部提供本地化數(shù)據(jù)能力與自定義算法。電信運營商數(shù)據(jù)平臺架構示例如圖2所示。

不管采用哪種模式,都不同程度地存在其下屬各專業(yè)公司、各部門根據(jù)各自需要,或在生產(chǎn)系統(tǒng)內(nèi)構建含大數(shù)據(jù)技術的混搭數(shù)據(jù)架構,或建設域內(nèi)自用的大數(shù)據(jù)平臺,因此有很多數(shù)據(jù)未進入企業(yè)級大數(shù)據(jù)平臺,或數(shù)據(jù)平臺的應用未達到預期。其原因可歸結(jié)為如下幾點平臺數(shù)據(jù)質(zhì)量不高平臺數(shù)據(jù)來自于M/B/O的生產(chǎn)系統(tǒng),而運營商分兩級31省市建設的生產(chǎn)系統(tǒng),不但數(shù)據(jù)模型、主數(shù)據(jù)標準不統(tǒng)一,業(yè)務管理模式的差異也很大。數(shù)據(jù)經(jīng)過多次模型轉(zhuǎn)換,存在嚴重失真的問題,且很難對數(shù)據(jù)質(zhì)量問題追蹤溯源。平臺數(shù)據(jù)不夠?qū)崟r數(shù)據(jù)經(jīng)過多級采集匯聚,處理環(huán)節(jié)多,采集周期長。網(wǎng)絡相關海量數(shù)據(jù)跨省傳輸,占用大量帶寬,數(shù)據(jù)時延較大。數(shù)據(jù)平臺目前只能以支撐離線的決策分析為主,難以滿足SDN/NFV/云網(wǎng)絡及物聯(lián)網(wǎng)等實時/準實時數(shù)據(jù)應用需求。平臺的靈活性不足數(shù)據(jù)平臺的建設以存儲計算一體化架構為主,平臺與應用緊耦合,多基于公共數(shù)據(jù)平臺和整合后的數(shù)據(jù)支撐應用創(chuàng)新。對于新的數(shù)據(jù)整合、數(shù)據(jù)計算分析技術引入、平臺擴容支撐等需求響應不靈活,導致數(shù)據(jù)平臺應用不足。平臺和應用互鎖,形成惡性循環(huán)

企業(yè)級數(shù)據(jù)平臺難以滿足生產(chǎn)系統(tǒng)數(shù)據(jù)應用需求,生產(chǎn)系統(tǒng)就沒有動力將自身數(shù)據(jù)和應用遷入數(shù)據(jù)平臺,進而數(shù)據(jù)平臺的數(shù)據(jù)質(zhì)量和可用性越來越差。同時,還導致生產(chǎn)系統(tǒng)和各個大數(shù)據(jù)平臺的數(shù)據(jù)重復采集、重復存儲,且相互之間數(shù)據(jù)訪問技術和管理壁壘嚴重,建設和維護成本大幅提高。

02 數(shù)據(jù)湖方案的價值及可行性分析數(shù)據(jù)湖推崇存儲原生數(shù)據(jù),對不同結(jié)構的數(shù)據(jù)統(tǒng)一存儲,使不同數(shù)據(jù)有一致的存儲方式,在使用時方便連接,真正解決數(shù)據(jù)集成問題。數(shù)據(jù)湖的本質(zhì)是一種數(shù)據(jù)管理的思路,利用低成本技術來捕捉、提煉和探索大規(guī)模、長期的原始數(shù)據(jù)存儲的方法與技術。數(shù)據(jù)湖可存儲任何種類的數(shù)據(jù),高質(zhì)量、高效率地存儲數(shù)據(jù),更快速、更廉價地處理數(shù)據(jù),將建模應用問題丟給最終開發(fā)者[9]。數(shù)據(jù)湖的方案應用可以帶來如下幾個顯著的好處規(guī)模大、成本低全企業(yè)海量數(shù)據(jù)統(tǒng)一存儲,采用開源技術,基于低成本硬件資源,建立和維護成本相比數(shù)據(jù)倉庫低一個數(shù)量級。數(shù)據(jù)“原汁原味”數(shù)據(jù)湖以原始形式保存數(shù)據(jù),并在整個數(shù)據(jù)生命周期捕獲對數(shù)據(jù)和上下文語義的更改,尤其便于進行合規(guī)性和內(nèi)部審計。如果數(shù)據(jù)經(jīng)歷了轉(zhuǎn)換、聚合和更新,將很難在需求出現(xiàn)時將數(shù)據(jù)拼湊在一起,而且?guī)缀鯖]有希望確定清晰出處。數(shù)據(jù)方便易用結(jié)構化、非結(jié)構化、半結(jié)構化的數(shù)據(jù)都是原樣加載和存儲,以后再進行轉(zhuǎn)換,開發(fā)和保存成本低,產(chǎn)生和使用之間時延小。客戶、供應商和數(shù)據(jù)運營者不需要數(shù)據(jù)擁有者提供太多幫助即可整合數(shù)據(jù),消除了數(shù)據(jù)共享的內(nèi)部政治或技術障礙。應用按需建模數(shù)據(jù)湖提供數(shù)據(jù)給靈活的、面向任務的結(jié)構化應用,詳細的業(yè)務需求和艱苦的數(shù)據(jù)建模都不是數(shù)據(jù)湖的先決條件。數(shù)據(jù)湖給予最終用戶最大的靈活度來處理數(shù)據(jù),對于同一份原始數(shù)據(jù),不同的用戶可能有不同的理解。目前,大部分運營商采用傳統(tǒng)的以數(shù)據(jù)為中心的處理架構(存儲計算一體化,如主流MPP、Hive和分布式計算廠商產(chǎn)品),好處是計算效率高、技術成熟,缺點也很明顯,如靈活性不足,使得數(shù)據(jù)應用適用于少數(shù)人,這也制約了原生數(shù)據(jù)提供者向平臺提供的積極性,進而導致數(shù)據(jù)的質(zhì)量、數(shù)據(jù)的全面性都得不到很好的保障。引入數(shù)據(jù)湖概念的一個顯著特點就是存儲和計算松耦合,可采用以計算為中心的處理模式(存儲與計算分離,如Spark技術及AWS、阿里云等云服務提供商產(chǎn)品),使得運營商可以更加專注于數(shù)據(jù)的存儲和管理,存儲和計算不用相互制約,從而優(yōu)先確保數(shù)據(jù)的高質(zhì)量、低時延、高可用,并為數(shù)據(jù)應用的快速構建提供了極大的靈活性。數(shù)據(jù)湖按照成熟度可劃分為4個階段:第一個階段,應用程序獨立建設,部分應用將數(shù)據(jù)提供給數(shù)據(jù)倉庫,基于數(shù)據(jù)倉庫構建分析應用;第二個階段,數(shù)據(jù)湖和數(shù)據(jù)倉庫并存,應用程序向數(shù)據(jù)湖提供副本數(shù)據(jù),基于數(shù)據(jù)湖開發(fā)分析型應用,數(shù)據(jù)倉庫和應用也可從數(shù)據(jù)湖提取數(shù)據(jù);第三個階段,新系統(tǒng)以數(shù)據(jù)湖為中心構建,應用通過數(shù)據(jù)湖交互彼此數(shù)據(jù),數(shù)據(jù)湖成為數(shù)據(jù)架構的核心,數(shù)據(jù)倉庫基于數(shù)據(jù)湖提供特定的應用需求,數(shù)據(jù)治理變得重要;第四個階段,所有新的應用均基于數(shù)據(jù)湖構建,數(shù)據(jù)湖成為彈性的分布式平臺,數(shù)據(jù)的治理和安全需持續(xù)加強,支撐企業(yè)的數(shù)據(jù)運營和分析能力。

電信運營商目前普遍處于第二個階段向第三個階段演進的過程中,在構建數(shù)據(jù)技術方案方面具備較好的基礎條件。

03 電信運營商數(shù)據(jù)湖架構調(diào)整現(xiàn)有分析型數(shù)據(jù)平臺建設思路,將其數(shù)據(jù)與應用解耦,引入數(shù)據(jù)湖概念,強調(diào)原生數(shù)據(jù)入湖,并與全網(wǎng)生產(chǎn)系統(tǒng)模型和主數(shù)據(jù)標準化協(xié)同推進,兼顧層次化的傳統(tǒng)數(shù)據(jù)架構和扁平化的數(shù)據(jù)湖架構的優(yōu)點,SchemaonRead和SchemaonWrite并存,統(tǒng)一支撐企業(yè)實時、準實時和離線數(shù)據(jù)應用快速創(chuàng)新,是電信運營商實現(xiàn)以數(shù)據(jù)為中心IT架構轉(zhuǎn)型的有效途徑。數(shù)據(jù)湖作為運營商數(shù)據(jù)存儲和訪問的唯一出口,成為所有IT系統(tǒng)共享的基礎設施,統(tǒng)一存儲全企業(yè)IT和網(wǎng)絡數(shù)據(jù),通過開放架構支撐智慧運營,并可作為IT系統(tǒng)集約化演進的紐帶。數(shù)據(jù)統(tǒng)一存儲統(tǒng)一存儲MSS、BSS、OSS及網(wǎng)元平臺的實時、歷史、在線、離線數(shù)據(jù),全網(wǎng)的原生數(shù)據(jù)只存儲一份在邏輯統(tǒng)一的分布式數(shù)據(jù)湖內(nèi),原生數(shù)據(jù)與生產(chǎn)系統(tǒng)數(shù)據(jù)模型標準和主數(shù)據(jù)一致,新IT系統(tǒng)/網(wǎng)元平臺的生產(chǎn)數(shù)據(jù)直接使用數(shù)據(jù)湖存儲。數(shù)據(jù)統(tǒng)一管理所有入湖數(shù)據(jù)的目錄、元數(shù)據(jù)、數(shù)據(jù)應用及數(shù)據(jù)質(zhì)量、數(shù)據(jù)標準、數(shù)據(jù)安全必須統(tǒng)一管理。數(shù)據(jù)模型標準和主數(shù)據(jù)動態(tài)維護,數(shù)據(jù)質(zhì)量集中治理,原生系統(tǒng)的數(shù)據(jù)問題溯源處理,生產(chǎn)系統(tǒng)建設者全程參與數(shù)據(jù)管理,責任權利保持一致。數(shù)據(jù)統(tǒng)一標準生產(chǎn)系統(tǒng)管理部門負責31省市系統(tǒng)模型和主數(shù)據(jù)的標準化;數(shù)據(jù)湖統(tǒng)一管理生產(chǎn)系統(tǒng)的數(shù)據(jù)模型及主數(shù)據(jù);暫未進行標準化的生產(chǎn)系統(tǒng)數(shù)據(jù)模型,由對應系統(tǒng)的管理部門負責數(shù)據(jù)模型的轉(zhuǎn)換和運營,協(xié)調(diào)推進生產(chǎn)系統(tǒng)數(shù)據(jù)標準進程。數(shù)據(jù)近源采集提供數(shù)據(jù)統(tǒng)一采集、實時訂閱分發(fā)框架,支撐實時/準實時數(shù)據(jù)、離線數(shù)據(jù)的采集。各網(wǎng)元/平臺數(shù)據(jù)采集能力以組件方式納入數(shù)據(jù)湖,分專業(yè)采集、預處理加工,海量實時數(shù)可靠近網(wǎng)絡近源部署前置采集模塊。非網(wǎng)絡類數(shù)據(jù)(如BSS、MSS、OSS流程等),初期以副本采集方式匯聚入湖,遠期直接以服務交互方式入湖。數(shù)據(jù)與應用分離數(shù)據(jù)應用環(huán)境與數(shù)據(jù)存儲環(huán)境分離,按應用計算的網(wǎng)絡帶寬需要就近部署。提供統(tǒng)一的服務化訪問、小批量數(shù)據(jù)訂閱、數(shù)據(jù)分析計算云平臺環(huán)境。基于云平臺環(huán)境,應用開發(fā)者可自行整合數(shù)據(jù)、構建應用,數(shù)據(jù)存儲、數(shù)據(jù)整合、平臺組件、數(shù)據(jù)應用間相互解耦,建設的進程不會相互制約。同時,建立全生命周期數(shù)據(jù)目錄,統(tǒng)一標識各項數(shù)據(jù),完善數(shù)據(jù)治理機制,管理數(shù)據(jù)湖數(shù)據(jù)的生產(chǎn)加工流程,對各項數(shù)據(jù)生成和使用過程進行跟蹤記錄,支撐數(shù)據(jù)的應用和溯源,是數(shù)據(jù)湖方案順利實施的關鍵要素。并且還需要加強數(shù)據(jù)標準的全生命周期流程以及數(shù)據(jù)標準的元數(shù)據(jù)及數(shù)據(jù)質(zhì)量問題收集、自動稽核、問題溯源、影響分析及跟蹤處理等數(shù)據(jù)管理能力。可以采用爬蟲的方式生成數(shù)據(jù)目錄,在不影響數(shù)據(jù)所有者或用戶的情況下自動生成,

決定數(shù)據(jù)湖能否順利實施的因素有很多,包括數(shù)據(jù)湖涵蓋哪些數(shù)據(jù)及如何分區(qū)存儲、數(shù)據(jù)湖如何分布式部署、紛繁復雜的現(xiàn)有IT系統(tǒng)數(shù)據(jù)如何入湖、數(shù)據(jù)和應用能否分離、數(shù)據(jù)湖與現(xiàn)有各類數(shù)據(jù)平臺的演進關系等。當然,更重要的是數(shù)據(jù)管理思維的轉(zhuǎn)變,這是一切的基礎。

04?電信運營商數(shù)據(jù)湖實施的要點

針對運營商數(shù)據(jù)湖的實施,提出如下4個方面的關鍵要點及建議。要點1:數(shù)據(jù)湖分區(qū)數(shù)據(jù)湖邏輯上可劃分為生產(chǎn)數(shù)據(jù)區(qū)、原生數(shù)據(jù)區(qū)、整合數(shù)據(jù)區(qū)、匯總數(shù)據(jù)區(qū)4個大的存儲區(qū)域。數(shù)據(jù)湖的應用可基于PaaS平臺按需使用各個區(qū)的數(shù)據(jù),4個區(qū)的數(shù)據(jù)目錄、元數(shù)據(jù)、數(shù)據(jù)加工處理流程及數(shù)據(jù)應用需要統(tǒng)一管理、維護和治理。生產(chǎn)數(shù)據(jù)區(qū)M/B/O系統(tǒng)生產(chǎn)數(shù)據(jù)的存儲區(qū)域,涵蓋實時交易型數(shù)據(jù)、實時/準實時網(wǎng)絡采集數(shù)據(jù)等,可以是關系型和非關系型混搭的存儲結(jié)構,各生產(chǎn)系統(tǒng)需要進行架構優(yōu)化,數(shù)據(jù)與應用分層解耦,將數(shù)據(jù)存入生產(chǎn)數(shù)據(jù)區(qū)。原生數(shù)據(jù)區(qū)將各系統(tǒng)的生產(chǎn)數(shù)據(jù)直接寫入數(shù)據(jù)湖原生數(shù)據(jù)區(qū),以非關系型數(shù)據(jù)格式存儲生產(chǎn)系統(tǒng)數(shù)據(jù),方便各數(shù)據(jù)應用使用,生產(chǎn)數(shù)據(jù)和原生數(shù)據(jù)模型標準、主數(shù)據(jù)一致。原生數(shù)據(jù)區(qū)涵蓋企業(yè)的任何內(nèi)容,無限接近企業(yè)各系統(tǒng)、部門的敏感信息。供數(shù)據(jù)湖科學家和技術人員訪問使用。整合數(shù)據(jù)區(qū)存儲按照數(shù)據(jù)分析需求建模加工后的公用數(shù)據(jù)。模型從生產(chǎn)/原生數(shù)據(jù)模型派生而來,被業(yè)務和IT部門熟知,可供企業(yè)各種應用程序使用。原生數(shù)據(jù)區(qū)中依然有很多數(shù)據(jù)或?qū)傩詻]有被真正理解,并未完全包含在這個數(shù)據(jù)區(qū)的模型中。匯總數(shù)據(jù)區(qū)存儲按需求分析匯總的結(jié)果數(shù)據(jù),一般可存儲在關系型數(shù)據(jù)存儲內(nèi),便于數(shù)據(jù)服務的快速加載呈現(xiàn)。數(shù)據(jù)湖生產(chǎn)數(shù)據(jù)區(qū)和原生數(shù)據(jù)區(qū)作為最重要的數(shù)據(jù)分區(qū),是數(shù)據(jù)湖內(nèi)數(shù)據(jù)整合和匯總的源頭數(shù)據(jù),數(shù)據(jù)質(zhì)量必須得到保障。另外,數(shù)據(jù)湖雖不鼓勵應用特定模型,但也可劃分特定數(shù)據(jù)區(qū)給私有應用使用,提供快速構建數(shù)據(jù)應用的途徑,這些應用獲取數(shù)據(jù)湖數(shù)據(jù)且具有數(shù)據(jù)處理能力,數(shù)據(jù)湖構建初期,可將已有業(yè)務應用數(shù)據(jù)導入數(shù)據(jù)湖特定數(shù)據(jù)區(qū)中。電信運營商數(shù)據(jù)湖數(shù)據(jù)分區(qū)示例如圖4所示。

要點2:數(shù)據(jù)湖部署數(shù)據(jù)湖部署方案的設計需要考慮如下要素: 現(xiàn)有BSS/OSS系統(tǒng)分省/總部兩級建設和維護,源系統(tǒng)模型屬地管理;網(wǎng)絡/平臺數(shù)據(jù)量大,且貼近網(wǎng)絡建設歸屬地,屬地應用占比大; M/B/O及網(wǎng)絡/平臺之間數(shù)據(jù)松耦合,主要通過企業(yè)主數(shù)據(jù)進行銜接。數(shù)據(jù)湖原生數(shù)據(jù)區(qū)和生產(chǎn)數(shù)據(jù)區(qū)與數(shù)據(jù)源系統(tǒng)就近分布式部署(總部1+省市31模式)。 生產(chǎn)數(shù)據(jù)云節(jié)點由生產(chǎn)系統(tǒng)按需分區(qū)、分片部署,即支撐生產(chǎn)應用交易處理,也支撐實時網(wǎng)絡數(shù)據(jù)采集和應用。 原生數(shù)據(jù)云節(jié)點與生產(chǎn)數(shù)據(jù)云節(jié)點就近、集中部署,靠近數(shù)據(jù)歸屬地,數(shù)據(jù)實時從生產(chǎn)數(shù)據(jù)云節(jié)點寫入原生數(shù)據(jù)云節(jié)點。原生數(shù)據(jù)云節(jié)點可再細分為核心數(shù)據(jù)區(qū)(如客戶、銷售品、產(chǎn)品、服務、資源、組織、人員等)、BSS數(shù)據(jù)區(qū)、OSS數(shù)據(jù)區(qū)、MSS數(shù)據(jù)區(qū)、網(wǎng)絡/平臺數(shù)據(jù)區(qū)。 數(shù)據(jù)湖整合、匯總數(shù)據(jù)云節(jié)點采用1+N模式部署,統(tǒng)一管理、控制和調(diào)度節(jié)點環(huán)境,兼顧全網(wǎng)統(tǒng)一和個性化應用需求,數(shù)據(jù)科學家逐步探索和建模數(shù)據(jù),開放數(shù)據(jù)應用。1+N模式中的“1”支撐全網(wǎng)應用,“N”支撐省內(nèi)應用,并作為創(chuàng)新基地,有條件、數(shù)據(jù)量大、應用豐富的省可選擇建設N分區(qū)。分區(qū)節(jié)點內(nèi)可按照應用范圍(全局需求、特定需求)、地域歸屬(集團、省)、數(shù)據(jù)層次(整合、匯總)、數(shù)據(jù)分級(普通、密級)等進一步分區(qū)存儲。電信運營商數(shù)據(jù)湖部署方案示例如圖5所示。

要點3:IT系統(tǒng)數(shù)據(jù)入湖數(shù)據(jù)湖的建設不可能一蹴而就,需要根據(jù)運營商IT系統(tǒng)建設情況分別采用不同策略進行數(shù)據(jù)入湖演進。電信運營商IT系統(tǒng)入湖方案示例如圖6所示。

方式一:數(shù)據(jù)同步方式。適合交易型系統(tǒng)已存在、數(shù)據(jù)模型和主數(shù)據(jù)已全網(wǎng)統(tǒng)一的場景,生產(chǎn)數(shù)據(jù)直接同步寫入原生數(shù)據(jù)區(qū),如BSS、MSS、傳統(tǒng)OSS。方式二:數(shù)據(jù)同步/轉(zhuǎn)換方式。適合交易型系統(tǒng)已存在、數(shù)據(jù)模型和主數(shù)據(jù)并未全網(wǎng)統(tǒng)一的場景,如BSS、MSS、傳統(tǒng)OSS。將非標準生產(chǎn)數(shù)據(jù)寫入原生數(shù)據(jù)區(qū),支撐省內(nèi)整合匯總應用及集團標準的寬表需求;將非標準生產(chǎn)數(shù)據(jù)按全網(wǎng)統(tǒng)一標準轉(zhuǎn)換,提供給全網(wǎng)數(shù)據(jù)整合匯總及數(shù)據(jù)治理使用。方式三:數(shù)據(jù)正本方式。適合交易型系統(tǒng)新建模式,如新一代OSS資源、編排、告警等。正本數(shù)據(jù)寫入生產(chǎn)數(shù)據(jù)區(qū),統(tǒng)一模型和主數(shù)據(jù)標準,基于交易型PaaS平臺完成應用;生產(chǎn)數(shù)據(jù)區(qū)數(shù)據(jù)直接寫入原生數(shù)據(jù)區(qū)。方式四:采集入庫方式。適合網(wǎng)絡監(jiān)控分析型系統(tǒng)新建模式,如新一代OSS的網(wǎng)絡采集數(shù)據(jù)、資源拓撲、深度分組檢測(DPI)數(shù)據(jù)等。數(shù)據(jù)采集文件、流數(shù)據(jù)等暫存在生產(chǎn)數(shù)據(jù)區(qū);寫入原生數(shù)據(jù)區(qū)后,生產(chǎn)數(shù)據(jù)區(qū)不再保留;統(tǒng)一原生數(shù)據(jù)模型和主數(shù)據(jù)標準,基于實時和非實時PaaS平臺完成分析型應用。要點4:數(shù)據(jù)湖數(shù)據(jù)與應用分離數(shù)據(jù)湖通過數(shù)據(jù)服務平臺、數(shù)據(jù)共享平臺及統(tǒng)一數(shù)據(jù)應用環(huán)境按需支持交易類、實時監(jiān)控類、分析類應用。數(shù)據(jù)增、刪、改、查服務統(tǒng)一部署在數(shù)據(jù)服務平臺上,供交易類應用訪問調(diào)用;通過訂閱需要監(jiān)控的數(shù)據(jù),由數(shù)據(jù)共享平臺將數(shù)據(jù)實時分發(fā)給監(jiān)控類應用使用;數(shù)據(jù)的加工整合、分析應用、海量搜索、人工智能等應用均可部署在應用環(huán)境內(nèi),按需動態(tài)加載并臨時存儲數(shù)據(jù),結(jié)果寫回到數(shù)據(jù)湖存儲環(huán)境,以服務方式啟動任務和查詢結(jié)果數(shù)據(jù)。其中,應用環(huán)境公共組件隨著技術的更新不斷疊加,逐漸平臺化共享,暫時無法滿足應用需求的可由應用在統(tǒng)一環(huán)境內(nèi)部署組件及加載數(shù)據(jù)。數(shù)據(jù)湖應用加載數(shù)據(jù)的方式可分為實時增量加載、準實時增量/全量加載、離線批量加載等,數(shù)據(jù)可按需全量或增量短期加載。對于應用和數(shù)據(jù)無法解耦的組件(如Hive、MPP等),按需復制數(shù)據(jù),以空間換數(shù)據(jù)管理和應用的靈活性;對于應用和數(shù)據(jù)可以有效解耦的組件(如Spark等),可以按需動態(tài)、實時加載數(shù)據(jù)。應用組件逐漸由與數(shù)據(jù)緊耦合的組件向與數(shù)據(jù)松耦合的組件演進。數(shù)據(jù)湖采用讀寫分離、應用計算與數(shù)據(jù)存儲分離、關系數(shù)據(jù)與非關系數(shù)據(jù)存儲并存的模式,并提供數(shù)據(jù)存儲節(jié)點分布式部署、服務化訪問及統(tǒng)一數(shù)據(jù)加載、共享及分發(fā)能力,降低數(shù)據(jù)湖數(shù)據(jù)存儲訪問負載,提升數(shù)據(jù)的可用性及數(shù)據(jù)訪問效率。由數(shù)據(jù)湖提供數(shù)據(jù)的統(tǒng)一遷移,包括主從庫的復制、關系庫到非關系庫的數(shù)據(jù)轉(zhuǎn)換等;提供統(tǒng)一的關系和非關系庫數(shù)據(jù)訪問及分布式數(shù)據(jù)路由以及數(shù)據(jù)共享開放和訂閱分發(fā)管理框架,實現(xiàn)高效的數(shù)據(jù)訪問;提供統(tǒng)一的數(shù)據(jù)應用環(huán)境管理,包括配額管理、數(shù)據(jù)訪問權限管理、數(shù)據(jù)回寫節(jié)點分配管理等,獨立部署分析計算類應用,分析計算節(jié)點與數(shù)據(jù)湖數(shù)據(jù)存儲節(jié)點分離;提供統(tǒng)一的分布式服務運行框架,基于服務調(diào)用實現(xiàn)交易類增、刪、改、查應用的數(shù)據(jù)訪問,避免直接操作數(shù)據(jù)。電信運營商數(shù)據(jù)湖應用方案示例如圖7所示。

要點5:數(shù)據(jù)湖數(shù)據(jù)統(tǒng)一管理數(shù)據(jù)湖的實施,需要實現(xiàn)模型和主數(shù)據(jù)標準的動態(tài)維護以及數(shù)據(jù)的集中治理,避免數(shù)據(jù)湖成為數(shù)據(jù)墓地。而數(shù)據(jù)來源眾多,數(shù)據(jù)管理需要依賴于多方的密切合作以及數(shù)據(jù)標準管理、目錄/元數(shù)據(jù)管理、應用/服務管理、質(zhì)量等管理及海量數(shù)據(jù)探索分析等高效的管理工具。電信運營商數(shù)據(jù)湖管理體系示例如圖8所示。

電信運營商數(shù)據(jù)涉及系統(tǒng)眾多、關系復雜,沒有任何一個獨立的團隊能夠通曉所有的數(shù)據(jù)模型和關聯(lián)關系,因此需要企業(yè)數(shù)據(jù)管理團隊與專業(yè)數(shù)據(jù)管理團隊分工合作,共同完成數(shù)據(jù)模型標準/主數(shù)據(jù)的管理及數(shù)據(jù)集中治理。建立橫縱向一體化的數(shù)據(jù)管理體系,明確企業(yè)數(shù)據(jù)管理和原生數(shù)據(jù)部門職責分工,固化數(shù)據(jù)管理流程制度。企業(yè)數(shù)據(jù)管理團隊負責統(tǒng)籌標準和主數(shù)據(jù)管理及數(shù)據(jù)治理工作,負責數(shù)據(jù)建模挖掘和跨專業(yè)數(shù)據(jù)治理協(xié)作,負責為業(yè)務部門和應用開發(fā)者提供數(shù)據(jù)建模和平臺技術支持;專業(yè)數(shù)據(jù)管理團隊負責建立專業(yè)數(shù)據(jù)的模型標準和管理主數(shù)據(jù),識別數(shù)據(jù)問題及跟蹤處理;數(shù)據(jù)湖應用開發(fā)者負責提出數(shù)據(jù)需求,按需整合和構建應用,反饋數(shù)據(jù)問題,評估數(shù)據(jù)變更影響。另外,作為企業(yè)最核心的數(shù)據(jù)資產(chǎn),其全生命周期的安全管理非常重要。需要針對數(shù)據(jù)采集、數(shù)據(jù)存儲(生產(chǎn)數(shù)據(jù)、原生數(shù)據(jù)、整合數(shù)據(jù)、匯總數(shù)據(jù))、數(shù)據(jù)應用、數(shù)據(jù)服務、數(shù)據(jù)分發(fā)共享等環(huán)節(jié)構建端到端的安全管控體系。對涉及用戶行為特征及關鍵信息的敏感數(shù)據(jù)進行統(tǒng)一處理,脫敏后提供給應用使用;不管是敏感數(shù)據(jù)還是非敏感數(shù)據(jù),所有數(shù)據(jù)的直接訪問均在數(shù)據(jù)湖的管理范圍內(nèi)進行,具體措施包括數(shù)據(jù)應用環(huán)境、服務訪問環(huán)境、共享分發(fā)環(huán)境、數(shù)據(jù)存儲環(huán)境統(tǒng)一管控,需要經(jīng)過統(tǒng)一的對象和屬性等的鑒權才能訪問數(shù)據(jù),數(shù)據(jù)不出數(shù)據(jù)湖(即數(shù)據(jù)訪問不出臺),只能使用服務化方式或經(jīng)過鑒權認證的數(shù)據(jù)共享分發(fā)方式進行數(shù)據(jù)訪問。同時需要對大數(shù)據(jù)安全事件具備閉環(huán)管控能力,增強數(shù)據(jù)安全事件快速分析能力,提升安全事件發(fā)生后的應對處置效率。





(部分內(nèi)容來源網(wǎng)絡,如有侵權請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢