大
數(shù)據(jù)治理范圍
一、背景概述
1.數(shù)據(jù)治理
由于切入點(diǎn)和側(cè)重點(diǎn),業(yè)內(nèi)給予了不同的見(jiàn)解。
廣泛認(rèn)可標(biāo)準(zhǔn):DMBOK、CO
BIT 5、DGI、和IBM數(shù)據(jù)治理委員會(huì)的定義。
明確數(shù)據(jù)治理的目標(biāo)
理解數(shù)據(jù)治理的職能
把握數(shù)據(jù)治理的核心
數(shù)據(jù)治理遵循過(guò)程和規(guī)范
數(shù)據(jù)治理的本質(zhì):
數(shù)據(jù)治理不是一門(mén)技術(shù),而是邏輯性很強(qiáng)的理論型學(xué)科。
1.1大數(shù)據(jù)治理
Sunil Soares
(1).大數(shù)據(jù)治理的工作就是制定策略
(2).大數(shù)據(jù)必須被商業(yè)化
從四個(gè)方面理解含義
(1).領(lǐng)域
(2).角色
(3).各角色如何參與
(4).大數(shù)據(jù)治理最終目標(biāo):決策
1.2 大數(shù)據(jù)治理框架

大數(shù)據(jù)治理范圍
大數(shù)據(jù)生命周期:數(shù)據(jù)的采集、存儲(chǔ)、整合、呈現(xiàn)和展示、分析和應(yīng)用、歸檔與銷(xiāo)毀的流程。
?
1.3 大數(shù)據(jù)架構(gòu)
1.31 系統(tǒng)架構(gòu)
分層原則(表現(xiàn)、數(shù)據(jù)、業(yè)務(wù))
模塊化原則
設(shè)計(jì)模式和框架的應(yīng)用
1.32 數(shù)據(jù)架構(gòu)
數(shù)據(jù)模型 (數(shù)據(jù)架構(gòu)核心框架模型)
數(shù)據(jù)的價(jià)值鏈分析 (業(yè)務(wù)流程及組件相一致的價(jià)值分析)
數(shù)據(jù)交付與實(shí)現(xiàn)架構(gòu) (數(shù)據(jù)庫(kù)架構(gòu)、數(shù)倉(cāng)、文檔和內(nèi)容架構(gòu),以及元數(shù)據(jù)架構(gòu))
1.33 大數(shù)據(jù)架構(gòu)
數(shù)據(jù)采集、存儲(chǔ)、分析和應(yīng)用功能過(guò)程的虛擬化技術(shù),分布式文件,非關(guān)系型數(shù)據(jù)庫(kù),數(shù)據(jù)資源管理技術(shù)
1.34大數(shù)據(jù)架構(gòu)參考模型
基礎(chǔ)設(shè)施:商用服務(wù)器、可結(jié)合云計(jì)算虛擬化(比如私有云openstack)
非關(guān)系數(shù)據(jù)庫(kù)nosql:類(lèi)表結(jié)構(gòu)數(shù)據(jù)庫(kù)、 文檔數(shù)據(jù)庫(kù)、圖數(shù)據(jù)庫(kù)和鍵-值存儲(chǔ)。
資源管理:一是虛擬化。二是基于Yarn或Mesos的資源管理層。
2.大數(shù)據(jù)管理與分析層
包含:元數(shù)據(jù)、主數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)、大數(shù)據(jù)分析等。
2.1 元數(shù)據(jù)
關(guān)于數(shù)據(jù)的組織、數(shù)據(jù)域及其關(guān)系的信息。(數(shù)據(jù)的數(shù)據(jù),類(lèi)元注解這類(lèi)的解釋?zhuān)?
重點(diǎn):元數(shù)據(jù)的管理。
行業(yè)標(biāo)準(zhǔn):OMG標(biāo)準(zhǔn)、W3C標(biāo)準(zhǔn),空間地理標(biāo)準(zhǔn),非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn),面向領(lǐng)域的元數(shù)據(jù)標(biāo)準(zhǔn)。
國(guó)際元數(shù)據(jù)標(biāo)準(zhǔn):ISO/IEC11179
2.2 數(shù)據(jù)倉(cāng)庫(kù)
2.21 定義:
面向主題的、集成的、隨時(shí)間變化的、相對(duì)穩(wěn)定的(不可更新是歷史數(shù)據(jù)的快照)、支持決策制定過(guò)程的數(shù)據(jù)集合。
2.22 主要功能:
主要有數(shù)據(jù)采集、
數(shù)據(jù)存儲(chǔ)與管理、以及結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及實(shí)時(shí)數(shù)據(jù)管理等功能。
問(wèn):傳統(tǒng)數(shù)據(jù)庫(kù)有數(shù)據(jù)管理么?
答:有的,傳統(tǒng)數(shù)倉(cāng)管理中,DMBS是主流、大數(shù)據(jù)體系中,基于分布式文件的存儲(chǔ)(hdfs或其他的如淘寶、騰訊等自研的)是主流
元數(shù)據(jù)機(jī)制主要支持以下幾類(lèi)功能。
(1)描述數(shù)據(jù)在哪個(gè)數(shù)倉(cāng)中。
(2)定義入倉(cāng)和出倉(cāng)的數(shù)據(jù)。
(3)記錄業(yè)務(wù)事件發(fā)生而抽取的時(shí)間安排。
(4)記錄并檢測(cè)系統(tǒng)數(shù)據(jù)一致性的要求和執(zhí)行情況。
2.23 主數(shù)據(jù)
Mater Data指的是各個(gè)系統(tǒng)間要共享的數(shù)據(jù)。比如將人員組織關(guān)系數(shù)據(jù)標(biāo)準(zhǔn)化,統(tǒng)一管理。
構(gòu)建在ETL之上、因此很多
主數(shù)據(jù)管理平臺(tái)包含(數(shù)據(jù)抽取、數(shù)據(jù)加載、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)復(fù)制和數(shù)據(jù)同步等功能)。
2.24 大數(shù)據(jù)分析
智能決策支持系統(tǒng)DSS
2.3 大數(shù)據(jù)應(yīng)用與服務(wù)層
傳統(tǒng)接口:JDBC、ODBC、WEB接口
3.大數(shù)據(jù)架構(gòu)的實(shí)現(xiàn)
基于hadoop的基礎(chǔ)架構(gòu)
?
ETL數(shù)據(jù):低質(zhì)量數(shù)據(jù)、無(wú)關(guān)數(shù)據(jù)。
Elect抽取數(shù)據(jù)-->從數(shù)據(jù)庫(kù)中抽取
了解數(shù)據(jù)結(jié)構(gòu)、字段含義(對(duì)文檔、定需求)-->數(shù)據(jù)質(zhì)量分析報(bào)告。
(1)抽取模式(數(shù)據(jù)平臺(tái)通過(guò)一定的工具實(shí)現(xiàn)抽取,系統(tǒng)變更后導(dǎo)致失敗,源系統(tǒng)不對(duì)數(shù)據(jù)質(zhì)量負(fù)責(zé),源系統(tǒng)的性能降低問(wèn)題)(2)供數(shù)模式(源系統(tǒng)抽取)
!!!!!數(shù)據(jù)平臺(tái)的項(xiàng)目不能失敗
實(shí)時(shí)數(shù)據(jù)的抽取:
定時(shí)小批量的面向數(shù)據(jù)采集
實(shí)時(shí)業(yè)務(wù)的數(shù)據(jù)發(fā)送:輪詢(xún)或者觸發(fā)方式。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)