日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實施部署指南。同時,在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

為什么數(shù)據(jù)治理是臟活、累活?

時間:2022-07-07來源:小一一一瀏覽數(shù):561

架構(gòu)經(jīng)歷多次變遷,切換不完全,需要從Mysql、oracle、hbase至excle表中跨庫、跨實例、跨種類才能獲得有效業(yè)務(wù)數(shù)據(jù)

數(shù)據(jù)治理是一個臟活累活,當時還有點不太理解,為什么數(shù)據(jù)治理就是臟活累活了。剛好今天在逛知乎的時候發(fā)現(xiàn)了相同的觀點,分享出來,希望能幫到大家。

和其他項目不同,數(shù)據(jù)治理是一個成體系的系統(tǒng)級工程,實施過程中需要自上而下企業(yè)全體員工的參與,并且涉及和不同部門管理人員、員工的溝通協(xié)調(diào),還要負責數(shù)據(jù)的全生命周期的治理過程,總體來說,數(shù)據(jù)治理范圍廣、問題多、有深度、有難度,耗時間,確實可以說是臟活累活比較多。

為什么是臟活、累活? 1. 源數(shù)據(jù)

煙囪式開發(fā):

業(yè)務(wù)繁多、數(shù)據(jù)庫多而亂,系統(tǒng)與系統(tǒng)之間錯綜復雜

數(shù)據(jù)庫種類:

架構(gòu)經(jīng)歷多次變遷,切換不完全,需要從Mysql、oracle、hbase至excle表中跨庫、跨實例、跨種類才能獲得有效業(yè)務(wù)數(shù)據(jù)

數(shù)據(jù)結(jié)構(gòu)混亂:

同一字段,類型、命名都不一致

文檔缺失:

無數(shù)據(jù)庫檔或文檔陳舊

2. 變遷

系統(tǒng)版本升級:

每一次升級都只是掩蓋之前的錯誤,數(shù)據(jù)治理要從源頭

人員變更:

梳理過程中的大部分問題最終答案:

“不清楚,原來維護人已離職”

數(shù)據(jù)流轉(zhuǎn):

數(shù)據(jù)從源頭經(jīng)過很多次不規(guī)范的同步

3. 存量

各自為政:

各業(yè)務(wù)部門已有自己的統(tǒng)計邏輯報表,同一指標匯總維度又不一致,梳理、治理、輸出還要盡量不影響已有報表結(jié)果

半途而廢:

前任都知道數(shù)據(jù)治理、統(tǒng)一出口的重要性,但只完成一部分就放棄了。

問題在于“完成的一部分”有人還在用

怎么開始? 1. 方法論

統(tǒng)一定義:

對個性化的數(shù)據(jù)指標統(tǒng)一規(guī)范定義

標準建模

建立數(shù)據(jù)公共層對模型架構(gòu)進行標準規(guī)范設(shè)計和管理

規(guī)范研發(fā):

將建模方法體系穿在整個數(shù)據(jù)研發(fā)流程

工具保障:

通過研發(fā)一系列的工具保障方法體系的落地實施

2. 統(tǒng)一方法策略:統(tǒng)一歸口、統(tǒng)一出口


圖片來源:阿里巴巴 OneData3. 統(tǒng)一業(yè)務(wù)歸口 1.模型

規(guī)范化模型分層、數(shù)據(jù)流向和主題劃分,從而降低研發(fā)成本,增強指標復用性,并提高業(yè)務(wù)的支撐能力。

2.規(guī)范

規(guī)范是數(shù)倉設(shè)的保障。為了避免出現(xiàn)指標重復建設(shè)和數(shù)據(jù)字段難以理解的情況

(1) 詞根詞根是維度和指標管理的基礎(chǔ),劃分為普通詞根與專有詞根,提高詞根的易用性和關(guān)聯(lián)性。

普通詞根:

描述事物的最小單元體

專有詞根:

具備約定成俗或行業(yè)專屬的描述體,如:-USD。

(2) 表命名規(guī)范

通用規(guī)范

表名、字段名采用一個下劃線隔詞根(示例:clienttype->client_type)。

每部分使用小寫英文單詞,屬于通用字段的必須滿足通用字段信息的定義。

表名、字段名需以字母為開頭

表名、字段名最長不超過64個英文字符。

優(yōu)先使用詞根中已有關(guān)鍵字(數(shù)倉標準配置中的詞根管理)

在表名自定義部分禁止采用非標準的縮寫

表命名規(guī)則

表名稱 = 所處分層 + 業(yè)務(wù)主題+ 子主題 + 表含義 + 更新頻率 + [分表:_0、_10]

(3) 指標命名規(guī)范

結(jié)合指標的特性以及詞根管理規(guī)范,將指標進行結(jié)構(gòu)化處理。

A. 基礎(chǔ)指標詞根,即所有指標必須包含以下基礎(chǔ)詞根:

基礎(chǔ)指標詞根 英文全稱 Hive數(shù)據(jù)類型 MySQL數(shù)據(jù)類型 長度 精度 詞根 樣例
數(shù)量 count Bigint Bigint 10 0 cnt
金額類 amout Decimal Decimal 20 4 amt
比率/占比 ratio Decimal Decimal 10 4 ratio 0.9818

B. 日期修飾詞用于修飾業(yè)務(wù)發(fā)生的時間區(qū)間。

日期類型 全稱 詞根 備注
daily d
weekly w
monthy m
季度 quarterly q Q1 ~ Q4

C. 聚合修飾詞,對結(jié)果進行聚集操作。

聚合類型 全稱 詞根 備注
平 均 average avg
周累計 wtd wtd

E. 基礎(chǔ)指標,單一的業(yè)務(wù)修飾詞 + 基礎(chǔ)指標詞根構(gòu)建基礎(chǔ)指標 ,例如:交易金額 - trade_amt

F. 派生指標。多修飾詞+基礎(chǔ)指標詞根構(gòu)建派生指標。派生指標繼承基礎(chǔ)指標的特性,例如:新增門店數(shù)量-new_store_cnt

(4) 清洗規(guī)范

確認了字段命名和指標命名之后,根據(jù)指標與字段的部分特性,我們整理出了整個數(shù)倉可預知的24條清洗規(guī)范:

數(shù)據(jù)類型 數(shù)據(jù)類別 Hive類型 MySQL類型 長度 精度 詞根 格式說明 備注
日期類型 字符日期類 string varchar 10 date YYYY-MM-DD 日期清洗為相應(yīng)的格式
數(shù)據(jù)類型 數(shù)量類 bigint bigint 10 0 cnt 活躍門店
4. 統(tǒng)一數(shù)據(jù)出口

數(shù)倉建設(shè)保證數(shù)據(jù)質(zhì)量以及數(shù)據(jù)的使用,對數(shù)據(jù)資產(chǎn)管理和統(tǒng)一數(shù)據(jù)出口之前:

統(tǒng)一指標管理,保證了指標定義、計算口徑、數(shù)據(jù)來源的一致性

統(tǒng)一維度管理,保證了維度定義、維度值的一致性

統(tǒng)一數(shù)據(jù)出口,實現(xiàn)了維度和指標元數(shù)據(jù)信息的唯一出口,維值和指標數(shù)據(jù)的唯一出口

5. 數(shù)據(jù)資產(chǎn)沉淀 圖片來源:阿里巴巴 OneData

詞根、命名歸檔

指標定義說明、指標樹歸檔

維度、維度樹、數(shù)據(jù)類型

計算邏輯統(tǒng)一,如:

利潤、成本等形成標準計算公式

6. 流程改善 建立運維監(jiān)控體系。開發(fā)流程(僅包含數(shù)據(jù)模型及 ETL ),關(guān)鍵節(jié)點維度、指標及計算邏輯確定 開發(fā)流程

7. 標準化規(guī)范化數(shù)據(jù)流向

避免大量的煙囪式開發(fā)、重復生成明細表或輕度匯總表、分層引用等不規(guī)范性及數(shù)據(jù)鏈路混亂

標準化數(shù)據(jù)流向圖

標準的數(shù)據(jù)流向進行開發(fā):

即ODS–>DWD–>DWS–>APP 或 ODS–>DWD–>DWM–>APP

新業(yè)務(wù)數(shù)據(jù)流:

遵循ODS->DWD->APP或者ODS->DWD->DWS->APP兩個模型數(shù)據(jù)流


(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢