在
數據治理中,涉及到了前端業務系統,后端業務數據庫系統再到業務終端的
數據分析,從源頭到終端再回到源頭,形成的一個閉環負反饋系統。同樣地,在數據治理中,我們也需要一套標準化的規范來指導數據的采集、傳輸、儲存以及應用。

數據治理包括數據規劃、
數據采集、數據儲存管理、
數據應用四個方面。根據每一個方面的特點,我們可以將數據治理總結為四個字,即“理”、“采”、“存”、“用”。
01理:梳理業務流程,規劃數據資源
對于企業來說,每天的實時數據都會超過TB級別,需要采集用戶的哪些數據,這么多的數據放在哪里,如何放,以什么樣的方式放?這些問題都是需要事先進行規劃的,需要有一套從無序變為有序的流程,這個過程需要跨部門的協作,包括了前端、后端、數據工程師、數據分析師、項目經理等角色的參與。
02采:ETL采集、去重、脫敏、轉換、關聯、去除異常值
前后端將采集到的數據給到數據部門,數據部門通過ETL工具將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程,目的是將散落和零亂的數據集中存儲起來。
03存:大數據高性能存儲及管理
這么多的業務數據存在哪里?這需要有一高性能的大
數據存儲系統,在這套系統里面將數據進行分門別類放到其對應的庫里面,為后續的管理及使用提供最大的便利。
04用:即時查詢、報表監控、智能分析、模型預測
數據治理的最終目的就是輔助業務進行決策,前面的三個方面都是為最終的查詢、分析、監控做鋪墊。這個階段就是數據分析師的主場,分析師們運用這些標準化的數據可以進行即時的查詢、指標體系和報表體系的建立、業務問題的分析,甚至是模型的預測。
數據治理是指將零散的用戶數據通過采集、傳輸、儲存等一系列標準化的流程變成格式規范、結構統一的數據,并有嚴格和規范的綜合數據管控;對這些標準化的數據進行進一步加工分析成為具有指導意義的業務監控報表、業務監控模型以幫助業務進行輔助決策。
(部分內容來源網絡,如有侵權請聯系刪除)