目前,越來越多的應用和服務都基于數據而建立,數據的應用也日趨繁茂,數據的重要性不言而喻。
數據質量是一切數據驅動決策的前提,也是
數據分析和數據挖掘結論有效性和準確性的基礎。因此,確保數據可用性與數據質量是企業不可忽略的重要環節。
一、數據質量的影響因素
數據種類(Variety):數據類型的多樣性;
數據容量(Volume):數據的大小決定所考慮的數據的價值的和潛在的信息;
數據可變性(Variability):妨礙了處理和有效地管理數據的過程;
數據速度(Velocity):指獲得數據的速度;
數據復雜性(Complexity):數據量巨大,來源多渠道。
數據真實性(Veracity):數據的質量;
二、數據質量如何監控

1、數據對賬
離線數據對賬方法有很多,比如可以和業務庫來對比;而針對實時數據,特別是Kafka數據落地,必須要有一個監控機制來知道數據落地情況。
2、性能監控
性能監控即數據可用性監控,包含兩個方面:
數據讀寫影響,比如 es,在寫入數據的時候會影響讀數據,需要即時監控,并做相應調整。
查詢性能,比如es的某個索引,在不同時間段的查詢響應速度,還有hive、kylin、presto的查詢,可以通過任務監控來觀察。
3、日常監控
日常監控中最重要的就是數據落地檢查,常見監控內容如下:
數據掉0監控:數據量閾值監控,少于某個量就告警
重復數據監控:監控是否存在重復數據。
數據同比環比監控:環比監控指主要是對比很短時間內漲幅程度,一般是用在月、日,不過由于行業差異,比如旅游,會受到淡旺季影響,需要用到年;同比監控一般用在相鄰兩年,相同時間段內,查看漲幅程度,一般用在兩年相同月份;
關鍵指標監控:檢查數據關鍵指標或屬性值是否有異常,然后及時做出反應
數據落地監控:實時監控數據落地,確保數據質量的完整性、準確性、一致性和及時性。
5、多數據源監控
目前大數據場景比較復雜,引入了非常多的開源組件,而且還會有新的組件持續地引入,因此要考慮到對不同組件的數據監控。包括:ES、Kylin 、Hive、Mysql、Redis等
4、告警
通過告警報表系統來展示數據預警情況,特別是對數據量趨勢內容的監控,需要用到可視化的對比。