提供數據質量管理實現數據全生命周期的質量管理,能根據標準規則可視化配置數據質量檢查策略,通過調度中心實現數據質量的檢查,發現問題數據,將問題數據根據擁有者體系派給相關人員修正,并能根據需要形成數據質量評估報告和問題處理報告等。為減輕對信息系統數據庫影響,數據質量檢查采用數據流檢查技術,數據質量檢查方法及計算運行在引擎中而不是依賴數據庫的SQL。
數據質量工具主要包括:數據質量初步分析、數據質量精度檢查、比對和驗證檢查、檢查結果處理。

質量管理管控體系
1)數據質量初步分析:提供數據質量初步分析能力,方便對給定庫表做數據質量的初步了解。包括全庫初步探測、數據庫表基本信息分析、表基本信息分析的統計信息等分析。全庫初步探測,對庫中所有表做初步探測獲得庫基本信息,每個表初步探測包括表名、主鍵字段數、外鍵字段數、字段數、必填字段數、記錄數、空值率、空值比等。并以表的方式提供。
2)數據質量精度檢查:提供數據質量精度檢查,方便對給定表做精細化的
數據質量分析。提供數據質量檢查服務對數據庫表做指定規則檢查,提供邏輯表達式檢查,提供相似重復記錄檢查,提供復合檢查,提供可視化定義界面,提供數據質量檢查方法接口、相似度檢查方法接口,方便增加數據質量檢查方法。
3)數據質量檢查服務:對數據庫表做指定規則檢查,包括格式檢查、范圍檢查、缺失記錄檢查、相似重復記錄檢查、精度檢查、邏輯表達式檢查、復合規則檢查等。在數據質量檢查服務可視化配置出單字段多規則檢查,也可以配置出多字段同規則檢查,還可以配置出多字段之間的關聯檢查。
4)相似重復記錄檢查:包括完全重復記錄檢查、相似記錄檢查。完全重復記錄檢查可以根據一個字段或者多個字段的比對,得到重復記錄,能可視化配置;相似記錄檢查是指先檢查一個或者多個字段相似度,然后得到記錄相似度,根據記錄相似度的值得到相似記錄,可視化選擇多種字段相似算法和可視化定義記錄相似算法及屬性。
5)比對和驗證檢查:提供比對和驗證功能,對于數據目標和數據源做一致性檢查,發現其差異。主要包括數據庫表的比對、數據文件的比對。對源庫表和目標庫表做一致性比對檢查,包括表結構比對、數據一致性比對,能發現并展示不一樣的結構、不一致的數據(包括增加、修改、減少的數據)對源和目標文件夾下的文件做比對和驗證檢查,能發現并展示不一致的文件,包括增加、修改的文件。支持數據源和數據目標位于不同網段的一致性檢查。
6)檢查結果處理:數據質量檢查服務部署運行完成后,會生成檢查結果,數據質量檢查結果存儲到指定數據庫中,每個數據質量檢查服務的存儲表結構根據選擇的檢查字段、定義的檢查規則自動生成,并提供可視化界面,方便修改信息配置。
7)系統提供問題數據統計:針對每個數據質量檢查服務提供數據質量檢查結果報告,包括異常數據、異常數據檢查的規則描述,并能做問題數據統計、修改情況統計、檢查規則統計。
(部分內容來源網絡,如有侵權請聯系刪除)