常見(jiàn)的數(shù)據(jù)質(zhì)量問(wèn)題包括
1、數(shù)據(jù)無(wú)法匹配
2、數(shù)據(jù)不可識(shí)別
3、數(shù)據(jù)不一致
4、數(shù)據(jù)沉余重復(fù)
5、實(shí)效性不強(qiáng)
6、精度不夠
數(shù)據(jù)質(zhì)量管理的目標(biāo)
通過(guò)
數(shù)據(jù)分析、數(shù)據(jù)評(píng)估、
數(shù)據(jù)清洗、數(shù)據(jù)監(jiān)控、錯(cuò)誤預(yù)警等內(nèi)容,解決數(shù)據(jù)質(zhì)量問(wèn)題,使數(shù)據(jù)的質(zhì)量得以改善,使其滿足數(shù)據(jù)需求方對(duì)數(shù)據(jù)質(zhì)量的規(guī)則要求。
數(shù)據(jù)質(zhì)量評(píng)估包括但不止以下6個(gè)方面
完整性 Completeness:度量哪些數(shù)據(jù)丟失了或者哪些數(shù)據(jù)不可用。
規(guī)范性 Conformity:度量哪些數(shù)據(jù)未按統(tǒng)一格式存儲(chǔ)。
一致性 Consistency:度量哪些數(shù)據(jù)的值在信息含義上是沖突的。
準(zhǔn)確性 Accuracy:度量哪些數(shù)據(jù)和信息是不正確的,或者數(shù)據(jù)是超期的。
唯一性 Uniqueness:度量哪些數(shù)據(jù)是重復(fù)數(shù)據(jù)或者數(shù)據(jù)的哪些屬性是重復(fù)的。
關(guān)聯(lián)性 Integration:度量哪些關(guān)聯(lián)的數(shù)據(jù)缺失或者未建立索引。
數(shù)據(jù)質(zhì)量評(píng)估模型
要素分別為:基礎(chǔ)模型、數(shù)據(jù)質(zhì)量定義模型、
數(shù)據(jù)質(zhì)量控制模型、數(shù)據(jù)質(zhì)量評(píng)價(jià)模型、數(shù)據(jù)質(zhì)量輔助模型。
1.基礎(chǔ)模型。
其他模型必須以基礎(chǔ)模型中的計(jì)劃和標(biāo)準(zhǔn)為依據(jù)。基礎(chǔ)模型主要是映射、定義
數(shù)據(jù)采集標(biāo)準(zhǔn),上載分單位的采集計(jì)劃,同時(shí)納入了約束規(guī)則定義規(guī)范、控制規(guī)則定義規(guī)范、模板定義規(guī)范。
數(shù)據(jù)標(biāo)準(zhǔn):分兩部分,一部分是直接映射應(yīng)用中的標(biāo)準(zhǔn),例如源數(shù)據(jù)庫(kù)標(biāo)準(zhǔn);另一部分是針對(duì)新增應(yīng)用庫(kù)和項(xiàng)目庫(kù)標(biāo)準(zhǔn)的定義規(guī)范,包括代碼定義標(biāo)準(zhǔn)、數(shù)據(jù)項(xiàng)定義標(biāo)準(zhǔn)(例如是取英文還是漢語(yǔ)拼音,取幾個(gè)字符)、值域定義標(biāo)準(zhǔn)等等新增表準(zhǔn)的建立規(guī)范;
采集計(jì)劃:采集單位的每月上載的日度、月度、年度的采集計(jì)劃;
約束規(guī)則定義規(guī)范:主要描述質(zhì)量定義模型中的語(yǔ)法構(gòu)成;
控制規(guī)則定義規(guī)范:針對(duì)服務(wù)器負(fù)載和采集表的及時(shí)性,要求建立的后臺(tái)執(zhí)行過(guò)程的控制方式的使用說(shuō)明;
2.數(shù)據(jù)質(zhì)量定義模型。
以基礎(chǔ)模型為前提對(duì)數(shù)據(jù)質(zhì)量的統(tǒng)一規(guī)范的定義,是
數(shù)據(jù)質(zhì)量分析評(píng)價(jià)的依據(jù)和基礎(chǔ)。數(shù)據(jù)質(zhì)量定義模型可以使用質(zhì)量特性描述。數(shù)據(jù)質(zhì)量特性歸納為數(shù)據(jù)的一致性、數(shù)據(jù)的準(zhǔn)確性、數(shù)據(jù)的完整性、數(shù)據(jù)的及時(shí)性4個(gè)關(guān)鍵特性。
(1)一致性的量化評(píng)價(jià)指標(biāo):字段一致率、表間字段一致率、表間記錄一致率。
(2)準(zhǔn)確性的量化評(píng)價(jià)指標(biāo):準(zhǔn)確率、差錯(cuò)率、問(wèn)題字段個(gè)數(shù)、問(wèn)題記錄覆蓋率
(3)及時(shí)性的量化評(píng)價(jià)指標(biāo):采集項(xiàng)目及時(shí)率;單位入庫(kù)及時(shí)率
(4)完整性的量化評(píng)價(jià)指標(biāo):字段缺失數(shù)、缺失記錄覆蓋率、計(jì)劃完成率。
3.數(shù)據(jù)質(zhì)量控制模型。
數(shù)據(jù)質(zhì)量控制模型以數(shù)據(jù)質(zhì)量定義模型為基礎(chǔ),按照定義的檢查范圍和時(shí)間以自動(dòng)或手工方式完成對(duì)數(shù)據(jù)質(zhì)量的檢查工作。在質(zhì)量控制過(guò)程中違反了數(shù)據(jù)質(zhì)量定義的,視為數(shù)據(jù)質(zhì)量問(wèn)題,數(shù)據(jù)質(zhì)量問(wèn)題直接通過(guò)數(shù)據(jù)質(zhì)量的關(guān)鍵特性和指標(biāo)反映出來(lái)。數(shù)據(jù)質(zhì)量控制模型的控制內(nèi)容表現(xiàn)在:對(duì)數(shù)據(jù)檢查對(duì)象、數(shù)據(jù)檢查頻度、數(shù)據(jù)檢查時(shí)間、數(shù)據(jù)檢查方式等方面進(jìn)行控制。
(1)數(shù)據(jù)檢查對(duì)象:是指根據(jù)采集計(jì)劃設(shè)定需要檢查的用戶、專業(yè)數(shù)據(jù)表、數(shù)據(jù)庫(kù)實(shí)體。
(2)數(shù)據(jù)檢查頻度;是指根據(jù)數(shù)據(jù)表的采集計(jì)劃和實(shí)際發(fā)生的頻度,設(shè)定存儲(chǔ)過(guò)程的檢查執(zhí)行頻率。
(3)數(shù)據(jù)檢查時(shí)間:是指根據(jù)每日生產(chǎn)應(yīng)用的密集時(shí)間以及數(shù)據(jù)發(fā)生到采集入庫(kù)的密集時(shí)間,綜合設(shè)定一個(gè)檢查開(kāi)始執(zhí)行的時(shí)刻。
(4)數(shù)據(jù)檢查方式:是指執(zhí)行檢查過(guò)程的方式可以由后臺(tái)過(guò)程自動(dòng)控制,每間隔2小時(shí)自動(dòng)檢查一次;也可以由人工干預(yù)手動(dòng)檢查,任意時(shí)刻都可以執(zhí)行檢查(當(dāng)然盡量選擇數(shù)據(jù)庫(kù)流量比較低的時(shí)候)。
4.數(shù)據(jù)質(zhì)量評(píng)價(jià)模型。
數(shù)據(jù)質(zhì)量評(píng)價(jià)模型,是以數(shù)據(jù)質(zhì)量定義模型為依據(jù),由數(shù)據(jù)質(zhì)量控制模型操控執(zhí)行,根據(jù)反饋的質(zhì)量檢查結(jié)果表,評(píng)議出數(shù)據(jù)質(zhì)量的關(guān)鍵指標(biāo),實(shí)現(xiàn)對(duì)數(shù)據(jù)質(zhì)量的量化診斷和評(píng)價(jià)。
數(shù)據(jù)質(zhì)量分析評(píng)價(jià)模型功能核心是,通過(guò)對(duì)基礎(chǔ)模型中的采集計(jì)劃和質(zhì)量定義模型中的約束規(guī)則的處理,由控制模型調(diào)用可以實(shí)現(xiàn)檢查分析的后臺(tái)存儲(chǔ)過(guò)程在實(shí)體庫(kù)中執(zhí)行檢查,形成查詢結(jié)果,再由分析程序進(jìn)行分析、計(jì)算、分類、匯總,生成反映采集計(jì)劃完成情況和數(shù)據(jù)質(zhì)量量化指標(biāo)的結(jié)果,存儲(chǔ)到分析結(jié)果表中,從前臺(tái)調(diào)用這個(gè)分析結(jié)果表,就可以生成一份詳盡的反映數(shù)據(jù)質(zhì)量問(wèn)題各類量化指標(biāo)的數(shù)據(jù)質(zhì)量分析評(píng)估報(bào)告,展現(xiàn)所評(píng)估實(shí)體庫(kù)的數(shù)據(jù)入庫(kù)的及時(shí)率、數(shù)據(jù)上報(bào)的完整性、數(shù)據(jù)采集的一致性、數(shù)據(jù)入庫(kù)的準(zhǔn)確率。
5.數(shù)據(jù)質(zhì)量輔助管理模型
數(shù)據(jù)質(zhì)量輔助管理包括報(bào)告模版管理、權(quán)限管理、數(shù)據(jù)庫(kù)資源占用情況等等。
下面介紹一款
數(shù)據(jù)質(zhì)量管理平臺(tái)來(lái)解決數(shù)據(jù)質(zhì)量問(wèn)題
EsDataClean數(shù)據(jù)質(zhì)量管理平臺(tái)是億信華辰自主研發(fā)的數(shù)據(jù)質(zhì)量管理平臺(tái),提供了業(yè)界領(lǐng)先的質(zhì)量規(guī)則管理方法、質(zhì)量評(píng)估方法、零編碼質(zhì)檢規(guī)則、跨數(shù)據(jù)源比對(duì)、質(zhì)量分析報(bào)告、數(shù)據(jù)質(zhì)量整改、質(zhì)量績(jī)效評(píng)估等主要功能,以數(shù)據(jù)標(biāo)準(zhǔn)為數(shù)據(jù)檢核依據(jù),以元數(shù)據(jù)為數(shù)據(jù)檢核對(duì)象,通過(guò)向?qū)Щ⒖梢暬群?jiǎn)易操作手段,將質(zhì)量評(píng)估、質(zhì)量檢核、質(zhì)量整改與質(zhì)量報(bào)告等工作環(huán)節(jié)進(jìn)行流程整合,形成完整的數(shù)據(jù)質(zhì)量管理閉環(huán)。

億信數(shù)據(jù)質(zhì)量管理平臺(tái)從找到問(wèn)題數(shù)據(jù)開(kāi)始,控制數(shù)據(jù)質(zhì)量,貫徹始終,全面提升數(shù)據(jù)的完整性、規(guī)范性、及時(shí)性、一致性,減少因數(shù)據(jù)不可靠導(dǎo)致的決策偏差和損失。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)