彭友們好,我是老彭啊。前兩天群里討論了一個很有意思的話題:1、提問:“為什么數(shù)據(jù)質(zhì)量維度同時包括準確性和一致性,不應(yīng)該是準確性包括一致性嗎,總感覺在中文字面上這兩個詞有重疊的地方”

2、第一眼看見這個問題,感覺這是一道語文題,有點咬文嚼字的感覺,就是問的“準確性”和“一致性”的各是什么意思嘛?3、先看看百度的解釋:
4、再看看DAMA-DMBOK2的解釋:
DAMA-DMBOK2 中文版?P353
DAMA-DMBOK2 中文版?P353
DAMA-DMBOK2 中文版?P3545、以上文字描述恐怕大部分人看完都是不太理解或一臉懵,特別是DAMA-DMBOK2的解釋,畢竟那些文字都是從英文原版書中直譯過來的。6、我的理解:一致性關(guān)注點在數(shù)據(jù)是否合規(guī),即是否負責遵循統(tǒng)一的規(guī)范和是否符合邏輯;而準確性則側(cè)重于關(guān)注數(shù)據(jù)的真實性,是否正確,是否存在異常。7、舉個例子吧,比如某通訊錄表中數(shù)據(jù)如下:
一般人看這行數(shù)據(jù)并沒有問題,但是有經(jīng)驗的人可能可以一樣發(fā)現(xiàn)這行數(shù)據(jù)存在的問題。這行數(shù)據(jù)的“聯(lián)系電話”為“13800138000”,“一致性”是沒問題的,因為符合手機號的格式,也是一個正常的手機號,但是準確性就有問題了,因為眾所周知“13800138000”在早些年是中國移動手機充值卡充值電話,后在2015年10月1日起停止服務(wù)(http://www.chinamobile.com/aboutus/news/pannounce/gx/index_771_771_detail_29736.html),即便是停止服務(wù)了,該號碼也應(yīng)該屬于中國移動內(nèi)部保留號碼,不會向公眾開放選用,所以數(shù)據(jù)中這個值是肯定不正確的,符合”一致性”但有違“準確性”。8、再舉個例子,比如某用戶信息數(shù)據(jù)如下:

以上主要關(guān)注“聯(lián)系電話”和“有效期”兩個字段值。直觀的可以看出,聯(lián)系電話是不準確的,且不符合正常電話號的規(guī)則,除了滿足中國大陸手機號的位數(shù),即“聯(lián)系電話”違反“一致性”和“準確性”,如果要防止此類臟數(shù)據(jù)入庫,可能上游系統(tǒng)需要優(yōu)化聯(lián)系電話的校驗規(guī)則(如選用更通用的正則表達式),不能僅僅是11位數(shù)字就讓通過校驗。再看“有效期”,從挨著的“注冊日期”字段可以分析出,這里的日期類型存儲的值為“yyyyMMdd”格式的字符串,而“有效期”的值“99999999”其實是不符合日期類型取值邏輯的,因為9999年99月99日,年為9999可以,月、日為99明顯不符合邏輯,但是這條數(shù)據(jù)就是對的,因為通過相關(guān)文檔可以了解,有效期默認就是“99999999”,由此看來,它在此處并不違反“一致性”,因為有約定。那為什么說“聯(lián)系電話”符合11位數(shù)字又不算符合“一致性”呢,筆者認為,這應(yīng)該屬于一個常識吧。9、綜上,同一場景下,違反一致性的數(shù)據(jù)一定違反準確性,違反準確性的數(shù)據(jù)不一定違反一致性,但準確性的可解釋性有點復雜,同樣的數(shù)據(jù),在A看來是正確的,而在B看呢,又是錯誤的,公說公有理婆說婆有理。很多時候,數(shù)據(jù)質(zhì)量的相關(guān)維度需要各個組織內(nèi)部提前提煉和定義好,做好基于自己組織的合理解釋,而后再開展各項活動。10、以上,不知您看完本文后,能否區(qū)分開“準確性”和“一致性”呢,如有不妥或不明之處,歡迎留言指正或討論。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)