說(shuō)到
數(shù)據(jù)質(zhì)量問(wèn)題的原因,做過(guò)
BI或數(shù)倉(cāng)項(xiàng)目的小伙伴肯定都知道,這是一個(gè)業(yè)務(wù)和技術(shù)經(jīng)常扯來(lái)扯去、互相推諉的問(wèn)題。在很多情況下,企業(yè)都會(huì)把數(shù)據(jù)質(zhì)量問(wèn)題推給技術(shù)部門(mén),讓技術(shù)部門(mén)去查找和處理。但是企業(yè)的數(shù)據(jù)質(zhì)量問(wèn)題真的都是技術(shù)引起的嗎,技術(shù)部門(mén)人一定會(huì)說(shuō):“這個(gè)鍋我不背!”
其實(shí),影響數(shù)據(jù)質(zhì)量的因素主要就技術(shù)、業(yè)務(wù)、管理三個(gè)方面,下面我們就來(lái)從這三方面分析下產(chǎn)生數(shù)據(jù)質(zhì)量問(wèn)題都有哪些原因。
技術(shù)方面
數(shù)據(jù)模型設(shè)計(jì)的質(zhì)量問(wèn)題,例如:數(shù)據(jù)庫(kù)表結(jié)構(gòu)、數(shù)據(jù)庫(kù)約束條件、數(shù)據(jù)校驗(yàn)規(guī)則的設(shè)計(jì)開(kāi)發(fā)不合理,造成數(shù)據(jù)錄入無(wú)法校驗(yàn)或校驗(yàn)不當(dāng),引起數(shù)據(jù)重復(fù)、不完整、不準(zhǔn)確。
數(shù)據(jù)源存在數(shù)據(jù)質(zhì)量問(wèn)題,例如:有些數(shù)據(jù)是從生產(chǎn)系統(tǒng)采集過(guò)來(lái)的,在生產(chǎn)系統(tǒng)中這些數(shù)據(jù)就存在重復(fù)、不完整、不準(zhǔn)確等問(wèn)題,而采集過(guò)程有沒(méi)有對(duì)這些問(wèn)題做清洗處理,這種情況也比較常見(jiàn)。
數(shù)據(jù)采集過(guò)程質(zhì)量問(wèn)題, 例如:采集點(diǎn)、采集頻率、采集內(nèi)容、映射關(guān)系等采集參數(shù)和流程設(shè)置的不正確,數(shù)據(jù)采集接口效率低,導(dǎo)致的數(shù)據(jù)采集失敗、數(shù)據(jù)丟失、數(shù)據(jù)映射和轉(zhuǎn)換失敗。
數(shù)據(jù)傳輸過(guò)程的問(wèn)題,例如:數(shù)據(jù)接口本身存在問(wèn)題、數(shù)據(jù)接口參數(shù)配置錯(cuò)誤、網(wǎng)絡(luò)不可靠等都會(huì)造成數(shù)據(jù)傳輸過(guò)程中的發(fā)生數(shù)據(jù)質(zhì)量問(wèn)題。
數(shù)據(jù)裝載過(guò)程的問(wèn)題,例如:
數(shù)據(jù)清洗規(guī)則、數(shù)據(jù)轉(zhuǎn)換規(guī)則、數(shù)據(jù)裝載規(guī)則配置有問(wèn)題。
數(shù)據(jù)存儲(chǔ)的質(zhì)量問(wèn)題,例如:數(shù)據(jù)存儲(chǔ)設(shè)計(jì)不合理,數(shù)據(jù)的存儲(chǔ)能力有限,人為后臺(tái)調(diào)整數(shù)據(jù),引起的數(shù)據(jù)丟失、數(shù)據(jù)無(wú)效、數(shù)據(jù)失真、記錄重復(fù)。
業(yè)務(wù)系統(tǒng)各自為政,煙囪式建設(shè),系統(tǒng)之間的數(shù)據(jù)不一致問(wèn)題嚴(yán)重。
業(yè)務(wù)方面
業(yè)務(wù)需求不清晰,例如:數(shù)據(jù)的業(yè)務(wù)描述、業(yè)務(wù)規(guī)則不清晰,導(dǎo)致技術(shù)無(wú)法構(gòu)建出合理、正確的數(shù)據(jù)模型。
業(yè)務(wù)需求的變更,這個(gè)問(wèn)題其實(shí)是對(duì)數(shù)據(jù)質(zhì)量影響非常大的,需求一變,數(shù)據(jù)模型設(shè)計(jì)、數(shù)據(jù)錄入、數(shù)據(jù)采集、數(shù)據(jù)傳輸、數(shù)據(jù)裝載、數(shù)據(jù)存儲(chǔ)等環(huán)節(jié)都會(huì)受到影響,稍有不慎就會(huì)導(dǎo)致數(shù)據(jù)質(zhì)量問(wèn)題的發(fā)生。
業(yè)務(wù)端數(shù)據(jù)輸入不規(guī)范,常見(jiàn)的數(shù)據(jù)錄入問(wèn)題,如:大小寫(xiě)、全半角、特殊字符等一不小心就會(huì)錄錯(cuò)。人工錄入的數(shù)據(jù)質(zhì)量與錄數(shù)據(jù)的業(yè)務(wù)人員密切相關(guān),錄數(shù)據(jù)的人工作嚴(yán)謹(jǐn)、認(rèn)真,數(shù)據(jù)質(zhì)量就相對(duì)較好,反之就較差。
數(shù)據(jù)作假,對(duì),你沒(méi)看錯(cuò),就是數(shù)據(jù)作假!操作人員為了提高或降低考核指標(biāo),對(duì)一些數(shù)據(jù)進(jìn)行處理,使得數(shù)據(jù)真實(shí)性無(wú)法保證。
管理方面
認(rèn)知問(wèn)題。企業(yè)管理缺乏數(shù)據(jù)思維,沒(méi)有認(rèn)識(shí)到數(shù)據(jù)質(zhì)量的重要性,重系統(tǒng)而輕數(shù)據(jù),認(rèn)為系統(tǒng)是萬(wàn)能的,數(shù)據(jù)質(zhì)量差些也沒(méi)關(guān)系。
沒(méi)有明確數(shù)據(jù)歸口管理部門(mén)或崗位,缺乏數(shù)據(jù)認(rèn)責(zé)機(jī)制,出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題找不到負(fù)責(zé)人。
缺乏數(shù)據(jù)規(guī)劃,沒(méi)有明確的數(shù)據(jù)質(zhì)量目標(biāo),沒(méi)有制定數(shù)據(jù)質(zhì)量相關(guān)的政策和制度。
數(shù)據(jù)輸入規(guī)范不統(tǒng)一,不同的業(yè)務(wù)部門(mén)、不同的時(shí)間、甚至在處理相同業(yè)務(wù)的時(shí)候,由于數(shù)據(jù)輸入規(guī)范不同,造成數(shù)據(jù)沖突或矛盾。
缺乏有效的數(shù)據(jù)質(zhì)量問(wèn)題處理機(jī)制,數(shù)據(jù)質(zhì)量問(wèn)題從發(fā)現(xiàn)、指派、處理、優(yōu)化沒(méi)有一個(gè)統(tǒng)一的流程和制度支撐,數(shù)據(jù)質(zhì)量問(wèn)題無(wú)法閉環(huán)。
缺乏有效的數(shù)據(jù)管控機(jī)制,對(duì)歷史數(shù)據(jù)質(zhì)量檢查、新增數(shù)據(jù)質(zhì)量校驗(yàn)沒(méi)有明確和有效的控制措施,出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題無(wú)法考核。
小結(jié):影響數(shù)據(jù)質(zhì)量的因素,可以總結(jié)為兩類(lèi),客觀因素和主觀因素。客觀因素:在數(shù)據(jù)各環(huán)節(jié)流轉(zhuǎn)中,由于系統(tǒng)異常和流程設(shè)置不當(dāng)?shù)纫蛩兀瑥亩鸬臄?shù)據(jù)質(zhì)量問(wèn)題。主觀因素:在數(shù)據(jù)各環(huán)節(jié)處理中,由于人員素質(zhì)低和管理缺陷等因素,從而操作不當(dāng)而引起的數(shù)據(jù)質(zhì)量問(wèn)題。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)