日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

首頁 行業(yè)百科 如何進行數(shù)據(jù)清洗整合?

如何進行數(shù)據(jù)清洗整合?

|億信華辰大數(shù)據(jù)知識庫2022-04-29

如何進行數(shù)據(jù)清洗整合?

當與各種數(shù)據(jù)打交道的時候,通常會發(fā)現(xiàn),數(shù)據(jù)本身真的不是那么友好。在分析業(yè)務(wù)狀況時,儲存業(yè)務(wù)數(shù)據(jù)的表,與儲存想要分析的角度表,很可能不會直接關(guān)聯(lián),而是需要通過多層關(guān)聯(lián)來達到,這為分析增加了很大的復(fù)雜度

當與各種數(shù)據(jù)打交道的時候,通常會發(fā)現(xiàn),數(shù)據(jù)本身真的不是那么友好。在分析業(yè)務(wù)狀況時,儲存業(yè)務(wù)數(shù)據(jù)的表,與儲存想要分析的角度表,很可能不會直接關(guān)聯(lián),而是需要通過多層關(guān)聯(lián)來達到,這為分析增加了很大的復(fù)雜度,同時因為業(yè)務(wù)數(shù)據(jù)庫會接受大量用戶的輸入,如果業(yè)務(wù)系統(tǒng)沒有做好足夠的數(shù)據(jù)校驗,就會產(chǎn)生一些錯誤數(shù)據(jù),比如不合法的身份證號,或者不應(yīng)存在的Null值,空字符串等。所以,數(shù)據(jù)清洗整合是整個數(shù)據(jù)分析過程中不可缺少的一個環(huán)節(jié),其結(jié)果質(zhì)量直接關(guān)系到模型效果和最終結(jié)論。
一、什么是數(shù)據(jù)清洗
數(shù)據(jù)清洗是指對“臟”數(shù)據(jù)進行對應(yīng)方式的處理,臟在這里意味著數(shù)據(jù)的質(zhì)量不夠好,會掩蓋數(shù)據(jù)的價值,更會對其后的數(shù)據(jù)分析帶來不同程度的影響。在實際操作中,數(shù)據(jù)清洗通常會占據(jù)分析過程的50%—80%的時間。其目的就是從以上大量的、結(jié)構(gòu)復(fù)雜、雜亂無章、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對解決問題有價值、有意義的數(shù)據(jù)和數(shù)據(jù)結(jié)構(gòu)。清洗后、保存下來真正有價值、有條理的數(shù)據(jù),為后面做數(shù)據(jù)分析減少分析障礙。
二、如何進行數(shù)據(jù)清洗
1、缺失值清洗
1)確定缺失值范圍:對每個字段都計算其缺失值比例,然后按照缺失比例和字段重要性,分別制定策略;
2)去除不需要的字段;
3)填充缺失內(nèi)容:以同一指標的計算結(jié)果(均值、中位數(shù)、眾數(shù)等)填充缺失值;
以不同指標的計算結(jié)果填充缺失值;以業(yè)務(wù)知識或經(jīng)驗推測填充缺失值;
4)重新取數(shù):如果某些指標非常重要又缺失率高,那就需要和取數(shù)人員或業(yè)務(wù)人員了解,是否有其他渠道可以取到相關(guān)數(shù)據(jù)。
2、格式內(nèi)容清洗
如果數(shù)據(jù)是由系統(tǒng)日志而來,那么通常在格式和內(nèi)容方面,會與元數(shù)據(jù)的描述一致。而如果數(shù)據(jù)是由人工收集或用戶填寫而來,則有很大可能性在格式和內(nèi)容上存在一些問題:內(nèi)容中有不該存在的字符;內(nèi)容與該字段應(yīng)有內(nèi)容不符;時間、日期、數(shù)值、全半角等顯示格式不一致。
3、邏輯錯誤清洗
這部分的工作是去掉一些使用簡單邏輯推理就可以直接發(fā)現(xiàn)問題的數(shù)據(jù),防止分析結(jié)果走偏。
1)去重:去除重復(fù)數(shù)據(jù);
2)去除不合理值:對于不合理的值,要么刪掉,要么按缺失值處理;
3)修正矛盾內(nèi)容:有些字段是可以互相驗證的,需要根據(jù)字段的數(shù)據(jù)來源,來判定哪個字段提供的信息更為可靠,去除或重構(gòu)不可靠的字段。
4、非需求數(shù)據(jù)清洗
簡而言之,就是把不要的字段刪了。但是在實際操作中,如果數(shù)據(jù)量沒有大到不刪字段就沒辦法處理的程度,那么能不刪的字段盡量不刪。
5、關(guān)聯(lián)性驗證

如果你的數(shù)據(jù)有多個來源,那么有必要進行關(guān)聯(lián)性驗證。例如,你有汽車的線下購買信息,也有電話客服問卷信息,兩者通過姓名和手機號關(guān)聯(lián),那么要看一下,同一個人線下登記的車輛信息和線上問卷問出來的車輛信息是不是同一輛,如果不是(別笑,業(yè)務(wù)流程設(shè)計不好是有可能出現(xiàn)這種問題的!),那么需要調(diào)整或去除數(shù)據(jù)。

三、好用的數(shù)據(jù)清洗工具推薦
睿治數(shù)據(jù)治理平臺融合數(shù)據(jù)集成、數(shù)據(jù)交換、實時計算存儲、元數(shù)據(jù)管理、數(shù)據(jù)標準管理、數(shù)據(jù)質(zhì)量管理、主數(shù)據(jù)管理、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)安全管理、數(shù)據(jù)生命周期管理十大產(chǎn)品模塊,打通數(shù)據(jù)治理各個環(huán)節(jié),十大產(chǎn)品模塊可獨立或任意組合使用,快速滿足政府、企業(yè)各類不同的數(shù)據(jù)治理場景。
其中,數(shù)據(jù)集成管理可實現(xiàn)跨部門數(shù)據(jù)的傳輸、加載、清洗、轉(zhuǎn)換和整合,支持自定義調(diào)度和圖形化監(jiān)控,實現(xiàn)統(tǒng)一調(diào)度、統(tǒng)一監(jiān)控,滿足運維可視化需求,提高運維管理工作效率。
認為本內(nèi)容有幫助
0
您可能需要的數(shù)據(jù)產(chǎn)品
億信華辰助力政企數(shù)字化轉(zhuǎn)型
customer

在線咨詢

在線咨詢

點擊進入在線咨詢