跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(CRISP-DM)把完整的數(shù)據(jù)挖掘過程定義為六個標(biāo)準(zhǔn)階段,分別是業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、創(chuàng)建模型、模型評估和模型應(yīng)用。

其中,數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘流程中的一個重要環(huán)節(jié)。具體工作主要包括清理、規(guī)約、轉(zhuǎn)換、抽樣等一系列的預(yù)處理工作,提高數(shù)據(jù)的質(zhì)量,使得數(shù)據(jù)挖掘算法可以更高效的執(zhí)行以及獲得更加有效的結(jié)果。
為什么要預(yù)處理數(shù)據(jù)
有些小伙伴可能會問,我的數(shù)據(jù)有現(xiàn)成的,為什么還要預(yù)處理數(shù)據(jù),不能直接拿來進行數(shù)據(jù)挖掘嗎?回答是,當(dāng)然能。但是,現(xiàn)實往往是殘酷的!
1.現(xiàn)實世界的數(shù)據(jù)是骯臟的(不完整,含噪聲,不一致)。

2.沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果。

3.原始數(shù)據(jù)中存在很多問題,
不一致 : 數(shù)據(jù)內(nèi)部出現(xiàn)不一致情況
不正確:輸入的數(shù)據(jù)不符合字段的有效值
不準(zhǔn)確:數(shù)據(jù)可能是正確的,但是不準(zhǔn)確
重復(fù)數(shù)據(jù):重復(fù)輸入的數(shù)據(jù)
不完整 :感興趣的屬性值沒有
含噪聲:數(shù)據(jù)中存在著錯誤、或異常(偏離期望值)的數(shù)據(jù)
高維度:存在信息冗余的多個屬性。
違反業(yè)務(wù)規(guī)則: 例如起始日期大于截止日期等情況

有哪些數(shù)據(jù)預(yù)處理方法
常用的數(shù)據(jù)預(yù)處理方法可以歸納為四個方面。
數(shù)據(jù)清理
缺失值處理:數(shù)據(jù)中的缺失值會影響挖掘的正常進行,造成挖掘結(jié)果不正確。對較大比例的缺失值可以進行忽略處理,少量的缺失值可以采用最大、最小、均值、中位數(shù)、自定義表達式等方式進行填充。
數(shù)據(jù)集成與過濾:用于去除冗余數(shù)據(jù)、進行重復(fù)值檢測、編碼一致性、數(shù)據(jù)一致性等。
數(shù)據(jù)規(guī)約
維規(guī)約:減少所考慮的隨機變量或?qū)傩缘膫€數(shù)(主成分分析PCA)。
例如,一個汽車數(shù)據(jù)的樣本,里面既有“千米/每小時”的速度特征,也有“英里/小時”的速度特征,顯然有一個多余,需要消除冗余的特征。
數(shù)量規(guī)約和壓縮:用替代的、較小的數(shù)據(jù)表示形式替換原數(shù)據(jù)。
例如,不同年份的數(shù)據(jù)特征基本一樣,可以只保留一個年份的數(shù)據(jù)進行挖掘。
數(shù)據(jù)變換
屬性構(gòu)造:從給定屬性構(gòu)造新的屬性,或者將屬性類別進行變換,輔助數(shù)據(jù)挖掘過程。
例如根據(jù)月收入和獎金等屬性可以構(gòu)造出年收入,便于用來預(yù)測年收入。
歸一化:將不同度量方式的數(shù)據(jù)放在同一個度量體系中進行比較。
比如通過min-max標(biāo)準(zhǔn)化方法來求某個字段A的新值,然后進行比較分析。歸一化是為了后面數(shù)據(jù)挖掘算法的方便,保正程序運行時收斂加快,提高挖掘的精度。
標(biāo)準(zhǔn)化:數(shù)據(jù)的標(biāo)準(zhǔn)化是將數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。可以通過z-score方法對原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進行數(shù)據(jù)的標(biāo)準(zhǔn)化,同時不改變原始數(shù)據(jù)的分布。在某些比較和評價的指標(biāo)處理中經(jīng)常會用到,去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或量級的指標(biāo)能夠進行比較和加權(quán)。
離散化:也叫分箱,將數(shù)值屬性的原始值用區(qū)間標(biāo)簽或概念標(biāo)簽進行替換。
如年收入數(shù)據(jù),可以通過2-3W、3-5W等區(qū)間符號標(biāo)識,也可以用高收入、中等收入、低收入進行離散化。
數(shù)據(jù)抽樣
通過數(shù)據(jù)抽樣來減少用于挖掘的數(shù)據(jù)量或者從一個大型數(shù)據(jù)集中提取大小固定的樣本。
隨機抽樣:按一定比例或者固定行數(shù)從總體中隨機的抽取樣本。
分層抽樣:將總體數(shù)據(jù)分成若干組或者分層,然后從分層中按比例或者固定個數(shù)抽取樣本。如果數(shù)據(jù)按層分布的特征比較明顯,可以采用分層抽樣,減少隨機抽樣造成的信息丟失。
如何進行數(shù)據(jù)預(yù)處理
進行數(shù)據(jù)預(yù)處理的一般流程為:

我們在網(wǎng)上找到了泰坦尼克乘客數(shù)據(jù)集(該數(shù)據(jù)集被評為五大最適合數(shù)據(jù)分析練手項目之一),想對該數(shù)據(jù)集進行乘客是否存活的分類挖掘。
小編將為大家介紹如何利用億信華辰WonderDM的可視化數(shù)據(jù)探索和預(yù)處理功能,提高泰坦尼克乘客數(shù)據(jù)集的質(zhì)量,便于后續(xù)的挖掘。

上圖是泰坦尼克乘客數(shù)據(jù)集導(dǎo)入后的所有字段,可以看到數(shù)據(jù)集有12個字段(特征),除了Survived(表示是否獲救)外,其他是乘客的信息,為方便識別,我們利用WonderDM為每個字段加了中文標(biāo)題。
數(shù)據(jù)探索
WonderDM數(shù)據(jù)探索提供圖表與圖形幫助理解數(shù)據(jù)集統(tǒng)計信息。

泰坦尼克乘客數(shù)據(jù)集一共有891條記錄,其中Age,Cabin和Embarked三個字段有缺失值,為了準(zhǔn)確的挖掘,該數(shù)據(jù)集有下面幾個問題需要處理:
缺失值字段的處理
Cabin字段缺失值占比太高,后續(xù)不納入數(shù)據(jù)挖掘過程。
Age字段缺失值較少,且數(shù)據(jù)呈正態(tài)分布,考慮用平均值填充缺失值。
字段離散化
要按年齡段分析獲救人員情況,需要要將Age字段按年齡段分組為少年兒童、中青年、老年人。
值替換
要進行分析的Survived字段用1和0分別表示是否獲救,不夠直觀,需要替換為更為直觀的Yes和No。
數(shù)據(jù)處理
WonderDM提供了一些簡便易懂的可視化數(shù)據(jù)預(yù)處理方式,能夠完成不同的數(shù)據(jù)預(yù)處理工作。

先用WonderDM創(chuàng)建一個自定義數(shù)據(jù)集,在這個新數(shù)據(jù)集上進入”數(shù)據(jù)預(yù)處理”,通過“添加操作”菜單,添加需要的數(shù)據(jù)預(yù)處理操作。
一、設(shè)置數(shù)據(jù)源,選擇創(chuàng)建的titanic數(shù)據(jù)集對應(yīng)的表。

二、添加“值替換”,將Age字段空值替換為平均值。

三、 添加“離散化”,對Age字段離散化,分為三個年齡段,離散化后的字段名為AGE_GRP。

四、 離散化后的AGE_GRP字段值不直觀,則添加“值替換”進一步替換為“少年兒童”,“中青年”,“老年”。

五、將Survived字段值替換為Yes和No。由于原字段是邏輯型,需增加一個字符型字段存放Yes和No,在界面上添加一個“添加字段”,輸入相應(yīng)的轉(zhuǎn)換表達式。

最后,一份完整的數(shù)據(jù)預(yù)處理過程列表見下圖,WonderDM還提供拖拽操作,調(diào)整各項操作的執(zhí)行順序,用戶可點擊主界面上的“運行”按鈕開始數(shù)據(jù)預(yù)處理工作。

最終處理好的數(shù)據(jù)集如下圖所示,Age字段空值采用了平均值填充,離散化后的字段AGE_GRP采用了明確的年齡分組信息,IS_SURVIVED分別用Yes和No表示是否獲救。

至此,我們完成了一個數(shù)據(jù)處理工作,使用億信WonderDM可視化的數(shù)據(jù)預(yù)處理操作過程也非常方便易懂。
WonderDM(豌豆DM)是北京億信華辰軟件有限責(zé)任公司在十多年商業(yè)智能技術(shù)沉淀和豐富的行業(yè)經(jīng)驗之上,潛心設(shè)計開發(fā)完成的一款零門檻、全程可視化的數(shù)據(jù)挖掘平臺。它具有數(shù)據(jù)預(yù)處理、圖形化數(shù)據(jù)探索、可視化建模、模型應(yīng)用等功能,可以實現(xiàn)客戶流失分析、風(fēng)險分析、信用評價、關(guān)聯(lián)推薦、預(yù)測、關(guān)系網(wǎng)絡(luò)分析等各類數(shù)據(jù)的深入分析應(yīng)用。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)