20世紀90年代晚期發(fā)展的跨行業(yè)數(shù)據(jù)挖掘標準流程(CRISP-DM), 這是對我們怎么去做數(shù)據(jù)挖掘的有效指導
第一, 是商業(yè)理解, 在我看來, 這個商業(yè)理解就是要把業(yè)務問題轉(zhuǎn)換成數(shù)據(jù)挖掘問題, 目前數(shù)據(jù)挖掘的理論概念中, 一般都包括分類, 聚類,回歸, 關(guān)聯(lián)規(guī)則這幾類, 這需要對這幾類方法有一定的理解, 才能有效地轉(zhuǎn)換,
第二. 數(shù)據(jù)理解, 數(shù)據(jù)描述了我們的業(yè)務, 在這一步, 我們必須找準對應關(guān)系, 所面臨的業(yè)務問題, 有哪些數(shù)據(jù)可以用, 我們做的是定量分析, 沒有數(shù)據(jù)顯然是得不到模型的, 知道哪里數(shù)據(jù)和業(yè)務關(guān)系緊密, 也能讓我們的分析事半功倍,?
第三.數(shù)據(jù)準備, 實際上數(shù)據(jù)挖掘的大部分工作都在這一步, 往往到了這一步就發(fā)現(xiàn)理想很美好, 但現(xiàn)實很骨感,
數(shù)據(jù)質(zhì)量令人堪憂, 缺失值, 異常值接踵而來, 這是數(shù)據(jù)的錯誤, 還有為了適應算法, 需要將數(shù)據(jù)去量綱化, 類型轉(zhuǎn)換, 去相關(guān)性, 降維等等操作, 這一步將消耗分析人員大量精力
第四, 建模, 這一步需要對算法理解透徹, 要了解數(shù)據(jù)特征和算法特點, 才能選擇最優(yōu)算法, 以及最優(yōu)參數(shù), 很多算法的使用是有假設(shè)條件的, 必須仔細掌握, 得到的模型才會合理, 另外,還要考慮業(yè)務需要, 如果模型必須能解釋, 那就要選擇生成式模型算法
第五, 評價, 就是模型評估了, 各種評估指標的側(cè)重點是不一樣的, 要以最能反應業(yè)務的指標為準, 另外,評估數(shù)據(jù)的選擇也很關(guān)鍵, 要盡可能的模擬實際生產(chǎn)環(huán)境, 才能評估模型的性能。
以上就是得到模型流程了, 業(yè)務理解和數(shù)據(jù)理解做的好, 就能快速選好方法, 和關(guān)鍵字段,這是能加速建模的, 數(shù)據(jù)質(zhì)量是能否得到模型的關(guān)鍵, 缺失值, 異常值雖然能刪除,填充, 但是信息的缺失是找不回來的, 就可能導致得不到模型, 可能會倒逼選擇其他方法分析, 建模就要看對算法的理解了。
億信華辰推出的數(shù)據(jù)挖掘產(chǎn)品億信豌豆DM,讓用戶可以通過半自動化或者自動化地分析業(yè)務數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場策略,減少風險,做出正確的決策。

(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)