日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

億信ABI

一站式數據分析平臺

ABI(ALL in one BI)是億信華辰歷經19年匠心打造的國產化BI工具,技術自主可控。它打通從數據接入、到數據建模與處理、再到數據分析與挖掘整個數據應用全鏈路,可滿足企業經營中各類復雜的分析需求,幫助企業實現高效數字化轉型。

億信ABI

一站式數據分析平臺

億信華辰深耕商業智能十多年,
打造一體化的填報、處理、可視化平臺。

原來關聯規則挖掘是這么回事?你想買啥電商網站都知道!

時間:2019-05-05來源:億信華辰瀏覽數:976

事實上,你想買啥,電商網站都知道!當我們在某電商網站搜索“數據挖掘”的書時,商品頁面會同時推薦一些其它類似的書籍,這里面就用到了“剁手黨們”天天接觸到的關聯規則挖掘技術。


關聯規則(Association Rules)是反映一個事物與其他事物之間的相互依存性和關聯性,如果兩個或多個事物之間存在一定的關聯關系,那么,其中一個事物就能通過其他事物預測到。關聯規則是數據挖掘的一個重要技術,用于從大量數據中挖掘出有價值的數據項之間的相關關系。

關聯規則挖掘的最經典的例子就是沃爾瑪的啤酒與尿布的故事。通過對超市購物籃數據進行分析,發現美國婦女們經常會叮囑丈夫下班后為孩子買尿布,30%-40%的丈夫同時會順便購買喜愛的啤酒,超市就把尿布和啤酒放在一起銷售增加銷售額。所以關聯規則挖掘有時也叫購物籃分析。(注:本文所使用數據分析工具為億信華辰的億信BI

關聯規則挖掘方法

一、支持度和置信度

要了解關聯規則,就要了解什么是“經常同時購買”。這是通過支持度(support)與置信度(confidence)來衡量的。

支持度:support(A-->B) = |AB|/|N|

商品A和B(如啤酒和尿布) 同時出現在同一個購物清單中的數量 / 總的購物清單數。

置信度:confidence(A-->B) = |AB|/|A|

同時出現在同一個購物清單中的數量/A出現的數量。即規則A-->B的可信度。

可信度是對關聯規則的準確度的衡量,支持度是對關聯規則重要性的衡量。

支持度說明了這條規則在所有事務中有多大的代表性,顯然支持度越大,關聯規則越重要。

關聯規則有很多不同的算法,下面介紹兩種最經典的算法。

二、Apriori算法

Apriori算法是一種對有影響的挖掘布爾關聯規則頻繁項集的算法,通過算法的連接和剪枝即可挖掘頻繁項集。

Apriori算法將發現關聯規則的過程分為兩個步驟:

1. 通過迭代,檢索出事務數據庫中的所有頻繁項集,即支持度不低于用戶設定的閾值的項集;

2. 利用頻繁項集構造出滿足用戶最小置信度的規則。

挖掘或識別出所有頻繁項集是該算法的核心,占整個計算量的大部分。

數據分析,數據挖掘?

三、FP-Growth算法

FP-Growth算法通過構造一個樹結構來壓縮數據記錄,使得挖掘頻繁項集只需要掃描兩次數據記錄,而且該算法不需要生成候選集合,所以效率會比較高。FP-Growth算法主要步驟:

1. 利用數據集中的數據構造FP-Tree。

從空集開始,將過濾和重排序后的頻繁項集依次添加到樹中。

?

2. 從FP-Tree中挖掘頻繁模式。

構建好 FPFP 樹后,即可抽取頻繁項目集,其思路與 Apriori 算法類似——先從單元素頻繁項目集開始,然后逐步構建更大的頻繁項目集。

?

關聯規則挖掘的步驟

接下來我們在WonderDM中介紹一下進行關聯規則挖掘的步驟。

準備數據

我們準備了某超市的一些購物籃數據。

?

該數據集有7個字段。根據關聯規則的挖掘特性,需要選擇一個事務字段和一個事項字段。不然發現,CARD_NO(卡號)字段同一卡號購買過多種不同商品,可作為事務字段,而GOODS(購買商品)字段可作為事項字段。另外,界面信息顯示,該數據集有2800條購買數據,由939個客戶(卡號)購買了11種不同商品,符合“經常同時購買”的特征。

接下來我們開始用數據集訓練一個合適的關聯規則模型。

訓練模型

先創建一個挖掘過程,選擇關聯規則FP-Growth進入挖掘過程界面。

系統內置了兩種關聯規則算法,他們的參數設置都一樣。我們選擇性能較好的FP-Growth算法。再選擇“購物籃”數據集,選擇CARD_NO字段為事務字段,GOODS字段為項字段,設置所有數據參與挖掘(100%抽樣)。最低支持度設置為5項,最小可信度設置為40%。注意,這兩個參數設置過大,可能挖掘不出關聯規則,可根據實現情況調整。點擊”訓練模型”菜單查看訓練出來的關聯規則。

?

如上圖所示,該模型挖掘到了100條關聯規則。每條關聯規則左邊代表。

系統雖然內置了FP-Growth和Apriori兩種挖掘算法,而且操作方法一樣,但它們還是存在以下特點:

Apriori算法效率較低,計算過程中需要多次掃描整個數據集,占用較多的內存和計算時間;

FP-Growth算法效率較高,只需要掃描兩次數據集,占用更少的內存和計算時間。但對于長事務(同一事務,很多事項),會造成FP樹深度過大,計算時間顯著增加。

所以在選擇算法時,絕大部分情況下,可以優先選擇FP-Growth算法。

模型應用

關聯規則模型的應用同其它類型的挖掘模型,也是要先發布選擇好的關聯規則模型,再制作相應的模型應用用于關聯規則的顯示和查詢。這里就不重復講解了。

小 結

關聯規則挖掘的應用領域非常多,但凡需要分析事物和事物間的頻繁模式的場景,都可以用到關聯規則挖掘。這項技術在一些眾所周知的行業有了許多成熟應用,例如:

  • 電商或零售業的商品推薦

  • 百度文庫推薦相關文檔

  • 醫療推薦可能的治療組合

  • 生物研究中,發現有毒植物的共性特征,識別有毒植物

  • 銀行推薦相關聯業務

  • 搜索引擎推薦相關搜索關鍵詞

  • 門戶網站通過點擊流分析熱點新聞

看到這些應用,你是不是也想為你的系統增加智能推薦的神奇功能呢?

億信BI是億信華辰公司在多年數據分析挖掘、報表處理的技術經驗基礎上,運用先進的數據倉庫、商務智能核心理論,經過多年的潛心研發而推出的商務智能產品軟件。強大的分析引擎、成熟的并行計算技術,為數不多的可以面向業務人員的BI平臺

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢