日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

億信ABI

一站式數(shù)據(jù)分析平臺(tái)

ABI(ALL in one BI)是億信華辰歷經(jīng)19年匠心打造的國(guó)產(chǎn)化BI工具,技術(shù)自主可控。它打通從數(shù)據(jù)接入、到數(shù)據(jù)建模與處理、再到數(shù)據(jù)分析與挖掘整個(gè)數(shù)據(jù)應(yīng)用全鏈路,可滿足企業(yè)經(jīng)營(yíng)中各類(lèi)復(fù)雜的分析需求,幫助企業(yè)實(shí)現(xiàn)高效數(shù)字化轉(zhuǎn)型。

億信ABI

一站式數(shù)據(jù)分析平臺(tái)

億信華辰深耕商業(yè)智能十多年,
打造一體化的填報(bào)、處理、可視化平臺(tái)。

快速識(shí)別異常值,你可能需要箱線圖分析

時(shí)間:2020-10-23來(lái)源:知乎瀏覽數(shù):1531

當(dāng)你在做數(shù)據(jù)總結(jié)分析,或者科研調(diào)查分析,甚至季度年度總結(jié)匯報(bào),需要查看數(shù)據(jù)的分布情況以及是否有異常情況來(lái)形成結(jié)論輔助進(jìn)一步分析時(shí),那么哪種圖表能夠清晰直觀地展現(xiàn)出這一信息呢?

答案只有一個(gè),那就是...箱線圖!

什么是箱線圖
箱線圖,又名為盒須圖,盒式圖,通常用于展示一組數(shù)據(jù)的分布情況,因?yàn)橹黝}形狀像一個(gè)箱子,所以得名箱線圖。它主要用于反映原始數(shù)據(jù)分布的特征,還可以進(jìn)行多組數(shù)據(jù)分布特征的比較。

箱線圖是由美國(guó)著名的統(tǒng)計(jì)學(xué)家約翰.圖基發(fā)明的,它主要展現(xiàn)了一組數(shù)據(jù)的幾個(gè)關(guān)鍵數(shù)據(jù)點(diǎn),包括最大值、最小值、中位數(shù)以及上下兩個(gè)4分位數(shù)。也就是說(shuō),無(wú)論一組數(shù)據(jù)的量有多少,它只會(huì)在計(jì)算后,獲取這幾個(gè)計(jì)算后的數(shù)據(jù)來(lái)作為數(shù)據(jù)點(diǎn),來(lái)繪制箱線圖。


在箱線圖中,箱子的中間有一條線,代表了數(shù)據(jù)的中位數(shù)。箱子的上下底,分別是數(shù)據(jù)的上四分位數(shù)(Q3)和下四分位數(shù)(Q1),這意味著箱體包含了50%的數(shù)據(jù)。因此,箱子的高度在一定程度上反映了數(shù)據(jù)的波動(dòng)程度,上下邊緣則代表了該組數(shù)據(jù)的最大值和最小值。有時(shí)候箱子外部會(huì)有一些點(diǎn),可以理解為數(shù)據(jù)中的“異常值”。

我們先看一個(gè)簡(jiǎn)單的箱線圖應(yīng)用,大家就應(yīng)該很好理解了。分析不同學(xué)年、不同科目的學(xué)生成績(jī)是箱線圖的常見(jiàn)應(yīng)用場(chǎng)景,下圖中我們可以看到學(xué)生的英語(yǔ)成績(jī)相對(duì)其它科目普遍較好,而數(shù)學(xué)則大部分都在80分以下。

所以要快速理解箱線圖,那么一定要了解這2個(gè)概念:

四分位數(shù)
一組數(shù)據(jù)按照從小到大順序排列后,把該組數(shù)據(jù)四等分的數(shù),稱(chēng)為四分位數(shù)。第一四分位數(shù) (Q1)、第二四分位數(shù) (Q2,也叫“中位數(shù)”)和第三四分位數(shù) (Q3)分別等于該樣本中所有數(shù)值由小到大排列后第25%、第50%和第75%的數(shù)字。第三四分位數(shù)與第一四分位數(shù)的差距又稱(chēng)四分位距(interquartile range, IQR)。

偏態(tài)
與正態(tài)分布相對(duì),指的是非對(duì)稱(chēng)分布的偏斜狀態(tài)。在統(tǒng)計(jì)學(xué)上,眾數(shù)和平均數(shù)之差可作為分配偏態(tài)的指標(biāo)之一:如平均數(shù)大于眾數(shù),稱(chēng)為正偏態(tài)(或右偏態(tài));相反,則稱(chēng)為負(fù)偏態(tài)(或左偏態(tài))。

箱線圖的價(jià)值
箱線圖包含的元素雖然有點(diǎn)復(fù)雜,但也正因?yàn)槿绱耍鼡碛性S多獨(dú)特的功能:

第一點(diǎn),直觀明了地識(shí)別數(shù)據(jù)批中的異常值。
箱線圖用來(lái)捕獲一組數(shù)據(jù)中的異常值,在數(shù)據(jù)整理的過(guò)程中,異常值帶來(lái)的不良影響是巨大的,我們需要額外重視異常值這一數(shù)據(jù),異常值被定義為小于Q1-1.5IQR或大于Q3+1.5IQR的值,而箱線圖會(huì)將這一部分的值額外展現(xiàn)出來(lái),突出異常值的特異性。

第二點(diǎn),利用箱線圖判斷數(shù)據(jù)批的偏態(tài)和尾重。
通過(guò)箱線圖的形狀和異常值的分布,我們可以大致的觀測(cè)出這一組數(shù)據(jù)的偏態(tài)和尾重,然后通過(guò)對(duì)比標(biāo)準(zhǔn)正態(tài)分布,來(lái)分析數(shù)據(jù)形狀的出現(xiàn)原因。

第三點(diǎn),利用箱線圖比較幾批數(shù)據(jù)的形態(tài)。
將幾批數(shù)據(jù)放在同一個(gè)數(shù)軸上,可以直觀的看出幾批數(shù)據(jù)之間中位數(shù)、尾長(zhǎng)、異常值、分布區(qū)間等的不同,用于質(zhì)量管理、人事測(cè)評(píng)、探索性數(shù)據(jù)分析等統(tǒng)計(jì)分析活動(dòng)中,有助于分析過(guò)程的簡(jiǎn)便快捷,其作用顯而易見(jiàn)。

憑借著這些“獨(dú)門(mén)絕技”,箱線圖在使用場(chǎng)景上也很不一般,最常見(jiàn)的是用于質(zhì)量管理、人事測(cè)評(píng)、探索性數(shù)據(jù)分析等統(tǒng)計(jì)分析活動(dòng)。

如何制作箱線圖
通常我們制作箱線圖的時(shí)候,是一個(gè)很大的工作量,需要先對(duì)數(shù)據(jù)統(tǒng)計(jì)分析,得出對(duì)應(yīng)點(diǎn)之后再進(jìn)行繪制,在繪制過(guò)程中,處理數(shù)據(jù)可能就花費(fèi)大量時(shí)間,這里我們使用億信ABI來(lái)進(jìn)行箱線圖的繪制工作,可以大大的減少我們的工作。

第一步,準(zhǔn)備數(shù)據(jù),我們只需要準(zhǔn)備好明細(xì)數(shù)據(jù)即可,無(wú)需再對(duì)數(shù)據(jù)進(jìn)行各個(gè)對(duì)應(yīng)點(diǎn)的計(jì)算,將數(shù)據(jù)建立成主題表后,即可直接應(yīng)用系統(tǒng)箱線圖。數(shù)據(jù)格式可全面兼容EXCEL表、數(shù)據(jù)庫(kù)表、CSV文件、SQL語(yǔ)句等等。

建好主題表后,新建一個(gè)數(shù)據(jù)分析,并使用數(shù)據(jù)建立表格:

然后拖入統(tǒng)計(jì)圖組件,選擇箱線圖,并雙擊打開(kāi)設(shè)置界面,進(jìn)行數(shù)據(jù)設(shè)置。

設(shè)置完成之后,點(diǎn)擊計(jì)算,箱線圖就繪制完成了。

我們這里的表的數(shù)據(jù)是一個(gè)汽車(chē)的成本價(jià)格和銷(xiāo)售價(jià)格隨月份的變化表,這邊設(shè)置了兩種數(shù)據(jù)作為對(duì)比,一種是汽車(chē)的成本數(shù)據(jù),一種是銷(xiāo)售價(jià)格數(shù)據(jù)。通過(guò)兩種數(shù)據(jù)的箱線圖對(duì)比,我們可以明顯看出,在這個(gè)時(shí)間段的數(shù)據(jù)中,成本價(jià)格有一個(gè)很明顯的特異點(diǎn),而且是低特異點(diǎn),這就說(shuō)明這個(gè)時(shí)間段內(nèi)有某個(gè)點(diǎn)的成本價(jià)格要明顯低于其他時(shí)間點(diǎn)的成本,可以從此入手來(lái)進(jìn)行進(jìn)一步分析。另外再?gòu)闹虚g的長(zhǎng)方塊的面積來(lái)看,銷(xiāo)售價(jià)格的長(zhǎng)方塊面積明顯比成本價(jià)格的小,說(shuō)明銷(xiāo)售價(jià)格在這個(gè)時(shí)間段內(nèi)都很穩(wěn)定。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即申請(qǐng)數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
產(chǎn)品功能
數(shù)據(jù)填報(bào)

對(duì)分析表中的數(shù)據(jù)進(jìn)行補(bǔ)錄或修改

數(shù)據(jù)處理

在可視化建模的同時(shí)同步完成ETL流程設(shè)計(jì)

大屏可視化

可任意制作酷炫靈動(dòng)的圖標(biāo)和大屏

自助式分析

只需簡(jiǎn)單拖拽維度和指標(biāo)即可生成相應(yīng)的分析圖表

預(yù)測(cè)挖掘

讓繁瑣復(fù)雜的數(shù)據(jù)挖掘過(guò)程變得簡(jiǎn)單易用

customer

在線咨詢(xún)

在線咨詢(xún)

點(diǎn)擊進(jìn)入在線咨詢(xún)