日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

數據分析中常犯的14個錯誤,如何解決?

時間:2022-09-25來源:二二的女生瀏覽數:420

這篇文章結合數據分析的幾個階段,總結了14個我們可能會犯的一些錯誤,以及如何避免。

數據獲取階段

數據采集/獲取階段,容易犯的錯誤:

NO.1 采樣偏差

在數據采集的時候,如果不能獲取到總體的數據,那就要采集到可以代表總體的樣本,抽樣就顯得尤其重要,如果樣本不具有代表性,那么得出的結論一定是有失偏頗的。

舉個例子:

小紅書的用戶群體是年輕的女性用戶為主,如果用這份數據去預測一部受眾是青少年的電影票房,結果可能就不合理了。

避免的方法:

使樣本能夠充分代表總體。

NO.2 幸存者偏差

指的是只能看到經過某種篩選而產生的結果,忽略了被篩選掉的關鍵信息。

在二戰期間,人們發現幸存的轟炸機中,機翼中彈的數量很多,而機身中彈的卻很少。因此人們認為我們應該加固飛機的機翼,其實不然,就是因為機翼中彈多還能飛回來,所以機翼中彈并沒有影響飛機返航;而機身中彈的少則說明了子彈打中機身對飛機的影響更大,導致飛機不能返航,在這個飛機問題中,只統計到了幸存下來的飛機,以此下結論,是不正確的。

舉個例子:

在某產品開放日,邀請使用該產品的用戶到現場給產品打分,結果用戶滿意度都很高,其實就是一個幸存者偏差的例子,愿意來現場打分的客戶,基本上都是忠實客戶了,得分自然就高。

避免的方法:

還是樣本不具備代表性的問題,避免主觀臆斷,用科學的方法選擇樣本。

數據處理階段

在數據處理階段,容易犯的錯誤:

NO.3 不注意數據的清洗

行百里者半九十,都說做數據分析有80%的時間都是在處理數據,其實就在告訴我們數據處理是多么的重要,干凈的數據源是一切工作的前提,不然一切都要從頭開始。

NO.4 在原始數據上直接處理

盡量不要直接在原始數據上開始修改處理,最好拷貝一份,保留好原始數據。這樣做的目的是避免后續處理時出現錯誤,無法返回到原始數據的情況。

舉個例子:

在做異常值處理時,直接把異常值刪除了,后面發現其實不是異常值,而是一個值得注意的小概率事件,這就麻煩了,還不如一開始就在原始數據的備份上進行操作。

避免的方法:

在拷貝的原始數據上處理。

數據分析階段

在數據分析階段,容易犯的錯誤:

NO.5 只會工具,不會分析

各種數據分析工具Excel、SQL、Python、Power BI、Tableau運用的爐火純青,但卻沒有一個分析的邏輯思維方法,沒有深入地去分析現象背后的原因。通常要搞清楚分析的目的是什么,工具都是輔助。

避免的方法:

多學習和總結一些思維和方法,并能夠成功地運用,掌握其要領。

NO.6 過于追求高級方法/工具

在分析時,崇尚所謂高級的、時尚的方法,而不從項目自身實際出發,找到適合項目的分析方法。同樣,過分追求“高端”工具的使用,比如在數據量很少的情況下,非要用數據庫/Python,但其實Excel就可以簡單便宜地滿足分析的需求。

避免的方法:

合適的才是最好的。

可視化階段

在可視化階段,容易犯的錯誤:

NO.7 不做圖表

用文字來表達結果,肯定不如直接上圖更顯而易見。

避免的方法:

能用圖表展示的結論就少用文字來描述。

NO.8 誤導性的圖表

比不做圖表更可怕的是做出具有誤導性的圖表。常見的比如把Y軸的刻度不從0開始計,這樣得到的圖形走勢就顯得差距非常大,給人造成一定程度上的視覺沖擊,但實際上,差距并沒有那么大。

舉個例子:

下圖中凈利潤的增長可以看到Q4增長幅度非常明顯,但仔細一看可以發現,縱坐標是從13%開始的,如果把縱坐標調成0%開始,就會發現這個增長幅度其實并不明顯。

縱坐標從13%開始

縱坐標從0開始

避免的方法:

保持客觀的態度做圖表,不要被心里預設的結論所左右,該是什么就是什么。

得出結論階段

在得出結論時,容易犯的錯誤:

NO.9 主觀臆斷

完全拋棄數據,而是以自我經驗或想法來給出結論。這樣做數據分析就沒有意義了,要保持客觀的態度,不要總是“我覺得”,“我認為”,要以數據為依據。

避免的方法:

以數據為導向,保持一個數據人應用的科學客觀的態度。

NO.10 數據偏見

在得出結論時,僅選擇支持你聲明的數據,丟棄不支持聲明的部分。這就失去了客觀性,是建立在數據上的主觀臆斷,一定要讓數據反映出客觀事實。

舉個例子:

發現了啤酒和尿布的銷量一樣好,如果我只選擇性地關注啤酒的銷量,而忽視尿布,那就不會有購物籃分析了。

避免的方法:

客觀,客觀,還是客觀的態度。

NO.11 相關性==因果性

我們經常說相關性不等于因果性,兩個變量之間存在相關關系,并不意味著一個變量會影響另一個變量,也不意味著二者存在實際關系。

如果一個指標和另一個指標是一起變化的,說明它們是相關的,而如果是一個指標先變化從而導致了另一個指標的變化,才說明它們是有因果性的。

在數據分析時很容易將相關性判斷為因果性,這是不對的。相關性已經很好了,但因果性更佳,很多時候,我們只能發現相關性,但應永不停止尋找因果性。因為發現相關性可以幫助我們預測未來,而發現因果性意外著可以改變未來。

NO.12 唯數據論

由數據分析得到的結果不具備可行性,完全不考慮常識和業務需求,數據脫離了業務,也是常犯的錯誤。

避免的方法:

多了解業務,多溝通,不要一味搞技術。

其他

NO.13 先預設一個結果,再倒推原因

依據經驗常識先預設了一個結果,再從結果出發,為結果找原因,這也是一種主觀臆斷,顛倒了數據分析的邏輯,我們應當是先分析,再結果,現在變成了先結果,再為結果找一個說辭。

避免的方法:

可以有假設,但假設不能等同于結論,大膽假設,小心求證。

NO.14 忽視黑天鵝事件

在發現澳大利亞的黑天鵝之前,17世紀之前的歐洲人認為天鵝都是白色的。但隨著第一只黑天鵝的出現,這個不可動搖的觀念崩潰了。

黑天鵝的存在寓意著不可預測的重大稀有事件,它在意料之外,卻又改變著一切。人類總是過度相信經驗,而不知道一只黑天鵝的出現就足以顛覆一切。

2008年美國次貸危機爆發就是一個典型的黑天鵝事件,大家用通用的風險價值模型預測投資風險,結論是美國商業銀行放貸業務崩潰發生的概率只有不到1%,結果我們都知道了,這種不到1%的小概率事件居然發生了。

避免的方法:

所以不要忽視小概率事件,它有可能會造成嚴重的后果。

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢