怎么才有數(shù)據(jù)分析思路?這個(gè)提問的現(xiàn)象是個(gè)本末倒置的典型。
提問中數(shù)據(jù)分析的路徑,是“先數(shù)據(jù),后問題”。在不清楚要回答什么問題的情況下,就先收集數(shù)據(jù)、收集方法;之后進(jìn)行數(shù)據(jù)分析,也并沒有明確的目標(biāo),而是指望通過高大上的方法來點(diǎn)石成金。
問題是,數(shù)據(jù)是企業(yè)過往行為的反饋。如果把商業(yè)決策比方成開車,那指望著基于數(shù)據(jù)去分析出對(duì)企業(yè)未來決策有用的結(jié)論,無異于看著后視鏡開車,本質(zhì)上就是不效率的。這種思路導(dǎo)致數(shù)據(jù)分析師看起來做了很多工作,卻很難得到真正有價(jià)值的結(jié)論。而這時(shí)如果懷疑自己“想法枯竭”而去追求“更好的方法”,其實(shí)是在錯(cuò)誤的路徑上越走越遠(yuǎn)。
但與此同時(shí),美國互聯(lián)網(wǎng)企業(yè),或者國內(nèi)高技術(shù)的互聯(lián)網(wǎng)企業(yè),已經(jīng)完全養(yǎng)成了商業(yè)決策依賴數(shù)據(jù)分析的文化。我之前在亞馬遜做經(jīng)濟(jì)學(xué)家,現(xiàn)在臉書做資深數(shù)據(jù)科學(xué)家。這兩個(gè)公司每天產(chǎn)生的數(shù)據(jù)都以PB計(jì);而維度之多、復(fù)雜程度之高,更是讓數(shù)據(jù)豐富程度堪稱“海量”。
他們招聘了來自各行各業(yè)的頂尖數(shù)據(jù)分析師來建立世界一流的數(shù)據(jù)庫、數(shù)據(jù)架構(gòu)、分析工具、數(shù)據(jù)模型等等。但是,每當(dāng)做起數(shù)據(jù)分析,我們常常深感手中數(shù)據(jù)不是太多,而是太少了。因?yàn)閿?shù)據(jù)再多,也多不過問題。接下來,我詳解一下題目中路徑的問題在哪里,正確的路徑是什么樣,以及數(shù)據(jù)分析師在其中能做的具體工作。
1數(shù)據(jù)分析的正確路徑
拿開車作比喻:真正的商業(yè)環(huán)境中,駕駛員是沒有全知全能的GPS的,而是面對(duì)著一片迷霧:終點(diǎn)在哪個(gè)方向?前面的路有沒有人走過?團(tuán)隊(duì)有沒有能力走?是走陽關(guān)大道還是華容小道?解決這些問題,有時(shí)候依賴創(chuàng)始人的直覺,有時(shí)候依賴精干的團(tuán)隊(duì)逢山開道遇水搭橋。
但如何長久地提高決策的效率、如何衡量決策的效果、如何在多條路徑中選出最性價(jià)比最高的路徑?這時(shí),數(shù)據(jù)科學(xué)家的角色就像一個(gè)知識(shí)豐富的向?qū)В和ㄟ^把過往經(jīng)驗(yàn)總結(jié)清楚,在決策的時(shí)候提供最值得信賴的參謀。如果一個(gè)企業(yè)想系統(tǒng)、長遠(yuǎn)地發(fā)展,數(shù)據(jù)分析必不可少。
提問是拿著數(shù)據(jù)去尋找問題,而正確的做法永遠(yuǎn)是要拿著問題去數(shù)據(jù)中尋找答案。對(duì)應(yīng)的路徑應(yīng)該是:
理解你所面對(duì)的商業(yè)模式
尋找商業(yè)模式中的關(guān)鍵問題和假設(shè)
用數(shù)據(jù)分析來驗(yàn)證假設(shè)和解決問題
有些讀者可能已經(jīng)發(fā)現(xiàn),拿掉“數(shù)據(jù)分析”四字定語,這流程和所有的商業(yè)決策流程沒有任何區(qū)別。這樣看來,豈不是從創(chuàng)始人到一線員工,每個(gè)人都應(yīng)該做數(shù)據(jù)分析,從而進(jìn)行更好的決策嗎?當(dāng)然沒錯(cuò)!這不是我自己說的,是Jeff Bezos和Mark Zuckerberg說的。因?yàn)橹庇X、經(jīng)驗(yàn)、道聽途說,都會(huì)帶著偏見,而數(shù)據(jù)是真實(shí)的,自然應(yīng)該在決策中占最重要的地位。
2數(shù)據(jù)分析師的職責(zé)
數(shù)據(jù)分析師作為處理數(shù)據(jù)能力最專業(yè),對(duì)數(shù)據(jù)最了解的人,在這過程中的重要性不言而喻。從數(shù)據(jù)行程決策的過程中,數(shù)據(jù)分析師應(yīng)該做好如下四件事:
1、記錄數(shù)據(jù)
有用的數(shù)據(jù)要經(jīng)過有心的設(shè)計(jì),才能有效率地存儲(chǔ)下來。按照“拿著問題去數(shù)據(jù)中尋找答案的思路”,不妨想一想,當(dāng)你做一個(gè)決策時(shí),有什么信息是對(duì)決策有用的?這里面哪些是現(xiàn)有數(shù)據(jù)覆蓋的,哪些還需要進(jìn)一步收集?再進(jìn)一步,好的數(shù)據(jù)分析師,不但了解每種數(shù)據(jù)的信息量,還了解不同數(shù)據(jù)收集時(shí)的難易程度,以及如何設(shè)計(jì)機(jī)制來保證信息收集的準(zhǔn)確。
比如,若一個(gè)電商平臺(tái)想知道所售商品是否為假貨,那應(yīng)該盡可能全面地了解產(chǎn)品信息、賣家信息,以及消費(fèi)者反饋。當(dāng)收集賣家信息時(shí),什么信息容易作假?對(duì)法律法規(guī)了解的數(shù)據(jù)分析師可能會(huì)著重審核賣家的法律資質(zhì),而對(duì)機(jī)器學(xué)習(xí)擅長的數(shù)據(jù)分析師可能會(huì)從圖像識(shí)別入手。哪個(gè)路徑精確更高,更容易落地,很大程度上可以決定一個(gè)商業(yè)模式的生死。
對(duì)商業(yè)模式了解以外,好的數(shù)據(jù)分析師也會(huì)對(duì)數(shù)據(jù)工程有深刻理解。這樣才知道,在收集到數(shù)據(jù)之后,哪些放在數(shù)據(jù)庫,哪些扔進(jìn)數(shù)據(jù)湖?如何讓最有價(jià)值的數(shù)據(jù)能最快被讀取和展示,TB、PB級(jí)的數(shù)據(jù)應(yīng)該如何存儲(chǔ)才能在成本與效率之間優(yōu)化?
2、處理數(shù)據(jù)
商業(yè)復(fù)雜后,數(shù)據(jù)會(huì)產(chǎn)生于不同部門。從其他部門高效地整合數(shù)據(jù),并對(duì)數(shù)據(jù)質(zhì)量有把控,也是數(shù)據(jù)分析師的重要素質(zhì)。當(dāng)整合了有用的數(shù)據(jù)后,把數(shù)據(jù)清理好、保證質(zhì)量,做到結(jié)構(gòu)完整、條理清晰,會(huì)讓基于此的數(shù)據(jù)分析事半功倍。這一步看起來很輕松,當(dāng)企業(yè)越大、部門越多、數(shù)據(jù)越復(fù)雜的時(shí)候,越重要。在亞馬遜和臉書,專職于記錄數(shù)據(jù)和處理數(shù)據(jù)的“數(shù)據(jù)工程師(data engineer)”與負(fù)責(zé)分析數(shù)據(jù)的“數(shù)據(jù)科學(xué)家(data scientist)”大概人數(shù)是1:2。
3、分析數(shù)據(jù)
這一步涵蓋了太多內(nèi)容,包括實(shí)驗(yàn)、預(yù)測、歸因、制定關(guān)鍵指標(biāo)、行研、深挖、儀表盤,等等等等,每一個(gè)環(huán)節(jié)都能單獨(dú)出一本書來講解。點(diǎn)到為止,不贅述了。
4、決策自動(dòng)化
這里是機(jī)器學(xué)習(xí)大放異彩的地方了,無論是專家系統(tǒng)、監(jiān)督學(xué)習(xí)或者無監(jiān)督學(xué)習(xí),歸根結(jié)底,都是基于數(shù)據(jù)總結(jié)出來規(guī)律,將商業(yè)決策自動(dòng)化。好的數(shù)據(jù)分析師,除了根據(jù)商業(yè)問題選擇適用模型,提高模型表現(xiàn)和提高數(shù)據(jù)質(zhì)量之外,還應(yīng)該知道什么決策適合被機(jī)器學(xué)習(xí)解決;知道機(jī)器學(xué)習(xí)的長處與短板;知道如何收集/制造標(biāo)簽來賦能機(jī)器學(xué)習(xí)模型;知道如何建立機(jī)器學(xué)習(xí)的優(yōu)化目標(biāo)和損失函數(shù);等等。
3小結(jié)
其實(shí),大數(shù)據(jù)的概念雖然提了很久,但是真正意義上的多維度、大規(guī)模的數(shù)據(jù),是近幾年才真正發(fā)展起來的。很多公司連處理大數(shù)據(jù)的能力都沒有,更別提有效應(yīng)用了。別的不說,微信這種超級(jí)app上,幾乎有關(guān)于個(gè)人的所有維度的信息了,但是連一個(gè)廣告推薦都還沒做好。
所以,數(shù)據(jù)分析在國內(nèi)是一個(gè)剛起步的行業(yè),希望對(duì)這行業(yè)有興趣的同學(xué),可以及早擺正思路,讓數(shù)據(jù)分析發(fā)揮潛力,得到自己應(yīng)有的地位。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)