日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

億信ABI

一站式數(shù)據(jù)分析平臺(tái)

ABI(ALL in one BI)是億信華辰歷經(jīng)19年匠心打造的國(guó)產(chǎn)化BI工具,技術(shù)自主可控。它打通從數(shù)據(jù)接入、到數(shù)據(jù)建模與處理、再到數(shù)據(jù)分析與挖掘整個(gè)數(shù)據(jù)應(yīng)用全鏈路,可滿足企業(yè)經(jīng)營(yíng)中各類復(fù)雜的分析需求,幫助企業(yè)實(shí)現(xiàn)高效數(shù)字化轉(zhuǎn)型。

億信ABI

一站式數(shù)據(jù)分析平臺(tái)

億信華辰深耕商業(yè)智能十多年,
打造一體化的填報(bào)、處理、可視化平臺(tái)。

美國(guó)資深數(shù)據(jù)科學(xué)家暢聊:數(shù)據(jù)分析與北美電商

時(shí)間:2019-02-25來源:億信華辰瀏覽數(shù):663

電商現(xiàn)在已經(jīng)是無所不在了,可以說是貫穿于大家的吃穿住行,什么都和它離不開。電商可以被簡(jiǎn)單的定義為:Business model enabling a firm or individual to conduct businesses。這篇文章我們來講數(shù)據(jù)科學(xué)與AI技術(shù)在電商中的運(yùn)用。

數(shù)據(jù)科學(xué),也就是數(shù)據(jù)驅(qū)動(dòng)科學(xué)(data driven class),是一種跨科學(xué)的方法。通常它結(jié)合多種算法和系統(tǒng)領(lǐng)域,被使用于提供各種形式的數(shù)據(jù)支持和連接。


?數(shù)據(jù)分析


一次交易行為對(duì)于電商來說的第一步是Customer在電腦前瀏覽物品下單,放在購(gòu)物車。然后是第二步的刷卡、買單,到之后的這個(gè)單被接收,刷卡成功,確認(rèn)郵件的發(fā)送和接收,到最后的warehouse打包準(zhǔn)備及發(fā)貨。

整個(gè)流程會(huì)產(chǎn)生很多的流量數(shù)據(jù)(Traffic Data)。比如說用戶的行為,包括Impression(看到的印象流量)、Click Though(點(diǎn)擊的行為)、Session(花多少時(shí)間在看相應(yīng)的物品)、Email Activity(郵件端的traffic),包括打開點(diǎn)擊,訂閱,或者取消訂閱等等,這些都是流量數(shù)據(jù)。

相應(yīng)的交易數(shù)據(jù)有這樣幾種:Order History(下單的記錄,買賣過什么樣的東西)、Membership Subscription(會(huì)員訂閱,從什么時(shí)間開始、訂閱多久、是什么樣的會(huì)員)、等等。

最后還有個(gè)人相關(guān)的用戶信息數(shù)據(jù),分為Demographic和Geographic。Demographic是人口調(diào)查,比如用戶的性別、年齡、還有收入情況,住在哪里、有沒有買房、有沒有車,這些都算人口普查數(shù)據(jù)。Geographic就是地理信息,常用住址是住在大城市,還是二三線城市,或者是在郊外,這些是地理信息。

同樣的,每個(gè)顧客都會(huì)有自己的Traffic/Transaction Data,就是瀏覽的信息和下單交易的數(shù)據(jù)。在電商里有很多種不同的數(shù)據(jù),數(shù)據(jù)科學(xué)AI技術(shù)就應(yīng)用在這里,就是從數(shù)據(jù)里面提取出知識(shí)和一些有用的見解。

實(shí)例分析:三個(gè)電商應(yīng)用AI的實(shí)例:

Amazon GO(今年年初亞馬遜才正式開放的無人售貨店)

Smart Speaker(現(xiàn)在已經(jīng)比較流行的智能音響)

Netflix Artwork (做關(guān)于影片的用戶推薦)

Amazon GO 是一家無人商店,國(guó)內(nèi)像阿里巴巴也有開這種相應(yīng)的無人商店,使用的是差不多的技術(shù)形態(tài)。Amazon Go目前只在西雅圖開了一家試用店。進(jìn)門是需要排隊(duì)的,因?yàn)橄肴タ吹娜颂唷?/span>

像這一幅圖展示的,這家店沒有營(yíng)業(yè)員在出門的時(shí)候結(jié)算。它主要的技術(shù)是Computer Vision做動(dòng)態(tài)識(shí)別、用Deep learning做動(dòng)作的一些行為判斷、還有各種Sensor、Sensor Fusion進(jìn)行會(huì)員身份和物品的探測(cè)。

進(jìn)門之前顧客要下載一個(gè)Amazon GO的APP,登陸以后就可以通過Sensor把用戶的形態(tài)、相關(guān)的信息、買過什么東西、是會(huì)員還是非會(huì)員等等信息都查到。掃了門口的二維碼以后,用戶就可以進(jìn)入。進(jìn)去以后天花板上到處都是攝像頭,照片里沒有體現(xiàn),但是顧客的一舉一動(dòng)都是被完全記錄下來的。

那么Computer Vision(動(dòng)態(tài)識(shí)別技術(shù))的技術(shù)是什么原理呢?它主要的技術(shù)核心是用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)。

舉一個(gè)簡(jiǎn)單的例子:一幅圖片從最基礎(chǔ)開始可以分成三個(gè)顏色:RGB(紅綠藍(lán));有些時(shí)候你可能會(huì)有些圖案,有些透明度:RGBA。每個(gè)RGB都會(huì)有相應(yīng)的數(shù)值。卷積實(shí)際上是對(duì)每一層的顏色做了一個(gè)濾鏡。

用3×3的濾鏡,濾鏡的意思是把圖像的各個(gè)框框角角的特征抽取出來。像圖中所描述的,它將3×3的濾鏡從左到右規(guī)定一個(gè)Stride(步數(shù))。從左到右再?gòu)纳系较拢繏叱鰜硪院螅鄳?yīng)的圖層就會(huì)簡(jiǎn)化成一個(gè)Convolved Feature,就是一個(gè)縮小的矩陣。那這種矩陣通常可以做卷積層(Convolved)。

套用濾鏡做卷積,也可以簡(jiǎn)單直接地取它的最大值。這里的例子是2×2的濾鏡,和兩步的部署。每個(gè)2×2的框里就取最大的值,像左上角的框我們就取6,相應(yīng)右上角的取8。每一個(gè)圖層里面取最大的值。這種做法可以幫助減小整個(gè)圖片,把圖片的各種顏色的各種特征提取出來。

從這里看到,用不同的濾鏡和不同的步數(shù)可以得到縮小化的矩陣圖。然后可以使用相應(yīng)的圖層,做convolution和pooling,并放到不同的矩陣?yán)铩_@樣直接輸出結(jié)果到下一層神經(jīng)網(wǎng)絡(luò),就可以把圖片里從各個(gè)角度、各個(gè)方向相應(yīng)的特征都提取出來。

上圖的例子就是卷積神經(jīng)網(wǎng)絡(luò)的功能:它把一幅靜態(tài)的圖片分成3個(gè)圖層以后,每個(gè)圖層做卷積和max pooling,然后提取圖片最大的特征,再做幾次的卷積和max pooling。卷積神經(jīng)網(wǎng)絡(luò)還可以做不同的結(jié)合來保證識(shí)別范圍的廣度。最后的輸出結(jié)果是這個(gè)圖里面是有狗還是有貓,還是有船和鳥。

每一個(gè)識(shí)別都帶有一個(gè)概率值,概率值越高說明這個(gè)圖片里有這個(gè)物品的概率就越大。極高的概率就可以確認(rèn)這個(gè)圖片里面有什么樣的物品。

卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)靜態(tài)的圖片的一個(gè)判斷,但實(shí)際上Amazon GO商店里的顧客都是移動(dòng)的。大家挑選商品的時(shí)候都是走來走去的,所以亞馬遜必須要進(jìn)一步的利用CNN卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)識(shí)別。

動(dòng)態(tài)識(shí)別算法近十年發(fā)展的很快。最初的Sliding Windows(一種滑動(dòng)窗口的算法)的概念是:每一幅靜態(tài)的圖片里,定義一個(gè)像濾鏡一樣的窗口,在這個(gè)窗口從左到右,從上到下不斷的掃描,每個(gè)窗口都會(huì)做一個(gè)判斷,每個(gè)小窗口都有對(duì)應(yīng)的圖片,來判斷這里面有沒有想要的物品。上圖是判斷圖片里有沒有車。滑動(dòng)窗體算法中的窗體是固定掃動(dòng),一直掃描到找到目標(biāo)物體為止。比如這輛車的匹配度是零點(diǎn)九幾,那么通過找出最高概率的窗口就可以確認(rèn)這里確實(shí)是有一輛車。這個(gè)算法的缺點(diǎn)效率非常的低下。因?yàn)橐岩环髨D分解成很多小圖,并不斷的掃描。這對(duì)計(jì)算能力來說的確是個(gè)挑戰(zhàn)。

最近幾年來比較流行的算法叫做YOLO,就是You Only Look Once(只掃一眼)。任意一幅圖片或視頻中某個(gè)時(shí)段的樣片,YOLO可以很快的去判斷這個(gè)圖片里面的物體。YOLO主要的精神是把圖片按照網(wǎng)格(grid)分析。通過在每個(gè)網(wǎng)格里判斷物品的重心(Center),可以精確的定位物體在圖片中的位置。以剛剛的車子作為例子,YOLO判斷這些網(wǎng)格的重心在哪里。同樣它也會(huì)判斷小網(wǎng)格里面有沒有目標(biāo)物體,如果有的話就會(huì)提供一個(gè)很高的概率。

當(dāng)把這些發(fā)現(xiàn)有車的小窗口全部合在一起,變成一個(gè)大的窗口,那就需要設(shè)一個(gè)相應(yīng)的域值。當(dāng)域值超過一定的量,就說明物品確實(shí)存在于此小窗口。把小窗口全部連接起來,就會(huì)得到大一點(diǎn)的圖片。同樣再通過CNN做一次判斷,判斷這是不是對(duì)概率有所提高,或者降低。這樣就可以通過每個(gè)小圖拼湊起來個(gè)完整的物品。

這里面還有很多復(fù)雜的地方。比如說,YOLO有可能會(huì)發(fā)現(xiàn)其他框也可以體現(xiàn)一個(gè)車,可以有很多的連接各種小的grid也可以得到一個(gè)比較完整的物體,這個(gè)時(shí)候就要判斷哪一個(gè)框最能代表這個(gè)物品。

總而言之,YOLO再加上目前最火的算法GPU可以很快的把動(dòng)態(tài)的圖片提取出包含這個(gè)物品的小框,進(jìn)而確定是什么樣的物品。是人、還是商品、還是人和商品。這樣的話,可以很快地確定這張圖里面的顧客有沒有拿東西。2014年Amazon就已經(jīng)申請(qǐng)了相關(guān)的專利。

從圖中可以看到:每一個(gè)物品都是有編號(hào)的;攝像頭還有網(wǎng)絡(luò)有相關(guān)的代碼;錄像機(jī)、攝像頭全部都可以實(shí)時(shí)的處理。顧客每走到不同的貨架旁邊,從相應(yīng)的貨架取下一個(gè)物品,之后系統(tǒng)就知道這個(gè)物品是否還存在,它的重量會(huì)變化,它相應(yīng)的圖像也會(huì)有變動(dòng)。

每個(gè)物品都有自己對(duì)應(yīng)的編碼,以此幫助系統(tǒng)來判斷該物品是不是已經(jīng)被拿走。這里可以判斷商品的數(shù)據(jù)源有很多,首先從卷積神經(jīng)網(wǎng)絡(luò)得出來自圖片的判定,還有來自重量和壓力變化的判定,同時(shí)還可以結(jié)合用戶過去的交易記錄來判斷是不是有可能的交易行為。

這里也可以用到DeepLearning(深度學(xué)習(xí)),作為input可以判斷出用戶是否有購(gòu)買能力,從而做出相應(yīng)的判斷。

下一個(gè)實(shí)例是SmartSpeaker。?

從2014年開始,Amazon就投入了大量的資金研發(fā)Alexa這個(gè)智能音箱的產(chǎn)品。緊跟著大家發(fā)現(xiàn)這個(gè)市場(chǎng)特別的好,Google也推出了Google assistant,微軟也是在2016年推出了音箱Cortana。到去年為止,亞馬遜又提出升級(jí)版本,推出了Show還有Look這種帶攝像頭的產(chǎn)品。蘋果也推出了自家的智能音箱Homepod,今年會(huì)推出它的更新版,和Siri聯(lián)系在一起。三星也是相應(yīng)的推出Bixby,廣告上也經(jīng)常在提到。

智能音箱是非常火爆的產(chǎn)品,各大電商技術(shù)巨頭都推出相應(yīng)產(chǎn)品,幫助大家在網(wǎng)上下單,買賣東西。Amazon Echo這個(gè)最先驅(qū)的產(chǎn)品,或者說從Echo開始智能音箱才打開了市場(chǎng)。

Echo現(xiàn)在的功能已經(jīng)非常的強(qiáng)大了,圖像化的它可以連上手機(jī)的各種APP,聽音樂、聽電臺(tái)、聽新聞、看電視、叫車,放在家里可以用來看Amazon fireTV,同時(shí)智能家電像溫度開關(guān),還有家里的電燈開關(guān),都可以通過智能音箱去控制。

Echo主要的技術(shù)背景就是語(yǔ)音識(shí)別和語(yǔ)義分析。語(yǔ)音識(shí)別就是通過不管是英語(yǔ)還是中文,還是其他阿拉伯語(yǔ)、日本語(yǔ)都可以讓智能音箱能了解到大家想要做什么樣的事情。

語(yǔ)音識(shí)別的技術(shù)近幾年也是發(fā)展迅猛。最初的語(yǔ)音識(shí)別就是把每個(gè)語(yǔ)音波段提取相應(yīng)的音素(Phoneme)并提取特征。就像拼音的元音、輔音,一些比較有代表性的發(fā)音都是由音素組成。把這些元素提取出來,拼湊成相應(yīng)的字,或者詞組。這是剛開始的語(yǔ)音識(shí)別的比較工程化的技術(shù),現(xiàn)在已經(jīng)發(fā)展到用RNN(遞歸神經(jīng)網(wǎng)絡(luò))。

遞歸神經(jīng)網(wǎng)絡(luò)不同于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),它是有遞歸性的。意思就是說每一個(gè)神經(jīng)元(見上圖)是互相連接的。上一層的a(激活函數(shù))處理完的輸出可以直接輸出到下一個(gè)函數(shù),這樣不斷的迭代。同時(shí)每一個(gè)相應(yīng)的輸入,不同的單詞、詞組都會(huì)分別輸入到每個(gè)神經(jīng)元里面,但是這些神經(jīng)元又是跟之前的神經(jīng)元相連。更復(fù)雜一點(diǎn)的網(wǎng)絡(luò)可以從正方向相連,也可以從反方向互相聯(lián)系。

最后訓(xùn)練成功的這個(gè)網(wǎng)絡(luò)里每個(gè)神經(jīng)元都會(huì)輸出Y1Y2這樣的值。如果需要提取名字的話像“Teddy bear”輸出可以這樣表示:0011000。更復(fù)雜的情況里Y可以變成一整個(gè)向量性的輸出。在一個(gè)詞庫(kù)里面,比如“Teddy”對(duì)應(yīng)的值為1,詞庫(kù)里面其他不相關(guān)的詞就會(huì)判斷為0。

當(dāng)遞歸神經(jīng)網(wǎng)絡(luò)判斷出來某個(gè)詞在相對(duì)應(yīng)的階段的語(yǔ)音接近于對(duì)應(yīng)的單詞,它直接跳過音素這種比較傳統(tǒng)的步驟,直接通過整個(gè)語(yǔ)音的長(zhǎng)度和廣度判斷出這段聲音代表的什么意思。這個(gè)就是語(yǔ)音識(shí)別的大概的工作原理。

有了語(yǔ)音識(shí)別,識(shí)別出的相應(yīng)的文字就可以做NLP(自然語(yǔ)言分析),也是語(yǔ)義分析。

語(yǔ)義分析也是很熱門的學(xué)科,可以做各種各樣的事情,比如說最常見的:

詞頻統(tǒng)計(jì):通過公式計(jì)算詞頻在某個(gè)文件、某個(gè)文檔里面出現(xiàn)多少次,或是通過統(tǒng)計(jì)某篇文章或者整個(gè)文庫(kù)里邊該詞出現(xiàn)的頻率做一個(gè)層級(jí),就可以算出它正交化的詞頻統(tǒng)計(jì)。有了這個(gè)相關(guān)的數(shù)據(jù)可以作為數(shù)據(jù)輸入。

NER(Name Entity Recognition):是專門做名字、名詞相關(guān)的物品的一個(gè)識(shí)別。

POS(Part Of Speech,詞性解析):像中文的主謂賓是主語(yǔ),在英語(yǔ)里邊就是形容詞、名詞、代名詞。

N-Gram(組合詞頻):比如Cat就是一個(gè)單詞;Running Cat,就是一個(gè)詞組,它是有兩個(gè)單詞進(jìn)行,就是2-gram,N-gram就是把這些高頻組合的詞去挖掘出來。

Word embedding:把各個(gè)詞,按照它們的類別進(jìn)行分類。比如Man、Woman可以按照性別等等進(jìn)行分類,可以把它作為一個(gè)相關(guān)性的向量展開,這就是單詞嵌入,每個(gè)詞就賦予了更深的意義。

有了以上的這些就可以做進(jìn)一步的分析。比如情緒分析,喜歡還是不喜歡,正面的色彩還是負(fù)面的色彩。像一些打分系統(tǒng),就是用情緒分析來做。

也可以使用Word Embedding繼續(xù)做GloVe/Word2Vec。把詞展開到對(duì)應(yīng)的向量空間,從而可以判斷它在整個(gè)句子的成分;或者通過聯(lián)系上下文來判斷該詞在一段內(nèi)容里表示的具體意思,或者對(duì)將要出現(xiàn)的下文做判斷預(yù)測(cè)。

同樣還可以開發(fā)聊天機(jī)器人,有了這些NLP的手段可以去跟真人聊天,或者是解決一些簡(jiǎn)單的與真人互動(dòng)的問題。比如開燈關(guān)燈、開電視,從語(yǔ)音分析里面提取想要的重點(diǎn),達(dá)到想要完成的愿望。

最后一個(gè)實(shí)例是Netflix Artwork。這也是很有意思的一個(gè)實(shí)例。Netflix用上了數(shù)據(jù)科學(xué)和AI技術(shù)。

對(duì)不同的人群來說,這些海報(bào)應(yīng)該怎么樣宣傳?這里就可以把影片的各個(gè)情節(jié)都提取相應(yīng)的插圖作為海報(bào),喜歡恐怖片的朋友可能會(huì)更愛看點(diǎn)帶血腥的,或者帶火焰的;喜歡小朋友的觀眾可能看到有很多小孩的海報(bào);還有的人喜歡某一個(gè)明星,那么他個(gè)人的海報(bào)對(duì)于作為粉絲的你來說更容易感興趣。因此這里需要一個(gè)有效的推薦引擎來給不同的用戶推薦,來讓用戶看了這個(gè)宣傳海報(bào)以后更有可能點(diǎn)擊播放。

傳統(tǒng)的方法就是首先收集數(shù)據(jù),建好模,做好各種A/B testing,然后把這個(gè)Model正式出品,執(zhí)行在前端。這個(gè)方法會(huì)耗時(shí)很久,短暫來說可能也要花上幾星期,長(zhǎng)一點(diǎn)可能是數(shù)月。在這段時(shí)間內(nèi),可能用戶的喜好就會(huì)發(fā)生很大的變化。可能在這個(gè)模型推出以后跟之前預(yù)測(cè)的用戶在這個(gè)時(shí)間點(diǎn)的品位又不一樣,模型反而不清晰,產(chǎn)生很大的分歧。

Netflix最新的算法是一種強(qiáng)化學(xué)習(xí)的手段叫Reinforcement Learning(RL)。它的主要特點(diǎn)就是可以快速的迭代,持續(xù)的優(yōu)化。

它的核心思想簡(jiǎn)單來說是就是多臂帶寬(Multi-Arm Bandit)的算法。在RL里面定義一個(gè)state,通過rewardfunction Q,就會(huì)得出reword是多少。像這個(gè)章魚一樣,每執(zhí)行不同的步驟就會(huì)有不同的效果,每一臺(tái)都像賭博機(jī)一樣,啟動(dòng)了賭博機(jī)A和賭博機(jī)C,可能會(huì)輸或者都會(huì)贏,value都不一樣。

上圖中的公式在這里就定義了:功效應(yīng)該等于reward加上γ乘以未來的功效。假如γ是0,就不考慮未來期望值,上一次得到的reward是多少,就一直按照這個(gè)方式去進(jìn)行,不會(huì)去考慮其他的可能性。

現(xiàn)在看來要達(dá)到最好的辦法,Netflix采用了一個(gè)叫做Contextual Bandit(環(huán)境帶寬算法)。


環(huán)境帶寬算法實(shí)際上是來定義用戶是一種環(huán)境變量,因?yàn)槊恳粋€(gè)用戶都有不同的背景和喜好,Netflix就把剛才的公式復(fù)雜化,加入了learning rate。意思就是說顧客未來的這個(gè)Q’,需要通過建模來達(dá)到通預(yù)測(cè)的功效。

加入了learning rate之后,α如果等于1,就可以去掉兩邊,換成多臂帶寬算法;如果模型不需要太考慮未來,那就用剛才簡(jiǎn)單優(yōu)化算法,按照每一次的結(jié)果,來選每次得到最高效用的那個(gè)模型;如果想讓RL模型去學(xué)習(xí)更多、探索更多未來的未知的情況,就假設(shè)α不是1,這個(gè)時(shí)候Q’ 的作用就能夠體現(xiàn)出來。

Q’用一個(gè)類似于深度神經(jīng)網(wǎng)絡(luò)這樣的模型來做預(yù)測(cè),例如把數(shù)以百萬(wàn)的客戶的瀏覽記錄,個(gè)人背景,還有年齡性別這些相應(yīng)的信息作為輸入,用這樣的方法對(duì)這些信息做一個(gè)深度學(xué)習(xí)的Training

另外一個(gè)簡(jiǎn)單的例子是股市交易,輸入信息是budget和shares,加上交易的記錄,可以做出一個(gè)深度學(xué)習(xí)的網(wǎng)絡(luò)。它可以做出需要買還是賣還是hold的決策。最后可以用Q’作為未來回報(bào)的預(yù)測(cè)。有了整套系統(tǒng)之后,只要知道了近期的return,就可以預(yù)測(cè)的未來的Return。當(dāng)然,這個(gè)Q’太初級(jí),可能要在不斷的迭代之后才可以正式地被使用。通過比剛才提到的單一的建模考慮到更多的變量,它會(huì)更加快速的迭代。


電商行業(yè)的新寵,就是深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)以及遞歸神經(jīng)網(wǎng)絡(luò),以及強(qiáng)化學(xué)習(xí)。在未來的電商行業(yè)里,通過積極的發(fā)展,它們運(yùn)用的方向是非常廣闊的。像行為預(yù)測(cè),智能圖像、還有語(yǔ)音識(shí)別、個(gè)性化推薦,在電商各個(gè)環(huán)節(jié)都是必不可少的。未來應(yīng)該會(huì)很快的看到這些AI的技術(shù)運(yùn)用于顧客的體驗(yàn)和買賣活動(dòng)當(dāng)中。

電商現(xiàn)在已經(jīng)是無所不在了,可以說是貫穿于大家的吃穿住行,什么都和它離不開。電商可以被簡(jiǎn)單的定義為:Business model enabling a firm or individual to conduct businesses。這篇文章我們來講數(shù)據(jù)科學(xué)與AI技術(shù)在電商中的運(yùn)用。

數(shù)據(jù)科學(xué),也就是數(shù)據(jù)驅(qū)動(dòng)科學(xué)(data driven class),是一種跨科學(xué)的方法。通常它結(jié)合多種算法和系統(tǒng)領(lǐng)域,被使用于提供各種形式的數(shù)據(jù)支持和連接。


?數(shù)據(jù)分析


一次交易行為對(duì)于電商來說的第一步是Customer在電腦前瀏覽物品下單,放在購(gòu)物車。然后是第二步的刷卡、買單,到之后的這個(gè)單被接收,刷卡成功,確認(rèn)郵件的發(fā)送和接收,到最后的warehouse打包準(zhǔn)備及發(fā)貨。

整個(gè)流程會(huì)產(chǎn)生很多的流量數(shù)據(jù)(Traffic Data)。比如說用戶的行為,包括Impression(看到的印象流量)、Click Though(點(diǎn)擊的行為)、Session(花多少時(shí)間在看相應(yīng)的物品)、Email Activity(郵件端的traffic),包括打開點(diǎn)擊,訂閱,或者取消訂閱等等,這些都是流量數(shù)據(jù)。

相應(yīng)的交易數(shù)據(jù)有這樣幾種:Order History(下單的記錄,買賣過什么樣的東西)、Membership Subscription(會(huì)員訂閱,從什么時(shí)間開始、訂閱多久、是什么樣的會(huì)員)、等等。

最后還有個(gè)人相關(guān)的用戶信息數(shù)據(jù),分為Demographic和Geographic。Demographic是人口調(diào)查,比如用戶的性別、年齡、還有收入情況,住在哪里、有沒有買房、有沒有車,這些都算人口普查數(shù)據(jù)。Geographic就是地理信息,常用住址是住在大城市,還是二三線城市,或者是在郊外,這些是地理信息。

同樣的,每個(gè)顧客都會(huì)有自己的Traffic/Transaction Data,就是瀏覽的信息和下單交易的數(shù)據(jù)。在電商里有很多種不同的數(shù)據(jù),數(shù)據(jù)科學(xué)AI技術(shù)就應(yīng)用在這里,就是從數(shù)據(jù)里面提取出知識(shí)和一些有用的見解。

實(shí)例分析:三個(gè)電商應(yīng)用AI的實(shí)例:

Amazon GO(今年年初亞馬遜才正式開放的無人售貨店)

Smart Speaker(現(xiàn)在已經(jīng)比較流行的智能音響)

Netflix Artwork (做關(guān)于影片的用戶推薦)

Amazon GO 是一家無人商店,國(guó)內(nèi)像阿里巴巴也有開這種相應(yīng)的無人商店,使用的是差不多的技術(shù)形態(tài)。Amazon Go目前只在西雅圖開了一家試用店。進(jìn)門是需要排隊(duì)的,因?yàn)橄肴タ吹娜颂唷?/span>

像這一幅圖展示的,這家店沒有營(yíng)業(yè)員在出門的時(shí)候結(jié)算。它主要的技術(shù)是Computer Vision做動(dòng)態(tài)識(shí)別、用Deep learning做動(dòng)作的一些行為判斷、還有各種Sensor、Sensor Fusion進(jìn)行會(huì)員身份和物品的探測(cè)。

進(jìn)門之前顧客要下載一個(gè)Amazon GO的APP,登陸以后就可以通過Sensor把用戶的形態(tài)、相關(guān)的信息、買過什么東西、是會(huì)員還是非會(huì)員等等信息都查到。掃了門口的二維碼以后,用戶就可以進(jìn)入。進(jìn)去以后天花板上到處都是攝像頭,照片里沒有體現(xiàn),但是顧客的一舉一動(dòng)都是被完全記錄下來的。

那么Computer Vision(動(dòng)態(tài)識(shí)別技術(shù))的技術(shù)是什么原理呢?它主要的技術(shù)核心是用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)。

每一個(gè)識(shí)別都帶有一個(gè)概率值,概率值越高說明這個(gè)圖片里有這個(gè)物品的概率就越大。極高的概率就可以確認(rèn)這個(gè)圖片里面有什么樣的物品。


卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)靜態(tài)的圖片的一個(gè)判斷,但實(shí)際上Amazon GO商店里的顧客都是移動(dòng)的。大家挑選商品的時(shí)候都是走來走去的,所以亞馬遜必須要進(jìn)一步的利用CNN卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)識(shí)別。

動(dòng)態(tài)識(shí)別算法近十年發(fā)展的很快。最初的Sliding Windows(一種滑動(dòng)窗口的算法)的概念是:每一幅靜態(tài)的圖片里,定義一個(gè)像濾鏡一樣的窗口,在這個(gè)窗口從左到右,從上到下不斷的掃描,每個(gè)窗口都會(huì)做一個(gè)判斷,每個(gè)小窗口都有對(duì)應(yīng)的圖片,來判斷這里面有沒有想要的物品。上圖是判斷圖片里有沒有車。滑動(dòng)窗體算法中的窗體是固定掃動(dòng),一直掃描到找到目標(biāo)物體為止。比如這輛車的匹配度是零點(diǎn)九幾,那么通過找出最高概率的窗口就可以確認(rèn)這里確實(shí)是有一輛車。這個(gè)算法的缺點(diǎn)效率非常的低下。因?yàn)橐岩环髨D分解成很多小圖,并不斷的掃描。這對(duì)計(jì)算能力來說的確是個(gè)挑戰(zhàn)。

最近幾年來比較流行的算法叫做YOLO,就是You Only Look Once(只掃一眼)。任意一幅圖片或視頻中某個(gè)時(shí)段的樣片,YOLO可以很快的去判斷這個(gè)圖片里面的物體。YOLO主要的精神是把圖片按照網(wǎng)格(grid)分析。通過在每個(gè)網(wǎng)格里判斷物品的重心(Center),可以精確的定位物體在圖片中的位置。以剛剛的車子作為例子,YOLO判斷這些網(wǎng)格的重心在哪里。同樣它也會(huì)判斷小網(wǎng)格里面有沒有目標(biāo)物體,如果有的話就會(huì)提供一個(gè)很高的概率。

當(dāng)把這些發(fā)現(xiàn)有車的小窗口全部合在一起,變成一個(gè)大的窗口,那就需要設(shè)一個(gè)相應(yīng)的域值。當(dāng)域值超過一定的量,就說明物品確實(shí)存在于此小窗口。把小窗口全部連接起來,就會(huì)得到大一點(diǎn)的圖片。同樣再通過CNN做一次判斷,判斷這是不是對(duì)概率有所提高,或者降低。這樣就可以通過每個(gè)小圖拼湊起來個(gè)完整的物品。

這里面還有很多復(fù)雜的地方。比如說,YOLO有可能會(huì)發(fā)現(xiàn)其他框也可以體現(xiàn)一個(gè)車,可以有很多的連接各種小的grid也可以得到一個(gè)比較完整的物體,這個(gè)時(shí)候就要判斷哪一個(gè)框最能代表這個(gè)物品。

總而言之,YOLO再加上目前最火的算法GPU可以很快的把動(dòng)態(tài)的圖片提取出包含這個(gè)物品的小框,進(jìn)而確定是什么樣的物品。是人、還是商品、還是人和商品。這樣的話,可以很快地確定這張圖里面的顧客有沒有拿東西。2014年Amazon就已經(jīng)申請(qǐng)了相關(guān)的專利。

每個(gè)物品都有自己對(duì)應(yīng)的編碼,以此幫助系統(tǒng)來判斷該物品是不是已經(jīng)被拿走。這里可以判斷商品的數(shù)據(jù)源有很多,首先從卷積神經(jīng)網(wǎng)絡(luò)得出來自圖片的判定,還有來自重量和壓力變化的判定,同時(shí)還可以結(jié)合用戶過去的交易記錄來判斷是不是有可能的交易行為。

這里也可以用到DeepLearning(深度學(xué)習(xí)),作為input可以判斷出用戶是否有購(gòu)買能力,從而做出相應(yīng)的判斷。

下一個(gè)實(shí)例是SmartSpeaker。?

從2014年開始,Amazon就投入了大量的資金研發(fā)Alexa這個(gè)智能音箱的產(chǎn)品。緊跟著大家發(fā)現(xiàn)這個(gè)市場(chǎng)特別的好,Google也推出了Google assistant,微軟也是在2016年推出了音箱Cortana。到去年為止,亞馬遜又提出升級(jí)版本,推出了Show還有Look這種帶攝像頭的產(chǎn)品。蘋果也推出了自家的智能音箱Homepod,今年會(huì)推出它的更新版,和Siri聯(lián)系在一起。三星也是相應(yīng)的推出Bixby,廣告上也經(jīng)常在提到。

智能音箱是非常火爆的產(chǎn)品,各大電商技術(shù)巨頭都推出相應(yīng)產(chǎn)品,幫助大家在網(wǎng)上下單,買賣東西。Amazon Echo這個(gè)最先驅(qū)的產(chǎn)品,或者說從Echo開始智能音箱才打開了市場(chǎng)。

Echo現(xiàn)在的功能已經(jīng)非常的強(qiáng)大了,圖像化的它可以連上手機(jī)的各種APP,聽音樂、聽電臺(tái)、聽新聞、看電視、叫車,放在家里可以用來看Amazon fireTV,同時(shí)智能家電像溫度開關(guān),還有家里的電燈開關(guān),都可以通過智能音箱去控制。

Echo主要的技術(shù)背景就是語(yǔ)音識(shí)別和語(yǔ)義分析。語(yǔ)音識(shí)別就是通過不管是英語(yǔ)還是中文,還是其他阿拉伯語(yǔ)、日本語(yǔ)都可以讓智能音箱能了解到大家想要做什么樣的事情。

語(yǔ)音識(shí)別的技術(shù)近幾年也是發(fā)展迅猛。最初的語(yǔ)音識(shí)別就是把每個(gè)語(yǔ)音波段提取相應(yīng)的音素(Phoneme)并提取特征。就像拼音的元音、輔音,一些比較有代表性的發(fā)音都是由音素組成。把這些元素提取出來,拼湊成相應(yīng)的字,或者詞組。這是剛開始的語(yǔ)音識(shí)別的比較工程化的技術(shù),現(xiàn)在已經(jīng)發(fā)展到用RNN(遞歸神經(jīng)網(wǎng)絡(luò))。

遞歸神經(jīng)網(wǎng)絡(luò)不同于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),它是有遞歸性的。意思就是說每一個(gè)神經(jīng)元(見上圖)是互相連接的。上一層的a(激活函數(shù))處理完的輸出可以直接輸出到下一個(gè)函數(shù),這樣不斷的迭代。同時(shí)每一個(gè)相應(yīng)的輸入,不同的單詞、詞組都會(huì)分別輸入到每個(gè)神經(jīng)元里面,但是這些神經(jīng)元又是跟之前的神經(jīng)元相連。更復(fù)雜一點(diǎn)的網(wǎng)絡(luò)可以從正方向相連,也可以從反方向互相聯(lián)系。

最后訓(xùn)練成功的這個(gè)網(wǎng)絡(luò)里每個(gè)神經(jīng)元都會(huì)輸出Y1Y2這樣的值。如果需要提取名字的話像“Teddy bear”輸出可以這樣表示:0011000。更復(fù)雜的情況里Y可以變成一整個(gè)向量性的輸出。在一個(gè)詞庫(kù)里面,比如“Teddy”對(duì)應(yīng)的值為1,詞庫(kù)里面其他不相關(guān)的詞就會(huì)判斷為0。

當(dāng)遞歸神經(jīng)網(wǎng)絡(luò)判斷出來某個(gè)詞在相對(duì)應(yīng)的階段的語(yǔ)音接近于對(duì)應(yīng)的單詞,它直接跳過音素這種比較傳統(tǒng)的步驟,直接通過整個(gè)語(yǔ)音的長(zhǎng)度和廣度判斷出這段聲音代表的什么意思。這個(gè)就是語(yǔ)音識(shí)別的大概的工作原理。

有了語(yǔ)音識(shí)別,識(shí)別出的相應(yīng)的文字就可以做NLP(自然語(yǔ)言分析),也是語(yǔ)義分析。

語(yǔ)義分析也是很熱門的學(xué)科,可以做各種各樣的事情,比如說最常見的:

詞頻統(tǒng)計(jì):通過公式計(jì)算詞頻在某個(gè)文件、某個(gè)文檔里面出現(xiàn)多少次,或是通過統(tǒng)計(jì)某篇文章或者整個(gè)文庫(kù)里邊該詞出現(xiàn)的頻率做一個(gè)層級(jí),就可以算出它正交化的詞頻統(tǒng)計(jì)。有了這個(gè)相關(guān)的數(shù)據(jù)可以作為數(shù)據(jù)輸入。

NER(Name Entity Recognition):是專門做名字、名詞相關(guān)的物品的一個(gè)識(shí)別。

POS(Part Of Speech,詞性解析):像中文的主謂賓是主語(yǔ),在英語(yǔ)里邊就是形容詞、名詞、代名詞。

N-Gram(組合詞頻):比如Cat就是一個(gè)單詞;Running Cat,就是一個(gè)詞組,它是有兩個(gè)單詞進(jìn)行,就是2-gram,N-gram就是把這些高頻組合的詞去挖掘出來。

Word embedding:把各個(gè)詞,按照它們的類別進(jìn)行分類。比如Man、Woman可以按照性別等等進(jìn)行分類,可以把它作為一個(gè)相關(guān)性的向量展開,這就是單詞嵌入,每個(gè)詞就賦予了更深的意義。

有了以上的這些就可以做進(jìn)一步的分析。比如情緒分析,喜歡還是不喜歡,正面的色彩還是負(fù)面的色彩。像一些打分系統(tǒng),就是用情緒分析來做。

也可以使用Word Embedding繼續(xù)做GloVe/Word2Vec。把詞展開到對(duì)應(yīng)的向量空間,從而可以判斷它在整個(gè)句子的成分;或者通過聯(lián)系上下文來判斷該詞在一段內(nèi)容里表示的具體意思,或者對(duì)將要出現(xiàn)的下文做判斷預(yù)測(cè)。

同樣還可以開發(fā)聊天機(jī)器人,有了這些NLP的手段可以去跟真人聊天,或者是解決一些簡(jiǎn)單的與真人互動(dòng)的問題。比如開燈關(guān)燈、開電視,從語(yǔ)音分析里面提取想要的重點(diǎn),達(dá)到想要完成的愿望。

最后一個(gè)實(shí)例是Netflix Artwork。這也是很有意思的一個(gè)實(shí)例。Netflix用上了數(shù)據(jù)科學(xué)和AI技術(shù)。

對(duì)不同的人群來說,這些海報(bào)應(yīng)該怎么樣宣傳?這里就可以把影片的各個(gè)情節(jié)都提取相應(yīng)的插圖作為海報(bào),喜歡恐怖片的朋友可能會(huì)更愛看點(diǎn)帶血腥的,或者帶火焰的;喜歡小朋友的觀眾可能看到有很多小孩的海報(bào);還有的人喜歡某一個(gè)明星,那么他個(gè)人的海報(bào)對(duì)于作為粉絲的你來說更容易感興趣。因此這里需要一個(gè)有效的推薦引擎來給不同的用戶推薦,來讓用戶看了這個(gè)宣傳海報(bào)以后更有可能點(diǎn)擊播放。

傳統(tǒng)的方法就是首先收集數(shù)據(jù),建好模,做好各種A/B testing,然后把這個(gè)Model正式出品,執(zhí)行在前端。這個(gè)方法會(huì)耗時(shí)很久,短暫來說可能也要花上幾星期,長(zhǎng)一點(diǎn)可能是數(shù)月。在這段時(shí)間內(nèi),可能用戶的喜好就會(huì)發(fā)生很大的變化。可能在這個(gè)模型推出以后跟之前預(yù)測(cè)的用戶在這個(gè)時(shí)間點(diǎn)的品位又不一樣,模型反而不清晰,產(chǎn)生很大的分歧。

Netflix最新的算法是一種強(qiáng)化學(xué)習(xí)的手段叫Reinforcement Learning(RL)。它的主要特點(diǎn)就是可以快速的迭代,持續(xù)的優(yōu)化。

它的核心思想簡(jiǎn)單來說是就是多臂帶寬(Multi-Arm Bandit)的算法。在RL里面定義一個(gè)state,通過rewardfunction Q,就會(huì)得出reword是多少。像這個(gè)章魚一樣,每執(zhí)行不同的步驟就會(huì)有不同的效果,每一臺(tái)都像賭博機(jī)一樣,啟動(dòng)了賭博機(jī)A和賭博機(jī)C,可能會(huì)輸或者都會(huì)贏,value都不一樣。

現(xiàn)在看來要達(dá)到最好的辦法,Netflix采用了一個(gè)叫做Contextual Bandit(環(huán)境帶寬算法)。

環(huán)境帶寬算法實(shí)際上是來定義用戶是一種環(huán)境變量,因?yàn)槊恳粋€(gè)用戶都有不同的背景和喜好,Netflix就把剛才的公式復(fù)雜化,加入了learning rate。意思就是說顧客未來的這個(gè)Q’,需要通過建模來達(dá)到通預(yù)測(cè)的功效。

加入了learning rate之后,α如果等于1,就可以去掉兩邊,換成多臂帶寬算法;如果模型不需要太考慮未來,那就用剛才簡(jiǎn)單優(yōu)化算法,按照每一次的結(jié)果,來選每次得到最高效用的那個(gè)模型;如果想讓RL模型去學(xué)習(xí)更多、探索更多未來的未知的情況,就假設(shè)α不是1,這個(gè)時(shí)候Q’ 的作用就能夠體現(xiàn)出來。

Q’用一個(gè)類似于深度神經(jīng)網(wǎng)絡(luò)這樣的模型來做預(yù)測(cè),例如把數(shù)以百萬(wàn)的客戶的瀏覽記錄,個(gè)人背景,還有年齡性別這些相應(yīng)的信息作為輸入,用這樣的方法對(duì)這些信息做一個(gè)深度學(xué)習(xí)的Training

另外一個(gè)簡(jiǎn)單的例子是股市交易,輸入信息是budget和shares,加上交易的記錄,可以做出一個(gè)深度學(xué)習(xí)的網(wǎng)絡(luò)。它可以做出需要買還是賣還是hold的決策。最后可以用Q’作為未來回報(bào)的預(yù)測(cè)。有了整套系統(tǒng)之后,只要知道了近期的return,就可以預(yù)測(cè)的未來的Return。當(dāng)然,這個(gè)Q’太初級(jí),可能要在不斷的迭代之后才可以正式地被使用。通過比剛才提到的單一的建模考慮到更多的變量,它會(huì)更加快速的迭代。

電商行業(yè)的新寵,就是深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)以及遞歸神經(jīng)網(wǎng)絡(luò),以及強(qiáng)化學(xué)習(xí)。在未來的電商行業(yè)里,通過積極的發(fā)展,它們運(yùn)用的方向是非常廣闊的。像行為預(yù)測(cè),智能圖像、還有語(yǔ)音識(shí)別、個(gè)性化推薦,在電商各個(gè)環(huán)節(jié)都是必不可少的。未來應(yīng)該會(huì)很快的看到這些AI的技術(shù)運(yùn)用于顧客的體驗(yàn)和買賣活動(dòng)當(dāng)中。




(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即申請(qǐng)數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
  • 相關(guān)主題
  • 相關(guān)大數(shù)據(jù)問答
  • 相關(guān)大數(shù)據(jù)知識(shí)
產(chǎn)品功能
數(shù)據(jù)填報(bào)

對(duì)分析表中的數(shù)據(jù)進(jìn)行補(bǔ)錄或修改

數(shù)據(jù)處理

在可視化建模的同時(shí)同步完成ETL流程設(shè)計(jì)

大屏可視化

可任意制作酷炫靈動(dòng)的圖標(biāo)和大屏

自助式分析

只需簡(jiǎn)單拖拽維度和指標(biāo)即可生成相應(yīng)的分析圖表

預(yù)測(cè)挖掘

讓繁瑣復(fù)雜的數(shù)據(jù)挖掘過程變得簡(jiǎn)單易用

customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢