大數(shù)據(jù)及移動(dòng)互聯(lián)網(wǎng)時(shí)代,每一個(gè)使用移動(dòng)終端的人無時(shí)無刻不在生產(chǎn)數(shù)據(jù),而作為互聯(lián)網(wǎng)服務(wù)提供的產(chǎn)品來說,也在持續(xù)不斷的積累數(shù)據(jù)。數(shù)據(jù)如同人工智能一樣,往往能表現(xiàn)出更為客觀、理性的一面,數(shù)據(jù)可以讓人更加直觀、清晰的認(rèn)識(shí)世界,數(shù)據(jù)也可以指導(dǎo)人更加理智的做出決策。
一、何為大數(shù)據(jù)可視化分析
數(shù)據(jù)可視化,是關(guān)于數(shù)據(jù)視覺表現(xiàn)形式的科學(xué)技術(shù)研究。其主要目的是借助圖形手段,清晰、有效地進(jìn)行傳達(dá)與溝通信息,其中,數(shù)據(jù)的可視化表示被定義為一種以某種形式提取的信息,包括相應(yīng)信息單元的各種屬性和變量。數(shù)據(jù)可視化技術(shù)包含以下幾個(gè)基本概念:
1、數(shù)據(jù)開發(fā)
數(shù)據(jù)開發(fā)是指利用一定的算法和工具對數(shù)據(jù)進(jìn)行定量的推演和計(jì)算。
2、數(shù)據(jù)空間
數(shù)據(jù)空間是由n維屬性和m個(gè)元素組成的數(shù)據(jù)集所構(gòu)成的多維信息空間。
3、數(shù)據(jù)可視化
數(shù)據(jù)可視化是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示,并利用
數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。
4、數(shù)據(jù)分析
數(shù)據(jù)分析指對多維數(shù)據(jù)進(jìn)行切片、塊、旋轉(zhuǎn)等動(dòng)作剖析數(shù)據(jù),從而能多角度多側(cè)面觀察數(shù)據(jù)。
二、大數(shù)據(jù)可視化分析的好處
1、增強(qiáng)互動(dòng)
數(shù)據(jù)可視化的主要好處是它及時(shí)帶來了風(fēng)險(xiǎn)變化。與靜態(tài)圖表不同,可視化的應(yīng)用可以是流動(dòng)性的操作,更有力的了解數(shù)據(jù)信息。
2、接受更快
人腦對視覺信息的處理要比書面信息容易得多。使用圖表來總結(jié)復(fù)雜的數(shù)據(jù),可以確保對關(guān)系的理解要比那些混亂的報(bào)告或電子表格更快。節(jié)省接受時(shí)間。
3、美化數(shù)據(jù)
可視化從視覺的角度來描繪數(shù)據(jù),可根據(jù)技術(shù)工具對數(shù)據(jù)的表現(xiàn)形式進(jìn)行美化,以達(dá)到觀看數(shù)據(jù)的同時(shí)對于視覺也是一種享受的效果。
4、強(qiáng)化關(guān)聯(lián)
數(shù)據(jù)可視化的應(yīng)用可以使數(shù)據(jù)之間的各種聯(lián)系方式緊密關(guān)聯(lián)。以數(shù)據(jù)圖表的形式描繪各組數(shù)據(jù)之間的聯(lián)系。
三、大數(shù)據(jù)可視化分析難點(diǎn)
1)信息丟失:減少可視數(shù)據(jù)集的方法是可行的,但是這會(huì)導(dǎo)致信息的丟失。
2)視覺噪聲:在數(shù)據(jù)集中,大多數(shù)對象之間具有很強(qiáng)的相關(guān)性。用戶無法把他們分離作為獨(dú)立的對象來顯示。
3)大型圖像感知:數(shù)據(jù)可視化不僅受限于設(shè)備的長寬比和分辨率,也受限于現(xiàn)實(shí)世界的感受。
4)高性能要求:在靜態(tài)可視化幾乎沒有這個(gè)要求,因?yàn)榭梢暬俣容^低,性能的要求也不高。
5)高速圖像變換:用戶雖然能觀察數(shù)據(jù),卻不能對數(shù)據(jù)強(qiáng)度變化做出反應(yīng)。
四、大數(shù)據(jù)可視化的實(shí)施步驟
1、需求分析
需求分析是大數(shù)據(jù)可視化項(xiàng)目開展的前提,要描述項(xiàng)目背景與目的、業(yè)務(wù)目標(biāo)、業(yè)務(wù)范圍、業(yè)務(wù)需求和功能需求等內(nèi)容,明確實(shí)施單位對可視化的期望和需求。包括需要分析的主題、各主題可能查看的角度、需要發(fā)泄企業(yè)各方面的規(guī)律、用戶的需求等內(nèi)容。
2、建設(shè)數(shù)據(jù)倉庫/數(shù)據(jù)集市的模型
數(shù)據(jù)倉庫/數(shù)據(jù)集市的模型是在需求分析的基礎(chǔ)上建立起來的。數(shù)據(jù)倉庫/數(shù)據(jù)集市建模除了數(shù)據(jù)庫的ER建模和關(guān)系建模,還包括專門針對數(shù)據(jù)倉庫的維度建模技術(shù)。
3、數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、加載(ETL)
數(shù)據(jù)抽取是指將數(shù)據(jù)倉庫/集市需要的數(shù)據(jù)從各個(gè)業(yè)務(wù)系統(tǒng)中抽離出來,因?yàn)槊總€(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量不同,所以要對每個(gè)數(shù)據(jù)源建立不同的抽取程序,每個(gè)數(shù)據(jù)抽取流程都需要使用接口將元數(shù)據(jù)傳送到清洗和轉(zhuǎn)換階段。數(shù)據(jù)清洗的目的是保證抽取的原數(shù)據(jù)的質(zhì)量符合數(shù)據(jù)倉庫/集市的要求并保持?jǐn)?shù)據(jù)的一致性。數(shù)據(jù)轉(zhuǎn)換是整個(gè)ETL過程的核心部分,主要是對原數(shù)據(jù)進(jìn)行計(jì)算和放大。數(shù)據(jù)加載是按照數(shù)據(jù)倉庫/集市模型中各個(gè)實(shí)體之間的關(guān)系將數(shù)據(jù)加載到目標(biāo)表中。
4、建立可視化場景
建立可視化場景是對數(shù)據(jù)倉庫/集市中的數(shù)據(jù)進(jìn)行分析處理的成果,用戶能夠借此從多個(gè)角度查看企業(yè)/單位的運(yùn)營狀況,按照不同的主題和方式探查企業(yè)/單位業(yè)務(wù)內(nèi)容的核心數(shù)據(jù),從而作出更精準(zhǔn)的預(yù)測和判斷。