用于商業(yè)智能的數(shù)據(jù)存儲
數(shù)據(jù)存在于整個組織的多個系統(tǒng)中。為了進行最準(zhǔn)確的分析,公司應(yīng)確保這些系統(tǒng)中每個系統(tǒng)的數(shù)據(jù)類型之間的格式標(biāo)準(zhǔn)化。例如,大型企業(yè)可以在其客戶關(guān)系管理(CRM)應(yīng)用程序中獲得有關(guān)其客戶的信息,并在其企業(yè)資源計劃(ERP)應(yīng)用程序中獲得財務(wù)數(shù)據(jù)。這些單獨的程序可能對數(shù)據(jù)進行不同的標(biāo)記和分類,并且需要在分析之前對數(shù)據(jù)進行標(biāo)準(zhǔn)化。

一些
商業(yè)智能軟件程序通過本地API連接或webhook直接從源應(yīng)用程序中提取數(shù)據(jù)進行分析。其他
商業(yè)智能系統(tǒng)需要使用數(shù)據(jù)存儲系統(tǒng)來在公共位置聚合各種數(shù)據(jù)集。小型企業(yè),單個部門或單個用戶可能會發(fā)現(xiàn)本地連接有效,但是大型公司,企業(yè)公司和生成大型數(shù)據(jù)集的公司將需要更全面的商業(yè)智能設(shè)置。
如果他們選擇集中式存儲解決方案,則企業(yè)可以使用
數(shù)據(jù)倉庫或
數(shù)據(jù)集市來存儲其業(yè)務(wù)信息,并購買提取,轉(zhuǎn)換和加載(ETL)軟件來促進其數(shù)據(jù)存儲。或者,他們可以使用像Hadoop這樣的數(shù)據(jù)存儲框架來管理其數(shù)據(jù)。
數(shù)據(jù)倉庫
商業(yè)智能通過構(gòu)建數(shù)據(jù)倉庫將不同的數(shù)據(jù)源組合到一個數(shù)據(jù)庫中。數(shù)據(jù)倉庫充當(dāng)其他BI應(yīng)用程序要查詢和分析的數(shù)據(jù)的中央存儲庫。數(shù)據(jù)倉庫使用提取,轉(zhuǎn)換和加載方法,匯總了整個組織中的數(shù)據(jù),并使其他應(yīng)用程序更容易快速訪問它們。
分析和報告工具仍然可以在沒有數(shù)據(jù)倉庫的情況下運行,但是通過CRM軟件甚至銷售點(POS)軟件運行報告不僅限制了智能的重點,而且還負面影響了這些應(yīng)用程序的性能。而且,這些系統(tǒng)中的數(shù)據(jù)以不同的格式存在,因此在不將數(shù)據(jù)重構(gòu)為通用格式并將其存儲在通用區(qū)域的情況下,很難得出結(jié)論和確定模式。
存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)采用維度或事實的形式,這些維度或事實是從產(chǎn)生數(shù)據(jù)的系統(tǒng)中提取的。事實代表特定操作(例如小部件的銷售)的數(shù)字。維度通過添加日期和位置為事實提供上下文,也稱為元數(shù)據(jù)。例如,尺寸可以使小部件的銷售分散數(shù)月或數(shù)年,從而使查詢更易于執(zhí)行。
數(shù)據(jù)集市
從本質(zhì)上來說,數(shù)據(jù)倉庫是更簡單,更狹窄的版本,數(shù)據(jù)集市專注于特定的數(shù)據(jù)子集,而不是存儲整個公司的數(shù)據(jù)。他們可能存儲更頻繁使用的數(shù)據(jù),或僅一個部門使用的數(shù)據(jù)。公司會發(fā)現(xiàn),實施數(shù)據(jù)集市要比數(shù)據(jù)倉庫便宜,而且它們可以通過限制數(shù)據(jù)庫的復(fù)雜性為非IT員工提供更好的用戶體驗。
提取,轉(zhuǎn)換和加載(ETL)軟件
ETL應(yīng)用程序以將數(shù)據(jù)傳輸?shù)綌?shù)據(jù)倉庫中的過程命名,可以在中央位置標(biāo)準(zhǔn)化數(shù)據(jù)。公司可以購買ETL軟件,數(shù)據(jù)倉庫軟件或作為附加應(yīng)用程序。讓我們檢查一下ETL流程的每個部分:
提取:數(shù)據(jù)提取是從其原始系統(tǒng)中檢索數(shù)據(jù)的過程。通常是流程中最困難的方面,從其源系統(tǒng)(例如,ERP或CRM系統(tǒng))提取數(shù)據(jù)的成功程度會影響其余流程的成功。非結(jié)構(gòu)化數(shù)據(jù)的格式不適合插入行和列,這使得在將數(shù)據(jù)存儲在數(shù)據(jù)倉庫中之后進行分析變得更加困難。用元數(shù)據(jù)標(biāo)記非結(jié)構(gòu)化數(shù)據(jù),例如有關(guān)作者,內(nèi)容類型和其他識別因素的信息,可以幫助團隊在將數(shù)據(jù)存儲在數(shù)據(jù)倉庫中并最終加載到
BI軟件中時找到正確的數(shù)據(jù)。
轉(zhuǎn)換:從原始應(yīng)用程序中提取數(shù)據(jù)后,必須對數(shù)據(jù)進行規(guī)范化,然后才能將其存儲在數(shù)據(jù)倉庫中以備將來使用。為了使商務(wù)智能系統(tǒng)中的分析正常工作,來自不同來源應(yīng)用程序的數(shù)據(jù)必須以相同的格式存在,否則查詢將不準(zhǔn)確。
加載:現(xiàn)在已經(jīng)從數(shù)據(jù)源系統(tǒng)中提取了數(shù)據(jù)并在轉(zhuǎn)換階段對其進行了規(guī)范化,現(xiàn)在可以將其加載到中央數(shù)據(jù)庫(最常見的是數(shù)據(jù)倉庫)中了。負載頻率將因組織而異。一些企業(yè)可能每周輸入一次新數(shù)據(jù),而其他企業(yè)則每天都會輸入。
Hadoop的
Hadoop是流行的數(shù)據(jù)存儲框架,是用于存儲和處理大量數(shù)據(jù)的基礎(chǔ)架構(gòu)。盡管Hadoop存儲數(shù)據(jù),但與傳統(tǒng)數(shù)據(jù)倉庫的存儲方式卻有所不同。Hadoop使用群集系統(tǒng)-Hadoop分布式文件系統(tǒng)或HDFS-允許用戶將文件存儲在多個服務(wù)器中。
Hadoop的基礎(chǔ)設(shè)施為管理和產(chǎn)生大量數(shù)據(jù)以及非常大的數(shù)據(jù)文件的企業(yè)提供了一個出色的框架。由于其集群框架,Hadoop還可以充當(dāng)備份機制:如果一臺服務(wù)器出現(xiàn)故障,企業(yè)就不會失去對所有數(shù)據(jù)的訪問權(quán)限。Hadoop不適合像普通數(shù)據(jù)倉庫這樣的即席查詢,對于不熟悉JavaScript的用戶而言,Hadoop可能會非常復(fù)雜。
使用商業(yè)智能軟件分析大數(shù)據(jù)
無論企業(yè)是選擇將其數(shù)據(jù)存儲在數(shù)據(jù)倉庫中還是在源系統(tǒng)上運行查詢,
數(shù)據(jù)分析以及由此產(chǎn)生的見解都使該領(lǐng)域吸引了業(yè)務(wù)用戶。分析技術(shù)在復(fù)雜性方面有所不同,但是組合大量規(guī)范化數(shù)據(jù)以識別模式的通用方法在各個平臺之間仍然保持一致。
數(shù)據(jù)挖掘
數(shù)據(jù)挖掘也稱為“數(shù)據(jù)發(fā)現(xiàn)”,涉及對數(shù)據(jù)集的自動和半自動分析,以發(fā)現(xiàn)模式和不一致之處。從數(shù)據(jù)挖掘中得出的常見相關(guān)性包括對特定的數(shù)據(jù)集進行分組,在數(shù)據(jù)中查找異常值以及從不同的數(shù)據(jù)集中繪制連接或依存關(guān)系。
數(shù)據(jù)挖掘通常會發(fā)現(xiàn)更復(fù)雜的分析中使用的模式,例如預(yù)測建模,這使其成為BI流程的重要組成部分。
在數(shù)據(jù)挖掘執(zhí)行的標(biāo)準(zhǔn)過程中,關(guān)聯(lián)規(guī)則學(xué)習(xí)帶來了最大的好處。通過檢查數(shù)據(jù)以繪制依存關(guān)系并構(gòu)建關(guān)聯(lián),關(guān)聯(lián)規(guī)則可以幫助企業(yè)更好地了解客戶與網(wǎng)站互動的方式,甚至是影響他們購買行為的因素。
最初引入關(guān)聯(lián)規(guī)則學(xué)習(xí)是為了發(fā)現(xiàn)超市銷售點系統(tǒng)中記錄的購買數(shù)據(jù)之間的聯(lián)系。例如,如果客戶購買了番茄醬和奶酪,則關(guān)聯(lián)規(guī)則可能會發(fā)現(xiàn)該客戶也購買了漢堡包肉。盡管這是一個簡單的示例,但它試圖說明一種分析類型,該分析現(xiàn)在將各種行業(yè)中極其復(fù)雜的事件鏈連接起來,并幫助用戶找到本來可以隱藏的關(guān)聯(lián)。
使用商務(wù)智能軟件進行數(shù)據(jù)分析
預(yù)測分析應(yīng)用程序可能是BI最令人興奮的方面之一,它是數(shù)據(jù)挖掘的高級子集。顧名思義,預(yù)測分析根據(jù)當(dāng)前和歷史數(shù)據(jù)預(yù)測未來事件。通過繪制數(shù)據(jù)集之間的連接,這些軟件應(yīng)用程序可以預(yù)測未來事件的可能性,這可以為企業(yè)帶來巨大的競爭優(yōu)勢。
預(yù)測分析涉及詳細的建模,甚至涉足機器學(xué)習(xí)領(lǐng)域,其中軟件實際上是從過去的事件中學(xué)習(xí)以預(yù)測未來的結(jié)果。為了我們的目的,讓我們關(guān)注預(yù)測分析的三種主要形式:
預(yù)測建模
這種最著名的預(yù)測分析領(lǐng)域是這種軟件,其名稱含義是:它可以進行預(yù)測,尤其是在涉及單個元素時。預(yù)測模型在特定的測量單位和與該單位有關(guān)的至少一個或多個特征之間尋找相關(guān)性。目標(biāo)是在不同數(shù)據(jù)集之間找到相同的相關(guān)性。
描述性建模
預(yù)測模型搜索單位與其功能之間的單個相關(guān)性(例如,為了預(yù)測客戶更換保險提供商的可能性),描述性模型試圖將數(shù)據(jù)縮減為可管理的大小和分組。描述性分析非常適合用于匯總信息,例如唯一的頁面瀏覽量或社交媒體提及。
決策分析
決策分析考慮了與離散決策相關(guān)的所有因素。決策分析預(yù)測動作將在決策中涉及的所有變量中產(chǎn)生級聯(lián)效應(yīng)。換句話說,決策分析為企業(yè)提供了預(yù)測結(jié)果并采取行動所需的具體信息。
自然語言處理
數(shù)據(jù)以三種主要形式出現(xiàn):結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化。非結(jié)構(gòu)化數(shù)據(jù)是最常見的數(shù)據(jù),包括文本文檔和其他類型的文件,這些文件以計算機無法輕松讀取的格式存在。
非結(jié)構(gòu)化數(shù)據(jù)無法存儲在行或列中,這使得傳統(tǒng)數(shù)據(jù)挖掘軟件無法進行分析。但是,這些數(shù)據(jù)通常對于理解業(yè)務(wù)成果至關(guān)重要。由于存在大量非結(jié)構(gòu)化數(shù)據(jù),因此文本分析應(yīng)該是尋找最佳商務(wù)智能軟件時的主要考慮因素。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)