日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺(tái)

睿治作為國(guó)內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國(guó)數(shù)據(jù)治理市場(chǎng)份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場(chǎng)份額第一。

數(shù)倉(cāng)建設(shè)中最常用模型--Kimball維度建模詳解

時(shí)間:2022-05-05來(lái)源:三七瀏覽數(shù):429

數(shù)據(jù)市集可以理解為一種“小型的數(shù)據(jù)倉(cāng)庫(kù)”維度建模指導(dǎo)我們?cè)跀?shù)據(jù)倉(cāng)庫(kù)中如何建表,維度建模分為兩種表:事實(shí)表和維度表。

先來(lái)介紹下此書(shū),此書(shū)是基于作者 60 多年的實(shí)際業(yè)務(wù)環(huán)境而總結(jié)的經(jīng)驗(yàn)及教訓(xùn),為讀者提供正式的維度設(shè)計(jì)和開(kāi)發(fā)技術(shù)。面向數(shù)倉(cāng)和BI設(shè)計(jì)人員,書(shū)中涉及到的內(nèi)容非常廣泛,圍繞一系列的商業(yè)場(chǎng)景或案例研究進(jìn)行組織。強(qiáng)烈建議買(mǎi)一本實(shí)體書(shū)研究,反復(fù)通讀全書(shū)至少三遍以上,你的技術(shù)將會(huì)有質(zhì)的飛躍。

數(shù)倉(cāng)工具箱

因?yàn)楸疚氖羌兝碚撝R(shí),密密麻麻的字,很多人可能看不下去,所以我盡量用最少的字來(lái)表達(dá),盡量將晦澀難懂的詞語(yǔ)轉(zhuǎn)化為通俗易于理解的詞,將文中的重點(diǎn)加粗展示,內(nèi)容盡量精簡(jiǎn),以保證在不表達(dá)錯(cuò)誤的情況下更利于讀者學(xué)習(xí)!希望和大家能一起學(xué)習(xí),一起進(jìn)步,努力到達(dá)我們自己的金字塔頂部

維度建模是什么

維度模型是數(shù)據(jù)倉(cāng)庫(kù)領(lǐng)域大師Ralph Kimball 所倡導(dǎo),以分析決策的需求出發(fā)構(gòu)建模型,構(gòu)建的數(shù)據(jù)模型為分析需求服務(wù),因此它重點(diǎn)解決用戶如何更快速完成分析需求,同時(shí)還有較好的大規(guī)模復(fù)雜查詢的響應(yīng)性能

維度建模是 數(shù)據(jù)倉(cāng)庫(kù)/商業(yè)智能 項(xiàng)目成功的關(guān)鍵,為什么這么說(shuō),因?yàn)椴还芪覀兊臄?shù)據(jù)量從GB到TG還是到PB,雖然數(shù)據(jù)量越來(lái)越大,但是數(shù)據(jù)展現(xiàn)要獲得成功,就必須建立在簡(jiǎn)單性的基礎(chǔ)之上,而維度建模就是時(shí)刻考慮如何能夠提供簡(jiǎn)單性,以業(yè)務(wù)為驅(qū)動(dòng),以用戶理解性和查詢性能為目標(biāo)

維度建模:維度建模是專(zhuān)門(mén)應(yīng)用于分析型數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)市集建模的方法。數(shù)據(jù)市集可以理解為一種“小型的數(shù)據(jù)倉(cāng)庫(kù)”維度建模指導(dǎo)我們?cè)跀?shù)據(jù)倉(cāng)庫(kù)中如何建表

維度建模分為兩種表:事實(shí)表和維度表

事實(shí)表:必然存在的一些數(shù)據(jù),像采集的日志文件,訂單表,都可以作為事實(shí)表 ?特征:是一堆主鍵的集合,每個(gè)主鍵對(duì)應(yīng)維度表中的一條記錄,客觀存在的,根據(jù)主題確定出需要使用的數(shù)據(jù)

維度表:維度就是所分析的數(shù)據(jù)的一個(gè)量,維度表就是以合適的角度來(lái)創(chuàng)建的表,分析問(wèn)題的一個(gè)角度:時(shí)間、地域、終端、用戶等角度

維度建模的三種模式

星形模式:以事實(shí)表為中心,所有的維度表直接連在事實(shí)表上,最簡(jiǎn)單最常用的一種

星形模式

雪花模式:雪花模式的維度表可以擁有其他的維度表,這種表不易維護(hù),一般不推薦使用

雪花模式

星座模型:基于多張事實(shí)表,而且共享維度信息,即事實(shí)表之間可以共享某些維度表

星座模型維度建模怎么建

我們知道事實(shí)表,維度表,星形模型,星座模型這些概念了,但是實(shí)際業(yè)務(wù)中,給了我們一堆數(shù)據(jù),我們?cè)趺茨眠@些數(shù)據(jù)進(jìn)行數(shù)倉(cāng)建設(shè)呢,數(shù)倉(cāng)工具箱作者根據(jù)自身60多年的實(shí)際業(yè)務(wù)經(jīng)驗(yàn),給我們總結(jié)了如下四步,請(qǐng)務(wù)必記住!

數(shù)倉(cāng)工具箱中的維度建模四步走:

維度建模四步走

請(qǐng)牢記以上四步,不管什么業(yè)務(wù),就按照這個(gè)步驟來(lái),順序不要搞亂,因?yàn)檫@四步是環(huán)環(huán)相扣,步步相連。下面詳細(xì)拆解下每個(gè)步驟怎么做

1、選擇業(yè)務(wù)過(guò)程 維度建模是緊貼業(yè)務(wù)的,所以必須以業(yè)務(wù)為根基進(jìn)行建模,那么選擇業(yè)務(wù)過(guò)程,顧名思義就是在整個(gè)業(yè)務(wù)流程中選取我們需要建模的業(yè)務(wù),根據(jù)運(yùn)營(yíng)提供的需求及日后的易擴(kuò)展性等進(jìn)行選擇業(yè)務(wù)。比如商城,整個(gè)商城流程分為商家端,用戶端,平臺(tái)端,運(yùn)營(yíng)需求是總訂單量,訂單人數(shù),及用戶的購(gòu)買(mǎi)情況等,我們選擇業(yè)務(wù)過(guò)程就選擇用戶端的數(shù)據(jù),商家及平臺(tái)端暫不考慮。業(yè)務(wù)選擇非常重要,因?yàn)楹竺嫠械牟襟E都是基于此業(yè)務(wù)數(shù)據(jù)展開(kāi)的。

2、聲明粒度 先舉個(gè)例子:對(duì)于用戶來(lái)說(shuō),一個(gè)用戶有一個(gè)身份證號(hào),一個(gè)戶籍地址,多個(gè)手機(jī)號(hào),多張銀行卡,那么與用戶粒度相同的粒度屬性有身份證粒度,戶籍地址粒度,比用戶粒度更細(xì)的粒度有手機(jī)號(hào)粒度,銀行卡粒度,存在一對(duì)一的關(guān)系就是相同粒度。為什么要提相同粒度呢,因?yàn)榫S度建模中要求我們,在同一事實(shí)表中,必須具有相同的粒度,同一事實(shí)表中不要混用多種不同的粒度,不同的粒度數(shù)據(jù)建立不同的事實(shí)表。并且從給定的業(yè)務(wù)過(guò)程獲取數(shù)據(jù)時(shí),強(qiáng)烈建議從關(guān)注原子粒度開(kāi)始設(shè)計(jì),也就是從最細(xì)粒度開(kāi)始,因?yàn)樵恿6饶軌虺惺軣o(wú)法預(yù)期的用戶查詢。但是上卷匯總粒度對(duì)查詢性能的提升很重要的,所以對(duì)于有明確需求的數(shù)據(jù),我們建立針對(duì)需求的上卷匯總粒度,對(duì)需求不明朗的數(shù)據(jù)我們建立原子粒度。

3、確認(rèn)維度 維度表是作為業(yè)務(wù)分析的入口和描述性標(biāo)識(shí),所以也被稱為數(shù)據(jù)倉(cāng)庫(kù)的“靈魂”。在一堆的數(shù)據(jù)中怎么確認(rèn)哪些是維度屬性呢,如果該列是對(duì)具體值的描述,是一個(gè)文本或常量,某一約束和行標(biāo)識(shí)的參與者,此時(shí)該屬性往往是維度屬性,數(shù)倉(cāng)工具箱中告訴我們牢牢掌握事實(shí)表的粒度,就能將所有可能存在的維度區(qū)分開(kāi),并且要確保維度表中不能出現(xiàn)重復(fù)數(shù)據(jù),應(yīng)使維度主鍵唯一

4、確認(rèn)事實(shí) 事實(shí)表是用來(lái)度量的,基本上都以數(shù)量值表示,事實(shí)表中的每行對(duì)應(yīng)一個(gè)度量,每行中的數(shù)據(jù)是一個(gè)特定級(jí)別的細(xì)節(jié)數(shù)據(jù),稱為粒度。維度建模的核心原則之一是同一事實(shí)表中的所有度量必須具有相同的粒度。這樣能確保不會(huì)出現(xiàn)重復(fù)計(jì)算度量的問(wèn)題。有時(shí)候往往不能確定該列數(shù)據(jù)是事實(shí)屬性還是維度屬性。記住最實(shí)用的事實(shí)就是數(shù)值類(lèi)型和可加類(lèi)事實(shí)。所以可以通過(guò)分析該列是否是一種包含多個(gè)值并作為計(jì)算的參與者的度量,這種情況下該列往往是事實(shí)。

事實(shí)表種類(lèi)

事實(shí)表分為以下6類(lèi):

事務(wù)事實(shí)表

周期快照事實(shí)表

累積快照事實(shí)表

無(wú)事實(shí)的事實(shí)表

聚集事實(shí)表

合并事實(shí)表

簡(jiǎn)單解釋下每種表的概念:

事務(wù)事實(shí)表

表中的一行對(duì)應(yīng)空間或時(shí)間上某點(diǎn)的度量事件。就是一行數(shù)據(jù)中必須有度量字段,什么是度量,就是指標(biāo),比如說(shuō)銷(xiāo)售金額,銷(xiāo)售數(shù)量等這些可加的或者半可加就是度量值。另一點(diǎn)就是事務(wù)事實(shí)表都包含一個(gè)與維度表關(guān)聯(lián)的外鍵。并且度量值必須和事務(wù)粒度保持一致。

周期快照事實(shí)表

顧名思義,周期事實(shí)表就是每行都帶有時(shí)間值字段,代表周期,通常時(shí)間值都是標(biāo)準(zhǔn)周期,如某一天,某周,某月等。粒度是周期,而不是個(gè)體的事務(wù),也就是說(shuō)一個(gè)周期快照事實(shí)表中數(shù)據(jù)可以是多個(gè)事實(shí),但是它們都屬于某個(gè)周期內(nèi)。

累計(jì)快照事實(shí)表

周期快照事實(shí)表是單個(gè)周期內(nèi)數(shù)據(jù),而累計(jì)快照事實(shí)表是由多個(gè)周期數(shù)據(jù)組成,每行匯總了過(guò)程開(kāi)始到結(jié)束之間的度量。每行數(shù)據(jù)相當(dāng)于管道或工作流,有事件的起點(diǎn),過(guò)程,終點(diǎn),并且每個(gè)關(guān)鍵步驟都包含日期字段。如訂單數(shù)據(jù),累計(jì)快照事實(shí)表的一行就是一個(gè)訂單,當(dāng)訂單產(chǎn)生時(shí)插入一行,當(dāng)訂單發(fā)生變化時(shí),這行就被修改。

無(wú)事實(shí)的事實(shí)表

我們以上討論的事實(shí)表度量都是數(shù)字化的,當(dāng)然實(shí)際應(yīng)用中絕大多數(shù)都是數(shù)字化的度量,但是也可能會(huì)有少量的沒(méi)有數(shù)字化的值但是還很有價(jià)值的字段,無(wú)事實(shí)的事實(shí)表就是為這種數(shù)據(jù)準(zhǔn)備的,利用這種事實(shí)表可以分析發(fā)生了什么。

聚集事實(shí)表

聚集,就是對(duì)原子粒度的數(shù)據(jù)進(jìn)行簡(jiǎn)單的聚合操作,目的就是為了提高查詢性能。如我們需求是查詢?nèi)珖?guó)所有門(mén)店的總銷(xiāo)售額,我們?cè)恿6鹊氖聦?shí)表中每行是每個(gè)分店每個(gè)商品的銷(xiāo)售額,聚集事實(shí)表就可以先聚合每個(gè)分店的總銷(xiāo)售額,這樣匯總所有門(mén)店的銷(xiāo)售額時(shí)計(jì)算的數(shù)據(jù)量就會(huì)小很多。

合并事實(shí)表

這種事實(shí)表遵循一個(gè)原則,就是相同粒度,數(shù)據(jù)可以來(lái)自多個(gè)過(guò)程,但是只要它們屬于相同粒度,就可以合并為一個(gè)事實(shí)表,這類(lèi)事實(shí)表特別適合經(jīng)常需要共同分析的多過(guò)程度量。

維度表技術(shù)

維度表結(jié)構(gòu)

維度表謹(jǐn)記一條原則,包含單一主鍵列,但有時(shí)因業(yè)務(wù)復(fù)雜,也可能出現(xiàn)聯(lián)合主鍵,請(qǐng)盡量避免,如果無(wú)法避免,也要確保必須是單一的,這很重要,如果維表主鍵不是單一,和事實(shí)表關(guān)聯(lián)時(shí)會(huì)出現(xiàn)數(shù)據(jù)發(fā)散,導(dǎo)致最后結(jié)果可能出現(xiàn)錯(cuò)誤。

維度表通常比較寬,包含大量的低粒度的文本屬性。

跨表鉆取

跨表鉆取意思是當(dāng)每個(gè)查詢的行頭都包含相同的一致性屬性時(shí),使不同的查詢能夠針對(duì)兩個(gè)或更多的事實(shí)表進(jìn)行查詢

鉆取可以改變維的層次,變換分析的粒度。它包括上鉆/下鉆:

上鉆(roll-up):上卷是沿著維的層次向上聚集匯總數(shù)據(jù)。例如,對(duì)產(chǎn)品銷(xiāo)售數(shù)據(jù),沿著時(shí)間維上卷,可以求出所有產(chǎn)品在所有地區(qū)每月(或季度或年或全部)的銷(xiāo)售額。

下鉆(drill-down):下鉆是上鉆的逆操作,它是沿著維的層次向下,查看更詳細(xì)的數(shù)據(jù)。

退化維度

退化維度就是將維度退回到事實(shí)表中。因?yàn)橛袝r(shí)維度除了主鍵沒(méi)有其他內(nèi)容,雖然也是合法維度鍵,但是一般都會(huì)退回到事實(shí)表中,減少關(guān)聯(lián)次數(shù),提高查詢性能

多層次維度

多數(shù)維度包含不止一個(gè)自然層次,如日期維度可以從天的層次到周到月到年的層次。所以在有些情況下,在同一維度中存在不同的層次。

維度表空值屬性

當(dāng)給定維度行沒(méi)有被全部填充時(shí),或者當(dāng)存在屬性沒(méi)有被應(yīng)用到所有維度行時(shí),將產(chǎn)生空值維度屬性。上述兩種情況,推薦采用描述性字符串代替空值,如使用 unknown 或 not applicable 替換空值。

日歷日期維度

在日期維度表中,主鍵的設(shè)置不要使用順序生成的id來(lái)表示,可以使用更有意義的數(shù)據(jù)表示,比如將年月日合并起來(lái)表示,即YYYYMMDD,或者更加詳細(xì)的精度。




(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即申請(qǐng)數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢