日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺(tái)

睿治作為國(guó)內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國(guó)數(shù)據(jù)治理市場(chǎng)份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場(chǎng)份額第一。

實(shí)時(shí)數(shù)倉(cāng)實(shí)戰(zhàn)項(xiàng)目(數(shù)倉(cāng)分層)

時(shí)間:2022-01-02來源:小鎮(zhèn)姑娘瀏覽數(shù):551

實(shí)時(shí)數(shù)倉(cāng)如何做數(shù)據(jù)分層

? ? ? ?我不喜歡搞什么花里胡哨的詞匯,讓粉絲聽著撓頭,我就想用大白話分享我自己的建設(shè)思路和方案。

? ? ? ?在開始分享之前,我想給兄弟們說一下數(shù)倉(cāng)建設(shè)的方法論:“因地制宜,以業(yè)務(wù)為中心”。

? ? ? ?我們需要思考:業(yè)務(wù)需求是什么?你該如何用最優(yōu)的方式去支持?

? ? ? ?我們需要明白:你的架構(gòu)的好壞,不是你自己認(rèn)為好就是好,也不是你同事認(rèn)為好就是好,而是要經(jīng)得起業(yè)務(wù)的考驗(yàn),這點(diǎn)認(rèn)知就是年薪30萬的sqlboy(自嗨)和年薪100萬+(業(yè)務(wù)口碑)的sqlboy的認(rèn)知差別。尤其是到了互聯(lián)網(wǎng)大倉(cāng)。一個(gè)公司高p前100名,20%是技術(shù),80%是業(yè)務(wù),為什么會(huì)出現(xiàn)這種情況?大家自己思考,業(yè)務(wù)才是爸爸,一定要認(rèn)清現(xiàn)實(shí),越往高p走,技術(shù)越菜,大部分走向了管理崗位,所以不管你做什么事情都要往業(yè)務(wù)的角度上思考,業(yè)務(wù)都不賺錢了,要你技術(shù)有啥用。

? ? ? ?下面我就開始拿離線數(shù)倉(cāng)和實(shí)時(shí)數(shù)倉(cāng)的架構(gòu)做個(gè)對(duì)比講解,方便大家易懂。(所有的分層都是為了更高效的解決業(yè)務(wù)問題,不能說不這么玩就不合理,看業(yè)務(wù)場(chǎng)景吧)

離線數(shù)倉(cāng)架構(gòu)圖

? ? ? ?For業(yè)務(wù)實(shí)時(shí)數(shù)倉(cāng)架構(gòu)圖

? ? ? ?1.ODS:操作數(shù)據(jù)層 Operation Data Store

? ? ? ?ODS層屬于操作數(shù)據(jù)層,是直接從業(yè)務(wù)系統(tǒng)采集過來的最原始的數(shù)據(jù),包含了所有業(yè)務(wù)的變更過程,數(shù)據(jù)粒度也是最細(xì)的。

? ? ? ?離線:hive

? ? ? ?實(shí)時(shí):kafka(實(shí)時(shí)數(shù)倉(cāng),要求時(shí)效性,基本上都是讀取kafka)

? ? ? ?2.DWD: 明細(xì)數(shù)據(jù)層 Data Warehouse Detail

? ? ? ?數(shù)據(jù)明細(xì)詳情,去除空值,臟數(shù)據(jù),超過極限范圍的明細(xì)解析。是在ODS層基礎(chǔ)上,根據(jù)業(yè)務(wù)過程建模出來的實(shí)時(shí)事實(shí)明細(xì)層,對(duì)于訪問日志這種數(shù)據(jù),會(huì)回流到離線系統(tǒng)供下游使用,最大程度地保證實(shí)時(shí)和離線數(shù)據(jù)ODS層和DWD層一致。對(duì)ODS層數(shù)據(jù)進(jìn)行清洗(去除空值,臟數(shù)據(jù),超過極限范圍的數(shù)據(jù),行式存儲(chǔ)改為列存儲(chǔ),改壓縮格式)

? ? ? ?DWD層創(chuàng)建基礎(chǔ)明細(xì)表

? ? ? ?明細(xì)表用于存儲(chǔ)ODS層原始表轉(zhuǎn)換過來的明細(xì)數(shù)據(jù)。

? ? ? ?離線:hive

? ? ? ?實(shí)時(shí):kafka(實(shí)時(shí)數(shù)倉(cāng),復(fù)雜的計(jì)算邏輯和臟數(shù)據(jù)提前在flink內(nèi)部完成,還有緯度退化能在flink內(nèi)完成盡量在flink內(nèi)實(shí)現(xiàn),當(dāng)然也可以把緯度數(shù)據(jù)同步到doris內(nèi),在doris內(nèi)部做實(shí)時(shí)join也可以,都可以,根據(jù)不同情況制定方案,比如:這個(gè)緯度多個(gè)報(bào)表都需要查詢,個(gè)人建議同步到doris內(nèi),如果緯度不經(jīng)常用到,可以直接通過flink關(guān)聯(lián)。還有一種業(yè)務(wù)場(chǎng)景就是給算法同學(xué)提供模型訓(xùn)練數(shù)據(jù):如果要求的指標(biāo)就是簡(jiǎn)單的sum,count可以直接在flink內(nèi)產(chǎn)出,關(guān)聯(lián)緯度信息寫入到kv,復(fù)雜的模型訓(xùn)練指標(biāo),可以直接從doris實(shí)時(shí)查詢結(jié)果數(shù)據(jù),然后再傳輸給模型,根據(jù)sla的要求制定技術(shù)方案。)

? ? ? ?3.DWS:匯總數(shù)據(jù)層 data warehouse service

? ? ? ?服務(wù)層—留存-轉(zhuǎn)化-GMV-復(fù)購(gòu)率-日活 、點(diǎn)贊、評(píng)論、收藏;輕度聚合對(duì)DWD訂閱明細(xì)層數(shù)據(jù)后,會(huì)在實(shí)時(shí)計(jì)算任務(wù)中計(jì)算各個(gè)維度的匯總指標(biāo)。如果維度是各個(gè)垂直業(yè)務(wù)線通用的,則會(huì)放在實(shí)時(shí)通用匯總層,作為通用的數(shù)據(jù)模型使用。目標(biāo):統(tǒng)計(jì)當(dāng)日、當(dāng)周、當(dāng)月活動(dòng)的每個(gè)設(shè)備明細(xì)

? ? ? ?離線:hive

? ? ? ?實(shí)時(shí):doris(一般都是在doris內(nèi)創(chuàng)建聚合表,創(chuàng)建rollup表或者物化視圖,這樣做的好處是在doris內(nèi)部提前預(yù)聚合,查詢的時(shí)候直接命中結(jié)果數(shù)據(jù),提高實(shí)時(shí)查詢性能,如果設(shè)置本地join,兩個(gè)表按照join的字段提前創(chuàng)建colocate join,這樣做的好處是相同的uuid分桶在一起,在join的時(shí)候可以減少網(wǎng)絡(luò)傳輸,相同的key直接在本地磁盤拉取就可以了。)

? ? ? ?下圖就是本地colocate?join vs shuffle join的性能測(cè)試報(bào)表

? ? ? ?4.DIM 公共維度層

? ? ? ?實(shí)時(shí)維表層的數(shù)據(jù)基本上都是從離線維表層導(dǎo)出來的,抽取到在線系統(tǒng)中供實(shí)時(shí)應(yīng)用調(diào)用。

? ? ? ?離線:hive

? ? ? ?實(shí)時(shí):doris/kv(個(gè)人建議doris和kv根據(jù)業(yè)務(wù)情況選擇,如果你們的緯度數(shù)據(jù)只是你們本地業(yè)務(wù)報(bào)表使用,可以存在Doris內(nèi),因?yàn)榉奖阒谱鲌?bào)表數(shù)據(jù),如果你們的緯度數(shù)據(jù)其他合作團(tuán)隊(duì)也想用,建議寫入到kv中,或者給他們binlog日志,讓他們自己解析也可以。)

? ? ? ?5.ADS:應(yīng)用數(shù)據(jù)層 Application Data Store

? ? ? ?做分析處理同步到RDS數(shù)據(jù)庫(kù)里邊個(gè)性化維度匯總層,對(duì)于不是特別通用的統(tǒng)計(jì)維度數(shù)據(jù)會(huì)放在這一層中,這里計(jì)算只有自身業(yè)務(wù)才會(huì)關(guān)注的維度和指標(biāo)。目標(biāo):當(dāng)日、當(dāng)周、當(dāng)月活躍設(shè)備數(shù)

? ? ? ?離線:hive/mysql

? ? ? ?實(shí)時(shí):doris (目前我接觸的實(shí)時(shí)的場(chǎng)景,80%都是直接查詢dws層,多個(gè)表join產(chǎn)出數(shù)據(jù),基本3s內(nèi)就可以產(chǎn)出結(jié)果,如果時(shí)間太長(zhǎng),我們?cè)赿ws層做一個(gè)分鐘級(jí)別調(diào)度,比如5分鐘做個(gè)結(jié)果表,也就是ads層,實(shí)時(shí)查詢的時(shí)候直接查詢ads層,這樣的好處是提升業(yè)務(wù)體驗(yàn),不好的地方就是你要確保調(diào)度的穩(wěn)定性還有就是數(shù)據(jù)的時(shí)效性問題。)

(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即申請(qǐng)數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢