某化工企業(yè)根據(jù)集團(tuán)要求,需要獲得業(yè)務(wù)系統(tǒng)的用戶登錄次數(shù),查詢報表名稱和數(shù)量,查詢時間等相關(guān)的內(nèi)容,而他們使用的Power
BI系統(tǒng)將這部分內(nèi)容都保存在日志文件中,需要實時獲取日志文件,并進(jìn)行解析,將解析的內(nèi)容實時的保存到數(shù)據(jù)庫中,并能夠通過API接口的方式在界面上進(jìn)行實時展現(xiàn)。
根據(jù)上述需求,億信華辰數(shù)據(jù)專家組擬定了Petabase大數(shù)據(jù)平臺+睿治
數(shù)據(jù)治理平臺的組合來實現(xiàn),產(chǎn)品平臺架構(gòu)如下圖:
方案分為六層:
第一層是數(shù)據(jù)源層,主要是指的源端數(shù)據(jù),這里是powerBI的半結(jié)構(gòu)化日志文件。
第二層是接入層,負(fù)責(zé)監(jiān)聽并實時采集pwerBI的增量日志內(nèi)容,通過flume進(jìn)行PowerBI日志文件的監(jiān)聽和實時攝取,攝取的文本消息下沉至Kafka消息隊列中的topic。
第三層是
數(shù)據(jù)存儲層,負(fù)責(zé)整個平臺的非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)存儲。其中,hdfs負(fù)責(zé)存儲非結(jié)構(gòu)化的日志文件,結(jié)構(gòu)化的數(shù)據(jù)則使用kudu系統(tǒng),以庫表的形式進(jìn)行存儲。
第四層是計算層,負(fù)責(zé)對接入層的kafka消息流進(jìn)行解析、匯總計算、入庫和即席查詢。 使用spark、impala分布式計算框架來支撐。
第五層是
數(shù)據(jù)應(yīng)用層,入庫的結(jié)構(gòu)化數(shù)據(jù)以關(guān)系表的形式,通過jdbc+sql的方式為應(yīng)用層提供計算訪問接口和服務(wù)。
第六層是應(yīng)用支撐層,主要是華宇睿治產(chǎn)品,以友好的可視化方式向終端用戶提供基于業(yè)務(wù)需求的數(shù)據(jù)訪問和操作。除此之外,應(yīng)用支撐層還能提供http、rest等主流的api接口為第三方應(yīng)用提供數(shù)據(jù)訪問服務(wù)。
使用睿治的資產(chǎn)數(shù)據(jù)接口對實時入庫的數(shù)據(jù)進(jìn)行界面展示,如下:


這樣一來,不管多大數(shù)據(jù)量都可以實現(xiàn)實時分析,這其中提到了一個“神器”——PetaBase。
PetaBase是什么?
早期的PetaBase分布式數(shù)據(jù)庫集成了Hdfs、MapReduce、Impala、Zookeeper、Hive共計5個主流組件,主要面向海量數(shù)據(jù)集的交互式聯(lián)機分析場景。但是近年來,隨著大數(shù)據(jù)的快速發(fā)展,對數(shù)據(jù)實時計算的要求越來越高,單一的分布式數(shù)據(jù)庫已滿足不了客戶的需求,于是PetaBase-s實時大數(shù)據(jù)平臺應(yīng)運而生。
新版的PetaBase-s大數(shù)據(jù)平臺采用了全新的企業(yè)級平臺框架,集成了眾多主流開源組件,不僅可以在海量的非結(jié)構(gòu)化/半結(jié)構(gòu)化/結(jié)構(gòu)化數(shù)據(jù)集上同時進(jìn)行離線計算和流式處理,還能滿足高吞吐、大數(shù)據(jù)量和低時延實時處理等多方面的數(shù)據(jù)計算要求。


支持結(jié)構(gòu)化數(shù)據(jù)的關(guān)聯(lián)分析和OLAP應(yīng)用,定位
數(shù)據(jù)倉庫和
數(shù)據(jù)集市等分析型市場。
支持對高速數(shù)據(jù)流的接入與實時處理,實時探測關(guān)鍵事件,適合需要對變化數(shù)據(jù)進(jìn)行連續(xù)計算并快速分析的場景。
基于開源Hadoop框架開發(fā),融合MPP、SQL on Hadoop、流處理等大數(shù)據(jù)技術(shù),支撐端到端的數(shù)據(jù)分析、數(shù)據(jù)洞察,快速構(gòu)造從信息到智慧的大數(shù)據(jù)供應(yīng)鏈。
PetaBase作為老牌
商業(yè)智能廠商億信華辰旗下的國產(chǎn)自主可控、可信、可靠的軟件平臺,可實現(xiàn):源代碼級的安全可控技術(shù)實現(xiàn);國產(chǎn)操作系統(tǒng)的支持與持續(xù)更新;全組件HA并內(nèi)置負(fù)載均衡功能;支持基于LDAP和Kerberos的認(rèn)證及授權(quán);與自研的 BI、
數(shù)據(jù)治理產(chǎn)品相互支撐的優(yōu)化保證真正意義上的一站式整體解決方案;工程化的開發(fā)與優(yōu)化保證系統(tǒng)在生產(chǎn)環(huán)境的落地部署。
更多精彩內(nèi)容歡迎關(guān)注公眾號:億信華辰
關(guān)于億信華辰
億信華辰是中國專業(yè)的智能數(shù)據(jù)產(chǎn)品與服務(wù)提供商,一直致力于為政企用戶提供從
數(shù)據(jù)采集、存儲、治理、分析到智能應(yīng)用的智能數(shù)據(jù)全生命周期管理方案,幫助企業(yè)實現(xiàn)數(shù)據(jù)驅(qū)動、數(shù)據(jù)智能,已積累了8000多家用戶的服務(wù)和客戶成功經(jīng)驗,為客戶提供
數(shù)據(jù)分析平臺、
數(shù)據(jù)治理系統(tǒng)搭建等專業(yè)的產(chǎn)品咨詢、實施和技術(shù)支持服務(wù)。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)