隨著云計(jì)算的普及和大數(shù)據(jù)時(shí)代的到來,如何讓各種數(shù)據(jù)源中的種類豐富的數(shù)據(jù)高效上云,以及經(jīng)過云上大數(shù)據(jù)計(jì)算后,如何把計(jì)算結(jié)果回流到種類豐富數(shù)據(jù)源?或者云上各個(gè)產(chǎn)品之間的數(shù)據(jù)怎么進(jìn)行同步?各個(gè)云廠商或者大數(shù)據(jù)解決方案提供商都推出了各自的
數(shù)據(jù)集成產(chǎn)品,本文將就常見的解決方案進(jìn)行探討。
一、數(shù)據(jù)集成的定義
數(shù)據(jù)集成是把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,從而為企業(yè)提供全面的數(shù)據(jù)共享。在企業(yè)數(shù)據(jù)集成領(lǐng)域,已經(jīng)有了很多成熟的框架可以利用。通常采用聯(lián)邦式、基于中間件模型和數(shù)據(jù)倉(cāng)庫(kù)等方法來構(gòu)造集成的系統(tǒng),這些技術(shù)在不同的著重點(diǎn)和應(yīng)用上解決數(shù)據(jù)共享和為企業(yè)提供決策支持。
二、數(shù)據(jù)集成常見的問題
數(shù)據(jù)處理常常涉及數(shù)據(jù)集成操作,即將來自多個(gè)數(shù)據(jù)源的數(shù)據(jù),如數(shù)據(jù)庫(kù)、數(shù)據(jù)立方、普通文件等,結(jié)合在一起并形成一個(gè)統(tǒng)一數(shù)據(jù)集合,以便為數(shù)據(jù)處理工作的順利完成提供完整的數(shù)據(jù)基礎(chǔ)。在數(shù)據(jù)集成過程中,需要考慮解決以下幾個(gè)問題。
1、冗余問題
冗余問題是數(shù)據(jù)集成中經(jīng)常發(fā)生的另一個(gè)問題。若一個(gè)屬性可以從其他屬性中推演出來,那這個(gè)屬性就是冗余屬性。例如,一個(gè)顧客數(shù)據(jù)表中的平均月收入屬性就是冗余屬性,顯然它可以根據(jù)月收入屬性計(jì)算出來。此外,屬性命名的不一致也會(huì)導(dǎo)致集成后的數(shù)據(jù)集出現(xiàn)數(shù)據(jù)冗余問題。
2、數(shù)據(jù)值沖突檢測(cè)與消除問題
在現(xiàn)實(shí)世界實(shí)體中,來自不同數(shù)據(jù)源的屬性值或許不同。產(chǎn)生這種問題的原因可能是表示、比例尺度,或編碼的差異等。例如,重量屬性在一個(gè)系統(tǒng)中采用公制,而在另一個(gè)系統(tǒng)中卻采用英制;價(jià)格屬性在不同地點(diǎn)采用不同的貨幣單位。這些語(yǔ)義的差異為數(shù)據(jù)集成帶來許多問題。
3、模式集成問題
模式集成問題就是如何使來自多個(gè)數(shù)據(jù)源的現(xiàn)實(shí)世界的實(shí)體相互匹配,這其中就涉及實(shí)體識(shí)別問題。例如,如何確定一個(gè)數(shù)據(jù)庫(kù)中的“custom_id”與另一個(gè)數(shù)據(jù)庫(kù)中的“custome_number”是否表示同一實(shí)體。
三、如何集成數(shù)據(jù)
1、建設(shè)數(shù)據(jù)集成方案
系統(tǒng)集成必須圍繞信息需求制定數(shù)據(jù)集成方案,并需結(jié)合信息標(biāo)準(zhǔn)數(shù)據(jù)流向規(guī)劃以及業(yè)務(wù)系統(tǒng)建設(shè)使用情況來確定集成邊界。內(nèi)容邊界一般涉及四個(gè)方面:需要的代碼標(biāo)準(zhǔn),需要的業(yè)務(wù)數(shù)據(jù),提供的代碼標(biāo)準(zhǔn),提供的業(yè)務(wù)數(shù)據(jù)。除了集成內(nèi)容邊界,還要考慮數(shù)據(jù)集成的技術(shù)方式,一般有三種典型集成方式:ETL數(shù)據(jù)共享,數(shù)據(jù)庫(kù)共享和API共享,三者是互補(bǔ)關(guān)系。
2、元數(shù)據(jù)注冊(cè)
元數(shù)據(jù)是理解數(shù)據(jù)的前提,是推動(dòng)企業(yè)持續(xù)
數(shù)據(jù)治理優(yōu)化的基礎(chǔ),元數(shù)據(jù)注冊(cè)范圍盡可能是業(yè)務(wù)系統(tǒng)完整元數(shù)據(jù),以及涉及到共享和需要的數(shù)據(jù)及代碼表的元數(shù)據(jù)。
3、代碼標(biāo)準(zhǔn)檢查
代碼標(biāo)準(zhǔn)檢查依托于上面的元數(shù)據(jù),也是數(shù)據(jù)集成前代碼統(tǒng)一的有效檢查技術(shù)手段,我們可以獲取多種代碼差異,在方案評(píng)審中進(jìn)行評(píng)審。
4、方案評(píng)審
評(píng)審內(nèi)容:集成方案評(píng)審、代碼標(biāo)準(zhǔn)評(píng)審。
評(píng)審處理原則:a)優(yōu)先遵循數(shù)據(jù)源頭標(biāo)準(zhǔn);b)優(yōu)先遵循教育部標(biāo)準(zhǔn);c)需要信息中心、業(yè)務(wù)部門、公司共同討論。
5、標(biāo)準(zhǔn)迭代
方案評(píng)審后會(huì)帶來一系列的迭代工作,公司和信息中心層面需要完成代碼標(biāo)準(zhǔn)迭代、數(shù)據(jù)模式迭代以及監(jiān)督業(yè)務(wù)系統(tǒng)迭代情況,業(yè)務(wù)部門和第三方需要完成業(yè)務(wù)系統(tǒng)代碼標(biāo)準(zhǔn)調(diào)整以及涉及到數(shù)據(jù)內(nèi)容的清洗。
6、數(shù)據(jù)集成
以公司為主,業(yè)務(wù)系統(tǒng)提供方強(qiáng)力配合。注意典型數(shù)據(jù)清洗轉(zhuǎn)換。
7、運(yùn)行監(jiān)控
運(yùn)行監(jiān)控對(duì)平臺(tái)中不規(guī)范的接口、代碼標(biāo)準(zhǔn)不一致情況、數(shù)據(jù)質(zhì)量等問題進(jìn)行監(jiān)控,監(jiān)控對(duì)數(shù)據(jù)治理是非常有幫助的。
