一、什么是元數(shù)據(jù)?
元數(shù)據(jù)(Meta Date),關于數(shù)據(jù)的數(shù)據(jù)或者叫做用來描述數(shù)據(jù)的數(shù)據(jù)或者叫做信息的信息。這些定義都很是抽象,我們可以把元數(shù)據(jù)簡單的理解成,最小的數(shù)據(jù)單位。元數(shù)據(jù)可以為數(shù)據(jù)說明其元素或屬性(名稱、大小、數(shù)據(jù)類型、等),或其結構(長度、字段、數(shù)據(jù)列),或其相關數(shù)據(jù)(位于何處、如何聯(lián)系、擁有者)。
二、元數(shù)據(jù)分類
1、業(yè)務元數(shù)據(jù)
主要包括業(yè)務術語、信息分類、指標定義、業(yè)務規(guī)則等。
2、技術元數(shù)據(jù)
數(shù)據(jù)結構、數(shù)據(jù)處理細節(jié)方面的技術化描述,主要包括源系統(tǒng)接口規(guī)范、數(shù)據(jù)倉庫結構的描述(接口信息、表信息、程序信息等)以及經(jīng)營分析數(shù)據(jù)處理過程的描述等。
3、管理元數(shù)據(jù)
主要包括人員角色、崗位職責、管理流程等信息。
4、安全元數(shù)據(jù)
主要包括訪問安全、權限控制、分級管理、隱私控制、流程約束等信息。
5、稽核元數(shù)據(jù)
主要包括數(shù)據(jù)完整性和一致性檢查、數(shù)據(jù)采集日志追蹤、稽核規(guī)則、稽核流程、預警通知規(guī)則(數(shù)據(jù)質量)等信息。
三、元數(shù)據(jù)的作用
元數(shù)據(jù)是網(wǎng)絡信息資源描述的重要工具,可以用于網(wǎng)絡信息資源管理的各個方面,包括信息資源的建立、發(fā)布、轉換、使用、共享等。
1、定位作用:由于網(wǎng)絡信息資源沒有具體的實體存在,因此,明確它的定位至關重要。元數(shù)據(jù)包含有關網(wǎng)絡信息資源位置方面的信息,因而由此便可確定資源的位置之所在,促進了網(wǎng)絡環(huán)境中信息對象的發(fā)現(xiàn)和檢索。此外,在信息對象的元數(shù)據(jù)確定以后,信息對象在數(shù)據(jù)庫或其他集合體中的位置也就確定了,這是定位的另一層含義。
2、描述作用:根據(jù)元數(shù)據(jù)的定義,它最基本的功能就在于對信息對象的內容和位置進行描述,從而為信息對象的存取與利用奠定必要的基礎。
3、評估作用:元數(shù)據(jù)提供有關信息對象的名稱、內容、年代、格式、制作者等基本屬性,使用戶在無需瀏覽信息對象本身的情況下,就能夠對信息對象具備基本了解和認識,參照有關標準即可對其價值進行必要的評估,作為存取利用的參考。
4、選擇作用:根據(jù)元數(shù)據(jù)所提供的描述信息,參照相應的評估標準,結合使用環(huán)境,用戶便能夠做出對信息對象取舍的決定,選擇適合用戶使用的資源。
5、搜尋作用:元數(shù)據(jù)提供搜尋的基礎,在著錄的過程中,將信息對象中的重要信息抽出并加以組織,賦予語意,并建立關系,使檢索結果更加準確,從而有利于用戶識別資源的價值,發(fā)現(xiàn)其真正需要的資源。
四、元數(shù)據(jù)管理的難點
1、元模型的構建
元模型其核心結構要穩(wěn)定,因為元數(shù)據(jù)的建設不是一蹴而就的,需要慢慢地積累和演變,因此存儲元數(shù)據(jù)的元模型結構一定要抽象出穩(wěn)定的結構,比如:針對關系抽象出組合關系和依賴關系,針對模型要抽象出每一類型元數(shù)據(jù)父類或基類以方便其靈活擴展。
2、元數(shù)據(jù)間的關系
從元數(shù)據(jù)應用的角度來看,光分析元數(shù)據(jù)的結構對數(shù)據(jù)分析人員和數(shù)據(jù)應用的價值還不是那么突出。元數(shù)據(jù)管理的價值主要在其關系的豐富程度,舉個不恰當?shù)睦樱q如一個人,如果其社會關系足夠豐富,那么其處理各種事情就游刃有余,元數(shù)據(jù)也類似數(shù)據(jù)分析和應用,一定是從其關系中探尋出數(shù)據(jù)的價值,進而知道業(yè)務或進行數(shù)據(jù)創(chuàng)新,從長期的實踐中發(fā)現(xiàn),基于信息項或字段的元數(shù)據(jù)關系構建是最穩(wěn)定的。
3、數(shù)據(jù)識別
要確定要管理哪些元數(shù)據(jù),按元數(shù)據(jù)的定義來看,只要能描述數(shù)據(jù)的數(shù)據(jù)都能作為元數(shù)據(jù)進行管理,但從價值角度講一定要找到對數(shù)據(jù)業(yè)務、數(shù)據(jù)運維、數(shù)據(jù)運營、數(shù)據(jù)創(chuàng)新帶來幫助的元數(shù)據(jù)進行管理,避免眉毛胡子一把抓。一般企業(yè)元數(shù)據(jù)建設都是圍繞著源系統(tǒng)、數(shù)據(jù)平臺、數(shù)據(jù)集市、數(shù)據(jù)應用中的數(shù)據(jù)模型、數(shù)據(jù)庫、表、字段、報表(指標存儲字段)、字段和字段間的數(shù)據(jù)關系進行管理。圍繞這條主線,進一步胡管理業(yè)務元數(shù)據(jù)和操作元數(shù)據(jù)。在建設過程中要圍繞本企業(yè)數(shù)據(jù)管理問題域進行虛實結合的建設。
五、元數(shù)據(jù)管理方式
元數(shù)據(jù)管理有兩種方式。集中式管理和分布式管理。集中式管理是指在系統(tǒng)中有一個節(jié)點專門司職元數(shù)據(jù)管理,所有元數(shù)據(jù)都存儲在該節(jié)點的存儲設備上。所有客戶端對文件的請求前,都要先對該元數(shù)據(jù)管理器請求元數(shù)據(jù)。分布式管理是指將元數(shù)據(jù)存放在系統(tǒng)的任意節(jié)點并且能動態(tài)的遷移。對元數(shù)據(jù)管理的職責也分布到各個不同的節(jié)點上。大多數(shù)集群文件系統(tǒng)都采用集中式的元數(shù)據(jù)管理。因為集中式管理實現(xiàn)簡單,一致性維護容易,在一定的操作頻繁度內可以提供較滿意的性能。缺點是單一失效點問題,若該服務器失效,整個系統(tǒng)將無法正常工作。而且,當對元數(shù)據(jù)的操作過于頻繁時,集中的元數(shù)據(jù)管理成為整個系統(tǒng)的性能瓶頸。分布式元數(shù)據(jù)管理的好處是解決了集中式管理的單一失效點問題, 而且性能不會隨著操作頻繁而出現(xiàn)瓶頸。其缺點是,實現(xiàn)復雜,一致性維護復雜,對性能有一定影響。