- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-02-14來源:一點一點瀏覽數:287次
導讀:2017 年華為提出了企業的新愿景:"把數字世界帶入每個人、每個家庭、每個組織,構建萬物互聯的智能世界"。同時,華為公司董事、CIO陶景文提出了"實現全聯接的智能華為,成為行業標桿"的數字化轉型目標。

圖 1 數字化轉型目標
隨后,華為基于愿景確定了數字化轉型的藍圖和框架, 統一規劃、分層次開展,最終實現客戶交互方式的轉變,實現內部運營效率和效益的提升。華為數字化轉型藍圖包括 5 項舉措。

圖 2 華為數字化轉型藍圖
其中,舉措 4 涉及數據治理和數字化運營,是華為數字化轉型的關鍵,承接了打破數據孤島、確保源頭數據準確、促進數據共享、保障數據隱私與安全等目標。華為從 2007 年開始啟動數據治理,歷經兩個階段的持續變革,系統地建立了華為數據管理體系。
第一階段:2007 ~ 2016 年
在這一階段,華為設立數據管理專業組織,建立數據管理框架,發布數據管理政策,任命數據 Owner,通過統一信息架構與標準、唯一可信的數據源、有效的數據質量度量改進機制,實現了以下目標。
持續提升數據質量,減少糾錯成本:通過數據質量度量與持續改進,確保數據真實反映業務,降低運營風險。
數據全流程貫通,提升業務運作效率:通過業務數字化、標準化,借助 IT 技術,實現業務上下游信息快速傳遞、共享。
第二階段:2017 年至今
在這一階段,華為建設數據底座,匯聚企業全域數據并對數據進行聯接,通過數據服務、數據地圖、數據安全防護與隱私保護,實現了數據隨需共享、敏捷自助、安全透明的目標,支撐著華為數字化轉型,實現了如下的數據價值。
業務可視,能夠快速、準確決策:通過數據匯聚,實現業務狀態透明可視,提供基于“事實”的決策支持依據。
人工智能,實現業務自動化:通過業務規則數字化、算法化,嵌入業務流,逐步替代人工判斷。
數據創新,成為差異化競爭優勢:基于數據的用戶洞察, 發現新的市場機會點。

圖 3 華為數據治理的發展歷程
01?華為數據分類管理框架(基于特征分類)
華為根據數據特性及治理方法的不同對數據進行了分類定義:內部數據和外部數據、結構化數據和非結構化數據、元數據。其中,結構化數據又進一步劃分為基礎數據、主數據、事務數據、報告數據、觀測數據和規則數據。華為數據分類管理框架如圖 4 所示。

圖 4 華為數據分類管理框架
不同分類的數據,其治理方法有所不同。如基礎數據內容的變更通常會對現有流程、IT 系統產生影響,因此基礎數據的管理重點在于變更管理和統一標準管控。主數據的錯誤可能會導致成百上千的事務數據錯誤,因此主數據的管理重點是確保同源多用、重點進行數據內容的校驗等。
02?結構化數據管理(以統一語言為核心)
結構化數據包括基礎數據、主數據、事務數據、報告數據、觀測數據、規則數據。結構化數據的共同特點是以信息架構為基礎,建立統一的數據資產目錄、數據標準與模型。下面將重點介紹六類結構化數據的治理方法。
1. 基礎數據治理
基礎數據用于對其他數據進行分類,在業界也稱作參考數據。基礎數據通常是靜態的(如國家、幣種),一般在業務事件發生之前就已經預先定義。它的可選值數量有限,可以用作業務或 IT 的開關和判斷條件。當基礎數據的取值發生變化的時候,通常需要對流程和 IT 系統進行分析和修改,以滿足業務需求。因此, 基礎數據的管理重點在于變更管理和統一標準管控。
基礎數據在支撐場景分流、流程自動化、提升分析質量方面起著關鍵作用,治理基礎數據的價值如圖 5 所示。

圖 5 基礎數據治理的價值
因此,有效地管理基礎數據對企業來說可以產生巨大的收益。華為建立了一個完整的基礎數據管理框架(如圖 6 所示), 通過明確各方的管理責任、發布相關的流程和規范以及建立基礎數據管理平臺等來確?;A數據的有效管理。

圖 6 基礎數據治理框架
2. 主數據治理
主數據是參與業務事件的主體或資源,是具有高業務價值的、跨流程和跨系統重復使用的數據。主數據與基礎數據有一定的相似性,都是在業務事件發生之前預先定義;但又與基礎數據不同,主數據的取值不受限于預先定義的數據范圍,而且主數據的記錄的增加和減少一般不會影響流程和 IT 系統的變化。但是, 主數據的錯誤可能導致成百上千的事務數據錯誤,因此主數據最重要的管理要求是確保同源多用和重點進行數據內容的校驗。華為的主數據管理策略如圖 7 所示。

圖 7 主數據治理策略
華為的主數據范圍包括客戶、產品、供應商、組織、人員主題,每個主數據都有相應的架構、流程及管控組織來負責管理。
鑒于主數據管理的重要性,對于每個重要的主數據,都會發布相應的管理規范,數據管家依據數據質量標準定期進行數據質量的度量與改進。
同時,對于主數據的集成消費按照如下管理框架進行管理。
數據消費層:數據消費層包括所有消費數據的 IT 產品團隊,負責提出數據集成需求和集成接口實施。

圖 8 主數據治理框架
主數據服務實施層:負責主數據集成解決方案的落地, 包括數據服務的 IT 實施和數據服務的配置管理。
主數據服務設計層:為需要集成主數據的 IT 產品團隊提供咨詢和方案服務,負責受理主數據集成需求,制定主數據集成解決方案,維護主數據的通用數據模型。
管控層:管控層由信息架構專家組擔任,負責主數據規則的制定與發布,以及主數據集成爭議或例外的決策。
3. 事務數據治理
事務數據在業務和流程中產生,是業務事件的記錄,其本身就是業務運作的一部分。事務數據是具有較強時效性的一次性業務事件,通常在事件結束后不再更新。
事務數據會調用主數據和基礎數據。以客戶框架合同為例, 核心屬性有 32 個,其中調用基礎數據和主數據 24 個,占 75% ;客戶框架合同本身特有的屬性 8 個,占 25%。同時,框架合同也引用了機會點的編碼和投標項目的編碼等事務數據的信息。
因此,事務數據的治理重點就是管理好事務數據對主數據和基礎數據的調用,以及事務數據之間的關聯關系,確保上下游信息傳遞順暢。在事務數據的信息架構中需明確哪些屬性是引用其他業務對象的,哪些是其自身特有的。對于引用的基礎數據和主數據,要盡可能調用而不是重新創建。
4. 報告數據治理
報告數據是指對數據進行處理加工后,用作業務決策依據的數據。它用于支持報告和報表的生成。
用于報告和報表的數據可以分為如下幾種:
用于報表項數據生成的事實表、指標數據、維度。
用于報表項統計和計算的統計函數、趨勢函數及報告規則。
用于報表和報告展示的序列關系數據。
用于報表項描述的主數據、基礎數據、事務數據、觀測數據。
用于對報告進行補充說明的非結構化數據。
報告數據涵蓋的范圍較廣,如主數據、基礎數據等,這些數據類別本身已經有相應的管理機制和規范,這里我們重點對部分新的細分數據類型進行說明。
事實表:從業務活動或者事件中提煉出來的性能度量。其特點為:
每個事實表由顆粒度屬性、維度屬性、事務描述屬性、度量屬性組成;
事實表可以分為基于明細構建的事實表和基于明細做過匯聚的事實表。
維度:用于觀察和分析業務數據的視角,支持對數據進行匯聚、鉆取、切片分析。其特點為:
維度的數據一般來源于基礎數據和主數據;
維度的數據一般用于分析視角的分類;
維度的數據一般有層級關系,可以向下鉆取和向上聚合形成新的維度。
統計型函數:與指標高度相關,是對指標數量特征進一步的數學統計,例如均值、中位數、總和、方差等。其特點為:
通常反映某一維度下指標的聚合情況、離散情況等特征;
其計算數值在報告中通常呈現為圖表中的參考線。
趨勢型函數:反映指標在時間維度上變化情況的統計方式,例如同比、環比、定基比等。其特點為:
通常將當期值與歷史某時點值進行比較;
調用時,需要收集指標的歷史表現數據;
其計算數值在報告中通常呈現為圖表中的趨勢線。
報告規則數據:一種描述業務決策或過程的陳述,通常是基于某些約束下產生的結論或需要采取的某種措施。其特點為:
將業務邏輯通過函數運算體現,通常一個規則包含多個運算和判斷條件;
規則的計算結果一般不直接輸出,需要基于計算結果翻譯成業務語言后輸出;
規則通常與參數表密切相關。
序列關系數據:反映報告中指標及其他數據序列關系的數據。
5. 觀測數據治理
觀測數據是通過觀測工具獲取的數據,觀測對象一般為人、事、物、環境。
相比傳統數據,觀測數據通常數據量較大且是過程性的,由機器自動采集生成。不同感知方式獲取的觀測數據,其數據資產管理要素不同。
觀測數據的感知方式可分為軟感知和硬感知。軟感知是使用軟件或者各種技術進行數據收集,收集的對象存在于數字世界, 通常不依賴于物理設備,一般是自動運行的程序或腳本;硬感知是利用設備或裝置進行數據收集,收集的對象為物理世界中的物理實體,或者是以物理實體為載體的信息,其數據的感知過程是數據從物理世界向數字世界的轉化過程。
觀測數據的特征有如下幾點:觀測數據通常數據量較大且是過程性的,主要用作監控分析。例如,視頻監控器產生的視頻數據、操作系統產生的日志記錄數據等。

圖 9 ?觀測數據管理模型
觀測工具的元數據可以作為數據資產管理:軟感知(埋點、日志收集、爬蟲)觀測工具抽象成業務對象,由 IT 部門擔任數據 Owner 進行統一管理;硬感知觀測工具作為資源類數據,也建議作為業務對象由相應的領域擔任數據 Owner 進行管理。
原則上,觀測對象要定義成業務對象進行管理,這是觀測數據管理的前提條件。
觀測數據需要記錄觀測工具、觀測對象。針對不同感知方式獲取的觀測數據,其資產管理方案也不盡相同。例如,以用戶界面瀏覽記錄為例,如果是對銷售機會點的查詢訪問觀測,應當歸屬到相應業務領域;如果是對頁面性能、頁面 UV、PV 的觀測, 應當歸屬到 IT 部門。
6. 規則數據治理
在業務規則管理方面,華為經常面對“各種業務場景業務規則不同,記不住,找不到”“大量規則在政策、流程等文件中承載,難以遵守”“各國規則均不同,IT 能否一國一策、快速上線”等問題。
規則數據是結構化描述業務規則變量(一般為決策表、關聯關系表、評分卡等形式)的數據,是實現業務規則的核心數據, 如業務中普遍存在的基線數據。
規則數據主要有以下特征:
規則數據不可實例化;
規則數據包含判斷條件和決策結果兩部分信息,區別于描述事物分類信息的基礎數據;
規則數據的結構在縱向(列)、橫向(行)兩個維度上相對穩定,變化形式多為內容刷新;
規則數據的變更對業務活動的影響是大范圍的。
其基本原則為:
規則數據的管理是為了支撐業務規則的結構化、信息化、數字化,目標是實現規則的可配置、可視化、可追溯。
不同于標準化的信息架構管理,規則數據的管理具有輕量化、分級的特點。重要的、調用量大、變動頻繁的業務規則需要通過規則數據管理,使其從代碼中解耦,進行資產注冊;使用廣泛的、有分析需求的規則數據需要通過注冊入湖,實現共享和復用。
業務規則在架構層次上與流程中的業務活動相關聯,是業務活動的指導和依據,業務活動的結果通過該業務活動的相關業務對象的屬性來記錄。業務規則通過業務活動對業務事實、業務行為進行限制,業務人員可以根據業務規則判斷業務情況,采取具體行動。
業務規則包含規則變量和變量之間的關系,規則數據主要描述規則的變量部分,是支撐業務規則的核心數據(如圖 10 所示)。

圖 10 業務規則與規則數據之間的關系
此外,運行規則所需要的輸入數據、輸出數據,包括動態數據庫訪問對象、內存表緩存、Excel、XML 處理類等,主要起支撐作用,不在規則數據的范疇。
規則數據必須有唯一的數據 Owner,其負責開展規則數據的信息架構建設與維護、數據質量的監控與保障、數據服務建設、數據安全授權與定密等工作。相應的數據管家支持數據 Owner 對所管轄的業務中的規則數據進行治理,包括建設和維護信息架構、確保架構落地遵從、例行監控數據質量等。
規則數據的元數據要記錄與業務規則的關系(規則數據定義前應先完成業務規則的識別和定義)。一個業務規則可以包含零個、一個或多個規則數據,一個規則數據在信息架構上對應一個邏輯數據實體,在物理實現上一般對應一個物理表。規則數據要遵從信息架構資產管理要求(包括明確規則數據的 Owner、制定數據標準、明確數據源等),按照信息安全要求定密,以方便規則數據的管理、共享和分析。
03?非結構化數據管理(以特征提取為核心)
隨著業務對大數據分析的需求日益增長,非結構化數據的管理逐漸成為數據管理的重要組成部分。非結構化數據包括無格式文本、各類格式文檔、圖像、音頻、視頻等多種異構的格式文件, 較之結構化數據,其更難標準化和理解,因此在存儲、檢索以及消費使用時需要智能化的 IT 技術與之匹配。華為的非結構化數據包括文檔(郵件、Excel、Word、PPT)、圖片、音頻、視頻等。
相較于結構化數據,非結構化元數據管理除了需要管理文件對象的標題、格式、Owner 等基本特征和定義外,還需對數據內容的客觀理解進行管理,如標簽、相似性檢索、相似性連接等, 以便于用戶搜索和消費使用。因此,非結構化數據的治理核心是對其基本特征與內容進行提取,并通過元數據落地來開展的。非結構化數據的管理模型如圖 11 所示。

圖 11 非結構化數據管理模型
非結構化數據的元數據可以分為基本特征類(客觀)和內容增強類(主觀)兩類。
基本特征類:參考都柏林十五個核心元數據,實現對非結構化數據對象的規范化定義,如標題、格式、來源等。
內容增強類:基于非結構化數據內容的上下文語境,解析目標文件對象的數據內容,加深對目標對象的客觀理解,如標簽、相似性檢索、相似性連接等。
非結構化數據的元數據管理采用統分統管的原則,即基本特征類屬性由公司進行統一管理,內容增強類屬性由相關承擔數據分析工作的項目組自行設計,但其分析結果都應由公司元數據管理平臺自動采集后進行統一存儲。
元數據管理平臺通過“基本特征類元數據流”和“內容增強類元數據流”兩條線來實現對非結構化數據的元數據管理和消費使用。
1. 基本特征類元數據流
元數據管理平臺基于收集到的各類非結構化數據源信息,自動完成基礎特征類元數據的采集工作,按照管理規范和要求通過標準化、整合后存儲在元數據管理平臺中,并在完成元數據過濾、排序后將結果在元數據報告中進行可視化展示,以供用戶消費使用。
2. 內容增強類元數據流
基于元數據管理平臺中基本特征類元數據的信息,各數據分析項目組解析目標非結構化對象的數據內容,并將分析結果通過元數據采集、元數據標準化 & 整合后統一存放在元數據管理平臺中,以供用戶一并消費使用,增強用戶體驗。
04?外部數據管理(以確保合規遵從為核心)
外部數據是指華為公司引入的外部組織或者個人擁有處置權利的數據,如供應商資質證明、消費者洞察報告等。外部數據治理的出發點是合規遵從優先,與內部數據治理的目的不同。
外部數據的治理主要遵循以下原則。
合規優先原則:遵從法律法規、采購合同、客戶授權、公司信息安全與公司隱私保護政策等相關規定。
責任明確原則:所有引入的外部數據都要有明確的管理責任主體,承擔數據引入方式、數據安全要求、數據隱私要求、數據共享范圍、數據使用授權、數據質量監管、數據退出銷毀等責任。
有效流動原則:使用方優先使用公司已有數據資產,避免重復采購、重復建設。
可審計、可追溯原則:控制訪問權限,留存訪問日志, 做到外部數據使用有記錄、可審計、可追溯。
受控審批原則:在授權范圍內,外部數據管理責任主體應合理審批使用方的數據獲取要求。
在以上原則指導下,我們要求所有采購的外部數據要注冊, 在合規的前提下鼓勵數據共享,避免重復采購。其他方式引入的外部數據,由管理責任主體決定登記方式。根據法律條款和授權范圍,外部數據管理責任主體有權決定外部數據是否入數據湖, 如果需要入數據湖,必須遵從數據湖建設相應的流程和規范。同時,外部數據管理責任主體有義務告知使用方合規使用外部數據, 對于不合規的使用場景,不予授權;數據使用方要遵從外部數據管理責任主體的要求,對不遵從要求所引起的后果承擔責任。05?元數據管理(作用于數據價值流)
無論結構化數據,還是非結構化數據,或者外部數據,最終都會通過元數據治理落地。華為將元數據治理貫穿整個數據價值流,覆蓋從數據產生、匯聚、加工到消費的全生命周期。
1. 元數據治理的痛點與挑戰
華為在進行元數據治理以前,遇到的元數據問題主要表現為數據找不到、讀不懂、不可信,數據分析師們往往會陷入數據沼澤中。元數據管理的痛點如圖 12 所示。

圖 12 元數據管理痛點
為解決以上痛點,華為建立了公司級的元數據管理機制。制定了統一的元數據管理方法、機制和平臺,拉通業務語言和機器語言。確保數據“入湖有依據,出湖可檢索”成為華為元數據管理的使命與目標。基于高質量的元數據,通過數據地圖就能在企業內部實現方便的數據搜索。
元數據是描述數據的數據,用于打破業務和 IT 之間的語言障礙,幫助業務更好地理解數據。元數據通常分為業務、技術和操作三類。
業務元數據:用戶訪問數據時了解業務含義的途徑,包括資產目錄、Owner、數據密級等。
技術元數據:實施人員開發系統時使用的數據,包括物理模型的表與字段、ETL 規則、集成關系等。
操作元數據:數據處理日志及運營情況數據,包括調度頻度、訪問記錄等。
在企業的數字化運營中,元數據作用于整個價值流,在從數據源到數據消費的五個環節中都能充分體現元數據管理的價值。
數據消費側:元數據能支持企業指標、報表的動態構建。
數據服務側:元數據支持數據服務的統一管理和運營, 并實現利用元數據驅動 IT 敏捷開發。
數據主題側:元數據統一管理分析模型,敏捷響應井噴式增長的數據分析需求,支持數據增值、數據變現。
數據湖側:元數據能實現暗數據的透明化,增強數據活性,并能解決數據治理與 IT 落地脫節的問題。
數據源側:元數據支撐業務管理規則有效落地,保障數據內容合格、合規。
2. 元數據管理架構及策略
元數據管理架構包括產生元數據、采集元數據、注冊元數據和運維元數據。
產生元數據:制定元數據管理相關流程與規范的落地方案,在 IT 產品開發過程中實現業務元數據與技術元數據的連接。
采集元數據:通過統一的元模型從各類 IT 系統中自動采集元數據。
注冊元數據:基于增量與存量兩種場景,制定元數據注冊方法,完成底座元數據注冊工作。
運維元數據:打造公司元數據中心,管理元數據產生、采集、注冊的全過程,實現元數據運維。
元數據管理方案:通過制定元數據標準、規范、平臺與管控機制,建立企業級元數據管理體系,并推動其在公司各領域落地,支撐數據底座建設與數字化運營。

圖 13 華為元數據管理整體方案
華為經過多年實踐,已經建立了相對完整的數據分類管理框架,為數據治理奠定了基礎。隨著數字化轉型的深入開展,尤其是面向未來海量的非結構化數據、IoT 場景的觀測數據、外部合規日趨嚴格的外部數據等,華為將不斷豐富每一類數據的治理實踐。