在
數字化轉型過程中,
數據治理提供基礎性支撐,本文重點闡述數據治理對于數據湖、人工智能等數字化轉型兩個關鍵建設場景的支撐作用。
1、數據治理是數據湖避免成為“數據沼澤”的關鍵
數據湖(Data Lake)是數據集合而并非數據平臺,在這一數據集合基礎之上,采用Hadoop大數據技術生態體系以構建大數據平臺,實現對多源異構數據的統一匯聚,并采用典型的數據驅動型設計模式 — ELT架構模式,大規模捕獲各種新舊類型的多源異構原始數據,并按需進行數據轉換,形成多樣化應用。

圖3 數據治理與數據湖
但是,數據湖的完美理念卻面臨著諸多問題,當越來越多的多源異構數據接入數據湖中,如果缺少有效的方法跟蹤這些多源異構數據并對低質量數據進行有效治理,則企業花費巨資構建的數據湖極有可能成為“數據沼澤”,數據無法訪問、難以檢索,成為只進不出的 “數據黑洞”。
為避免數據湖淪為“數據沼澤”,須實現數據目錄、標準、質量、安全、共享的統一管理,開展相關的數據治理活動:
構建數據資源目錄:
基于元數據信息,為數據湖構建企業級數據資源目錄,對入湖數據進行編目分類、建立索引,以便迅速查找、定位、獲取所需數據資源;
數據全鏈分析:
基于元數據信息,進行數據血緣分析和影響分析,構建數據全維關系圖譜,對數據流向從源頭到目的地之間追蹤信息的可視化表示,實現對數據資源流轉的清晰掌握和數據流通全流程的監控;
建立
數據標準:
建立數據分類標準及數據標準定義規范,明確數據標準的適用范圍;面向湖內全量數據,建立企業統一業務術語庫;
提升
數據質量:
根據業務規則設計數據質量規則,通過質量工具配置規則進行數據質量定期排查、清洗,以發現數據質量問題、提升數據質量;并建立面向企業內部單位、源系統項目組的數據質量閉環管理機制;
數據安全保障:
基于數據資源目錄,劃分數據安全等級和共享類型,以此為基礎進行用戶角色的訪問控制、身份驗證、授權,數據脫敏規則設計以及靜態和動態數據加密,以提高數據湖的安全與隱私性。
2、數據治理是人工智能的基石
人工智能分為基礎資源支撐、人工智能技術和人工智能應用三個層面:基礎資源支撐層主要解決“算力”和數據“底座”問題;人工智能技術實現主要分為感知智能和認知智能兩個階段,在感知智能階段,主要通過傳感器、探測儀等獲取視頻、語音、圖像等數據資源,基于感知器獲取的數據資源、結合深度學習算法訓練出感知模型,如人臉識別技術;在認知智能階段,主要通過自然語言處理NPL、知識圖譜等技術,挖掘出數據所隱含的關聯關系、業務邏輯、規律等認知知識,為人工智能應用場景奠定知識基礎。人工智能應用場景是以AI應用需求為驅動、選擇適當的AI技術進行落地實現,通過滿足應用需求直接產生業務價值。

圖4 數據治理與人工智能
在AI時代,數據不再是程序代碼的附屬品,數據已本質上成為構建算法的源代碼,以及產生算法結果的核心驅動,基于大量數據、通過“自適應、自學習”算法“訓練”出算法,因此,數據質量“好壞”,決定了算法的優劣性和健壯性;此外,數據共享、數據安全等也是在開展人工智能工作時需要考慮的因素。數據治理在人工智能工作中能夠發揮以下關鍵作用:
制度流程保證:
在人工智能開展過程中,聯合數據治理組織制定、發布,配合人工智能技術研發開展的制度、流程和規范,明確企業內部各部門、各項目組(AI項目組、數據治理項目、數據平臺項目組及業務系統項目組等)的責任分工;
資源協調:
通過數據治理團隊協助協調數據資源,數據治理團隊清晰地掌握數據資源的存儲位置、歸口管理部門,并能夠推動企業內部數據資源共享,協助人工智能團隊快速獲取所需的基礎數據資源;
高質量數據輸入:
數據治理團隊按照AI團隊的數據質量需要及業務規則,對輸入的數據資源進行數據質量檢測,按需出具數據質量評估報告,給出數據質量健康度得分,發現數據質量問題,并快速制定數據質量改進方案:
保障數據安全:
人工智能工作開展過程中,需采取一系列的數據安全防護手段,如隱私數據的合規性確認與檢查、敏感數據的脫敏處理、安全訪問控制、防泄露等措施。為AI應用成果的數據安全性、合規性奠定基礎。
(部分內容來源網絡,如有侵權請聯系刪除)