- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-01-24來源:你不缺我瀏覽數:324次
? ? ? ??站在“企業數字化轉型”這個時代浪尖上,我相信,數據領域乃至整個IT界“數據治理”這個詞應無人不知、無人不曉了吧?如果你身邊還有沒聽過“數據治理的,趕緊把咱們的公眾號【談數據】的名片推給他,哈哈~
關于企業數字化轉型為什么要做數據治理,我在文章《數據戰略的8個要素》一文中曾提到,原因無外乎兩個:“一是無數據可用,二是無可用數據。”
一方面,“數”到用時方恨少。在一些傳統企業,IT一直被認為是支撐性職能,從來沒有將數據作為一個重要生產要素去看待。在以往的信息化建設過程中,都是“以流程為驅動,以線上化、自動化為目標”,數據思維和數據意識淡薄,沒有將精力放在數據的收集、整理和處理上,導致“無數據可用”。
另一方面,事因經過始知難。每個企業都希望將數據用起來,用它來驅動企業的決策和管理,實現數字化轉型。但是,數據分散在各個信息孤島中,缺乏統一的數據標準,彼此之間無法很好地通信,數據質量低下,不一致、不完整、不準確、不及時等問題常見,導致了“Garbage in, Garbage out”。有數據卻無可用的數據,你說氣人不?!
今天我們展開這個話題,詳細聊一聊如何解決以上這兩個問題。今天聊的話題中涉及一個新的名詞—“養數據”。? ? ? ??“養數據”其實也算不上是一個新詞兒了,車品覺老師的《決戰大數據》(2014年出版)一書中就曾提到:“主動收集數據的行為即為養數據”。
? ? ? ??筆者認為“養數據”不僅在數據收集上,而是應貫穿在數據的收集、處理和使用的全生命周期中。養數據就如同“養貓、養狗、養孩子”一樣,需要持續地投入。“養”有兩個層面的含義,一是要將數據“養大”,收集、積累和沉淀大量的數據;二是要將數據“養活”,提升數據的“活性”,讓數據易用、好用!

? ? ? ??養“大”數據,就是收集、積累和沉淀大量的數據,讓企業有數據可用。這里有個誤區,究竟數據養多大才算是“大”?其實,養“大”數據不在于收集的數據體量有多大,更重要的是能夠為企業帶來多大的潛在價值!
? ? ? ??2014年大數據正如火如荼的時候,我們接到一個大數據項目,客戶的要求是將所有業務系統的數據全部接入到大數據平臺,具體為什么要收集這些數據,要這些數據干什么?這些問題客戶并沒有想好。按照當時客戶的思路是:大數據一定是有價值的,雖然我們現在不知道怎么用它,但我們現在把它收集起來,說不定將來的哪一天就能用到了。后來,數據收集的越來越多,管理的成本越來越大,但實際上卻沒有使用起來,雖然該項目最終成功驗收了,但在我看來,這個項目不算是一個成功的項目,因為它沒有給客戶真正帶來價值。
? ? ? ??沒有目標的收集數據,就只是單純的收集數據,并不是“養數據”。“養數據”是需要帶有明確的目的性的,因為數據是枯燥的,數據也不會自己說話,需要人運用適當的方法從這些枯燥的數據中提取有價值的信息。因此,“養數據”的過程,需要對數據收集的內容、渠道、方法進行策劃,以確保通過正確的方法收集正確的數據,進而確保數據分析過程是有效的。
? ? ? ??養“活”數據,提升數據的“活性”和質量,打通數據孤島,實現數據交換共享,讓企業有可用數據。盲目的收集數據并不能讓數據“活”起來,所收集的數據都是“死數據”。所謂“死數據”也叫“暗數據”,指那些企業在日常業務活動中收集、處理和存儲,但未被發掘或理解、不具備特定用途的數據。
? ? ? ??我們上文講過“數據收集要有目的性”,這沒錯。但在實際的數據收集的過程中,很多情況下我們并不能直接收集到所需的關鍵數據,這就要求企業不僅要“活”做數據收集,還要“活”做數據管理,提升數據質量并以避免“死數據/暗數據”的發生。“活”做數據收集是針對不同的數據類型、不同的應用場景,采用不同的數據收集方法進行靈活收集數據。“活”做數據管理的重點是建立靈活的數據管理和共享機制,讓合適的人在合適的時間能夠獲得合適的數據。? ? ? ??介紹了養數據的概念,可能很多人更加關心到底該如何“養數據”。個人認為企業要養好數據,得從以下5個方面入手。
? ? ? ??關于數據如何賦能數字化轉型,大家談的更多的是數據分析、數據挖掘、模型、算法、可視化、報表、儀表板、大屏等數據應用相關內容,我們把這些內容都可以稱為“用數據”。但是,“巧婦難為無米之炊”,如果企業“無數據可用”,那模型再強大、算法再完美、界面再漂亮,可能也無濟于事。
? ? ? ??“用數據”需要的是技術、方法和工具,而“養數據”一定從戰略思維開始。只有將數據不斷“養大、養活”數據的價值才能被激發和釋放。正如車品覺老師所說“養數據是一種數據戰略,是基于深入業務理解的更高層次的商業決策,數據養的時間越早,積累的數據也就越多。”
? ? ? ??保證企業“有數據可用”,從有效和正確的收集數據開始,數據收集越早,積累的越多,能夠帶來的潛在價值就越大。
? ? ? ??人們普遍認為數據收集就是需要將來自不同來源系統的數據復制或遷移到一個中央數據存儲庫中(例如如數據倉庫或者數據湖),進行統一管理。但這只是數據收集的一個環節而已,并不是數據收集的全過程。不同的行業、不同的業務場景、不同的數據類型,所需要的數據收集流程也不一樣,核心的流程總體可以歸納如下:

? ? ? ??①確定收集需求,數據收集一定是為業務需求服務的,不能盲目收集,數據收集到“最小夠用”即可。沒有目標的盲目收集,不僅可能造成成本的浪費,還可能引發“合規性”的風險(例如違反個人信息保護法)。
? ? ? ??②確定數據源,明確要從哪里獲取數據,例如:企業內部還是外部數據。
? ? ? ??③確定收集方式,針對不同數據應用需求和數據源類型選擇相應的數據采集方式,例如:表單采集、報表采集、庫表批采、文件采集、消息采集、流式采集、爬蟲采集、埋點采集等。
? ? ? ??④執行數據收集。在收集非結構化、半結構化數據過程中利用圖像識別、語音識別、自然語言處理等AI技術對這些數據進行結構化處理,并提供統一的元數據查詢,是解決“無數據可用”的一個重要解決方案。遺憾的是,這些技術還處于探索階段,還未形成普及化的產品和應用。
? ? ? ??⑤分析驗證,驗證收集的數據是否有效,是否能夠滿足業務所需。
? ? ? ??⑥數據入湖,將收集/采集的數據存入中央數據存儲庫中(數據湖或數據倉庫)。
? ? ? ??盡管我們明確了數據需求,定義了數據源,但也并不是每個收集來的數據對企業都是有價值的。在數據收集來之后,數據分析之前,所有數據都必須經過統一組織和管理,包括數據的清洗、編目、整合和治理,“盤活”數據,讓數據能夠被“看得見、找得到、用得好”,提升數據的價值。

? ? ? ??①數據處理。對收集來的結構化和非結構化數據進行轉換和整理,確保數據正確、有效、可用和安全。統一提取這些數據的元數據并進行存儲和管理,并補齊關鍵元數據,使其具備可識別性。
? ? ? ??②數據編目。數據編目就是為數據建立一個目錄,并向用戶提供獲取數據可訪問性、健康和位置等內容所需的必要信息。編目的方式有手工編目和自動編目,主要涉及數據的識別、編目和發現。隨著機器學習、人工智能等技術的應用,增強了企業數據管理的能力,讓編目工作越來越自動化。
? ? ? ??③數據服務。基于數據目錄開發和發布數據服務,控制訪問權限,讓合適的用戶在合適的時間找到合適的數據,并監控數據服務的使用情況,以便根據數據的質量和使用情況,對相關數據及時作出反饋和調整。
? ? ? ??在企業數字化轉型的路上,必須牢記的一個原則是“數據來源于業務,且必須回歸于業務”,我們將數據“養大”、“養活”不是目的,而是過程,“養數據”的本質目的還是要讓數據能夠對企業的業務起到更好的驅動或支撐作用。

? ? ? ??① 數據是由業務產生的,從業務規劃和設計之初,就要做好“養數據”的準備。大到整體的企業架構規劃,小到一個業務模塊的流程、表單和操作設計,都需要考慮如何才能收集到完整、準確、真實的數據,做好與之對應的數據規劃,例如:數據架構、數據標準、數據分布、數據流向等。
? ? ? ??②“養數據千日,用數據一時”,將“養數據”作為企業的一種習慣,一種文化,企業的數據戰略才能真正落地。同時,只養好數據還不夠,還需要培養“數據化思維”,堅持“用數據說話、用數據管理、用數據決策”,將數據應用在日常工作中。
? ? ? ??③養數據、用數據、流程優化,是一個相互作用,互為驅動的關系。企業業務是經常變化的,因此“養數據、用數據”的過程也需要隨著業務的變化而進行調整。另一方面,數據的分析、挖掘和應用,也會發現業務的一些問題、不足或機會,這時候企業就需要對業務流程進行調整、優化,甚至重構。? ? ? ??這是一個偽命題,如果你看過我之前的數據治理文章,也不難得出這個結論:治數與養數并沒有高低之分,養數據也是一種數據治理的策略,而數據治理以全面的視角,為養數據提供保障。本質上,養數據即為數據治理,數據治理也是養數據!
? ? ? ??上文我們說過,養數據就像養小孩一樣,需要持續投入,以使其茁壯成長。但這個過程并不容易,有孩子的讀者一定深有體會,孩子生病即使只是最為普通的感冒,也會讓父母操碎了心。
養數據的過程也一樣,你的數據寶寶也是會經常“生病”的,例如:

? ? ? ??請參考《數據治理的成功要素3:治理的時機和切入點》
? ? ? ??生了病就得治,早治早好!
? ? ? ??這里的“治”主要是針對數據問題的“癥狀”進行治理,是狹義層面的治理,以解決實際數據問題為主,常見的治理手段包括:主數據管理,元數據管理、數據標準管理、數據質量管理等。
? ? ? ??“養數據”是企業的數據戰略,一定從戰略思維開始,不僅包含了數據收集和管理的各種技術、方法和工具,更包含了數據管理的組織、制度和流程。在我的新書《一本書講透數據治理:戰略、方法、工具與實踐》(下附購買鏈接)中,將數據治理分為了“道、法、術、器”四個層面,其中:數據治理之道即涉及數據戰略、數據組織、數據文化;數據治理之法則主要講解組織實施數據治理的方法論;數據治理之術主要對數據治理用到的技術進行了說明;數據治理之器即為數據治理/管理常用的工具/系統。
? ? ? ??因此,從廣義上理解,養數據的過程就是數據治理,數據治理也是養數據!
下一篇:數據管理成熟度等級計算...