- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-11-01來源:漢宮秋瀏覽數:1198次
DataOps是什么,它是一個技術平臺還是一種敏捷的方法,或者兩種都不是?DataOps是數據的DevOps嗎?DataOps的主要內容是什么?本文可供參考和學習。
1.1 歷史
2014年,Lenny Liebmann 最早在《Three Reasons Why DataOps Is Essential for Big Data Success》這篇文章中,提出 DataOps 的概念,它定義了 DataOps 是優化數據科學和運營團隊之間協作的一系列實踐集。
2015年,Andy Palmer 將這個理念發揚光大,提出了 DataOps 的四個關鍵構成:數據工程,數據集成,數據安全和數據質量。
2017年,Nexla 的 Jarah Euston 把 DataOps 的核心定義為從數據到價值,這個是首次把 DataOps 和業務價值關聯起來的定義。
2018年,Gartner 把 DataOps 納入到 Data Management 的技術成熟度曲線,標志著 DataOps 正式被業界所接納并推廣起來。

DataOps,即 Data+Op(eration)s,通過構建和增強數據管道的實踐和技術,快速滿足分析需求和業務需求。DataOps 是包括人,流程和技術的一組體系,用來管理代碼,工具,基礎架構和數據本身,從而實現三個核心功能:
將 DevOps 的 CI/CD?理念應用到數據領域
優化和改進數據管理者(生產者)和數據消費者的協作
持續交付數據流生產線

1.3 形式
將數據采集、數據集成、數據準備、數據質量與數據安全等基礎功能集成,并提供可運維的能力,以提升從數據洞察到價值發現的效率。

1.4 意義
“數據負債” Or?“數據資產”DataOps 是數據管理實踐新的發展方向,其目標是 數據用戶(包括數據管理、數據科學家、業務系統等)能夠便利及時地從數據中獲取業務價值。


DataOps 類似于 DevOps,強調數據發布的效率和數據團隊的整合。
數據的采集、集成和準備
通過可持續的自動化方式對新的數據源和數據管道進行集成、準備、清洗、管控和發布。
利用 CDC 和流處理技術,將數據管道轉換成實時流,用于類似實時交互所用到的預測分析。
業務人員使用數據目錄和數據準備工具,進行數據的自動發現和自動編排,提高數據利用的便捷性。
利用元數據驅動的開發工具,維護和更新數據管道,在數據源發生變化時保護您的數據流。
提供可信數據
在整個數據管道過程中實施數據治理,從而確保了交付的數據都是可信、安全和受保護的,并滿足合規性要求。 通過一個統一的、智能的數據平臺將數據治理、數據編目、數據質量及數據保密工作整合在一起,只有這樣才能確保所有數據都是可信的和受保護的。 運用人工智能/機器學習技術,助力在整個企業實施數據治理。提升服務能力
通過部署數據驅動型應用,貫穿數據管道所有階段的每一個變化,都會被分發給數據使用人員。 實現敏捷性和靈活性,可以采用水平擴展和基于微服務的架構。運用人工智能和機器學習技術,監測和管理數據管道,使其持續運行,且性能和容量不斷優化。
03 DataOps 原則敏捷組織發布了一個 DevOps 宣言,其中包含了 18 項原則,涵蓋了文化(不斷滿足客戶)、團隊動態(自發組織、每日互動)、技術實踐(創建一次性環境)和質量(監控質量和性能)等眾多方面。根據宣言,總結出實施 DataOps 時需要遵循的幾個原則:
3.1 安全合規
首先,我們需要根據企業的業務屬性,確定極為清晰且安全合規的數據隱私和權限管控標準。數據協同使用可以讓授權的業務用戶和第三方安全合規地使用企業數據,無需擔心數據的隱私和泄漏,這是一切后續的基礎。否則,就無法真正做到將數據賦能給一線的業務用戶。
3.2 快速敏捷
其次,在合規的基礎上,將一切圍繞數據產生的價值提升到最大,這樣才能不錯失創收的機會。
3.3 開放協同
將自上而下的描述性指標,轉為將數據開放給業務用戶,進行自下而上地探索和使用。因為業務用戶最了解創新所需要的數據應該如何應用,因此應該最大限度地發揮他們的主觀能動性,帶來業務創新。
業務用戶使用數據去探索,是階段性的。從只會用excel到看報表再到寫SQL直至會用python做數據探索,不同的發展階段,數據探索的能力也截然不同。而DataOps倡導的是每個人都應當學習去使用數據,數據不是某個人,某個小組的精英才能掌握的能力,它是一種文化。
3.4 自助服務
通過自助式服務,將數據部門從日常數據使用的生命周期管理中解放出來,以提高數據的時效性。并且要計算使用數據資源的成本,讓數據資產負債的概念深入人心,而不是將數據資源當成免費的午餐,吃完還要“評頭論足”。
3.5 自動智能
讓數據部門全身心地投入到對于自動化、智能化數據科技的實踐中,以最快地速度滿足數據多樣性,動態性,質量監控,系統穩定性的底層技術需求(后續會詳細描述)。
04 DataOps 的作用

4.1?改善協作與溝通
DataOps伴隨著文化的變化,促進協作,信任和責任。目標是模糊部門和職能之間的界限,鼓勵知識交流,減少沖突,最終提高生產力。

4.2?加快生產時間
速度是 DataOps 的主要驅動力。簡化且高度自動化的分析流程的想法有助于快速交付新功能和見解,并減少人工勞動。此外,較短的反饋和測試周期有助于加快對不斷變化的業務需求的反應并提高靈活性。
4.3?提高質量和可靠性
定義明確的分析流程可提高速度和健壯性。例如,自動測試和手動測試的多個階段可防止部署有缺陷的更新。此外,DataOps 還包括監視推出的更改,以識別瓶頸和潛在問題。最后,不同角色的融合有助于在各個階段協調變更,例如,當數據工程師被告知數據科學家后來遇到的問題時,有助于改善數據清理工作。
4.4 啟用自助服務
借助更高的自動化和機器學習算法來簡化開發和部署任務,組織需要更少的專家來構建和管理數據和分析任務。具有一定程度的技術知識的業務用戶可以自行分析。

DataOps 就是通過快速構建可運維的 data pipeline,為數據使用者提供靈活迅速的數據服務。
因此,他是一種數據平臺、數據中臺、數據湖、湖倉一體之上的數據使用策略,而不是某種技術、產品或者平臺。
2、DataOps與數據中臺DataOps 可以作為數據中臺的核心能力,實現快速、穩定和自助式數據準備和數據服務。
3、DataOps與數據治理基于 DataOps,可以更好的實現元數據、數據質量等數據治理自動化。
4、DataOps與 xOps都是通過自動化構建和運維等工具,實現快速交付和高效運營。
需要提醒大家的是,Ops 理解為“運營“更為合理;雖然過去 DevOps 年代確實更多倚重的是自動化運維能力,但是當擴展到 Big Data 和 AI 領域時我更愿意稱之為“運營”,以突出 xOps 的業務價值,而不僅僅是 IT 價值。
DevOps ?--> 軟件能力 DataOps --> 數據價值 MLOPS --> 模型推理 5、DataOps與敏捷雖然文中偶爾也有提到敏捷,不過我還是覺得兩者沒啥必然關系!
敏捷是項目管理的策略“小步快跑”,相比起“跑得快”,“步子”更關鍵;DataOps 是工具建設的策略,單純地關注“如何簡單地跑得快”;
DataOps 可以給敏捷提供更高效的生產效能,就是個“工具人”,實現快了就可以快速試驗;從 DevOps 年代,我就覺得是敏捷在碰瓷 xOps,因為敏捷太缺乏能夠指導實際落地的方法論和工具鏈了。敏捷在國內已經淪為壓榨程序員的工具,早已背棄了初衷,也逐漸淪為了添亂。為了和敏捷區分開,我更愿意稱之為“快速交付”。