日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實施部署指南。同時,在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

談?wù)劜渴饠?shù)據(jù)產(chǎn)品的 6 個最佳實踐

時間:2023-10-04來源:豆蔻瀏覽數(shù):166

數(shù)據(jù)科學(xué)項目的最后一步可以說也是最難的,即將有望實現(xiàn)其目的的原型作為概念驗證(PoC)并最終部署它。部署數(shù)據(jù)產(chǎn)品意味著通過將數(shù)據(jù)科學(xué)項目的輸出(例如機(jī)器學(xué)習(xí)算法或可視化儀表板)集成到相應(yīng)的業(yè)務(wù)流程中,使其可供用戶使用。這說起來容易做起來難。以下是一些技巧,希望可以幫助克服數(shù)據(jù)產(chǎn)品部署的障礙:


1. 配備數(shù)據(jù)工程師

數(shù)據(jù)科學(xué)工作被稱為最受歡迎的工作。雖然數(shù)據(jù)和機(jī)器學(xué)習(xí)工程師對于數(shù)據(jù)科學(xué)項目的成功不可或缺,但他們的作用至少同樣重要。數(shù)據(jù)科學(xué)家通常參與開發(fā)和原型設(shè)計階段,以探索數(shù)據(jù)、進(jìn)行實驗、從中設(shè)計特征,最后開發(fā)機(jī)器學(xué)習(xí)和統(tǒng)計模型。然而,許多數(shù)據(jù)科學(xué)項目的真正瓶頸是部署——數(shù)據(jù)和機(jī)器學(xué)習(xí)工程師的工作。

當(dāng)部署原型(例如機(jī)器學(xué)習(xí)模型)時,“數(shù)據(jù)科學(xué)項目”就變成了“軟件開發(fā)”項目。這是兩件截然不同的事情。要了解其中的原因,請考慮新車的開發(fā)。在研發(fā)階段,對汽車的許多調(diào)整都可以手動定制,例如以特定方式塑造車身以確保最佳的空氣動力學(xué)特性。目標(biāo)是測試和創(chuàng)建給定原型的最佳功能。然而,如果這樣的原型車要投入批量生產(chǎn),目標(biāo)就會改變?yōu)樯a(chǎn)盡可能多的廉價且高質(zhì)量的汽車。為了確保廉價和高質(zhì)量的生產(chǎn),原型的某些功能可能必須妥協(xié)。這是一個全新的挑戰(zhàn),與研發(fā)階段非常不同。不能將汽車交給生產(chǎn)主管并期望立即生產(chǎn)數(shù)千輛。數(shù)據(jù)科學(xué)項目也是如此。

在開發(fā)過程中,很多事情(例如糾正數(shù)據(jù)中的錯誤)可以由數(shù)據(jù)科學(xué)家手動完成。但如果最終的數(shù)據(jù)產(chǎn)品要投入生產(chǎn),這本身通常是一個新項目,也是一個全新的挑戰(zhàn)。

數(shù)據(jù)產(chǎn)品需要經(jīng)過測試和設(shè)計,能夠容錯并滿足性能要求。這需要時間和具有適當(dāng)技能的工程師,最好具有軟件開發(fā)和數(shù)據(jù)科學(xué)/機(jī)器學(xué)習(xí)知識的背景。因此,對于每個數(shù)據(jù)科學(xué)項目,肯定需要一名工程師。我們建議在組建數(shù)據(jù)科學(xué)團(tuán)隊時,目標(biāo)應(yīng)該是擁有更多的工程師和數(shù)據(jù)科學(xué)家。


2. 在業(yè)務(wù)部門、數(shù)據(jù)科學(xué)部門和IT運(yùn)營部門的合作三角中運(yùn)營數(shù)據(jù)項目

在孤立組織的公司中,數(shù)據(jù)科學(xué)團(tuán)隊通常很少或根本不與其他部門合作,特別是 IT 和業(yè)務(wù)部門。在數(shù)據(jù)科學(xué)項目的實施過程中,數(shù)據(jù)科學(xué)/工程-業(yè)務(wù)部門-IT 三角團(tuán)隊的合作對于促進(jìn)最終產(chǎn)品的成功部署至關(guān)重要。業(yè)務(wù)部門,即數(shù)據(jù)產(chǎn)品的用戶,應(yīng)該定期溝通他們的需求,而數(shù)據(jù)科學(xué)團(tuán)隊和IT部門應(yīng)該評估技術(shù)可行性,并嘗試找到解決方案來解決需求和可行性之間的不匹配。這會阻止實施滿足要求但從技術(shù)角度來看不可部署的項目,反之亦然。

例如,在生產(chǎn)機(jī)器的預(yù)測維護(hù)用例中,業(yè)務(wù)部門需要定義他們希望如何使用數(shù)據(jù)產(chǎn)品。應(yīng)該提前多長時間預(yù)測故障?準(zhǔn)確度需要達(dá)到多高才能獲得有利的業(yè)務(wù)案例?這些要求必須由數(shù)據(jù)科學(xué)團(tuán)隊翻譯并由 IT 部門評估:傳感器數(shù)據(jù)的粒度是多少——毫秒、秒、分鐘?是預(yù)先匯總的嗎?這個頻率是否足夠高,足以提前這么長時間做出預(yù)測?實現(xiàn)該用例需要什么計算能力和工具(例如,是否有可以應(yīng)對計算負(fù)載的分布式系統(tǒng))?部署的目標(biāo)環(huán)境是什么?它是否具有必要的工具?等等。

這些利益相關(guān)者的合作確保數(shù)據(jù)科學(xué)用例的設(shè)置不會因需求和可行性之間的不匹配而阻礙其部署。


3. 注意技術(shù)和組織債務(wù)的成本

技術(shù)債務(wù)的概念在軟件開發(fā)中是眾所周知的。它指的是人們選擇一種在短期內(nèi)易于實施的解決方案,但從長遠(yuǎn)來看不是最優(yōu)的并且會付出代價的解決方案(即“快速而骯臟的解決方案”)。從長遠(yuǎn)來看,這些有害影響會隨著債務(wù)的增加而增加,例如代碼運(yùn)行速度可能會變慢,或者維護(hù)和改進(jìn)會更加困難。

數(shù)據(jù)科學(xué)項目也存在這種技術(shù)債務(wù)。像“現(xiàn)在讓我們對數(shù)據(jù)轉(zhuǎn)換進(jìn)行硬編碼,因為我們明天需要顯示一些結(jié)果”之類的情況對于數(shù)據(jù)科學(xué)家來說肯定聽起來很熟悉。他們還將知道,隨著項目的繼續(xù),而不是重構(gòu)(即清理),從長遠(yuǎn)來看,此類技術(shù)債務(wù)可能會帶來高昂的成本。

就像經(jīng)濟(jì)理論中的“債務(wù)”不一定是壞事,但在數(shù)據(jù)科學(xué)項目中需要仔細(xì)考慮成本和收益。除了技術(shù)之外,還要考慮組織債務(wù):


3.1 什么是技術(shù)債務(wù)

如上所述,這主要與開發(fā)人員和數(shù)據(jù)科學(xué)家相關(guān):在編寫代碼時,總是傾向于尋求快速而骯臟的解決方案,特別是考慮到時間壓力。但在部署數(shù)據(jù)科學(xué)項目時,此類解決方案會適得其反,因為它們可能會妨礙代碼的可讀性、可維護(hù)性和性能。數(shù)據(jù)環(huán)境中的技術(shù)債務(wù)示例包括:

●使用在開發(fā)中使用方便但性能不佳或難以部署的工具(例如,R 用于性能敏感的應(yīng)用程序)

●硬編碼和手動計算,而不是編寫專為穩(wěn)定性而設(shè)計的代碼并針對極端情況進(jìn)行測試(即開發(fā)測試)

●沒有在代碼文檔上花費(fèi)足夠的時間

這些問題在軟件工程學(xué)科中是眾所周知的。然而,由于許多數(shù)據(jù)科學(xué)家來自計算機(jī)科學(xué)以外的背景,其中一些數(shù)據(jù)科學(xué)家不得不再次經(jīng)歷艱難的過程。


3.2 什么是組織債務(wù)

技術(shù)債務(wù)的基本機(jī)制適用于我們的組織層面,尤其與管理者和決策者相關(guān)。示例包括:

●創(chuàng)新實驗室和核心 IT 之間不兼容的技術(shù)工具堆棧是決策者承擔(dān)了將實驗室建設(shè)為脫離企業(yè) IT 游輪的“快艇”的組織債務(wù)的結(jié)果。

●在項目層面上,在 PoC 中,工具不兼容、缺乏定期數(shù)據(jù)訪問、數(shù)據(jù)質(zhì)量缺陷或其他可能的失敗原因之一被廣泛忽視,應(yīng)被視為組織債務(wù)

產(chǎn)生這樣的債務(wù)并不一定是壞事——它可能是有用的,甚至是必要的,例如,如果需要非??焖俚亟桓?PoC。但如果發(fā)生了此類債務(wù),人們需要意識到不斷增加的成本,確保其值得帶來的好處,并應(yīng)該有一個償還計劃。


4. 在設(shè)計或更新數(shù)據(jù)生成流程時咨詢數(shù)據(jù)科學(xué)家

大多數(shù)公司已經(jīng)擁有大量數(shù)據(jù),并且這樣做已經(jīng)很長時間了。然而,傳統(tǒng)上收集的數(shù)據(jù)通常并不意味著用來創(chuàng)造價值。相反,它被保存用于報告或監(jiān)管目的。因此,對于某些數(shù)據(jù)科學(xué)用例,許多組織只是沒有所需的數(shù)據(jù)(質(zhì)量)。不幸的是,有時可以在 PoC 環(huán)境中克服這個問題,很可能使用不適合在生產(chǎn)中應(yīng)用的手動方法。盡管如此,對于戰(zhàn)略用例公司可能希望在其數(shù)據(jù)基礎(chǔ)上開展工作以實現(xiàn)這一目標(biāo)。如果是這樣,或者如果數(shù)據(jù)生成過程因其他目的而被重新設(shè)計,請記住在設(shè)計這些過程時咨詢數(shù)據(jù)科學(xué)家和工程師!

例如,如果汽車、機(jī)器、物聯(lián)網(wǎng)設(shè)備、電梯等中包含新傳感器,以便收集用于記錄目的的數(shù)據(jù),精通數(shù)據(jù)的同事可能會對數(shù)據(jù)應(yīng)該是什么樣子有一個或兩個想法(頻率、測量等)以促進(jìn)預(yù)測性維護(hù)用例。數(shù)據(jù)科學(xué)家的這些要求也將對業(yè)務(wù)案例產(chǎn)生影響。例如,如果需要為與數(shù)據(jù)科學(xué)無關(guān)的一個目的收集數(shù)據(jù),但可用于三個數(shù)據(jù)科學(xué)用例,那么增加測量頻率可能是可行的。


5. 像投資任何其他有價值的能力一樣投資數(shù)據(jù)治理

每個曾經(jīng)處理過數(shù)據(jù)的人都會知道,通常最大的障礙是數(shù)據(jù)質(zhì)量(例如,大量 N/A 字段、難以置信的值等)和可用性(例如,從其他部門獲取數(shù)據(jù)、很少觀察、變量等)。部分原因是,當(dāng)公司的數(shù)據(jù)生成流程到位時,它們并不是為了收集數(shù)據(jù)來實施數(shù)據(jù)科學(xué)用例而設(shè)計的。然而,更重要的是,這是由于缺乏或糟糕的數(shù)據(jù)治理,即主動管理數(shù)據(jù)以確保公司的可用性、可用性、質(zhì)量和安全性。作為關(guān)鍵的推動者,而不是一個閃亮的流行詞,數(shù)據(jù)治理所受到的關(guān)注和資金比探索“人工智能算法”要少得多——這是不幸的。

雖然在用例的原型設(shè)計階段,由于缺乏數(shù)據(jù)治理而帶來的一些問題仍然可以得到緩解,但這些問題通常在部署階段變得非常緊迫,以至于危及用例進(jìn)入生產(chǎn)。例如,在開發(fā)階段,數(shù)據(jù)中的質(zhì)量問題通??梢允謩蛹m正(例如 N/A 值的插補(bǔ)),但自動化此類解決方案通常要困難得多,因為需要考慮所有意外情況。或者,一種數(shù)據(jù)產(chǎn)品可能在一個市場中完美運(yùn)行,但由于缺乏必要的數(shù)據(jù)而無法推廣到其他市場。

因此,糟糕的數(shù)據(jù)治理會導(dǎo)致數(shù)據(jù)科學(xué)用例的整個生命周期出現(xiàn)問題。

由于數(shù)據(jù)質(zhì)量不佳,許多試點在開發(fā)階段就會失敗。但糟糕的數(shù)據(jù)治理帶來的后果在部署階段更為嚴(yán)重。


6.檢查項目并將其嵌入總體數(shù)據(jù)策略中

暫時拋開所有復(fù)雜的技術(shù)和部署過程的細(xì)節(jié):數(shù)據(jù)驅(qū)動型組織的基本資產(chǎn)是從數(shù)據(jù)中創(chuàng)造價值的清晰愿景和戰(zhàn)略。其核心表現(xiàn)之一是領(lǐng)導(dǎo)者如何獲取正確的數(shù)據(jù)以實現(xiàn)其戰(zhàn)略目標(biāo)。

谷歌通過街景程序收集世界上每條街道圖像的努力就是一個生動的例子。街景作為該公司開發(fā)自動駕駛汽車的早期步驟的衍生產(chǎn)品而誕生。該公司很早就意識到,這種對數(shù)據(jù)收集的投資所帶來的好處遠(yuǎn)遠(yuǎn)超出了為地圖用戶提供更好的定位。在 Google 創(chuàng)始人拉里·佩奇 (Larry Page) 和謝爾蓋·布林 (Sergey Brin) 領(lǐng)導(dǎo)的一項倡議中,街景成為 GoogleX 部門內(nèi)的第一個項目,該部門負(fù)責(zé)托管該組織的“登月項目”。與此同時,街景圖像不僅被用來在自動駕駛汽車方面取得比任何競爭對手更快的進(jìn)展,而且也大大改善了地圖。

所有行業(yè)都存在相同的基本機(jī)制:為了從先進(jìn)的數(shù)據(jù)科學(xué)和人工智能用例中受益,有必要對數(shù)據(jù)獲取進(jìn)行戰(zhàn)略投資。例如,Vorwerk 將建立一個實時數(shù)據(jù)管道作為首要任務(wù),該管道收集和聚合全球超過 150 萬臺相連的 Thermomix 設(shè)備產(chǎn)生的數(shù)據(jù)。此外,他們還投資了最先進(jìn)的本地和云端基礎(chǔ)設(shè)施?,F(xiàn)在,他們可以通過各種高級用例來利用這些投資。

不幸的是,反之亦然:許多數(shù)據(jù)科學(xué)項目失敗是因為可用數(shù)據(jù)使它們不可能實現(xiàn)。再加上頻繁報道對人工智能潛力的高期望,這是通往失望的捷徑。我們當(dāng)然相信數(shù)據(jù)創(chuàng)造價值的潛力。與此同時,我們一次又一次地看到數(shù)字化必須先于數(shù)據(jù)科學(xué)。當(dāng)數(shù)據(jù)基礎(chǔ)還不存在時,嘗試實現(xiàn)高級用例是沒有意義的。相反,評估每個功能的數(shù)據(jù)準(zhǔn)備情況并制定總體數(shù)據(jù)策略。首先關(guān)注容易實現(xiàn)的目標(biāo),然后將用例實施的傾向反饋回來以引導(dǎo)戰(zhàn)略重點。通過同時為更高級的用例奠定基礎(chǔ)并執(zhí)行您的組織已準(zhǔn)備好的用例來創(chuàng)建反饋循環(huán)。這樣,您將能夠保持高昂的士氣,并逐步致力于每個人都在談?wù)摰奈磥砣斯ぶ悄苡美?


小結(jié)

我們研究了目前許多數(shù)據(jù)科學(xué)項目在部署階段失敗的原因。我們將部署定義為將數(shù)據(jù)科學(xué) PoC 或試點結(jié)果轉(zhuǎn)變?yōu)榭刹僮鞯臄?shù)據(jù)產(chǎn)品并集成到業(yè)務(wù)流程中的階段。我們研究了數(shù)據(jù)科學(xué)用例的不同形式的技術(shù)部署,并確定了五個關(guān)鍵挑戰(zhàn):

(1) 數(shù)據(jù)可訪問性和/或質(zhì)量不足以促進(jìn)可持續(xù)價值創(chuàng)造。

(2) 數(shù)據(jù)隱私和安全問題阻礙了擴(kuò)展。

(3) 沒有足夠的數(shù)據(jù)和機(jī)器學(xué)習(xí)工程師來幫助部署數(shù)據(jù)科學(xué)家的成果。

(4) 在許多公司中,業(yè)務(wù)、數(shù)據(jù)科學(xué)和IT部門之間存在很大的組織鴻溝。

(5) 技術(shù)格局正在快速發(fā)展,企業(yè) IT 尚未準(zhǔn)備好運(yùn)行創(chuàng)新和數(shù)據(jù)實驗室中使用的技術(shù)。

我們進(jìn)一步分享了克服這些挑戰(zhàn)的最佳實踐,并使數(shù)據(jù)科學(xué)項目更接近創(chuàng)造真正的價值:

(1)擁有數(shù)據(jù)工程師。

(2)在跨學(xué)科團(tuán)隊中工作

。(3)仔細(xì)權(quán)衡技術(shù)和組織債務(wù)的成本和收益。

(4) 讓數(shù)據(jù)科學(xué)家參與數(shù)據(jù)生成過程的設(shè)計。

(5)實施良好的數(shù)據(jù)治理。

(6) 確保項目有助于更大的數(shù)據(jù)戰(zhàn)略,并盡早為高級用例奠定基礎(chǔ)。

(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
  • 相關(guān)主題
  • 相關(guān)大數(shù)據(jù)問答
  • 相關(guān)大數(shù)據(jù)知識
customer

在線咨詢

在線咨詢

點擊進(jìn)入在線咨詢