日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺(tái)

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國數(shù)據(jù)治理市場(chǎng)份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場(chǎng)份額第一。

高質(zhì)量數(shù)據(jù)集建設(shè)指南

時(shí)間:2025-06-05來源:睜眼看見你瀏覽數(shù):522

高質(zhì)量數(shù)據(jù)集建設(shè)應(yīng)按照生命周期有序展開,包括數(shù)據(jù)需求、數(shù)據(jù)規(guī)劃、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注、模型驗(yàn)證等6個(gè)階段。其中,各階段主要按以上順序逐步開展,同時(shí),各階段會(huì)對(duì)其他階段進(jìn)行反饋,或者會(huì)在其他階段反饋下進(jìn)行迭代。

數(shù)據(jù)需求

數(shù)據(jù)需求階段主要涉及確定人工智能應(yīng)用所需要數(shù)據(jù),即根據(jù)特定人工智能應(yīng)用,明確數(shù)據(jù)集在數(shù)據(jù)內(nèi)容、規(guī)范等方面的需求。數(shù)據(jù)需求如下:

數(shù)據(jù)規(guī)范方面,需要對(duì)數(shù)據(jù)規(guī)格的創(chuàng)建要求加以規(guī)定,包括數(shù)據(jù)格式、統(tǒng)計(jì)特性和可分性等;

構(gòu)建數(shù)據(jù)集所需的數(shù)據(jù)質(zhì)量模型,即實(shí)例化一個(gè)具有相關(guān)數(shù)據(jù)質(zhì)量特征(包括但不限于完整性、準(zhǔn)確性、一致性)的數(shù)據(jù)質(zhì)量模型;

檢查數(shù)據(jù)集建設(shè)中數(shù)據(jù)的可獲得性,即驗(yàn)證和確認(rèn)用于特定人工智能應(yīng)用的數(shù)據(jù)是否可獲取得到。


數(shù)據(jù)規(guī)劃

數(shù)據(jù)規(guī)劃階段旨在確保所用數(shù)據(jù)滿足數(shù)據(jù)需求階段的要求,同時(shí)為使用這些數(shù)據(jù)完成人工智能應(yīng)用的目標(biāo)提供支持。數(shù)據(jù)規(guī)劃要求如下:

設(shè)計(jì)數(shù)據(jù)架構(gòu),即界定所需數(shù)據(jù)的全部屬性和范圍,以及如何使用這些數(shù)據(jù);

制定質(zhì)量計(jì)劃,即制定涵蓋數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注等階段的數(shù)據(jù)質(zhì)量計(jì)劃,以滿足數(shù)據(jù)規(guī)范等方面要求;

預(yù)計(jì)工作量,即預(yù)估獲得和準(zhǔn)備數(shù)據(jù)以支持特定人工智能應(yīng)用所需的工作量,可能包括任何必要的數(shù)據(jù)重組、數(shù)據(jù)傳輸或數(shù)據(jù)收集的時(shí)間,以及為特定人工智能應(yīng)用構(gòu)建數(shù)據(jù)質(zhì)量模型的時(shí)間。


數(shù)據(jù)采集

數(shù)據(jù)采集階段主要是收集用于特定人工智能應(yīng)用的數(shù)據(jù),即從數(shù)據(jù)規(guī)劃階段所確定的數(shù)據(jù)源收集的實(shí)時(shí)和歷史數(shù)據(jù)。數(shù)據(jù)采集要求如下:

確定數(shù)據(jù)采集方式,即根據(jù)所需數(shù)據(jù)是否已存在并可直接再利用、是否可轉(zhuǎn)化現(xiàn)有數(shù)據(jù)來滿足要求、是否可通過購買或許可獲得數(shù)據(jù)、是否可以生成數(shù)據(jù)、是否需要采集新數(shù)據(jù)等情況,確定是以獲取和組合現(xiàn)有數(shù)據(jù)集、生成數(shù)據(jù)(包括但不限于仿真模擬數(shù)據(jù)、合成數(shù)據(jù))、收集數(shù)據(jù)(包括但不限于傳感器采集、手動(dòng)輸入)等之中何種方式采集數(shù)據(jù);

測(cè)試并在必要時(shí)改進(jìn)數(shù)據(jù)收集方法,即測(cè)試數(shù)據(jù)收集方法,在必要時(shí)調(diào)整相關(guān)配置和參數(shù)設(shè)置、操作條件、傳感器規(guī)格和安裝位置等,以滿足相關(guān)數(shù)據(jù)收集規(guī)范要求;

進(jìn)行數(shù)據(jù)質(zhì)量度量并在必要時(shí)提升數(shù)據(jù)質(zhì)量,可能會(huì)減少數(shù)據(jù)使用者的工作量,并針對(duì)通過應(yīng)用不同轉(zhuǎn)換所收集的數(shù)據(jù)降低引入下游不一致的風(fēng)險(xiǎn)。


數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理如下:

數(shù)據(jù)轉(zhuǎn)換,以最小的內(nèi)容損失,將數(shù)據(jù)從一種表示或空間轉(zhuǎn)換為另一種表示或空間;

數(shù)據(jù)驗(yàn)證,根據(jù)驗(yàn)證正確性、有意義、安全性、隱私性等數(shù)據(jù)質(zhì)量特征,確保數(shù)據(jù)是正確的;

數(shù)據(jù)清洗,檢測(cè)錯(cuò)誤數(shù)據(jù)或缺失數(shù)據(jù),并通過替換、修改、輸入或刪除等方式修正數(shù)據(jù);

數(shù)據(jù)聚合,將兩個(gè)或多個(gè)數(shù)據(jù)集以匯總的形式合并為一個(gè)數(shù)據(jù)集;

數(shù)據(jù)抽樣,從數(shù)據(jù)集中選擇數(shù)據(jù),抽樣可以替換或非替換方式進(jìn)行;

特征創(chuàng)建,創(chuàng)建比原始特征更能有效捕捉數(shù)據(jù)中主要信息的新特征;

特征選擇,使用可用特征的子集來降低數(shù)據(jù)的維數(shù);

豐富化,連接各類數(shù)據(jù)源,并為數(shù)據(jù)增加額外的上下文語境。


數(shù)據(jù)標(biāo)注

數(shù)據(jù)標(biāo)注階段主要是針對(duì)有監(jiān)督機(jī)器學(xué)習(xí)的,其訓(xùn)練、驗(yàn)證和測(cè)試數(shù)據(jù)需要對(duì)一個(gè)或多個(gè)目標(biāo)變量賦值。數(shù)據(jù)標(biāo)注要求如下:

所獲取的數(shù)據(jù)中不包含目標(biāo)變量,那么數(shù)據(jù)標(biāo)注就是為這些目標(biāo)變量賦值的過程;

數(shù)據(jù)標(biāo)注質(zhì)量是影響數(shù)據(jù)質(zhì)量的一個(gè)重要方面,相關(guān)組織應(yīng)該明確數(shù)據(jù)標(biāo)注規(guī)范,并對(duì)數(shù)據(jù)標(biāo)注過程進(jìn)行監(jiān)測(cè)和質(zhì)量管理。


模型驗(yàn)證

在模型驗(yàn)證階段,所準(zhǔn)備好的數(shù)據(jù)被用于特定人工智能模型訓(xùn)練。在該階段,要對(duì)所訓(xùn)練的人工智能模型進(jìn)行表現(xiàn)效果評(píng)估,以確定數(shù)據(jù)集是否滿足要求。若數(shù)據(jù)集未能使所訓(xùn)練人工智能模型的表現(xiàn)達(dá)到預(yù)期,可以采取以下步驟。

對(duì)于人工智能模型,確定數(shù)據(jù)集相比于算法,是否為致使模型表現(xiàn)效果未達(dá)到預(yù)期的根本原因;

在數(shù)據(jù)創(chuàng)建者與數(shù)據(jù)持有者之間,對(duì)模型驗(yàn)證階段所發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量問題進(jìn)行溝通,可以將對(duì)人工智能模型表現(xiàn)產(chǎn)生不利影響的數(shù)據(jù)質(zhì)量問題傳達(dá)給數(shù)據(jù)創(chuàng)建者和數(shù)據(jù)持有者。數(shù)據(jù)創(chuàng)建者與數(shù)據(jù)持有者可使用這些信息來改進(jìn)上游數(shù)據(jù)的質(zhì)量,以使下游數(shù)據(jù)使用者受益;

重復(fù)數(shù)據(jù)規(guī)劃、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注等階段以提升數(shù)據(jù)質(zhì)量;

重新訓(xùn)練人工智能模型,對(duì)于模型的表現(xiàn)效果進(jìn)行驗(yàn)證。

(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即申請(qǐng)數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢