在人工智能浪潮席卷全球的今天,所有AI應(yīng)用的基石——數(shù)據(jù),其治理工作卻面臨著前所未有的挑戰(zhàn)。本文基于億信華辰總經(jīng)理毛大群在2025DAMA全球數(shù)據(jù)管理峰會(huì)上的演講分享,探討大模型如何為傳統(tǒng)
數(shù)據(jù)治理注入新動(dòng)能,以及高質(zhì)量的數(shù)據(jù)治理又如何反哺AI,共同開啟一個(gè)雙向賦能的螺旋式上升時(shí)代。
數(shù)據(jù)治理的老大難:為何投入巨大卻收效甚微

多年來,數(shù)據(jù)治理一直是企業(yè)
數(shù)字化轉(zhuǎn)型中的核心議題,但其困境也同樣突出。無論是甲方企業(yè)還是乙方服務(wù)商,都普遍面臨著“周期長(zhǎng)、成本高、價(jià)值不顯”的難題。
成本高昂:一個(gè)典型的數(shù)據(jù)治理項(xiàng)目中,超過50%的成本消耗在數(shù)據(jù)處理環(huán)節(jié),而數(shù)據(jù)調(diào)研、制度建設(shè)等管理流程也占據(jù)了30%以上。
人力密集:從元數(shù)據(jù)梳理、
數(shù)據(jù)標(biāo)準(zhǔn)制定到
數(shù)據(jù)質(zhì)量規(guī)則落地,核心環(huán)節(jié)高度依賴專家經(jīng)驗(yàn)和大量人工操作,本質(zhì)上仍是“人力密集型”產(chǎn)業(yè)。
價(jià)值難顯:巨大的投入之后,真正實(shí)現(xiàn)“知行合一”、
數(shù)據(jù)價(jià)值充分釋放的案例仍是少數(shù),導(dǎo)致許多企業(yè)對(duì)數(shù)據(jù)治理望而卻步。
AI for Data:大模型如何為數(shù)據(jù)治理降本增效
在AI時(shí)代,上述問題不僅沒有消失,反而更加凸顯。那么,被寄予厚望的大模型,能否成為破解數(shù)據(jù)治理困局的“金鑰匙”?答案是肯定的。大模型憑借其強(qiáng)大的底層能力,正在重塑數(shù)據(jù)治理的作業(yè)模式。從原理上看,大模型的四項(xiàng)核心能力與數(shù)據(jù)治理場(chǎng)景完美契合:

語(yǔ)言理解能力:大模型是天生的語(yǔ)言大師,能精準(zhǔn)理解和處理各類文本信息。
代碼轉(zhuǎn)換能力:其底層的Transformer架構(gòu)使其具備強(qiáng)大的映射和代碼生成能力,如我們熟知的NL2SQL(自然語(yǔ)言轉(zhuǎn)SQL)。
歸納總結(jié)能力:能快速?gòu)暮A啃畔⒅刑釤捯c(diǎn),生成會(huì)議紀(jì)要、文檔摘要等。
邏輯推理能力:在復(fù)雜關(guān)系中發(fā)現(xiàn)深層聯(lián)系,是未來發(fā)展的關(guān)鍵方向。
基于這些能力,大模型正在以下幾個(gè)方面顯著提升數(shù)據(jù)治理的效率和質(zhì)量。
1. 數(shù)據(jù)開發(fā)提效:讓大模型成為“金牌程序員”

數(shù)據(jù)處理是數(shù)據(jù)治理中最耗時(shí)耗力的環(huán)節(jié)。無論是編寫SQL、Python腳本,還是使用ETL工具,都離不開數(shù)據(jù)開發(fā)工程師的手工勞動(dòng)。大模型天生就是優(yōu)秀的程序員,能夠根據(jù)指令自動(dòng)編寫和優(yōu)化代碼,極大地解放了人力。根據(jù)億信華辰的工程實(shí)踐統(tǒng)計(jì),引入大模型后,數(shù)據(jù)開發(fā)效率可提升約40%,成本降低30%。
2. 制度文檔生成:從“人找制度”到“AI生制度”
數(shù)據(jù)治理不僅是技術(shù)活,更是管理活,涉及大量規(guī)章制度、訪談紀(jì)要、需求文檔等非結(jié)構(gòu)化文本。利用大模型的歸納總結(jié)能力,可以構(gòu)建一個(gè)包含項(xiàng)目模板、歷史制度、訪談?dòng)涗浀谋镜刂R(shí)庫(kù)。通過簡(jiǎn)單的提示詞,就能快速生成和迭代各類制度文檔,效率提升可達(dá)60%,成本降低超過50%。
3. 核心治理任務(wù)智能化:攻克元數(shù)據(jù)、主數(shù)據(jù)與數(shù)據(jù)質(zhì)量難題

在
元數(shù)據(jù)管理中,大模型的推理能力可以幫助梳理復(fù)雜系統(tǒng)間的數(shù)據(jù)血緣關(guān)系。在數(shù)據(jù)建模時(shí),它可以借鑒同類項(xiàng)目經(jīng)驗(yàn),通過自然語(yǔ)言交互方式輔助設(shè)計(jì)。在主數(shù)據(jù)編碼這一痛點(diǎn)上,大模型能通過文字描述找到相似編碼,并輔助完成分級(jí)分類。在數(shù)據(jù)質(zhì)量方面,通過學(xué)習(xí)歷史問題庫(kù),大模型可以主動(dòng)生成預(yù)防性的檢測(cè)規(guī)則,提升數(shù)據(jù)質(zhì)量和治理效率。
億信華辰的探索實(shí)踐
我們認(rèn)為所有數(shù)據(jù)類的工具平臺(tái)未來都會(huì)演變成智能體開發(fā)架構(gòu),
數(shù)據(jù)治理平臺(tái)的技術(shù)架構(gòu)也不例外。各家的數(shù)據(jù)架構(gòu)基本構(gòu)型完全一樣,都是數(shù)據(jù)管理的十大模塊疊加私域知識(shí)庫(kù)再外接大模型,而且要同時(shí)兼容多種大模型。
特別強(qiáng)調(diào),數(shù)據(jù)治理工作要針對(duì)實(shí)際的工作痛點(diǎn)切實(shí)降低成本、提升效率、提高質(zhì)量。我們不提倡把以往的數(shù)據(jù)工具全部推翻掉重來一遍,我們提倡用漸進(jìn)式的抓痛點(diǎn)的方法來改進(jìn)數(shù)據(jù)治理過程,切實(shí)解決核心痛點(diǎn)問題。
因?yàn)榇竽P吐涞夭贿^一年左右的時(shí)間,確實(shí)有很多的項(xiàng)目還沒有結(jié)項(xiàng),但是億信華辰通過相關(guān)的實(shí)踐已經(jīng)能夠窺得大模型賦能數(shù)據(jù)治理帶來的好處了。這里列舉三個(gè)應(yīng)用的例子:
第一個(gè)例子是一個(gè)大型金融機(jī)構(gòu),他們?cè)缙谧鰯?shù)據(jù)治理是比較保守的;立項(xiàng)論證的時(shí)候始終覺得投入大,見效小,遲遲沒有行動(dòng)。今年運(yùn)用大模型相關(guān)能力以后,進(jìn)行了相關(guān)成本反復(fù)的評(píng)估和經(jīng)過半年左右的磨合,取得了非常好的效果。運(yùn)用大模型技術(shù)去做的數(shù)據(jù)治理工作,使得在原有同等條件下面整體的成本降低25%,實(shí)施周期縮短30%。
第二個(gè)例子是一個(gè)國(guó)家級(jí)重點(diǎn)研究機(jī)構(gòu),歷史積累了大量的非結(jié)構(gòu)化文本數(shù)據(jù),通過運(yùn)用大模型與RAG技術(shù)結(jié)合,構(gòu)建本地私域知識(shí)庫(kù),并通過數(shù)據(jù)治理過程提升知識(shí)庫(kù)的數(shù)據(jù)質(zhì)量,很輕松就開發(fā)出了各種智能助手 Agent。大量應(yīng)用大模型技術(shù)使得非結(jié)構(gòu)化數(shù)據(jù)得充分的挖掘和應(yīng)用,智能助手Agnet顯著提升辦公效率,加速了業(yè)務(wù)流程。
第三個(gè)例子是政府類的重大投資項(xiàng)目的審批流程優(yōu)化。過去重大項(xiàng)目審批文檔繁瑣,依靠人工審核周期通常是3-6個(gè)月,里面浩如煙海的文檔資料完全是靠人工去進(jìn)行審核。我們對(duì)審批角色的歷史審批動(dòng)作和審批規(guī)則做了梳理,對(duì)文檔資料的前置審核工作做了提取和關(guān)鍵信息結(jié)構(gòu)化提取處理,將傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)治理與非結(jié)構(gòu)化數(shù)據(jù)處理相結(jié)合,形成了審批知識(shí)庫(kù),使得審批角色在項(xiàng)目審核時(shí)不再需要海量閱卷,而通過關(guān)鍵信息提取、概要?dú)w納總結(jié)、大綱展示等方法快速精準(zhǔn)的輔助審核人員獲取審核項(xiàng)。系統(tǒng)上線試運(yùn)行期間項(xiàng)目文檔閱卷審核周期普遍縮短到一周以內(nèi),整體審核速度提速一倍以上。
Data for AI:高質(zhì)量數(shù)據(jù)如何反哺大模型
如果說“AI for Data”是上半場(chǎng),那么“Data for AI”則是這場(chǎng)變革的下半場(chǎng),也是形成“螺旋上升”的關(guān)鍵。大模型的表現(xiàn),尤其是其在垂直領(lǐng)域的應(yīng)用深度,直接取決于投喂給它的數(shù)據(jù)質(zhì)量。

經(jīng)過有效治理的高質(zhì)量數(shù)據(jù)集,是消除大模型“幻覺”、提升其專業(yè)能力和可靠性的根本。數(shù)據(jù)治理的目標(biāo)正在悄然轉(zhuǎn)變:未來,數(shù)據(jù)不僅是為人所用,更要為AI大模型提供高質(zhì)量的“食糧”。
這意味著,數(shù)據(jù)治理的核心目標(biāo)之一,就是面向人工智能,構(gòu)建高質(zhì)量的數(shù)據(jù)供給體系。特別是對(duì)非結(jié)構(gòu)化數(shù)據(jù)的治理和知識(shí)管理,將成為未來理論和實(shí)踐的重中之重。
冷靜看待:挑戰(zhàn)與未來展望
盡管前景光明,我們?nèi)孕枨逍训卣J(rèn)識(shí)到大模型在數(shù)據(jù)治理應(yīng)用中存在的局限:
數(shù)據(jù)質(zhì)量制約:“垃圾進(jìn),垃圾出”的原則依然適用。沒有高質(zhì)量的數(shù)據(jù)基礎(chǔ),再?gòu)?qiáng)大的AI工具也難以發(fā)揮價(jià)值。
幻覺問題:大模型“一本正經(jīng)胡說八道”的特性短期內(nèi)無法根除,這意味著“人機(jī)協(xié)同”——機(jī)器做笨活,人類監(jiān)督檢查——將是長(zhǎng)期常態(tài)。
領(lǐng)域深度不足:數(shù)據(jù)治理涉及千行百業(yè)的復(fù)雜邏輯和隱性知識(shí),目前的大模型還遠(yuǎn)未達(dá)到各領(lǐng)域頂級(jí)專家的水平。
大模型與數(shù)據(jù)治理的每一次自激振蕩,都在重塑智能世界的DNA。
大模型的應(yīng)用,觸發(fā)了數(shù)據(jù)治理的大規(guī)模推廣;而數(shù)據(jù)治理的成果,又為大模型提供了加速進(jìn)化的養(yǎng)料。這個(gè)正向反饋的循環(huán),正在形成一個(gè)相互增強(qiáng)、不斷推高的“自激振蕩”局面。
未來3-5年,AI尚無法完全替代人類。正如《人類簡(jiǎn)史》所言,不是人類馴化了小麥,而是小麥馴化了人類。今天,我們?cè)俅握驹跉v史的奇點(diǎn)上,需要以開放和務(wù)實(shí)的心態(tài),擁抱人機(jī)協(xié)同的新范式,共同開創(chuàng)一個(gè)更加智能、高效的新時(shí)代。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)