在2022中國(guó)國(guó)際軟件發(fā)展大會(huì)暨第五屆中國(guó)軟件產(chǎn)業(yè)年會(huì)CIO高峰論壇上,北京航空航天大學(xué)國(guó)家科技資源共享服務(wù)工程技術(shù)研究中心副主任、寧波優(yōu)策信息技術(shù)有限公司創(chuàng)始人王建平教授為大家分享,如何利用原創(chuàng)算法實(shí)現(xiàn)海量數(shù)據(jù)的自動(dòng)清洗和自動(dòng)標(biāo)注,打通數(shù)據(jù)處理的最后一公里;如何以云模式,為用戶構(gòu)建各類大數(shù)據(jù)平臺(tái),實(shí)時(shí)賦能數(shù)據(jù)、賦能算法和搜索引擎等技術(shù),降低用戶的技術(shù)門檻,降低系統(tǒng)的建設(shè)運(yùn)維成本。
從現(xiàn)象看本質(zhì)
我們先來(lái)看看看幾個(gè)案例。
第一個(gè)案例,這是一家國(guó)內(nèi)最大的IT、最大的云廠商之一(出于尊重,廠商的名字隱去),承建的一個(gè)產(chǎn)業(yè)公共服務(wù)平臺(tái),這是產(chǎn)業(yè)政策模塊、這是行業(yè)資訊模塊,前臺(tái)只分別展示幾十條過(guò)時(shí)的產(chǎn)業(yè)政策、行業(yè)資訊的數(shù)據(jù)。實(shí)際上,后臺(tái)用了爬蟲抓取了大量的政策數(shù)據(jù),因?yàn)樽詈笠徊叫枰斯ぞS護(hù),項(xiàng)目還沒有驗(yàn)收,已經(jīng)成為僵尸網(wǎng)站、僵尸平臺(tái)。
第二個(gè)案例,是另外一個(gè)國(guó)家產(chǎn)業(yè)公共服務(wù)平臺(tái)(出于尊重,平臺(tái)的名稱隱去),這是政策模塊、這是行業(yè)資訊模塊。同樣,后臺(tái)爬蟲抓來(lái)幾千萬(wàn)條數(shù)據(jù),因?yàn)樾枰斯で逑础徍耍芭_(tái)只有幾百條過(guò)時(shí)的數(shù)據(jù)。
第三個(gè)案例,這是我國(guó)最大的IT行業(yè)組織的官網(wǎng),同樣有產(chǎn)業(yè)政策、產(chǎn)業(yè)資訊欄目,可以看到,2019年只有幾條數(shù)據(jù),2020年只有1、2條數(shù)據(jù),以后再?zèng)]有數(shù)據(jù)更新,也是因?yàn)樾枰斯徍恕⑷斯ぞS護(hù)。
第四個(gè)案例,這是國(guó)內(nèi)一家搜索引擎大廠(同樣出于尊重,公司的名稱隱去)的一個(gè)數(shù)據(jù)標(biāo)注基地,有一項(xiàng)工作叫標(biāo)注員,這是打標(biāo)簽的情景。
大家看到,這些平臺(tái)、網(wǎng)站使用了爬蟲,但是抓來(lái)的數(shù)據(jù)需要人工清洗、人工標(biāo)注、人工審核,所以國(guó)內(nèi)互聯(lián)網(wǎng)上,政府、園區(qū)、協(xié)會(huì)、公共服務(wù)平臺(tái)、企業(yè)的網(wǎng)站、APP、小程序出現(xiàn)了大量的僵尸。可見,數(shù)據(jù)的最后一公里遠(yuǎn)遠(yuǎn)沒有走通,即使國(guó)內(nèi)互聯(lián)網(wǎng)大廠、IT大廠也沒有走通。
海量數(shù)據(jù)處理的難題與解決之道
數(shù)據(jù)處理要遵循以下原則。第一,數(shù)據(jù)處理的準(zhǔn)確性。清洗、標(biāo)注準(zhǔn)確是實(shí)用的前提;第二,數(shù)據(jù)處理的及時(shí)性。數(shù)據(jù)要能夠?qū)崟r(shí)抓取、自動(dòng)清洗、自動(dòng)標(biāo)記;第三,數(shù)據(jù)處理的經(jīng)濟(jì)性。比如海量數(shù)據(jù)處理的人工處理的成本問(wèn)題,數(shù)千萬(wàn)網(wǎng)站獨(dú)立維護(hù)的社會(huì)成本和規(guī)模經(jīng)濟(jì)問(wèn)題;第四,數(shù)據(jù)應(yīng)用的先進(jìn)性。采用新的技術(shù)架構(gòu)支持新的應(yīng)用場(chǎng)景;采用算法、智能搜索引擎等技術(shù);第五,數(shù)據(jù)處理的自適應(yīng)性。數(shù)據(jù)標(biāo)注的規(guī)則改變了系統(tǒng)能自適應(yīng),能夠滿足新增規(guī)則的需求,擺脫對(duì)大樣本素材的依賴。
數(shù)據(jù)的智能處理、人工智能技術(shù)的實(shí)現(xiàn),要解決三大技術(shù)難題。第一,精確樣本素材來(lái)源問(wèn)題。機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語(yǔ)義技術(shù),標(biāo)注精確的大樣本、大素材哪里來(lái)?第二,規(guī)則適應(yīng)問(wèn)題。數(shù)據(jù)標(biāo)注規(guī)則變了怎么辦,基于新規(guī)則的大樣本素材哪里來(lái)?第三,各類非結(jié)構(gòu)化、異構(gòu)數(shù)據(jù)的融合處理問(wèn)題。
海量文本數(shù)據(jù)處理的現(xiàn)狀十分尷尬。目前,許多人工智能的應(yīng)用場(chǎng)景,實(shí)際上后臺(tái)人工處理、前臺(tái)智能呈現(xiàn)。但是,借助爬蟲自動(dòng)采集容易,爬蟲抓來(lái)的還是一堆垃圾信息,人工處理,技術(shù)上不可取、經(jīng)濟(jì)上不成本。以文本數(shù)據(jù)處理為例,因?yàn)闆]能解決數(shù)據(jù)處理的最后一公里,數(shù)據(jù)庫(kù)處理、網(wǎng)站、APP、小程序的數(shù)據(jù)維護(hù)出現(xiàn)大問(wèn)題,形成一堆僵尸數(shù)據(jù)、僵尸網(wǎng)站。
那么,海量文本數(shù)據(jù)處理的解決之道在哪?出路在于要形成一套原創(chuàng)算法,能夠?qū)?shù)據(jù)進(jìn)行100%的自動(dòng)處理,準(zhǔn)確率達(dá)到實(shí)用程度,比如95%以上,甚至更高。出路在于能夠基于云計(jì)算架構(gòu),為用戶構(gòu)建大數(shù)據(jù)平臺(tái),實(shí)時(shí)賦能數(shù)據(jù),賦能算法、搜素引擎等技術(shù),降低用戶的技術(shù)門檻、維護(hù)成本。
“4+3”產(chǎn)品體系
實(shí)現(xiàn)數(shù)據(jù)智能高效處理
寧波優(yōu)策信息技術(shù)有限公司、北京國(guó)信利斯特有限公司是兩個(gè)小創(chuàng)企業(yè),依托北航的技術(shù)、人才,從事大數(shù)據(jù)、人工智能的算法、架構(gòu)研究。其中,寧波優(yōu)策主要側(cè)重產(chǎn)業(yè)政策、產(chǎn)業(yè)資訊大數(shù)據(jù)平臺(tái)開發(fā),國(guó)信科技專注于產(chǎn)業(yè)人才大數(shù)據(jù)開發(fā),基于國(guó)內(nèi)最先進(jìn)的算法和架構(gòu),解決數(shù)據(jù)處理的最后一公里。
這是我們目前的4+3產(chǎn)品體系,四個(gè)獨(dú)立平臺(tái),產(chǎn)業(yè)政策、產(chǎn)業(yè)資訊、產(chǎn)業(yè)人才以及匯聚服務(wù)機(jī)構(gòu)、服務(wù)產(chǎn)品和服務(wù)需求的專業(yè)服務(wù)大數(shù)據(jù)平臺(tái)(這是匯聚專業(yè)服務(wù)機(jī)構(gòu)、專業(yè)服務(wù)產(chǎn)品、專業(yè)服務(wù)需求的產(chǎn)業(yè)公共服務(wù)資源池),四個(gè)產(chǎn)品通過(guò)不同的組合,可以形成的產(chǎn)業(yè)公共服務(wù)生態(tài)平臺(tái)、產(chǎn)業(yè)大數(shù)據(jù)平臺(tái)、全棧建官網(wǎng)三大體系化產(chǎn)品。

4+3產(chǎn)品體系全部可以云模式為用戶搭建各類應(yīng)用,用戶通過(guò)簡(jiǎn)單的參數(shù)設(shè)置,定制自己的行業(yè)、區(qū)域和主題類等不同平臺(tái)。當(dāng)然,目前我們也為工信部、農(nóng)業(yè)部等單位的大數(shù)據(jù)平臺(tái),提供數(shù)據(jù)支持、提供算法支持。
下面,我們著重介紹幾個(gè)大數(shù)據(jù)平臺(tái)。
第一、產(chǎn)業(yè)政策大數(shù)據(jù)平臺(tái)
這是國(guó)內(nèi)架構(gòu)、算法最先進(jìn)、數(shù)據(jù)量大的產(chǎn)業(yè)政策大數(shù)據(jù)平臺(tái),監(jiān)控源20000,數(shù)據(jù)總量1450萬(wàn)。平臺(tái)可以實(shí)現(xiàn)垂直搜索、精準(zhǔn)搜索、個(gè)性推送等功能,平臺(tái)可以基于算法和規(guī)則;通過(guò)算法實(shí)現(xiàn)數(shù)據(jù)源定制,自動(dòng)形成產(chǎn)業(yè)政策專題。
目前,國(guó)內(nèi)所有政策資訊專業(yè)網(wǎng)站數(shù)據(jù)量只有幾萬(wàn)、幾十萬(wàn),其原因是沒有走通政策數(shù)據(jù)處理的最后一公里,即使借助了爬蟲,最后都需要人工審核、維護(hù)。而國(guó)內(nèi)部分上市公司基于NLP、深度學(xué)習(xí)等技術(shù)開發(fā)的應(yīng)用平臺(tái),遠(yuǎn)未到實(shí)用的程度。

技術(shù)路線的實(shí)現(xiàn)上,平臺(tái)通過(guò)爬蟲技術(shù),抓取各個(gè)中央部委、省市區(qū)縣各個(gè)政策部門的政策,采用獨(dú)有的原創(chuàng)算法,100%實(shí)現(xiàn)機(jī)器對(duì)政策的自動(dòng)清洗,剔除非產(chǎn)業(yè)政策類信息(比如民生、社會(huì)治理等信息),100%實(shí)現(xiàn)機(jī)器對(duì)政策分類(通知、文件、公示、要聞、解讀)、技術(shù)領(lǐng)域、技術(shù)專題、政策部門、政策區(qū)域等產(chǎn)業(yè)政策各類屬性的自動(dòng)標(biāo)記。數(shù)據(jù)處理的準(zhǔn)確率在95%以上,真正做到讓機(jī)器讀懂政策,打通政策數(shù)據(jù)處理最后一公里。
關(guān)于技術(shù)路線,想特別說(shuō)明一下,這是一個(gè)零代碼為用戶定制平臺(tái)的平臺(tái),政策分類、技術(shù)領(lǐng)域、政策區(qū)域、搜索引擎功能都是松耦合、可解耦的,面向用戶定制應(yīng)用的時(shí)候,模塊、功能可以任意疊加取舍、重新構(gòu)建。例如平臺(tái)可以解耦技術(shù)領(lǐng)域,定制用戶可任意定制不同的細(xì)分技術(shù)領(lǐng)域,而這些技術(shù)領(lǐng)域我們大平臺(tái)并沒有,上市公司賽迪顧問(wèn)的官網(wǎng)、APP覆蓋的是全國(guó)所有技術(shù)領(lǐng)域,而賽迪顧問(wèn)為用戶定制了數(shù)字經(jīng)濟(jì)、集成電路、鋰電池等不同技術(shù)領(lǐng)域、技術(shù)行業(yè)的平臺(tái),這些技術(shù)領(lǐng)域是我們?yōu)橘惖项檰?wèn)定制的。
應(yīng)用模式是平臺(tái)一個(gè)重大創(chuàng)新,目前國(guó)內(nèi)沒有這樣類似的應(yīng)用場(chǎng)景。在云架構(gòu)支持下,用戶可以通過(guò)簡(jiǎn)單的參數(shù)設(shè)置,以云模式獨(dú)立定制自己的區(qū)域、行業(yè)、主題類的產(chǎn)業(yè)政策大數(shù)據(jù)平臺(tái),賦能實(shí)時(shí)數(shù)據(jù),賦能原創(chuàng)算法、搜索引擎等核心技術(shù)。用戶網(wǎng)站和平臺(tái)的網(wǎng)址、LOGO、名稱、ICP備案都是自己的,但是數(shù)據(jù)、算法、搜索引擎,是我們的數(shù)據(jù)中臺(tái)、技術(shù)中臺(tái)以云模式提供支持。

第二、產(chǎn)業(yè)資訊大數(shù)據(jù)平臺(tái)
這是國(guó)內(nèi)唯一的產(chǎn)業(yè)資訊垂直搜素引擎,架構(gòu)、算法最先進(jìn),監(jiān)控源500+,數(shù)據(jù)300萬(wàn)+,與產(chǎn)業(yè)政策大數(shù)據(jù)平臺(tái)不同,數(shù)據(jù)源來(lái)自綜合門戶網(wǎng)站和行業(yè)類專業(yè)網(wǎng)站。百度、谷歌是綜合搜素引擎,2C和2B混合的,我們是垂直搜索引擎,面向產(chǎn)業(yè)用戶的。這是一個(gè)引擎的引擎、平臺(tái)的平臺(tái),基于我們的引擎,可以為用戶定制各類自己的產(chǎn)業(yè)資訊垂直搜素引擎。這樣的架構(gòu)、應(yīng)用,目前的搜素引擎是不支持的。
技術(shù)路線上,也是采用一套原創(chuàng)的核心算法,對(duì)數(shù)據(jù)進(jìn)行自動(dòng)清洗,剔除非產(chǎn)業(yè)資訊類數(shù)據(jù),100%實(shí)現(xiàn)了機(jī)器對(duì)產(chǎn)業(yè)資訊各類屬性的自動(dòng)標(biāo)記,打通數(shù)據(jù)處理的最后一公里。系統(tǒng)功能上,實(shí)現(xiàn)垂直搜索、精準(zhǔn)搜索、個(gè)性推送;并可通過(guò)算法實(shí)現(xiàn)數(shù)據(jù)源定制,自動(dòng)形成產(chǎn)業(yè)資訊專題。
應(yīng)用模式同樣是該平臺(tái)一個(gè)重大創(chuàng)新,目前國(guó)內(nèi)搜素引擎還沒有這樣類似的應(yīng)用場(chǎng)景。這是一個(gè)定制引擎的引擎,用戶通過(guò)簡(jiǎn)單的參數(shù)設(shè)置,以云模式獨(dú)立定制自己的行業(yè)、主題類的產(chǎn)業(yè)資訊大數(shù)據(jù)平臺(tái),賦能實(shí)時(shí)數(shù)據(jù),賦能原創(chuàng)算法、搜索引擎等核心技術(shù)。
第三、產(chǎn)業(yè)人才大數(shù)據(jù)平臺(tái)

這是國(guó)內(nèi)算法最先進(jìn)、數(shù)據(jù)最全、精度最高的產(chǎn)業(yè)人才大數(shù)據(jù)平臺(tái),利用自主算法,匯聚了全國(guó)大專院校、科研院所、高新技術(shù)企業(yè)中1000萬(wàn)+高新技術(shù)人才;國(guó)外2000萬(wàn)+外國(guó)專家,65萬(wàn)的華人學(xué)者;大約2.5億的論文數(shù)據(jù),國(guó)內(nèi)專利庫(kù)1800萬(wàn)專利數(shù)據(jù),還有各類政府的項(xiàng)目數(shù)據(jù)150萬(wàn)。同時(shí),以人才為核心,構(gòu)建人才鏈、創(chuàng)新鏈、產(chǎn)業(yè)鏈、政策鏈互相融合的產(chǎn)業(yè)全景畫像。
系統(tǒng)架構(gòu)上同樣具有重大創(chuàng)新,該平臺(tái)基于云架構(gòu),可以云模式為用戶搭建不同區(qū)域、不同技術(shù)領(lǐng)域的產(chǎn)業(yè)人才大數(shù)據(jù)平臺(tái)。
典型應(yīng)用案例
案例一:中國(guó)軟件政策大數(shù)據(jù)平臺(tái)和中國(guó)軟件資訊大數(shù)據(jù)平臺(tái)

以云模式,為中國(guó)軟件行業(yè)協(xié)會(huì)定制了中國(guó)軟件政策大數(shù)據(jù)平臺(tái)和中國(guó)軟件資訊大數(shù)據(jù)平臺(tái),當(dāng)天定制、當(dāng)天部署。平臺(tái)能夠?qū)崟r(shí)賦能數(shù)據(jù),賦能搜索引擎;基于軟件的行業(yè)特定,定制了人工智能、工業(yè)軟件、大數(shù)據(jù)、區(qū)塊鏈等各類專題。同時(shí),我們的平臺(tái)為協(xié)會(huì)官網(wǎng)的主頁(yè),定制了產(chǎn)業(yè)資訊、政策要聞滾動(dòng)欄。兩大平臺(tái)與要聞滾動(dòng)欄,全部實(shí)現(xiàn)機(jī)器自動(dòng)維護(hù),免除人工處理。
案例二:國(guó)家(寧波)工業(yè)互聯(lián)網(wǎng)公共服務(wù)生態(tài)平臺(tái)
這是2020年工信部、財(cái)政部工業(yè)互聯(lián)網(wǎng)創(chuàng)新工程項(xiàng)目,作為寧波工業(yè)互聯(lián)網(wǎng)平臺(tái)應(yīng)用創(chuàng)新推廣中心的總體設(shè)計(jì)單位,我們?cè)趪?guó)內(nèi)第一次提出了產(chǎn)業(yè)公共服務(wù)生態(tài)服務(wù)、產(chǎn)業(yè)公共服務(wù)生態(tài)平臺(tái)的理念,先進(jìn)的理念、架構(gòu)、平臺(tái)和模式,在寧波市工業(yè)互聯(lián)網(wǎng)公共服務(wù)線上線下平臺(tái)率先實(shí)踐。
我們?yōu)閷幉üI(yè)互聯(lián)網(wǎng)公共服務(wù)生態(tài)平臺(tái),定制專業(yè)服務(wù)模塊,以云模式定制產(chǎn)業(yè)政策、產(chǎn)業(yè)資訊兩大子系統(tǒng),賦能實(shí)時(shí)數(shù)據(jù),賦能原創(chuàng)算法、搜索引擎等核心技術(shù)。以云模式,為平臺(tái)官網(wǎng)主頁(yè)定制了產(chǎn)業(yè)政策、產(chǎn)業(yè)資訊的新聞滾動(dòng)頁(yè)。

案例三:寧波市政府
為寧波市經(jīng)信局定制推送全國(guó)產(chǎn)業(yè)政策大數(shù)據(jù)平臺(tái),第三方廠商簡(jiǎn)單定制,一周內(nèi)部署,賦能實(shí)時(shí)數(shù)據(jù),賦能原創(chuàng)算法、搜索引擎等核心技術(shù)。

案例四:中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院
以云模式,提供產(chǎn)業(yè)政策大數(shù)據(jù)平臺(tái),構(gòu)建中國(guó)電子信息產(chǎn)業(yè)研究院政策大數(shù)據(jù)平臺(tái),嵌入中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院內(nèi)網(wǎng),服務(wù)于全院數(shù)千高端研究人員。

案例五:賽迪顧問(wèn)股份有限公司官網(wǎng)和APP
賽迪顧問(wèn)股份有限公司(HK02176),以云定制模式,提供企業(yè)官網(wǎng)、企業(yè)APP的產(chǎn)業(yè)政策大數(shù)據(jù)平臺(tái)定制服務(wù),賦能1500萬(wàn)+產(chǎn)業(yè)數(shù)據(jù)、賦能搜素引擎技術(shù)。

案例六:北京軟件和信息服務(wù)業(yè)協(xié)會(huì)
以云模式,為北京軟件和信息服務(wù)業(yè)協(xié)會(huì)官網(wǎng)以及協(xié)會(huì)運(yùn)維的國(guó)家公共服務(wù)平臺(tái)(軟件無(wú)限)構(gòu)建北京軟件產(chǎn)業(yè)政策大數(shù)據(jù)平臺(tái)。

案例七:中國(guó)數(shù)字經(jīng)濟(jì)發(fā)展指數(shù)(德陽(yáng)指數(shù))平臺(tái)
以云模式,為賽迪顧問(wèn)股份有限公司(HK02176打造的中國(guó)數(shù)字經(jīng)濟(jì)發(fā)展指數(shù)(德陽(yáng)指數(shù))平臺(tái),提供數(shù)字經(jīng)濟(jì)領(lǐng)域的產(chǎn)業(yè)政策、行業(yè)資訊模塊信息推送。

案例八:中電光谷聯(lián)合控股有限公司
中電光谷聯(lián)合控股有限公司(00798.HK)是中國(guó)電子體系企業(yè),香港上市公司,全國(guó)有近80個(gè)產(chǎn)業(yè)園區(qū),以開放API模式,提供數(shù)據(jù)中臺(tái)、技術(shù)中臺(tái)支持。

案例九:溫州瑞安市人才地圖系統(tǒng)
與瑞安市合作定制“瑞安市人才地圖系統(tǒng)”,幫助政府分析當(dāng)?shù)禺a(chǎn)業(yè)、人才現(xiàn)狀與布局,助力區(qū)域產(chǎn)業(yè)發(fā)展優(yōu)勢(shì)識(shí)別與策略制定。

案例十:寧波市產(chǎn)業(yè)人才大腦新材云創(chuàng)
為寧波市“產(chǎn)業(yè)人才大腦新材云創(chuàng)”,提供專家人才數(shù)據(jù)和算法服務(wù)。

依托北京航空航天大學(xué)的研究開發(fā)能力和人才資源的支持,寧波優(yōu)策信息技術(shù)有限公司、北京國(guó)信利斯特有限公司兩家高新技術(shù)企業(yè),開發(fā)了一套原創(chuàng)算法,解決產(chǎn)業(yè)政策、產(chǎn)業(yè)資訊、產(chǎn)業(yè)人才的數(shù)據(jù)的最后一公里;我們以云模式,為政府、產(chǎn)業(yè)園區(qū)、孵化器、事業(yè)單位、研機(jī)構(gòu)、科技企業(yè)定制區(qū)域、行業(yè)、主題類大數(shù)據(jù)平臺(tái),實(shí)時(shí)賦能數(shù)據(jù),賦能算法和搜索引擎等技術(shù)。
感謝大家聆聽,歡迎批評(píng)指正,謝謝。
(部分內(nèi)容來(lái)源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)