- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2023-02-14來源:起名字好難瀏覽數:322次

因此,未來也需要借助合成數據解決ChatGPT等AIGC模型的潛在數據瓶頸,推動進一步發展。在過去的2022年,AIGC(AI-Generated Contents,人工智能生成內容)無疑是最引人矚目的科技關鍵詞,從引爆AI作畫領域的DALL-E 2、Stable Diffusion等AI模型,到以ChatGPT為代表的接近人類水平的對話機器人,人工智能正加速實現從感知、理解世界到生成、創造世界的躍遷。以AIGC這一加速擴張的新疆域為標志,AI領域正在迎來下一個時代。多模態AI模型有望成為繼移動互聯網之后新的技術平臺。而且隨著AIGC模型的通用化水平和工業化能力的持續提升,其有望帶來一場自動化內容生產與交互變革,引起社會的成本結構的重大改變,進而在各行各業引發巨震。經過了2022年的預熱,2023年AIGC領域將迎來更大發展,AIGC將更趨主流,AIGC內容的類型和質量將不斷提升,將有更多的企業主動擁抱AIGC,AIGC領域將誕生全新的職業機會(如提示詞工程師)。當然,政府對AIGC的監管也將有所加強。
在數據領域,我國出臺的《關于構建數據基礎制度更好發揮數據要素作用的意見》提出,順應經濟社會數字化轉型發展趨勢,推動數據要素供給調整優化,提高數據要素供給數量和質量。在強化數據要素優質供給方面,基于AIGC技術的合成數據將能發揮巨大價值,將以更高效率、更低成本、更高質量為數據要素市場“增量擴容”,助力打造面向人工智能未來發展的數據優勢。
因此,產業政策需要著力支持、促進AIGC在產業互聯網領域的深入應用,培育、打造合成數據、AIGC等未來產業,持續壯大我國發展人工智能、數字經濟、產業互聯網等新技術新業態新應用的數據優勢。
AIGC技術推動合成數據(synthetic data) 領域迎來重大進展 隨著AIGC技術持續創新發展,基于AIGC算法模型創建、生成合成數據(synthetic data)迎來重大進展,有望解決AI發展應用過程中的數據限制,進一步推動AI技術更廣泛的應用。因此,業界非??春煤铣蓴祿陌l展前景及其對人工智能未來發展的巨大價值。Forrester、埃森哲(Accenture)、Gartner、CB Insights等研究咨詢公司都將合成數據列為人工智能未來發展的核心要素,認為合成數據對于人工智能的未來而言是“必選項”和“必需品”。例如,Forrester將合成數據和強化學習、Transformer網絡、聯邦學習、因果推理視為實現人工智能2.0的五項關鍵技術進展,可以解決人工智能1.0所面臨的一些限制和挑戰,諸如數據、準確性、速度、安全性、可擴展性等。Gartner預測稱,到2030年合成數據將徹底取代真實數據,成為AI模型所使用的數據的主要來源。MIT科技評論將AI合成數據列為2022年十大突破性技術之一,稱其有望解決AI領域的數據鴻溝問題。數據是人工智能的燃料和驅動力,合成數據將極大拓展人工智能發展應用的數據基礎,可以認為,合成數據關乎人工智能的未來。在概念上,合成數據是計算機模擬(computer?simulation)技術或算法創建、生成的自標注信息,可以在數學上或統計學上反映真實世界數據的屬性,因此可以作為真實世界數據的替代品,來訓練、測試、驗證AI模型。簡而言之,合成數據是在數字世界中創造的,而非從現實世界收集或測量而來。合成數據擁有很長的歷史,在其發展過程中技術不斷創新。
例如,游戲引擎、3D圖形等模擬技術(simulation?technology)可以創建高保真的仿真物體和仿真環境,而結合了AI技術的3D-AI技術則可以極大提升自動化生產3D內容的效率和保真度(fidelity)。得益于生成對抗網絡(GAN)、變分自編碼器(VAE)、Transformer模型、擴散模型(Diffusion Model)、神經輻射場模型(NeRF)等不斷涌現的AI算法,不僅合成數據的種類得到了擴展,而且其質量也不斷得到提升。
就目前而言,合成數據大致可分為三類:表格數據/結構化數據,圖像、視頻、語音等媒體數據,以及文本數據。這幾類合成數據在多個領域都有應用。AIGC技術的持續創新,讓合成數據迎來新的發展契機,開始迸發出更大的產業發展和商業應用活力。目前主要呈現以下四個方面的發展趨勢。
合成數據為AI模型訓練開發提供 強大助推器,推動實現AI2.0人工智能的發展應用離不開數據,但真實世界數據面臨著難以獲取、質量差、標準不統一等諸多問題。為此,計算機模擬技術或算法生成的合成數據,作為真實數據數據的廉價替代品,日益被用于創造精準的AI模型。
合成數據服務商AI.Reverie指出,人工標注一張圖片可能需要6美元,但人工合成的話只需要6美分。2019年的一篇論文《合成數據用于深度學習》(synthetic data for deep learning)認為,合成數據是現代深度學習領域冉冉升起的最具前景的通用技術之一,尤其對于依賴于圖像、視頻等非結構化數據的計算機視覺技術而言;并認為合成數據對于人工智能的未來發展至關重要。而且,研究表明在AI模型的訓練開發上,合成數據相比基于真實物體、事件或人物的數據,可以發揮同樣好甚至更好的效果。
總之,合成數據技術可以實現更廉價、更高效地批量生產制造AI模型訓練開發所需的海量數據(諸如訓練數據、測試數據、驗證數據等等),作為對真實數據的替代或補充,將推動人工智能邁向2.0階段,從本質上擴展AI的應用可能性。
可以說,目前人工智能仍處在1.0階段(AI1.0),數據是最大掣肘,業界利用真實世界數據訓練AI模型面臨多方面問題:數據采集、標注費時費力、成本高企;數據質量較難保障;數據多樣化不足,難以覆蓋長尾、邊緣案例,或者特定數據在現實世界中難以采集、不方便獲??;數據獲取與使用、分享等面臨隱私保護挑戰和法規限制,等等。這些數據方面的限制在很大程度上阻礙了人工智能更廣泛的應用和部署。
合成數據有望解決這些問題,推動人工智能邁向2.0階段(AI2.0),可以在更大程度上拓展人工智能的應用。在AI2.0階段,人們不僅可以利用合成數據更高效地訓練AI模型,而且可以讓AI在合成數據構建的虛擬仿真世界中自我學習、進化,這將極大擴展AI的應用可能性。具體而言,對于人工智能而言,合成數據可以發揮諸多價值:
(1)實現數據增強和數據模擬,解決數據匱乏、數據質量等問題,包括通過合成數據來改善基準測試數據(benchmark?data)的質量等;
(2)避免數據隱私/安全/保密問題,利用合成數據訓練AI模型可以避免用戶隱私問題,這對于金融、醫療等領域而言尤其具有意義;
(3)確保數據多樣性,更多反映真實世界,提升AI的公平性,以及糾正歷史數據中的偏見,消除算法歧視;
(4)應對長尾、邊緣案例,提高AI的準確性、可靠性,因為通過合成數據可以自動創建、生成現實世界中難以或者無法采集的數據場景,更好確保AI模型的準確性;
(5)提升AI模型訓練速度和效果。總之,利用合成數據可以更廉價、更高效、更準確、更安全可靠地訓練AI模型,進而極大擴展AI的應用可能性,將人工智能推向新的發展階段。
合成數據助力破解AI“深水 區”的數據難題,持續拓 展產業互聯網應用空間合成數據早期主要應用于計算機視覺領域,因為計算機視覺被廣泛應用于自動駕駛汽車、機器人、安防、制造業等領域,在這些應用場景中打造AI模型都需要大量的被標注的圖像、視頻數據。但獲取現實數據往往并非易事。
以自動駕駛汽車為例,由于實際道路交通場景千變萬化,讓自動駕駛汽車通過實際道路測試來窮盡其在道路上可能遇到的每一個場景是不現實的,必須借助于合成數據才能更好地訓練、開發自動駕駛系統。為此,自動駕駛企業開發了復雜的仿真引擎來“虛擬地合成”自動駕駛系統訓練所需的海量數據,并高效地應對駕駛場景中的“長尾”問題和“邊緣案例”。
例如,騰訊自動駕駛實驗室開發的自動駕駛仿真系統TAD Sim可以自動生成無需標注的各種交通場景數據,助力自動駕駛系統開發。在安全的、合成的仿真環境中,計算機可以模擬任何人類想象得到的駕駛場景,諸如調節天氣狀況、添加或移除行人、改變其他車輛的位置等等??梢哉f,合成數據和仿真技術是自動駕駛的核心支撐技術。最早涌現的一批合成數據創業公司就瞄準的是自動駕駛汽車市場,幫助自動駕駛企業解決其在自動駕駛系統開發過程中所面臨的數據和測試難題。
目前,合成數據正迅速向金融、醫療、零售、工業等諸多產業領域拓展應用。合成數據在金融服務領域的探索仍處于早期且不斷拓展,并且受到咨詢公司、金融巨頭和監管機構的關注。
合成數據背后的生成式AI被Gartner評為2022年銀行和投資服務領域越來越受歡迎的三項技術之一。生成性AI受歡迎的原因是能夠通過合成數據以成本更低、易規?;?、隱私保護合規的方式提供接近真實世界的數據。而在銀行和投資服務領域,生成對抗網絡(GAN)和自然語言生成(NLG)的應用可以在大多數欺詐檢測、交易預測、合成數據生成和風險因素建模的場景中找到。例如,美國運通(America?Express)利用GAN創建合成數據來訓練、優化其進行欺詐檢測的AI模型。谷歌利用AI生成的醫療記錄來幫助預測保險詐騙(insurance fraud)。
摩根大通(J.P.Morgan)2021年9月在其官網發布相關研究,提出通過生成合成數據集加快金融服務領域的AI研究和模型開發,來改善服務體驗、解決欺詐檢測和反洗錢等重要問題。國外金融服務業所產生的大量真實數據因為法律限制(如歐盟的GDPR和美國的CCPA)和隱私保護要求無法使用或使用存在諸多限制。合成數據創造的新樣本具有真實數據的性質,增加真實數據中的罕見樣本,以便更有效地訓練機器學習算法。一個關鍵的領域是欺詐檢測模型訓練。由于欺詐性案件的數量與非欺詐性案件相比較十分稀少,研究人員很難有效地從可用數據中訓練模型,導致無法針對欺詐性行為進行建模。然而,合成數據可以生成比實際數據中欺詐案例比例更高的合成數據樣本,用于幫助改進模型訓練。

圖:金融數據合成過程(來源:摩根大通官網)
英國金融行為監管局(Financial Conduct Authority,FCA)也積極跟進合成數據作為一項隱私保護技術在金融行業的應用前景。FCA在2022年3月的公開報告中指出,合成數據通過生成統計學上真實(statistically?realistic)的但“人造”(artificial)的數據,為數據共享提供更多的機會。技術的應用有利于提供更普及、更高效、更好提升消費者體驗的金融服務,目前的應用領域包括:金融犯罪和欺詐預防、信用評分、銷售和交易、保險產品定價和索賠管理、資產管理和組合優化等。值得注意,合成數據也存在通過逆向工程來獲取真實數據的風險,對數據隱私保護而言并非完美的解決方案。為此,FCA已經通過公開征求意見來了解業界對合成數據支持創新的潛力和滿足企業有效需求的看法以及潛在的限制和風險。

圖:合成數據存在真實數據泄露風險(來源:英國國家統計辦公室)
在醫療領域,醫療影像的合成數據正對醫療AI領域的發展產生巨大推動作用。例如,創業企業Curai基于仿真的醫療案例數據訓練了一個醫療診斷模型,表明合成的醫療數據同樣可以用于支持醫療AI應用的開發。美國生物技術公司Illumina和合成數據創業公司Gretel合作,利用合成的基因組數據來進行醫學研究,以避免限制性立法、病人同意等問題,這些問題阻礙醫學研究的速度和規模。另一個典型的例子是將合成數據用于新冠肺炎相關的醫學研究。為了對抗新冠肺炎,研究人員需要獲取足夠的病例數據來開展研究,但出于隱私保護等顧慮,研究人員在獲取新冠肺炎相關的病例數據時面臨不小的困難。
為此,美國國立衛生研究院(NIH)和Syntegra、MDClone等合成數據服務商合作,基于其Covid-19病人病歷數據庫“全國新冠合作群組”(National COVID Cohort Collaborative,N3C)中超過500萬個新冠陽性個體的病例數據,合成了不具有可識別性的替代數據,即合成的Covid-19數據。合成數據精確地復制了原始數據集的統計特征,但與原始數據不存在任何關聯,可以被世界范圍內的研究人員自由分享和使用,用于開展研究發現、疾病治療、疫苗開發等方面的工作。
在零售領域,創業公司Caper可以基于一個商品的幾張圖片,利用3D模擬技術創建含有上千個圖片的合成數據集,進而支持智慧零售店。在工業領域,FORD利用游戲引擎和GAN來創造合成數據訓練AI模型。此外,合成數據還可幫助應對算法歧視等AI倫理問題,支持打造更公平、可信的AI模型,因為合成數據可以幫助消除AI數據集中的偏見因素,支持構建更具包容性的、代表性的高質量數據集。
合成數據產業加快成為數據 要素市場新賽道,科技大廠和 創新企業搶先布局合成數據對人工智能未來發展的巨大價值使其加速成為AI領域的一個新產業賽道。一方面,國外的主流科技公司紛紛瞄準合成數據領域加大投入與布局。英偉達是典型代表,其元宇宙平臺Omniverse擁有合成數據能力omniverse replicator;omniverse replicator作為Omniverse平臺的一部分,是為AI算法訓練生成具有物理屬性的合成數據的技術引擎,有兩項代表性應用。
一是在Omniverse平臺中創建用于機器人訓練的虛擬環境Issac SIM平臺,在這個虛擬環境中訓練的機器人之后可以直接應用于現實世界,即這個機器人可以將在虛擬世界中的訓練結果同步到現實世界的機器人身上,疊加人工智能的算法,實現機器人的大規模應用。
二是drive SIM平臺,提供豐富的模擬場景,用于自動駕駛算法訓練和驗證,如物體識別、車道保持、泊車等自動駕駛汽車應用。Omniverse的這兩項合成數據應用可以顯著加速機器人和自動駕駛的開發進程。
微軟的Azure云服務則推出了airSIM平臺,可以創建高保真的(high fidelity)的3D虛擬環境來訓練、測試AI驅動的自主飛行器;微軟還開發了可以生成合成和聚合數據集的開源工具Synthetic Data Showcase,并創建了合成人臉數據庫,和國際移民組織(IOM)合作打擊人口販賣。亞馬遜在多個場景探索合成數據的應用,例如使用合成數據來訓練、調試其虛擬助手Alexa,以避免用戶隱私問題;其合成數據技術Wordforge工具可以用來創建合成場景(synthetic scenes);在2022年的亞馬遜re:MARS大會上,其數據標注服務SageMaker Ground Truth推出了合成數據能力,可以自動生成標注的合成圖片數據,即該工具可以就特定物體創建不同位置和不同燈光條件的圖片,以及不同比例和其他變化的圖片。Meta(原Facebook)也著力于為其人工智能業務增強合成數據能力,2021年11月收購了合成數據創業公司AI.Reverie。
另一方面,合成數據作為AI領域的新型產業,相關創新創業方興未艾,合成數據創業公司不斷涌現,合成數據領域的投資并購持續升溫,開始涌現了合成數據即服務(synthetic data as a service,SDaaS)這一發展前景十分廣闊的全新商業模式。
據國外研究者統計,目前全球合成數據創業企業已達100家。比較知名、有影響力的包括AI.Reverie、datagen、sky engine、mostly.ai、synthesis AI、gretel.ai、one view、innodata、cvedia等等。在過去的18個月,公眾視野中已知的合成數據公司融資總額達到3.28億美元,比2020年高出2.75億美元。合成數據的創業賽道主要涵蓋非結構化數據(圖片、視頻、語音等)、結構化數據(表格等)、測試數據(test data)、開源服務等幾大方向。其中,非結構化合成數據持續保持強勁發展勢頭,這主要得益于以下幾個因素:
第一,計算機視覺應用場景相對成熟;
第二,有游戲引擎(game engines)、圖像建模軟件、AIGC技術的支撐;
第三,自動駕駛汽車、零售、電子游戲等快速發展的產業對合成數據有較高需求。
目前結構化數據合成和測試數據合成正在迅猛發展,尤其是合成的測試數據更少受到數據隱私立法的限制,所以開始受到業界青睞。此外,合成數據開源服務也在快速發展,例如synthetic data vault、synner、synthea、synthetig等。