可免費試用30天
已有30000+人申請
2024-01-04
隱私計算是目前促進數據資產實現價值的重要技術之一,其對于數據資產
的價值實現提供了強大的安全流通保障,組織對外數據業務化,很多場景需要
依賴隱私計算得以實現。
實際上,隱私計算全稱應稱為“隱私保護計算”,它可以讓組織間的數據
資產,提供至第三方使用或采購使用后,其資產狀態不因使用而遭受形態變化
或價值減損。用更淺顯的語言表述即是,通過該技術數據資產可以得到高效保
護,不足以被惡意竊取或破壞。它可以讓處理與分析計算數據的過程中能夠保
持數據不透明、不泄露、無法被計算方以及其他非授權方獲取,增強對于數據
的保護、降低數據泄露風險。各國都將其視為“數據最小化”的一種實現方式,
也和數據資產價值實現的目的相吻合。憑借該技術工具,數據資產價值實現無
需以犧牲部分數據維度為代價,從而保證數據價值最大化的場景。隱私計算是
將數據可見的具體信息部分和不可見的計算價值部分進行分離,實現“數據可
用(可計算)不可見(不可獲取)”,進而消除各個數據協同方之間對于數據
安全和隱私泄漏的顧慮,以技術手段有效地破解“數據孤島”困境。其本質是
一種由多個參與方在安全信任的條件下進行聯合計算的技術,各個參與方在不
泄露各自原始數據和商業秘密的前提下,通過加密協作機制對數據進行聯合計
算和分析,實現數據的融合價值,讓數據智能從局部洞察發展到全局洞察。其
在數據流通場景中的應用如下圖所示:
目錄層負責管理數據目錄、模型目錄、存儲資源目錄、計算資源目錄等,
方便上層技術使用數據資源、模型資源、計算資源。協作層提供隱私計算相關
的算法和算子,為數據共享交換提供技術支撐。用到的技術包括機密計算、聯
邦學習、聯邦查詢等。應用層提供應用服務,包括數據共享平臺、業務流程引
擎等,同時應用層可基于協作層靈活定制不同的應用服務。
當下,應用較廣的隱私計算技術有多方安全計算為代表的基于密碼學的隱
私計算技術、以聯邦學習為代表的人工智能與隱私保護技術融合衍生的技術,
以及以可信執行環境為代表的基于可信硬件的隱私計算技術。
1 多方安全計算技術
多方安全計算(Secure Multi-Party Computation)是指在無可信第三方情
況下,通過多方共同參與,安全地完成某種協同計算。即在一個分布式的網絡
中,參與者各自完成運算的一部分,最后的計算結果由部分參與者掌握或公開
共享。也就是說多方安全計算技術可以獲取數據使用價值,卻不泄露原始數據
內容,保護隱私,實現數據的可用不可見。常見的多方安全計算技術包括秘密
共享、不經意傳輸、混淆電路、差分隱私、同態加密、零知識證明等密碼學算
法。
多方安全計算技術的安全性和準確性有嚴格的密碼學領域證明,因此被主
要應用于涉及高敏感數據流通的應用場景。在數據要素流通中,多方安全計算
技術可以解決多方參與的聯合統計、聯合查詢、聯合建模、聯合預測等應用。
2 聯邦學習
聯邦學習(Federated Learning,FL)是一種分布式機器學習技術和框架,
包括兩個或多個參與方,這些參與方通過安全的算法協議進行聯合機器學習,
可以在各方原始數據不出私域的情況下聯合多方數據資源進行建模訓練。在聯
邦學習框架下,各個參與方只交換密文形式的算法中間計算結果或轉化結果,
而不需要交換原始數據。
聯邦學習更多地用于解決聯合建模的業務問題,比如信貸風控中的常用的
邏輯回歸建模評分、精準營銷中的常用的 XGBOOST 分類等建模。聯邦學習主要
可以用在數據要素流通的數據產品分類流通環節。2022 年初,國務院辦公廳印
發《要素市場化配置綜合改革試點總體方案》,提出建立健全數據流通交易規
則,探索“原始數據不出域、數據可用不可見”的交易范式。而聯邦學習正是
實現“數據可用不可見”的關鍵技術,能夠在保護數據安全和個人隱私的前提
下,實現多方聯合建模,充分發揮數據價值。
3 可信執行環境
可信執行環境(Trusted Execution Environment,TEE)是計算平臺上由
軟硬件方法構建的一個安全區域,可保證在安全區域內部加載的代碼和數據在
機密性和完整性方面得到保護。可信執行環境目標是確保一個任務按照預期執
行,保證初始狀態的機密性、完整性,以及運行時狀態的機密性、完整性。
可信執行環境需要滿足以下幾個特征:1)軟硬協同的安全機制:隔離不僅
需要依靠硬件實現,也需要依靠軟件輔助。2)算力共享:能使用中央處理器(CPU)
的同等算力。3)開放性:可信執行環境需要運行在開放環境中,即只有先存在
常規操作系統,才有引入可信執行環境的必要。
可信執行環境主要可以用在數據要素流通的數據產品分類流通環節,尤其
是高性能隱私計算需求場景,該類場景下,業務同時有數據隱私保護下的計算
需求和高性能計算需求,TEE 能在滿足隱私保護需求下提供更高效的計算服務。
本章介紹了公共數據、企業數據、個人數據價值實現的路徑,并結合“數
據二十條”的政策背景對不同類型數據資產價值實現的方式和場景予以分析和
探討。在通過數據治理工作和相應的技術保障措施,保證數據來源合法、數據
處理合規的前提下,政府通過公共數據開放和授權運營來實現公共數據價值,
企業也可以合理利用公共數據開放平臺的數據并對其進行分析開發,形成企業
數據資產。當然,鑒于多種因素目前我國尚未實現統一的公共數據開放平臺,
各地政府公共數據開放的數量及質量尚有不足,隨著公共數據開放的進程加快,
公共數據蘊含的真正價值也將逐步得到釋放;在企業數據資產價值實現路徑中,
企業數據資產可以通過將業務數據化(內部使用)、將數據業務化(外部流通)
以及將數據作為資產計入財務報表等方式實現數據資產的價值。當然,數據資
產價值實現路徑不僅僅只有這些方式,本報告旨在“拋磚引玉”,對數據資產
價值實現的路徑隨著數據要素市場各項機制的成熟,以及行業對數據要素價值
的探索,未來將會有更多的路徑實現方式。正如,最近大火的 ChatGPT 內在原
理就是使用了大量文本數據訓練得出的大型語言模型,實質上也算某種意義的
數據產品,該產品一經推出火遍全球,引發了資本市場的躁動,有人甚至稱該
AI 人工智能產品將會引發第四次工業革命。可見,數據資產價值的實現路徑將
會有 N 種方式和可能,而本質上還是在如何將數據要素價值釋放。故而,我國
將數據作為生產要素是時代發展的必然過程