日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

京東陳泳君:數(shù)字水印在數(shù)據(jù)泄露溯源中的應(yīng)用與挑戰(zhàn)

時(shí)間:2022-01-26來源:格子衫小帥氣瀏覽數(shù):748

? ? ? ??導(dǎo)讀:隨著全球數(shù)字經(jīng)濟(jì)的高速發(fā)展,中國的數(shù)字經(jīng)濟(jì)規(guī)模達(dá)到了5.4萬億美元,位列全球第二。據(jù)IDC預(yù)測,2025年中國將成為全球最大的一個(gè)數(shù)據(jù)圈。在數(shù)據(jù)量高速增長和數(shù)字經(jīng)濟(jì)持續(xù)發(fā)展的背景下,數(shù)據(jù)安全領(lǐng)域受到越來越多的挑戰(zhàn)和重視。其中,數(shù)據(jù)泄露正是焦點(diǎn)問題之一。今天和大家分享的議題是數(shù)字水印在數(shù)據(jù)泄露溯源中的應(yīng)用和挑戰(zhàn)。主要圍繞下面四個(gè)方面展開:

數(shù)據(jù)泄露現(xiàn)狀

數(shù)字水印技術(shù)

水印在電商的應(yīng)用

思考與探索

? ? ? ??01數(shù)據(jù)泄露現(xiàn)狀

? ? ? ??首先和大家分享下數(shù)據(jù)泄露的背景。

? ? ? ??1. 數(shù)據(jù)泄露風(fēng)險(xiǎn)概述

? ? ? ??以2020年為例,全年的數(shù)據(jù)泄露總量已經(jīng)超過了之前15年的總和,達(dá)到了36億條。據(jù)分析,數(shù)據(jù)泄露的根本原因可分為三類:系統(tǒng)故障、人為失誤和惡意攻擊。惡意攻擊不僅包括外部的黑客攻擊,也包括內(nèi)部惡意人員的主動泄露。

? ? ? ??2. 數(shù)據(jù)泄露黑色產(chǎn)業(yè)鏈

? ? ? ??目前,數(shù)據(jù)泄露,不是一個(gè)單點(diǎn)事件,而是形成了包括數(shù)據(jù)獲取方、數(shù)據(jù)中間商、數(shù)據(jù)購買者在內(nèi)的一條非常完整的黑色產(chǎn)業(yè)鏈。

? ? ? ??產(chǎn)業(yè)鏈上游:數(shù)據(jù)獲取方,包括內(nèi)部惡意人員、黑客,甚至黑客工具的提供者。

? ? ? ??產(chǎn)業(yè)鏈中游:數(shù)據(jù)中間商,獲取到泄露數(shù)據(jù)后,將對這些數(shù)據(jù)進(jìn)行二次加工,在暗網(wǎng)上進(jìn)行售賣。

? ? ? ??產(chǎn)業(yè)鏈下游:數(shù)據(jù)購買者,泄漏數(shù)據(jù)的實(shí)際使用方會利用泄漏數(shù)據(jù)實(shí)施電信詐騙、精準(zhǔn)營銷、惡意刷單等。進(jìn)一步,由于下游對于數(shù)據(jù)的精細(xì)化要求,又會促使上游去獲取更全面的,更多樣化的數(shù)據(jù)。據(jù)估計(jì),整個(gè)產(chǎn)業(yè)鏈已經(jīng)達(dá)到了千億規(guī)模。

? ? ? ??3. 數(shù)據(jù)全生命周期安全保護(hù)

? ? ? ??不容樂觀的數(shù)據(jù)泄露形勢,對數(shù)據(jù)全生命周期提出了更高的安全需求。今天的講座主要聚焦在數(shù)據(jù)交換階段的水印添加技術(shù),及其在數(shù)據(jù)溯源和版權(quán)保護(hù)方面的應(yīng)用。

? ? ? ??4. 傳統(tǒng)水印的困境

? ? ? ??網(wǎng)頁上的明水印是用戶最常接觸的一種水印類型。對于有敏感數(shù)據(jù)或者重要文件展示的網(wǎng)頁,背景往往鋪滿了包含訪問用戶ID、時(shí)間、公司logo等信息的水印,用于提醒用戶及防止截圖泄露。但是這種添加的明水印,通過馬賽克、亮度調(diào)節(jié)、對比度調(diào)節(jié),甚至圖像二值化等手段可以簡單直接的去除。

? ? ? ??另一方面,人工智能的發(fā)展對于圖片水印、視頻水印造成了非常大沖擊。如圖中的應(yīng)用實(shí)例,即使打有非常厚的水印,通過人工智能算法依然可以去除。重建后,盡管有一些細(xì)節(jié)的損失,但整體效果已經(jīng)非常驚人。

? ? ? ??02數(shù)字水印技術(shù)

? ? ? ??數(shù)字水印是永久鑲嵌在其他數(shù)據(jù)(宿主數(shù)據(jù))中具有可鑒別性的數(shù)字信號或模式,且不影響宿主數(shù)據(jù)的可用性。多用于版權(quán)保護(hù)和數(shù)據(jù)溯源。

? ? ? ??1. 數(shù)字水印通用框架

? ? ? ??數(shù)字水印通用框架主要分為水印添加階段和水印提取階段。

? ? ? ??水印添加階段:將原始數(shù)據(jù)和通過密鑰加密的水印內(nèi)容輸入到水印添加算法,獲取到含水印的數(shù)據(jù)。較之原始數(shù)據(jù),含水印的數(shù)據(jù)只會有細(xì)微的變化,不易被人眼觀察到。

? ? ? ??水印提取階段:將含水印的數(shù)據(jù),通過水印提取算法來判斷是否含有水印,提取水印的具體內(nèi)容,進(jìn)而定位到數(shù)據(jù)的具體來源。

? ? ? ??2. 數(shù)字水印評價(jià)指標(biāo)

? ? ? ??一般,從以下五個(gè)維度來評價(jià)數(shù)字水印:


  • 隱蔽性:是指添加的水印是否容易被發(fā)現(xiàn)。
  • 容量:是指水印算法可嵌入的水印長度。
  • 魯棒性:是指添加水印后的數(shù)據(jù)遭到攻擊和破壞后,還能被正確提取的能力。
  • 實(shí)用性:是指實(shí)際使用算法中要考慮的因素,如:計(jì)算性能、內(nèi)存存儲消耗等。
  • 安全性:指水印不能被非法篡改、替換,及沒有密鑰的情況下不能進(jìn)行水印內(nèi)容的提取等能力。


? ? ? ??3. 圖片水印

? ? ? ??圖片水印是水印技術(shù)中發(fā)展的最早,相對最成熟的一個(gè)領(lǐng)域。LSB水印是一種簡單的添加水印方法。如圖所示,左上角是原始圖片,下方是待插入水印圖像。由于圖片像素取值范圍在0-255之間,由八個(gè)bit表示的。改變最低位的0,1取值,對于圖像的整個(gè)質(zhì)量影響很小,肉眼基本看不出什么變化。對于具體的像素值來說,插入0的地方變成了偶數(shù),插入1的地方變成了奇數(shù)。因此,可以通過從最低有效位里面直接去抽取到添加的水印內(nèi)容。LSB水印這種方法實(shí)現(xiàn)簡單,但是魯棒性比較差。JPG圖像壓縮就可能改變水印內(nèi)容,圖像剪切也會破壞掉部分的水印內(nèi)容。

? ? ? ??當(dāng)前最常見的數(shù)字圖片水印是基于變換域的水印,例如離散小波變換DWT、余弦變換DCT等。通常將待插入水印圖片或水印字符串轉(zhuǎn)換為二值化數(shù)據(jù),插入原始圖片的變化域中,肉眼看不出與原始圖片的差異,后續(xù)也可以提取出水印內(nèi)容。此外,圖片剪裁、遮擋攻擊,盡管會導(dǎo)致提取結(jié)果的質(zhì)量有所下降,但是依然可以判斷出水印信息。

? ? ? ??4.?文本水印

? ? ? ??文本水印可分為三個(gè)大類:


  • 基于排版的文本水?。豪貌煌男虚g距和字間距、字體、字號的微小改變,添加水印。
  • 基于特定字符的文本水?。毫銓捵址?、加空格、換行符等。
  • 基于自然語言的文本水?。和x詞替換、句法變換等。更隱蔽,實(shí)現(xiàn)復(fù)雜度高。


? ? ? ??基于零寬字符文本水印的舉例:在Unicode編碼中,存在很多的就是不可見字符,以及不占位的字符。利用這類字符,可以構(gòu)造出文本水印。圖中的兩種“北京市朝陽區(qū)”肉眼看上去并沒有區(qū)別,但其實(shí)在第二行的“北京市”后面插入了很多的零寬字符,字符串的長度發(fā)生了變化。

? ? ? ??基于不同空格文本水印的舉例:在Unicode編碼中,存在不同編碼的空格,如半寬空格、全角空格、1/3空格等。從上圖中可以看出,不同空格在寬度上略有不同,可用于水印嵌入。

? ? ? ??基于自然語言文本水印的舉例:原始文本是“我的媽媽今年30歲,她是北京人,是一名醫(yī)生”。同義詞替換時(shí),通過同義詞的對照關(guān)系,可以做01編碼去嵌入水印。句法變換時(shí),往往涉及到省略,指代和替換,甚至句式上的變動?;谧匀徽Z言的文本水印方法將水印和內(nèi)容嵌合在一起,提高了水印的魯棒性。但是它本身也有弊端的,例如,可能會導(dǎo)致語言風(fēng)格上的變化,或引入歧義。

? ? ? ??5. 數(shù)據(jù)庫水印

? ? ? ??數(shù)據(jù)庫水印是在2002年首次被提出。不同于其他類型的水印,它要求加入的水印對數(shù)據(jù)可用性影響盡可能小,甚至不能造成微小的精度喪失。因此,主流的研究方向是可逆水印,即:在添加水印后可恢復(fù)原始數(shù)據(jù)。

? ? ? ??針對數(shù)據(jù)庫中數(shù)值型和字符型數(shù)據(jù)類型,有不同的水印添加方式。

? ? ? ??對于數(shù)值型,大部分水印添加方式都是從圖像算法延伸擴(kuò)展的,例如:基于最低有效位的(不可逆水?。?、直方圖平移、差值直方圖平移和差值擴(kuò)展素算法(可逆水印)。

? ? ? ??對于字符型,主要有兩大類:一類是基于特定字符,如空格,大小寫切換,半角全角等;另一類是基于自然語言,如同義詞替換。

? ? ? ??一般來講,圖片水印有空間維度上的約束。文本水印有上下文的約束。不同于它們,數(shù)據(jù)庫的元組和元組之間強(qiáng)關(guān)聯(lián)性比較弱。因此,數(shù)據(jù)庫水印添加階段,需要添加一個(gè)預(yù)處理步驟,可分為三部分:

數(shù)據(jù)預(yù)處理:對元組和屬性列進(jìn)行排序操作,用來防止隨機(jī)打亂類的攻擊;接著,應(yīng)用優(yōu)化算法(如遺傳算法,螢火蟲算法、模擬退火等)確定最佳的水印嵌入位。在保證最小數(shù)據(jù)失真的前提下,嵌入更多水印容量來提升水印的魯棒性。

? ? ? ??水印嵌入:如上所述的水印嵌入算法。

? ? ? ??水印提?。横槍δ玫降男孤稊?shù)據(jù)庫,可進(jìn)行水印提取。

? ? ? ??03水印在電商生態(tài)的應(yīng)用

? ? ? ??下面以電商生態(tài)為例,介紹若干數(shù)字水印技術(shù)應(yīng)用實(shí)例。

? ? ? ??1.?電商生態(tài)數(shù)據(jù)泄露概述

? ? ? ??電商生態(tài)主要由平臺、商家、ISV和物流四大塊構(gòu)成。所涉及的敏感數(shù)據(jù)主要分為兩類:

? ? ? ??用戶個(gè)人隱私:比如姓名、手機(jī)號、收貨地址,身份證號等數(shù)據(jù)。

? ? ? ??交易數(shù)據(jù),比如購買的商品、金額。

? ? ? ??由于電商業(yè)務(wù)涉及的環(huán)節(jié)多,從業(yè)人員流動性大等特殊性,通過內(nèi)部人員泄露數(shù)據(jù)的比例較高,接近50%。截圖拍照、批量導(dǎo)出是兩種較為常見的泄露方式。

? ? ? ??2.?典型內(nèi)部人員泄露案例

? ? ? ??舉兩個(gè)內(nèi)部泄露案例:

? ? ? ??案例一:有操作權(quán)限的人員,訪問訂單系統(tǒng)中的訂單記錄。以截屏或者拍照方式,截取含敏感數(shù)據(jù)的圖片區(qū)域,并通過社交軟件途徑外發(fā)。

? ? ? ??案例二:內(nèi)部人員獲取數(shù)據(jù)庫的權(quán)限,批量導(dǎo)出數(shù)據(jù),并通過移動存儲設(shè)備、上傳到云存儲、郵件或者打印等方式來外發(fā)數(shù)據(jù)信息。

? ? ? ??3.?水印應(yīng)覆蓋的場景

? ? ? ??結(jié)合典型案例,水印技術(shù)應(yīng)該覆蓋的場景有截圖拍照、批量導(dǎo)出、文件打印和非結(jié)構(gòu)化數(shù)據(jù)保護(hù)等。

? ? ? ??截圖拍照場景:在展示敏感數(shù)據(jù)的前端頁面上添加網(wǎng)頁水印,在重點(diǎn)人員的PC終端上添加桌面水印。 批量導(dǎo)出場景:數(shù)據(jù)庫水印技術(shù)。 重要文件打印場景:打印水印,即直接打印在紙質(zhì)文檔上的水印。 非結(jié)構(gòu)化的數(shù)據(jù),比如Word、PPT、PDF文檔、圖片、音頻視頻,需要做對應(yīng)的水印添加方式。

? ? ? ??4.?水印在實(shí)際應(yīng)用中面臨的挑戰(zhàn)

? ? ? ??結(jié)合典型案例,水印在實(shí)際應(yīng)用中面臨著諸多挑戰(zhàn)。

? ? ? ??在案例一中,截屏或拍照肯定會引起仿射變化,畸變,以及屏幕的摩爾紋;截取敏感數(shù)據(jù)時(shí),會涉及到圖片剪裁,用馬賽克去除明水印、涂改或遮擋;在保存圖片時(shí),JPG保存會帶來的圖像壓縮;在通過社交軟件外發(fā)時(shí),會導(dǎo)致圖片二次壓縮。

? ? ? ??在案例二中,打印導(dǎo)出的excel表將引起載體轉(zhuǎn)換;黑產(chǎn)鏈數(shù)據(jù)中間商對數(shù)據(jù)的清洗,如數(shù)據(jù)格式化、過濾篩選、二次加工等。

? ? ? ??5. 重點(diǎn)業(yè)務(wù)系統(tǒng)前端水印保護(hù)方案

? ? ? ??如何解決這些問題?提出兩個(gè)解決方案。

? ? ? ??含敏感數(shù)據(jù)的前端頁面:明暗結(jié)合的解決方案。明水印用作事先提醒,可根據(jù)場景采用人員ID、訪問時(shí)間、公司信息系統(tǒng)信息,或者內(nèi)部資料請勿外傳等提示語,用來提示員工該頁面是一個(gè)不可截圖的敏感頁面。暗水印主要用于泄露溯源。因?yàn)樗哂须[蔽性,暗水印在傳播過程中不易被主動去除。因?yàn)樗聂敯粜?,暗水印可抵御多種攻擊。當(dāng)獲取到截圖的時(shí)候,依然有很大概率可以提取到水印內(nèi)容。

? ? ? ??文本水印:對敏感字段進(jìn)行加強(qiáng)性保護(hù)。在選擇文本水印算法時(shí)需要注意應(yīng)選取適用于超短文本,且不僅可通過獲取到的文本進(jìn)行提取,而且通過截圖亦可提取的算法。

? ? ? ??6. 數(shù)據(jù)庫水印方案

? ? ? ??數(shù)據(jù)庫水印方案的要點(diǎn):

? ? ? ??水印包含的信息:人員ID,時(shí)間、系統(tǒng)都是可包含在水印中的信息。這樣一來,就可以知道數(shù)據(jù)是通過誰,在什么時(shí)間,通過什么途徑泄露的。

? ? ? ??在敏感屬性中添加數(shù)水印:避免黑產(chǎn)清洗過濾掉水印。

? ? ? ??全元組插入水?。涸谒行欣锊迦胨。嵘√崛〉挠行?。因?yàn)橥谇閳?bào)獲取的環(huán)節(jié),只能獲取少量的泄漏樣本。

? ? ? ??多重水印添加方式:基于特定的字符、基于自然語言。

? ? ? ??水印驗(yàn)證和篡改檢測:引入糾錯(cuò)碼、奇偶驗(yàn)證等方法,驗(yàn)證水印的準(zhǔn)確性,檢測是否被篡改。

? ? ? ??數(shù)據(jù)庫水印添加算法應(yīng)可抵抗篩選、排序、格式化等等常見攻擊。我們自研的水印添加方案在京東場景下,平均50條數(shù)據(jù),就可以鎖定到唯一的ID。

? ? ? ??04思考與探索

? ? ? ??數(shù)字水印領(lǐng)域尚有很多未解決的問題,例如:

? ? ? ??通用性的水印添加方式的易分離去除:通用性的水印添加方式經(jīng)常伴隨著和被保護(hù)內(nèi)容的分離,容易被探測并去除掉。比如文本水印中的加空格或者是零寬字符,網(wǎng)頁水印與頁面內(nèi)容的分離。

針對超短文本、特定信息的水印添加方法:諸如手機(jī)號,身份證號等信息對精確性要求很高,且有固定的數(shù)據(jù)格式,無法容忍改動。對于這類信息,如何更加有效地去添加水印是值得探索的問題。

水印算法在時(shí)間消耗和空間存儲上的優(yōu)化。

? ? ? ??最后,就數(shù)據(jù)泄露溯源展開一些討論。數(shù)據(jù)泄露溯源主要是要回答三個(gè)問題:搞清楚泄漏的源頭在哪里、通過什么樣的途徑泄露、數(shù)據(jù)泄露給了誰。

數(shù)據(jù)泄露溯源并不止于對單一事件的成功溯源,溯源成功只是一個(gè)開始。比如,一旦發(fā)現(xiàn)了泄露的源頭,可執(zhí)行徹底的阻斷,避免長期的內(nèi)部泄漏風(fēng)險(xiǎn)。還原泄露途徑后,可完善涉及人員管理、業(yè)務(wù)流程的整個(gè)安全體系建設(shè)。甚至可以挖掘出背后的黑產(chǎn)鏈,給予法律上的打擊?;谟行菰此莆盏男畔?,可對潛在的風(fēng)險(xiǎn)進(jìn)行預(yù)警,例如:給被泄露用戶及時(shí)發(fā)送反詐騙提醒。

綜上所述,數(shù)據(jù)泄露溯源既不是一個(gè)終點(diǎn),也不是一種亡羊補(bǔ)牢的操作,而是另外一種起點(diǎn)。

? ? ? ??05精彩問答

? ? ? ??Q: 網(wǎng)頁暗水印用什么技術(shù)好一些?

? ? ? ??A: 網(wǎng)頁暗水印當(dāng)前比較常見的有高透明度水印、矢量水印,,看起來是一些小點(diǎn)點(diǎn)的那種,用不同的組合,去標(biāo)注不同的01234這樣的一些編碼。還有就是像我剛才介紹的,可以把圖片數(shù)字水印里的變換域水印遷移到網(wǎng)頁來使用。

? ? ? ??Q: 基于自然語言替換的算法,如果兩份帶不同水印的數(shù)據(jù)互相融合的話,能否溯源出兩個(gè)水印信息,如果能的話是怎樣做的?

? ? ? ??A:這也是我們最近在思考的問題。這種情況不僅發(fā)生在文本水印中,在數(shù)據(jù)庫水印場景也會發(fā)生。多份數(shù)據(jù)融合在一起的話,我們?nèi)绾稳ゾ_地提取到水印。多份帶水印數(shù)據(jù)融合,又可以細(xì)分為:1)帶同一水印算法+同一密鑰的數(shù)據(jù)融合;2)帶同一水印算法+不同密鑰的數(shù)據(jù)融合;3)帶不同水印算法的數(shù)據(jù)融合。對于不同細(xì)分種類,會有不同的處理方法。對于1)來說,我們通過多條數(shù)據(jù)提取到的水印內(nèi)容會呈現(xiàn)較明顯的雙峰現(xiàn)象,那么通過數(shù)據(jù)分析我們可以同時(shí)提取到插入的兩個(gè)水印內(nèi)容;對于2)和3),由于我們只掌握我們自己的算法和密鑰,因此另一份數(shù)據(jù)中含有的水印會被當(dāng)成噪聲數(shù)據(jù)去除,僅可提取到我們自己添加的水印內(nèi)容。實(shí)際場景中還會發(fā)生更加復(fù)雜的情況,例如我們添加水印的數(shù)據(jù)又被重復(fù)添加了另一種基于自然語言替換的水印,那之前的水印就遭到了嚴(yán)重的破壞。對于這種場景,如果兩種算法使用不同的同義詞替換表,可能會有一些有效的區(qū)分,那通過我們在水印編碼中加入的糾錯(cuò)碼,可以進(jìn)行水印的驗(yàn)證和糾錯(cuò)。在真實(shí)溯源場景中,通過水印提取我們很多時(shí)候不是提取到一個(gè)唯一的ID,而可能是疑似的水印列表。例如,一個(gè)N位的水印編碼,通過水印提取有一些位數(shù)我們是可以確定的,有一些位數(shù)是置信度不太高的,那就需要結(jié)合例如日志審計(jì)等多種手段,去進(jìn)一步縮小范圍,最后精確定位到源頭。因此數(shù)據(jù)溯源并不能單純依賴水印,還是要結(jié)合多種技術(shù),多方面考慮,最后才能真正找到泄漏源頭。


(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢