日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺(tái)

睿治作為國(guó)內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國(guó)數(shù)據(jù)治理市場(chǎng)份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場(chǎng)份額第一。

抓緊算法治理的“牛鼻子”

時(shí)間:2022-03-23來源:虎瘦雄心在家瀏覽數(shù):165

部分常用算法模型的不可解釋性長(zhǎng)期制約著算法的治理。解決思路有二:從易于解釋、可以治理的部分入手,或者不斷解耦算法、使之分離成各自皆易于解釋、可以治理的若干部分。前一思路對(duì)制度的影響更深:無論是域內(nèi)首創(chuàng)的備案制度,還是域外以歐盟《人工智能法》提案為代表的立法嘗試,都秉持了“可以說清之事,說清楚”的原則。后一思路則對(duì)技術(shù)發(fā)展頗有影響——實(shí)際上,解耦表征學(xué)習(xí)本就是方興未艾的、解釋算法的進(jìn)路之一。
數(shù)據(jù)表征正赫然處于制度和技術(shù)思路的交叉點(diǎn)。一方面,由域外執(zhí)法趨勢(shì)可見:表征正日益成為數(shù)據(jù)和算法間的執(zhí)法連接點(diǎn)。數(shù)據(jù)的治理駕輕就熟,算法的治理歧路猶多。通過治理表征,多國(guó)執(zhí)法機(jī)構(gòu)得以將治理工具和能力伸展到錯(cuò)綜復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)內(nèi)部。另一方面,無論是各類從表征角度出發(fā)解耦算法的前沿發(fā)展,還是以特征商店為代表的,使得表征標(biāo)準(zhǔn)化、可流通、可治理的產(chǎn)業(yè)趨勢(shì),都足以擔(dān)當(dāng)承載算法治理“過河”的河底石。
從Everalbum等案所見的治理新趨勢(shì)
Everalbum是一家為用戶提供照片上傳和存儲(chǔ)服務(wù)的公司。此外,Everalbum還通過人臉識(shí)別算法,為用戶提供照片分組管理服務(wù)。例如,假使人臉識(shí)別發(fā)現(xiàn)同一朋友出現(xiàn)在用戶的多張照片中,這些照片就自動(dòng)歸入一組。Everalbum聲稱:只有用戶明確同意,才會(huì)開啟這一服務(wù)。Everalbum還聲稱:一旦注銷賬戶,用戶的數(shù)據(jù)便都會(huì)被刪除。現(xiàn)實(shí)中,兩點(diǎn)都不成立:人臉識(shí)別實(shí)際是默認(rèn)開啟;注銷以后,數(shù)據(jù)也不會(huì)完全刪除。
美國(guó)聯(lián)邦貿(mào)易委員會(huì)(以下簡(jiǎn)稱FTC)因此調(diào)查Everalbum。雙方在2021年5月達(dá)成包含多方面整改措施的和解令。比較過往的FTC和解令,大部分措施并不陌生:糾正不實(shí)的陳述、刪除未經(jīng)同意收集的數(shù)據(jù)、刪除注銷后本應(yīng)刪除的數(shù)據(jù)、設(shè)立長(zhǎng)期合規(guī)項(xiàng)目、定期提交合規(guī)整改報(bào)告,等等。與此同時(shí),其中還有一類首次出現(xiàn)的措施:要求刪除基于前述數(shù)據(jù)開發(fā)的“工作產(chǎn)品”,包括相應(yīng)的人臉嵌入和算法模型。前者即屬于人臉數(shù)據(jù)的表征。
截至目前,盡管各國(guó)制度對(duì)算法的關(guān)切皆多,主要法域的實(shí)際執(zhí)法仍少。對(duì)算法有深入分析說理,并處以切實(shí)處置措施的更少。作為主要法域內(nèi)主要執(zhí)法機(jī)構(gòu)的FTC的決定首次納入數(shù)據(jù)表征,自然值得矚目。在報(bào)道這份FTC內(nèi)部一致通過的和解令時(shí),F(xiàn)TC官方也把嵌入這部分內(nèi)容作為突出的內(nèi)容。
從更具體的角度看,這份和解令還有三則值得關(guān)注的細(xì)節(jié)。首先,按其官方報(bào)道,“與人臉識(shí)別技術(shù)的使用同時(shí)創(chuàng)建的人臉嵌入”屬于“個(gè)人信息”。這就在美國(guó)法下回應(yīng)了前文的疑難。其次,在致世界隱私論壇的復(fù)信中,F(xiàn)TC進(jìn)一步在技術(shù)層面明確道:刪除所涵蓋的嵌入范圍非常廣泛,不僅包括“一串?dāng)?shù)字”形式的表征,也包括以隨機(jī)分布形式體現(xiàn)的“概率性人臉嵌入”。簡(jiǎn)言之,F(xiàn)TC已經(jīng)考慮了技術(shù)上形式相對(duì)復(fù)雜的表征。最后,在同一復(fù)信中,F(xiàn)TC還明確道:人臉表征不僅包括基于人臉生成的表征,還包括其他多模態(tài)的表征,比如基于視頻的表征。綜之,F(xiàn)TC執(zhí)法范圍已足以覆蓋各類關(guān)切算法所依賴的表征。
Everalbum案體現(xiàn)的執(zhí)法趨勢(shì)不是孤例。2022年3月,F(xiàn)TC又調(diào)查了體重營(yíng)養(yǎng)管理應(yīng)用Weight Watchers。因Weight Watchers不當(dāng)收集兒童個(gè)人信息,和解令同樣規(guī)定了諸多整改措施。其中也再一次出現(xiàn)了刪除“工作產(chǎn)品”,包括算法模型的類似要求。FTC主席Lina Khan在個(gè)人社交媒體上自豪地稱其為兒童個(gè)人信息保護(hù)領(lǐng)域的“首創(chuàng)”。總而觀之,Everalbum當(dāng)為美國(guó)法下算法治理新趨勢(shì)的起點(diǎn)之一。表征則是其中的突出組成部分。
Clearview AI案同樣瞄準(zhǔn)數(shù)據(jù)表征
作為域外趨勢(shì)共通點(diǎn)的表征,究竟是什么?Clearview AI是一家核心業(yè)務(wù)完全圍繞人臉識(shí)別運(yùn)行的公司。于是,自然也會(huì)涉及表征。簡(jiǎn)言之,Clearview AI先從社交媒體等多類來源爬取數(shù)以億計(jì)的照片,然后生成人臉矢量。矢量屬于表征的一種。在此基礎(chǔ)上,Clearview AI再向各國(guó)執(zhí)法機(jī)構(gòu)提供人臉檢索匹配服務(wù):執(zhí)法機(jī)構(gòu)提供人臉圖像,Clearview AI將其矢量化后,準(zhǔn)確、迅速地在數(shù)十億張照片中尋得包含同一人的所有照片。這一業(yè)務(wù)業(yè)已行銷全球多地。
Clearview AI對(duì)作為敏感個(gè)人信息的人臉的如此處理行為,既未事先取得同意,也沒有提供易用、徹底的刪除措施。多國(guó)因此開展調(diào)查。其中,英國(guó)與澳大利亞兩大主要法域聯(lián)合展開的調(diào)查最具影響力。兩國(guó)2021年10月聯(lián)合發(fā)布的決定不僅詳細(xì)解釋了何謂矢量(表征),還展示了分析表征法律性質(zhì)的邏輯。
具言之,決定首先開門見山:本案中,“矢量是對(duì)所爬取圖片包含信息的數(shù)學(xué)表征。”之后,決定從兩個(gè)角度展開矢量的法律性質(zhì),闡明為何應(yīng)當(dāng)認(rèn)定為個(gè)人信息:其一,無論其他事實(shí)如何,本案中表征人臉的矢量,總是對(duì)個(gè)人生理特征的測(cè)度和記錄。且相應(yīng)的生理特征隨時(shí)間保持穩(wěn)定、難以更改。其二,這些矢量的處理目的,終究還是從數(shù)十億張照片中“區(qū)別”、亦即“識(shí)別”出一個(gè)人。因此,即使矢量難以為人所理解,單獨(dú)(不結(jié)合特定算法)也無法識(shí)別到個(gè)人,依然應(yīng)當(dāng)認(rèn)定為個(gè)人信息。循此,兩地適用于個(gè)人信息的各類制度規(guī)定,都可以自然地適用于眾多類型的表征,進(jìn)而伸展至依賴相應(yīng)表征的算法。
Clearview AI案因此具備兩方面重要意義。一方面,和Everalbum案一致,這是數(shù)據(jù)表征開始納入主要法域治理范圍的起點(diǎn)之一。另一方面,兩地執(zhí)法機(jī)關(guān)分析表征的進(jìn)路——綜合表征內(nèi)容及其處理目的而判斷,也和歐盟等地正在發(fā)生的、個(gè)人信息保護(hù)問題的分析范式轉(zhuǎn)變一致。執(zhí)法機(jī)關(guān)不再單純圍繞可識(shí)別性糾纏,而是綜合考慮信息內(nèi)容、處理目的甚或處理影響,從而對(duì)涉及新興復(fù)雜領(lǐng)域的案件做出妥帖判斷。這一轉(zhuǎn)變發(fā)生的范圍遠(yuǎn)不止以上三地。
什么是數(shù)據(jù)表征?
恰如算法領(lǐng)域經(jīng)典教科書《深度學(xué)習(xí)》所述:“信息處理任務(wù)是難是易,依賴于信息如何表征。無論是對(duì)日常生活來說,還是對(duì)計(jì)算機(jī)科學(xué)和算法來說,這條一般性的原則都適用。”書中實(shí)例亦頗有啟發(fā):同樣的信息,同樣是要做除法,用羅馬數(shù)字來表征,遠(yuǎn)沒有用阿拉伯?dāng)?shù)字表征來得方便。由此,表征至少具備三方面要點(diǎn):一,同樣的信息,可以有多種表征;二,不同的表征,會(huì)影響信息處理任務(wù)的效率;三,由此,對(duì)不同的信息和處理任務(wù),需要尋求高效的表征。
這一尋覓路途,大致分兩個(gè)階段。不妨以征信風(fēng)控算法作為簡(jiǎn)單的示例。風(fēng)控算法常以多類個(gè)體特征作為輸入。在第一階段,算法開發(fā)者需要手動(dòng)篩選、調(diào)整,以制得最有用的特征。之后,算法即可學(xué)習(xí)到不同特征在風(fēng)險(xiǎn)預(yù)測(cè)中的權(quán)重。進(jìn)入第二階段以后,基于豐富的個(gè)體特征,算法能夠同時(shí)表征相應(yīng)特征,并學(xué)習(xí)特征權(quán)重。換句話說,算法很大程度上“接管”了信息表征的設(shè)計(jì)。
制度層面所關(guān)切各類算法的進(jìn)展,均受惠于這一轉(zhuǎn)變。除前述風(fēng)控算法外,按Bengio等早已獲逾萬(wàn)次征引的經(jīng)典綜述《表征學(xué)習(xí):綜述和展望》:無論是識(shí)別、檢測(cè)算法(如人臉識(shí)別),還是自然語(yǔ)言處理算法(如部分生成合成類算法),都因表征的發(fā)展而迎來了“一連串可圈可點(diǎn)的實(shí)踐的勝利”。之外,域內(nèi)外均著力治理的推薦算法,也相當(dāng)依賴于算法自行習(xí)得的表征。
表征“可圈可點(diǎn)的勝利”,也帶來了相當(dāng)?shù)奶魬?zhàn)。按前言,高效的表征需要與處理任務(wù)相適應(yīng)。適應(yīng)于后續(xù)算法處理的表征,固然能提升征信風(fēng)控、人臉識(shí)別、生成合成和推薦算法的效率,但通常難以為人所理解。實(shí)際上,對(duì)人而言,表征通常只是一串不知所云的數(shù)字。于是,盡管制度上很容易判斷人臉是否特殊類別個(gè)人信息,并適用相應(yīng)規(guī)定。一旦涉及人臉的表征,是否個(gè)人信息,是否應(yīng)當(dāng)適用相應(yīng)規(guī)定,就很難判斷了。對(duì)算法和數(shù)據(jù)治理而言,這里有個(gè)“豁口”。
危中有機(jī),老生常談。表征雖然難解,作為聯(lián)通常人能夠理解的信息和不可解釋的算法間的橋梁,一旦抓住這個(gè)“牛鼻子”,治理的工具和能力都能夠自然地“過橋”。這正是上述域外新近案例所體現(xiàn)的趨勢(shì)。
算法解耦、特征商店與表征的可治理化
技術(shù)和產(chǎn)業(yè)層面,解耦算法和治理表征的努力也是如火如荼。由此導(dǎo)向的表征可治理性,與制度的發(fā)展有著清晰的共同指向。
如前所言,新一階段的算法可以同時(shí)表征特征,并學(xué)習(xí)權(quán)重。僅追求算法性能時(shí),這無傷大雅。然而,當(dāng)算法治理進(jìn)入“深水區(qū)”、解釋問題成為“攔路虎”后,這一深度耦合又成了下一階段需要著力解決的障礙。當(dāng)前算法解釋領(lǐng)域最重要的前沿問題之一,便是將表征從算法中重新解耦出來。這意味著兩個(gè)層面的努力:之一,將算法表達(dá)成一系列彼此解耦的表征的產(chǎn)物;之二,理解各相應(yīng)表征的含義。譬如,從當(dāng)前無法理解的人臉嵌入或矢量中,將“眼睛”“鼻子”“嘴巴”等表征找到,并將人臉識(shí)別算法表達(dá)成這些表征的關(guān)系。相應(yīng)問題進(jìn)展頻繁。張拳石等學(xué)者將在今年CVPR口頭報(bào)告的研究,即附條件地實(shí)現(xiàn)了上述兩點(diǎn)。
并非所有數(shù)據(jù)表征都與算法緊密耦合。實(shí)際上,許多常見算法依賴的表征都很容易復(fù)用:從一個(gè)場(chǎng)景中的算法遷移到另一個(gè)場(chǎng)景的算法,甚或從一類算法遷移到另一類算法,等等。于是,表征可以治理,也需要治理,以提升其復(fù)用率和算法整體的效率。無論是企業(yè)層面還是行業(yè)層面,通常稱為“特征商店”的表征治理都可謂“正在發(fā)生”。在企業(yè)層面,特征商店已成諸多企業(yè)數(shù)據(jù)基礎(chǔ)設(shè)施的組成部分;在產(chǎn)業(yè)層面,類似Hugging Face的、開源流通常見算法及相應(yīng)表征的嘗試,應(yīng)屬產(chǎn)業(yè)發(fā)展最熱門方向之一。盡量展示復(fù)雜算法和表征的細(xì)節(jié),令從業(yè)者共同使用、共同建設(shè)、共同享有,可謂新一波的算法自治理潮流。
一切都還未定局,遠(yuǎn)航者不希望太早看到終點(diǎn)。雖然如此,無論是從算法解耦表征,還是讓表征標(biāo)準(zhǔn)化、可流通,都可以視為令本來難以理解的表征“說清楚”的努力。隨著這一趨勢(shì)持續(xù),各國(guó)治理者將很快可以更加稱手地在決定里使用數(shù)據(jù)表征這一概念,并將其作為日用工具之一。例如,假如算法能夠清楚地拆解成若干表征,這些表征也都已經(jīng)標(biāo)準(zhǔn)化、可以從公開渠道了解,有關(guān)算法獲解釋(說明)權(quán)的眾多設(shè)想,自然具備了切實(shí)的抓手。
如上,數(shù)據(jù)表征是一座視野所及保持通暢的橋,矗立在容易治理的數(shù)據(jù)和難以治理的算法之間。表征因此成為當(dāng)下算法治理的“牛鼻子”。美國(guó)、英國(guó)、澳大利亞等地皆由此入手治理算法,前沿技術(shù)和產(chǎn)業(yè)發(fā)展層面亦在相同方向上配合攻堅(jiān)。以為鏡鑒,觀照域內(nèi),《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》第十條規(guī)定,“算法推薦服務(wù)提供者應(yīng)當(dāng)加強(qiáng)用戶模型和用戶標(biāo)簽管理,完善記入用戶模型的興趣點(diǎn)規(guī)則和用戶標(biāo)簽管理規(guī)則,不得將違法和不良信息關(guān)鍵詞記入用戶興趣點(diǎn)或者作為用戶標(biāo)簽并據(jù)以推送信息。”第十一條也提到“針對(duì)其個(gè)人特征的用戶標(biāo)簽”。最高人民法院《關(guān)于審理使用人臉識(shí)別技術(shù)處理個(gè)人信息相關(guān)民事案件適用法律若干問題的規(guī)定》第一條即規(guī)定,“人臉信息”屬于“生物識(shí)別信息”。《個(gè)人信息安全規(guī)范》也將“面部識(shí)別特征”歸類到“個(gè)人生物識(shí)別信息”。這些觀點(diǎn)與FTC觀點(diǎn)“人臉表征不僅包括基于人臉生成的表征,還包括其他多模態(tài)的表征,比如基于視頻的表征”間,頗有可比較之處。盡管我國(guó)制度并未使用“嵌入”“矢量”“表征”等概念,而是選擇了“標(biāo)簽”“興趣點(diǎn)”“特征”來入手,這些技術(shù)概念的用法并不區(qū)分國(guó)界,所承載趨勢(shì)也多有共通。因此,我們相信前述分析足以廣泛適用。

(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除)
立即申請(qǐng)數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
  • 相關(guān)主題
  • 相關(guān)大數(shù)據(jù)問答
  • 相關(guān)大數(shù)據(jù)知識(shí)
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢