
現(xiàn)如今,空前且大規(guī)模的人類行為數(shù)據(jù)的可用性正在深刻地改變著我們所處的世界,經(jīng)濟(jì)學(xué)、公共衛(wèi)生學(xué)、醫(yī)學(xué)、生物學(xué)、城市科學(xué)等在這一趨勢中都受到影響。各個組織、公民個人正在積極嘗試、創(chuàng)新和改編算法決策工具以了解全球人類行為模式,并為解決社會重要性問題提供決策支持。

在這篇文章中,作者提出要在大數(shù)據(jù)背景下積極利用人類行為數(shù)據(jù),通過分析人類行為數(shù)據(jù),為公共衛(wèi)生、災(zāi)害管理、安全、經(jīng)濟(jì)發(fā)展和國家統(tǒng)計等政策提供信息,解決社會重要問題。但作者也指明數(shù)據(jù)驅(qū)動的公共產(chǎn)品算法決策具有風(fēng)險性,包括對隱私的侵犯,缺乏透明度,信息不對稱,社會排斥和歧視,如果不加重視會導(dǎo)致“數(shù)據(jù)暴政”的出現(xiàn)。因此作者在這篇文章中提出了三點建議,希望加強(qiáng)決策的民主化,發(fā)揮數(shù)據(jù)驅(qū)動型決策的積極作用而減小其負(fù)面影響。
作者將這篇文章分成四部分,首先指明數(shù)據(jù)驅(qū)動決策的意義和存在的問題,第二部分通過案例說明數(shù)據(jù)驅(qū)動算法有利于決策的優(yōu)化,第三部分說明其存在缺陷,最后提出改善建議,希望發(fā)揮數(shù)據(jù)驅(qū)動算法的優(yōu)勢以解決社會重要問題。
第一部分,數(shù)據(jù)驅(qū)動決策的重要性和存在的問題

人類行為數(shù)據(jù)已經(jīng)從稀缺的資源發(fā)展成為大規(guī)模的實時流,作者強(qiáng)調(diào)了通過數(shù)據(jù)驅(qū)動的算法決策創(chuàng)造的積極機(jī)會:例如推斷社會經(jīng)濟(jì)國家和個人的狀況和犯罪預(yù)測,測繪疾病的傳播,或了解自然災(zāi)害的影響;同時也提醒從業(yè)者應(yīng)該意識和解決的潛在負(fù)面后果,防止“數(shù)據(jù)暴政”的出現(xiàn).作者在這篇文章中多次提到了黑匣子決策,即只能看到結(jié)果無法看到過程,黑匣子決策缺乏透明度和問責(zé)性,可能犧牲公民的個人權(quán)利,造成數(shù)據(jù)暴政,例如威廉?伊斯特利表示全球經(jīng)濟(jì)發(fā)展和扶貧項目受到“專家專制”的支配,這些“專家”將諸如貧困或正義等多層面的社會現(xiàn)象縮減為一套技術(shù)解決方案,這些技術(shù)解決方案沒有公民參與,沒有對“專家”的問責(zé),缺乏公平,易導(dǎo)致數(shù)據(jù)暴政。作者希望通過確保數(shù)據(jù)決策的透明度,實行問責(zé)制和保障公民參與,從而實現(xiàn)數(shù)據(jù)驅(qū)動的民主化決策。
第二部分,數(shù)據(jù)驅(qū)動算法有利于決策優(yōu)化

作者建議利用大規(guī)模的相關(guān)數(shù)據(jù)流來挖掘和訓(xùn)練算法,可以提高分析和技術(shù)能力,用基于機(jī)器學(xué)習(xí)的算法來處理人為決策極限的復(fù)雜問題。人類決策有明顯的局限性,例如腐敗、低效或不公正,向數(shù)據(jù)驅(qū)動算法的轉(zhuǎn)變反映了對客觀性,以證據(jù)為基礎(chǔ)的決策以及對資源和行為的更好理解的探索。
Diakopoulos 將算法的功能分為四大類:
(1)分類,根據(jù)信息的特征將信息分類為單獨的“類”?
(2)確定優(yōu)先次序,強(qiáng)調(diào)和排列特定信息或結(jié)果的排名,以犧牲他人為基礎(chǔ)的預(yù)定義標(biāo)準(zhǔn);?
(3)關(guān)聯(lián)性,確定實體之間的相關(guān)關(guān)系;和
(4)基于預(yù)定標(biāo)準(zhǔn)過濾,包含或排除信息。
|
功能
|
類型
|
示例
|
|
分類
|
聲譽系統(tǒng),新聞評分,信用評分,社交評分
|
Ebay, Uber, Airbnb; Reddit, Digg; CreditKarma; Klout
|
|
優(yōu)先級
|
一般搜索引擎,元搜索引擎,語義搜索引擎,問答服務(wù)
|
Google, Bing, Baidu; image search; social media; Quora; Ask.com
|
|
關(guān)聯(lián)性
|
預(yù)測發(fā)展和趨勢
|
ScoreAhit, Music Xray, Google Flu Trends
|
|
過濾
|
垃圾郵件過濾器,兒童保護(hù)過濾器,推薦系統(tǒng),新聞聚合器
|
Norton; Net Nanny; Spotify, Netflix; Facebook Newsfeed
|
根據(jù)以上算法進(jìn)行功能分析,可以計算出何為社會有益算法,即最能使公共產(chǎn)品決策和資源優(yōu)化的算法,這些算法旨在分析來自各種來源的大量人類行為數(shù)據(jù),然后根據(jù)預(yù)先確定的標(biāo)準(zhǔn)選擇與其預(yù)期目的最相關(guān)的信息。作者通過分析下列具體案例,強(qiáng)調(diào)了數(shù)據(jù)算法的積極作用:
第一,犯罪行為動態(tài)分析和預(yù)測性警務(wù)
首先,作者介紹了犯罪行為動態(tài)分析的兩種模式:1、是以人行為數(shù)據(jù)為中心的模式,主要用于個人或集體犯罪分析。Wang等人提出了一種名為“系列發(fā)現(xiàn)者”的機(jī)器學(xué)習(xí)方法,用于檢測同一罪犯或罪犯群體所犯罪行的具體模式;2、以地方為中心的警務(wù)實踐模式,對犯罪熱點檢測、分析和解釋。Toole等人提出了數(shù)學(xué)、物理和信號處理的定量工具的新穎應(yīng)用,分析刑事犯罪記錄中的空間和時間模式。
其次是預(yù)測性警務(wù)的運用方法正從學(xué)術(shù)領(lǐng)域轉(zhuǎn)向警察部門。總的來說,目前正在使用四種主要的預(yù)測性警務(wù)方法:(1)預(yù)測犯罪地點和時間的方法;(2)檢測罪犯和標(biāo)記將來有犯罪風(fēng)險的人的方法;(3)確定犯罪者的方法;(4)確定群體或在某些情況下可能成為犯罪受害者的個人的方法。
第二,推斷國家和個人的社會經(jīng)濟(jì)狀況
準(zhǔn)確地衡量和監(jiān)測關(guān)鍵的社會人口和經(jīng)濟(jì)指標(biāo)對于設(shè)計和實施公共政策至關(guān)重要。如今一些研究人員開始使用手機(jī)數(shù)據(jù)、社交媒體和衛(wèi)星圖像來推斷個人用戶的貧困程度和財富狀況,以創(chuàng)建高分辨率的地圖財富和貧困的地理分布,這為政府用來決定如何分配稀缺資源,研究經(jīng)濟(jì)增長的決定因素提供了基礎(chǔ)。
第三,數(shù)據(jù)驅(qū)動算法對公共衛(wèi)生的意義
數(shù)據(jù)算法有利于研究流行病學(xué)、分析環(huán)境和緊急情況,以支持政府決策或評估政府措施,并能更加精準(zhǔn)評估精神健康。例如Tizzoni和Wesolowski等將傳統(tǒng)的流動性調(diào)查與手機(jī)數(shù)據(jù)(呼叫詳細(xì)記錄或CDR)提供的信息進(jìn)行了比較,對疾病的傳播進(jìn)行建模,特別是在調(diào)查可用性非常有限的低收入經(jīng)濟(jì)體中,能持續(xù)監(jiān)測流動模式,以支持決策或評估政府措施的影響;且在心理健康領(lǐng)域,一些研究表明通過手機(jī)和社交媒體收集的行為數(shù)據(jù)可以被用來識別躁郁癥,情緒,人格和壓力,這些新的行為數(shù)據(jù)來源可以在臨床環(huán)境之外監(jiān)測心理健康相關(guān)的行為和癥狀,而不必依靠自我報告的信息,提升決策準(zhǔn)確性。
表格總結(jié)了本節(jié)回顧的文獻(xiàn)的主要觀點
|
關(guān)鍵區(qū)域
|
解決問題
|
參考
|
|
預(yù)測性警務(wù)
|
犯罪行為分析
|
Ratcliffe [67], Short et al. [72], Wang et al. [90]
|
|
犯罪熱點預(yù)測
|
Bogomolov et al. [10, 11], Ferguson
[32], Traunmueller et al. [85]
|
|
行為人/受害人身份證明
|
Perry et al. [64]
|
|
金融與經(jīng)濟(jì)
|
財富與貧困的映射
|
Blumenstock et al. [8], Louail [49], Jean et al. [39], Soto et al. [76], Venerandi et al. [88]
|
|
消費行為分析
|
Singh et al. [73]
|
|
信用評分
|
San Pedro et al. [71], Singh et al. [74]
|
|
公共衛(wèi)生
|
流行病學(xué)研究
|
Frias-Martinez et al. [35], Tizzoni et al. [82], Wesolowski et al. [94]
|
|
環(huán)境和緊急情況映射
|
Bengtsson et al. [4], Liu et al. [48], Lu et al. [50]
|
|
精神健康
|
Bogomolov et al. [9], De Choudhury [20], de Oliveira et al. [25], Faurholt-Jepsena et al. [30], Lepri et al. [46], LiKamWa et al. [47], Matic and Oliver [52],?Osmaniet al. [59]
|
第三部分,數(shù)據(jù)驅(qū)動算法的負(fù)面影響

大數(shù)據(jù)和機(jī)器學(xué)習(xí)方法對決策的潛在積極影響是巨大的,但作者也強(qiáng)調(diào)了數(shù)據(jù)驅(qū)動型決策的黑暗面。
第一,侵犯隱私
計算機(jī)濫用用戶披露的個人數(shù)據(jù),以及作為數(shù)據(jù)代理的實體對來自不同來源的數(shù)據(jù)進(jìn)行匯總,直接影響隱私。例如作者介紹的Kosinski等人最近的一項研究表明, 結(jié)合Facebook上的“喜歡”數(shù)據(jù)和有限的調(diào)查信息,能準(zhǔn)確預(yù)測男性用戶的性取向,族裔出身,宗教和政治偏好,以及酒精,藥物和香煙的使用情況。
第二,信息不對稱,缺乏透明度
大規(guī)模積累和操縱客戶、公民的行為數(shù)據(jù)的能力,可能會使大公司或威權(quán)政府使用有力手段通過有針對性的營銷努力和社會控制策略來操縱人群中的部分人群。這會造成信息不對稱,在這種情況下,強(qiáng)大的少數(shù)人獲得和使用大多數(shù)人無法獲得的知識,從而導(dǎo)致或者加劇了國家或大公司與其他人之間現(xiàn)有的權(quán)力不對稱。此外,各種數(shù)據(jù)驅(qū)動的社會福利算法的性質(zhì)和使用,缺乏公民參與,使得算法缺乏透明度,難以評估問責(zé)。
第三,社會排斥與歧視
算法決策程序可以再現(xiàn)現(xiàn)有的歧視模式,繼承先前決策者的偏見,或者簡單地反映社會上普遍存在的偏見,造成識別不公。識別不公平造成歧視性的結(jié)果不斷增長,但用于協(xié)助決策過程的黑匣子模型將呈指數(shù)級的復(fù)雜性。作者特別強(qiáng)調(diào)了需要透明和問責(zé)的機(jī)器學(xué)習(xí)模式,否則在機(jī)器驅(qū)動的決策嚴(yán)重影響人們的生活的情況下采用黑匣子方法可能導(dǎo)致形式上的算法污名,特別令人毛骨悚然的是那些被污名化的人可能永遠(yuǎn)不會意識到這一點。
第四部分,提出建議以減小數(shù)據(jù)驅(qū)動算法的消極面

作者希望能夠發(fā)揮數(shù)據(jù)驅(qū)動型算法的積極作用,避免走向數(shù)據(jù)暴政,使算法功能強(qiáng)大并使其成為創(chuàng)造價值的工具,為此提出了三點建議:
第一,以用戶為中心的數(shù)據(jù)所有權(quán)和管理
作者提出建立以用戶為中心的個人數(shù)據(jù)管理模型,以使個人能夠更好地控制自己的數(shù)據(jù)。于是Enigma平臺基于個人數(shù)據(jù)生態(tài)系統(tǒng)(個人數(shù)據(jù)生態(tài)系統(tǒng)由個人數(shù)據(jù)的安全保管庫組成,完全由其所有者控制),利用最新的分散化技術(shù),在密碼學(xué)和分散的計算機(jī)網(wǎng)絡(luò)創(chuàng)造了一種稱為區(qū)塊鏈的新技術(shù),它以中間人的作用減少我們作為社會最重要的角色的影響 ,允許人們以安全、可靠和不可改變的方式將獨特的數(shù)字財產(chǎn)或數(shù)據(jù)傳輸給其他人,這種技術(shù)可以創(chuàng)建數(shù)字貨幣(比特幣),這些數(shù)字貨幣不受任何政府機(jī)構(gòu)的支持。
第二,增加算法的透明度和責(zé)任
許多最先進(jìn)的基于機(jī)器學(xué)習(xí)的模型(例如神經(jīng)網(wǎng)絡(luò))一旦部署就充當(dāng)黑匣子,當(dāng)這些模型被用于決策時,對于為什么以及如何做出決定缺乏解釋。為了解決這個局限性,最近在機(jī)器學(xué)習(xí)領(lǐng)域的研究工作已經(jīng)提出了不同的方法來使算法更易于事前和事后檢查。例如,一些研究試圖通過引入識別的工具來解決算法中的歧視問題并糾正不必要的偏見。
第三,創(chuàng)建生活實驗室進(jìn)行試驗
作者建議建立生活實驗室以便在現(xiàn)實生活中測試想法和假設(shè)。例如移動領(lǐng)土實驗室(MTL),一個意大利電信基金會,MIT媒體實驗室和西班牙電信發(fā)起的生活實驗室,通過多種渠道觀察了超過三年的100個家庭的生活,已經(jīng)收集了來自多個來源的數(shù)據(jù),包括智能手機(jī),問卷調(diào)查,經(jīng)驗抽樣調(diào)查等,并用于創(chuàng)建研究參與者生活的多層次視圖。尤其是,社交互動(例如,通話和短信通信),流動程序和消費模式等已被捕獲。?MTL的目標(biāo)之一是設(shè)計個人數(shù)據(jù)存儲(PDS)技術(shù)共享個人數(shù)據(jù)的新方式,以促進(jìn)更多的公民參與。

綜上所述,在人工智能時代,我們不可避免的要接觸到各種數(shù)據(jù),借助這篇文章我們對數(shù)據(jù)算法有了一個基本了解,并意識到數(shù)據(jù)分析對現(xiàn)實生活和公共事務(wù)決策的重要性,但是數(shù)據(jù)算法的負(fù)面影響也不容忽視,只有不斷減小甚至消除數(shù)據(jù)算法的負(fù)面影響,才能避免數(shù)據(jù)暴政,走向依據(jù)數(shù)據(jù)算法的民主治理,這也需要我們法律人的共同努力。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)