日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數(shù)據(jù)治理平臺

睿治作為國內(nèi)功能最全的數(shù)據(jù)治理產(chǎn)品之一,入選IDC企業(yè)數(shù)據(jù)治理實(shí)施部署指南。同時(shí),在IDC發(fā)布的《中國數(shù)據(jù)治理市場份額》報(bào)告中,連續(xù)四年蟬聯(lián)數(shù)據(jù)治理解決方案市場份額第一。

張海鵬:另類數(shù)據(jù)挖掘在風(fēng)控中的應(yīng)用研究

時(shí)間:2022-03-18來源:正在讀取中瀏覽數(shù):224

分享嘉賓:張海鵬博士?上海科技大學(xué)

編輯整理:李冠 百維金科

出品平臺:DataFunTalk

導(dǎo)讀:所謂另類數(shù)據(jù),有別于普通或者常規(guī)的數(shù)據(jù),是那些比較小眾還沒有被大規(guī)模挖掘使用的數(shù)據(jù)。接下來我會給大家介紹另類數(shù)據(jù)挖掘在當(dāng)前工程、以及交叉領(lǐng)域的一些前沿進(jìn)展,最后還會給大家介紹我們課題組在風(fēng)險(xiǎn)建模方面的一些研究成果。

01何為另類數(shù)據(jù)挖掘(一個(gè)200年前的例子)

在19世紀(jì),倫敦爆發(fā)了一場非常嚴(yán)重的霍亂疫情,造成了四萬多人的死亡。當(dāng)時(shí)學(xué)界普遍認(rèn)為這場瘟疫的源頭是瘴氣,比如垃圾堆的氣體等。有一個(gè)年輕的醫(yī)生叫約翰·斯諾,他對這個(gè)觀點(diǎn)不是特別的認(rèn)同,因?yàn)樗?jīng)在在倫敦較為臟亂的環(huán)境中生活過,也接觸到了所謂的瘴氣,但是他發(fā)現(xiàn)他本人包括他周圍的人并沒有因此而感染霍亂。

約翰·斯諾當(dāng)時(shí)做了一個(gè)非常令人震撼的工作,他每家每戶的去走訪,去調(diào)研在每戶地址里面感染霍亂的人員數(shù)量,然后在相應(yīng)的地圖位置進(jìn)行記錄。大家可以看到下面這個(gè)圖上有一些黑色的條,一個(gè)條代表一個(gè)感染的病例,這個(gè)條越高,就代表地址的病例越多,一張霍亂傳染病的疫情地圖就這樣繪制出來了。

這個(gè)圖在現(xiàn)在司空見慣,但是在當(dāng)時(shí)是非常領(lǐng)先的,他把感染數(shù)據(jù)和地圖數(shù)據(jù)融合在了一起,試圖通過這樣一個(gè)數(shù)據(jù)挖掘和可視化的方式,去找到疫情的來源。通過這個(gè)疫情地圖,他發(fā)現(xiàn)感染的中間核心區(qū)域有一個(gè)水泵。周圍的居民都會從水泵去取水,然后他就懷疑是這個(gè)水泵受到了污染。約翰·斯諾就向倫敦市政府建議,把這個(gè)水泵拆掉,這樣民眾只能從其他的地方去取水。之后很快這塊街區(qū)的疫情就得到了遏制。

在19世紀(jì),倫敦的生活用水和生活污水沒有做很好的隔離,可能會出現(xiàn)飲用水被污染的情況,所以約翰·斯諾也因此向倫敦市政府建議去修建地下的下水道系統(tǒng)。從某種程度上來說,這樣一個(gè)另類數(shù)據(jù)挖掘的工作,也推動了社會的進(jìn)步。

02當(dāng)前另類數(shù)據(jù)挖掘(Nature:與人類辯論的AI)

另類數(shù)據(jù)挖掘發(fā)展到今天,已經(jīng)可以去做一些人類能做的事情,甚至在某種程度上,它可以去超越人類,大家可能比較熟悉的例子是之前谷歌的AlphaGo。今天給大家分享一個(gè)例子,是刊登在2021年3月18號自然雜志上的封面文章,叫做Debater,一個(gè)人工智能的辯論系統(tǒng),能夠和人類的辯手展開真實(shí)的辯論賽。

這個(gè)項(xiàng)目歷時(shí)十年,中國、美國、以色列三個(gè)國家,大概有四五十的科學(xué)家投入研發(fā)出這樣一個(gè)系統(tǒng),我當(dāng)時(shí)也非常有幸參與到了這個(gè)項(xiàng)目中。以下是當(dāng)時(shí)媒體對Debater的一個(gè)報(bào)道圖片,就是中間這個(gè)黑色東西,在它的右側(cè)是一個(gè)人類辯論冠軍,他們展開了一場辯論。

Debater用到了深度學(xué)習(xí)技術(shù),自然語言處理技術(shù),和自然語音生成技術(shù),當(dāng)然還有數(shù)據(jù)挖掘的技術(shù)。這個(gè)系統(tǒng)主要用到了兩方面數(shù)據(jù):

新聞文本加上維基百科。他們希望能夠在這樣的數(shù)據(jù)里面,挖掘出相應(yīng)的論點(diǎn)和論據(jù),然后組成可以用于辯論的材料。下圖左邊這個(gè)模塊里面有一個(gè)工作叫做Wikification,用于把新聞文本變成類似于維基百科那樣的一個(gè)鏈接式的知識庫。通過命名實(shí)體識別(NER),找到這些關(guān)鍵的信息,和現(xiàn)成的知識庫(例如維基百科)進(jìn)行關(guān)聯(lián)。我當(dāng)時(shí)參與了其中去歧義的部分工作,比如找到了一個(gè)關(guān)鍵詞:蘋果,那它指的是蘋果手機(jī)還是吃的蘋果,需要進(jìn)行分析辨別。

歷史人類辯論賽的數(shù)據(jù)記錄。他們希望通過挖掘這樣的歷史辯論記錄,能夠提從中提取出辯論的套路,讓機(jī)器了解到如何去開展一個(gè)辯論。把這個(gè)辯論的論點(diǎn)和論據(jù)結(jié)合的套路,形成了自己的辯論內(nèi)容,這個(gè)也是系統(tǒng)相對比較重要的部分。

03另類數(shù)據(jù)與交叉研究(Science:衛(wèi)星數(shù)據(jù)與貧困)

在經(jīng)濟(jì)金融研究方面,另類數(shù)據(jù)挖掘也是有著令人激動的一些進(jìn)展。下面給大家介紹一篇文章,來自于斯坦福大學(xué)的團(tuán)隊(duì)16年發(fā)表在Science雜志上,他們用衛(wèi)星圖片數(shù)據(jù)去預(yù)測一些經(jīng)濟(jì)指標(biāo)。他們的研究背景是想去消除貧困的人口,或者是對全世界上這些貧困的人口,進(jìn)行相應(yīng)的幫助和扶貧。

但是因?yàn)樨毨У膰业臄?shù)據(jù)工作不是很健全,導(dǎo)致可靠的貧困相關(guān)數(shù)據(jù)的缺失,無法去精準(zhǔn)地制定扶貧政策,給人類的扶貧造成了一些困難。科學(xué)家就通過一些另類數(shù)據(jù)挖掘,試圖去擬合出真實(shí)的貧困的情況。

他們主要的想法就是用衛(wèi)星圖片的公開數(shù)據(jù)建立模型,去預(yù)測貧困的指標(biāo)。通過衛(wèi)星拍攝地表的情況,通過計(jì)算機(jī)視覺的各種手段(CNN)得到它相對低維的一個(gè)特征表示,比如樓房的密度、荒蕪的程度等,把這樣的一些信息特征X聚合起來,再和這些代表貧困的一些經(jīng)濟(jì)指標(biāo)Y進(jìn)行關(guān)聯(lián),訓(xùn)練模型。

但這些Y標(biāo)簽其實(shí)是不具備的。因?yàn)閷τ诓煌膰遥腉DP的數(shù)據(jù)不一定可以直接比較,而且GDP的分辨率也不高,只能精細(xì)到國家的級別,但是他們甚至想知道某一個(gè)城市甚至城市里某一個(gè)區(qū)域的級別,這個(gè)時(shí)候GDP的數(shù)據(jù)可能就幫不上忙,而且GDP的數(shù)據(jù)可能要一年才能更新一次。

后來他們找到了一個(gè)代替品,“夜晚的光照強(qiáng)度”,這個(gè)數(shù)據(jù)實(shí)際上也是來自于衛(wèi)星照片,因?yàn)橐恍┭芯恳呀?jīng)發(fā)現(xiàn),夜晚的光照強(qiáng)度和當(dāng)?shù)氐慕?jīng)濟(jì)發(fā)展水平有比較強(qiáng)的正相關(guān)性。它有很好的連續(xù)性,相對客觀而且是可比較的。這樣的衛(wèi)星數(shù)據(jù),甚至可以做到一天就能更新一次,是一個(gè)非常精細(xì)和客觀的代替指標(biāo)。

但夜晚的光照強(qiáng)度,沒有辦法直接用來估計(jì)貧困指標(biāo)。如下圖所示,橫軸是不同地方每天的平均資源消耗,縱軸就是夜晚光照強(qiáng)度。可以看到在中間它擬合的情況還可以,誤差相對較小;但是頭尾兩側(cè)的誤差其實(shí)是很大的;其實(shí)也可以理解,因?yàn)樨毨У暮吞貏e貧困的地區(qū),夜晚一般都是黑的;富裕的和特別富裕的地區(qū),都是最亮的;所以在兩種極端的情況下,它沒有特別好的區(qū)分度,但是在中間它有比較好的擬合效果。

然后他們就用中間這段數(shù)據(jù),關(guān)聯(lián)上之前的X特征(樓房的密度、區(qū)域開發(fā)程度等),訓(xùn)練了一個(gè)模型,拿這個(gè)模型去預(yù)測了非洲五個(gè)國家的貧困指標(biāo),效果確實(shí)很好,如下圖所示。他們通過這個(gè)方式,彌補(bǔ)了貧困國家在調(diào)研數(shù)據(jù)方面的不足,可以幫助更好地去做扶貧工作。

04另類數(shù)據(jù)與風(fēng)險(xiǎn)(二級市場風(fēng)險(xiǎn)捕捉與建模)

下面來看一下我們課題組在對另類數(shù)據(jù)的利用,以及對風(fēng)險(xiǎn)監(jiān)管方面的一些工作。這里的風(fēng)險(xiǎn)主要是針對的二級市場,比如股票市場的風(fēng)控和建模。主要會介紹兩個(gè)工作。

1.突發(fā)風(fēng)險(xiǎn)事件的監(jiān)測和市場監(jiān)管

近些年國際上經(jīng)常會發(fā)生一些突然的風(fēng)險(xiǎn)事件,比如說大家印象深刻的911事件,還有2011年的福島核泄露等,這些事件發(fā)生之后,對于當(dāng)?shù)匾约叭虻慕鹑谑袌龆荚斐闪朔浅4蟮臎_擊。據(jù)我們的統(tǒng)計(jì),從2000年以來,全球每年都會有超過6500起的恐怖襲擊,178次以上的大型地震,還有一些其他的自然災(zāi)害,所以它并不是一個(gè)偶發(fā)的事件。

所以我們能不能及時(shí)地去發(fā)現(xiàn)這樣的風(fēng)險(xiǎn)事件,從信息源里面去提取事件的主要信息,然后通過我們掌握的信息,去實(shí)時(shí)地預(yù)測這個(gè)事件對市場產(chǎn)生的影響,主要分為以下兩個(gè)步驟:

市場模型的建立。這個(gè)模型的輸入就是發(fā)生的風(fēng)險(xiǎn)事件及其主要信息特征,輸出就是市場根據(jù)這樣的事件會產(chǎn)生什么樣的反應(yīng),是下跌以及下跌多少這樣一個(gè)具體的反應(yīng)。這一部分我們主要依賴于歷史事件數(shù)據(jù)庫,因?yàn)閷τ谧匀粸?zāi)害,包括像剛剛提到的恐怖襲擊,有非常詳實(shí)的歷史數(shù)據(jù)。我們可以利用歷史數(shù)據(jù)以及更詳實(shí)的市場行情數(shù)據(jù)去建立我們的預(yù)測模型。在模型的選擇上,常見的機(jī)器學(xué)習(xí)模型都可以放在里面去使用。

事件的實(shí)時(shí)發(fā)現(xiàn)。因?yàn)閯偛盘岬降臍v史的事件庫,其實(shí)不是實(shí)時(shí)的,它可能是有非常長的一個(gè)時(shí)間差的,比如說我今年才能拿到去年的歷史數(shù)據(jù),那么對于市場的預(yù)測來說,這樣的時(shí)間太長了。這部分我們主要是通過對實(shí)時(shí)新聞的分類及信息提取,先抽取了三個(gè)大類別恐襲,自然災(zāi)害,傳染病,及其相對應(yīng)的12個(gè)小類別,它們具體的信息,包括時(shí)間,地點(diǎn),傷亡人數(shù)等信息。接下來我們把這個(gè)實(shí)時(shí)事件的主要信息輸入到市場模型里面,它會告訴我們下一步市場會怎么樣,具體走勢會是怎么樣。

然后我們希望能夠從多個(gè)角度去描摹捕獲到的這些事件,所以里面還使用到了之前提到的夜晚光照數(shù)據(jù)。因?yàn)閺闹庇X上來想,如果說兩個(gè)造成了同樣傷亡的類似風(fēng)險(xiǎn)事件,但是一個(gè)發(fā)生在相對發(fā)達(dá)的地區(qū),另外一個(gè)發(fā)生在不那么發(fā)達(dá)的地區(qū),那么這兩個(gè)事件對于金融市場的影響可能是不一樣的,所以我們就希望通過夜光的數(shù)據(jù)去對不同經(jīng)濟(jì)發(fā)展水平的地點(diǎn)做描摹。

我們選定了一個(gè)特定的事件:恐襲。然后選定了三個(gè)觀測的國家:以色列,西班牙,還有哥倫比亞,因?yàn)樗麄冇斜容^健全的金融系統(tǒng),并且這些國家每年還是會遭受恐襲的侵?jǐn)_。我們使用馬里蘭大學(xué)建立的GTD開源數(shù)據(jù)庫,它收錄了1970年至今全球恐怖襲擊的信息,具體包括了135個(gè)事件相關(guān)的特征。接下來我們采用了路透社的新聞數(shù)據(jù),大概在900多萬的量級。我們通過這個(gè)數(shù)據(jù)去模擬實(shí)時(shí)獲取的新聞,然后進(jìn)行事件的發(fā)現(xiàn)和抽取。

在做模型之前,我們通過一些數(shù)據(jù)的分析,發(fā)現(xiàn)當(dāng)市場下跌越多的日子中,發(fā)現(xiàn)它發(fā)生恐怖襲擊的比例就越高。如下圖所示,B這個(gè)點(diǎn),它所表示的就是所有市場跌幅超過3.4%的日子里面,有10.3%的比例發(fā)生了恐怖襲擊;當(dāng)市場的跌幅更大,我們看到A這個(gè)點(diǎn),當(dāng)市場的跌幅都超過4.1%的話,對于這些日子而言,發(fā)生了恐怖襲擊的概率有12.9%,所以我們就發(fā)現(xiàn)恐怖襲擊對市場確實(shí)存在影響。

通過分析,還發(fā)現(xiàn)經(jīng)濟(jì)越發(fā)達(dá)的地方發(fā)生恐襲,它就越可能發(fā)生市場的下跌呢。從下面這個(gè)圖上,我們也可以看到A這個(gè)點(diǎn),它表明的就是夜光100以上的地點(diǎn),發(fā)生恐襲的話,會有49.3%的概率市場會發(fā)生下跌;當(dāng)我們看到經(jīng)濟(jì)更發(fā)達(dá)的地方就是B這個(gè)點(diǎn),對于夜光強(qiáng)度230以上的地區(qū)來說,如果說它們發(fā)生恐襲,將有53%的概率市場會發(fā)生下跌。所以說也說明了夜光數(shù)據(jù)在這個(gè)問題上的影響。

接下來就是具體的實(shí)驗(yàn)了,我們用了各種分類模型,模型準(zhǔn)確率最高做到了接近70%。最后采用的是決策樹模型,因?yàn)閺慕忉屝缘慕嵌龋瑳Q策樹模型它會有更好的表現(xiàn)。它可以告訴我們機(jī)器做出這樣的判斷,具體的原因是什么。黑箱模型往往只要做對就好,不負(fù)責(zé)解釋原因。一旦出現(xiàn)問題,我們很難在很短的時(shí)間內(nèi)進(jìn)行故障排查。

2.國際政要的推文與市場預(yù)測

課題背景:越來越多的國際政要,他們會使用社交媒體進(jìn)行發(fā)言。他們的發(fā)言對于國際局勢的研判,包括金融市場的方向,有著非常重要的意義。

美國的前總統(tǒng)特朗普,他發(fā)表了大量的推文,當(dāng)時(shí)有著超過6000萬的關(guān)注者。他有時(shí)候會表達(dá)對某一些公司及其產(chǎn)品的看法,比如他對一個(gè)美國的軍火商發(fā)牢騷,覺得他們的戰(zhàn)機(jī)成本太高了,該軍火商的市值就應(yīng)聲下跌;在他執(zhí)政的中后期,非常關(guān)注和中國的關(guān)系,推文中有很多關(guān)于中國的內(nèi)容,就在19年的時(shí)候,他發(fā)表了很多關(guān)于中國,尤其是涉及中美關(guān)稅的內(nèi)容,當(dāng)時(shí)確實(shí)對全球市場造成了一些擾動。

但一個(gè)人是非常難以快速全面的去了解并處理這些推文,那么是不是能夠用機(jī)器去做這個(gè)事情,機(jī)器了解了推文內(nèi)容之后,再自動的去判定推文對市場會產(chǎn)生什么樣的影響?我們就據(jù)此列了幾個(gè)研究的問題,推文的背景信息是什么?是什么原因讓他去發(fā)了這條推文?以及推文后續(xù)會產(chǎn)生的影響等等。

我們擬定的一個(gè)研究框架,實(shí)際上它的大體思路和我們之前提到的辯論系統(tǒng),有一些相似之處。一條推文過來,我們會先對它進(jìn)行一個(gè)命名實(shí)體識別,知道它里面有哪些關(guān)鍵的實(shí)體詞語,這些實(shí)體詞又和維基百科相應(yīng)的概念是如何去產(chǎn)生對應(yīng)的,做一個(gè)實(shí)體的鏈接,進(jìn)行知識的補(bǔ)充。然后我們也會對推文做一些情感分析,識別它是正面、負(fù)面還是中性的推文。接著我們會用外部的新聞和推文做一個(gè)關(guān)聯(lián),尤其是他情緒的一些新聞。我們通過這樣的關(guān)聯(lián)可以去找到他發(fā)表這條推文可能的原因,中間也涉及到一些因果推理的工作。基于這個(gè)基礎(chǔ)上,我們希望能夠把推文的解讀和市場行情的變化產(chǎn)生關(guān)聯(lián),從而能夠?qū)κ袌龅娘L(fēng)險(xiǎn)產(chǎn)生一些預(yù)警,當(dāng)然這還是在進(jìn)展中的一個(gè)工作。

05簡單的回顧

今天聊到了什么是另類數(shù)據(jù),什么是另類的數(shù)據(jù)挖掘,也講了一個(gè)200年之前的例子,隨后我們介紹了最新的研究及工程上的一些進(jìn)展,在后面還介紹了我們課題組在數(shù)據(jù)挖掘和市場風(fēng)險(xiǎn)建模之中的一些工作。希望這些內(nèi)容能夠起到拋磚引玉的作用。非常期待和大家做更深入的交流,也希望大家能夠通過對另類數(shù)據(jù)的挖掘,找到至關(guān)重要的“水泵”,從而推動手上的工作,甚至是人類社會的進(jìn)步。

今天的分享就到這里,謝謝大家。

在文末分享、點(diǎn)贊、在看,給個(gè)3連擊唄~

分享嘉賓:

免費(fèi)福利:

互聯(lián)網(wǎng)核心應(yīng)用算法寶藏書PPT電子版下載!

大數(shù)據(jù)典藏版合集PPT電子書下載!

活動推薦:

關(guān)于我們:

DataFun:專注于大數(shù)據(jù)、人工智能技術(shù)應(yīng)用的分享與交流。發(fā)起于2017年,在北京、上海、深圳、杭州等城市舉辦超過100+線下和100+線上沙龍、論壇及峰會,已邀請近1000位專家和學(xué)者參與分享。其公眾號 DataFunTalk 累計(jì)生產(chǎn)原創(chuàng)文章500+,百萬+閱讀,13萬+精準(zhǔn)粉絲。

分享、點(diǎn)贊、在看,給個(gè)3連擊唄!

(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)
立即申請數(shù)據(jù)分析/數(shù)據(jù)治理產(chǎn)品免費(fèi)試用 我要試用
customer

在線咨詢

在線咨詢

點(diǎn)擊進(jìn)入在線咨詢