前言
知識圖譜在金融科技時(shí)代發(fā)揮了巨大的價(jià)值,知識圖譜的推理能力和可解釋性,在金融場景中具有天然的優(yōu)勢。利用知識圖譜等人工智能技術(shù)從數(shù)據(jù)中提煉出知識,并通過算法等方式建模服務(wù)于應(yīng)用。知識圖譜憑借其強(qiáng)大的語義表達(dá)能力、存儲能力和推理能力,為互聯(lián)網(wǎng)時(shí)代的數(shù)據(jù)知識化組織和智能應(yīng)用提供了有效的解決方案。小普今天分享一篇企業(yè)關(guān)聯(lián)關(guān)系知識圖譜構(gòu)建與應(yīng)用實(shí)踐,展示了從圖譜構(gòu)建到應(yīng)用的全流程。基于企業(yè)關(guān)聯(lián)關(guān)系知識圖譜,實(shí)現(xiàn)了
關(guān)聯(lián)路徑查詢、企業(yè)實(shí)際控制人發(fā)現(xiàn)、企業(yè)集團(tuán)發(fā)現(xiàn)等模型應(yīng)用,為企業(yè)挖掘隱藏的企業(yè)關(guān)聯(lián)關(guān)系提供有效思路。
本文從數(shù)據(jù)挖掘業(yè)務(wù)的視角下,解答以下幾個(gè)問題,希望給予小伙伴一些新思路,一起往下看吧。
1、為什么需要企業(yè)關(guān)聯(lián)關(guān)系知識圖譜?
2、構(gòu)建企業(yè)關(guān)聯(lián)關(guān)系知識圖譜需要哪些數(shù)據(jù)?
3、如何關(guān)聯(lián)實(shí)體、關(guān)系和屬性?
4、企業(yè)關(guān)聯(lián)關(guān)系應(yīng)用實(shí)例
FLOW
企業(yè)關(guān)聯(lián)關(guān)系知識圖譜構(gòu)建流程
一、前期準(zhǔn)備:業(yè)務(wù)需求定位。
知識圖譜的構(gòu)建應(yīng)是業(yè)務(wù)應(yīng)用驅(qū)動的。本次的業(yè)務(wù)目標(biāo):通過構(gòu)建企業(yè)知識圖譜,深入挖掘企業(yè)在生產(chǎn)經(jīng)營過程中與其他企業(yè)之間產(chǎn)生的各類關(guān)聯(lián)關(guān)系,有效的實(shí)現(xiàn)企業(yè)的風(fēng)險(xiǎn)預(yù)警。這對企業(yè)降低資本成本、優(yōu)化企業(yè)內(nèi)部治理、提升企業(yè)價(jià)值具有實(shí)際意義。
例如:某基金公司通過股權(quán)分析進(jìn)行判斷,當(dāng)市場出現(xiàn)波動時(shí),某個(gè)企業(yè)是否與資本系大多數(shù)公司的行為一致,根據(jù)市場判斷,及時(shí)的進(jìn)行內(nèi)部調(diào)整。
做知識圖譜之前,我們考慮了投入產(chǎn)出比,明確需求,要解決什么樣的業(yè)務(wù)問題,以及評估技術(shù)的可行性。從具體業(yè)務(wù)出發(fā),獲取的企業(yè)數(shù)據(jù),一般僅僅用內(nèi)部記錄的數(shù)據(jù)表格就可以看出直接關(guān)系,而關(guān)聯(lián)路徑查詢、企業(yè)實(shí)際控制人發(fā)現(xiàn)、企業(yè)集團(tuán)發(fā)現(xiàn)等,需要基于構(gòu)建好的企業(yè)大圖,進(jìn)行復(fù)雜計(jì)算之后才能得到。
二、前期準(zhǔn)備:數(shù)據(jù)預(yù)處理。
在這個(gè)步驟,我們需要解決的問題是:
??????? 我們已經(jīng)有哪些數(shù)據(jù)?和有可能拿到哪些數(shù)據(jù)?
??????? 哪部分?jǐn)?shù)據(jù)可以用來分析具體業(yè)務(wù)問題?
??????? 哪部分?jǐn)?shù)據(jù)可以用來構(gòu)建知識圖譜?哪些信息不需要放在知識圖譜中?
我們的技術(shù)專家與業(yè)務(wù)專家根據(jù)業(yè)務(wù)目標(biāo)的設(shè)定進(jìn)行深入溝通后,從金融機(jī)構(gòu)獲得數(shù)據(jù)源,包括存儲在其內(nèi)部關(guān)系數(shù)據(jù)庫中的相關(guān)表(公司注冊信息表、企業(yè)人員信息表、企業(yè)狀態(tài)信息表、關(guān)聯(lián)企業(yè)信息表)。我們首先將無用字段和一些存在較多空數(shù)據(jù)的字段去除掉。
公示平臺的數(shù)據(jù)包含企業(yè)公示的所有工商信息、人員信息和信用信息,因此其數(shù)據(jù)的完整性和可靠性能夠支撐本文的知識圖譜,能夠反映一段時(shí)間內(nèi)企業(yè)關(guān)系網(wǎng)絡(luò)的真實(shí)狀態(tài)。此外,現(xiàn)實(shí)世界的企業(yè)之間還存在競爭、合作、上下游、家族企業(yè)等關(guān)系,本文暫且先不做闡述。
三、開始圖譜構(gòu)建:本體模型定義。
在這個(gè)步驟,我們需要解決的問題是:
?? ?該業(yè)務(wù)場景需要哪些實(shí)體、關(guān)系和屬性?
現(xiàn)實(shí)世界的企業(yè)關(guān)系網(wǎng)絡(luò)遠(yuǎn)遠(yuǎn)非常龐大且復(fù)雜,建立一個(gè)包含大量企業(yè)關(guān)聯(lián)關(guān)系的知識庫也是十分具有挑戰(zhàn)性的。
通過對數(shù)據(jù)表的字段定義和它們之間關(guān)系的分析,從而確定了實(shí)體、關(guān)系和屬性。其中包含公司和個(gè)人兩種實(shí)體,公司之間的 4 種直接關(guān)系(股東、投資、擔(dān)保、分支),公司與個(gè)人之間的 5 種直接關(guān)系(股東、投資、擔(dān)保、高管、聯(lián)系人),如表 1 和表 2 所示。可實(shí)現(xiàn)對企業(yè)關(guān)聯(lián)關(guān)系的挖掘,得到企業(yè)實(shí)際控制人、企業(yè)所屬集團(tuán)這兩種更深層的關(guān)聯(lián)關(guān)系。

表 1

表 2
然后我們將這些整理好的數(shù)據(jù),導(dǎo)入到已經(jīng)構(gòu)建好的業(yè)務(wù)本體模型當(dāng)中。圖 3 展示了知識圖譜本體模式層的一部分,包含代表公司和個(gè)人的節(jié)點(diǎn),代表企業(yè)之間的分支、股東、擔(dān)保、投資等關(guān)系的邊,代表個(gè)人與公司之間的高管、股東、投資、聯(lián)系人、擔(dān)保等關(guān)系的邊,以及節(jié)點(diǎn)和邊中包含的部分屬性,其他大量屬性如企業(yè)工商信息、個(gè)人信息等出于簡潔的考慮,并未在圖 3 中顯示。

圖3
四、知識圖譜的模型應(yīng)用:關(guān)聯(lián)關(guān)系挖掘。
關(guān)聯(lián)關(guān)系挖掘就是在現(xiàn)有知識圖譜上進(jìn)行知識查詢與知識發(fā)現(xiàn)的過程,即結(jié)合實(shí)際應(yīng)用場景,從現(xiàn)有實(shí)體的關(guān)聯(lián)關(guān)系中識別和推斷出新的關(guān)系。
由于構(gòu)建好的知識圖譜,只是對現(xiàn)實(shí)世界的企業(yè)關(guān)系網(wǎng)絡(luò)的知識表示,其本身并不能直觀地反映企業(yè)之間存在的隱式關(guān)聯(lián)關(guān)系。因此需要基于現(xiàn)有的企業(yè)關(guān)聯(lián)關(guān)系,設(shè)置推理規(guī)則、指標(biāo)和模型等。從而發(fā)現(xiàn)企業(yè)之間隱藏的關(guān)聯(lián)關(guān)系,最后構(gòu)建了關(guān)聯(lián)路徑查詢、企業(yè)實(shí)際控制人發(fā)現(xiàn)、企業(yè)集團(tuán)發(fā)現(xiàn)這三種關(guān)系挖掘模型。
場景應(yīng)用:關(guān)聯(lián)路徑查詢
企業(yè)之間的直接關(guān)系能夠在知識圖譜中直觀表示出來,但是當(dāng)一家企業(yè)與大量其他企業(yè)產(chǎn)生聯(lián)系時(shí),間接的關(guān)聯(lián)關(guān)系廣泛存在卻難以被發(fā)現(xiàn)。如何對看似割裂、但實(shí)際存在間接關(guān)聯(lián)的兩個(gè)實(shí)體進(jìn)行關(guān)聯(lián)關(guān)系挖掘,對于企業(yè)關(guān)系發(fā)現(xiàn)、風(fēng)險(xiǎn)傳播預(yù)測等有重要的意義。
如圖 4?所示,指定的個(gè)人節(jié)點(diǎn) P1 與企業(yè)節(jié)點(diǎn) D 之間是否存在路徑?需要找到源節(jié)點(diǎn)與目標(biāo)節(jié)點(diǎn)之間的直接或間接路徑,即任意兩個(gè)節(jié)點(diǎn)之間的關(guān)聯(lián)路徑問題。

圖4 藍(lán)色代表公司,黃色代表人
兩個(gè)實(shí)體之間經(jīng)過多個(gè)中間節(jié)點(diǎn)形成的關(guān)聯(lián)路徑,可以表示為它們之間的間接關(guān)聯(lián)關(guān)系。對于實(shí)現(xiàn)業(yè)務(wù)目標(biāo)來說:關(guān)聯(lián)路徑查詢能夠發(fā)現(xiàn)企業(yè)知識圖譜中任意兩個(gè)實(shí)體之間存在的路徑,可以衡量企業(yè)之間聯(lián)系的密切程度,發(fā)現(xiàn)可能存在的風(fēng)險(xiǎn)問題。以圖 4 為例,查詢 P2 和 C 之間的關(guān)聯(lián)路徑,其查詢結(jié)果如圖 5 所示,可以看出 P2 和 C 之間存在的聯(lián)系。關(guān)聯(lián)路徑查詢的算法如下所示。

圖5?藍(lán)色代表公司,黃色代表人
? 場景應(yīng)用:企業(yè)實(shí)際控制人發(fā)現(xiàn)
資本成本是衡量企業(yè)是否要進(jìn)行籌資以及如何進(jìn)行籌資的標(biāo)準(zhǔn)。在現(xiàn)代企業(yè)體系下,由于企業(yè)的控制權(quán)受到股權(quán)、協(xié)議或者其他安排等因素的影響,導(dǎo)致公司的實(shí)際控制人很難被發(fā)現(xiàn)。并且,存在股東簽訂的協(xié)議或者其他安排導(dǎo)致公司控制權(quán)變更的情況,且相關(guān)數(shù)據(jù)獲取困難。因此,研究實(shí)際控制人的所有權(quán)比例、控制權(quán)比例以及兩權(quán)的分離度與企業(yè)資本成本之間產(chǎn)生的關(guān)系是有意義的。
如圖 6 所示,通過計(jì)算持股比例,判斷個(gè)人節(jié)點(diǎn)P1 是否實(shí)際控制了公司節(jié)點(diǎn)C ?需要判斷一家公司或者一個(gè)人是否通過多數(shù)的股權(quán)比例對另一家公司形成控制權(quán),即公司實(shí)際控制人的發(fā)現(xiàn)問題。

圖6?藍(lán)色代表公司,黃色代表人
筆者在知識圖譜中采用圖的深度優(yōu)先遍歷算法,基于股東關(guān)系,找到指定公司被持股的所有路徑。然后分別計(jì)算每一條路徑上的最上層的股東節(jié)點(diǎn)對其的持股比例,通過加法運(yùn)算和比較,得到最終持股比例超過某個(gè)值 X 的最上層股東,即為該公司的實(shí)際控制人。
? 場景應(yīng)用:企業(yè)所屬集團(tuán)發(fā)現(xiàn)
企業(yè)集團(tuán)整體的持股結(jié)構(gòu)一般呈現(xiàn)金字塔式或者圍繞式的結(jié)構(gòu)。在本文的企業(yè)知識圖譜中,企業(yè)之間的股東、分支關(guān)系,個(gè)人與企業(yè)之間的股東、高管和聯(lián)系人關(guān)系是組成企業(yè)集團(tuán)的聯(lián)系。

圖7?藍(lán)色代表公司,黃色代表人
企業(yè)集團(tuán)其緊密的組織結(jié)構(gòu)和統(tǒng)一的管理模式,可以保證整個(gè)集團(tuán)的規(guī)模經(jīng)濟(jì)和整體競爭力。另一方面,存在以下幾種潛在威脅:
集團(tuán)內(nèi)部帶來了“牽一發(fā)而動全身”的潛在風(fēng)險(xiǎn),增加經(jīng)濟(jì)市場不穩(wěn)定因素。
金融或監(jiān)管機(jī)構(gòu)失去對相互擔(dān)保、交叉持股等高風(fēng)險(xiǎn)行為的監(jiān)管和判斷。
企業(yè)集團(tuán)的邊界通常難以被界定,一些集團(tuán)核心企業(yè)通過長投資、長控股鏈條以及外派高管、家族經(jīng)營等方式控制外圍公司。這些公司很容易被認(rèn)為是獨(dú)立運(yùn)營的個(gè)體。
因此,找到企業(yè)的所屬集團(tuán),可以根據(jù)集團(tuán)成員公司的生產(chǎn)經(jīng)營狀態(tài)判斷整個(gè)集團(tuán)的業(yè)務(wù)活動,或者根據(jù)集團(tuán)核心企業(yè)的經(jīng)營活動從而判斷其他企業(yè)成員的行為,這對及早地發(fā)現(xiàn)企業(yè)集團(tuán)的潛在風(fēng)險(xiǎn),對企業(yè)集團(tuán)做出更有效的監(jiān)管具有重要的意義。
通過算法,沿著一條股權(quán)控制路徑找到企業(yè)的實(shí)際控制人,然后通過實(shí)際控制人的所有股權(quán)控制路徑找到其他控股企業(yè),形成一個(gè)股權(quán)控制骨架。在此過程中,當(dāng)實(shí)際控制人控制的具有獨(dú)立法律地位的企業(yè)數(shù)量達(dá)到閾值時(shí),則認(rèn)為其可以構(gòu)成企業(yè)集團(tuán)。

圖8
如圖 8 ,是在知識圖譜中得到的部分企業(yè)集團(tuán)概況,中間節(jié)點(diǎn)為公司,發(fā)散開的節(jié)點(diǎn)為個(gè)人,可以看出企業(yè)集團(tuán)都是以某個(gè)公司或個(gè)人為核心形成的。通過企業(yè)所屬集團(tuán)發(fā)現(xiàn),可以快速定位企業(yè)所屬集團(tuán),以及該企業(yè)在集團(tuán)內(nèi)部的地位,這對分析企業(yè)風(fēng)險(xiǎn)傳播路徑、企業(yè)集團(tuán)經(jīng)營活動有很大的幫助。
CONCLUSION
總結(jié)
本次小普介紹了,基于現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù),用自底向上的方式構(gòu)建了一個(gè)企業(yè)關(guān)聯(lián)關(guān)系知識圖譜。并在此基礎(chǔ)上對企業(yè)之間的關(guān)聯(lián)關(guān)系進(jìn)行挖掘分析,實(shí)現(xiàn)了關(guān)聯(lián)路徑查詢、企業(yè)實(shí)際控制人發(fā)現(xiàn)以及企業(yè)集團(tuán)發(fā)現(xiàn)等模型應(yīng)用。
在實(shí)際業(yè)務(wù)中可實(shí)現(xiàn)的關(guān)系還可以包括:企業(yè)的上下游關(guān)系、技術(shù)授權(quán)關(guān)系、產(chǎn)品銷售關(guān)系以及個(gè)人之間的夫妻、家族關(guān)系等,受到數(shù)據(jù)收集和處理難度的影響,并未加入到本文知識圖譜中。
(部分內(nèi)容來源網(wǎng)絡(luò),如有侵權(quán)請聯(lián)系刪除)