本發(fā)明涉及知識(shí)表達(dá)領(lǐng)域,尤其是一種基于對(duì)抗學(xué)習(xí)與標(biāo)簽傳播的時(shí)序知識(shí)圖譜中實(shí)體對(duì)齊方法。
背景技術(shù):
1、時(shí)序知識(shí)圖譜是一種包含時(shí)間信息的知識(shí)圖譜,它記錄了實(shí)體和關(guān)系隨時(shí)間的變化信息,在知識(shí)表達(dá)上具有清晰、簡(jiǎn)潔、易處理等特點(diǎn)。近年來(lái),時(shí)序知識(shí)圖譜在多個(gè)領(lǐng)域得到廣泛應(yīng)用,例如推薦系統(tǒng)、事件預(yù)測(cè)和問(wèn)答系統(tǒng)。絕大多數(shù)時(shí)序知識(shí)圖譜的應(yīng)用都需要進(jìn)行實(shí)體對(duì)齊。
2、現(xiàn)有的實(shí)體對(duì)齊方法主要分為兩類,一是基于文本描述的實(shí)體對(duì)齊方法,其利用實(shí)體的文本描述信息,例如實(shí)體名稱、描述等,通過(guò)文本相似度計(jì)算來(lái)進(jìn)行實(shí)體對(duì)齊。二是基于結(jié)構(gòu)信息的實(shí)體對(duì)齊方法,其利用實(shí)體在知識(shí)圖譜中的結(jié)構(gòu)信息,例如實(shí)體之間的關(guān)系、路徑等,通過(guò)結(jié)構(gòu)相似度計(jì)算來(lái)進(jìn)行實(shí)體對(duì)齊。然而,現(xiàn)有方法大多忽略了實(shí)體在時(shí)序知識(shí)圖譜中的動(dòng)態(tài)演化特征,同時(shí)未能解決實(shí)體度感知對(duì)實(shí)體對(duì)齊任務(wù)的影響,導(dǎo)致在處理時(shí)序知識(shí)圖譜中的實(shí)體對(duì)齊問(wèn)題時(shí),準(zhǔn)確率和魯棒性較低。
3、公開(kāi)號(hào)為cn115658927a的中國(guó)專利文獻(xiàn)提出了一種面向時(shí)序知識(shí)圖譜的無(wú)監(jiān)督實(shí)體對(duì)齊方法及裝置,其方法包括:獲取兩個(gè)時(shí)序知識(shí)圖譜,每個(gè)時(shí)序知識(shí)圖譜包括若干含有時(shí)間信息的四元組;根據(jù)每個(gè)時(shí)序知識(shí)圖譜中的實(shí)體和對(duì)應(yīng)的時(shí)間信息,通過(guò)圖卷積式前向傳遞的方式,構(gòu)建兩個(gè)時(shí)間特征矩陣,采用雙向策略生成兩個(gè)實(shí)體對(duì)齊矩陣,并以匹配的方式無(wú)監(jiān)督地獲得預(yù)對(duì)齊的偽標(biāo)簽;以時(shí)序知識(shí)圖譜的四元組為訓(xùn)練數(shù)據(jù)集、以預(yù)對(duì)齊的偽標(biāo)簽未訓(xùn)練數(shù)據(jù)標(biāo)簽,對(duì)利用時(shí)間信息擴(kuò)展后的圖神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到關(guān)系特征矩陣;采用加權(quán)方式融合關(guān)系特征矩陣和兩個(gè)時(shí)間特征矩陣,得到兩個(gè)時(shí)序知識(shí)圖譜之間的距離,并通過(guò)最小化距離,得到對(duì)應(yīng)的實(shí)體對(duì)齊矩陣,從而得到實(shí)體對(duì)齊結(jié)果。該方法存在以下不足:1、該方法通過(guò)圖卷積和時(shí)間特征矩陣來(lái)對(duì)齊實(shí)體,未能充分捕捉實(shí)體隨時(shí)間和關(guān)系的動(dòng)態(tài)變化,而實(shí)體會(huì)隨著時(shí)間和關(guān)系的推移發(fā)生變化,導(dǎo)致對(duì)齊結(jié)果不夠準(zhǔn)確。2、該方法采用雙向策略生成實(shí)體對(duì)齊矩陣,并使用這些對(duì)齊矩陣生成偽標(biāo)簽。則偽標(biāo)簽的質(zhì)量直接影響最終對(duì)齊結(jié)果的準(zhǔn)確性。如果生成的偽標(biāo)簽不夠準(zhǔn)確或不完整,可能會(huì)導(dǎo)致訓(xùn)練過(guò)程中生成的關(guān)系特征矩陣和最終的實(shí)體對(duì)齊結(jié)果受到負(fù)面影響。
4、公開(kāi)號(hào)為cn118690845a的中國(guó)專利文獻(xiàn)提出了一種模型訓(xùn)練方法、實(shí)體對(duì)齊方法、裝置、設(shè)備、介質(zhì)和產(chǎn)品。其實(shí)體對(duì)齊方法包括:獲取針對(duì)至少兩個(gè)知識(shí)圖譜的、實(shí)體預(yù)對(duì)齊的至少一個(gè)標(biāo)注樣本,其中,所述至少兩個(gè)知識(shí)圖譜中的知識(shí)圖譜是待實(shí)體對(duì)齊的知識(shí)圖譜;根據(jù)所述至少一個(gè)標(biāo)注樣本,生成針對(duì)第一初始實(shí)體對(duì)齊模型的第一損失信息和第一實(shí)體對(duì)齊信息;根據(jù)所述第一實(shí)體對(duì)齊信息,生成重分配標(biāo)簽集;根據(jù)所述重分配標(biāo)簽集,生成針對(duì)第二初始實(shí)體對(duì)齊模型的第二損失信息;根據(jù)所述第一損失信息和所述第二損失信息,執(zhí)行針對(duì)所述第一初始實(shí)體對(duì)齊模型和所述第二初始實(shí)體對(duì)齊模型的模型訓(xùn)練,以生成第一實(shí)體對(duì)齊模型和第二實(shí)體對(duì)齊模型。獲取至少兩個(gè)目標(biāo)知識(shí)圖譜;利用預(yù)先訓(xùn)練的第一實(shí)體對(duì)齊模型和第二實(shí)體對(duì)齊模型,執(zhí)行針對(duì)所述至少兩個(gè)目標(biāo)知識(shí)圖譜的實(shí)體對(duì)齊,得到實(shí)體對(duì)齊結(jié)果。該方法存在以下不足:1、需要分別訓(xùn)練兩個(gè)實(shí)體對(duì)齊模型,第二實(shí)體對(duì)齊模型依賴于第一實(shí)體對(duì)齊模型所重新分配的標(biāo)簽集,累積誤差被放大并引入到實(shí)體對(duì)齊結(jié)果中,影響實(shí)體對(duì)齊的準(zhǔn)確性。2、該方法完全依賴對(duì)標(biāo)注樣本的特征學(xué)習(xí),對(duì)齊準(zhǔn)確性嚴(yán)重依賴標(biāo)注樣本的標(biāo)簽質(zhì)量。3、該方法同樣未關(guān)注到實(shí)體隨時(shí)間和關(guān)系的動(dòng)態(tài)變化信息,實(shí)體對(duì)齊效果有待提高。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的發(fā)明目的在于:針對(duì)上述存在的全部或部分問(wèn)題,提供一種基于對(duì)抗學(xué)習(xí)與標(biāo)簽傳播的時(shí)序知識(shí)圖譜中實(shí)體對(duì)齊方法,用于提升實(shí)體對(duì)齊的準(zhǔn)確性和魯棒性。
2、本發(fā)明采用的技術(shù)方案如下:
3、一種基于對(duì)抗學(xué)習(xí)與標(biāo)簽傳播的時(shí)序知識(shí)圖譜中實(shí)體對(duì)齊方法,其包括:
4、對(duì)于待對(duì)齊的時(shí)序知識(shí)圖譜,分別從時(shí)序知識(shí)圖譜中實(shí)體與關(guān)系和時(shí)間的鄰接矩陣中,迭代學(xué)習(xí)含有關(guān)系和時(shí)間語(yǔ)義信息的實(shí)體標(biāo)簽,得到兩個(gè)時(shí)序知識(shí)圖譜的標(biāo)簽實(shí)體嵌入向量;
5、基于對(duì)抗學(xué)習(xí)分別消除各標(biāo)簽實(shí)體嵌入向量中實(shí)體的度感知,得到兩個(gè)時(shí)序知識(shí)圖譜的最終實(shí)體嵌入向量;
6、基于對(duì)預(yù)對(duì)齊的時(shí)序知識(shí)圖譜樣本中等價(jià)實(shí)體的半監(jiān)督學(xué)習(xí),在兩個(gè)所述最終實(shí)體嵌入向量間進(jìn)行實(shí)體對(duì)齊。
7、進(jìn)一步的,時(shí)序知識(shí)圖譜中實(shí)體與關(guān)系和時(shí)間的鄰接矩陣的構(gòu)建方法包括:
8、根據(jù)時(shí)序知識(shí)圖譜包含的{頭實(shí)體,關(guān)系,尾實(shí)體,時(shí)間戳}四元祖,構(gòu)建實(shí)體-關(guān)系鄰接矩陣和實(shí)體-時(shí)間鄰接矩陣,表示頭實(shí)體或尾實(shí)體的數(shù)量,表示關(guān)系的數(shù)量,表示時(shí)間戳的數(shù)量;
9、將實(shí)體-關(guān)系鄰接矩陣和實(shí)體-時(shí)間鄰接矩陣劃分為頭實(shí)體-關(guān)系鄰接矩陣、關(guān)系-尾實(shí)體鄰接矩陣、頭實(shí)體-尾實(shí)體鄰接矩陣、頭實(shí)體-時(shí)間戳鄰接矩陣和時(shí)間戳-尾實(shí)體鄰接矩陣。
10、進(jìn)一步的,所述迭代學(xué)習(xí)含有關(guān)系和時(shí)間語(yǔ)義信息的實(shí)體標(biāo)簽,包括:
11、在對(duì)所述預(yù)對(duì)齊的時(shí)序知識(shí)圖譜樣本的含有關(guān)系和時(shí)間語(yǔ)義信息的實(shí)體標(biāo)簽學(xué)習(xí)的基礎(chǔ)上,從待對(duì)齊的時(shí)序知識(shí)圖譜中實(shí)體與關(guān)系和時(shí)間的鄰接矩陣中,
12、分別迭代學(xué)習(xí)實(shí)體標(biāo)簽在關(guān)系層面和時(shí)間層面的標(biāo)簽向量;
13、對(duì)關(guān)系層面的標(biāo)簽向量和時(shí)間層面的標(biāo)簽向量進(jìn)行加權(quán)融合。
14、進(jìn)一步的,所述分別迭代學(xué)習(xí)實(shí)體標(biāo)簽在關(guān)系層面和時(shí)間層面的標(biāo)簽向量,包括:
15、關(guān)系層面的標(biāo)簽向量的傳播方法為:
16、,
17、;
18、式中,表示傳播層級(jí),表示實(shí)體在關(guān)系層面的標(biāo)簽矩陣,,表示在維超球面上進(jìn)行隨機(jī)采樣,表示關(guān)系的標(biāo)簽矩陣,表示點(diǎn)積,為零矩陣;
19、將在關(guān)系層面?zhèn)鞑サ乃袑拥臉?biāo)簽矩陣串聯(lián)得到實(shí)體標(biāo)簽在關(guān)系層面的標(biāo)簽向量;
20、時(shí)間層面的標(biāo)簽向量的傳播方法為:
21、,
22、;
23、式中,表示實(shí)體在時(shí)間層面的標(biāo)簽矩陣,,表示時(shí)間戳的標(biāo)簽矩陣,為零矩陣;
24、將在時(shí)間層面?zhèn)鞑サ乃袑拥臉?biāo)簽矩陣串聯(lián)得到實(shí)體標(biāo)簽在時(shí)間層面的標(biāo)簽向量。
25、進(jìn)一步的,所述基于對(duì)抗學(xué)習(xí)分別消除各標(biāo)簽實(shí)體嵌入向量中實(shí)體的度感知,為利用生成對(duì)抗網(wǎng)絡(luò)進(jìn)行消除;
26、所述生成對(duì)抗網(wǎng)絡(luò)利用所述預(yù)對(duì)齊的時(shí)序知識(shí)圖譜樣本訓(xùn)練得到,所述生成對(duì)抗網(wǎng)絡(luò)在訓(xùn)練時(shí),對(duì)所述預(yù)對(duì)齊的時(shí)序知識(shí)圖譜樣本中具有不同度感知類別的實(shí)體進(jìn)行消除度感知的對(duì)抗學(xué)習(xí);
27、所述生成對(duì)抗網(wǎng)絡(luò)包含生成器、第一判別器和第二判別器,所述生成器根據(jù)實(shí)體的標(biāo)簽實(shí)體嵌入向量生成對(duì)應(yīng)的最終標(biāo)簽實(shí)體向量,所述第一判別器對(duì)度感知為高度和中度的實(shí)體對(duì)應(yīng)的最終標(biāo)簽實(shí)體向量進(jìn)行分類,所述第二判別器對(duì)度感知為中度和低度的實(shí)體對(duì)應(yīng)的最終標(biāo)簽實(shí)體向量進(jìn)行分類;
28、所述生成對(duì)抗網(wǎng)絡(luò)在訓(xùn)練后,利用生成器根據(jù)待對(duì)齊的時(shí)序知識(shí)圖譜中實(shí)體的標(biāo)簽實(shí)體嵌入向量生成對(duì)應(yīng)的最終標(biāo)簽實(shí)體向量。
29、進(jìn)一步的,對(duì)所述預(yù)對(duì)齊的時(shí)序知識(shí)圖譜樣本中實(shí)體的度感知類別的分類方法包括:
30、將時(shí)序知識(shí)圖譜中,度感知高于第一閾值的實(shí)體劃分為高度類別,將度感知位于第二閾值與第一閾值之間的實(shí)體劃分為中度類別,將度感知低于第二閾值的實(shí)體劃分為低度類別;其中,
31、所述第一閾值為:avg+std,第二閾值為:avg-std;式中,avg為所述預(yù)對(duì)齊的時(shí)序知識(shí)圖譜樣本中所有實(shí)體的度感知的平均值,std為所述預(yù)對(duì)齊的時(shí)序知識(shí)圖譜樣本中所有實(shí)體的度感知的標(biāo)準(zhǔn)差。
32、進(jìn)一步的,所述第一判別器在訓(xùn)練時(shí)的損失函數(shù)為:
33、,
34、式中,為第一判別器的損失,表示高度類別實(shí)體集合,表示高度類別實(shí)體集合中的實(shí)體數(shù)量,表示中度類別實(shí)體集合,表示中度類別實(shí)體集合中的實(shí)體數(shù)量,表示第一判別器對(duì)由所述生成對(duì)抗網(wǎng)絡(luò)的生成器對(duì)第個(gè)實(shí)體生成的實(shí)體嵌入分類為高度類別的概率;
35、所述第二判別器在訓(xùn)練時(shí)的損失函數(shù)為:
36、,
37、式中,為第二判別器的損失,表示低度類別實(shí)體集合,表示低度類別實(shí)體集合中的實(shí)體數(shù)量,表示第二判別器對(duì)由所述生成對(duì)抗網(wǎng)絡(luò)的生成器對(duì)第個(gè)實(shí)體生成的實(shí)體嵌入分類為低度類別的概率。
38、進(jìn)一步的,對(duì)含有關(guān)系和時(shí)間語(yǔ)義信息的實(shí)體標(biāo)簽的迭代學(xué)習(xí)過(guò)程,和分別消除各標(biāo)簽實(shí)體嵌入向量中實(shí)體的度感知的對(duì)抗學(xué)習(xí)過(guò)程,采用對(duì)抗聯(lián)合訓(xùn)練的方法進(jìn)行訓(xùn)練,包括:
39、以最小化對(duì)抗學(xué)習(xí)目標(biāo)函數(shù)為目標(biāo),基于所述預(yù)對(duì)齊的時(shí)序知識(shí)圖譜樣本,迭代進(jìn)行對(duì)含有關(guān)系和時(shí)間語(yǔ)義信息的實(shí)體標(biāo)簽的迭代學(xué)習(xí)過(guò)程,和分別消除各標(biāo)簽實(shí)體嵌入向量中實(shí)體的度感知的對(duì)抗學(xué)習(xí)過(guò)程;在對(duì)抗學(xué)習(xí)過(guò)程中,以最小化所述第一判別器和所述第二判別器的損失為目標(biāo)輪流訓(xùn)練所述第一判別器和所述第二判別器;
40、所述對(duì)抗學(xué)習(xí)目標(biāo)函數(shù)為:
41、,
42、式中,表示對(duì)含有關(guān)系和時(shí)間語(yǔ)義信息的實(shí)體標(biāo)簽的迭代學(xué)習(xí)損失,為設(shè)定的聯(lián)合學(xué)習(xí)權(quán)重。
43、進(jìn)一步的,所述基于對(duì)預(yù)對(duì)齊的時(shí)序指數(shù)圖譜樣本中等價(jià)實(shí)體的半監(jiān)督學(xué)習(xí),包括:
44、以最小化半監(jiān)督損失函數(shù)為目標(biāo),從預(yù)對(duì)齊的時(shí)序指數(shù)圖譜樣本中的每一對(duì)等價(jià)實(shí)體的最終實(shí)體嵌入向量學(xué)習(xí)兩個(gè)平移矩陣,兩個(gè)平移矩陣分別將一個(gè)最終實(shí)體嵌入向量轉(zhuǎn)移到另一最終實(shí)體嵌入向量的空間。
45、進(jìn)一步的,所述半監(jiān)督損失函數(shù)為:
46、,
47、式中,表示半監(jiān)督損失,和分別表示兩個(gè)平移矩陣,表示對(duì)齊種子集合,和分別表示兩個(gè)最終實(shí)體嵌入向量,表示利用平移矩陣將最終實(shí)體嵌入向量轉(zhuǎn)移到最終實(shí)體嵌入向量的空間,表示利用平移矩陣將最終實(shí)體嵌入向量轉(zhuǎn)移到最終實(shí)體嵌入向量的空間,表示求l2范數(shù)。
48、綜上所述,由于采用了上述技術(shù)方案,本發(fā)明的有益效果是:
49、本發(fā)明通過(guò)對(duì)實(shí)體在關(guān)系和時(shí)序維度特征的迭代學(xué)習(xí),充分考慮了實(shí)體在時(shí)序知識(shí)圖譜中的動(dòng)態(tài)演化特征,彌補(bǔ)了實(shí)體會(huì)隨著時(shí)間和關(guān)系的推移發(fā)生變化而影響實(shí)體對(duì)齊準(zhǔn)確率的缺陷。此外,本發(fā)明對(duì)迭代傳播的實(shí)體嵌入向量進(jìn)行了度感知(即實(shí)體度)消除,解決了度感知對(duì)實(shí)體對(duì)齊任務(wù)的負(fù)面影響,提升了時(shí)序知識(shí)圖譜中實(shí)體對(duì)齊的準(zhǔn)確率和魯棒性。