一種獲取知識圖譜向量化表示的方法以及裝置的制造方法
【專利摘要】本發(fā)明公開一種獲取知識圖譜向量化表示的方法以及裝置。其中,所述方法包括:根據(jù)待處理的知識圖譜,使用實體標注工具標注給定輔助文本語料中屬于知識圖譜中存在的實體,得到實體標注的文本語料;基于所述文本語料,構(gòu)建由詞和實體組成的共現(xiàn)網(wǎng)絡(luò),以將所述輔助文本語料的文本信息和所述知識圖譜的實體信息進行關(guān)聯(lián),進而學(xué)習得到文本上下文嵌入表示;根據(jù)所述文本上下文嵌入表示對所述知識譜圖中實體和關(guān)系的嵌入表示分別進行建模,得到所述知識圖譜的嵌入表示模型;使用隨機梯度下降法訓(xùn)練所述嵌入表示模型,得到所述知識圖譜中實體和關(guān)系的嵌入表示。本發(fā)明不僅能提高關(guān)系的表示能力,而且還能有效地解決知識圖譜稀疏性帶來的表示效果不足的問題。
【專利說明】
-種獲取知識圖譜向量化表示的方法從及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及語義萬維網(wǎng)領(lǐng)域,具體地,設(shè)及一種獲取知識圖譜向量化表示的方法 W及裝置。
【背景技術(shù)】
[0002] 語義萬維網(wǎng)是當前萬維網(wǎng)的擴展,含有精確語義信息的數(shù)據(jù)的網(wǎng)絡(luò)是語義萬維網(wǎng) 的核屯、。萬維網(wǎng)之父Tim Berners-Lee提出的開放鏈接數(shù)據(jù)項目化inking Open Data Project)旨在構(gòu)建運樣一個數(shù)據(jù)網(wǎng)絡(luò),語義知識庫是構(gòu)成該數(shù)據(jù)網(wǎng)絡(luò)的根本。
[0003] 在語義萬維網(wǎng)環(huán)境下,知識圖譜的向量化表示計算旨在將知識圖譜中的實體表示 成一個分布的、低維度的向量,進一步賦予知識圖譜可計算的性質(zhì),已被證明在知識圖譜補 充、文本分類和信息抽取上有重要提升作用。將知識圖譜的關(guān)系視為一個翻譯操作,TransE 是第一個簡單、高效的知識圖譜表示學(xué)習方法,TransH和化ansR分別通過超平面映射和向 量空間變換進一步允許一個實體在給定不同的關(guān)系時擁有不同的嵌入表示,使一對多、多 對一和多對多關(guān)系的表示能力進一步提高。
[0004] 然而,現(xiàn)有的知識圖譜向量化表示計算中仍存在如下問題:
[0005] 1、一對多、多對一和多對多關(guān)系的表示能力低下:TransH和化ansR從模型的角度 對TransE進行優(yōu)化,沒有擴展表示學(xué)習中可用的信息來源,對關(guān)系表示能力的提高有限。
[0006] 2、知識圖譜稀疏性導(dǎo)致表示效果不足:Tran S E、化an sH和化an S R均從知識圖譜的 結(jié)構(gòu)關(guān)系中對嵌入表示進行學(xué)習,受限于當前知識圖譜通常比較稀疏,表示學(xué)習的效果依 然無法令人滿意。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的是提供一種獲取知識圖譜向量化表示的方法W及裝置。其中,所述 方法不僅能夠提高一對多、多對一 W及多對多關(guān)系的表示能力,而且還能有效地解決知識 圖譜稀疏性帶來的表示效果不足的問題。
[000引為了實現(xiàn)上述目的,本發(fā)明提供一種獲取知識圖譜向量化表示的方法。所述方法 包括:
[0009] 根據(jù)待處理的知識圖譜,使用實體標注工具標注給定輔助文本語料中屬于知識圖 譜中存在的實體,得到實體標注的文本語料;
[0010] 基于所述文本語料,構(gòu)建由詞和實體組成的共現(xiàn)網(wǎng)絡(luò),W將所述輔助文本語料的 文本信息和所述知識圖譜的實體信息進行關(guān)聯(lián),進而學(xué)習得到文本上下文嵌入表示;
[0011] 根據(jù)所述文本上下文嵌入表示對所述知識譜圖中實體和關(guān)系的嵌入表示分別進 行建模,得到所述知識圖譜的嵌入表示模型;
[0012] 使用隨機梯度下降法訓(xùn)練所述嵌入表示模型,得到所述知識圖譜中實體和關(guān)系的 嵌入表示。
[0013] 可選地,所述實體標注工具為W下中的至少一者:
[0014] AIDI、TAGMEW 及 Wikify!。
[0015] 可選地,所述基于所述文本語料,構(gòu)建由詞和實體組成的共現(xiàn)網(wǎng)絡(luò),W將所述輔助 文本語料的文本信息和所述知識圖譜的實體信息進行關(guān)聯(lián),進而學(xué)習得到文本上下文嵌入 表示,包括:
[0016] 根據(jù)所述共現(xiàn)網(wǎng)絡(luò)分別定義一元文本上下文和二元文本上下文;
[0017] W所述文本語料為輸入,采用Skip-gram Word2Vec進行詞嵌入表示學(xué)習,得到所 述共現(xiàn)網(wǎng)絡(luò)中任意一點的詞向量嵌入表示;
[0018] 根據(jù)所述一元文本上下文和所述詞向量嵌入表示定義一元文本上下文嵌入表示;
[0019] 根據(jù)所述二元文本上下文和所述詞向量嵌入表示定義二元文本上下文嵌入表 /J、- 〇
[0020] 可選地,所述根據(jù)所述文本上下文嵌入表示對所述知識譜圖中實體和關(guān)系的嵌入 表示分別進行建模,得到所述知識圖譜的嵌入表示模型,包括:
[0021] 采用基于線性變換的方法、基于空間變換的方法或基于超平面映射的方法變換所 述實體的一元文本上下文嵌入表示,得到所述實體的嵌入表示模型;
[0022] 采用基于線性變換的方法變換所述實體的二元文本上下文嵌入表示,得到所述關(guān) 系的嵌入表示模型;
[0023] 根據(jù)所述實體的嵌入表示模型和所述關(guān)系的嵌入表示模型得到所述知識圖譜的 嵌入表示模型。
[0024] 可選地,所述使用隨機梯度下降法訓(xùn)練所述嵌入表示模型,得到所述知識圖譜中 實體和關(guān)系的嵌入表示,包括:
[0025] 根據(jù)所述嵌入表示模型定義基于邊緣的損失函數(shù);
[0026] 使用隨機梯度下降法訓(xùn)練所述嵌入表示模型,使得所述損失函數(shù)最小化,從而得 到所述知識圖譜中實體和關(guān)系的嵌入表示。
[0027] 相應(yīng)地,本發(fā)明還提供一種獲取知識圖譜向量化表示的裝置。所述裝置包括:
[0028] 標注單元,用于根據(jù)待處理的知識圖譜,使用實體標注工具標注給定輔助文本語 料中屬于知識圖譜中存在的實體,得到實體標注的文本語料;
[0029] 構(gòu)建單元,用于基于所述文本語料,構(gòu)建由詞和實體組成的共現(xiàn)網(wǎng)絡(luò),W將所述輔 助文本語料的文本信息和所述知識圖譜的實體信息進行關(guān)聯(lián),進而學(xué)習得到文本上下文嵌 入表示;
[0030] 建模單元,用于根據(jù)所述文本上下文嵌入表示對所述知識譜圖中實體和關(guān)系的嵌 入表示分別進行建模,得到所述知識圖譜的嵌入表示模型;
[0031] 訓(xùn)練單元,用于使用隨機梯度下降法訓(xùn)練所述嵌入表示模型,得到所述知識圖譜 中實體和關(guān)系的嵌入表示。
[0032] 可選地,所述實體標注工具為W下中的至少一者:
[0033] AIDI、TAGMEW 及 Wikify!。
[0034] 可選地,所述構(gòu)建單元,具體用于:
[0035] 根據(jù)所述共現(xiàn)網(wǎng)絡(luò)分別定義一元文本上下文和二元文本上下文;
[0036] W所述文本語料為輸入,采用Skip-gram Word2Vec進行詞嵌入表示學(xué)習,得到所 述共現(xiàn)網(wǎng)絡(luò)中任意一點的詞向量嵌入表示;
[0037] 根據(jù)所述一元文本上下文和所述詞向量嵌入表示定義一元文本上下文嵌入表示;
[0038] 根據(jù)所述二元文本上下文和所述詞向量嵌入表示定義二元文本上下文嵌入表示。
[0039] 可選地,所述建模單元,具體用于:
[0040] 采用基于線性變換的方法、基于空間變換的方法或基于超平面映射的方法變換所 述實體的一元文本上下文嵌入表示,得到所述實體的嵌入表示模型;
[0041] 采用基于線性變換的方法變換所述實體的二元文本上下文嵌入表示,得到所述關(guān) 系的嵌入表示模型;
[0042] 根據(jù)所述實體的嵌入表示模型和所述關(guān)系的嵌入表示模型得到所述知識圖譜的 嵌入表示模型。
[0043] 可選地,所述訓(xùn)練單元,具體用于:
[0044] 根據(jù)所述嵌入表示模型定義基于邊緣的損失函數(shù);
[0045] 使用隨機梯度下降法訓(xùn)練所述嵌入表示模型,使得所述損失函數(shù)最小化,從而得 到所述知識圖譜中實體和關(guān)系的嵌入表示。
[0046] 通過上述技術(shù)方案,采用文本輔助的方法,在知識圖譜的實體和關(guān)系嵌入表示建 模過程中,引入文本上下文嵌入表示,使得一種關(guān)系在給定不同的實體對時可W擁有不同 的表示,大大提高對一對多、多對一和多對多關(guān)系的表示能力。另一方面,文本上下文嵌入 表示的引入,極大地豐富了現(xiàn)有知識圖譜的信息,有效解決了知識圖譜稀疏性帶來的表示 效果不足的問題。
【附圖說明】
[0047] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹。顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可W 根據(jù)運些圖獲得其他的附圖。
[0048] 圖1是本發(fā)明一實施例提供的獲取知識圖譜向量化表示的方法的流程圖;
[0049] 圖2是本發(fā)明一實施例提供的知識圖譜向量化表示計算的示意圖;
[0050] 圖3是本發(fā)明一實施例提供的獲取知識圖譜向量化表示的裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0051] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于 本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
[0052] 圖1是本發(fā)明一實施例提供的獲取知識圖譜向量化表示的方法的流程圖。如圖1所 示,本發(fā)明一實施例提供的獲取知識圖譜向量化表示的方法包括:
[0053] 在步驟S101中,根據(jù)待處理的知識圖譜,使用實體標注工具標注給定輔助文本語 料中屬于知識圖譜中存在的實體,得到實體標注的文本語料。
[0化4]對于輔助文本語料,形式化表示為一個由詞組成的有序序列2>=〈w,...w,...w,,,〉,其 中wi表示單個的詞,m為該有序序列的長度。給定知識圖譜,形式化表示為一個由Ξ元組組 成的集合κ每={輝,iV):},其中化,r,t)表示一個語義Ξ元組,h和t分別表示頭實體和尾實 體,r表示頭實體和尾實體之間的關(guān)系。
[0055] 給定輔助文本語料巧,使用實體標注工具自動地在給定輔助文本語料巧中標注知 識圖譜eg中存在的實體,得到實體標注的文本語幹巧=〈λ-,.. 〉。其中,XI表示巧中的 一個詞或者KG中的一個實體。由于多個連續(xù)的詞可能被標注為一個實體,巧'的長度m'小 于巧的長度m。通用的實體標注工具均可用于W上的實體標注,如AIDI、TAGME和Wi ki f y!等, 也即是實體標注工具為W下中的至少一者:AIDI、TAGMEW及Wikify!。
[0056] 接著,在步驟S102中,基于所述文本語料,構(gòu)建由詞和實體組成的共現(xiàn)網(wǎng)絡(luò),W將 所述輔助文本語料的文本信息和所述知識圖譜的實體信息進行關(guān)聯(lián),進而學(xué)習得到文本上 下文嵌入表示。
[0057] 具體地,該步驟包括:根據(jù)所述共現(xiàn)網(wǎng)絡(luò)分別定義一元文本上下文和二元文本上 下文;W所述文本語料為輸入,采用Skip-gram Word2Vec進行詞嵌入表示學(xué)習,得到所述共 現(xiàn)網(wǎng)絡(luò)中任意一點的詞向量嵌入表示;根據(jù)所述一元文本上下文和所述詞向量嵌入表示定 義一元文本上下文嵌入表示;根據(jù)所述二元文本上下文和所述詞向量嵌入表示定義二元文 本上下文嵌入表示。
[005引給定實體標注的文本語料?r,構(gòu)建一個由詞和實體組成的共現(xiàn)網(wǎng)絡(luò)0 = (Λ^,y),w 將文本信息和實體信息進行關(guān)聯(lián)。其中,J εΛ'表示共現(xiàn)網(wǎng)絡(luò)中的點,為一個詞或者一個實 體,>^€^表示點XI和點xj之間的共現(xiàn)頻率,而且共現(xiàn)網(wǎng)絡(luò)構(gòu)造中的共現(xiàn)窗口設(shè)置為5。 [0化9]基于共現(xiàn)網(wǎng)絡(luò)e=(;r,;y),分別定義一元文本上下文和二元文本上下文。具體地, 給定共現(xiàn)網(wǎng)絡(luò)夢中任意一點XI,考慮到其鄰居節(jié)點可W反映其上下文信息,因此,XI的一元 文本上下文η(Χι)定義為其在共現(xiàn)網(wǎng)絡(luò)g中關(guān)聯(lián)程度較高的鄰居節(jié)點:
[0060] n(xi) = {xj|yij>0} (1)
[0061] 其中,Θ表示共現(xiàn)頻率的闊值。圖2是本發(fā)明一實施例提供的知識圖譜向量化表示 計算的示意圖。如圖2所示,n(Avata;r) = {f ilm,movie ,directed巧帖(James_Came;ron)= {director}分別掲示了頭實體和尾實體的背景知識。類似地,給定共現(xiàn)網(wǎng)絡(luò)g中任意兩點xi 和Xj,該兩點的二元文本上下文11(^,刮)定義為二者的公共鄰居節(jié)點:
[006^ n(xi,xj) = {xk|xken(xi) nn(xj)} (2)
[0063] 如圖2所示,n(Ava1:a;r,James_Came;ron) = {direct}描述了兩個實體之間"direct" Γ導(dǎo)演")的隱含關(guān)系。
[0064] 由于共現(xiàn)網(wǎng)絡(luò)g和實體標注的文本語料巧同構(gòu),W語料公為輸入,采用化ip-gram Word2Vec進行詞嵌入表示學(xué)習,進而對于共現(xiàn)網(wǎng)絡(luò)g中的任意一點xi得到一個k維的詞向量 嵌入表示。根據(jù)上述對文本上下文的定義,給定共現(xiàn)網(wǎng)絡(luò)g中任意一點XI,其一元文本上下 文嵌入表示η (XI)定義為η (XI)中詞向量嵌入表示的加權(quán)平均向量:
[00 化]
[0066] 若η(χι)為空,則η(χι)為零向量0。類似地,給定網(wǎng)絡(luò)中任意兩點XI和xj,其二元文 本上下文嵌入表示η (xi,xj)定義為η (xi,xj)中詞向量嵌入表示的加權(quán)平均向量:
[0067]
[0068] 其中公共鄰居節(jié)點X k的權(quán)重定義為y 1 k和y J k的最小值,
%所有權(quán)重之和。若n(xi,xj)為空,則n(xi,xj)為零向量 0。
[0069] 緊接著,在步驟S103中,根據(jù)所述文本上下文嵌入表示對所述知識譜圖中實體和 關(guān)系的嵌入表示分別進行建模,得到所述知識圖譜的嵌入表示模型。
[0070] 具體地,該步驟包括:采用基于線性變換的方法、基于空間變換的方法或基于超平 面映射的方法變換所述實體的一元文本上下文嵌入表示,得到所述實體的嵌入表示模型; 采用基于線性變換的方法變換所述實體的二元文本上下文嵌入表示,得到所述關(guān)系的嵌入 表示模型;根據(jù)所述實體的嵌入表示模型和所述關(guān)系的嵌入表示模型得到所述知識圖譜的 嵌入表示模型。
[0071] 基于上述所得的文本上下文嵌入表示,分別對知識圖譜中實體和關(guān)系的嵌入表示 進行建模,定義基于翻譯方法的模型優(yōu)化目標。更為具體地,實體的嵌入表示模型定義為該 實體的一元文本上下文嵌入表示的線性變換:
[0074] 其中,£和?分別表示頭實體h和尾實體t的嵌入表示模型,A是一個kXk的矩陣,h和 t分別表示偏置向量。類似地,關(guān)系r的嵌入表示模型定義為頭實體h和尾實體t的二元文本 上下文嵌入表示的線性變換:
[0075]
[0076] 其中,?表示關(guān)系的嵌入表示模型,B是一個kXk的矩陣,r表示偏置向量。
[0077] 進一步地,實體/關(guān)系(知識圖譜)的嵌入表示模型的目標為ii + i蘭?,該模型的優(yōu) 化即最小化W下?lián)p失函數(shù):
[007引
[0079] 對于實體/關(guān)系(知識圖譜)的嵌入表示模型中的向量和權(quán)重矩陣作規(guī)范化限制, 包括:II h II2 < 1、II r II2 < 1、II η (h) All 2 < 1、II t II2 < 1、II η (t) All 2 < 1、II η (h , t) ΒΙΙ2 < 1、
[0080] 為了進一步提高對一對多、多對一和多對多關(guān)系的表示能力,可W令實體在給定 不同的關(guān)系時擁有不同的嵌入表示,包括基于超平面映射的方法和基于空間變換的方法。
[0081] 其中,基于超平面映射的方法將實體嵌入表示和i首先映射到向量Wr對應(yīng)的超平 面上,得到映射后的嵌入表示
其損失函數(shù)為 基于空間變換的方法使用變換矩陣Mr將實體嵌入表示h和?首先
3 映射另一個向量空間,得到變換后的嵌入表牙
岸損失函數(shù)為
[0082] 最后,在步驟S104中,使用隨機梯度下降法訓(xùn)練所述嵌入表示模型,得到所述知識 圖譜中實體和關(guān)系的嵌入表示。
[0083] 具體地,該步驟包括:根據(jù)所述嵌入表示模型定義基于邊緣的損失函數(shù);使用隨機 梯度下降法訓(xùn)練所述嵌入表示模型,使得所述損失函數(shù)最小化,從而得到所述知識圖譜中 實體和關(guān)系的嵌入表示。
[0084] 根據(jù)上述所得的知識圖譜的嵌入表示模型,定義基于邊緣的損失函數(shù)為:
[0085]
[0086] 其中,max( ·,·)表示兩個輸入的最大值,丫表示邊緣值,S表示知識圖譜中已知 的正確的Ξ元組集合,化/,r,t〇e^是通過采用隨機替換方法從化,r,t)eS中生成的錯 誤的Ξ元組集合,f化,r,t)表示損失函數(shù)。訓(xùn)練過程采用隨機梯度下降的方法,使得上述損 失函數(shù)(9)最小化,從而得到知識圖譜中實體和關(guān)系的嵌入表示。
[0087] 采用本發(fā)明實施例提供的方法進行了實驗,具體實驗過程如下:
[0088] 1、數(shù)據(jù)集介紹。實驗采用2個在知識圖譜表示學(xué)習中使用的通用數(shù)據(jù)集,其中WN11 來源于由詞的義項組成的知識圖譜W 0 r d N e t,F(xiàn) B15 K來源于實體組成的世界知識圖譜 化eeBase。數(shù)據(jù)集的相關(guān)信息如表1所示。
[0089] 表1數(shù)據(jù)集相關(guān)統(tǒng)計
[0090]
[0091] 輔助文本語料采用2015年8月的維基百科詞條描述文本,共包括4,919,463篇文 檔。實體標注僅W維基百科中已標注的超鏈接作為候選,若維基百科所標注鏈接和給定知 識圖譜中實體的名稱相同,則標注為實體,否則不予標注。
[0092] 2、實驗設(shè)置。實驗評測使用知識圖譜表示學(xué)習中的通用評測任務(wù)一一鏈接預(yù)測: 即給定一個實體(頭實體或尾實體)和一個關(guān)系,預(yù)測缺失的另一個實體(尾實體或頭實 體)。鏈接預(yù)測任務(wù)首先對所有候選實體通過計算損失函數(shù)值的大小進行排序,進而W正確 的實體所在位置作為評測指標,包括平均排序和前10命中率。平均排序(Mean Rank)即正確 實體排序位置的平均值,前10命中率化its@10)即正確實體排序位置位居前10的百分比???慮到除了該正確實體外,其他實體也可能構(gòu)成正確的Ξ元組,W上指標會低估表示學(xué)習的 性能。進一步對實體排序列表中除該正確實體W外其他構(gòu)成正確Ξ元組的實體過濾,得到 矯正的評估指標。我們將未矯正的評估指標記為原始指標(Raw),矯正后的評估指標記為過 濾指標(Filter)。易知,更低的平均排序和更高的前10命中率體現(xiàn)了更優(yōu)秀的表示學(xué)習方 法。
[0093] 3、實驗結(jié)果與分析
[0094] 采用W上數(shù)據(jù)集和實驗設(shè)置,同當前知識圖譜表示學(xué)習主流方法化ansE、TransH 和化ansR進行對比。除了基于線性變換的文本輔助的知識圖譜表示學(xué)習方法,本
【申請人】還 實現(xiàn)了基于超平面映射和基于空間變換的文本輔助的知識圖譜表示學(xué)習方法,分別將線 性變換方法、超平面映射方法和空間變換方法記為TEKE_E、T邸E_H和TEKE_R。其中,unif和 bern表示知識圖譜表示學(xué)習中通用的兩種錯誤訓(xùn)練Ξ元組樣本生成策略。
[0095] 如表2、表3所示,為鏈接預(yù)測任務(wù)的評測結(jié)果。在WN18數(shù)據(jù)集上,本發(fā)明實施例提 供的方法明顯優(yōu)于對比方法。在FB15K上,本發(fā)明實施例提供的方法在前10命中率上明顯優(yōu) 于對比方法,考慮到平均排序易受個別極端靠后排序的影響,認為前10命中率更能體現(xiàn)方 法的效果對比。
[0096] 表2 WN18結(jié)果分析
[0097]
[009引
[0099]
[0100] -對多、多對一和多對多關(guān)系的表示能力對比分析。對于FB15K數(shù)據(jù)集,分析得到 包含一對一、一對多、多對一和多對多關(guān)系比例分別為24.2%、22.9%、28.9%和24.0%。如 表4、表5所示,分別為預(yù)測頭實體和預(yù)測尾實體的前10命中率對比分析。可知當待預(yù)測的實 體可能為多個時(預(yù)測頭實體時多對一和多對多關(guān)系,W及預(yù)測尾實體時一對多和多對多 關(guān)系),本發(fā)明實施例提供的方法大幅度提高了前10命中率,而僅僅在一對一關(guān)系上有輕 微的降幅。
[0101] 表4預(yù)測頭實體前10命中率分析(%)
[0105] 知識圖譜稀疏性對表示學(xué)習效果的影響。基于FB15K數(shù)據(jù)集,隨機抽取3,000實體 及其相關(guān)的Ξ元組,進而得到數(shù)據(jù)集FB3K和2,238個測試Ξ元組W及2,106個驗證Ξ元組。 在FB3K的基礎(chǔ)上,進一步隨機擴充3,000個實體得到FB服數(shù)據(jù)集,類似地在FB服的基礎(chǔ)上得 到FB9K數(shù)據(jù)集。FB3K、FB服和FB9K平均每個實體相關(guān)的Ξ元組分別為6.45、12.56和18.58 個,其稀疏程度逐步降低。為了公平對比,基于FB3K的3,000實體集合和2,238個測試Ξ元 組,對比分析了化ansE和TEKE_E在平均排序上的效果,如表6所示,當知識圖譜稀疏程度降 低時,知識表示的效果逐步上升,本發(fā)明實施例提供的方法的效果均優(yōu)于對比方法,且在知 識圖譜稀疏性強時提升更加明顯。
[0106] 表6知識圖譜稀疏性對表示學(xué)習效果的影響
[0107]
[0108] 本發(fā)明實施例通過采用文本輔助的方法,在知識圖譜的實體和關(guān)系嵌入表示建 模過程中,引入文本上下文嵌入表示,使得一種關(guān)系在給定不同的實體對時可W擁有不同 的表示,大大提高對一對多、多對一和多對多關(guān)系的表示能力。另一方面,文本上下文嵌入 表示的引入,極大地豐富了現(xiàn)有知識圖譜的信息,有效解決了知識圖譜稀疏性帶來的表示 效果不足的問題。
[0109] 對于方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域 技術(shù)人員應(yīng)該知悉,本發(fā)明實施例并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明實施 例,某些步驟可W采用其他順序或者同時進行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書 中所描述的實施例均屬于優(yōu)選實施例,所設(shè)及的動作并不一定是本發(fā)明實施例所必須的。
[0110] 圖3是本發(fā)明一實施例提供的獲取知識圖譜向量化表示的裝置的結(jié)構(gòu)示意圖。如 圖3所示,本發(fā)明一實施例提供的獲取知識圖譜向量化表示的裝置包括:
[0111] 標注單元201,用于根據(jù)預(yù)設(shè)的知識圖譜,使用實體標注工具標注輔助文本語料中 存在的實體,得到實體標注的文本語料;
[0112] 構(gòu)建單元202,用于基于所述文本語料,構(gòu)建由詞和實體組成的共現(xiàn)網(wǎng)絡(luò),W將所 述輔助文本語料的文本信息和所述知識圖譜的實體信息進行關(guān)聯(lián),進而學(xué)習得到文本上下 文嵌入表示;
[0113] 建模單元203,用于根據(jù)所述文本上下文嵌入表示對所述知識譜圖中實體和關(guān)系 的嵌入表示分別進行建模,得到所述知識圖譜的嵌入表示模型;
[0114] 訓(xùn)練單元204,用于使用隨機梯度下降法訓(xùn)練所述嵌入表示模型,得到所述知識圖 譜中實體和關(guān)系的嵌入表示。
[0115] 在本發(fā)明一實施例中,所述實體標注工具為W下中的至少一者:
[0116] AIDI、TAGMEW 及 Wikify!。
[0117] 在本發(fā)明一實施例中,所述構(gòu)建單元202,具體用于:
[011引根據(jù)所述共現(xiàn)網(wǎng)絡(luò)分別定義一元文本上下文和二元文本上下文;
[0119] W所述文本語料為輸入,采用Skip-gram Word2Vec進行詞嵌入表示學(xué)習,得到所 述共現(xiàn)網(wǎng)絡(luò)中任意一點的詞向量嵌入表示;
[0120] 根據(jù)所述一元文本上下文和所述詞向量嵌入表示定義一元文本上下文嵌入表示;
[0121] 根據(jù)所述二元文本上下文和所述詞向量嵌入表示定義二元文本上下文嵌入表示。
[0122] 在本發(fā)明一實施例中,所述建模單元203,具體用于:
[0123] 采用基于線性變換的方法、基于空間變換的方法或基于超平面映射的方法變換所 述實體的一元文本上下文嵌入表示,得到所述實體的嵌入表示模型;
[0124] 采用基于線性變換的方法變換所述實體的二元文本上下文嵌入表示,得到所述關(guān) 系的嵌入表示模型;
[0125] 根據(jù)所述實體的嵌入表示模型和所述關(guān)系的嵌入表示模型得到所述知識圖譜的 嵌入表示模型。
[01 %]在本發(fā)明一實施例中,所述訓(xùn)練單元204,具體用于:
[0127]根據(jù)所述嵌入表示模型定義基于邊緣的損失函數(shù);
[01%]使用隨機梯度下降法訓(xùn)練所述嵌入表示模型,使得所述損失函數(shù)最小化,從而得 到所述知識圖譜中實體和關(guān)系的嵌入表示。
[0129] 對于本發(fā)明一實施例提供的獲取知識圖譜向量化表示的裝置中還設(shè)及的具體細 節(jié)已在本發(fā)明一實施例提供的獲取知識圖譜向量化表示的方法中作了詳細的描述,在此不 再寶述。
[0130] 應(yīng)當注意的是,在本發(fā)明的系統(tǒng)的各個部件中,根據(jù)其要實現(xiàn)的功能而對其中的 部件進行了邏輯劃分,但是,本發(fā)明不受限于此,可W根據(jù)需要對各個部件進行重新劃分或 者組合,例如,可W將一些部件組合為單個部件,或者可W將一些部件進一步分解為更多的 子部件。
[0131] 本發(fā)明的各個部件實施例可硬件實現(xiàn),或者W在一個或者多個處理器上運行 的軟件模塊實現(xiàn),或者W它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當理解,可W在實踐中使用 微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的系統(tǒng)中的一些或者全部部 件的一些或者全部功能。本發(fā)明還可W實現(xiàn)為用于執(zhí)行運里所描述的方法的一部分或者全 部的設(shè)備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。運樣的實現(xiàn)本發(fā)明的程序 可W存儲在計算機可讀介質(zhì)上,或者可W具有一個或者多個信號的形式。運樣的信號可W 從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者W任何其他形式提供。
[0132] 應(yīng)該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領(lǐng) 域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中, 不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞"包含"不排除存在未 列在權(quán)利要求中的元件或步驟。位于元件之前的單詞"一"或"一個"不排除存在多個運樣的 元件。本發(fā)明可W借助于包括有若干不同元件的硬件W及借助于適當編程的計算機來實 現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,運些裝置中的若干個可W是通過同一個硬件項 來具體體現(xiàn)。單詞第一、第二、W及第Ξ等的使用不表示任何順序??蓪⑦\些單詞解釋為名 稱。
[0133] W上實施方式僅適于說明本發(fā)明,而并非對本發(fā)明的限制,有關(guān)技術(shù)領(lǐng)域的普通 技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可W做出各種變化和變型,因此所有 等同的技術(shù)方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護范圍應(yīng)由權(quán)利要求限定。
【主權(quán)項】
1. 一種獲取知識圖譜向量化表示的方法,其特征在于,所述方法包括: 根據(jù)待處理的知識圖譜,使用實體標注工具標注給定輔助文本語料中屬于知識圖譜中 存在的實體,得到實體標注的文本語料; 基于所述文本語料,構(gòu)建由詞和實體組成的共現(xiàn)網(wǎng)絡(luò),以將所述輔助文本語料的文本 信息和所述知識圖譜的實體信息進行關(guān)聯(lián),進而學(xué)習得到文本上下文嵌入表示; 根據(jù)所述文本上下文嵌入表示對所述知識譜圖中實體和關(guān)系的嵌入表示分別進行建 模,得到所述知識圖譜的嵌入表示模型; 使用隨機梯度下降法訓(xùn)練所述嵌入表示模型,得到所述知識圖譜中實體和關(guān)系的嵌入 表不。2. 根據(jù)權(quán)利要求1所述的獲取知識圖譜向量化表示的方法,其特征在于,所述實體標注 工具為以下中的至少一者: AIDI、TAGME 以及 Wikify!。3. 根據(jù)權(quán)利要求1所述的獲取知識圖譜向量化表示的方法,其特征在于,所述基于所述 文本語料,構(gòu)建由詞和實體組成的共現(xiàn)網(wǎng)絡(luò),以將所述輔助文本語料的文本信息和所述知 識圖譜的實體信息進行關(guān)聯(lián),進而學(xué)習得到文本上下文嵌入表示,包括: 根據(jù)所述共現(xiàn)網(wǎng)絡(luò)分別定義一元文本上下文和二元文本上下文; 以所述文本語料為輸入,采用Skip-gram Word2Vec進行詞嵌入表示學(xué)習,得到所述共 現(xiàn)網(wǎng)絡(luò)中任意一點的詞向量嵌入表示; 根據(jù)所述一元文本上下文和所述詞向量嵌入表示定義一元文本上下文嵌入表示; 根據(jù)所述二元文本上下文和所述詞向量嵌入表示定義二元文本上下文嵌入表示。4. 根據(jù)權(quán)利要求1所述的獲取知識圖譜向量化表示的方法,其特征在于,所述根據(jù)所述 文本上下文嵌入表示對所述知識譜圖中實體和關(guān)系的嵌入表示分別進行建模,得到所述知 識圖譜的嵌入表示模型,包括: 采用基于線性變換的方法、基于空間變換的方法或基于超平面映射的方法變換所述實 體的一元文本上下文嵌入表示,得到所述實體的嵌入表示模型; 采用基于線性變換的方法變換所述實體的二元文本上下文嵌入表示,得到所述關(guān)系的 嵌入表不模型; 根據(jù)所述實體的嵌入表示模型和所述關(guān)系的嵌入表示模型得到所述知識圖譜的嵌入 表不模型。5. 根據(jù)權(quán)利要求1所述的獲取知識圖譜向量化表示的方法,其特征在于,所述使用隨機 梯度下降法訓(xùn)練所述嵌入表示模型,得到所述知識圖譜中實體和關(guān)系的嵌入表示,包括: 根據(jù)所述嵌入表示模型定義基于邊緣的損失函數(shù); 使用隨機梯度下降法訓(xùn)練所述嵌入表示模型,使得所述損失函數(shù)最小化,從而得到所 述知識圖譜中實體和關(guān)系的嵌入表示。6. -種獲取知識圖譜向量化表示的裝置,其特征在于,所述裝置包括: 標注單元,用于根據(jù)待處理的知識圖譜,使用實體標注工具標注給定輔助文本語料中 屬于知識圖譜中存在的實體,得到實體標注的文本語料; 構(gòu)建單元,用于基于所述文本語料,構(gòu)建由詞和實體組成的共現(xiàn)網(wǎng)絡(luò),以將所述輔助文 本語料的文本信息和所述知識圖譜的實體信息進行關(guān)聯(lián),進而學(xué)習得到文本上下文嵌入表 示; 建模單元,用于根據(jù)所述文本上下文嵌入表示對所述知識譜圖中實體和關(guān)系的嵌入表 示分別進行建模,得到所述知識圖譜的嵌入表示模型; 訓(xùn)練單元,用于使用隨機梯度下降法訓(xùn)練所述嵌入表示模型,得到所述知識圖譜中實 體和關(guān)系的嵌入表不。7. 根據(jù)權(quán)利要求6所述的獲取知識圖譜向量化表示的裝置,其特征在于,所述實體標注 工具為以下中的至少一者: AIDI、TAGME 以及 Wikify!。8. 根據(jù)權(quán)利要求6所述的獲取知識圖譜向量化表示的裝置,其特征在于,所述構(gòu)建單 元,具體用于: 根據(jù)所述共現(xiàn)網(wǎng)絡(luò)分別定義一元文本上下文和二元文本上下文; 以所述文本語料為輸入,采用Skip-gram Word2Vec進行詞嵌入表示學(xué)習,得到所述共 現(xiàn)網(wǎng)絡(luò)中任意一點的詞向量嵌入表示; 根據(jù)所述一元文本上下文和所述詞向量嵌入表示定義一元文本上下文嵌入表示; 根據(jù)所述二元文本上下文和所述詞向量嵌入表示定義二元文本上下文嵌入表示。9. 根據(jù)權(quán)利要求6所述的獲取知識圖譜向量化表示的裝置,其特征在于,所述建模單 元,具體用于: 采用基于線性變換的方法、基于空間變換的方法或基于超平面映射的方法變換所述實 體的一元文本上下文嵌入表示,得到所述實體的嵌入表示模型; 采用基于線性變換的方法變換所述實體的二元文本上下文嵌入表示,得到所述關(guān)系的 嵌入表不模型; 根據(jù)所述實體的嵌入表示模型和所述關(guān)系的嵌入表示模型得到所述知識圖譜的嵌入 表不模型。10. 根據(jù)權(quán)利要求6所述的獲取知識圖譜向量化表示的裝置,其特征在于,所述訓(xùn)練單 元,具體用于: 根據(jù)所述嵌入表示模型定義基于邊緣的損失函數(shù); 使用隨機梯度下降法訓(xùn)練所述嵌入表示模型,使得所述損失函數(shù)最小化,從而得到所 述知識圖譜中實體和關(guān)系的嵌入表示。
【文檔編號】G06F17/27GK105824802SQ201610197184
【公開日】2016年8月3日
【申請日】2016年3月31日
【發(fā)明人】李涓子, 王志剛
【申請人】清華大學(xué)