国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種實(shí)體集擴(kuò)展方法及裝置與流程

      文檔序號:11729434閱讀:241來源:國知局
      一種實(shí)體集擴(kuò)展方法及裝置與流程

      本發(fā)明涉及實(shí)體集擴(kuò)展技術(shù)領(lǐng)域,特別是涉及一種實(shí)體集擴(kuò)展方法及裝置。



      背景技術(shù):

      實(shí)體集擴(kuò)展是指,已知具有特定語義類型(也稱特定共同特征)的幾個(gè)實(shí)體種子,根據(jù)一定的規(guī)則得到該特定語義類型的更多的實(shí)體。例如,給定特定語義類型為國家首都的實(shí)體種子集合{北京,華盛頓,莫斯科},要求找出更多國家首都,比如找出{首爾,東京,吉隆坡,···}。目前,實(shí)體集擴(kuò)展已經(jīng)得到了廣泛的應(yīng)用,例如,字典的擴(kuò)展和查詢建議的擴(kuò)展等。

      最常見的實(shí)體集擴(kuò)展方法是,選取一個(gè)數(shù)據(jù)源,對數(shù)據(jù)源按一定的規(guī)則進(jìn)行處理,從中確定出與種子實(shí)體具有相同語義類型的其它實(shí)體作為實(shí)體集的擴(kuò)展元素?,F(xiàn)有的實(shí)體集擴(kuò)展方法,大都以文本或網(wǎng)頁作為數(shù)據(jù)源。然而,由于單個(gè)文本和網(wǎng)頁中包含的數(shù)據(jù)量有限,使得實(shí)體集擴(kuò)展的有效性不理想,不能滿足日益攀升的實(shí)體集擴(kuò)展需求。



      技術(shù)實(shí)現(xiàn)要素:

      本發(fā)明實(shí)施例的目的在于提供一種實(shí)體集擴(kuò)展方法及裝置,以提高實(shí)體集擴(kuò)展的有效性。

      為了實(shí)現(xiàn)上述目的,第一方面,本發(fā)明實(shí)施例提供了一種實(shí)體集擴(kuò)展方法,所述方法包括:

      根據(jù)預(yù)先確定的種子實(shí)體集,從目標(biāo)知識圖譜中抽取候選實(shí)體,并將抽取得到的候選實(shí)體組成候選實(shí)體集;所述目標(biāo)知識圖譜至少包括所述種子實(shí)體集中的種子實(shí)體;

      從與所述目標(biāo)知識圖譜對應(yīng)的異質(zhì)信息網(wǎng)絡(luò)中,確定種子實(shí)體之間的元路徑;所述元路徑為:所述異質(zhì)信息網(wǎng)絡(luò)中的兩個(gè)節(jié)點(diǎn)類型之間由實(shí)體類型和關(guān)系類型組成的連接路徑;其中,所述兩個(gè)節(jié)點(diǎn)類型為所述種子實(shí)體集中不同的種子實(shí)體對應(yīng)的節(jié)點(diǎn)類型;

      根據(jù)每條元路徑連接的種子實(shí)體對的數(shù)量確定每條元路徑的第一重要程度;

      根據(jù)每條元路徑的第一重要程度,確定所述候選實(shí)體集中的每一候選實(shí)體的第二重要程度;

      將所述候選實(shí)體集中,所述第二重要程度滿足第一預(yù)設(shè)條件的候選實(shí)體確定為待擴(kuò)展實(shí)體,并將所述待擴(kuò)展實(shí)體添加至所述種子實(shí)體集中。

      可選地,所述根據(jù)預(yù)先確定的種子實(shí)體集,從目標(biāo)知識圖譜中抽取候選實(shí)體,包括:

      確定預(yù)先確定的種子實(shí)體集中每個(gè)種子實(shí)體的實(shí)體類型集;

      將所有實(shí)體類型集的交集確定為初始實(shí)體類型集;

      根據(jù)所述初始實(shí)體類型集中各實(shí)體類型的層級關(guān)系,確定所述種子實(shí)體集對應(yīng)的最終實(shí)體類型集;將所述目標(biāo)知識圖譜中,符合所述最終實(shí)體類型集中實(shí)體類型的實(shí)體作為候選實(shí)體。

      可選地,所述根據(jù)所述初始實(shí)體類型集中各實(shí)體類型的層級關(guān)系,確定最終實(shí)體類型集,包括:

      確定所述初始實(shí)體類型集所對應(yīng)的至少一個(gè)層級關(guān)系,其中,任一層級關(guān)系為至少兩個(gè)實(shí)體類型的從屬關(guān)系;

      將每一層級關(guān)系中位于最底層的實(shí)體類型,確定為最終實(shí)體類型,并將所確定的最終實(shí)體類型組成為最終實(shí)體類型集。

      可選地,所述從與所述目標(biāo)知識圖譜對應(yīng)的異質(zhì)信息網(wǎng)絡(luò)中,確定種子實(shí)體之間的元路徑,包括:

      從與所述目標(biāo)知識圖譜對應(yīng)的異質(zhì)信息網(wǎng)絡(luò)中,確定與所述種子實(shí)體集對應(yīng)的節(jié)點(diǎn)集合,其中,所述節(jié)點(diǎn)集合中包括與所述種子實(shí)體集中的種子實(shí)體對應(yīng)的節(jié)點(diǎn);

      將所述節(jié)點(diǎn)集合中的每一節(jié)點(diǎn)作為第一節(jié)點(diǎn);

      將每一第一節(jié)點(diǎn)作為當(dāng)前源節(jié)點(diǎn),在所述異質(zhì)信息網(wǎng)絡(luò)中訪問與每一當(dāng)前源節(jié)點(diǎn)通過預(yù)設(shè)類型的邊連接的當(dāng)前目標(biāo)節(jié)點(diǎn),建立與邊類型對應(yīng)的多個(gè)待選結(jié)構(gòu)數(shù)據(jù)表;其中,任一待選結(jié)構(gòu)數(shù)據(jù)表包括:由每一第一節(jié)點(diǎn)和通過該待選結(jié)構(gòu)數(shù)據(jù)表對應(yīng)的邊類型的邊連接的當(dāng)前目標(biāo)節(jié)點(diǎn)組成的第一實(shí)體對、每一第一實(shí)體對的相似性值、已訪問過的路徑和相似性分?jǐn)?shù);所述相似性分?jǐn)?shù)為所有第一實(shí)體對的相似性值的總和;

      針對每一所述待選結(jié)構(gòu)數(shù)據(jù)表,判斷該待選結(jié)構(gòu)數(shù)據(jù)表中與每一當(dāng)前源節(jié)點(diǎn)連接的當(dāng)前目標(biāo)節(jié)點(diǎn)是否為第二節(jié)點(diǎn);如果是,將該待選結(jié)構(gòu)數(shù)據(jù)表中該當(dāng)前源節(jié)點(diǎn)對應(yīng)的第一實(shí)體對的相似性值記為第一數(shù)值,并將該當(dāng)前源節(jié)點(diǎn)對應(yīng)的已訪問過的路徑確定為一條元路徑實(shí)例,否則記為第二數(shù)值;其中,所述第二節(jié)點(diǎn)為:所述節(jié)點(diǎn)集合中與當(dāng)前源節(jié)點(diǎn)對應(yīng)的第一節(jié)點(diǎn)不同的節(jié)點(diǎn);

      從待選結(jié)構(gòu)數(shù)據(jù)表中,選擇滿足第二預(yù)設(shè)條件的待選結(jié)構(gòu)數(shù)據(jù)表作為當(dāng)前結(jié)構(gòu)數(shù)據(jù)表;所述第二預(yù)設(shè)條件包括:待選結(jié)構(gòu)數(shù)據(jù)表中存儲的種子實(shí)體的種類最多;當(dāng)所存儲的種子實(shí)體種類最多的待選結(jié)構(gòu)數(shù)據(jù)表有多個(gè)時(shí),所述第二預(yù)設(shè)條件還包括:待選結(jié)構(gòu)數(shù)據(jù)表中存儲的第一實(shí)體對的數(shù)量最少;

      將所述當(dāng)前結(jié)構(gòu)數(shù)據(jù)表中的每一當(dāng)前目標(biāo)節(jié)點(diǎn)更新為當(dāng)前源節(jié)點(diǎn),返回執(zhí)行所述在所述異質(zhì)信息網(wǎng)絡(luò)中訪問與每一當(dāng)前源節(jié)點(diǎn)通過預(yù)設(shè)類型的邊連接的當(dāng)前目標(biāo)節(jié)點(diǎn)的步驟;

      當(dāng)每一當(dāng)前結(jié)構(gòu)數(shù)據(jù)表中已訪問的路徑長度大于第三預(yù)設(shè)值時(shí),或者當(dāng)每一當(dāng)前結(jié)構(gòu)數(shù)據(jù)表中的種子實(shí)體數(shù)目小于第四預(yù)設(shè)值時(shí),統(tǒng)計(jì)確定出的所有元路徑實(shí)例,并根據(jù)所述所有元路徑實(shí)例所包含的實(shí)體類型和關(guān)系類型,得到所述所有元路徑實(shí)例對應(yīng)的元路徑。

      可選地,所述從待選結(jié)構(gòu)數(shù)據(jù)表中,選擇滿足第二預(yù)設(shè)條件的待選結(jié)構(gòu)數(shù)據(jù)表作為當(dāng)前結(jié)構(gòu)數(shù)據(jù)表,包括:

      從相似性分?jǐn)?shù)不大于第一預(yù)設(shè)值的多個(gè)待選結(jié)構(gòu)數(shù)據(jù)表中,選擇滿足第二預(yù)設(shè)條件的待選結(jié)構(gòu)數(shù)據(jù)表作為當(dāng)前結(jié)構(gòu)數(shù)據(jù)表。

      可選地,所述根據(jù)每條元路徑連接的種子實(shí)體對的數(shù)量確定每條元路徑的第一重要程度,包括:

      根據(jù)每條元路徑連接的所有種子實(shí)體對確定每條元路徑所連接的種子實(shí)體對總數(shù);

      根據(jù)每條元路徑所連接的種子實(shí)體對總數(shù)和第一預(yù)設(shè)模型,確定每條元路徑的第一重要程度;

      其中,所述第一預(yù)設(shè)模型為:

      其中,wk為元路徑pk對應(yīng)的第一重要程度,l為元路徑的條數(shù);spk為元路徑pk所連接的種子實(shí)體對總數(shù),m為種子實(shí)體的數(shù)量,為種子實(shí)體對的總數(shù)量。

      可選地,所述根據(jù)每條元路徑的第一重要程度,確定所述候選實(shí)體集中的每一候選實(shí)體的第二重要程度,包括:

      根據(jù)每條元路徑的第一重要程度和第二預(yù)設(shè)模型,確定所述候選實(shí)體集中的每一候選實(shí)體的第二重要程度;

      其中,所述第二預(yù)設(shè)模型為:

      sj∈s,i∈{1,2,3,…,n},其中,r(ci,s)表示候選實(shí)體ci的第二重要程度,n為候選實(shí)體的數(shù)量;sj表示種子實(shí)體,s表示所述種子實(shí)體集,m為種子實(shí)體的數(shù)量;wk為元路徑pk對應(yīng)的第一重要程度,l為元路徑的條數(shù);r{(ci,sj)|pk}表示元路徑pk是否連接種子實(shí)體sj和候選實(shí)體ci,如果是,r=1,否則,r=0。

      可選地,所述將所述候選實(shí)體集中,所述第二重要程度滿足第一預(yù)設(shè)條件的候選實(shí)體確定為待擴(kuò)展實(shí)體,包括:

      將所述候選實(shí)體集中,所述第二重要程度大于第二預(yù)設(shè)值的候選實(shí)體確定為待擴(kuò)展實(shí)體。

      可選地,所述將所述候選實(shí)體集中,所述第二重要程度滿足第一預(yù)設(shè)條件的候選實(shí)體確定為待擴(kuò)展實(shí)體,包括:

      根據(jù)所述第二重要程度,按降序?qū)λ龊蜻x實(shí)體集中的候選實(shí)體進(jìn)行排序,獲得第一候選實(shí)體集;并且,從所述第一候選實(shí)體集中選取排序在前的第一預(yù)設(shè)數(shù)量的候選實(shí)體作為待擴(kuò)展實(shí)體。

      為了實(shí)現(xiàn)上述發(fā)明目的,第二方面,本發(fā)明實(shí)施例提供了一種實(shí)體集擴(kuò)展裝置,所述裝置包括:

      候選實(shí)體集確定模塊,用于根據(jù)預(yù)先確定的種子實(shí)體集,從目標(biāo)知識圖譜中抽取候選實(shí)體,并將抽取得到的候選實(shí)體組成候選實(shí)體集;所述目標(biāo)知識圖譜至少包括所述種子實(shí)體集中的種子實(shí)體;

      元路徑確定模塊,用于從與所述目標(biāo)知識圖譜對應(yīng)的異質(zhì)信息網(wǎng)絡(luò)中,確定種子實(shí)體之間的元路徑;所述元路徑為:所述異質(zhì)信息網(wǎng)絡(luò)中的兩個(gè)節(jié)點(diǎn)類型之間由實(shí)體類型和關(guān)系類型組成的連接路徑;其中,所述兩個(gè)節(jié)點(diǎn)類型為所述種子實(shí)體集中不同的種子實(shí)體對應(yīng)的節(jié)點(diǎn)類型;

      第一重要程度確定模塊,用于根據(jù)每條元路徑連接的種子實(shí)體對的數(shù)量確定每條元路徑的第一重要程度;

      第二重要程度確定模塊,用于根據(jù)每條元路徑的第一重要程度,確定所述候選實(shí)體集中的每一候選實(shí)體的第二重要程度;

      實(shí)體集擴(kuò)展模塊,用于將所述候選實(shí)體集中,所述第二重要程度滿足第一預(yù)設(shè)條件的候選實(shí)體確定為待擴(kuò)展實(shí)體,并將所述待擴(kuò)展實(shí)體添加至所述種子實(shí)體集中。

      本發(fā)明實(shí)施例提供的一種實(shí)體集擴(kuò)展方法及裝置,一方面,將包含的數(shù)據(jù)量巨大的目標(biāo)知識圖譜作為數(shù)據(jù)源進(jìn)行實(shí)體集擴(kuò)展;另一方面,從與目標(biāo)知識圖譜對應(yīng)的異質(zhì)信息網(wǎng)絡(luò)中確定種子實(shí)體集之間的元路徑,由于確定出的每一條元路徑為連接種子實(shí)體對的路徑,因此,這些元路徑能準(zhǔn)確的反映種子實(shí)體間的特定共同特征,進(jìn)而利用每一條元路徑的第一重要程度所確定的候選實(shí)體的第二重要程度更為有效,進(jìn)而根據(jù)第二重要程度確定的待擴(kuò)展實(shí)體也更為有效。因此,應(yīng)用本發(fā)明實(shí)施例提供的實(shí)體集擴(kuò)展方法及裝置能夠提高實(shí)體集擴(kuò)展的有效性。

      附圖說明

      為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

      圖1為本發(fā)明實(shí)施例提供的一種實(shí)體集擴(kuò)展方法的流程圖;

      圖2為yago知識圖譜的部分示意圖;

      圖3為yago知識圖譜中的實(shí)體類型的層級關(guān)系的部分示意圖;

      圖4為圖1所示的實(shí)施例中的步驟s102的一種詳細(xì)流程圖;

      圖5為利用圖4所示的一種詳細(xì)流程圖確定元路徑的原理示意圖;

      圖6a至圖6d為本發(fā)明實(shí)施例提供的一種實(shí)體集擴(kuò)展方法的有效性驗(yàn)證結(jié)果示意圖,從圖6a至圖6d依次對應(yīng)的實(shí)體類型為:史蒂文·斯皮爾伯格導(dǎo)演的電影的演員、導(dǎo)演獲得過國家電影獎導(dǎo)演的電影、位于加州山景城的公司生產(chǎn)的軟件、位于馬薩諸塞州劍橋的大學(xué)的科學(xué)家;

      圖7為本發(fā)明實(shí)施例提供的一種實(shí)體集擴(kuò)展裝置的結(jié)構(gòu)框圖;

      圖8為圖7所示的實(shí)施例中的模塊702的一種詳細(xì)結(jié)構(gòu)框圖。

      具體實(shí)施方式

      下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

      為了解決現(xiàn)有技術(shù)存在的問題,本發(fā)明實(shí)施例提供了一種實(shí)體集擴(kuò)展方法及裝置,下面結(jié)合具體的實(shí)施例分別進(jìn)行說明。

      首先對本發(fā)明實(shí)施例提供了一種實(shí)體集擴(kuò)展方法進(jìn)行說明。

      如圖1所示,本發(fā)明實(shí)施例提供的一種實(shí)體集擴(kuò)展方法,包括如下步驟:

      s101、根據(jù)預(yù)先確定的種子實(shí)體集,從目標(biāo)知識圖譜中抽取候選實(shí)體,并將抽取得到的候選實(shí)體組成候選實(shí)體集;所述目標(biāo)知識圖譜至少包括所述種子實(shí)體集中的種子實(shí)體;

      種子實(shí)體可以預(yù)先根據(jù)給定的特定語義類型進(jìn)行設(shè)定,由所有種子實(shí)體構(gòu)成的集合即為種子實(shí)體集。例如,預(yù)先給定特定的語義類型為電影導(dǎo)演,則可以預(yù)先確定李安、陳凱歌、張藝謀作為種子實(shí)體,進(jìn)而構(gòu)成種子實(shí)體集{李安,陳凱歌,張藝謀}。

      知識圖譜是一個(gè)規(guī)模很大的數(shù)據(jù)集,主要由<主體,謂語,客體>這樣的三元組構(gòu)成。例如本發(fā)明實(shí)施例圖2所示的yago知識圖譜,其中的一個(gè)三元組為<斯皮爾伯格,導(dǎo)演,戰(zhàn)馬電影>,該三元組所表示的含義是,斯皮爾伯格導(dǎo)演了電影戰(zhàn)馬。除yago知識圖譜外,現(xiàn)有技術(shù)中還存在其他一些知識圖譜,例如dbpedia和freebase。

      在本發(fā)明實(shí)施例中,目標(biāo)知識圖譜,是指與預(yù)先確定的種子實(shí)體相關(guān)的知識圖譜。本領(lǐng)域技術(shù)人員能夠理解的是,在進(jìn)行實(shí)體集擴(kuò)展時(shí),只有所采用的數(shù)據(jù)源與種子實(shí)體具有相關(guān)性,才能實(shí)現(xiàn)實(shí)體集的準(zhǔn)確擴(kuò)展。

      具體的,目標(biāo)知識圖譜至少包括所述種子實(shí)體集中的種子實(shí)體。

      在本發(fā)明實(shí)施例中,候選實(shí)體是與種子實(shí)體具有特定共同特征的實(shí)體。其中,特定共同特征包括:實(shí)體類型相同。

      s102、從與所述目標(biāo)知識圖譜對應(yīng)的異質(zhì)信息網(wǎng)絡(luò)中,確定種子實(shí)體之間的元路徑;所述元路徑為:所述異質(zhì)信息網(wǎng)絡(luò)中的兩個(gè)節(jié)點(diǎn)類型之間由實(shí)體類型和關(guān)系類型組成的連接路徑;其中,所述兩個(gè)節(jié)點(diǎn)類型為所述種子實(shí)體集中不同的種子實(shí)體對應(yīng)的節(jié)點(diǎn)類型;

      異質(zhì)信息網(wǎng)絡(luò)(heterogeneousinformationnetwork)是一個(gè)有向圖g=(v,e),其中,v是所有實(shí)體節(jié)點(diǎn)的集合,e是所有關(guān)系邊的集合,有向圖中的實(shí)體對象類型|a|>1或鏈接不同實(shí)體對象之間的關(guān)系類型|r|>1,在網(wǎng)絡(luò)中,一個(gè)節(jié)點(diǎn)代表一個(gè)實(shí)體對象(簡稱實(shí)體),一條邊代表被這條邊連接的兩個(gè)實(shí)體對象間的關(guān)系。并且,存在著一個(gè)節(jié)點(diǎn)類型的映射函數(shù)和一個(gè)邊類型的映射函數(shù)ψ:e→r,對于每個(gè)實(shí)體對象v∈v屬于一種特殊的對象類型每條邊e∈e屬于一種特殊的關(guān)系類型ψ(e)∈r。

      元路徑是指,所述異質(zhì)信息網(wǎng)絡(luò)中的兩個(gè)節(jié)點(diǎn)類型之間由實(shí)體類型和關(guān)系類型組成的連接路徑,元路徑代表著兩個(gè)節(jié)點(diǎn)類型間的語義關(guān)系。一條元路徑∏被定義為是由實(shí)體類型(節(jié)點(diǎn)類型)和關(guān)系類型(邊類型)組成的一個(gè)序列,它描述了在a1類型的節(jié)點(diǎn)和al+1類型的節(jié)點(diǎn)之間,通過一系列的a1,…,al+1類型的節(jié)點(diǎn)和r1,…,rl類型的邊連接的一條路徑,其中,a1對應(yīng)的節(jié)點(diǎn)類型被稱為源節(jié)點(diǎn)類型,al+1對應(yīng)的節(jié)點(diǎn)類型被稱為目標(biāo)節(jié)點(diǎn)類型。

      在異質(zhì)信息網(wǎng)絡(luò)中,元路徑被廣泛用來捕捉豐富的語義信息,我們定義對象a1和al+1之間的一條路徑是元路徑p的一條路徑實(shí)例,如果滿足以下條件,對并且ψ(ei)∈ri,其中,表示對所有的i。

      一般情況下,一條元路徑可能存在多條路徑實(shí)例,例如,一條路徑實(shí)例為:另一條路徑實(shí)例為:由于這兩條路徑實(shí)例都滿足元路徑所以我們說這兩條路徑都是此條元路徑的路徑實(shí)例。

      由于知識圖譜主要由<主體,謂語,客體>這樣的三元組構(gòu)成,其中的主體和客體可以分別對應(yīng)一個(gè)實(shí)體,其中的謂語可以表示主體與客體間的某種關(guān)系或者屬性,并且,知識圖譜中包含的主體和客體的類型、以及主體與客體間的關(guān)系或者屬性均不止一種。因此,根據(jù)知識圖譜可以事先構(gòu)建一個(gè)異質(zhì)信息網(wǎng)絡(luò)。

      例如,在圖2中,“導(dǎo)演”和“表演”是兩種不同類型的關(guān)系,“演員”和“電影”是不同的實(shí)體類型,是托比·凱貝爾和史蒂文·斯皮爾伯格之間的一條元路徑。

      另外,在圖2中,托比·凱貝爾和馬丁麥凱恩都屬于演員類,托比·凱貝爾和尼吉爾·哈弗斯不僅僅是演員類,而且也屬于史蒂文·斯皮爾伯格導(dǎo)演的電影的演員類,為了更好地區(qū)分這兩種類別,我們稱前者為粗粒度的實(shí)體類型,后者為細(xì)粒度的實(shí)體類型,根據(jù)細(xì)粒度實(shí)體類型確定的候選實(shí)體更有可能被確定為待擴(kuò)展實(shí)體。

      具體的,根據(jù)知識圖譜構(gòu)建異質(zhì)信息網(wǎng)絡(luò)屬于現(xiàn)有技術(shù),因此,本文不對此過程做詳細(xì)描述。

      在本發(fā)明實(shí)施例中,所述兩個(gè)節(jié)點(diǎn)為所述種子實(shí)體集中不同的種子實(shí)體對應(yīng)的節(jié)點(diǎn),由所述兩個(gè)節(jié)點(diǎn)組成的節(jié)點(diǎn)對可以被稱為“種子實(shí)體對”。

      表1列出了種子實(shí)體集為{s1,s2,…,sm}時(shí),種子實(shí)體對應(yīng)的節(jié)點(diǎn)組成的“種子實(shí)體對”。如表1所示,當(dāng)源節(jié)點(diǎn)為s1時(shí),目標(biāo)節(jié)點(diǎn)為{s2,…,sm}中的任一個(gè);當(dāng)源節(jié)點(diǎn)為s2時(shí),目標(biāo)節(jié)點(diǎn)為{s1,s3,…,sm}中的任一個(gè);當(dāng)源節(jié)點(diǎn)為其他節(jié)點(diǎn)時(shí),以此類推,此處不再一一敘述。

      表1

      還需要說明的是,在本發(fā)明實(shí)施例中,每一條元路徑中只有源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)對應(yīng)的實(shí)體為種子實(shí)體,其他節(jié)點(diǎn)對應(yīng)的實(shí)體為非種子實(shí)體。

      s103、根據(jù)每條元路徑連接的種子實(shí)體對的數(shù)量確定每條元路徑的第一重要程度;

      在本發(fā)明實(shí)施例提供的一種具體實(shí)施方式中,步驟s103包括:

      步驟1、根據(jù)每條元路徑連接的所有種子實(shí)體對的數(shù)量確定每條元路徑所連接的種子實(shí)體對總數(shù);

      具體的,由于每一條路徑實(shí)例連接一對種子實(shí)體,因此,每條元路徑所連接的種子實(shí)體對總數(shù)為該元路徑對應(yīng)的所有路徑實(shí)例連接的種子實(shí)體對的數(shù)量的和。

      步驟2、根據(jù)每條元路徑所連接的種子實(shí)體對總數(shù)和第一預(yù)設(shè)模型,確定每條元路徑的第一重要程度;

      其中,所述第一預(yù)設(shè)模型為:

      其中,wk為元路徑pk對應(yīng)的第一重要程度,l為元路徑的條數(shù);spk為元路徑pk所連接的種子實(shí)體對總數(shù),m為種子實(shí)體的數(shù)量,為種子實(shí)體對的總數(shù)量。

      在步驟s102中確定出了所有的重要元路徑,但是每條元路徑的重要程度是不同的,申請人經(jīng)過大量的實(shí)驗(yàn)驗(yàn)證表明,某一條元路徑的重要程度與該條元路徑連接的種子實(shí)體對總數(shù)有關(guān),該條元路徑連接的種子實(shí)體對總數(shù)越大,該元路徑就越能反映種子實(shí)體的共同特征,因此,該條元路徑就越重要。

      鑒于此,本發(fā)明實(shí)施例提出了根據(jù)第一預(yù)設(shè)模型確定每一條元路徑的第一重要程度的方法,從第一預(yù)設(shè)模型中,不難發(fā)現(xiàn),元路徑pk所連接的種子實(shí)體對總數(shù)越大,其對應(yīng)的第一重要程度值越大。

      需要說明的是,確定每條元路徑的第一重要程度的方法不限于上述一種,現(xiàn)有技術(shù)中存在的其他確定每條元路徑的第一重要程度的方法,均適用于本發(fā)明。

      s104、根據(jù)每條元路徑的第一重要程度,確定所述候選實(shí)體集中的每一候選實(shí)體的第二重要程度;

      在本發(fā)明實(shí)施例提供的一種具體實(shí)施方式中,步驟s104包括:

      根據(jù)每條元路徑的第一重要程度和第二預(yù)設(shè)模型,確定所述候選實(shí)體集中的每一候選實(shí)體的第二重要程度;

      其中,所述第二預(yù)設(shè)模型為:

      sj∈s,i∈{1,2,3,…,n},其中,r(ci,s)表示候選實(shí)體ci的第二重要程度,n為候選實(shí)體的數(shù)量;sj表示種子實(shí)體,s表示所述種子實(shí)體集,m為種子實(shí)體的數(shù)量;wk為元路徑pk對應(yīng)的第一重要程度,l為元路徑的條數(shù);r{(ci,sj)|pk}表示元路徑pk是否連接種子實(shí)體sj和候選實(shí)體ci,如果是,r=1,否則,r=0。

      不難發(fā)現(xiàn),第二重要程度與第一重要程度呈正相關(guān)關(guān)系,由于某一條元路徑的第一重要程度越大,說明該條元路徑越能反映種子實(shí)體間的特定共同特征,因此,根據(jù)第一重要程度確定的候選實(shí)體的第二重要程度更為有效。

      同樣需要說明的是,確定每一候選實(shí)體的第二重要程度的方法不限于上述一種,現(xiàn)有技術(shù)中存在的其他每一候選實(shí)體的第二重要程度的方法,均適用于本發(fā)明實(shí)施例。

      s105、將所述候選實(shí)體集中,所述第二重要程度滿足第一預(yù)設(shè)條件的候選實(shí)體確定為待擴(kuò)展實(shí)體,并將所述待擴(kuò)展實(shí)體添加至所述種子實(shí)體集中。

      在本發(fā)明實(shí)施例提供的一種具體實(shí)施方式中,步驟s105包括:

      將所述候選實(shí)體集中,所述第二重要程度大于第二預(yù)設(shè)值的候選實(shí)體確定為待擴(kuò)展實(shí)體。

      在本發(fā)明實(shí)施例提供的另一種具體實(shí)施方式中,步驟s105包括:

      根據(jù)所述第二重要程度,按降序?qū)λ龊蜻x實(shí)體集中的候選實(shí)體進(jìn)行排序,獲得第一候選實(shí)體集;并且,從所述第一候選實(shí)體集中選取排序在前的第一預(yù)設(shè)數(shù)量的候選實(shí)體作為待擴(kuò)展實(shí)體。

      申請人根據(jù)所述目標(biāo)知識圖譜,對所選取的第一預(yù)設(shè)數(shù)量的待擴(kuò)展實(shí)體采用相應(yīng)的排序指標(biāo)進(jìn)行有效性驗(yàn)證,證實(shí)了本方法的有效性。

      本發(fā)明實(shí)施例提供的一種實(shí)體集擴(kuò)展方法,一方面,將包含的數(shù)據(jù)量巨大的目標(biāo)知識圖譜作為數(shù)據(jù)源進(jìn)行實(shí)體集擴(kuò)展;另一方面,從與目標(biāo)知識圖譜對應(yīng)的異質(zhì)信息網(wǎng)絡(luò)中確定種子實(shí)體之間的元路徑,由于確定出的每一條元路徑為連接種子實(shí)體對的路徑,因此,這些元路徑能準(zhǔn)確的反映種子實(shí)體間的特定共同特征,進(jìn)而利用每一條元路徑的第一重要程度所確定的候選實(shí)體的第二重要程度更為有效,進(jìn)而根據(jù)第二重要程度確定的待擴(kuò)展實(shí)體也更為有效。因此,本發(fā)明實(shí)施例提供的實(shí)體集擴(kuò)展方法能夠提高實(shí)體集擴(kuò)展的有效性。

      另外,諸如yago等知識圖譜已經(jīng)成為一種快速檢索信息的工具。隨著知識圖譜的流行,很多研究學(xué)者開始使用這一工具來輔助提高文本或者網(wǎng)頁中的實(shí)體集擴(kuò)展的準(zhǔn)確性。然而,目前還很少有工作利用知識圖譜作為單獨(dú)的數(shù)據(jù)源來進(jìn)行實(shí)體集擴(kuò)展。但是把知識圖譜作為單獨(dú)的數(shù)據(jù)源進(jìn)行實(shí)體集擴(kuò)展是很有必要的,原因如下:(1)傳統(tǒng)的基于文本或者網(wǎng)頁信息的實(shí)體集擴(kuò)展方法需要復(fù)雜的自然語言處理,這一定程度上會影響擴(kuò)展的準(zhǔn)確率,而將知識圖譜作為單獨(dú)的數(shù)據(jù)源不需要這些復(fù)雜的預(yù)處理;(2)知識圖譜包含有豐富的實(shí)體和語義關(guān)系,這對實(shí)體集擴(kuò)展將會很有裨益。

      在本發(fā)明實(shí)施例提供的一種具體實(shí)施方式中,上述步驟s101中,根據(jù)預(yù)先確定的種子實(shí)體集,從目標(biāo)知識圖譜中抽取候選實(shí)體的步驟,可以包括:

      步驟1、確定預(yù)先確定的種子實(shí)體集中每個(gè)種子實(shí)體的實(shí)體類型集;

      例如,對于上文中確定的種子實(shí)體集{李安,陳凱歌,張藝謀}中的種子實(shí)體李安來說,對應(yīng)的實(shí)體類型集為{人,導(dǎo)演};對于種子實(shí)體陳凱歌和張藝謀來說,對應(yīng)的種子實(shí)體類型集為{人,導(dǎo)演,演員}。

      步驟2、將所有實(shí)體類型集的交集確定為初始實(shí)體類型集;

      由于相同的實(shí)體類型更能反映實(shí)體間的共同特征,因此,將所有實(shí)體類型集的交集確定為初始實(shí)體類型集,可以更加有效的進(jìn)行實(shí)體集擴(kuò)展。

      具體如,步驟1中確定的實(shí)體類型集{人,導(dǎo)演}和種子實(shí)體類型集{人,導(dǎo)演,演員}的交集為{人,導(dǎo)演},也即確定初始實(shí)體類型集為{人,導(dǎo)演}。

      步驟3、根據(jù)所述初始實(shí)體類型集中各實(shí)體類型的層級關(guān)系,確定所述種子實(shí)體集對應(yīng)的最終實(shí)體類型集;將所述目標(biāo)知識圖譜中,符合所述最終實(shí)體類型集中實(shí)體類型的實(shí)體作為候選實(shí)體。

      由于初始實(shí)體類型集{人,導(dǎo)演}中的“人”這一實(shí)體類型雖然能夠反映種子實(shí)體的共同特征,但是其粒度較粗,導(dǎo)致確定出的候選實(shí)體的語義不明確。因此,在本發(fā)明實(shí)施例中,進(jìn)一步地根據(jù)初始實(shí)體類型集中各實(shí)體類型的層級關(guān)系,確定所述種子實(shí)體集對應(yīng)的最終實(shí)體類型集。

      在本發(fā)明實(shí)施例中將包含子類型越多的實(shí)體類型稱為“粗粒度”實(shí)體類型,相應(yīng)的將子類型稱為“細(xì)粒度”實(shí)體類型,例如,在“人”和“導(dǎo)演”這兩個(gè)實(shí)體類型中,“人”屬于粗粒度,“導(dǎo)演”屬于細(xì)粒度,本領(lǐng)域技術(shù)人員可以理解的是,實(shí)體類型的粗粒度和細(xì)粒度是相對而言的。

      具體的,初始實(shí)體類型集中各實(shí)體類型的層級關(guān)系指的是各實(shí)體類型的從屬關(guān)系,例如,在初始實(shí)體類型集{人,導(dǎo)演}中,“導(dǎo)演”這一實(shí)體類型從屬于“人”這一實(shí)體類型。

      更為具體的,上述步驟3可以包括:

      子步驟1、確定所述初始實(shí)體類型集所對應(yīng)的至少一個(gè)層級關(guān)系,其中,任一層級關(guān)系為至少兩個(gè)實(shí)體類型的從屬關(guān)系;

      子步驟2、將每一層級關(guān)系中位于最底層的實(shí)體類型,確定為最終實(shí)體類型,并將所確定的最終實(shí)體類型組成為最終實(shí)體類型集。

      知識圖譜中實(shí)體類型或者關(guān)系類型經(jīng)常會以層級的方式組織,這一層級關(guān)系描述了實(shí)體類型或者關(guān)系類型之間的從屬關(guān)系(也稱父子關(guān)系),圖3示出了實(shí)體類型的層級關(guān)系的部分示意圖,所有這些類型共享一個(gè)根節(jié)點(diǎn)事物。

      如圖3所示,當(dāng)實(shí)體類型集為{事物,人,電影導(dǎo)演,演員,人造物,電影}時(shí),可以構(gòu)建出:電影導(dǎo)演從屬于人、人從屬于事物、演員從屬于人、電影從屬于人造物和人造物從屬于事物的層級關(guān)系。在圖3中,位于最底層的實(shí)體類型為:電影導(dǎo)演、演員和電影。

      對于步驟2中確定出的初始實(shí)體類型集{人,導(dǎo)演},位于最下層的實(shí)體類型為:導(dǎo)演。因此,最終實(shí)體類型為“導(dǎo)演”,組成的最終實(shí)體類型集為{導(dǎo)演}。

      本領(lǐng)域技術(shù)人員可以理解的是,最終實(shí)體類型集中的實(shí)體類型可以是一種也可以是多種,這都是合理的。

      不難看出,在本實(shí)施例中,一方面,由于初始實(shí)體類型集為各種子實(shí)體的實(shí)體類型集的交集,而各種子實(shí)體的實(shí)體類型集的交集中的實(shí)體類型更能反映種子實(shí)體的共同特征;另一方面,由于初始實(shí)體類型集中位于最底層的實(shí)體類型更能代表種子實(shí)體的語義,而最終侯選實(shí)體類型集是根據(jù)初始實(shí)體類型集中各實(shí)體類型的層級關(guān)系確定的,因此,根據(jù)最終侯選實(shí)體類型集抽選的候選實(shí)體,更有可能與種子實(shí)體具有特定的共同特征,更有可能被作為待擴(kuò)展實(shí)體添加至種子實(shí)體集中,這初步保證了本發(fā)明實(shí)施例提供的實(shí)體集擴(kuò)展方法的有效性。

      另外,需要說明的是,確定候選實(shí)體的方法并不限于本實(shí)施例提供的上述一種方法,現(xiàn)有技術(shù)中存在的其他確定候選實(shí)體的方法均適用于本發(fā)明實(shí)施例。

      在本發(fā)明實(shí)施例提供的一種具體實(shí)施方式中,圖1所示的實(shí)施例中的步驟s102中,所述從與所述目標(biāo)知識圖譜對應(yīng)的異質(zhì)信息網(wǎng)絡(luò)中,確定種子實(shí)體之間的元路徑,包括:

      步驟1、從與所述目標(biāo)知識圖譜對應(yīng)的所述異質(zhì)信息網(wǎng)絡(luò)中,確定一組與所述種子實(shí)體集中的種子實(shí)體對應(yīng)的節(jié)點(diǎn);

      步驟2、將確定的每一節(jié)點(diǎn)作為源節(jié)點(diǎn),遍歷所述異質(zhì)信息網(wǎng)絡(luò),當(dāng)目標(biāo)節(jié)點(diǎn)為除該源節(jié)點(diǎn)自身外的種子實(shí)體時(shí),將連接該源節(jié)點(diǎn)和該目標(biāo)節(jié)點(diǎn)的路徑確定為一條元路徑實(shí)例;

      步驟3、統(tǒng)計(jì)確定出的所有元路徑實(shí)例,并根據(jù)所述所有元路徑實(shí)例所包含的實(shí)體類型和關(guān)系類型,得到所述所有元路徑實(shí)例對應(yīng)的元路徑。

      不難看出,由于僅將所確定的一組與所述種子實(shí)體集中的種子實(shí)體對應(yīng)的節(jié)點(diǎn)作為源節(jié)點(diǎn),遍歷所述異質(zhì)信息網(wǎng)絡(luò)確定每一條重要元路徑,因此,可以縮小確定元路徑的遍歷范圍,不僅可以提高確定元路徑的效率,還有助于節(jié)約計(jì)算資源。

      下面請一并參考圖4和圖5,圖4示出了圖1所示的實(shí)施例中的步驟s102的一種詳細(xì)流程圖,也即一種元路徑確定方法的流程圖。圖5示出了利用圖4所示的一種詳細(xì)流程圖確定元路徑的原理示意圖。

      在本發(fā)明實(shí)施例提供的一種具體實(shí)施方式中,如圖4所示,圖1所示的實(shí)施例中的步驟s102中,所述從與所述目標(biāo)知識圖譜對應(yīng)的異質(zhì)信息網(wǎng)絡(luò)中,確定種子實(shí)體之間的元路徑,包括:

      s401、從與所述目標(biāo)知識圖譜對應(yīng)的異質(zhì)信息網(wǎng)絡(luò)中,確定與所述種子實(shí)體集對應(yīng)的節(jié)點(diǎn)集合,其中,所述節(jié)點(diǎn)集合中包括與所述種子實(shí)體集中的種子實(shí)體對應(yīng)的節(jié)點(diǎn);

      在一種具體實(shí)施方式中,所述節(jié)點(diǎn)集合包括與所述種子實(shí)體集中的種子實(shí)體數(shù)量相等且一一對應(yīng)的節(jié)點(diǎn)。例如,假設(shè)種子實(shí)體集為演員{1,2,3},則對應(yīng)的所述節(jié)點(diǎn)集合也為演員{1,2,3}。

      在本發(fā)明實(shí)施例中,選擇與所述種子實(shí)體集種子實(shí)體數(shù)量相等且一一對應(yīng)的節(jié)點(diǎn)組成的集合作為節(jié)點(diǎn)集合的目的是,縮小查找范圍,減少確定每條元路徑的計(jì)算量,節(jié)約計(jì)算資源。

      當(dāng)然,本領(lǐng)域技術(shù)人員可以理解的是,在計(jì)算資源比較充裕的情況下,也可以選擇與種子實(shí)體對應(yīng)但是數(shù)量多于種子實(shí)體數(shù)量的節(jié)點(diǎn)組成節(jié)點(diǎn)集合,這都是合理的。例如假設(shè)種子實(shí)體集為演員{1,2,3},所對應(yīng)的所述節(jié)點(diǎn)集合可以為演員{1,2,3,1,2,3}。

      s402、將所述節(jié)點(diǎn)集合中的每一節(jié)點(diǎn)作為第一節(jié)點(diǎn);

      為了方便描述,在本實(shí)施例中,均以種子實(shí)體集為演員{1,2,3},對應(yīng)的所述節(jié)點(diǎn)集合為演員{1,2,3}為例進(jìn)行說明。

      具體的,將節(jié)點(diǎn)集合為演員{1,2,3}中的每一節(jié)點(diǎn)作為第一節(jié)點(diǎn)。

      s403、將每一第一節(jié)點(diǎn)作為當(dāng)前源節(jié)點(diǎn);

      可選地,為了方便說明,可以首先建立一個(gè)初始結(jié)構(gòu)數(shù)據(jù)表。

      在本發(fā)明實(shí)施例中,結(jié)構(gòu)數(shù)據(jù)表基本形式如表2所示。在表2中,(s,t)表示源節(jié)點(diǎn)s和目標(biāo)節(jié)點(diǎn)t組成的實(shí)體對;σ(s,t|∏)表示當(dāng)前路徑∏下的實(shí)體對(s,t)的相似性值,如果當(dāng)前路徑∏連接的實(shí)體對(s,t)為種子實(shí)體對,則相似性值為第一數(shù)值,否則相似性值為第二數(shù)值。在本發(fā)明實(shí)施例中,第一數(shù)值大于第二數(shù)值,通常情況下,第一數(shù)值等于1,第二數(shù)值等于0。(s,…,t)表示為尋找與源節(jié)點(diǎn)s通過路徑∏連接的目標(biāo)節(jié)點(diǎn)t已經(jīng)訪問的所有節(jié)點(diǎn)。當(dāng)然,(s,…,t)并不一定必須包含于結(jié)構(gòu)數(shù)據(jù)表中。

      表2

      具體的,初始結(jié)構(gòu)數(shù)據(jù)表如圖5中的表a所示。由于在初始情況下,當(dāng)前訪問的節(jié)點(diǎn)為第一節(jié)點(diǎn)本身,因此,源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)均為第一節(jié)點(diǎn),源節(jié)點(diǎn)和目標(biāo)節(jié)點(diǎn)組成的實(shí)體對對應(yīng)的相似性值為0,已訪問的節(jié)點(diǎn)為第一節(jié)點(diǎn)本身,初始結(jié)構(gòu)數(shù)據(jù)表的相似性分?jǐn)?shù)也為0。

      s404、在所述異質(zhì)信息網(wǎng)絡(luò)中訪問與每一當(dāng)前源節(jié)點(diǎn)通過預(yù)設(shè)類型的邊連接的當(dāng)前目標(biāo)節(jié)點(diǎn),建立與邊類型對應(yīng)的多個(gè)待選結(jié)構(gòu)數(shù)據(jù)表;

      其中,任一待選結(jié)構(gòu)數(shù)據(jù)表包括:由每一第一節(jié)點(diǎn)和通過該待選結(jié)構(gòu)數(shù)據(jù)表對應(yīng)的邊類型的邊連接的當(dāng)前目標(biāo)節(jié)點(diǎn)組成的第一實(shí)體對、每一第一實(shí)體對的相似性值、已訪問過的路徑和相似性分?jǐn)?shù);所述相似性分?jǐn)?shù)為所有第一實(shí)體對的相似性值的總和;

      具體如圖5所示,在初始結(jié)構(gòu)數(shù)據(jù)表a的基礎(chǔ)上,在所述異質(zhì)信息網(wǎng)絡(luò)中訪問與當(dāng)前源節(jié)點(diǎn)1、2和3通過“表演”這條邊連接的當(dāng)前目標(biāo)節(jié)點(diǎn),以及與當(dāng)前源節(jié)點(diǎn)1、2和3通過“出生于”這條邊連接的當(dāng)前目標(biāo)節(jié)點(diǎn)。此處作為示例,僅選擇“表演”和“出生于”兩種類型的邊進(jìn)行擴(kuò)展,但本領(lǐng)域技術(shù)人員應(yīng)該理解,在實(shí)際應(yīng)用中,連接每一當(dāng)前源節(jié)點(diǎn)和當(dāng)前目標(biāo)節(jié)點(diǎn)的預(yù)設(shè)類型的邊可以是一種或兩種,也可以是兩種以上。

      在圖5中,示例性地共建立了與“表演”和“出生于”兩種類型的邊對應(yīng)的兩個(gè)待選結(jié)構(gòu)數(shù)據(jù)表,分別為表b和表c。

      s405、針對每一所述待選結(jié)構(gòu)數(shù)據(jù)表,判斷該待選結(jié)構(gòu)數(shù)據(jù)表中與每一當(dāng)前源節(jié)點(diǎn)連接的當(dāng)前目標(biāo)節(jié)點(diǎn)是否為第二節(jié)點(diǎn);如果是,將該待選結(jié)構(gòu)數(shù)據(jù)表中該當(dāng)前源節(jié)點(diǎn)對應(yīng)的第一實(shí)體對的相似性值記為第一數(shù)值,并將該當(dāng)前源節(jié)點(diǎn)對應(yīng)的已訪問過的路徑確定為一條元路徑實(shí)例,否則記為第二數(shù)值;其中,所述第二節(jié)點(diǎn)為:所述種子實(shí)體集合中與當(dāng)前源節(jié)點(diǎn)對應(yīng)的第一節(jié)點(diǎn)不同的節(jié)點(diǎn);

      具體的,在圖5中的表b和表c中,由于每一第一節(jié)點(diǎn)對應(yīng)的當(dāng)前目標(biāo)節(jié)點(diǎn)均不是第二節(jié)點(diǎn),因此,每一第一實(shí)體對的相似性值均示例性地標(biāo)記為0。

      s406、從待選結(jié)構(gòu)數(shù)據(jù)表中,選擇滿足第二預(yù)設(shè)條件的待選結(jié)構(gòu)數(shù)據(jù)表作為當(dāng)前結(jié)構(gòu)數(shù)據(jù)表;所述第二預(yù)設(shè)條件包括:待選結(jié)構(gòu)數(shù)據(jù)表中存儲的種子實(shí)體的種類最多;

      可選地,當(dāng)所存儲的種子實(shí)體種類最多的待選結(jié)構(gòu)數(shù)據(jù)表有多個(gè)時(shí),所述第二預(yù)設(shè)條件還包括:待選結(jié)構(gòu)數(shù)據(jù)表中存儲的第一實(shí)體對的數(shù)量最少。

      具體的,在圖5中,由于待選結(jié)構(gòu)數(shù)據(jù)表b中存儲的種子實(shí)體的種類大于待選結(jié)構(gòu)數(shù)據(jù)表c,因此,可以選擇待選結(jié)構(gòu)數(shù)據(jù)表b作為當(dāng)前結(jié)構(gòu)數(shù)據(jù)表。

      s407、將所述當(dāng)前結(jié)構(gòu)數(shù)據(jù)表中的每一當(dāng)前目標(biāo)節(jié)點(diǎn)更新為當(dāng)前源節(jié)點(diǎn),返回執(zhí)行所述在所述異質(zhì)信息網(wǎng)絡(luò)中訪問與每一當(dāng)前源節(jié)點(diǎn)通過預(yù)設(shè)類型的邊連接的當(dāng)前目標(biāo)節(jié)點(diǎn)的步驟;也即返回執(zhí)行步驟s404;

      具體的,如圖5所示,將當(dāng)前結(jié)構(gòu)數(shù)據(jù)表b中的當(dāng)前目標(biāo)節(jié)點(diǎn)電影12、電影17和電影18分別更新為當(dāng)前源節(jié)點(diǎn),并對表b返回執(zhí)行步驟s404。

      在圖5中,在對表b執(zhí)行步驟s404后,示例性地共建立了與“導(dǎo)演-1”和“創(chuàng)作-1”兩種類型的邊對應(yīng)的兩個(gè)待選結(jié)構(gòu)數(shù)據(jù)表,分別為表d和表e。

      需要說明的是,在圖5中,邊“導(dǎo)演-1”和“創(chuàng)作-1”中的上標(biāo)“-1”表示反向關(guān)系,也即“導(dǎo)演-1”表示“導(dǎo)演”的反向關(guān)系。例如,當(dāng)電影12通過邊“導(dǎo)演-1”與人7連接時(shí),說明電影12被人7導(dǎo)演;當(dāng)人7通過邊“導(dǎo)演”與電影12連接時(shí),說明人7導(dǎo)演了電影12。另外,結(jié)構(gòu)數(shù)據(jù)表b、d-h中最后一行的“···”表示未列出的第一實(shí)體對。

      同樣的,在圖5中的表d和表e中,由于每一第一節(jié)點(diǎn)對應(yīng)的當(dāng)前目標(biāo)節(jié)點(diǎn)均不是第二節(jié)點(diǎn),因此,每一第一實(shí)體對的相似性值均示例性地標(biāo)記為0。

      進(jìn)一步地,在圖5中,由于待選結(jié)構(gòu)數(shù)據(jù)表d中存儲的種子實(shí)體的種類大于待選結(jié)構(gòu)數(shù)據(jù)表e,因此,可以選擇待選結(jié)構(gòu)數(shù)據(jù)表d作為當(dāng)前結(jié)構(gòu)數(shù)據(jù)表,并返回執(zhí)行步驟s404。

      在對表d執(zhí)行步驟s404后,示例性地建立了與“創(chuàng)作”和“編輯”兩種類型的邊對應(yīng)的兩個(gè)待選結(jié)構(gòu)數(shù)據(jù)表f和g。在對表f和g執(zhí)行步驟s405和s406后,確定出當(dāng)前結(jié)構(gòu)數(shù)據(jù)表為h。在表h中,由于第一節(jié)點(diǎn)1、2和3對應(yīng)的當(dāng)前目標(biāo)節(jié)點(diǎn)均為第二節(jié)點(diǎn),因此,第一實(shí)體對(1,2)、(2,3)和(3,1)的相似性值均可以示例性地標(biāo)記為1。

      s408、當(dāng)每一當(dāng)前結(jié)構(gòu)數(shù)據(jù)表中已訪問的路徑長度大于第三預(yù)設(shè)值時(shí),或者當(dāng)每一當(dāng)前結(jié)構(gòu)數(shù)據(jù)表中的種子實(shí)體數(shù)目小于第四預(yù)設(shè)值時(shí),統(tǒng)計(jì)確定出的所有元路徑實(shí)例,得到所述所有元路徑實(shí)例對應(yīng)的元路徑。

      其中,第三預(yù)設(shè)值可以為預(yù)先設(shè)定的已訪問路徑的最大長度,第四預(yù)設(shè)值可以為預(yù)先設(shè)定的結(jié)構(gòu)數(shù)據(jù)表中種子實(shí)體數(shù)目應(yīng)該滿足的最小值。

      最終,如表h所示,示例性地,可以確定出一條長度為4跳的重要元路徑:

      在本實(shí)施例中,由于確定出的元路徑為連接種子實(shí)體對的重要元路徑,因此,這些元路徑能更準(zhǔn)確的反映種子實(shí)體間的特定共同特征。當(dāng)應(yīng)用本發(fā)明實(shí)施例圖4所示的實(shí)施例提供的元路徑確定方法確定出的重要元路徑進(jìn)行實(shí)體集擴(kuò)展時(shí),有效性更高。

      可選地,在本發(fā)明圖4所示的實(shí)施例中,待選結(jié)構(gòu)數(shù)據(jù)表中還包括已經(jīng)訪問的所有節(jié)點(diǎn),并將待選結(jié)構(gòu)數(shù)據(jù)表中由“第一實(shí)體對、該第一實(shí)體對的相似性值和與該第一實(shí)體對對應(yīng)的已經(jīng)訪問的所有節(jié)點(diǎn)”組成的行稱為一個(gè)元組,也即將表2中由“(s,t)、σ(s,t|∏)和(s,…,t)”組成的行稱為一個(gè)元組。在此基礎(chǔ)上,在步驟s404后和步驟s405之前,所述元路徑確定方法還包括:

      判斷每一當(dāng)前目標(biāo)節(jié)點(diǎn)是否為與該當(dāng)前目標(biāo)節(jié)點(diǎn)所在元組中存儲的已經(jīng)訪問的節(jié)點(diǎn);

      如果否,執(zhí)行步驟s405;如果是,將該當(dāng)前目標(biāo)結(jié)點(diǎn)所在的元組從相應(yīng)的待選結(jié)構(gòu)數(shù)據(jù)表中刪除后,執(zhí)行步驟s405。

      不難發(fā)現(xiàn),在本實(shí)施例中,由于待選結(jié)構(gòu)數(shù)據(jù)表的每一元組中還記錄了已經(jīng)訪問的所有節(jié)點(diǎn),并在確定每一當(dāng)前目標(biāo)節(jié)點(diǎn)時(shí),對該目標(biāo)節(jié)點(diǎn)是否為已經(jīng)訪問的節(jié)點(diǎn)進(jìn)行判斷后,可以防止確定出的元路徑構(gòu)成環(huán)路,進(jìn)而避免無休止的遍歷異質(zhì)信息網(wǎng)絡(luò),提高了元路徑的確定效率。

      可選地,在本發(fā)明實(shí)施例提供的一種具體實(shí)施方式中,圖4所示的實(shí)施例中步驟s406,也即所述從待選結(jié)構(gòu)數(shù)據(jù)表中,選擇滿足第二預(yù)設(shè)條件的待選結(jié)構(gòu)數(shù)據(jù)表作為當(dāng)前結(jié)構(gòu)數(shù)據(jù)表,包括:

      從相似性分?jǐn)?shù)不大于第一預(yù)設(shè)值的多個(gè)待選結(jié)構(gòu)數(shù)據(jù)表中,選擇滿足第二預(yù)設(shè)條件的待選結(jié)構(gòu)數(shù)據(jù)表作為當(dāng)前結(jié)構(gòu)數(shù)據(jù)表。

      不難看出,當(dāng)從相似性分?jǐn)?shù)不大于第一預(yù)設(shè)值的多個(gè)待選結(jié)構(gòu)數(shù)據(jù)表中,選擇滿足第二預(yù)設(shè)條件的待選結(jié)構(gòu)數(shù)據(jù)表作為當(dāng)前結(jié)構(gòu)數(shù)據(jù)表時(shí),可以進(jìn)一步地縮小元路徑查找范圍,減少計(jì)算量,有助于進(jìn)一步節(jié)約計(jì)算資源。

      為了進(jìn)一步地說明本發(fā)明實(shí)施例提供的一種實(shí)體集擴(kuò)展方法的有效性,申請人通過實(shí)驗(yàn)對該方法進(jìn)行了驗(yàn)證,具體驗(yàn)證過程如下:

      1)確定目標(biāo)知識圖譜

      申請人將經(jīng)典的yago知識圖譜作為目標(biāo)知識圖譜,yago知識圖譜中的數(shù)據(jù)主要來源于維基百科,wordnet和geonames。目前yago知識圖譜這個(gè)數(shù)據(jù)集有大約一千萬的實(shí)體和120百萬的事實(shí),本文主要使用yago知識圖譜中的“yagofacts”、“yagosimpletypes”和“yagotaxonomy”這三部分?jǐn)?shù)據(jù)作為數(shù)據(jù)源,這三部分?jǐn)?shù)據(jù)中包含35種關(guān)系,1.3百萬實(shí)體,三千多種實(shí)體類型。表3列出了這三部分?jǐn)?shù)據(jù)的具體描述。

      表3

      2)確定驗(yàn)證集

      申請人共選擇了有代表性的四類驗(yàn)證集來驗(yàn)證本發(fā)明實(shí)施例提供的實(shí)體集擴(kuò)展方法的有效性,四類驗(yàn)證集如下:參演史蒂文·斯皮爾伯格導(dǎo)演的電影的演員,位于加州山景城(mountainviewofcalifornia)的公司生產(chǎn)的軟件,導(dǎo)演獲得過國家電影獎(nationalfilmaward)導(dǎo)演的電影,位于馬薩諸塞州劍橋(cambridgeofmassachusetts)的大學(xué)的科學(xué)家,這四類驗(yàn)證集中的實(shí)體分別記為:演員*、軟件*、電影*和科學(xué)家*,這四類驗(yàn)證集中的實(shí)體個(gè)數(shù)分別是:112、98、653、202。

      3)有效性評價(jià)標(biāo)準(zhǔn)

      采用p@k和map標(biāo)準(zhǔn)來進(jìn)行有效性能的度量。p@k表示對侯選實(shí)體集中的候選實(shí)體按重要程度排序后,前k個(gè)結(jié)果中屬于正例的百分比。

      本文主要用p@30,p@60,p@90三個(gè)標(biāo)準(zhǔn)進(jìn)行評價(jià)。map標(biāo)準(zhǔn)是p@30,p@60和p@90的準(zhǔn)確率的平均值,具體表示為:其中,如果第i位的侯選實(shí)體為正例,則reli=1,否則,reli=0。

      3)確定比較對象

      將本發(fā)明實(shí)施例提供的一種實(shí)體集擴(kuò)展方法(metapathbasedentitysetexpansion,簡稱mp_ese)與下述三種方法進(jìn)行比較:

      (1)基于連接(link-based)的實(shí)體集擴(kuò)展方法。受文本或者網(wǎng)頁中的基于模式的方法的啟發(fā),給出基于實(shí)體一跳鏈路關(guān)系的實(shí)體集擴(kuò)展方法。

      (2)基于最近鄰(nearest-neighbor)的實(shí)體集擴(kuò)展方法。給出同時(shí)考慮一跳鏈路和一跳實(shí)體的最近鄰的實(shí)體集擴(kuò)展方法。

      (3)路徑受限隨機(jī)游走pcrw(path-constrainedrandomwalk,pcrw)的實(shí)體集擴(kuò)展方法。該方法是異質(zhì)網(wǎng)絡(luò)中基于路徑隨機(jī)游走的方法,給出基于2跳鏈路關(guān)系的實(shí)體集擴(kuò)展方法。

      對每種方法,隨機(jī)從驗(yàn)證集中選擇三個(gè)種子進(jìn)行實(shí)驗(yàn),每種方法運(yùn)行30次取平均結(jié)果進(jìn)行比較。在本發(fā)明實(shí)施例提供的實(shí)體集擴(kuò)展方法中,設(shè)置第一預(yù)設(shè)值為:m*(m-1)/2+1,其中m為種子實(shí)體的數(shù)量,元路徑的最大路徑長度設(shè)置為4。

      4)驗(yàn)證結(jié)果

      驗(yàn)證結(jié)果如圖6a至圖6d所示,圖6a至圖6d依次對應(yīng)的實(shí)體類型為:演員*、電影*、軟件*、科學(xué)家*。從圖6a至圖6d中可以看出,應(yīng)用本發(fā)明實(shí)施例提供的方法進(jìn)行實(shí)體集擴(kuò)展時(shí),準(zhǔn)確率比設(shè)定的基本方法均要高,尤其是“演員*”和“電影*”兩個(gè)類別。在“演員*”和“電影*”兩個(gè)類別上,設(shè)定的基本方法中的準(zhǔn)確率低的原因是,一跳或兩跳的鏈路不能很好地區(qū)分細(xì)粒度的實(shí)體類別,而本發(fā)明實(shí)施例提供的方法所采用的元路徑的跳數(shù)較多,能夠很好地區(qū)分細(xì)粒度的實(shí)體類別,因此準(zhǔn)確率高。在“軟件*”類別上,本發(fā)明實(shí)施例提供的方法與pcrw方法的準(zhǔn)確率相近,原因是“軟件*”是一個(gè)重疊類,除了給定的實(shí)體類,還具有另外一個(gè)粗粒度的實(shí)體類別,即同一個(gè)公司生產(chǎn)的軟件。

      另外,從圖6a至圖6d中,可以看出link-based算法在任何一個(gè)類別中的準(zhǔn)確率都明顯低于本發(fā)明實(shí)施例提供的實(shí)體集擴(kuò)展方法,原因是,link-based算法是基于一跳鏈路的,而一跳鏈路所包含的語義信息非常少,不能準(zhǔn)確的反映種子實(shí)體間的特定共同特征。而本發(fā)明實(shí)施例提供的實(shí)體集擴(kuò)展方法,采用了能夠準(zhǔn)確反映種子實(shí)體間的特定共同特征的多跳鏈路(元路徑),因此可以捕捉到種子實(shí)體的精確語義信息,進(jìn)而提高了實(shí)體集擴(kuò)展的準(zhǔn)確率。

      為了進(jìn)一步直觀地說明本發(fā)明實(shí)施例提供的實(shí)體集擴(kuò)展方法的有效性,表4列出了利用本發(fā)明實(shí)施例提供的實(shí)體集擴(kuò)展方法在“演員*”類別上,確定出的前三條重要元路徑,從表4中可以看出,這些元路徑反映了“演員*”類別的種子實(shí)體之間的潛在的特定共同特征,利用這些元路徑可以進(jìn)一步確定屬于這一類別的更多的實(shí)體作為待擴(kuò)展實(shí)體。

      表4

      總而言之,相對于設(shè)定的上述三種基本方法,本發(fā)明實(shí)施例提供的實(shí)體集擴(kuò)展方法更有效。

      相應(yīng)于上述方法實(shí)施例,本發(fā)明實(shí)施例還提供了一種實(shí)體集擴(kuò)展裝置,下面進(jìn)行詳細(xì)說明。

      如圖7所示,本發(fā)明實(shí)施例提供了一種實(shí)體集擴(kuò)展裝置,所述裝置包括:候選實(shí)體集確定模塊701、元路徑確定模塊702、第一重要程度確定模塊703、第二重要程度確定模塊704和實(shí)體集擴(kuò)展模塊705;

      候選實(shí)體集確定模塊701,用于根據(jù)預(yù)先確定的種子實(shí)體集,從目標(biāo)知識圖譜中抽取候選實(shí)體,并將抽取得到的候選實(shí)體組成候選實(shí)體集;所述目標(biāo)知識圖譜至少包括所述種子實(shí)體集中的種子實(shí)體;

      元路徑確定模塊702,用于從與所述目標(biāo)知識圖譜對應(yīng)的異質(zhì)信息網(wǎng)絡(luò)中,確定種子實(shí)體之間的元路徑;所述元路徑為:所述異質(zhì)信息網(wǎng)絡(luò)中的兩個(gè)節(jié)點(diǎn)類型之間由實(shí)體類型和關(guān)系類型組成的連接路徑;其中,所述兩個(gè)節(jié)點(diǎn)類型為所述種子實(shí)體集中不同的種子實(shí)體對應(yīng)的節(jié)點(diǎn)類型;

      第一重要程度確定模塊703,用于根據(jù)每條元路徑連接的種子實(shí)體對的數(shù)量確定每條元路徑的第一重要程度;

      第二重要程度確定模塊704,用于根據(jù)每條元路徑的第一重要程度,確定所述候選實(shí)體集中的每一候選實(shí)體的第二重要程度;

      實(shí)體集擴(kuò)展模塊705,用于將所述候選實(shí)體集中,所述第二重要程度滿足第一預(yù)設(shè)條件的候選實(shí)體確定為待擴(kuò)展實(shí)體,并將所述待擴(kuò)展實(shí)體添加至所述種子實(shí)體集中。

      本發(fā)明實(shí)施例提供的一種實(shí)體集擴(kuò)展裝置,一方面,將包含的數(shù)據(jù)量巨大的目標(biāo)知識圖譜作為數(shù)據(jù)源進(jìn)行實(shí)體集擴(kuò)展;另一方面,從與目標(biāo)知識圖譜對應(yīng)的異質(zhì)信息網(wǎng)絡(luò)中確定種子實(shí)體之間的元路徑,并且由于確定出的每一條類型的元路徑為連接種子實(shí)體對的路徑,因此,這些元路徑能準(zhǔn)確的反映種子實(shí)體間的潛在共同特征,進(jìn)而利用元路徑的第一重要程度所確定的候選實(shí)體的第二重要程度更為有效,進(jìn)而根據(jù)第二重要程度確定的待擴(kuò)展實(shí)體也更為有效。故而,本發(fā)明實(shí)施例提供的實(shí)體集擴(kuò)展方法能夠提高實(shí)體集擴(kuò)展的有效性。

      在本發(fā)明實(shí)施例提供的一種具體實(shí)施方式中,圖7所示的實(shí)施例中的候選實(shí)體集確定模塊701具體可以包括:實(shí)體類型集確定子模塊、初始實(shí)體類型集確定子模塊和最終實(shí)體類型集確定子模塊;

      實(shí)體類型集確定子模塊,用于確定預(yù)先確定的種子實(shí)體集中每個(gè)種子實(shí)體的實(shí)體類型集;

      初始實(shí)體類型集確定子模塊,用于將所有實(shí)體類型集的交集確定為初始實(shí)體類型集;

      最終實(shí)體類型集確定子模塊,用于根據(jù)所述初始實(shí)體類型集中各實(shí)體類型的層級關(guān)系,確定所述種子實(shí)體集對應(yīng)的最終實(shí)體類型集;將所述目標(biāo)知識圖譜中,符合所述最終實(shí)體類型集中實(shí)體類型的實(shí)體作為候選實(shí)體。

      更為具體的,最終實(shí)體類型集確定子模塊可以包括:第一確定單元和第二確定單元。

      第一確定單元,用于確定所述初始實(shí)體類型集所對應(yīng)的至少一個(gè)層級關(guān)系,其中,任一層級關(guān)系為至少兩個(gè)實(shí)體類型的從屬關(guān)系;

      第二確定單元,用于將每一層級關(guān)系中位于最底層的實(shí)體類型,確定為最終實(shí)體類型,并將所確定的最終實(shí)體類型組成為最終實(shí)體類型集。

      不難看出,在本實(shí)施例中,一方面,由于初始實(shí)體類型集為各種子實(shí)體的實(shí)體類型集的交集,而各種子實(shí)體的實(shí)體類型集的交集中的實(shí)體類型更能反映種子實(shí)體的共同特征;另一方面,由于初始實(shí)體類型集中位于最底層的實(shí)體類型更能代表種子實(shí)體的語義。而最終侯選實(shí)體類型集是根據(jù)初始實(shí)體類型集中各實(shí)體類型的層級關(guān)系確定的,因此,根據(jù)最終侯選實(shí)體類型集抽選的候選實(shí)體,更有可能與種子實(shí)體具有特定的共同特征,更有可能被作為待擴(kuò)展實(shí)體添加至種子實(shí)體集中,進(jìn)而可更好地保證實(shí)體集擴(kuò)展的有效性。

      在本發(fā)明實(shí)施例提供的一種具體實(shí)施方式中,圖7所示的實(shí)施例中的元路徑確定模塊702可以包括:節(jié)點(diǎn)確定子模塊、遍歷模塊和確定子模塊。

      節(jié)點(diǎn)確定子模塊,用于從與所述目標(biāo)知識圖譜對應(yīng)的所述異質(zhì)信息網(wǎng)絡(luò)中,確定一組與所述種子實(shí)體集中的種子實(shí)體對應(yīng)的節(jié)點(diǎn);

      遍歷模塊,用于將確定的每一節(jié)點(diǎn)作為源節(jié)點(diǎn),遍歷所述異質(zhì)信息網(wǎng)絡(luò),當(dāng)目標(biāo)節(jié)點(diǎn)為除該源節(jié)點(diǎn)自身外的種子實(shí)體時(shí),將連接該源節(jié)點(diǎn)和該目標(biāo)節(jié)點(diǎn)的路徑確定為一條元路徑實(shí)例;

      確定子模塊,用于統(tǒng)計(jì)確定出的所有元路徑實(shí)例,并根據(jù)所述所有元路徑實(shí)例所包含的實(shí)體類型和關(guān)系類型,得到所述所有元路徑實(shí)例對應(yīng)的元路徑。

      不難看出,由于僅將所確定的一組與所述種子實(shí)體集中的種子實(shí)體對應(yīng)的節(jié)點(diǎn)作為源節(jié)點(diǎn),遍歷所述異質(zhì)信息網(wǎng)絡(luò)確定每一條重要元路徑,因此,縮小了確定元路徑的遍歷范圍,這樣不僅可以提高確定元路徑的效率,還有助于節(jié)約計(jì)算資源。

      如圖8所示,在本發(fā)明實(shí)施例提供的一種具體實(shí)施方式中,元路徑確定模塊702可以包括:節(jié)點(diǎn)集合確定子模塊801、第一節(jié)點(diǎn)確定子模塊802、當(dāng)前源節(jié)點(diǎn)確定子模塊803、待選結(jié)構(gòu)數(shù)據(jù)表建立子模塊804、第一判斷子模塊805、選擇子模塊806、更新子模塊807和元路徑確定子模塊808;

      節(jié)點(diǎn)集合確定子模塊801,用于從與所述目標(biāo)知識圖譜對應(yīng)的異質(zhì)信息網(wǎng)絡(luò)中,確定與所述種子實(shí)體集對應(yīng)的節(jié)點(diǎn)集合,其中,所述節(jié)點(diǎn)集合中包括與所述種子實(shí)體集中的種子實(shí)體對應(yīng)的節(jié)點(diǎn);

      第一節(jié)點(diǎn)確定子模塊802,用于將所述節(jié)點(diǎn)集合中的每一節(jié)點(diǎn)作為第一節(jié)點(diǎn);

      當(dāng)前源節(jié)點(diǎn)確定子模塊803,用于將每一第一節(jié)點(diǎn)作為當(dāng)前源節(jié)點(diǎn);

      待選結(jié)構(gòu)數(shù)據(jù)表建立子模塊804,用于在所述異質(zhì)信息網(wǎng)絡(luò)中訪問與每一當(dāng)前源節(jié)點(diǎn)通過預(yù)設(shè)類型的邊連接的當(dāng)前目標(biāo)節(jié)點(diǎn),建立與邊類型對應(yīng)的多個(gè)待選結(jié)構(gòu)數(shù)據(jù)表;

      第一判斷子模塊805,用于針對每一所述待選結(jié)構(gòu)數(shù)據(jù)表,判斷該待選結(jié)構(gòu)數(shù)據(jù)表中與每一當(dāng)前源節(jié)點(diǎn)連接的當(dāng)前目標(biāo)節(jié)點(diǎn)是否為第二節(jié)點(diǎn);如果是,將該待選結(jié)構(gòu)數(shù)據(jù)表中該當(dāng)前源節(jié)點(diǎn)對應(yīng)的第一實(shí)體對的相似性值記為第一數(shù)值,并將該當(dāng)前源節(jié)點(diǎn)對應(yīng)的已訪問過的路徑確定為一條元路徑實(shí)例,否則記為第二數(shù)值;其中,所述第二節(jié)點(diǎn)為:所述種子實(shí)體集合中與當(dāng)前源節(jié)點(diǎn)對應(yīng)的第一節(jié)點(diǎn)不同的節(jié)點(diǎn);

      選擇子模塊806,用于從待選結(jié)構(gòu)數(shù)據(jù)表中,選擇滿足第二預(yù)設(shè)條件的待選結(jié)構(gòu)數(shù)據(jù)表作為當(dāng)前結(jié)構(gòu)數(shù)據(jù)表;所述第二預(yù)設(shè)條件包括:待選結(jié)構(gòu)數(shù)據(jù)表中存儲的種子實(shí)體的種類最多;

      更新子模塊807,用于將所述當(dāng)前結(jié)構(gòu)數(shù)據(jù)表中的每一當(dāng)前目標(biāo)節(jié)點(diǎn)更新為當(dāng)前源節(jié)點(diǎn),并觸發(fā)待選結(jié)構(gòu)數(shù)據(jù)表建立子模塊804;

      元路徑確定子模塊808,用于當(dāng)每一當(dāng)前結(jié)構(gòu)數(shù)據(jù)表中已訪問的路徑長度大于第三預(yù)設(shè)值時(shí),或者當(dāng)每一當(dāng)前結(jié)構(gòu)數(shù)據(jù)表中的種子實(shí)體數(shù)目小于第四預(yù)設(shè)值時(shí),統(tǒng)計(jì)確定出的所有元路徑實(shí)例,并根據(jù)所述所有元路徑實(shí)例所包含的實(shí)體類型和關(guān)系類型,得到所述所有元路徑實(shí)例對應(yīng)的元路徑。

      其中,第三預(yù)設(shè)值可以為預(yù)先設(shè)定的已訪問路徑的最大長度,第四預(yù)設(shè)值可以為預(yù)先設(shè)定的結(jié)構(gòu)數(shù)據(jù)表中種子實(shí)體數(shù)目應(yīng)該滿足的最小值。

      在本實(shí)施例中,由于確定出的元路徑為連接種子實(shí)體對的重要元路徑,因此,這些元路徑能更準(zhǔn)確的反映種子實(shí)體間的特定共同特征。當(dāng)應(yīng)用本發(fā)明實(shí)施例圖8所示的實(shí)施例提供的裝置確定出的重要元路徑進(jìn)行實(shí)體集擴(kuò)展時(shí),準(zhǔn)確率更高。

      可選地,在本發(fā)明圖8所示的實(shí)施例中,待選結(jié)構(gòu)數(shù)據(jù)表中還包括已經(jīng)訪問的所有節(jié)點(diǎn),并將待選結(jié)構(gòu)數(shù)據(jù)表中由“第一實(shí)體對、該第一實(shí)體對的相似性值和與該第一實(shí)體對對應(yīng)的已經(jīng)訪問的所有節(jié)點(diǎn)”組成的行稱為一個(gè)元組。在此基礎(chǔ)上,在觸發(fā)待選結(jié)構(gòu)數(shù)據(jù)表建立子模塊804之后,在觸發(fā)第一判斷子模塊805之前,元路徑確定模塊702還可以包括:

      第二判斷子模塊,用于判斷每一當(dāng)前目標(biāo)節(jié)點(diǎn)是否為與該當(dāng)前目標(biāo)節(jié)點(diǎn)所在元組中存儲的已經(jīng)訪問的節(jié)點(diǎn);

      觸發(fā)子模塊,用于在第二判斷子模塊獲得的判斷結(jié)果為否的情況下,觸發(fā)待選結(jié)構(gòu)數(shù)據(jù)表建立子模塊804;在第二判斷子模塊獲得的判斷結(jié)果為是的情況下,將該當(dāng)前目標(biāo)結(jié)點(diǎn)所在的元組從相應(yīng)的待選結(jié)構(gòu)數(shù)據(jù)表中刪除后,觸發(fā)待選結(jié)構(gòu)數(shù)據(jù)表建立子模塊804。

      不難發(fā)現(xiàn),在本實(shí)施例中,由于待選結(jié)構(gòu)數(shù)據(jù)表的每一元組中還記錄了已經(jīng)訪問的所有節(jié)點(diǎn),并在確定每一當(dāng)前目標(biāo)節(jié)點(diǎn)時(shí),對該目標(biāo)節(jié)點(diǎn)是否為已經(jīng)訪問的節(jié)點(diǎn)進(jìn)行判斷后,可以防止確定出的元路徑構(gòu)成環(huán)路,進(jìn)而避免無休止的遍歷異質(zhì)信息網(wǎng)絡(luò),提高元路徑的確定效率。

      可選地,在本發(fā)明實(shí)施例提供的一種具體實(shí)施方式中,圖8所示的實(shí)施例中選擇子模塊806,具體用于從相似性分?jǐn)?shù)不大于第一預(yù)設(shè)值的多個(gè)待選結(jié)構(gòu)數(shù)據(jù)表中,選擇滿足第二預(yù)設(shè)條件的待選結(jié)構(gòu)數(shù)據(jù)表作為當(dāng)前結(jié)構(gòu)數(shù)據(jù)表。

      不難看出,當(dāng)從相似性分?jǐn)?shù)不大于第一預(yù)設(shè)值的多個(gè)待選結(jié)構(gòu)數(shù)據(jù)表中,選擇滿足第二預(yù)設(shè)條件的待選結(jié)構(gòu)數(shù)據(jù)表作為當(dāng)前結(jié)構(gòu)數(shù)據(jù)表時(shí),可以進(jìn)一步地縮小元路徑查找范圍,減少計(jì)算量,有助于進(jìn)一步提高元路徑確定效率、節(jié)約計(jì)算資源。

      在本發(fā)明實(shí)施例提供的一種具體實(shí)施方式中,圖7所示的實(shí)施例中的第一重要程度確定模塊703,具體用于根據(jù)每條元路徑連接的所有種子實(shí)體對確定每條元路徑所連接的種子實(shí)體對總數(shù);根據(jù)每條元路徑所連接的種子實(shí)體對總數(shù)和第一預(yù)設(shè)模型,確定每條元路徑的第一重要程度;

      其中,所述第一預(yù)設(shè)模型為:其中各參數(shù)的物理意義與上述方法實(shí)施例中對應(yīng)相同,此處不再贅述。

      不難看出,第一重要程度與元路徑所連接的種子實(shí)體對總數(shù)呈正相關(guān),元路徑所連接的種子實(shí)體對越多,說明該條元路徑越能反映種子實(shí)體間的特定共同特征,因此,根據(jù)元路徑所連接的種子實(shí)體對總數(shù)確定的第一重要程度值更為準(zhǔn)確。

      在本發(fā)明實(shí)施例提供的一種具體實(shí)施方式中,圖7所示的實(shí)施例中的第二重要程度確定模塊704,用于根據(jù)每條元路徑的第一重要程度和第二預(yù)設(shè)模型,確定所述候選實(shí)體集中的每一候選實(shí)體的第二重要程度;

      其中,所述第二預(yù)設(shè)模型為:

      其中各參數(shù)的物理意義與上述方法實(shí)施例中對應(yīng)相同,此處不再贅述。

      不難發(fā)現(xiàn),第二重要程度與第一重要程度呈正相關(guān)關(guān)系,由于某一條元路徑的第一重要程度越大,說明該元路徑越能反映種子實(shí)體間的特定共同特征,因此,根據(jù)第一重要程度確定的候選實(shí)體的第二重要程度更為準(zhǔn)確。

      在本發(fā)明實(shí)施例提供的一種具體實(shí)施方式中,圖7所示的實(shí)施例中的實(shí)體集擴(kuò)展模塊705,具體用于將所述候選實(shí)體集中,所述第二重要程度大于第二預(yù)設(shè)值的候選實(shí)體確定為待擴(kuò)展實(shí)體。

      在本發(fā)明實(shí)施例提供的另一種具體實(shí)施方式中,圖7所示的實(shí)施例中的實(shí)體集擴(kuò)展模塊705,具體用于根據(jù)所述第二重要程度,按降序?qū)λ龊蜻x實(shí)體集中的候選實(shí)體進(jìn)行排序,獲得第一候選實(shí)體集;并且,從所述第一候選實(shí)體集中選取排序在前的第一預(yù)設(shè)數(shù)量的候選實(shí)體作為待擴(kuò)展實(shí)體。

      申請人根據(jù)所述目標(biāo)知識圖譜,對所選取的第一預(yù)設(shè)數(shù)量的待擴(kuò)展實(shí)體采用相應(yīng)的排序指標(biāo)進(jìn)行有效性驗(yàn)證,證實(shí)了本方法的有效性。

      在上述兩個(gè)實(shí)施例中,均是根據(jù)第二重要程度確定待擴(kuò)展實(shí)體,由于第二重要程度能夠正確反映候選實(shí)體與種子實(shí)體間的特定共同特征,因此,根據(jù)第二重要程度確定出的待擴(kuò)展實(shí)體更為有效,保證了實(shí)體擴(kuò)展的有效性。

      需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

      本說明書中的各個(gè)實(shí)施例均采用相關(guān)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對于裝置實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。

      以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1