面向在線百科的知識(shí)庫(kù)自動(dòng)更新方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種面向在線百科的知識(shí)庫(kù)自動(dòng)更新的方法,該方法實(shí)時(shí)監(jiān)控知識(shí)庫(kù)的知識(shí)語料來源,根據(jù)知識(shí)語料更新時(shí)間和知識(shí)語料內(nèi)容變化,獲取新增的知識(shí)語料與內(nèi)容改變的知識(shí)語料;從所獲取的知識(shí)語料識(shí)別知識(shí)的變化,以及將基于所識(shí)別的知識(shí)的變化來更新知識(shí)庫(kù)。該方法實(shí)時(shí)感知更新的知識(shí),自動(dòng)判斷更新知識(shí)在知識(shí)庫(kù)中所處的位置,以及將更新的知識(shí),自動(dòng)合并添加到知識(shí)庫(kù)中,可避免知識(shí)庫(kù)的滯后性并滿足用戶對(duì)知識(shí)庫(kù)時(shí)新性的要求。
【專利說明】面向在線百科的知識(shí)庫(kù)自動(dòng)更新方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)知識(shí)庫(kù),尤其涉及網(wǎng)絡(luò)知識(shí)庫(kù)自動(dòng)更新方法及系統(tǒng)。
【背景技術(shù)】
[0002]知識(shí)庫(kù)通常包含一組概念、實(shí)例和關(guān)系的集合,是結(jié)構(gòu)化、全面有組織的知識(shí)集群,是采用某種知識(shí)表示方式組織、管理和使用的互相聯(lián)系的知識(shí)集合。這些知識(shí)包括與領(lǐng)域相關(guān)的理論知識(shí)、事實(shí)數(shù)據(jù),由專家經(jīng)驗(yàn)得到的啟發(fā)式知識(shí),如某領(lǐng)域內(nèi)有關(guān)的定義、定理和運(yùn)算法則以及常識(shí)性知識(shí)等。在知識(shí)工程領(lǐng)域中,知識(shí)描述的要素一般包括概念、實(shí)例、關(guān)系和屬性四個(gè)要素。
[0003]近年來,構(gòu)建知識(shí)庫(kù)是國(guó)內(nèi)外工業(yè)界開發(fā)和學(xué)術(shù)界研究的一個(gè)熱點(diǎn),目前,世界各國(guó)各個(gè)組織建立的知識(shí)庫(kù)多達(dá)50余種,相關(guān)的應(yīng)用系統(tǒng)更是達(dá)到了上百種。其中,有代表性的知識(shí)庫(kù)有 DBpedia、YAGO> Probase、WikiTaxonomy> Freebase、Omega 等。知識(shí)庫(kù)之所以得到廣泛關(guān)注,原因在于知識(shí)庫(kù)在很多應(yīng)用中起到至關(guān)重要的作用,如在搜索引擎中,Google、Bing、百度、搜狗等使用知識(shí)庫(kù)幫助理解用戶查詢、感知用戶查詢意圖、進(jìn)行查詢擴(kuò)展和查詢問答等;在0的? Web資源發(fā)現(xiàn)中,知識(shí)庫(kù)可以輔助進(jìn)行Deep Web查詢選擇;在社交網(wǎng)絡(luò)中,知識(shí)庫(kù)可以輔助挖掘社交數(shù)據(jù)等。
[0004]而在知識(shí)庫(kù)構(gòu)造中,在線百科(如Wikipedia、百度百科、互動(dòng)百科等)作為聚集互聯(lián)網(wǎng)用戶的群體智慧建立的大規(guī)模、隨時(shí)間演化、可分享的網(wǎng)絡(luò)百科全書,成為構(gòu)造知識(shí)庫(kù)首選的知識(shí)語料來源。在線百科知識(shí)語料,比起結(jié)構(gòu)性較弱的普通網(wǎng)頁(yè),其包含的百科詞條不僅具有較高的質(zhì)量而且可以保證所得到知識(shí)的精度,因此,在線百科數(shù)據(jù)成為構(gòu)造知識(shí)庫(kù)的重要語料來源,很多知識(shí)庫(kù)都是基于百科數(shù)據(jù)構(gòu)造的,如:DBpedia、YAG0、WikiTaxonomy、Omega等。然而,在線百科數(shù)據(jù)是隨時(shí)間不斷演化的,其在不斷的增加、刪除和修改,因此,為了保持知識(shí)庫(kù)的時(shí)新性,在最大程度上避免知識(shí)庫(kù)的滯后,需要不斷對(duì)知識(shí)庫(kù)進(jìn)行更新,以適應(yīng)用戶對(duì)知識(shí)的實(shí)時(shí)性的需求。知識(shí)庫(kù)的更新可分為兩個(gè)層面的工作:一是已有知識(shí)的更新;二是新的知識(shí)的加入。
[0005]目前,專門針對(duì)知識(shí)庫(kù)的更新的工作較少,很多工作都是從數(shù)據(jù)庫(kù)更新的角度展開,如對(duì)數(shù)據(jù)庫(kù)數(shù)據(jù)的增加、刪除和修改等。從更新方式來講,知識(shí)庫(kù)的更新方法可分為兩類:一種是定期重建的方式,另一種是實(shí)時(shí)更新的方式。
[0006]a)定期重建的方式。該方式本質(zhì)上是一種離線更新的方式:按照知識(shí)庫(kù)構(gòu)造的方法,定期在知識(shí)語料源上重新執(zhí)行知識(shí)庫(kù)構(gòu)造流程,從而得到最新的知識(shí)庫(kù),這種方式雖然操作簡(jiǎn)單,但是仍然存在很多缺陷,例如,知識(shí)庫(kù)更新過程耗時(shí)長(zhǎng)、難以重用知識(shí)庫(kù)構(gòu)造過程中人工修正的工作、無法滿足適應(yīng)用戶對(duì)知識(shí)的時(shí)新性的需求。
[0007]b)實(shí)時(shí)更新的方式。該方式定期采集數(shù)據(jù)源,檢測(cè)數(shù)據(jù)源內(nèi)容的變化,將發(fā)生變化的內(nèi)容提供給領(lǐng)域?qū)<?,由人工判斷發(fā)生變化的內(nèi)容涉及哪些知識(shí),或者基于由專家制定的各種規(guī)則來判斷哪些知識(shí)發(fā)生了變化并將其同步到知識(shí)庫(kù)中,從而得到更新的知識(shí)庫(kù)。這種方式存在以下局限性:(I)難以編寫完備的規(guī)則表示知識(shí)的增加、刪除、修改等;(2)難以滿足用戶實(shí)時(shí)更新的需求。
[0008]綜上所述,目前,對(duì)知識(shí)庫(kù)的更新仍然沒有很有效的方法,尤其是在面對(duì)用戶對(duì)知識(shí)的實(shí)時(shí)性更新需求方面,遠(yuǎn)遠(yuǎn)達(dá)不到用戶的要求。在更新數(shù)據(jù)的自動(dòng)化感知方面,缺乏有效的辦法能夠自動(dòng)識(shí)別知識(shí)的變化,和能夠動(dòng)態(tài)響應(yīng)這些變化的更新機(jī)制。
【發(fā)明內(nèi)容】
[0009]因此,本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺陷,提供一種面向在線百科的知識(shí)庫(kù)自動(dòng)更新的方法。
[0010]本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:
[0011]一方面,本發(fā)明提供了一種面向在線百科的知識(shí)庫(kù)自動(dòng)更新的方法,包括:
[0012]步驟1,實(shí)時(shí)監(jiān)控知識(shí)庫(kù)的知識(shí)語料來源,根據(jù)知識(shí)語料更新時(shí)間和知識(shí)語料內(nèi)容變化,獲取新增的知識(shí)語料與內(nèi)容改變的知識(shí)語料;
[0013]步驟2,從所獲取的知識(shí)語料識(shí)別其表示的知識(shí),其中所識(shí)別的知識(shí)包括實(shí)例、實(shí)例的屬性以及實(shí)例所屬的概念;
[0014]步驟3,基于所識(shí)別的知識(shí)來更新知識(shí)庫(kù)。
[0015]在上述技術(shù)方案中,在步驟I中,所述知識(shí)語料來源可包括定期備份的知識(shí)語料庫(kù),所述步驟I可包括:
[0016]從該知識(shí)語料庫(kù)的源網(wǎng)站獲取新的語料庫(kù)備份和語料庫(kù)修改歷史;
[0017]對(duì)于所獲取的新的語料庫(kù)備份中的每個(gè)知識(shí)語料,獲取該知識(shí)語料在語料庫(kù)修改歷史中第一次出現(xiàn)的時(shí)間和最后一次出現(xiàn)的時(shí)間,
[0018]如果所述第一次出現(xiàn)的時(shí)間大于與知識(shí)庫(kù)當(dāng)前使用的知識(shí)語料庫(kù)備份的時(shí)間,則確定該知識(shí)語料是新增的知識(shí)語料;
[0019]如果所述第一出現(xiàn)的時(shí)間小于或等于知識(shí)庫(kù)當(dāng)前使用的知識(shí)語料庫(kù)備份的時(shí)間,并且知識(shí)庫(kù)當(dāng)前使用的知識(shí)語料庫(kù)備份的時(shí)間小于或等于所述最后一次出現(xiàn)的時(shí)間,則確定該知識(shí)語料是內(nèi)容改變的知識(shí)語料。
[0020]在上述技術(shù)方案中,在步驟I中所述知識(shí)語料來源還可包括通過網(wǎng)絡(luò)搜索采集的知識(shí)語料的集合,所述步驟I還可包括:
[0021]基于知識(shí)庫(kù)當(dāng)前使用的知識(shí)語料集合中各知識(shí)語料對(duì)應(yīng)URL發(fā)送HTTP請(qǐng)求;
[0022]從對(duì)該HTTP請(qǐng)求的響應(yīng)的頭部信息中提取該知識(shí)語料的頁(yè)面內(nèi)容最后一次發(fā)生變化的時(shí)間;
[0023]如果所述最后一次發(fā)生變化的時(shí)間大于知識(shí)庫(kù)當(dāng)前所使用的該知識(shí)語料頁(yè)面上次更新的時(shí)間,則確定該知識(shí)語料是內(nèi)容改變的知識(shí)語料;
[0024]對(duì)所確定的內(nèi)容改變的知識(shí)語料的頁(yè)面內(nèi)容進(jìn)行分析,若發(fā)現(xiàn)當(dāng)前的知識(shí)語料集合中不存在的URL,則該URL對(duì)應(yīng)的知識(shí)語料是新增的知識(shí)語料。
[0025]在上述技術(shù)方案中,所述步驟3可包括:
[0026]對(duì)于從新增的知識(shí)語料中識(shí)別的實(shí)例,則根據(jù)實(shí)例所屬的概念判斷知識(shí)庫(kù)中是否存在與之對(duì)應(yīng)的概念;若存在,則將該新增的實(shí)例,添加到知識(shí)庫(kù)對(duì)應(yīng)的概念下;若不存在,則在知識(shí)庫(kù)中創(chuàng)建一個(gè)新的概念,并將該實(shí)例添加到該概念下;
[0027]對(duì)于從內(nèi)容改變的知識(shí)語料中識(shí)別的實(shí)例信息,則利用該實(shí)例信息替換知識(shí)庫(kù)中對(duì)應(yīng)的實(shí)例的信息。
[0028]在上述技術(shù)方案中,所述步驟3中對(duì)于所識(shí)別的每個(gè)實(shí)例可執(zhí)行下列步驟:
[0029]步驟31)判斷知識(shí)庫(kù)中是否存在與該實(shí)例名稱且所屬概念相同的實(shí)例,如果存在,則該實(shí)例的信息添加到該知識(shí)庫(kù)中對(duì)應(yīng)實(shí)例中;如果不存在,則執(zhí)行步驟32);
[0030]步驟32)從知識(shí)庫(kù)中選出與該實(shí)例名稱相同但所述概念不同的實(shí)例,計(jì)算每個(gè)所選出的實(shí)例與該實(shí)例的匹配度,如果所計(jì)算的最大匹配度大于設(shè)定的閾值,則該實(shí)例的信息添加到與該實(shí)例具有最大匹配度的實(shí)例中,否則,執(zhí)行步驟33);
[0031]步驟33)從知識(shí)庫(kù)中查找與該實(shí)例所屬的概念相匹配的概念,若不存在匹配的概念,則在知識(shí)庫(kù)中創(chuàng)建該概念,并在該概念下創(chuàng)建該實(shí)例;若存在匹配的概念,計(jì)算該匹配的概念下的每個(gè)實(shí)例與該實(shí)例的匹配度,如果所計(jì)算的最大匹配度大于設(shè)定的閾值,則該實(shí)例的信息添加到與該實(shí)例具有最大匹配度的實(shí)例中,否則,在該匹配的概念下創(chuàng)建該實(shí)例。
[0032]在上述技術(shù)方案中,在所述步驟32)和步驟33)中,可以通過下面的公式來計(jì)算兩個(gè)實(shí)例間的匹配度:
[0033]
【權(quán)利要求】
1.一種面向在線百科的知識(shí)庫(kù)自動(dòng)更新的方法,該方法包括: 步驟1,實(shí)時(shí)監(jiān)控知識(shí)庫(kù)的知識(shí)語料來源,根據(jù)知識(shí)語料更新時(shí)間和知識(shí)語料內(nèi)容變化,獲取新增的知識(shí)語料與內(nèi)容改變的知識(shí)語料; 步驟2,從所獲取的知識(shí)語料識(shí)別其表示的知識(shí),其中所識(shí)別的知識(shí)包括實(shí)例、實(shí)例的屬性以及實(shí)例所屬的概念; 步驟3,基于所識(shí)別的知識(shí)來更新知識(shí)庫(kù)。
2.根據(jù)權(quán)利要求1所述的方法,在步驟I中,所述知識(shí)語料來源包括定期備份的知識(shí)語料庫(kù),所述步驟I包括: 從該知識(shí)語料庫(kù)的源網(wǎng)站獲取新的語料庫(kù)備份和語料庫(kù)修改歷史; 對(duì)于所獲取的新的語料庫(kù)備份中的每個(gè)知識(shí)語料,獲取該知識(shí)語料在語料庫(kù)修改歷史中第一次出現(xiàn)的時(shí)間和最后一次出現(xiàn)的時(shí)間, 如果所述第一次出現(xiàn)的時(shí)間大于與知識(shí)庫(kù)當(dāng)前使用的知識(shí)語料庫(kù)備份的時(shí)間,則確定該知識(shí)語料是新增的知識(shí)語料; 如果所述第一出現(xiàn)的時(shí)間小于或等于知識(shí)庫(kù)當(dāng)前使用的知識(shí)語料庫(kù)備份的時(shí)間,并且知識(shí)庫(kù)當(dāng)前使用的知識(shí)語料庫(kù)備份的時(shí)間小于或等于所述最后一次出現(xiàn)的時(shí)間,則確定該知識(shí)語料是內(nèi)容改變的知識(shí)語料。
3.根據(jù)權(quán)利要求2所述的方法,在所述步驟I中,所述知識(shí)語料來源還包括通過網(wǎng)絡(luò)搜索采集的知識(shí)語料的集合,所述步驟I包括: 基于知識(shí)庫(kù)當(dāng)前使用的知識(shí)語料集合中`各知識(shí)語料對(duì)應(yīng)URL發(fā)送HTTP請(qǐng)求; 從對(duì)該HTTP請(qǐng)求的響應(yīng)的頭部信息中提取該知識(shí)語料的頁(yè)面內(nèi)容最后一次發(fā)生變化的時(shí)間; 如果所述最后一次發(fā)生變化的時(shí)間大于知識(shí)庫(kù)當(dāng)前所使用的該知識(shí)語料頁(yè)面上次更新的時(shí)間,則確定該知識(shí)語料是內(nèi)容改變的知識(shí)語料; 對(duì)所確定的內(nèi)容改變的知識(shí)語料的頁(yè)面內(nèi)容進(jìn)行分析,若發(fā)現(xiàn)當(dāng)前的知識(shí)語料集合中不存在的URL,則該URL對(duì)應(yīng)的知識(shí)語料是新增的知識(shí)語料。
4.根據(jù)權(quán)利要求1所述的方法,所述步驟3包括: 對(duì)于從新增的知識(shí)語料中識(shí)別的實(shí)例,則根據(jù)實(shí)例所屬的概念判斷知識(shí)庫(kù)中是否存在與之對(duì)應(yīng)的概念;若存在,則將該新增的實(shí)例,添加到知識(shí)庫(kù)對(duì)應(yīng)的概念下;若不存在,則在知識(shí)庫(kù)中創(chuàng)建一個(gè)新的概念,并將該實(shí)例添加到該概念下; 對(duì)于從內(nèi)容改變的知識(shí)語料中識(shí)別的實(shí)例信息,則利用該實(shí)例信息替換知識(shí)庫(kù)中對(duì)應(yīng)的實(shí)例的信息。
5.根據(jù)權(quán)利要求1所述的方法,所述步驟3中對(duì)于所識(shí)別的每個(gè)實(shí)例執(zhí)行下列步驟: 步驟31)判斷知識(shí)庫(kù)中是否存在與該實(shí)例名稱且所屬概念相同的實(shí)例,如果存在,則該實(shí)例的信息添加到該知識(shí)庫(kù)中對(duì)應(yīng)實(shí)例中;如果不存在,則執(zhí)行步驟32); 步驟32)從知識(shí)庫(kù)中選出與該實(shí)例名稱相同但所述概念不同的實(shí)例,計(jì)算每個(gè)所選出的實(shí)例與該實(shí)例的匹配度,如果所計(jì)算的最大匹配度大于設(shè)定的閾值,則該實(shí)例的信息添加到與該實(shí)例具有最大匹配度的實(shí)例中,否則,執(zhí)行步驟33); 步驟33)從知識(shí)庫(kù)中查找與該實(shí)例所屬的概念相匹配的概念,若不存在匹配的概念,則在知識(shí)庫(kù)中創(chuàng)建該概念,并在該概念下創(chuàng)建該實(shí)例;若存在匹配的概念,計(jì)算該匹配的概念下的每個(gè)實(shí)例與該實(shí)例的匹配度,如果所計(jì)算的最大匹配度大于設(shè)定的閾值,則該實(shí)例的信息添加到與該實(shí)例具有最大匹配度的實(shí)例中,否則,在該匹配的概念下創(chuàng)建該實(shí)例。
6.根據(jù)權(quán)利要求5所述的方法,在所述步驟32)和步驟33)中,通過下面的公式來計(jì)算兩個(gè)實(shí)例間的匹配度:
7.根據(jù)權(quán)利要求6所述的方法,其中屬性Pi與P」之間的相似度為屬性Pi與P」的屬性名的文本相似度和Pi與P」的屬性名的語義相似度的線性加權(quán)。
8.根據(jù)權(quán)利要求6所述的方法,其中屬性Pi與P」之間的相似度為屬性Pi與P」的屬性名的文本相似度。
9.根據(jù)權(quán)利要求6所述的方法,其中屬性Pi與P」之間的相似度為屬性Pi與P」的屬性名的語義相似度。
10.一種面向在線百科的知識(shí)庫(kù)自動(dòng)更新的系統(tǒng),該系統(tǒng)包括: 用于實(shí)時(shí)監(jiān)控知識(shí)庫(kù)的知識(shí)語料來源,根據(jù)知識(shí)語料更新時(shí)間和知識(shí)語料內(nèi)容變化,獲取新增的知識(shí)語料與內(nèi)容改變的知識(shí)語料的裝置; 用于從所獲取的知識(shí)語料識(shí)別其表示的知識(shí)的裝置,其中所識(shí)別的知識(shí)包括實(shí)例、實(shí)例的屬性以及實(shí)例所屬的概念; 用于基于所識(shí)別的知識(shí)來更新知識(shí)庫(kù)的裝置。
【文檔編號(hào)】G06F17/30GK103823879SQ201410072608
【公開日】2014年5月28日 申請(qǐng)日期:2014年2月28日 優(yōu)先權(quán)日:2014年2月28日
【發(fā)明者】程學(xué)旗, 王元卓, 林海倫, 賈巖濤, 熊錦華, 許洪波, 馮凱 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所