国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      文檔檢索設(shè)備和方法

      文檔序號:6429873閱讀:183來源:國知局
      專利名稱:文檔檢索設(shè)備和方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及信息檢索領(lǐng)域,具體涉及一種文檔檢索設(shè)備和方法。
      背景技術(shù)
      隨著信息時代的到來,可檢索的文檔的數(shù)量不斷增長。如何有效地在大量文檔中查找有用信息變得十分關(guān)鍵。信息檢索(Information Retrieval, IR)技術(shù)可用于在文檔集合中搜索特定信息,其可被進(jìn)一步細(xì)分為搜索文檔中包含的信息、搜索文檔本身、搜索描述文檔的元數(shù)據(jù)、在數(shù)據(jù)庫中搜索文本、聲音、圖像或數(shù)據(jù)(無論是關(guān)系型單機數(shù)據(jù)庫還是超文本聯(lián)網(wǎng)數(shù)據(jù)庫,例如以太網(wǎng)或內(nèi)容/文檔管理系統(tǒng))。
      在進(jìn)行文檔檢索時,文檔檢索系統(tǒng)具有兩個主要任務(wù)第一,針對用戶查詢來查找相關(guān)文檔;第二,評估匹配結(jié)果并根據(jù)文檔的相關(guān)性對文檔進(jìn)行排序。許多傳統(tǒng)的文檔檢索系統(tǒng)依賴于關(guān)鍵字搜索。這些系統(tǒng)主要考慮若干特定因素來執(zhí)行文檔檢索,例如查詢在文檔中出現(xiàn)的頻率和位置、指向文檔的超鏈接、文檔訪問信息,等等。已經(jīng)提出了語義網(wǎng)(Semantic Web, SW)技術(shù),該技術(shù)能夠使機器理解信息的語義或含義。語義網(wǎng)(SW)技術(shù)旨在提供對給定知識領(lǐng)域中的概念和關(guān)系的形式化描述,例如資源描述框架(RDF)和Web本體語言(0WL)。因此,可以利用語義網(wǎng)技術(shù)來提高文檔檢索的精確度。近年來,出現(xiàn)了若干使用本體(Ontology)來提高檢索精確度的方法。本體以機器可理解的方式給出了對信息語義的形式化描述,有助于發(fā)掘查詢和文檔中隱含的語義并處理自然語言中的多義性和同義性的問題,還能夠理解查詢或文檔中概念的上下文信息。參考文獻(xiàn)I (P. Castells. M. Fernandes, and D. Vallet, An Adaptation of theVector-Space Model for Ontology-Based Information Retrieval, IEEETransactionson Knowledge and Data Engineering, 2007)提出了一種向文檔分配相關(guān)性分?jǐn)?shù)的方法,主要包括以下步驟1)從文檔和查詢中抽取概念;2)使用向量空間模型來計算文檔和查詢之間的相似度;3)把上一步中獲得的分?jǐn)?shù)與利用基于關(guān)鍵字的算法計算的相似度分?jǐn)?shù)進(jìn)行組合。參考文獻(xiàn)2 (Tuukka Ruotsalo and Eero Hyvonen, A Method for DeterminingOntology-Based Semantic Relevance, Proceeding of DEXA2007)提出了一種方法,利用基本的領(lǐng)域本體來計算注釋的互相關(guān)性,由此來擴展詞頻-逆向文件頻率方法(termfrequency-inverse document frequency,下文簡稱 TF-IDF 方法)。參考文獻(xiàn)3(W02006001906 A3)提出了一種基于圖的排序算法。該算法使用自然語言處理技術(shù)和域本體為每一個文本構(gòu)建圖,然后對節(jié)點進(jìn)行排序以用于執(zhí)行文本處理,例如消除歧義和關(guān)鍵字抽取。然而,現(xiàn)有的這些方法主要利用從查詢和文檔中獲得的本體概念(類和實例)來進(jìn)行檢索,而沒有考慮到文檔中隱含的豐富的語義信息,從而導(dǎo)致檢索的精確度不高。實際上,文檔中的概念以及概念之間的隱含語義信息均有助于確定文檔與查詢的相關(guān)程度。僅僅考慮查詢和文檔中的概念不能夠很好地反映出用戶的實際檢索需求。

      發(fā)明內(nèi)容
      為了解決上述技術(shù)問題,本發(fā)明提出了一種文檔檢索設(shè)備和方法,通過采用文檔中隱含的語義關(guān)聯(lián)信息來執(zhí)行文檔檢索。具體地,根據(jù)本發(fā)明的文檔檢索設(shè)備和方法首先構(gòu)造超圖(hyper-graph)來描述文檔中隱含的語義信息,然后使用域本體來改進(jìn)超圖。這樣,當(dāng)針對特定的查詢執(zhí)行文檔檢索時,可以通過超圖計算文檔相對于特定查詢的相關(guān)性分?jǐn)?shù),并利用相關(guān)性分?jǐn)?shù)對文檔進(jìn)行排序。根據(jù)本發(fā)明的一個方面,提供了一種文檔檢索設(shè)備,包括超圖構(gòu)造單元,被配置為針對目標(biāo)文檔集合中的文檔構(gòu)造超圖,以描述該文檔中包含的隱含語義信息;以及文檔 排序單元,被配置為基于超圖構(gòu)造單元所構(gòu)造的超圖,針對特定查詢在目標(biāo)文檔集合中進(jìn)行檢索,并對檢索結(jié)果進(jìn)行排序。優(yōu)選地,超圖構(gòu)造單元包括概念抽取子單元,被配置為使用域本體信息從文檔中抽取概念并計算概念的權(quán)重;超圖構(gòu)造子單元,被配置為針對文檔構(gòu)造初始超圖;超圖改進(jìn)子單元,被配置為使用域本體信息來改進(jìn)初始超圖;以及權(quán)重分配子單元,被配置為向改進(jìn)的超圖中的節(jié)點和邊分配權(quán)重。優(yōu)選地,超圖構(gòu)造子單元被配置為針對文檔中的概念的集合,創(chuàng)建與每一個概念相對應(yīng)的節(jié)點,以形成節(jié)點集合;針對文檔中的每一個句子,增加由該句子中所包含的概念的集合形成的邊,以形成邊集合;以及形成由節(jié)點集合和邊集合組成的初始超圖。優(yōu)選地,超圖改進(jìn)子單元被配置為如果初始超圖中的兩個節(jié)點所對應(yīng)的概念在域本體中具有相同的含義,則合并這兩個節(jié)點;如果初始超圖中的任意數(shù)目的節(jié)點所對應(yīng)的概念在域本體中直接關(guān)聯(lián),則增加連接這些節(jié)點的邊;以及如果初始超圖中的兩條邊所對應(yīng)的概念在域本體或初始超圖中距離接近,則合并這兩條邊。優(yōu)選地,權(quán)重分配子單元被配置為基于特定概念在文檔中出現(xiàn)的頻率,向與該特定概念相對應(yīng)的節(jié)點分配權(quán)重;基于特定邊中包含的概念在文檔中出現(xiàn)的頻率、特定邊在文檔中出現(xiàn)的頻率以及特定邊的新鮮度,向該特定邊分配權(quán)重,其中,所述特定邊的新鮮度是所述特定邊中任意兩個節(jié)點的語義關(guān)聯(lián)的新鮮度之和。優(yōu)選地,當(dāng)兩個節(jié)點在域本體上的語義距離不大于所述特定邊中的節(jié)點個數(shù)減I的差時,所述兩個節(jié)點語義關(guān)聯(lián)的新鮮度是1,否則所述兩個節(jié)點語義關(guān)聯(lián)的新鮮度是所述兩個節(jié)點在域本體上的語義距離除以所述特定邊中的節(jié)點個數(shù)減I的差。優(yōu)選地,文檔排序單元包括最小擴展樹生成子單元,被配置為針對特定查詢利用超圖構(gòu)造單元所構(gòu)造的超圖來生成最小擴展樹;相關(guān)性計算子單元,被配置為計算所生成的最小擴展樹的語義相關(guān)性分?jǐn)?shù);以及文檔排序子單元,被配置為根據(jù)語義相關(guān)性分?jǐn)?shù)對文檔進(jìn)行排序。優(yōu)選地,最小擴展樹生成子單元被配置為使用貪婪算法來生成最小擴展樹。優(yōu)選地,相關(guān)性計算子單元被配置為通過計算最小擴展樹中的所有邊的權(quán)重的平均值,獲得語義相關(guān)性分?jǐn)?shù)。根據(jù)本發(fā)明的另一個方面,提供了一種文檔檢索方法,包括針對目標(biāo)文檔集合中的文檔構(gòu)造超圖,以描述該文檔中包含的隱含語義信息;以及基于所構(gòu)造的超圖,針對特定查詢在目標(biāo)文檔集合中進(jìn)行檢索,并對檢索結(jié)果進(jìn)行排序。優(yōu)選地,構(gòu)造超圖的步驟包括使用域本體信息從文檔中抽取概念并計算概念的權(quán)重;針對文檔構(gòu)造初始超圖;使用域本體信息來改進(jìn)初始超圖;以及向改進(jìn)的超圖中的節(jié)點和邊分配權(quán)重。優(yōu)選地,構(gòu)造初始超圖的步驟包括針對文檔中的概念的集合,創(chuàng)建與每一個概念相對應(yīng)的節(jié)點,以形成節(jié)點集合;針對文檔中的每一個句子,增加由該句子中所包含的概念的集合形成的邊,以形成邊集合;以及形成由節(jié)點集合和邊集合組成的初始超圖。優(yōu)選地,改進(jìn)初始超圖的步驟包括如果初始超圖中的兩個節(jié)點所對應(yīng)的概念在域本體中具有相同的含義,則合并這兩個節(jié)點;如果初始超圖中的任意數(shù)目的節(jié)點所對應(yīng)的概念在域本體中直接關(guān)聯(lián),則增加連接這些節(jié)點的邊;以及如果初始超圖中的兩條邊所對應(yīng)的概念在域本體或初始超圖中距離接近,則合并這兩條邊。
      優(yōu)選地,分配權(quán)重的步驟包括基于特定概念在文檔中出現(xiàn)的頻率,向與該特定概念相對應(yīng)的節(jié)點分配權(quán)重;以及基于特定邊中包含的概念在文檔中出現(xiàn)的頻率、特定邊在文檔中出現(xiàn)的頻率以及特定邊的新鮮度,向該特定邊分配權(quán)重,其中,特定邊的新鮮度是特定邊中任意兩個節(jié)點的語義關(guān)聯(lián)的新鮮度之和。優(yōu)選地,當(dāng)兩個節(jié)點在域本體上的語義距離不大于所述特定邊中的節(jié)點個數(shù)減I的差時,所述兩個節(jié)點語義關(guān)聯(lián)的新鮮度是1,否則所述兩個節(jié)點語義關(guān)聯(lián)的新鮮度是所述兩個節(jié)點在域本體上的語義距離除以所述特定邊中的節(jié)點個數(shù)減I的差。優(yōu)選地,在目標(biāo)文檔集合中進(jìn)行檢索并對檢索結(jié)果進(jìn)行排序的步驟包括針對特定查詢利用所構(gòu)造的超圖來生成最小擴展樹;計算所生成的最小擴展樹的語義相關(guān)性分?jǐn)?shù);以及根據(jù)語義相關(guān)性分?jǐn)?shù)對文檔進(jìn)行排序。優(yōu)選地,生成最小擴展樹的步驟包括使用貪婪算法來生成最小擴展樹。優(yōu)選地,計算語義相關(guān)性分?jǐn)?shù)的步驟包括通過計算最小擴展樹中的所有邊的權(quán)重的平均值,獲得語義相關(guān)性分?jǐn)?shù)。本發(fā)明提出的文檔檢索設(shè)備和方法利用了文檔中隱含的豐富的語義信息,通過為文檔建立超圖來計算文檔相對于特定查詢的相關(guān)性分?jǐn)?shù),并且基于計算得到的相關(guān)性分?jǐn)?shù)對文檔進(jìn)行排序,提高了文檔檢索的精確度,從而能夠更好地滿足用戶的實際檢索需求。


      通過下文結(jié)合附圖的詳細(xì)描述,本發(fā)明的上述和其它特征將會變得更加明顯,其中圖I是示出了根據(jù)本發(fā)明一個實施例的文檔檢索設(shè)備的框圖;圖2是示出了根據(jù)本發(fā)明一個實施例的文檔檢索設(shè)備中的超圖構(gòu)造單元的框圖;圖3是示出了超圖構(gòu)造子單元所構(gòu)造的超圖的示意圖;圖4(a)是示出了對圖3所示的超圖執(zhí)行節(jié)點的合并操作的示意圖;圖4(b)是示出了對圖3所示的超圖執(zhí)行邊的增加操作的示意圖;圖4(c)是示出了對圖3所示的超圖執(zhí)行邊的合并操作的示意圖;圖5是示出了根據(jù)本發(fā)明一個實施例的文檔檢索設(shè)備中的文檔排序單元的框圖6是示出了根據(jù)本發(fā)明一個實施例的文檔檢索方法的流程圖;以及圖7是示出了根據(jù)本發(fā)明一個實施例的文檔檢索方法的詳細(xì)步驟的流程圖。
      具體實施方式

      下面,通過結(jié)合附圖對本發(fā)明的具體實施例的描述,本發(fā)明的原理和實現(xiàn)將會變得明顯。應(yīng)當(dāng)注意的是,本發(fā)明不應(yīng)局限于下文所述的具體實施例。另外,為了簡便起見,省略了與本發(fā)明無關(guān)的公知技術(shù)的詳細(xì)描述。首先,通過下表I對本說明書中的幾個術(shù)語的含義做出如下說明
      超圖:I超圖是圖的一般化定義。在超圖中,每一條_邊可以連接任意數(shù)目的節(jié)點。_語義路徑語義路徑是指本體中的一連串的關(guān)聯(lián),即ri(di,ri)...rx(dx,rx),其中,ry和(17+1屬于相同
      ___
      語義距離給定兩個概念C1和C2,其語義距離是兩者之_3]__間最短的語義路徑的長度,記為D (C1, C2)o最小擴展樹 給定圖G以及若干節(jié)點^v1...Vw丨,最小擴展樹是在圖G上連接所有給定節(jié)點、并且具有_最小邊數(shù)的樹。_語義相關(guān)性 給定一些概念,語義相關(guān)性是用于測量這些概念在基于文檔生成的超圖上的接近程度的__度量。_表I圖I是示出了根據(jù)本發(fā)明一個實施例的文檔檢索設(shè)備10的框圖。如圖I所示,本實施例中的文檔檢索設(shè)備10包括超圖構(gòu)造單元110和文檔排序單元120。其中,超圖構(gòu)造單元110針對目標(biāo)文檔集合中的每一個文檔建立超圖,以便對文檔中包含的隱含語義進(jìn)行建模。文檔排序單元120基于超圖構(gòu)造單元110所生成的超圖,針對特定的查詢對文檔進(jìn)行處理,以獲得文檔檢索的結(jié)果。下面,結(jié)合附圖2-5對超圖構(gòu)造單元110和文檔排序單元120的結(jié)構(gòu)和操作進(jìn)行詳細(xì)描述。圖2是示出了圖I所示的文檔檢索設(shè)備10中的超圖構(gòu)造單元110的框圖??梢钥闯?,圖2所示的超圖構(gòu)造單元110包括概念抽取子單元1110、超圖構(gòu)造子單元1120、超圖改進(jìn)子單元1130和權(quán)重分配子單元1140。概念抽取子單元1110使用概念識別技術(shù)并基于域本體而從目標(biāo)文檔中抽取概念,然后計算概念的權(quán)重。例如,概念抽取子單元1110可以使用已知的TF-IDF方法來計算概念的權(quán)重。超圖構(gòu)造子單元1120針對特定的文檔而構(gòu)造初始超圖。在文檔中,如果多個概念出現(xiàn)在相同的上下文中,則認(rèn)為這些概念之間存在直接的語義關(guān)聯(lián),可將其看作文檔中存在的隱含語義信息。在本發(fā)明中,“相同的上下文”是指在同一個句子中。下面描述超圖構(gòu)造子單元1120的操作。首先,超圖構(gòu)造子單元1120針對文檔中識別的概念的集合C,創(chuàng)建與每一個概念相對應(yīng)的節(jié)點V,以形成節(jié)點集合V。然后,針對文檔中的每一個句子,如果該句子中包含概念集合ICpC2,...,CJ,其中η為該句子中包含的節(jié)點(概念)數(shù)量;則超圖構(gòu)造子單元1120增加由該概念集合IC1, C2, , CJ形成的邊e,以形成邊集合Ε。最終,超圖構(gòu)造子單元1120形成由G(V,E)表示的超圖。圖3示出了超圖構(gòu)造子單元1120所構(gòu)造的超圖的一個例子。從圖3可以看出,該示例超圖包括7個節(jié)點(節(jié)點①-⑦)以及5條邊(圍繞節(jié)點①-⑦的封閉曲線)。具體地,這五條邊是由節(jié)點①和②組成的邊,由節(jié)點①和③組成的邊,由節(jié)點②和④組成的邊,由節(jié)點③、⑤和⑥組成的邊,以及由節(jié)點③、⑤和⑦組成的邊。如上文所述,在超圖中,每一條邊可以連接任意數(shù)目的節(jié)點。由于文檔的作者通常不會在文檔中記載(從而省略)其認(rèn)為已經(jīng)是公知的語義信·息,因此由超圖構(gòu)造子單元1120所構(gòu)造的超圖可能并不完善。為了使所構(gòu)造的超圖能夠由計算機進(jìn)行處理,采用超圖改進(jìn)子單元1130向超圖中增加這些省略的信息。超圖改進(jìn)子單元1130使用域本體來改進(jìn)超圖構(gòu)造子單元1120所構(gòu)造的初始超圖。具體地,超圖改進(jìn)子單元1130可以執(zhí)行以下兩種操作節(jié)點操作和邊操作。節(jié)點操作(合并)是指如果超圖中的兩個節(jié)點所對應(yīng)的概念在域本體中具有相同的含義,則合并這兩個節(jié)點;同時,合并這兩個節(jié)點的邊。圖4(a)示出了對圖3所示的超圖執(zhí)行節(jié)點操作的一個示例。如圖4(a)所示,假定節(jié)點①和②在本體中具有相同的含義,則超圖改進(jìn)子單元1130把節(jié)點①和②相合并以形成節(jié)點①,并且相應(yīng)地對節(jié)點①和②的邊也進(jìn)行合并。如圖4(a)右半部分所示,執(zhí)行節(jié)點操作后形成的超圖中只有6個節(jié)點和4條邊。邊操作(增加與合并)是指如果超圖中的任意數(shù)目的節(jié)點所對應(yīng)的概念在域本體中是“鄰居”(即它們在本體中直接關(guān)聯(lián)),則增加一條連接這些節(jié)點的邊;如果超圖中的兩條邊所對應(yīng)的概念在域本體或初始超圖中距離接近,則合并這兩條邊。圖4(b)示出了對圖3所示的超圖執(zhí)行邊操作的一個示例。如圖4(b)所示,假定節(jié)點④和⑦在本體中直接關(guān)聯(lián),則增加一條連接節(jié)點④和⑦的邊。這樣,執(zhí)行邊操作(增加)后形成的超圖中存在7個節(jié)點和6條邊。圖4(c)是示出了對超圖執(zhí)行邊操作的示意圖。如圖4(c)所示,假定超圖中原先存在兩條邊,即由節(jié)點①和②組成的邊和由節(jié)點①和③組成的邊。如果從域本體中獲知節(jié)點②和③在本體知識中直接關(guān)聯(lián)(即“鄰居”),則可以把節(jié)點①和②組成的邊和由節(jié)點①和③組成的邊進(jìn)行合并,從而形成由節(jié)點①、②和③組成的邊。權(quán)重分配子單元1140基于文檔中的語義信息的重要性,向改進(jìn)后的超圖中的節(jié)點和邊分配權(quán)重。具體地,權(quán)重分配子單元1140執(zhí)行以下操作(I)基于特定概念在文檔中出現(xiàn)的頻率(次數(shù)),向與該特定概念相對應(yīng)的節(jié)點分配權(quán)重。例如,對于節(jié)點V來說,其權(quán)重表示為weight (V) = Freq (t),其中t是節(jié)點V所對應(yīng)的概念,F(xiàn)req (t)是概念t在文檔中出現(xiàn)的頻率(次數(shù))。(2)基于特定邊e中包含的概念t在文檔中出現(xiàn)的頻率(次數(shù))Freqtenil(e)、特定邊e在文檔中出現(xiàn)的頻率(次數(shù))Freqralatim(e),以及該特定邊的新鮮度Nov (e),向該特定邊e分配權(quán)重。例如,對于每一條邊e(e = Iv1, v2,. . . , vk}),其中k表示該邊中包含的節(jié)點總數(shù);其權(quán)重表示為weight (e) = Freqterm (e) *Freqrelation (e) *Nov (e),其中,F(xiàn)reqterm (e) = (weight (V1) +weight (v2) +. . . +weight (vk)) /k ;其中,新鮮度是指對于給定文檔以及兩個概念,該文檔能把兩個概念的語義距離拉近多少。新鮮度Nov(e) = Σ NovGvi, V」}) ,0 < i, j彡k ;其中對于任意兩個概念Vi, Vj,如果它們之間的語義距離(表示為D({vi,vj}))不大于k-1,則NoV({Vi,VjD = I ;否則,Nov({ν,,ν,.}) =D({Vi,Vj})/(k-l)。新鮮度Nov(e)是很重要的,這是因為新的信息會縮短 兩個概念之間的語義距離。圖5是示出了圖I所示的文檔檢索設(shè)備10中的文檔排序單元120的框圖。如圖5所示,文檔排序單元120包括最小擴展樹生成子單元1210、相關(guān)性計算子單元1220和文檔排序子單元1230。最小擴展樹生成子單元1210利用超圖構(gòu)造單元110所構(gòu)造的超圖來生成最小擴展樹。例如,最小擴展樹生成子單元1210可以采用貪婪算法來生成最小擴展樹。在貪婪算法中,總是以最短距離來連接任意兩個節(jié)點。當(dāng)所有給定節(jié)點都連接完成時,算法執(zhí)行結(jié)束。相關(guān)性計算子單元1220計算所生成的最小擴展樹的語義相關(guān)性分?jǐn)?shù)。例如,給定文檔Docl以及查詢( , q2,...., qn),最小擴展樹生成子單元1210計算得到的針對該查詢的最小擴展樹是T= Ir,(1,%,....,911)},其中1'是1'的根節(jié)點,且!11是1'中的邊的數(shù)目。那么,相關(guān)性計算子單元1220以如下方式計算文檔Docl相對于該查詢的語義相關(guān)性分?jǐn)?shù)Score (Docl) = Σ (weight (ej+weight (e2)+···+weight (em))/m。文檔排序子單元1230根據(jù)計算得到的文檔的語義相關(guān)性分?jǐn)?shù),對目標(biāo)文檔進(jìn)行排序,以獲得最終的文檔檢索結(jié)果。下面給出文檔檢索設(shè)備10的一個具體應(yīng)用示例。假設(shè)目標(biāo)文檔Docl包含以下內(nèi)容“計算機科學(xué)領(lǐng)域中的信息檢索研究的是如何對文檔進(jìn)行存儲、建立索引、檢索和排序”,而目標(biāo)文檔Doc2包含以下內(nèi)容“在本文中,使用圖匹配技術(shù)來改善信息檢索”。用戶輸入的查詢中包括三個關(guān)鍵字“信息檢索”、“文檔”和“圖”,期望查找將文檔描述為圖以提高信息檢索能力的文檔。那么,根據(jù)現(xiàn)有技術(shù)的文檔檢索設(shè)備得到的結(jié)果是Docl與Doc2相對于該查詢的分?jǐn)?shù)是相同的。這是因為,關(guān)鍵字“信息檢索”和“文檔”在Docl中的絕對距離與關(guān)鍵字“信息檢索”和“圖”在Doc2中的絕對距離是相同的。而采用本發(fā)明的文檔檢索設(shè)備10會得到不同的結(jié)果。這是因為,盡管關(guān)鍵字“信息檢索”和“文檔”在Docl中的絕對距離與關(guān)鍵字“信息檢索”和“圖”在Doc2中的絕對距離相同,然而他們的相對距離有所不同。具體地,假設(shè)關(guān)鍵字“信息檢索”和“文檔”在Docl中的相對距離是D( “信息檢索”,“文檔”)=1,而“信息檢索”和“圖”在Doc2中的相對距離是D( “信息檢索”,“圖”)=5 (這是因為,假設(shè)兩組關(guān)鍵字的概念頻率和邊頻率均為1,而前者的新鮮度為1,后者的新鮮度為5)。因此,Docl和Doc2的語義相關(guān)性分?jǐn)?shù)分別為Score (Docl) = Weight (e ( “信息檢索“文檔”))=I ;Score (Docl) = Weight (e ( “信息檢索“圖”))=5 ;因此,在本發(fā)明的文檔檢索設(shè)備10的檢索結(jié)果中,Doc2將會排在Docl之前。換句話說,Doc2是用戶更想要的文檔。圖6是示出了根據(jù)本發(fā)明一個實施例的文檔檢索方法60的流程圖。如圖6所示,方法60在步驟S610處開始。在步驟S620,針對目標(biāo)文檔集合中的每一個文檔構(gòu)造超圖,以描述該文檔中的隱含語義。圖7中的左半部分(a)示出了構(gòu)造超圖的一個具體示例過程。如圖7所示,首先在步驟S6210,使用概念識別技術(shù)并基于域本體而從目標(biāo)文檔中抽取概念,然后計算概念的 權(quán)重。例如,可以使用已知的TF-IDF方法來計算概念的權(quán)重。接下來,在步驟S6220,針對每一個文檔而構(gòu)造初始超圖。在文檔中,如果多個概念出現(xiàn)在相同的上下文中,則認(rèn)為這些概念之間存在直接的語義關(guān)聯(lián)。具體地,針對某個特定文檔中的概念的集合C,創(chuàng)建與每一個概念相對應(yīng)的節(jié)點,以形成節(jié)點集合V。然后,針對該文檔中的每一個句子,如果該句子中包含概念集合ICpC2,...,CJ,則增加由該概念集合{C1; C2, , CJ形成的邊,以形成邊集合E。最終,形成由G (V,E)表示的超圖。然后,在步驟S6230,使用域本體來改進(jìn)初始超圖。具體地,可以執(zhí)行上文參考附圖4描述的節(jié)點操作和邊操作來改進(jìn)初始超圖。最后,在步驟S6240,基于文檔中的語義信息的重要性,向改進(jìn)后的超圖中的節(jié)點和邊分配權(quán)重。例如,可以基于特定概念在文檔中出現(xiàn)的頻率(次數(shù)),向與該特定概念相對應(yīng)的節(jié)點分配權(quán)重,并基于特定邊中的概念的頻率、特定邊在文檔中出現(xiàn)的頻率(次數(shù))以及該特定邊的新鮮度,向該特定邊分配權(quán)重?;氐綀D6,在步驟S620之后的步驟S630處,基于步驟S620中生成的超圖,針對特定的查詢對文檔進(jìn)行檢索。圖7中的右半部分(b)示出了對文檔進(jìn)行檢索的一個具體示例過程。如圖7所示,首先在步驟S6310,利用步驟S620中生成的超圖來生成最小擴展樹。例如,可以采用貪婪算法來生成最小擴展樹。在貪婪算法中,總是以最短距離來連接任意兩個節(jié)點。當(dāng)所有給定節(jié)點都連接完成時,算法執(zhí)行結(jié)束。接下來,在步驟S6320,計算所生成的最小擴展樹的語義相關(guān)性分?jǐn)?shù)。例如,給定文檔Docl以及查詢( , q2,...., qn),最小擴展樹生成子單元1210計算得到的針對該查詢的最小擴展樹是T = {r,(qi,q2,. . . .,qn)},其中r是T的根節(jié)點,且m是T中的邊的數(shù)目。那么,相關(guān)性計算子單元1220以如下方式計算文檔Docl相對于該查詢的語義相關(guān)性分?jǐn)?shù)Score (Docl) = Σ (weight (ej+weight (e2)+···+weight (em))/m。最后,在步驟S6330,根據(jù)計算得到的語義相關(guān)性分?jǐn)?shù),對文檔進(jìn)行排序,以獲得最終的文檔檢索結(jié)果。返回圖6,在步驟S630執(zhí)行完畢后,方法60在步驟S640處結(jié)束。本發(fā)明提出的文檔檢索設(shè)備和方法利用了文檔中隱含的豐富的語義信息,通過為文檔建立超圖來計算文檔相對于特定查詢的相關(guān)性分?jǐn)?shù),并且基于計算得到的相關(guān)性分?jǐn)?shù)對文檔進(jìn)行排序,提高了文檔檢索的精確度,能夠更好地滿足用戶的實際檢索需求。
      盡管以上已經(jīng)結(jié)合本發(fā)明的優(yōu)選實施例示出了本發(fā)明,但是本領(lǐng)域的技術(shù)人員將會理解,在不脫離本發(fā)明的精神和范圍的情況下,可以對本發(fā)明進(jìn)行各種修改、替換和改變。因此,本發(fā)明不應(yīng)由上述實施例來限定,而應(yīng)由所附權(quán)利要求及其等價物來限定?!?br> 權(quán)利要求
      1.一種文檔檢索設(shè)備,包括 超圖構(gòu)造單元,被配置為針對目標(biāo)文檔集合中的文檔構(gòu)造超圖,以描述該文檔中包含的隱含語義信息;以及 文檔排序單元,被配置為基于超圖構(gòu)造單元所構(gòu)造的超圖,針對特定查詢在目標(biāo)文檔集合中進(jìn)行檢索,并對檢索結(jié)果進(jìn)行排序。
      2.根據(jù)權(quán)利要求I所述的文檔檢索設(shè)備,其中,所述超圖構(gòu)造單元包括 概念抽取子單元,被配置為使用域本體信息從文檔中抽取概念并計算概念的權(quán)重; 超圖構(gòu)造子單元,被配置為針對文檔構(gòu)造初始超圖; 超圖改進(jìn)子單元,被配置為使用域本體信息來改進(jìn)初始超圖;以及 權(quán)重分配子單元,被配置為向改進(jìn)的超圖中的節(jié)點和邊分配權(quán)重。
      3.根據(jù)權(quán)利要求2所述的文檔檢索設(shè)備,其中,所述超圖構(gòu)造子單元被配置為 針對文檔中的概念的集合,創(chuàng)建與每一個概念相對應(yīng)的節(jié)點,以形成節(jié)點集合; 針對文檔中的每一個句子,增加由該句子中所包含的概念的集合形成的邊,以形成邊集合;以及 形成由節(jié)點集合和邊集合組成的初始超圖。
      4.根據(jù)權(quán)利要求2所述的文檔檢索設(shè)備,其中,所述超圖改進(jìn)子單元被配置為 如果初始超圖中的兩個節(jié)點所對應(yīng)的概念在域本體中具有相同的含義,則合并這兩個節(jié)點; 如果初始超圖中的任意數(shù)目的節(jié)點所對應(yīng)的概念在域本體中直接關(guān)聯(lián),則增加連接這些節(jié)點的邊;以及 如果初始超圖中的兩條邊所對應(yīng)的概念在域本體或初始超圖中距離接近,則合并這兩條邊。
      5.根據(jù)權(quán)利要求2所述的文檔檢索設(shè)備,其中,所述權(quán)重分配子單元被配置為 基于特定概念在文檔中出現(xiàn)的頻率,向與該特定概念相對應(yīng)的節(jié)點分配權(quán)重;以及 基于特定邊中包含的概念在文檔中出現(xiàn)的頻率、特定邊在文檔中出現(xiàn)的頻率以及特定邊的新鮮度,向該特定邊分配權(quán)重,其中,所述特定邊的新鮮度是所述特定邊中任意兩個節(jié)點的語義關(guān)聯(lián)的新鮮度之和。
      6.根據(jù)權(quán)利要求5所述的文檔檢索設(shè)備,其中,當(dāng)兩個節(jié)點在域本體上的語義距離不大于所述特定邊中的節(jié)點個數(shù)減I的差時,所述兩個節(jié)點語義關(guān)聯(lián)的新鮮度是1,否則所述兩個節(jié)點語義關(guān)聯(lián)的新鮮度是所述兩個節(jié)點在域本體上的語義距離除以所述特定邊中的節(jié)點個數(shù)減I的差。
      7.根據(jù)權(quán)利要求I所述的文檔檢索設(shè)備,其中,所述文檔排序單元包括 最小擴展樹生成子單元,被配置為針對特定查詢利用超圖構(gòu)造單元所構(gòu)造的超圖來生成最小擴展樹; 相關(guān)性計算子單元,被配置為計算所生成的最小擴展樹的語義相關(guān)性分?jǐn)?shù);以及 文檔排序子單元,被配置為根據(jù)語義相關(guān)性分?jǐn)?shù)對文檔進(jìn)行排序。
      8.根據(jù)權(quán)利要求7所述的文檔檢索設(shè)備,其中,所述最小擴展樹生成子單元被配置為 使用貪婪算法來生成最小擴展樹。
      9.根據(jù)權(quán)利要求7所述的文檔檢索設(shè)備,其中,所述相關(guān)性計算子單元被配置為通過計算最小擴展樹中的所有邊的權(quán)重的平均值,獲得語義相關(guān)性分?jǐn)?shù)。
      10.一種文檔檢索方法,包括 針對目標(biāo)文檔集合中的文檔構(gòu)造超圖,以描述該文檔中包含的隱含語義信息;以及 基于所構(gòu)造的超圖,針對特定查詢在目標(biāo)文檔集合中進(jìn)行檢索,并對檢索結(jié)果進(jìn)行排序。
      11.根據(jù)權(quán)利要求10所述的文檔檢索方法,其中,構(gòu)造超圖的步驟包括 使用域本體信息從文檔中抽取概念并計算概念的權(quán)重; 針對文檔構(gòu)造初始超圖; 使用域本體信息來改進(jìn)初始超圖;以及 向改進(jìn)的超圖中的節(jié)點和邊分配權(quán)重。
      12.根據(jù)權(quán)利要求11所述的文檔檢索方法,其中,構(gòu)造初始超圖的步驟包括 針對文檔中的概念的集合,創(chuàng)建與每一個概念相對應(yīng)的節(jié)點,以形成節(jié)點集合; 針對文檔中的每一個句子,增加由該句子中所包含的概念的集合形成的邊,以形成邊集合;以及 形成由節(jié)點集合和邊集合組成的初始超圖。
      13.根據(jù)權(quán)利要求11所述的文檔檢索方法,其中,改進(jìn)初始超圖的步驟包括 如果初始超圖中的兩個節(jié)點所對應(yīng)的概念在域本體中具有相同的含義,則合并這兩個節(jié)點; 如果初始超圖中的任意數(shù)目的節(jié)點所對應(yīng)的概念在域本體中直接關(guān)聯(lián),則增加連接這些節(jié)點的邊;以及 如果初始超圖中的兩條邊所對應(yīng)的概念在域本體或初始超圖中距離接近,則合并這兩條邊。
      14.根據(jù)權(quán)利要求11所述的文檔檢索方法,其中,分配權(quán)重的步驟包括 基于特定概念在文檔中出現(xiàn)的頻率,向與該特定概念相對應(yīng)的節(jié)點分配權(quán)重;以及基于特定邊中包含的概念在文檔中出現(xiàn)的頻率、特定邊在文檔中出現(xiàn)的頻率以及特定邊的新鮮度,向該特定邊分配權(quán)重,其中,所述特定邊的新鮮度是所述特定邊中任意兩個節(jié)點的語義關(guān)聯(lián)的新鮮度之和。
      15.根據(jù)權(quán)利要求14所述的文檔檢索方法,其中,當(dāng)兩個節(jié)點在域本體上的語義距離不大于所述特定邊中的節(jié)點個數(shù)減I的差時,所述兩個節(jié)點語義關(guān)聯(lián)的新鮮度是1,否則所述兩個節(jié)點語義關(guān)聯(lián)的新鮮度是所述兩個節(jié)點在域本體上的語義距離除以所述特定邊中的節(jié)點個數(shù)減I的差。
      16.根據(jù)權(quán)利要求10所述的文檔檢索方法,其中,在目標(biāo)文檔集合中進(jìn)行檢索并對檢索結(jié)果進(jìn)行排序的步驟包括 針對特定查詢利用所構(gòu)造的超圖來生成最小擴展樹; 計算所生成的最小擴展樹的語義相關(guān)性分?jǐn)?shù);以及 根據(jù)語義相關(guān)性分?jǐn)?shù)對文檔進(jìn)行排序。
      17.根據(jù)權(quán)利要求16所述的文檔檢索方法,其中,生成最小擴展樹的步驟包括 使用貪婪算法來生成最小擴展樹。
      18.根據(jù)權(quán)利要求16所述的文檔檢索方法,其中,計算語義相關(guān)性分?jǐn)?shù)的步驟包括通過計算最小擴展 樹中的所有邊的權(quán)重的平均值,獲得語義相關(guān)性分?jǐn)?shù)。
      全文摘要
      本發(fā)明提供了一種文檔檢索設(shè)備,包括超圖構(gòu)造單元,被配置為針對目標(biāo)文檔集合中的文檔構(gòu)造超圖,以描述該文檔中包含的隱含語義信息;以及文檔排序單元,被配置為基于超圖構(gòu)造單元所構(gòu)造的超圖,針對特定查詢在目標(biāo)文檔集合中進(jìn)行檢索,并對檢索結(jié)果進(jìn)行排序。本發(fā)明還提供了一種文檔檢索方法。本發(fā)明提高了文檔檢索的精確度,能夠更好地滿足用戶的實際檢索需求。
      文檔編號G06F17/30GK102915304SQ201110218949
      公開日2013年2月6日 申請日期2011年8月1日 優(yōu)先權(quán)日2011年8月1日
      發(fā)明者劉博 , 寇玉波, 李建強, 趙彧 申請人:日電(中國)有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1