国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      信息處理方法和信息處理設(shè)備的制作方法

      文檔序號:6489221閱讀:327來源:國知局
      信息處理方法和信息處理設(shè)備的制作方法
      【專利摘要】公開了信息處理方法和信息處理設(shè)備,該方法包括:候選語義關(guān)鍵詞提取步驟,用于對輸入文本進行分詞以從文本提取候選語義關(guān)鍵詞;權(quán)重計算步驟,用于計算提取的候選語義關(guān)鍵詞的權(quán)重;語義關(guān)鍵詞選擇步驟,用于基于算出的權(quán)重,根據(jù)預(yù)定規(guī)則從提取的候選語義關(guān)鍵詞中選擇語義關(guān)鍵詞;鏈接關(guān)系確定步驟,用于確定選擇的語義關(guān)鍵詞與預(yù)定語義知識庫中的概念間的鏈接關(guān)系;及文本語義圖構(gòu)建步驟,用于基于確定的鏈接關(guān)系、語義知識庫中的概念間的語義關(guān)系及根據(jù)預(yù)定推理規(guī)則確定的語義關(guān)鍵詞與語義知識庫中其他概念間的關(guān)系,構(gòu)建表示文本中的語義關(guān)鍵詞與語義知識庫中的概念間的關(guān)系的文本語義圖。根據(jù)本發(fā)明,能夠高效地進行信息集成、檢索和共享。
      【專利說明】信息處理方法和信息處理設(shè)備
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及自然語言處理領(lǐng)域,更具體地,涉及一種信息處理方法和信息處理設(shè)備,其能夠從海量的非結(jié)構(gòu)化文本信息中提取表示文本的語義信息的關(guān)鍵詞,并且將語義關(guān)鍵詞鏈接到語義知識庫中,從而更高效地進行信息集成、共享和檢索,同時支持多種應(yīng)用,諸如文本分類、聚類、主題提取以及機器翻譯等等。
      【背景技術(shù)】
      [0002]隨著信息技術(shù)的發(fā)展,文本信息的種類和數(shù)量(諸如新聞、博客、微博、專利文獻和科技論文等等)得到了快速增長。如何對海量的非結(jié)構(gòu)化文本信息加以利用,以更高效地進行信息集成、檢索和共享等一系列應(yīng)用,已對本領(lǐng)域技術(shù)人員提出了新的挑戰(zhàn)。

      【發(fā)明內(nèi)容】

      [0003]在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。但是,應(yīng)當(dāng)理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖用來確定本發(fā)明的關(guān)鍵性部分或重要部分,也不是意圖用來限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出關(guān)于本發(fā)明的某些概念,以此作為稍后給出的更詳細(xì)描述的前序。
      [0004]因此,鑒于上述情形,本發(fā)明的目的是提供一種信息處理方法和信息處理設(shè)備,其能夠從文本信息中提取語義關(guān)鍵詞,根據(jù)語義相似度將語義關(guān)鍵詞鏈接到預(yù)設(shè)的語義知識庫中,并結(jié)合語義知識庫中概念間的語義關(guān)系和推理規(guī)則來產(chǎn)生語義關(guān)鍵詞與其它概念間的新鏈接,從而構(gòu)建文 本的語義圖。根據(jù)本發(fā)明的信息處理方法和設(shè)備可以用于多種應(yīng)用,例如,通過計算兩個文本的語義圖之間的語義相似度來計算這兩個文本之間的語義相似度,從而可以對文本進行分類和聚類處理;以及通過將文本鏈接到跨語言的語義知識庫中,可以將原語言文本轉(zhuǎn)換為由目標(biāo)語言表示的語義圖,進而輔助目標(biāo)語言的用戶對該文本的理解,這可以應(yīng)用于機器翻譯等領(lǐng)域。
      [0005]為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一方面,提供了一種信息處理方法,該方法包括:候選語義關(guān)鍵詞提取步驟,用于對輸入的文本進行分詞,以從文本提取候選語義關(guān)鍵詞;權(quán)重計算步驟,用于計算所提取的候選語義關(guān)鍵詞的權(quán)重;語義關(guān)鍵詞選擇步驟,用于基于算出的權(quán)重,根據(jù)預(yù)定規(guī)則從所提取的候選語義關(guān)鍵詞中選擇語義關(guān)鍵詞;鏈接關(guān)系確定步驟,用于確定所選擇的語義關(guān)鍵詞與預(yù)定的語義知識庫中的概念之間的鏈接關(guān)系;以及文本語義圖構(gòu)建步驟,用于基于所確定的鏈接關(guān)系、語義知識庫中的概念之間的語義關(guān)系以及根據(jù)預(yù)定推理規(guī)則確定的語義關(guān)鍵詞與語義知識庫中其他概念之間的關(guān)系,構(gòu)建表示文本中的語義關(guān)鍵詞與語義知識庫中的概念之間的關(guān)系的文本語義圖。
      [0006]根據(jù)本發(fā)明的實施例,在權(quán)重計算步驟中,基于下述因素中的一個或多個來計算候選語義關(guān)鍵詞的權(quán)重:詞頻-反文檔頻率(TF-1DF)、詞頻-比例文檔頻率(TF-PDF)J^增益、在預(yù)定的語料庫中被選擇作為關(guān)鍵詞的概率以及是否出現(xiàn)在語義知識庫中。
      [0007]根據(jù)本發(fā)明的另一實施例,在語義關(guān)鍵詞選擇步驟中,將候選語義關(guān)鍵詞按其權(quán)重的降序進行排序,并且選擇排序靠前的特定數(shù)量的候選語義關(guān)鍵詞作為語義關(guān)鍵詞。
      [0008]根據(jù)本發(fā)明的另一實施例,如果文本不包含語義知識庫中的概念,則特定數(shù)量為零;如果文本僅包含語義知識庫中的一個概念,則特定數(shù)量為I;以及如果文本中包含語義知識庫中的概念的數(shù)量大于1,則基于文本的長度和預(yù)定均值來確定特定數(shù)量,其中該預(yù)定均值是基于預(yù)定的語料庫而統(tǒng)計的各個文本中的語義關(guān)鍵詞的數(shù)量與該文本的長度的比值的平均值。
      [0009]根據(jù)本發(fā)明的另一實施例,在鏈接關(guān)系確定步驟中,利用所選擇的語義關(guān)鍵詞在語義知識庫中進行檢索,如果檢索到的概念的數(shù)量為一個,則將該概念確定為要與語義關(guān)鍵詞鏈接的概念;否則,基于下述因素中的一個或多個來確定各個語義關(guān)鍵詞與檢索到的兩個或更多個概念之間的相似度,并且將相似度最大的概念確定為要與該語義關(guān)鍵詞鏈接的概念:語義關(guān)鍵詞與概念在預(yù)定語料庫中互指的概率;語義關(guān)鍵詞與概念在預(yù)定語料庫中共現(xiàn)的概率;語義關(guān)鍵詞與概念在預(yù)定語料庫的分類結(jié)構(gòu)樹中的距離;以及語義關(guān)鍵詞所在的文本與概念所在的文本之間的余弦距離。
      [0010]根據(jù)本發(fā)明的另一方面,還提供了一種信息處理設(shè)備,該設(shè)備包括:候選語義關(guān)鍵詞提取單元,被配置成對輸入的文本進行分詞,以從文本提取候選語義關(guān)鍵詞;權(quán)重計算單元,被配置成計算所提取的候選語義關(guān)鍵詞的權(quán)重;語義關(guān)鍵詞選擇單元,被配置成基于算出的權(quán)重,根據(jù)預(yù)定規(guī)則從所提取的候選語義關(guān)鍵詞中選擇語義關(guān)鍵詞;鏈接關(guān)系確定單元,被配置成確定所選擇的語義關(guān)鍵詞與預(yù)定的語義知識庫中的概念之間的鏈接關(guān)系;以及文本語義圖構(gòu)建單元,被配置成基于所確定的鏈接關(guān)系、語義知識庫中的概念之間的語義關(guān)系以及根據(jù)預(yù)定推理規(guī)則確定的語義關(guān)鍵詞與語義知識庫中其他概念之間的關(guān)系,構(gòu)建表示文本中的語義關(guān)鍵詞與語義知識庫中的概念之間的關(guān)系的文本語義圖。
      [0011]另外,根據(jù)本發(fā)明的又一方面,還提供了一種存儲介質(zhì),該存儲介質(zhì)包括機器可讀的程序代碼,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行程序代碼時,該程序代碼使得數(shù)據(jù)處理設(shè)備執(zhí)行根據(jù)本發(fā)明的信息處理方法。
      [0012]此外,根據(jù)本發(fā)明的再一方面,還提供了一種程序產(chǎn)品,該程序產(chǎn)品包括機器可執(zhí)行的指令,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行指令時,該指令使得數(shù)據(jù)處理設(shè)備執(zhí)行根據(jù)本發(fā)明的/[目息處理方法。
      [0013]因此,根據(jù)本發(fā)明的實施例,能夠高效、準(zhǔn)確地對非結(jié)構(gòu)化文本信息進行處理,不僅將表示該文本信息的語義關(guān)鍵詞鏈接到語義知識庫中的相同實體,而且還利用語義知識庫中的概念之間的語義鏈接關(guān)系以及推理規(guī)則來確定語義關(guān)鍵詞與知識庫中其他概念之間的鏈接關(guān)系,從而獲得關(guān)于語義關(guān)鍵詞的更多語義信息。
      [0014]在下面的說明書部分中給出本發(fā)明實施例的其他方面,其中,詳細(xì)說明用于充分地公開本發(fā)明實施例的優(yōu)選實施例,而不對其施加限定。
      【專利附圖】

      【附圖說明】
      [0015]本發(fā)明可以通過參考下文中結(jié)合附圖所給出的詳細(xì)描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標(biāo)記來表示相同或者相似的部件。所述附圖連同下面的詳細(xì)說明一起包含在本說明書中并形成說明書的一部分,用來進一步舉例說明本發(fā)明的優(yōu)選實施例和解釋本發(fā)明的原理和優(yōu)點。其中:[0016]圖1是示出根據(jù)本發(fā)明的實施例的信息處理方法的示例的流程圖;
      [0017]圖2示出通過根據(jù)本發(fā)明的實施例的信息處理方法構(gòu)建的文本語義圖的示例的示意圖;
      [0018]圖3是示出通過根據(jù)本發(fā)明的實施例的信息處理方法構(gòu)建的文本語義圖的另一示例的示意圖;
      [0019]圖4是示出根據(jù)本發(fā)明的實施例的信息處理設(shè)備的功能配置的結(jié)構(gòu)框圖;以及
      [0020]圖5是示出作為本發(fā)明的實施例中所采用的信息處理裝置的個人計算機的示例性結(jié)構(gòu)的框圖。
      【具體實施方式】
      [0021]在下文中將結(jié)合附圖對本發(fā)明的示范性實施例進行描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實際實施例的過程中必須做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費時的,但對得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。
      [0022]在此,還需要說明的一點是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的設(shè)備結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其它細(xì)節(jié)。
      [0023]以下將參照圖1至圖5來詳細(xì)描述根據(jù)本發(fā)明的實施例的信息處理方法和信息處
      理設(shè)備。
      [0024]首先,將參照圖1來描述根據(jù)本發(fā)明的實施例的信息處理方法。如圖1所示,該信息處理方法可以包括候選語義關(guān)鍵詞提取步驟S101、權(quán)重計算步驟S102、語義關(guān)鍵詞選擇步驟S103、鏈接關(guān)系確定步驟S104以及文本語義圖構(gòu)建步驟S105。
      [0025]具體地,在候選語義關(guān)鍵詞提取步驟SlOl中,對輸入的文本進行分詞,以從該文本提取候選語義關(guān)鍵詞。優(yōu)選地,輸入的文本的類型可以包括但不限于新聞文本、博客、微博、專利文獻以及科技論文等等。
      [0026]優(yōu)選地,在候選語義關(guān)鍵詞提取步驟SlOl中,如果所輸入的文本中的特定詞與語義知識庫中的概念最長匹配,則提取該詞作為候選語義關(guān)鍵詞。具體地,利用最長匹配策略,將知識庫中的概念作為一個分詞單元,如果文本中的某個詞與知識庫中的概念最長匹配,則將該詞作為一個獨立的詞,然后去掉停止詞,將剩余的詞作為候選語義關(guān)鍵詞。例如,對于輸入文本中的一段信息“中華人民共和國成立于1949年10月I日”,其中的詞“中華人民共和國”與語義知識庫中的概念“中華人民共和國”實現(xiàn)了最長匹配,則提取詞“中華人民共和國”作為該文本的候選語義關(guān)鍵詞。優(yōu)選地,該語義知識庫可以是公知的知識庫如DBPedia等,或者也可以是用戶預(yù)設(shè)的語義知識庫。
      [0027]在權(quán)重計算步驟S102中,計算在步驟SlOl中所提取的候選語義關(guān)鍵詞的權(quán)重。
      [0028]優(yōu)選地,在權(quán)重計算步驟S102中,基于下述因素中的一個或多個來計算各個候選語義關(guān)鍵詞的權(quán)重:詞頻-反文檔頻率(TF-1DF)、詞頻-比例文檔頻率(TF-PDF)JtIJI益、在預(yù)定的語料庫中被選擇作為關(guān)鍵詞的概率以及是否出現(xiàn)在語義知識庫中。[0029]在上述權(quán)重計算步驟S102中,由于同時考慮到該候選語義關(guān)鍵詞的統(tǒng)計信息和語義知識庫的信息,從而使得計算結(jié)果更加準(zhǔn)確。優(yōu)選地,可以通過將關(guān)于語義關(guān)鍵詞的統(tǒng)計信息和關(guān)于知識庫的信息進行線性加權(quán)來得到總權(quán)重,該計算過程可以以下述公式(I)來表示:
      [0030]Score (word) = a ^statistics (word) + (1- a ) φ (I)
      [0031]其中,Score (word)表示候選語義關(guān)鍵詞word的權(quán)重,statistics (word)表示基于以下因素中的至少一個而統(tǒng)計的候選語義關(guān)鍵詞word的信息重要度:詞頻-反文檔頻率(TF-1DF);詞頻-比例文檔頻率(TF-PDF);信息增益;以及候選語義關(guān)鍵詞word在預(yù)定的語料庫中被選作關(guān)鍵詞的概率,Φ為二值函數(shù),當(dāng)候選語義關(guān)鍵詞word出現(xiàn)在語義知識庫中時,Φ為1,否則為O,并且α為基于輸入文本的類型而預(yù)先確定的加權(quán)系數(shù),其為經(jīng)驗值或者通過有限次的實驗來確定。加權(quán)系數(shù)α表示統(tǒng)計信息重要度在總權(quán)重中所占的比例,通過根據(jù)不同的文本類型調(diào)整α,可以調(diào)整統(tǒng)計信息重要度和知識庫權(quán)重的比例。
      [0032]在上述權(quán)重計算步驟中,詞的TF-1DF、TF-PDF以及信息增益的計算均為本領(lǐng)域公知的技術(shù),在此不再贅述。預(yù)定的語料庫可以是包括用戶預(yù)先標(biāo)注好的文本的集合或者公知的語料庫(如維基百科等)。
      [0033]接下來,在語義關(guān)鍵詞選擇步驟S103中,可以基于在步驟S102中算出的權(quán)重,根據(jù)預(yù)定規(guī)則從在步驟SlOl中提取的候選語義關(guān)鍵詞中選擇語義關(guān)鍵詞。
      [0034]優(yōu)選地,在語義關(guān)鍵詞選擇步驟S103中,可以將所提取的候選語義關(guān)鍵詞按其權(quán)重的降序進行排序,并且選擇排序靠前的特定數(shù)量的候選語義關(guān)鍵詞作為語義關(guān)鍵詞。該特定數(shù)量可以以下述方式來確定:如果文本不包含語義知識庫中的概念,則特定數(shù)量為O ;如果文本僅包含語義知 識庫中的一個概念,則特定數(shù)量為I;以及如果文本中包含語義知識庫中的概念的數(shù)量大于I,則基于該文本的長度和預(yù)定均值來確定該特定數(shù)量,該預(yù)定均值是基于預(yù)定的語料庫而統(tǒng)計的各個文本中的語義關(guān)鍵詞的數(shù)量與該文本的長度的比值的平均值。該預(yù)定的語料庫可以為在例如維基百科中隨機選擇的一些文本或者是用戶預(yù)先標(biāo)注好的一些文本。優(yōu)選地,該特定數(shù)量的確定過程可以以下述公式(2)來表示:
      [0035]
      【權(quán)利要求】
      1.一種信息處理方法,包括: 候選語義關(guān)鍵詞提取步驟,用于對輸入的文本進行分詞,以從所述文本提取候選語義關(guān)鍵詞; 權(quán)重計算步驟,用于計算所提取的候選語義關(guān)鍵詞的權(quán)重; 語義關(guān)鍵詞選擇步驟,用于基于算出的權(quán)重,根據(jù)預(yù)定規(guī)則從所提取的候選語義關(guān)鍵詞中選擇語義關(guān)鍵詞; 鏈接關(guān)系確定步驟,用于確定所選擇的語義關(guān)鍵詞與預(yù)定的語義知識庫中的概念之間的鏈接關(guān)系;以及 文本語義圖構(gòu)建步驟,用于基于所確定的鏈接關(guān)系、所述語義知識庫中的概念之間的語義關(guān)系以及根據(jù)預(yù)定推理規(guī)則確定的語義關(guān)鍵詞與所述語義知識庫中其他概念之間的關(guān)系,構(gòu)建表示所述文本中的語義關(guān)鍵詞與所述語義知識庫中的概念之間的關(guān)系的文本語義圖。
      2.根據(jù)權(quán)利要求1所述的信息處理方法,其中,在所述權(quán)重計算步驟中,基于下述因素中的一個或多個來計算所述候選語義關(guān)鍵詞的權(quán)重:詞頻-反文檔頻率TF-1DF、詞頻-比例文檔頻率TF-PDF、信息增益、在預(yù)定的語料庫中被選擇作為關(guān)鍵詞的概率以及是否出現(xiàn)在所述語義知識庫中。
      3.根據(jù)權(quán)利要求1所述的信息處理方法,其中,在所述語義關(guān)鍵詞選擇步驟中,將所述候選語義關(guān)鍵詞按其權(quán)重的降序進行排序,并且選擇排序靠前的特定數(shù)量的候選語義關(guān)鍵詞作為所述語義關(guān)鍵詞。
      4.根據(jù)權(quán)利要求3`所述的信息處理方法,其中,如果所述文本不包含所述語義知識庫中的概念,則所述特定數(shù)量為零;如果所述文本僅包含所述語義知識庫中的一個概念,則所述特定數(shù)量為I ;以及如果所述文本中包含所述語義知識庫中的概念的數(shù)量大于1,則基于所述文本的長度和預(yù)定均值來確定所述特定數(shù)量,其中所述預(yù)定均值是基于預(yù)定的語料庫而統(tǒng)計的各個文本中的語義關(guān)鍵詞的數(shù)量與該文本的長度的比值的平均值。
      5.根據(jù)權(quán)利要求1所述的信息處理方法,其中,在所述鏈接關(guān)系確定步驟中,利用所選擇的語義關(guān)鍵詞在所述語義知識庫中進行檢索,如果檢索到的概念的數(shù)量為一個,則將該概念確定為要與所述語義關(guān)鍵詞鏈接的概念;否則,基于下述因素中的一個或多個來確定各個語義關(guān)鍵詞與檢索到的兩個或更多個概念之間的相似度,并且將相似度最大的概念確定為要與該語義關(guān)鍵詞鏈接的概念:語義關(guān)鍵詞與概念在預(yù)定語料庫中互指的概率;語義關(guān)鍵詞與概念在預(yù)定語料庫中共現(xiàn)的概率;語義關(guān)鍵詞與概念在預(yù)定語料庫的分類結(jié)構(gòu)樹中的距離;以及語義關(guān)鍵詞所在的文本與概念所在的文本之間的余弦距離。
      6.—種信息處理設(shè)備,包括: 候選語義關(guān)鍵詞提取單元,被配置成對輸入的文本進行分詞,以從所述文本提取候選語義關(guān)鍵詞; 權(quán)重計算單元,被配置成計算所提取的候選語義關(guān)鍵詞的權(quán)重; 語義關(guān)鍵詞選擇單元,被配置成基于算出的權(quán)重,根據(jù)預(yù)定規(guī)則從所提取的候選語義關(guān)鍵詞中選擇語義關(guān)鍵詞; 鏈接關(guān)系確定單元,被配置成確定所選擇的語義關(guān)鍵詞與預(yù)定的語義知識庫中的概念之間的鏈接關(guān)系;以及文本語義圖構(gòu)建單元,被配置成基于所確定的鏈接關(guān)系、所述語義知識庫中的概念之間的語義關(guān)系以及根據(jù)預(yù)定推理規(guī)則確定的語義關(guān)鍵詞與所述語義知識庫中其他概念之間的關(guān)系,構(gòu)建表示所述文本中的語義關(guān)鍵詞與所述語義知識庫中的概念之間的關(guān)系的文本語義圖。
      7.根據(jù)權(quán)利要求6所述的信息處理設(shè)備,其中,所述權(quán)重計算單元被配置成基于下述因素中的一個或多個來計算所述候選語義關(guān)鍵詞的權(quán)重:詞頻-反文檔頻率TF-1DF、詞頻-比例文檔頻率TF-PDF、信息增益、在預(yù)定的語料庫中被選擇作為關(guān)鍵詞的概率以及是否出現(xiàn)在所述語義知識庫中。
      8.根據(jù)權(quán)利要求6所述的信息處理設(shè)備,其中,所述語義關(guān)鍵詞選擇單元被配置成將所述候選語義關(guān)鍵詞按其權(quán)重的降序進行排序,并且選擇排序靠前的特定數(shù)量的候選語義關(guān)鍵詞作為所述語義關(guān)鍵詞。
      9.根據(jù)權(quán)利要求8所述的信息處理設(shè)備,其中,如果所述文本不包含所述語義知識庫中的概念,則所述特定數(shù)量為零;如果所述文本僅包含所述語義知識庫中的一個概念,則所述特定數(shù)量為I ;以及如果所述文本中包含所述語義知識庫中的概念的數(shù)量大于1,則基于所述文本的長度和預(yù)定均值來確定所述特定數(shù)量,其中所述預(yù)定均值是基于預(yù)定的語料庫而統(tǒng)計的各個文本中的語義關(guān)鍵詞的數(shù)量與該文本的長度的比值的平均值。
      10.根據(jù)權(quán)利要求6所述的信息處理設(shè)備,其中,所述鏈接關(guān)系確定單元被配置成利用所選擇的語義關(guān)鍵詞在所述語義知識庫中進行檢索,如果檢索到的概念的數(shù)量為一個,則將該概念確定為要與所述語義關(guān)鍵詞鏈接的概念;否則,基于下述因素中的一個或多個來確定各個語義關(guān)鍵詞與檢索到的兩個或更多個概念之間的相似度,并且將相似度最大的概念確定為要與該語義關(guān)鍵詞鏈接的概念:語義關(guān)鍵詞與概念在預(yù)定語料庫中互指的概率;語義關(guān)鍵詞與概念在預(yù)定語料庫中共現(xiàn)的概率;語義關(guān)鍵詞與概念在預(yù)定語料庫的分類結(jié)構(gòu)樹中的距離;以及語義關(guān)鍵詞所在的文本與概念所在的文本之間的余弦距離。
      【文檔編號】G06F17/27GK103678418SQ201210362152
      【公開日】2014年3月26日 申請日期:2012年9月25日 優(yōu)先權(quán)日:2012年9月25日
      【發(fā)明者】繆慶亮, 孟遙, 于浩 申請人:富士通株式會社
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1