国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于匹配度檢索英文文本的方法與流程

      文檔序號:11216486閱讀:1450來源:國知局
      一種基于匹配度檢索英文文本的方法與流程

      本發(fā)明涉及英文文本檢索,具體涉及一種基于匹配度檢索英文文本的方法。



      背景技術(shù):

      對于英文文本的檢索,目前的主要方式是根據(jù)檢索對象與預(yù)先設(shè)定的關(guān)鍵詞進行匹配,確定是否匹配,即將待檢索的英文文本分割成不同關(guān)鍵詞的形式分別進行檢索,但是計算機不能有效拆解人類的語言模式,因此不能理解查詢意圖,從而導(dǎo)致搜索出的信息不夠準確。

      針對上述問題,用戶在搜索時可以加入高級語法進行操作,但高級語法輸入復(fù)雜對用戶要求高,使得用戶體驗度降低,并且待檢索語句與事先設(shè)定的關(guān)鍵詞匹配度不夠。



      技術(shù)實現(xiàn)要素:

      本發(fā)明設(shè)計開發(fā)了一種基于匹配度檢索英文文本的方法,本發(fā)明的發(fā)明目的之一是解決待檢索語句的檢索結(jié)果列表。

      本發(fā)明的發(fā)明目的之二是提高待檢索語句與預(yù)先設(shè)定匹配度的問題。

      本發(fā)明提供的技術(shù)方案為:

      一種基于匹配度檢索英文文本的方法,包括如下步驟:

      步驟一、在服務(wù)器預(yù)先存儲檢索信息,每篇英文文獻關(guān)聯(lián)一個檢索單位,對于任意一個檢索單位均包括id、英文文獻錄入時間和至少一個檢索條,所述檢索條為由所述檢索單位關(guān)聯(lián)的英文文獻的摘要中的至少一個名詞和實意動詞組成,并且對全部檢索條進行預(yù)設(shè)權(quán)重;

      步驟二、輸入檢索英文,對所述檢索英文拆分名詞與實意動詞,并且將所述名詞與所述實意動詞擴展成為檢索語句;

      步驟三、對所述檢索語句進行相似度評價得到檢索權(quán)重,并將所述檢索權(quán)重與所述預(yù)設(shè)權(quán)重分別進行匹配,按照匹配度進行排序得到檢索結(jié)果列表。

      優(yōu)選的是,在所述步驟二中,所述檢索語句為所述名詞和所述實意動詞的邏輯組合;其中,所述邏輯組合包括:或、且、非邏輯關(guān)系。

      優(yōu)選的是,在所述步驟三中,對所述檢索語句進行相似度評價得到檢索權(quán)重包括如下步驟:

      根據(jù)所述名詞查找所述名詞所述領(lǐng)域,并且確定在所述領(lǐng)域內(nèi)關(guān)鍵詞;

      將所述名詞在所述領(lǐng)域內(nèi)的領(lǐng)域密度、領(lǐng)域深度、與所述關(guān)鍵詞的關(guān)系以及與所述關(guān)鍵詞之間的聯(lián)系強度,計算與所述關(guān)鍵詞之間的詞權(quán);

      根據(jù)所述詞權(quán),計算與所述關(guān)鍵詞之間的檢索距離;

      根據(jù)所述檢索距離,計算所述檢索語句的相似度評分;

      將所述檢索語句的相似度評分作為所述檢索權(quán)重。

      優(yōu)選的是,在所述步驟三中,匹配時按所述預(yù)設(shè)權(quán)重大小依次進行匹配。

      優(yōu)選的是,在所述步驟三中,匹配后得到的檢索結(jié)果列表對應(yīng)的信息數(shù)量是否大于預(yù)定數(shù)量,如果大于預(yù)定數(shù)量,則取預(yù)定數(shù)量的檢索結(jié)果列表。

      優(yōu)選的是,所述預(yù)定數(shù)量為25條。

      優(yōu)選的是,在所述步驟三中,所述檢索權(quán)重與所述預(yù)設(shè)權(quán)重分別進行匹配的匹配過程采用模糊控制方法進行匹配;

      分別將檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη、檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值匹配度φ轉(zhuǎn)換為模糊論域中的量化等級;

      將所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη、所述檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值輸入模糊控制模型,將所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη分為7個等級,將所述檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值分為7個等級,匹配度φ分為5個等級;

      模糊控制模型輸出為匹配度φ;根據(jù)所述匹配度φ,進行檢索輸出。

      優(yōu)選的是,所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη的論域為[-10,10],檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值的論域為[-0.1,0.1],設(shè)定量化因子都為1,匹配度φ的論域為[0,1]。

      優(yōu)選的是,所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη分為7個等級,模糊集為{nb,nm,ns,0,ps,pm,pb},檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值分為7個等級,模糊集為{nb,nm,ns,0,ps,pm,pb},將匹配度φ分為5個等級,模糊集為{0,ps,pm,pb,pvb};隸屬函數(shù)均選用三角形隸屬函數(shù)。

      優(yōu)選的是,模糊控制模型控制規(guī)則為:

      如果權(quán)重差δη為nm,權(quán)重差比值為pm或者pb,則匹配度φ為s;如果權(quán)重差δη為pb,權(quán)重差比值為pm或者pb,則匹配度φ為pvb。

      本發(fā)明與現(xiàn)有技術(shù)相比較所具有的有益效果:

      1、本發(fā)明將關(guān)鍵詞進行匹配度計算的過程設(shè)定在限定的名詞上,消除了借此、連詞以及其他無實意的詞對檢索結(jié)果造成的干擾,減小檢索負擔(dān),提高檢索效率;

      2、本發(fā)明通過模糊控制的方式運算檢索的文本與預(yù)先設(shè)定文本的匹配度,提高了匹配效率以及增加結(jié)果的準確性;

      3、本發(fā)明通過對預(yù)設(shè)多個檢索條,分別進行匹配度的計算,提高了檢索結(jié)果的全面性。

      附圖說明

      圖1為本發(fā)明所述的流程圖。

      圖2是檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη的隸屬函數(shù)。

      圖3是檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值的隸屬函數(shù)。

      圖4是匹配度φ的隸屬函數(shù)。

      具體實施方式

      下面結(jié)合附圖對本發(fā)明做進一步的詳細說明,以令本領(lǐng)域技術(shù)人員參照說明書文字能夠據(jù)以實施。

      如圖1所示,本發(fā)明提供一種基于匹配度檢索英文文本的方法,包括如下步驟:

      步驟一、在服務(wù)器預(yù)先存儲檢索信息,每篇英文文獻關(guān)聯(lián)一個檢索單位,對于任意一個檢索單位均包括id、英文文獻錄入時間和至少一個檢索條,所述檢索條為由所述檢索單位關(guān)聯(lián)的英文文獻的摘要中的至少一個名詞和實意動詞組成,并且對全部檢索條進行預(yù)設(shè)權(quán)重;

      步驟二、輸入檢索英文,對所述檢索英文拆分名詞與實意動詞,并且將所述名詞與所述實意動詞擴展成為檢索語句;

      步驟三、對所述檢索語句進行相似度評價得到檢索權(quán)重,并將所述檢索權(quán)重與所述預(yù)設(shè)權(quán)重分別進行匹配,按照匹配度進行排序得到檢索結(jié)果列表。

      在另一種實施例中,在步驟二中,檢索語句為名詞和實意動詞的邏輯組合;其中,邏輯組合包括:或、且、非邏輯關(guān)系。

      在另一種實施例中,在步驟三中,對檢索語句進行相似度評價得到檢索權(quán)重包括如下步驟:

      根據(jù)所述名詞查找名詞所在的領(lǐng)域,并且確定在領(lǐng)域內(nèi)的關(guān)鍵詞;將所述名詞在所述領(lǐng)域內(nèi)的領(lǐng)域密度、領(lǐng)域深度、與所述關(guān)鍵詞的關(guān)系以及與所述關(guān)鍵詞之間的聯(lián)系強度,計算與所述關(guān)鍵詞之間的詞權(quán);根據(jù)所述詞權(quán),計算與所述關(guān)鍵詞之間的檢索距離;根據(jù)所述檢索距離,計算所述檢索語句的相似度評分;將所述檢索語句的相似度評分作為所述檢索權(quán)重。

      在另一種實施例中,在步驟三中,匹配時根據(jù)預(yù)設(shè)權(quán)重的大小依次進行匹配,從預(yù)設(shè)權(quán)重大的開始匹配,依次到最后預(yù)設(shè)權(quán)重小的,得到多個不同的檢索結(jié)果列表。

      在另一種實施例中,在步驟三中,匹配后得到的檢索結(jié)果列表對應(yīng)的信息數(shù)量是否大于預(yù)定數(shù)量,如果大于預(yù)定數(shù)量,則取預(yù)定數(shù)量的檢索結(jié)果列表;在本實施例中,預(yù)定數(shù)量為25條。

      實施例

      在名詞所在的領(lǐng)域內(nèi)確定關(guān)鍵詞c2,名詞c1與關(guān)鍵詞c2之間的語義相似性被定義為:

      其中,distc1,c2為名詞c1與關(guān)鍵詞c2之間的檢索距離,利用兩者之間最短路徑的邊上權(quán)值(詞權(quán))之和計算;詞權(quán)與關(guān)鍵詞之間連系的強度直接相關(guān),則子概念ci和其父概念c′聯(lián)系的強度,可以表示為:

      優(yōu)選的是,考慮到其他因素,如在所屬領(lǐng)域內(nèi)的局部密度、概念深度和概念關(guān)系,整個概念之間的邊權(quán)wt(ci,c′)表示為:

      其中,d(c′)表示c′在名詞所在的領(lǐng)域中的深度,e(c′)為名詞所在的領(lǐng)域的關(guān)系數(shù),為名詞所在的領(lǐng)域中的平均關(guān)系數(shù),r(ci,c′)表示概念關(guān)系因子,參數(shù)α(α≥0)和β(0≤β≤1)控制領(lǐng)域深度和密度對于整個詞權(quán)計算的貢獻,ic(c)是概念之間連系計算的變形形式,即:

      ic(c)=-logp(c),

      其中,p(c)為概念c在整個領(lǐng)域內(nèi)出現(xiàn)的概率。

      綜上所述,名詞c1與關(guān)鍵詞c2之間的語義距離可以表示為:

      其中,path(c1,c2)是從名詞c1到關(guān)鍵詞c2經(jīng)過路徑上的所有概念,lsuper(c1,c2)表示c1、c2之間最小父概念;

      根據(jù)等同關(guān)系、繼承關(guān)系和屬性關(guān)系分別對應(yīng)的r(ci,c′)定義為1.0、0.6和0.3;在實際應(yīng)用過程中密度e(c′)和深度d(c′)并不起什么作用,α與β分別設(shè)置0和1,擴展性語義搜索中,名詞c1為關(guān)鍵詞c2的父概念,最終的語義距離可以簡化為:

      通過名詞c1和關(guān)鍵詞c2之間的語義距離得到檢索語句的相似度評分,并且將該相似度評分作為檢索權(quán)重。

      在另一種實施例中,采用模糊控制方法計算檢索權(quán)重與預(yù)設(shè)權(quán)重的匹配度φ,模糊控制模型的輸入是檢索權(quán)重η與預(yù)設(shè)權(quán)重η′的權(quán)重差δη和檢索權(quán)重與預(yù)設(shè)權(quán)重的之差δη與預(yù)設(shè)權(quán)重η′的權(quán)重差比值輸出是匹配度φ;所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′的權(quán)重差δη的變化范圍為[-10,10],檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的權(quán)重差比值變化范圍為[-0.1,0.1],設(shè)定量化因子都為1,因此其論域分別為[-10,10]和[-0.1,0.1];匹配度φ的模糊論域為[0,1],為了保證控制的精度,使其在各種模式下都能很好地進行控制,根據(jù)反復(fù)試驗,最終將權(quán)重差δη變化范圍分為七個等級,權(quán)重差δη的模糊集為{nb,nm,ns,zo,ps,pm,pb},nb表示負大,nm表示負中等,ns表示負小,zo表示零,ps表示正小,pm表示正中等,pb表示正大;權(quán)重差比值變化范圍分為七個等級,模糊集為{nb,nm,ns,zo,ps,pm,pb},nb表示負大,nm表示負中等,ns表示負小,zo表示零,ps表示正小,pm表示正中等,pb表示正大;輸出的匹配度φ分為5個等級,分別為{zo,ps,pm,pb,pvb},zo表示零,ps表示小,pm表示中等,pb表示大,pvb表示極大;隸屬函數(shù)均選用三角形隸屬函數(shù),如圖2、3、4所示。

      模糊控制模型的控制規(guī)則選取經(jīng)驗為:

      如果權(quán)重差δη為負中等,權(quán)重差比值為正中等或者正大,則匹配度φ為??;如果權(quán)重差δη為正大,權(quán)重差比值為正中等或者正大,則匹配度φ為極大;具體的模糊控制規(guī)則如表1所示。

      表1模糊控制規(guī)則

      盡管本發(fā)明的實施方案已公開如上,但其并不僅僅限于說明書和實施方式中所列運用,它完全可以被適用于各種適合本發(fā)明的領(lǐng)域,對于熟悉本領(lǐng)域的人員而言,可容易地實現(xiàn)另外的修改,因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本發(fā)明并不限于特定的細節(jié)和這里示出與描述的圖例。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1