本發(fā)明涉及英文文本檢索,具體涉及一種基于匹配度檢索英文文本的方法。
背景技術(shù):
對于英文文本的檢索,目前的主要方式是根據(jù)檢索對象與預(yù)先設(shè)定的關(guān)鍵詞進行匹配,確定是否匹配,即將待檢索的英文文本分割成不同關(guān)鍵詞的形式分別進行檢索,但是計算機不能有效拆解人類的語言模式,因此不能理解查詢意圖,從而導(dǎo)致搜索出的信息不夠準確。
針對上述問題,用戶在搜索時可以加入高級語法進行操作,但高級語法輸入復(fù)雜對用戶要求高,使得用戶體驗度降低,并且待檢索語句與事先設(shè)定的關(guān)鍵詞匹配度不夠。
技術(shù)實現(xiàn)要素:
本發(fā)明設(shè)計開發(fā)了一種基于匹配度檢索英文文本的方法,本發(fā)明的發(fā)明目的之一是解決待檢索語句的檢索結(jié)果列表。
本發(fā)明的發(fā)明目的之二是提高待檢索語句與預(yù)先設(shè)定匹配度的問題。
本發(fā)明提供的技術(shù)方案為:
一種基于匹配度檢索英文文本的方法,包括如下步驟:
步驟一、在服務(wù)器預(yù)先存儲檢索信息,每篇英文文獻關(guān)聯(lián)一個檢索單位,對于任意一個檢索單位均包括id、英文文獻錄入時間和至少一個檢索條,所述檢索條為由所述檢索單位關(guān)聯(lián)的英文文獻的摘要中的至少一個名詞和實意動詞組成,并且對全部檢索條進行預(yù)設(shè)權(quán)重;
步驟二、輸入檢索英文,對所述檢索英文拆分名詞與實意動詞,并且將所述名詞與所述實意動詞擴展成為檢索語句;
步驟三、對所述檢索語句進行相似度評價得到檢索權(quán)重,并將所述檢索權(quán)重與所述預(yù)設(shè)權(quán)重分別進行匹配,按照匹配度進行排序得到檢索結(jié)果列表。
優(yōu)選的是,在所述步驟二中,所述檢索語句為所述名詞和所述實意動詞的邏輯組合;其中,所述邏輯組合包括:或、且、非邏輯關(guān)系。
優(yōu)選的是,在所述步驟三中,對所述檢索語句進行相似度評價得到檢索權(quán)重包括如下步驟:
根據(jù)所述名詞查找所述名詞所述領(lǐng)域,并且確定在所述領(lǐng)域內(nèi)關(guān)鍵詞;
將所述名詞在所述領(lǐng)域內(nèi)的領(lǐng)域密度、領(lǐng)域深度、與所述關(guān)鍵詞的關(guān)系以及與所述關(guān)鍵詞之間的聯(lián)系強度,計算與所述關(guān)鍵詞之間的詞權(quán);
根據(jù)所述詞權(quán),計算與所述關(guān)鍵詞之間的檢索距離;
根據(jù)所述檢索距離,計算所述檢索語句的相似度評分;
將所述檢索語句的相似度評分作為所述檢索權(quán)重。
優(yōu)選的是,在所述步驟三中,匹配時按所述預(yù)設(shè)權(quán)重大小依次進行匹配。
優(yōu)選的是,在所述步驟三中,匹配后得到的檢索結(jié)果列表對應(yīng)的信息數(shù)量是否大于預(yù)定數(shù)量,如果大于預(yù)定數(shù)量,則取預(yù)定數(shù)量的檢索結(jié)果列表。
優(yōu)選的是,所述預(yù)定數(shù)量為25條。
優(yōu)選的是,在所述步驟三中,所述檢索權(quán)重與所述預(yù)設(shè)權(quán)重分別進行匹配的匹配過程采用模糊控制方法進行匹配;
分別將檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη、檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值
將所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη、所述檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值
模糊控制模型輸出為匹配度φ;根據(jù)所述匹配度φ,進行檢索輸出。
優(yōu)選的是,所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη的論域為[-10,10],檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值
優(yōu)選的是,所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη分為7個等級,模糊集為{nb,nm,ns,0,ps,pm,pb},檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值
優(yōu)選的是,模糊控制模型控制規(guī)則為:
如果權(quán)重差δη為nm,權(quán)重差比值
本發(fā)明與現(xiàn)有技術(shù)相比較所具有的有益效果:
1、本發(fā)明將關(guān)鍵詞進行匹配度計算的過程設(shè)定在限定的名詞上,消除了借此、連詞以及其他無實意的詞對檢索結(jié)果造成的干擾,減小檢索負擔(dān),提高檢索效率;
2、本發(fā)明通過模糊控制的方式運算檢索的文本與預(yù)先設(shè)定文本的匹配度,提高了匹配效率以及增加結(jié)果的準確性;
3、本發(fā)明通過對預(yù)設(shè)多個檢索條,分別進行匹配度的計算,提高了檢索結(jié)果的全面性。
附圖說明
圖1為本發(fā)明所述的流程圖。
圖2是檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη的隸屬函數(shù)。
圖3是檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值
圖4是匹配度φ的隸屬函數(shù)。
具體實施方式
下面結(jié)合附圖對本發(fā)明做進一步的詳細說明,以令本領(lǐng)域技術(shù)人員參照說明書文字能夠據(jù)以實施。
如圖1所示,本發(fā)明提供一種基于匹配度檢索英文文本的方法,包括如下步驟:
步驟一、在服務(wù)器預(yù)先存儲檢索信息,每篇英文文獻關(guān)聯(lián)一個檢索單位,對于任意一個檢索單位均包括id、英文文獻錄入時間和至少一個檢索條,所述檢索條為由所述檢索單位關(guān)聯(lián)的英文文獻的摘要中的至少一個名詞和實意動詞組成,并且對全部檢索條進行預(yù)設(shè)權(quán)重;
步驟二、輸入檢索英文,對所述檢索英文拆分名詞與實意動詞,并且將所述名詞與所述實意動詞擴展成為檢索語句;
步驟三、對所述檢索語句進行相似度評價得到檢索權(quán)重,并將所述檢索權(quán)重與所述預(yù)設(shè)權(quán)重分別進行匹配,按照匹配度進行排序得到檢索結(jié)果列表。
在另一種實施例中,在步驟二中,檢索語句為名詞和實意動詞的邏輯組合;其中,邏輯組合包括:或、且、非邏輯關(guān)系。
在另一種實施例中,在步驟三中,對檢索語句進行相似度評價得到檢索權(quán)重包括如下步驟:
根據(jù)所述名詞查找名詞所在的領(lǐng)域,并且確定在領(lǐng)域內(nèi)的關(guān)鍵詞;將所述名詞在所述領(lǐng)域內(nèi)的領(lǐng)域密度、領(lǐng)域深度、與所述關(guān)鍵詞的關(guān)系以及與所述關(guān)鍵詞之間的聯(lián)系強度,計算與所述關(guān)鍵詞之間的詞權(quán);根據(jù)所述詞權(quán),計算與所述關(guān)鍵詞之間的檢索距離;根據(jù)所述檢索距離,計算所述檢索語句的相似度評分;將所述檢索語句的相似度評分作為所述檢索權(quán)重。
在另一種實施例中,在步驟三中,匹配時根據(jù)預(yù)設(shè)權(quán)重的大小依次進行匹配,從預(yù)設(shè)權(quán)重大的開始匹配,依次到最后預(yù)設(shè)權(quán)重小的,得到多個不同的檢索結(jié)果列表。
在另一種實施例中,在步驟三中,匹配后得到的檢索結(jié)果列表對應(yīng)的信息數(shù)量是否大于預(yù)定數(shù)量,如果大于預(yù)定數(shù)量,則取預(yù)定數(shù)量的檢索結(jié)果列表;在本實施例中,預(yù)定數(shù)量為25條。
實施例
在名詞所在的領(lǐng)域內(nèi)確定關(guān)鍵詞c2,名詞c1與關(guān)鍵詞c2之間的語義相似性被定義為:
其中,distc1,c2為名詞c1與關(guān)鍵詞c2之間的檢索距離,利用兩者之間最短路徑的邊上權(quán)值(詞權(quán))之和計算;詞權(quán)與關(guān)鍵詞之間連系的強度直接相關(guān),則子概念ci和其父概念c′聯(lián)系的強度,可以表示為:
優(yōu)選的是,考慮到其他因素,如在所屬領(lǐng)域內(nèi)的局部密度、概念深度和概念關(guān)系,整個概念之間的邊權(quán)wt(ci,c′)表示為:
其中,d(c′)表示c′在名詞所在的領(lǐng)域中的深度,e(c′)為名詞所在的領(lǐng)域的關(guān)系數(shù),
ic(c)=-logp(c),
其中,p(c)為概念c在整個領(lǐng)域內(nèi)出現(xiàn)的概率。
綜上所述,名詞c1與關(guān)鍵詞c2之間的語義距離可以表示為:
其中,path(c1,c2)是從名詞c1到關(guān)鍵詞c2經(jīng)過路徑上的所有概念,lsuper(c1,c2)表示c1、c2之間最小父概念;
根據(jù)等同關(guān)系、繼承關(guān)系和屬性關(guān)系分別對應(yīng)的r(ci,c′)定義為1.0、0.6和0.3;在實際應(yīng)用過程中密度e(c′)和深度d(c′)并不起什么作用,α與β分別設(shè)置0和1,擴展性語義搜索中,名詞c1為關(guān)鍵詞c2的父概念,最終的語義距離可以簡化為:
通過名詞c1和關(guān)鍵詞c2之間的語義距離得到檢索語句的相似度評分,并且將該相似度評分作為檢索權(quán)重。
在另一種實施例中,采用模糊控制方法計算檢索權(quán)重與預(yù)設(shè)權(quán)重的匹配度φ,模糊控制模型的輸入是檢索權(quán)重η與預(yù)設(shè)權(quán)重η′的權(quán)重差δη和檢索權(quán)重與預(yù)設(shè)權(quán)重的之差δη與預(yù)設(shè)權(quán)重η′的權(quán)重差比值
模糊控制模型的控制規(guī)則選取經(jīng)驗為:
如果權(quán)重差δη為負中等,權(quán)重差比值
表1模糊控制規(guī)則
盡管本發(fā)明的實施方案已公開如上,但其并不僅僅限于說明書和實施方式中所列運用,它完全可以被適用于各種適合本發(fā)明的領(lǐng)域,對于熟悉本領(lǐng)域的人員而言,可容易地實現(xiàn)另外的修改,因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本發(fā)明并不限于特定的細節(jié)和這里示出與描述的圖例。