国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于敘詞表的信息檢索方法及裝置制造方法

      文檔序號(hào):6539725閱讀:200來源:國(guó)知局
      基于敘詞表的信息檢索方法及裝置制造方法
      【專利摘要】一種基于敘詞表的信息檢索方法及裝置,所述方法包括根據(jù)敘詞表,對(duì)用戶輸入的檢索詞進(jìn)行規(guī)范化,獲得規(guī)范化檢索詞K;利用規(guī)范化檢索詞K,通過通用搜索引擎對(duì)規(guī)范化檢索詞K進(jìn)行檢索,對(duì)結(jié)果的網(wǎng)址進(jìn)行分析,提取要素信息;利用相似度計(jì)算的方法求出敘詞表中K的相關(guān)詞的相似度,將相似度大于閾值的相關(guān)詞加入查詢擴(kuò)展集合N;將與K的相似度作為對(duì)應(yīng)相關(guān)詞的權(quán)值,利用相關(guān)詞對(duì)每個(gè)網(wǎng)頁(yè)中的要素信息進(jìn)行加權(quán)求和計(jì)算,得到網(wǎng)頁(yè)的權(quán)值,將網(wǎng)頁(yè)按照權(quán)值由從大到小排序。本發(fā)明利用敘詞表的詞間關(guān)系,提出語義相似度計(jì)算方法,實(shí)現(xiàn)對(duì)敘詞表詞間關(guān)系的量化分析,并將計(jì)算相似度的敘詞用于檢索后結(jié)果的加權(quán)排序。本發(fā)明信息檢索方法和裝置顯著提高了查詢效果。
      【專利說明】基于敘詞表的信息檢索方法及裝置
      【技術(shù)領(lǐng)域】
      [0001]本申請(qǐng)涉及一種信息檢索方法和裝置,具體地,涉及一種利用敘詞表的相似度計(jì)算得到查詢擴(kuò)展詞集從而對(duì)檢索結(jié)果進(jìn)行相似度加權(quán)排序的信息檢索方法和裝置。
      【背景技術(shù)】
      [0002]隨著Internet的迅速發(fā)展,網(wǎng)絡(luò)上的信息已經(jīng)變得非常龐大,面對(duì)海量級(jí)的數(shù)據(jù),如何進(jìn)行高效、準(zhǔn)確的信息檢索是值得研究的課題?,F(xiàn)有技術(shù)中,搜索引擎憑借其符合大眾信息檢索習(xí)慣的優(yōu)勢(shì)成為了目前獲取網(wǎng)絡(luò)信息的主要工具。但是,由于目前的搜索引擎采用的都是基于關(guān)鍵詞的字面匹配模式,即僅以孤立的關(guān)鍵詞對(duì)信息內(nèi)容進(jìn)行標(biāo)引和檢索,并不能表達(dá)出詞語的語義內(nèi)涵,更不能勝任獲取文本中潛在的豐富的語義知識(shí)。因此,人們依然很難從海量信息中獲取到自己最需要的信息,在多樣化的網(wǎng)絡(luò)信息環(huán)境下,現(xiàn)有搜索技術(shù)存在著明顯的不足之處。
      [0003]為解決以上問題,提出了一些新穎的網(wǎng)絡(luò)信息組織和檢索理念。例如,概念檢索和語義檢索等。本體是實(shí)現(xiàn)語義檢索的一種較為有效的工具,但本體的構(gòu)建和維護(hù)需要大量的工作。
      [0004]目前很多行業(yè)領(lǐng)域都有自己較成熟的敘詞表。敘詞表是一個(gè)相對(duì)完善并且發(fā)展成熟的概念知識(shí)體系,自其從20世紀(jì)50年代誕生以來,經(jīng)過不斷發(fā)展和完善,已成為主題法中重要的信息組織工具,并曾在傳統(tǒng)文獻(xiàn)標(biāo)引和檢索中發(fā)揮過重要作用。與普通的網(wǎng)絡(luò)信息擴(kuò)展檢索方法相比,基于敘詞表詞間關(guān)系的信息檢索方法更注重利用敘詞表這一語義邏輯提高檢索結(jié)果的檢準(zhǔn)率和檢全率?;跀⒃~表的信息檢索方法在某些領(lǐng)域已有相關(guān)石開究,文獻(xiàn) I (Chen C,Zhu Q, Lin L, et al.Web media semantic concept retrievalvia tag removal and model fusion[J].ACM Transactions on Intelligent Systemsand Technology (TIST), 2013,4 (4): 61)利用美國(guó)國(guó)立醫(yī)學(xué)圖書館(The National Libraryof Medicine)設(shè)計(jì)的元敘詞表(Metathesaurus)對(duì)用戶所輸入的檢索信息進(jìn)行語法分析,并根據(jù)分析結(jié)果進(jìn)行查詢擴(kuò)展。但是該文獻(xiàn)沒有對(duì)敘詞之間的關(guān)系類型進(jìn)行量化分析。文獻(xiàn) 2 (XiongXia.Domain information retrieval based on term relationships ofthesaurus.Beijing:Chinese Academy of Agricultural Sciences Dissertation,2011)給出一種基于農(nóng)業(yè)敘詞表的信息檢索方法,但該方法在查詢擴(kuò)展時(shí)只考慮了與核心檢索詞直接相關(guān)的單級(jí)擴(kuò)展,沒有考慮其他敘詞的影響。
      [0005]因此,如何能夠?qū)⒃~表利用到信息檢索中,并綜合考慮敘詞間多種關(guān)系的相似度,進(jìn)行檢索結(jié)果的加權(quán)分析,成為現(xiàn)有技術(shù)亟需解決的技術(shù)問題。

      【發(fā)明內(nèi)容】

      [0006]本發(fā)明的目的在于基于敘詞表的信息檢索方法和裝置,使得能夠利用敘詞表的相似度計(jì)算得到查詢擴(kuò)展詞集從而對(duì)檢索結(jié)果進(jìn)行相似度加權(quán)排序。
      [0007]為達(dá)到此目的,本發(fā)明采用了如下方案:[0008]一種基于敘詞表的信息檢索方法,包括如下步驟:
      [0009]敘詞規(guī)范化步驟:根據(jù)敘詞表,對(duì)用戶輸入的檢索詞進(jìn)行規(guī)范化,獲得規(guī)范化檢索詞K ;
      [0010]網(wǎng)頁(yè)抓取步驟:利用通用搜索引擎以規(guī)范化檢索詞K為檢索詞進(jìn)行檢索,對(duì)前若干個(gè)結(jié)果的網(wǎng)址進(jìn)行分析,提取出網(wǎng)頁(yè)中的要素信息,所述要素信息包括網(wǎng)頁(yè)中的URL、標(biāo)題、正文、摘要、關(guān)鍵詞;
      [0011]查詢擴(kuò)展集合建立步驟:利用相似度計(jì)算的方法求出敘詞表中K的相關(guān)詞的相似度,將相似度大于所設(shè)置的閾值的相關(guān)詞加入所述查詢擴(kuò)展集合N ;
      [0012]加權(quán)排序步驟:將與K的相似度作為所述查詢擴(kuò)展集合N中相關(guān)詞的權(quán)值,利用所述相關(guān)詞對(duì)每個(gè)網(wǎng)頁(yè)中的所述要素信息進(jìn)行加權(quán)求和計(jì)算,得到每個(gè)網(wǎng)頁(yè)的權(quán)值,將所述網(wǎng)頁(yè)按照所述權(quán)值由從大到小排序,并返回給用戶。
      [0013]優(yōu)選地,所述加權(quán)排序步驟包括:
      [0014]頻率計(jì)算步驟,計(jì)算所述查詢擴(kuò)展集合中的每一個(gè)相關(guān)詞在網(wǎng)頁(yè)的標(biāo)題中出現(xiàn)的頻率T以及在網(wǎng)頁(yè)正文中出現(xiàn)的頻率P ;
      [0015]權(quán)值計(jì)算步驟,求和計(jì)算每個(gè)網(wǎng)頁(yè)的權(quán)值,其公式為:
      [0016]TWn = Efl1Wi X (ω X Tj + Pj)
      [0017]其中,TWn為第η個(gè)網(wǎng)頁(yè)的總權(quán)值,m為所述查詢擴(kuò)展集合N中相關(guān)詞的數(shù)目,Wi為N中第i個(gè)擴(kuò)展詞與規(guī)范化檢索詞K的相似度,Ti和Pi分別為所述擴(kuò)展詞在第i個(gè)網(wǎng)頁(yè)的標(biāo)題和正文中出現(xiàn)的頻率,ω為標(biāo)題正文比,用于調(diào)節(jié)標(biāo)題對(duì)于最終結(jié)果的重要性,ω越大,標(biāo)題對(duì)該網(wǎng)頁(yè)權(quán)值的影響越大;
      [0018]排序步驟,將所述網(wǎng)頁(yè)按照所述權(quán)值由從大到小排序,并返回給用戶。
      [0019]進(jìn)一步優(yōu)選地,通過實(shí)驗(yàn)來選擇合適的閾值Q及加權(quán)排序中的標(biāo)題正文比ω。閾值Q取值為0.2-0.8,標(biāo)題正文比ω取值為1-6。
      [0020]優(yōu)選地,所述查詢擴(kuò)展集合建立步驟包括:
      [0021]建立初始查詢擴(kuò)展集合步驟:根據(jù)敘詞表對(duì)規(guī)范化檢索詞K進(jìn)行擴(kuò)展,得到關(guān)于所述規(guī)范化檢索詞K的初始查詢擴(kuò)展集合U= {D,F(xiàn),W,Y},其中,D表示K的等同詞,F(xiàn)表示K的所有上位/下位詞,即敘詞表概念樹T的所有節(jié)點(diǎn),W表示K的相關(guān)詞,Y表示F的等同詞和相關(guān)詞;
      [0022]建立敘詞表查詢概念樹步驟:找到所述規(guī)范化檢索K的族首詞0,以O(shè)為根節(jié)點(diǎn)建立敘詞表概念樹T ;
      [0023]概念對(duì)組成步驟:從所述初始查詢擴(kuò)展集合中逐個(gè)抽取擴(kuò)展詞,使得規(guī)范化檢索詞K與擴(kuò)展詞組成概念對(duì);
      [0024]相似度計(jì)算步驟:根據(jù)所述概念對(duì)中規(guī)范化檢索詞K與擴(kuò)展詞的關(guān)系類型,采用不同的公式計(jì)算規(guī)范化檢索詞K與擴(kuò)展詞的相似度;
      [0025]閾值判斷步驟:設(shè)置閾值Q,判斷所述初始查詢擴(kuò)展集合每個(gè)詞與所述規(guī)范化檢索詞K的相似度是否大于Q:若大于,則將該詞加入到查詢擴(kuò)展集合N中;若小于,則跳過,即不加入到查詢擴(kuò)展集合N中。
      [0026]進(jìn)一步優(yōu)選地,所述相似度計(jì)算步驟包括:
      [0027]當(dāng)概念對(duì)中擴(kuò)展詞為K的等同詞D時(shí),所述相似度為等同相似度SimD (K,D),采用以下公式計(jì)算:
      [0028]SimD(K,D)=l。
      [0029]當(dāng)概念對(duì)中擴(kuò)展詞為K的上位/下位詞F時(shí),所述相似度為屬分相似度SimF (K, F),采用以下公式計(jì)算:
      [0030]SimF (K, F) =^Xf2Xf3
      [0031]其中,為基于最短路徑的相似度,f2為基于最近根深度的相似度,f3為基于密度的相似度,
      [0032]基于最短路徑的相似度的計(jì)算公式為:
      [0033]f^d) =e_ad
      [0034]其中,d為在T中由K到F的最短路徑長(zhǎng)度,a為調(diào)節(jié)因子,a越大,也越大。
      [0035]基于最近根深度的相似度f2的計(jì)算公式為:
      [0036]f2 (h)=l-e_0h
      [0037]其中,h為R(K,F(xiàn))所在深度,β為調(diào)節(jié)因子,β越大,f2也就越大。
      [0038]基于密度的相似度f3的計(jì)算公式為:
      [0039]
      【權(quán)利要求】
      1.一種基于敘詞表的信息檢索方法,包括如下步驟: 敘詞規(guī)范化步驟:根據(jù)敘詞表,對(duì)用戶輸入的檢索詞進(jìn)行規(guī)范化,獲得規(guī)范化檢索詞K ;網(wǎng)頁(yè)抓取步驟:利用通用搜索引擎以規(guī)范化檢索詞K為檢索詞進(jìn)行檢索,對(duì)前若干個(gè)結(jié)果的網(wǎng)址進(jìn)行分析,提取出網(wǎng)頁(yè)中的要素信息,所述要素信息包括網(wǎng)頁(yè)中的URL、標(biāo)題、正文、摘要、關(guān)鍵詞; 查詢擴(kuò)展集合建立步驟:利用相似度計(jì)算的方法求出敘詞表中K的相關(guān)詞的相似度,將相似度大于所設(shè)置的閾值的相關(guān)詞加入所述查詢擴(kuò)展集合N ; 加權(quán)排序步驟:將與K的相似度作為所述查詢擴(kuò)展集合N中相關(guān)詞的權(quán)值,利用所述相關(guān)詞對(duì)每個(gè)網(wǎng)頁(yè)中的所述要素信息進(jìn)行加權(quán)求和計(jì)算,得到每個(gè)網(wǎng)頁(yè)的權(quán)值,將所述網(wǎng)頁(yè)按照所述權(quán)值由從大到小排序,并返回給用戶。
      2.根據(jù)權(quán)利要求1所述的基于敘詞表的信息檢索方法,其特征在于: 所述加權(quán)排序步驟包括: 頻率計(jì)算步驟,計(jì)算所述查詢擴(kuò)展集合中的每一個(gè)相關(guān)詞在網(wǎng)頁(yè)的標(biāo)題中出現(xiàn)的頻率T以及在網(wǎng)頁(yè)正文中出現(xiàn)的頻率P ; 權(quán)值計(jì)算步驟,求和計(jì)算每個(gè)網(wǎng)頁(yè)的權(quán)值,其公式為:
      3.根據(jù)權(quán)利要求2所述的基于敘詞表的信息檢索方法,其特征在于: 通過實(shí)驗(yàn)來選擇合適的閾值Q及加權(quán)排序中的標(biāo)題正文比ω。
      4.根據(jù)權(quán)利要求3所述的基于敘詞表的信息檢索方法,其特征在于: 閾值Q取值為0.2-0.8,標(biāo)題正文比ω取值為1-6。
      5.根據(jù)權(quán)利要求1所述的基于敘詞表的信息檢索方法,其特征在于: 所述查詢擴(kuò)展集合建立步驟包括: 建立初始查詢擴(kuò)展集合步驟:根據(jù)敘詞表對(duì)規(guī)范化檢索詞K進(jìn)行擴(kuò)展,得到關(guān)于所述規(guī)范化檢索詞K的初始查詢擴(kuò)展集合U= {D, F,W,Y},其中,D表示K的等同詞,F(xiàn)表示K的所有上位/下位詞,即敘詞表概念樹T的所有節(jié)點(diǎn),W表示K的相關(guān)詞,Y表示F的等同詞和相關(guān)詞; 建立敘詞表查詢概念樹步驟:找到所述規(guī)范化檢索K的族首詞O,以O(shè)為根節(jié)點(diǎn)建立敘詞表概念樹T ; 概念對(duì)組成步驟:從所述初始查詢擴(kuò)展集合中逐個(gè)抽取擴(kuò)展詞,使得規(guī)范化檢索詞K與擴(kuò)展詞組成概念對(duì); 相似度計(jì)算步驟:根據(jù)所述概念對(duì)中規(guī)范化檢索詞K與擴(kuò)展詞的關(guān)系類型,采用不同的公式計(jì)算規(guī)范化檢索詞K與擴(kuò)展詞的相似度; 閾值判斷步驟:設(shè)置閾值Q,判斷所述初始查詢擴(kuò)展集合每個(gè)詞與所述規(guī)范化檢索詞K的相似度是否大于Q:若大于,則將該詞加入到查詢擴(kuò)展集合N中;若小于,則跳過,即不加入到查詢擴(kuò)展集合N中。
      6.根據(jù)權(quán)利要求5所述的基于敘詞表的信息檢索方法,其特征在于: 所述相似度計(jì)算步驟包括: 當(dāng)概念對(duì)中擴(kuò)展詞為K的等同詞D時(shí),所述相似度為等同相似度SimD (K,D),采用以下公式計(jì)算:
      SimD (K, D)=l。
      7.根據(jù)權(quán)利要求5所述的基于敘詞表的信息檢索方法,其特征在于: 所述相似度計(jì)算步驟包括: 當(dāng)概念對(duì)中擴(kuò)展詞為K的上位/下位詞F時(shí),所述相似度為屬分相似度SimF (K,F(xiàn)),采用以下公式計(jì)算:
      SimF (K, F) =^Xf2Xf3 其中,為基于最短路徑的相似度,f2為基于最近根深度的相似度,f3為基于密度的相似度, 基于最短路徑的相似度的計(jì)算公式為: fi (d) =e_ad 其中,d為在T中由K到F的最短路徑長(zhǎng)度,a為調(diào)節(jié)因子,a越大,也越大, 基于最近根深度的相似度f2的計(jì)算公式為: f2 (h)=l-e_eh 其中,h為(K,F(xiàn))所在深度,β為調(diào)節(jié)因子,β越大,f2也就越大, 基于密度的相似度f3的計(jì)算公式為:
      8.根據(jù)權(quán)利要求5所述的基于敘詞表的信息檢索方法,其特征在于: 當(dāng)概念對(duì)中擴(kuò)展詞為K的相關(guān)詞W時(shí),所述相似度為相關(guān)相似度SimW (K,W),采用以下公式計(jì)算:
      Simff (K, ff) =gi X g2 其中,gl為基于相關(guān)關(guān)聯(lián)敘詞深度的相似度,g2為基于相關(guān)關(guān)聯(lián)敘詞密度的相似度, 基于相關(guān)關(guān)聯(lián)敘詞深度的相似度gl的計(jì)算公式為:
      9.根據(jù)權(quán)利要求5所述的基于敘詞表的信息檢索方法,其特征在于:當(dāng)概念對(duì)中擴(kuò)展詞為K的上位/下位詞F的等同詞/相關(guān)詞Y時(shí),所述相似度為間接關(guān)系相似度,分別采用以下公式計(jì)算:
      SimY (K, Y) =SimF (K, F) X SimD (F, Y) 或者
      SimY (K, Y) =SimF (K, F) X Simff (F,Y)。
      10.一種基于敘詞表的信息檢索裝置,包括: 敘詞規(guī)范化單元:根據(jù)敘詞表,對(duì)用戶輸入的檢索詞進(jìn)行規(guī)范化,獲得規(guī)范化檢索詞K ;網(wǎng)頁(yè)抓取單元:利用所述敘詞規(guī)范化單元得到的規(guī)范化檢索詞K,利用通用搜索引擎以規(guī)范化檢索詞K為檢索詞進(jìn)行檢索,對(duì)前若干個(gè)結(jié)果的網(wǎng)址進(jìn)行分析,提取出網(wǎng)頁(yè)中的要素信息,所述要素信息包括網(wǎng)頁(yè)中的URL、標(biāo)題、正文、摘要、關(guān)鍵詞; 查詢擴(kuò)展集合建立單元:利用相似度計(jì)算的方法求出敘詞表中K的相關(guān)詞的相似度,將相似度大于所設(shè)置的閾值的相關(guān)詞加入所述查詢擴(kuò)展集合N ; 加權(quán)排序單元:將與K的相似度作為所述查詢擴(kuò)展集合N中相關(guān)詞的權(quán)值,利用所述相關(guān)詞對(duì)每個(gè)網(wǎng)頁(yè)中的所述要素信息進(jìn)行加權(quán)求和計(jì)算,得到每個(gè)網(wǎng)頁(yè)的權(quán)值,將所述網(wǎng)頁(yè)按照所述權(quán)值由從大到小排序,并返回`給用戶。
      【文檔編號(hào)】G06F17/30GK103778262SQ201410080938
      【公開日】2014年5月7日 申請(qǐng)日期:2014年3月6日 優(yōu)先權(quán)日:2014年3月6日
      【發(fā)明者】李冬梅, 韓其琛, 方博 申請(qǐng)人:北京林業(yè)大學(xué)
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1