国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      查詢意圖挖掘的方法和系統(tǒng)的制作方法

      文檔序號(hào):6541017閱讀:218來源:國知局
      查詢意圖挖掘的方法和系統(tǒng)的制作方法
      【專利摘要】本發(fā)明涉及一種查詢意圖挖掘的方法,包括如下步驟:獲取搜索查詢、識(shí)別搜索查詢中的關(guān)鍵概念、識(shí)別關(guān)鍵概念中的數(shù)值類型、對(duì)于每一個(gè)識(shí)別得到的數(shù)值類型生成數(shù)值查詢實(shí)例、從數(shù)據(jù)源中挖掘?qū)?yīng)的候選意圖、通過數(shù)值查詢實(shí)例計(jì)算與其對(duì)應(yīng)的候選意圖的取值范圍、對(duì)候選意圖進(jìn)行聚類、輸出意圖列表。本發(fā)明還公開了一種查詢意圖挖掘的系統(tǒng),包括搜索查詢獲取模塊、關(guān)鍵概念識(shí)別模塊、數(shù)值類型識(shí)別模塊、數(shù)值查詢實(shí)例生成模塊、候選意圖挖掘模塊、計(jì)算模塊、聚類模塊以及顯示模塊。采用本發(fā)明的技術(shù)方案根據(jù)搜索用戶的查詢意圖對(duì)搜索結(jié)果進(jìn)行有效的索引和組織等處理,有效地提高了準(zhǔn)確率,避免了搜索用戶篩選并非自己意圖的搜索結(jié)果所造成的時(shí)間和精力的浪費(fèi)。
      【專利說明】查詢意圖挖掘的方法和系統(tǒng)
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及信息檢索領(lǐng)域,尤其涉及一種查詢意圖挖掘的方法和系統(tǒng)。
      【背景技術(shù)】
      [0002]互聯(lián)網(wǎng)是官方發(fā)布科技信息、個(gè)人發(fā)布日記或博客的平臺(tái)。信息檢索系統(tǒng)(例如搜索引擎)日益重要,因?yàn)樗軌驈拇髷?shù)據(jù)集中找到用戶想要的信息;然而,不同的用戶會(huì)使用同一個(gè)簡短且模糊的查詢?cè)~去查找不同的信息(解釋),這就導(dǎo)致現(xiàn)有信息檢索系統(tǒng)難以返回充足、準(zhǔn)確的結(jié)果。為了幫助用戶快速且準(zhǔn)確地找到他們感興趣的信息,各種各樣基于自然語言處理和信息檢索的搜索結(jié)果整理方法應(yīng)運(yùn)而生。 [0003]如圖1所示,展示了一個(gè)用戶接口,包含輸入的查詢、挖掘得到的意圖和屬于不同意圖的搜索結(jié)果。這些結(jié)果的羅列通常使得用戶需要耗費(fèi)較多的時(shí)間和精力進(jìn)行篩選,以獲取真正符合自己意圖的搜索結(jié)果。
      [0004]即使是現(xiàn)有的最優(yōu)方案=THUIR (信息檢索組)團(tuán)隊(duì)提出的“先從互聯(lián)網(wǎng)數(shù)據(jù)(主流搜索引擎的搜索結(jié)果及搜索查詢?nèi)罩镜?中挖掘候選意圖;然后根據(jù)照特征對(duì)這些候選意圖進(jìn)行排序,特征包括意圖頻度、共現(xiàn)頻度、點(diǎn)擊統(tǒng)計(jì)和編輯距離等;最后,系統(tǒng)輸出排序的意圖列表”這一技術(shù)方案依然不能準(zhǔn)確找到用戶的真正意圖。比如,用戶輸入搜索查詢“cipro for uti4days”,如下表 3 所示,為 THUIR 系統(tǒng)針對(duì)用戶的 “cipro for uti4days”查詢輸出的最相關(guān)的兩個(gè)候選意圖,
      [0005]表1
      【權(quán)利要求】
      1.一種查詢意圖挖掘的方法,其特征在于,包括如下: A、獲取一個(gè)搜索查詢; B、識(shí)別該搜索查詢中的關(guān)鍵概念; C、識(shí)別所述關(guān)鍵概念中的數(shù)值類型; D、對(duì)于每一個(gè)識(shí)別得到的所述數(shù)值類型,生成至少一個(gè)包含有數(shù)值查詢結(jié)構(gòu)的數(shù)值查詢實(shí)例; E、從數(shù)據(jù)源中挖掘與所述搜索查詢相關(guān)且與至少一個(gè)步驟D中生成的所述數(shù)值查詢實(shí)例同時(shí)出現(xiàn)的候選意圖; F、通過所述數(shù)值查詢實(shí)例計(jì)算與其對(duì)應(yīng)的所述候選意圖的取值范圍; G、根據(jù)步驟F中計(jì)算得出的所述候選意圖的取值范圍對(duì)所述候選意圖進(jìn)行聚類; H、輸出所述候選意圖的意圖列表。
      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述數(shù)值類型包括周期、頻度、距離、數(shù)量和水平。
      3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述數(shù)值查詢結(jié)構(gòu)包括所述關(guān)鍵概念、所述數(shù)值類型以及實(shí)例數(shù)值。
      4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述實(shí)例數(shù)值取最大值、最小值、確定值和間隔值四個(gè)類型之一。
      5.根據(jù)權(quán)利要求3所述的方法,其特征在于,步驟D中,所述生成數(shù)值查詢實(shí)例,包括: D1、使用預(yù)設(shè)的數(shù)值集合,為每一個(gè)所述數(shù)值查詢實(shí)例設(shè)定所述實(shí)例數(shù)值。
      6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述生成數(shù)值查詢實(shí)例,進(jìn)一步包括: D21、從預(yù)設(shè)的模式集中獲取與所述數(shù)值類型相應(yīng)的模式; D22、使用步驟D21中獲取的模式從數(shù)據(jù)源中挖掘所述數(shù)值查詢實(shí)例。
      7.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟E進(jìn)一步包括: El1、從數(shù)據(jù)源中檢索與所述搜索查詢相關(guān)的內(nèi)容,且該內(nèi)容至少包含一個(gè)數(shù)值查詢實(shí)例; E12、從每個(gè)步驟Ell中檢索出的所述搜索查詢相關(guān)的內(nèi)容中,根據(jù)預(yù)設(shè)的詞庫識(shí)別出候選意圖; E13、生成候選意圖集,且所述候選意圖至少與一個(gè)數(shù)值查詢實(shí)例共現(xiàn)。
      8.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟F進(jìn)一步包括: Fl1、計(jì)算每一個(gè)所述數(shù)值查詢實(shí)例的取值范圍; F12、生成包含至少一個(gè)候選意圖的數(shù)據(jù)集; F13、對(duì)于步驟F12中生成的所述數(shù)據(jù)集中的每一個(gè)意圖,計(jì)算該意圖的取值分布以及權(quán)值,所述意圖的取值等于該意圖的權(quán)值除以整個(gè)數(shù)值查詢實(shí)例集合所包含意圖的權(quán)值總和,且求得的該意圖的取值與權(quán)值均與該意圖對(duì)應(yīng)地置于所述數(shù)據(jù)集中; F14、以所述候選意圖的實(shí)例數(shù)值的最小值作為該候選意圖的取值范圍的左邊界; F15、以所述候選意圖的實(shí)例數(shù)值的最大值作為該候選意圖的取值范圍的右邊界; F16、對(duì)每一個(gè)所述候選意圖,計(jì)算其在取值范圍內(nèi)的總的分布值。
      9.根據(jù)權(quán)利要求8所述的方法,其特征在于,步驟Fll進(jìn)一步包括: Fill、根據(jù)預(yù)設(shè)的數(shù)值類型,計(jì)算數(shù)值查詢實(shí)例的取值范圍。
      10.根據(jù)權(quán)利要求8所述的方法,其特征在于,步驟F14進(jìn)一步包括: F1411、對(duì)每一個(gè)所述候選意圖設(shè)定初始的取值范圍,將整個(gè)所述數(shù)據(jù)集的最大值設(shè)為其左邊界; F1412、對(duì)于選定的具有最大分布值的所述候選意圖,獲取其實(shí)例數(shù)值; F1413、如果當(dāng)前的左邊界值大于獲取的實(shí)例數(shù)值,則將該實(shí)例數(shù)值設(shè)為左邊界。
      11.根據(jù)權(quán)利要求8所述的方法,其特征在于,步驟F15進(jìn)一步包括: F1511、對(duì)每一個(gè)所述候選意圖設(shè)定初始的取值范圍,將整個(gè)所述數(shù)據(jù)集的最小值設(shè)為其右邊界; F1512、對(duì)于選定的具有最大分布值的所述候選意圖,獲取其實(shí)例數(shù)值; F1513、如果當(dāng)前的右邊界 值小于獲取的實(shí)例數(shù)值,則將該實(shí)例數(shù)值設(shè)為右邊界。
      12.根據(jù)權(quán)利要求8所述的方法,其特征在于,步驟F進(jìn)一步包括: F17、獲取所述搜索查詢的實(shí)例數(shù)值; F18、當(dāng)獲取的所述搜索查詢的實(shí)例數(shù)值小于候選意圖的取值范圍的左邊界值,對(duì)該實(shí)例數(shù)值對(duì)應(yīng)的候選意圖取值范圍的分布值設(shè)定最小值; F19、當(dāng)獲取的所述搜索查詢的實(shí)例數(shù)值在所述候選意圖的取值范圍內(nèi),對(duì)該實(shí)例數(shù)值對(duì)應(yīng)的候選意圖的分布值設(shè)定最大值。
      13.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟C中若無法識(shí)別出所述數(shù)值類型,則進(jìn)行如下步驟: D'、從數(shù)據(jù)源中挖掘意圖候選集; E'、對(duì)所述意圖候選集中的候選意圖進(jìn)行排序; H、輸出所述候選意圖的意圖列表; 其中,步驟E'中的排序依據(jù)包括意圖頻率、同現(xiàn)頻率、點(diǎn)擊統(tǒng)計(jì)及編輯距離。
      14.根據(jù)權(quán)利要求1至13中任一項(xiàng)所述的方法,還包括: 對(duì)所述搜索查詢中的每一個(gè)關(guān)鍵概念,檢索出相關(guān)的文檔候選集; 根據(jù)所述意圖列表,對(duì)每一個(gè)候選文檔打出相關(guān)度得分,所述候選文檔至少包含一個(gè)候選意圖; 根據(jù)所述候選文檔的相關(guān)度得分,對(duì)所述候選文檔進(jìn)行排序。
      15.根據(jù)權(quán)利要求1至13中任一項(xiàng)所述的方法,還包括: 根據(jù)所述意圖列表生成擴(kuò)展的查詢; 提取與所述擴(kuò)展的查詢相關(guān)的文檔候選集。
      16.一種查詢意圖挖掘的系統(tǒng),其特征在于,包括: 信息獲取模塊,用以獲取搜索查詢; 關(guān)鍵概念識(shí)別模塊,用以識(shí)別所述搜索查詢中的關(guān)鍵概念; 數(shù)值類型識(shí)別模塊,用以識(shí)別所述關(guān)鍵概念中的數(shù)值類型; 數(shù)值查詢實(shí)例生成模塊,對(duì)于每一個(gè)識(shí)別得到的所述數(shù)值類型,生成至少一個(gè)包含有數(shù)值查詢結(jié)構(gòu)的數(shù)值查詢實(shí)例; 候選意圖挖掘模塊,用以從數(shù)據(jù)源中挖掘與所述搜索查詢相關(guān)且與至少一個(gè)所述數(shù)值查詢實(shí)例生成模塊生成的所述數(shù)值查詢實(shí)例同時(shí)出現(xiàn)的候選意圖; 計(jì)算模塊,用以通過所述數(shù)值查詢實(shí)例計(jì)算與其對(duì)應(yīng)的所述候選意圖的取值范圍;聚類模塊,用以根據(jù)所述計(jì)算模塊計(jì)算得出的所述候選意圖的取值范圍對(duì)所述候選意圖進(jìn)行聚類;將相同取值范圍的候選意圖集聚合為一個(gè)意圖; 顯示模塊,用以輸出并顯示所述候選意圖的意圖列表。
      17.根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,所述數(shù)值類型包括周期、頻度、距離、數(shù)量和水平。
      18.根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,所述數(shù)值查詢結(jié)構(gòu)包括所述關(guān)鍵概念、數(shù)值類型以及用以表示所述數(shù)值查詢實(shí)例的實(shí)例數(shù)值。
      19.根據(jù)權(quán)利要求18所述的系統(tǒng),其特征在于,所述實(shí)例數(shù)值取最大值、最小值、確定值和間隔值四個(gè)類型之一。
      20.根據(jù)權(quán)利要求18所述的系統(tǒng),其特征在于,所述數(shù)值查詢實(shí)例生成模塊使用預(yù)設(shè)的數(shù)值集合,為每一個(gè)所述數(shù)值查詢實(shí)例設(shè)定所述實(shí)例數(shù)值。
      21.根據(jù)權(quán)利要求18所述的系統(tǒng),其特征在于,所述數(shù)值查詢實(shí)例生成模塊從預(yù)設(shè)的模式集中獲取與所述數(shù)值類型相關(guān)的模式,并且根據(jù)獲取的該模式從數(shù)據(jù)源中挖掘所述數(shù)值查詢實(shí)例。
      22.根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,所述候選意圖挖掘模塊從數(shù)據(jù)源中檢索與所述搜索查詢相關(guān)的內(nèi)容,從每個(gè)檢索出的搜索查詢相關(guān)的內(nèi)容中,根據(jù)預(yù)設(shè)的詞庫識(shí)別出候選意圖,并生成候選意圖集。
      23.根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,所述候選意圖挖掘模塊還用以: 計(jì)算每一個(gè)所述數(shù)值查詢實(shí)例的取值范圍; 生成包含至少一個(gè)候選意圖的數(shù)據(jù)集; 對(duì)于生成的所述數(shù)據(jù)集中的每一個(gè)意圖,計(jì)算該意圖的取值分布以及權(quán)值,所述意圖的取值等于該意圖的權(quán)值除以整個(gè)數(shù)值查詢實(shí)例集合所包含意圖的權(quán)值總和,且求得的該意圖的取值與權(quán)值均與該意圖對(duì)應(yīng)地置于所述數(shù)據(jù)集中; 將所述候選意圖的實(shí)例數(shù)值的最小值作為該候選意圖的取值范圍的左邊界; 將所述候選意圖的實(shí)例數(shù)值的最大值作為該候選意圖的取值范圍的右邊界; 對(duì)每一個(gè)所述候選意圖,計(jì)算其在取值范圍內(nèi)的總的分布值。
      24.根據(jù)權(quán)利要求23所述的系統(tǒng),其特征在于,所述候選意圖挖掘模塊還用以: 對(duì)每一個(gè)候選意圖設(shè)定初始的取值范圍,將整個(gè)所述數(shù)據(jù)集的最大值設(shè)為其左邊界; 對(duì)于選定的具有最大分布值的候選意圖,獲取其實(shí)例數(shù)值; 如果當(dāng)前的左邊界值大于獲取的實(shí)例數(shù)值,則將該實(shí)例數(shù)值設(shè)為左邊界。
      25.根據(jù)權(quán)利要求23所述的系統(tǒng),其特征在于,所述候選意圖挖掘模塊還用以: 對(duì)每一個(gè)候選意圖設(shè)定初始的取值范圍,將整個(gè)所述數(shù)據(jù)集的最小值設(shè)為其右邊界; 對(duì)于選定的具有最大分布值的候選意圖,獲取其實(shí)例數(shù)值; 如果當(dāng)前的右邊界值小于獲取的實(shí)例數(shù)值,則將該實(shí)例數(shù)值設(shè)為右邊界。
      26.根據(jù)權(quán)利要求23所述的系統(tǒng),其特征在于,所述候選意圖挖掘模塊還用以: 獲取所述搜索查詢的實(shí)例數(shù)值; 當(dāng)獲取的所述搜索查詢的實(shí)例數(shù)值小于候選意圖的取值范圍的左邊界值,對(duì)該實(shí)例數(shù)值對(duì)應(yīng)的候選意圖取值范圍的分布值設(shè)定最小值; 當(dāng)獲取的所述搜索查詢 的實(shí)例數(shù)值在所述候選意圖的取值范圍內(nèi),對(duì)該實(shí)例數(shù)值對(duì)應(yīng)的候選意圖的分布值設(shè)定最大值。
      27.根據(jù)權(quán)利要求16至26中任一項(xiàng)所述的系統(tǒng),其特征在于,還包括查詢擴(kuò)展模塊,用以利用意圖列表生成擴(kuò)展的查詢并使用擴(kuò)展的查詢檢索出相關(guān)的文檔候選集。
      【文檔編號(hào)】G06F17/30GK103927328SQ201410101649
      【公開日】2014年7月16日 申請(qǐng)日期:2014年3月18日 優(yōu)先權(quán)日:2014年3月18日
      【發(fā)明者】夏云慶, 那森, 黃耀海, 趙歡 申請(qǐng)人:清華大學(xué), 佳能株式會(huì)社
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1