一種查詢串的同義變換方法及設備的制造方法
【技術領域】
[0001] 本發(fā)明涉及搜索技術領域,特別涉及一種查詢串的同義變換方法及設備。
【背景技術】
[0002] 目前,地址搜索已經(jīng)是人們生活中經(jīng)常使用的一種搜索方式,例如,搜索酒店、飯 店以及購物中心等。這樣人們在出行前或出行中可以實現(xiàn)對目的地的路線規(guī)劃。
[0003] 但是,不同用戶針對同一事物的稱呼有所區(qū)別,例如,用戶輸入的查詢串為"方恒 國際大廈",而在搜索引擎對應的數(shù)據(jù)庫中只有名稱為"方恒國際中心"的興趣點數(shù)據(jù),由此 可見,雖然用戶輸入的查詢串為"方恒國際大廈",但其實際期望查詢的是"方恒國際中心",
[0004] 因此,搜索引擎有必要對用戶輸入的查詢串進行同義變換,將用戶輸入的查詢串 變換為數(shù)據(jù)庫中可能存在的查詢串,同時利用用戶輸入的查詢串和同義變換得到的查詢串 進行搜索,以便快速準確地得到用戶期望的搜索結(jié)果。
[0005] 目前搜索引擎對查詢串進行同義變換的方法是基于詞典,參見圖1,具體方法包括 以下步驟:
[0006] S101 :對用戶輸入的查詢串進行分詞處理,得到所述查詢串的分詞片段;例如,"方 恒國際中心"的分詞片段為"方/恒/國際/中心/"。
[0007] S102 :基于同義詞詞典,查找分詞片段的同義詞;
[0008] S103:如果查找到分詞片段的同義詞,則用該分詞片段的同義詞替換查詢串中對 應分詞片段,否則,進入步驟104 ;
[0009] S104:判斷分詞片段是否為最后一個分詞片段,如果是,則將同義詞替換得到的查 詢串作為結(jié)果輸出,否則返回步驟102。
[0010] 需要說明的是,分詞片段從左至右依次為第一個到最后一個,例如"方"為第一個 分詞片段,"中心"為最后一個分詞片段。
[0011] 現(xiàn)有技術中的查詢串同義變換方法僅是用每個分詞片段的同義詞替換原查詢串 中的分詞片段,例如,查詢串為"方恒國際大廈",同義詞表中有"大廈=中心"、"大廈=大 樓",查詢串被同義變換為"方恒國際大樓、方恒國際中心"。
[0012] 現(xiàn)有技術僅用分詞片段的同義詞替換的方式對查詢串進行同義變換,容易導致同 義變換得到的查詢串不符合語言習慣和語法要求,容易造成語義偏移。
【發(fā)明內(nèi)容】
[0013] 本發(fā)明要解決的技術問題是提供一種查詢串的同義變換方法及設備,能夠在查詢 串同義變換時減少語義偏移,使同義變換后的查詢串更加準確。
[0014] 本發(fā)明實施例提供一種查詢串的同義變換方法,包括:
[0015] 將查詢串進行分詞處理,得到分詞片段;
[0016] 以分詞片段為單元利用正向最大匹配算法在預置的詞庫中對所述查詢串進行同 義詞查詢;
[0017] 用查詢到的同義詞替換查詢串中對應的分詞片段得到多個同義串;
[0018] 對每個所述同義串進行需求滿意度統(tǒng)計,獲得每個同義串的需求滿意度值;
[0019] 對同義串按照需求滿意度值由大到小的順序進行排序;
[0020] 將排序在前的η個同義串作為同義變換后的查詢串,所述η為預置的需要反饋的 同義串個數(shù),η為整數(shù)。
[0021 ] 優(yōu)選地,若排在第η位的同義串Α之后的同義串與Α的需求滿意度值相同,所述方 法還包括:
[0022] 對A以及與A的需求滿意度值相同的所有同義串進行語言模型概率計算,將語言 模型概率最大的同義串作為第η個同義串進行反饋;
[0023] 所述語言模型概率為:同義串的兩兩相鄰的分詞片段之間的轉(zhuǎn)移概率之和。
[0024] 優(yōu)選地,若排在第η位的同義串Α之前的同義串和之后的同義串與Α的需求滿意 度相同,所述方法還包括:
[0025] 對A以及與A的需求滿意度相同的所有同義串進行語言模型概率計算,對同義串 按照計算出來的語言模型概率由大到小的順序進行排序;選出所述語言模型概率排序在前 的(n-m)個同義串進行反饋,所述m小于n,所述m為排在A之前且需求滿意度值與A不同 的同義串的總數(shù);
[0026] 所述語言模型概率為:同義串的兩兩相鄰的分詞片段之間的轉(zhuǎn)移概率之和。
[0027] 優(yōu)選地,所述對每個所述同義串進行需求滿意度統(tǒng)計,具體為:
[0028] 從預設的歷史查詢結(jié)果中,獲取每個同義串對應的需求參數(shù);
[0029] 根據(jù)每個所述同義串的需求參數(shù),進行需求滿意度的線性計算。
[0030] 優(yōu)選地,
[0031] 在預設的歷史查詢結(jié)果中,獲取每個同義串對應的需求參數(shù)具體包括:
[0032] 在預設的歷史查詢結(jié)果中,獲取每個同義串對應的第一需求參數(shù)a和第二需求參 數(shù)b ;
[0033] 根據(jù)每個所述同義串的需求參數(shù),進行需求滿意度的線性計算,具體為:
[0034] 將每個同義串對應的第一需求參數(shù)a和第二需求參數(shù)b代入公式
[0035] y = k^+^b ;
[0036] ki+k;, = 1 ;
[0037] 其中,y為所述需求滿意度值,所述h為所述第一需求參數(shù)的加權(quán)系數(shù),所述k2為 所述第二需求參數(shù)的加權(quán)系數(shù);所述第一需求參數(shù)為每個同義串的點擊數(shù)得分;所述第二 需求參數(shù)為每個同義串的查詢頻次得分;所述點擊數(shù)得分和所述查詢頻次得分均為預先獲 得的。
[0038] 優(yōu)選地,所述方法進一步包括:
[0039] 對搜索引擎積累的用戶歷史搜索的查詢串對應的點擊次數(shù)依據(jù)該點擊次數(shù)分布 進行歸一化處理,將每個查詢串的點擊次數(shù)映射到〇~1的值域空間內(nèi),得到所述點擊數(shù)得 分;
[0040] 對搜索引擎積累的用戶歷史搜索的查詢串對應的查詢頻次依據(jù)該查詢頻次分布 進行歸一化處理,將每個查詢串的查詢頻次映射到0~1的值域空間內(nèi),得到所述查詢頻次 得分。
[0041] 本發(fā)明實施例還提供一種查詢串的同義變換設備,包括:分詞模塊、同義串生成模 塊、需求滿意度統(tǒng)計模塊、第一排序模塊和反饋模塊;
[0042] 所述分詞模塊,用于將查詢串進行分詞處理,得到分詞片段;
[0043] 所述同義串生成模塊,用于以分詞片段為單元利用正向最大匹配算法在預置的詞 庫中對所述查詢串進行同義詞查詢,用查詢到的同義詞替換查詢串中對應的分詞片段得到 多個同義串;
[0044] 所述需求滿意度統(tǒng)計模塊,用于對每個所述同義串進行需求滿意度統(tǒng)計,獲得每 個同義串的需求滿意度值;
[0045] 所述第一排序模塊,用于對所述同義串按照需求滿意度值由大到小的順序進行排 序;
[0046] 所述反饋模塊,用于將排序在前的η個同義串作為同義變換后的查詢串,所述η為 預置的需要反饋的同義串個數(shù),η為整數(shù)。
[0047] 優(yōu)選地,若排在第η位的同義串Α之后的同義串與Α的需求滿意度值相同,還包 括:第一語言模型概率計算模塊和第一選擇模塊;
[0048] 所述第一語言模型概率計算模塊,用于對A以及與A的需求滿意度值相同的所有 同義串進行語言模型概率計算;
[0049] 所述第一選擇模塊,用于將語言模型概率最大的同義串作為第η個同義串發(fā)送給 所述反饋模塊;
[0050] 所述語言模型概率為:同義串的兩兩相鄰的分詞片段之間的轉(zhuǎn)移概率之和。
[0051] 優(yōu)選地,若排在第η位的同義串Α之前的同義串和之后的同義串與Α的需求滿意 度相同,還包括:第二語言模型概率計算模塊、第二排序模塊和第二選擇模塊;
[0052] 所述第二語言模型概率計算模塊,用于對A以及與A的需求滿意度相同的所有同 義串進行語言模型概率計算;
[0053] 所述第二排序模塊,用于對同義串按照計算出來的語言模型概率由大到小的順序 進打排序;
[0054] 所述第二選擇模塊,用于選出所述語言模型概率排序在前的(n-m)個同義串進行 反饋,所述m小于n,所述m為排在A之前且需求滿意度值與A不同的同義串的總數(shù);
[0055] 所述語言模型概率為:同義串的兩兩相鄰的分詞片段之間的轉(zhuǎn)移概率之和。
[0056] 優(yōu)選地,所述需求滿意度統(tǒng)計模塊包括線性計算子模塊,用于從預設的歷史查詢 結(jié)果中,獲取每個同義串對應的需求參數(shù);根據(jù)每個所述同義串的需求參數(shù),進行需求滿意 度的線性計算。
[0057] 優(yōu)選地,
[0058] 當所述需求參數(shù)為兩個時,所述線性計算子模塊根據(jù)預設的需求參數(shù)對每個所述 同義串進行線性計算獲得需求滿意度值,具體為:
[0059] y = k^+^b ;
[0060] k!+k2 = 1 ;
[0061] 其中,y為所述需求滿意度值,a為預設的第一需求參數(shù),所述b為預設的第二需 求參數(shù),所述4為所述第一需求參數(shù)的加權(quán)系數(shù),所述k 2為所述第二需求參數(shù)的加權(quán)系數(shù); 所述第一需求參數(shù)為每個同義串的點擊數(shù)得分;所述第二需求參數(shù)為每個同義串的查詢頻 次得分;所述點擊數(shù)得分和所述查詢頻次得分均為預先獲得的。
[0062] 優(yōu)選地,所述需求滿意度統(tǒng)計模塊還包括:點擊數(shù)得分子模塊和查詢頻次得分子 模塊;
[0063] 所述點擊數(shù)得分子模塊,用于對搜索引擎積累的用戶歷史搜索的查詢串對應的點 擊次數(shù)依據(jù)該點擊次數(shù)分布進行歸一化處理,將每個查詢串的點擊次數(shù)映射到〇~1的值 域空間內(nèi),得到所述點擊數(shù)得分;
[0064] 所述查詢頻次得分子模塊,用于對搜索引擎積累的用戶歷史搜索的查詢串對應的 查詢頻次依據(jù)該查詢頻次分布進行歸一化處理,將每個查詢串的查詢頻次映射到0~1的 值域空間內(nèi),得到所述查詢頻次得分。
[0065] 與現(xiàn)有技術相比,本發(fā)明具有以下優(yōu)點:
[0066] 本實施例提供的搜索引擎中查詢串的同義變換方法,利用正向最大匹配算法對分 詞片段進行同義詞查詢,由于正向最大匹配算法是優(yōu)先匹配最長的同義詞,如果有最長的 就停止匹配,如果沒有,就選擇次長的同義詞,這樣不會使更長的同義串漏掉,