數(shù)得分子模塊503b,用于對(duì)搜索引擎積累的用戶歷史搜索的查詢串對(duì)應(yīng) 的點(diǎn)擊次數(shù)依據(jù)該點(diǎn)擊次數(shù)分布進(jìn)行歸一化處理,將每個(gè)查詢串的點(diǎn)擊次數(shù)映射到〇~1 的值域空間內(nèi),得到所述點(diǎn)擊數(shù)得分;
[0234] 所述查詢頻次得分子模塊503c,用于對(duì)搜索引擎積累的用戶歷史搜索的查詢串對(duì) 應(yīng)的查詢頻次依據(jù)該查詢頻次分布進(jìn)行歸一化處理,將每個(gè)查詢串的查詢頻次映射到0~ 1的值域空間內(nèi),得到所述查詢頻次得分。
[0235] 下面舉例以h為0. 7, k2為0. 3為例來進(jìn)行計(jì)算;
[0236] 北京北七家建材市場(chǎng):點(diǎn)擊數(shù)得分:0.02 ;查詢頻次得分:0.03 ;需求滿意度 值:0.023 ;
[0237] 北京北七家建材城:點(diǎn)擊數(shù)得分:0;查詢頻次得分:0.006 ;需求滿意度 值:0·0018 ;
[0238] 北京北七家建筑材料市場(chǎng):點(diǎn)擊數(shù)得分:0;查詢頻次得分:0;需求滿意度值:0 ;
[0239] 北京北七家建材批發(fā)市場(chǎng):點(diǎn)擊數(shù)得分:0. 2 ;查詢頻次得分:0. 25 ;需求滿意度 值:〇·215 ;
[0240] 北京北七家建材超市:點(diǎn)擊數(shù)得分:0;查詢頻次得分:0;需求滿意度值:0 ;
[0241] 北京北7家建材市場(chǎng):點(diǎn)擊數(shù)得分:0;查詢頻次得分:0;需求滿意度值:0 ;
[0242] 北京北7家建材城:點(diǎn)擊數(shù)得分:0 ;查詢頻次得分:0 ;需求滿意度值:0 ;
[0243] 北京北7家建筑材料市場(chǎng):點(diǎn)擊數(shù)得分:0 ;查詢頻次得分:0 ;需求滿意度值:0 ;
[0244] 北京北7家建材批發(fā)市場(chǎng):點(diǎn)擊數(shù)得分:0 ;查詢頻次得分:0 ;需求滿意度值:0 ;
[0245] 北京北7家建材超市:點(diǎn)擊數(shù)得分:0;查詢頻次得分:0;需求滿意度值:0 ;
[0246] 從以上計(jì)算可知,需求滿意度值最高的是"北京北七家建材市場(chǎng)"和"北京北七家 建材批發(fā)市場(chǎng)"。
[0247] 以上所述,僅是本發(fā)明的較佳實(shí)施例而已,并非對(duì)本發(fā)明作任何形式上的限制。雖 然本發(fā)明已以較佳實(shí)施例揭露如上,然而并非用以限定本發(fā)明。任何熟悉本領(lǐng)域的技術(shù)人 員,在不脫離本發(fā)明技術(shù)方案范圍情況下,都可利用上述揭示的方法和技術(shù)內(nèi)容對(duì)本發(fā)明 技術(shù)方案做出許多可能的變動(dòng)和修飾,或修改為等同變化的等效實(shí)施例。因此,凡是未脫離 本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所做的任何簡(jiǎn)單修改、等同 變化及修飾,均仍屬于本發(fā)明技術(shù)方案保護(hù)的范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種查詢串的同義變換方法,其特征在于,包括: 將查詢串進(jìn)行分詞處理,得到分詞片段; 以分詞片段為單元利用正向最大匹配算法在預(yù)置的詞庫中對(duì)所述查詢串進(jìn)行同義詞 查詢; 用查詢到的同義詞替換查詢串中對(duì)應(yīng)的分詞片段得到多個(gè)同義串; 對(duì)每個(gè)所述同義串進(jìn)行需求滿意度統(tǒng)計(jì),獲得每個(gè)同義串的需求滿意度值; 對(duì)同義串按照需求滿意度值由大到小的順序進(jìn)行排序; 將排序在前的η個(gè)同義串作為同義變換后的查詢串,所述η為預(yù)置的需要反饋的同義 串個(gè)數(shù),η為整數(shù)。2. 根據(jù)權(quán)利要求1所述的查詢串的同義變換方法,其特征在于,若排在第η位的同義串 Α之后的同義串與Α的需求滿意度值相同,所述方法還包括: 對(duì)A以及與A的需求滿意度值相同的所有同義串進(jìn)行語言模型概率計(jì)算,將語言模型 概率最大的同義串作為第η個(gè)同義串進(jìn)行反饋; 所述語言模型概率為:同義串的兩兩相鄰的分詞片段之間的轉(zhuǎn)移概率之和。3. 根據(jù)權(quán)利要求1所述的查詢串的同義變換方法,其特征在于,若排在第η位的同義串 Α之前的同義串和之后的同義串與Α的需求滿意度相同,所述方法還包括: 對(duì)A以及與A的需求滿意度相同的所有同義串進(jìn)行語言模型概率計(jì)算,對(duì)同義串按照 計(jì)算出來的語言模型概率由大到小的順序進(jìn)行排序;選出所述語言模型概率排序在前的 (n-m)個(gè)同義串進(jìn)行反饋,所述m小于n,所述m為排在A之前且需求滿意度值與A不同的 同義串的總數(shù); 所述語言模型概率為:同義串的兩兩相鄰的分詞片段之間的轉(zhuǎn)移概率之和。4. 根據(jù)權(quán)利要求1所述的查詢串的同義變換方法,其特征在于,所述對(duì)每個(gè)所述同義 串進(jìn)行需求滿意度統(tǒng)計(jì),具體為: 從預(yù)設(shè)的歷史查詢結(jié)果中,獲取每個(gè)同義串對(duì)應(yīng)的需求參數(shù); 根據(jù)每個(gè)所述同義串的需求參數(shù),進(jìn)行需求滿意度的線性計(jì)算。5. 根據(jù)權(quán)利要求3所述的查詢串的同義變換方法,其特征在于, 在預(yù)設(shè)的歷史查詢結(jié)果中,獲取每個(gè)同義串對(duì)應(yīng)的需求參數(shù)具體包括: 在預(yù)設(shè)的歷史查詢結(jié)果中,獲取每個(gè)同義串對(duì)應(yīng)的第一需求參數(shù)a和第二需求參數(shù)b; 根據(jù)每個(gè)所述同義串的需求參數(shù),進(jìn)行需求滿意度的線性計(jì)算,具體為: 將每個(gè)同義串對(duì)應(yīng)的第一需求參數(shù)a和第二需求參數(shù)b代入公式 y = k!a+k2b ; ki+k2 = 1 ; 其中,y為所述需求滿意度值,所述h為所述第一需求參數(shù)的加權(quán)系數(shù),所述k2為所 述第二需求參數(shù)的加權(quán)系數(shù);所述第一需求參數(shù)為每個(gè)同義串的點(diǎn)擊數(shù)得分;所述第二需 求參數(shù)為每個(gè)同義串的查詢頻次得分;所述點(diǎn)擊數(shù)得分和所述查詢頻次得分均為預(yù)先獲得 的。6. 根據(jù)權(quán)利要求4所述的查詢串的同義變換方法,其特征在于,所述方法進(jìn)一步包括: 對(duì)搜索引擎積累的用戶歷史搜索的查詢串對(duì)應(yīng)的點(diǎn)擊次數(shù)依據(jù)該點(diǎn)擊次數(shù)分布進(jìn)行 歸一化處理,將每個(gè)查詢串的點(diǎn)擊次數(shù)映射到0~1的值域空間內(nèi),得到所述點(diǎn)擊數(shù)得分; 對(duì)搜索引擎積累的用戶歷史搜索的查詢串對(duì)應(yīng)的查詢頻次依據(jù)該查詢頻次分布進(jìn)行 歸一化處理,將每個(gè)查詢串的查詢頻次映射到0~1的值域空間內(nèi),得到所述查詢頻次得 分。7. -種查詢串的同義變換設(shè)備,其特征在于,包括:分詞模塊、同義串生成模塊、需求 滿意度統(tǒng)計(jì)模塊、第一排序模塊和反饋模塊; 所述分詞模塊,用于將查詢串進(jìn)行分詞處理,得到分詞片段; 所述同義串生成模塊,用于以分詞片段為單元利用正向最大匹配算法在預(yù)置的詞庫中 對(duì)所述查詢串進(jìn)行同義詞查詢,用查詢到的同義詞替換查詢串中對(duì)應(yīng)的分詞片段得到多個(gè) 同義串; 所述需求滿意度統(tǒng)計(jì)模塊,用于對(duì)每個(gè)所述同義串進(jìn)行需求滿意度統(tǒng)計(jì),獲得每個(gè)同 義串的需求滿意度值; 所述第一排序模塊,用于對(duì)所述同義串按照需求滿意度值由大到小的順序進(jìn)行排序; 所述反饋模塊,用于將排序在前的η個(gè)同義串作為同義變換后的查詢串,所述η為預(yù)置 的需要反饋的同義串個(gè)數(shù),η為整數(shù)。8. 根據(jù)權(quán)利要求7所述的查詢串的同義變換設(shè)備,其特征在于,若排在第η位的同義串 Α之后的同義串與Α的需求滿意度值相同,還包括:第一語言模型概率計(jì)算模塊和第一選擇 模塊; 所述第一語言模型概率計(jì)算模塊,用于對(duì)A以及與A的需求滿意度值相同的所有同義 串進(jìn)行語言模型概率計(jì)算; 所述第一選擇模塊,用于將語言模型概率最大的同義串作為第η個(gè)同義串發(fā)送給所述 反饋模塊; 所述語言模型概率為:同義串的兩兩相鄰的分詞片段之間的轉(zhuǎn)移概率之和。9. 根據(jù)權(quán)利要求7所述的查詢串的同義變換設(shè)備,其特征在于,若排在第η位的同義串 Α之前的同義串和之后的同義串與Α的需求滿意度相同,還包括:第二語言模型概率計(jì)算模 塊、第二排序模塊和第二選擇模塊; 所述第二語言模型概率計(jì)算模塊,用于對(duì)A以及與A的需求滿意度相同的所有同義串 進(jìn)行語言模型概率計(jì)算; 所述第二排序模塊,用于對(duì)同義串按照計(jì)算出來的語言模型概率由大到小的順序進(jìn)行 排序; 所述第二選擇模塊,用于選出所述語言模型概率排序在前的(n-m)個(gè)同義串進(jìn)行反 饋,所述m小于n,所述m為排在A之前且需求滿意度值與A不同的同義串的總數(shù); 所述語言模型概率為:同義串的兩兩相鄰的分詞片段之間的轉(zhuǎn)移概率之和。10. 根據(jù)權(quán)利要求7所述的查詢串的同義變換設(shè)備,其特征在于,所述需求滿意度統(tǒng)計(jì) 模塊包括線性計(jì)算子模塊,用于從預(yù)設(shè)的歷史查詢結(jié)果中,獲取每個(gè)同義串對(duì)應(yīng)的需求參 數(shù);根據(jù)每個(gè)所述同義串的需求參數(shù),進(jìn)行需求滿意度的線性計(jì)算。11. 根據(jù)權(quán)利要求10所述的查詢串的同義變換設(shè)備,其特征在于, 當(dāng)所述需求參數(shù)為兩個(gè)時(shí),所述線性計(jì)算子模塊根據(jù)預(yù)設(shè)的需求參數(shù)對(duì)每個(gè)所述同義 串進(jìn)行線性計(jì)算獲得需求滿意度值,具體為: y = k!a+k2b ; ki+k2 = 1 ; 其中,y為所述需求滿意度值,a為預(yù)設(shè)的第一需求參數(shù),所述b為預(yù)設(shè)的第二需求參 數(shù),所述h為所述第一需求參數(shù)的加權(quán)系數(shù),所述k2為所述第二需求參數(shù)的加權(quán)系數(shù);所述 第一需求參數(shù)為每個(gè)同義串的點(diǎn)擊數(shù)得分;所述第二需求參數(shù)為每個(gè)同義串的查詢頻次得 分;所述點(diǎn)擊數(shù)得分和所述查詢頻次得分均為預(yù)先獲得的。12.根據(jù)權(quán)利要求11所述的查詢串的同義變換設(shè)備,其特征在于,所述需求滿意度統(tǒng) 計(jì)模塊還包括:點(diǎn)擊數(shù)得分子模塊和查詢頻次得分子模塊; 所述點(diǎn)擊數(shù)得分子模塊,用于對(duì)搜索引擎積累的用戶歷史搜索的查詢串對(duì)應(yīng)的點(diǎn)擊次 數(shù)依據(jù)該點(diǎn)擊次數(shù)分布進(jìn)行歸一化處理,將每個(gè)查詢串的點(diǎn)擊次數(shù)映射到〇~1的值域空 間內(nèi),得到所述點(diǎn)擊數(shù)得分; 所述查詢頻次得分子模塊,用于對(duì)搜索引擎積累的用戶歷史搜索的查詢串對(duì)應(yīng)的查詢 頻次依據(jù)該查詢頻次分布進(jìn)行歸一化處理,將每個(gè)查詢串的查詢頻次映射到〇~1的值域 空間內(nèi),得到所述查詢頻次得分。
【專利摘要】本發(fā)明提供一種查詢串的同義變換方法及設(shè)備,包括:將查詢串進(jìn)行分詞處理,得到分詞片段;以分詞片段為單元利用正向最大匹配算法在預(yù)置的詞庫中對(duì)查詢串進(jìn)行同義詞查詢;用查詢到的同義詞替換查詢串中對(duì)應(yīng)的分詞片段得到多個(gè)同義串;對(duì)每個(gè)同義串進(jìn)行需求滿意度統(tǒng)計(jì),獲得每個(gè)同義串的需求滿意度值;對(duì)同義串按照需求滿意度值由大到小的順序進(jìn)行排序;將排序在前的n個(gè)同義串作為同義變換后的查詢串,n為預(yù)置的需要反饋的同義串個(gè)數(shù)。由于正向最大匹配算法是優(yōu)先匹配最長(zhǎng)的同義詞,得到的同義串可以更符合用戶的表達(dá)習(xí)慣,并且能夠最大程度地減少語義偏移。由于需求滿意度值較高的同義串更符合用戶的查詢意圖,這樣反饋的同義串更加準(zhǔn)確。
【IPC分類】G06F17/30, G06F17/27
【公開號(hào)】CN105574040
【申請(qǐng)?zhí)枴緾N201410549700
【發(fā)明人】王思聰
【申請(qǐng)人】高德軟件有限公司
【公開日】2016年5月11日
【申請(qǐng)日】2014年10月16日