一種查詢串的同義變換方法及設備的制造方法

文檔序號：9810568閱讀：198來源：國知局

一種查詢串的同義變換方法及設備的制造方法
【技術領域】
[0001] 本發(fā)明涉及搜索技術領域，特別涉及一種查詢串的同義變換方法及設備。
【背景技術】
[0002] 目前，地址搜索已經(jīng)是人們生活中經(jīng)常使用的一種搜索方式，例如，搜索酒店、飯店以及購物中心等。這樣人們在出行前或出行中可以實現(xiàn)對目的地的路線規(guī)劃。
[0003] 但是，不同用戶針對同一事物的稱呼有所區(qū)別，例如，用戶輸入的查詢串為"方恒國際大廈"，而在搜索引擎對應的數(shù)據(jù)庫中只有名稱為"方恒國際中心"的興趣點數(shù)據(jù)，由此可見，雖然用戶輸入的查詢串為"方恒國際大廈"，但其實際期望查詢的是"方恒國際中心"，
[0004] 因此，搜索引擎有必要對用戶輸入的查詢串進行同義變換，將用戶輸入的查詢串變換為數(shù)據(jù)庫中可能存在的查詢串，同時利用用戶輸入的查詢串和同義變換得到的查詢串進行搜索，以便快速準確地得到用戶期望的搜索結(jié)果。
[0005] 目前搜索引擎對查詢串進行同義變換的方法是基于詞典，參見圖1，具體方法包括以下步驟：
[0006] S101 :對用戶輸入的查詢串進行分詞處理，得到所述查詢串的分詞片段；例如，"方恒國際中心"的分詞片段為"方/恒/國際/中心/"。
[0007] S102 :基于同義詞詞典，查找分詞片段的同義詞；
[0008] S103:如果查找到分詞片段的同義詞，則用該分詞片段的同義詞替換查詢串中對應分詞片段，否則，進入步驟104 ;
[0009] S104:判斷分詞片段是否為最后一個分詞片段，如果是，則將同義詞替換得到的查詢串作為結(jié)果輸出，否則返回步驟102。
[0010] 需要說明的是，分詞片段從左至右依次為第一個到最后一個，例如"方"為第一個分詞片段，"中心"為最后一個分詞片段。
[0011] 現(xiàn)有技術中的查詢串同義變換方法僅是用每個分詞片段的同義詞替換原查詢串中的分詞片段，例如，查詢串為"方恒國際大廈"，同義詞表中有"大廈=中心"、"大廈=大樓"，查詢串被同義變換為"方恒國際大樓、方恒國際中心"。
[0012] 現(xiàn)有技術僅用分詞片段的同義詞替換的方式對查詢串進行同義變換，容易導致同義變換得到的查詢串不符合語言習慣和語法要求，容易造成語義偏移。

【發(fā)明內(nèi)容】

[0013] 本發(fā)明要解決的技術問題是提供一種查詢串的同義變換方法及設備，能夠在查詢串同義變換時減少語義偏移，使同義變換后的查詢串更加準確。
[0014] 本發(fā)明實施例提供一種查詢串的同義變換方法，包括：
[0015] 將查詢串進行分詞處理，得到分詞片段；
[0016] 以分詞片段為單元利用正向最大匹配算法在預置的詞庫中對所述查詢串進行同義詞查詢；
[0017] 用查詢到的同義詞替換查詢串中對應的分詞片段得到多個同義串；
[0018] 對每個所述同義串進行需求滿意度統(tǒng)計，獲得每個同義串的需求滿意度值；
[0019] 對同義串按照需求滿意度值由大到小的順序進行排序；
[0020] 將排序在前的η個同義串作為同義變換后的查詢串，所述η為預置的需要反饋的同義串個數(shù)，η為整數(shù)。
[0021 ] 優(yōu)選地，若排在第η位的同義串Α之后的同義串與Α的需求滿意度值相同，所述方法還包括：
[0022] 對A以及與A的需求滿意度值相同的所有同義串進行語言模型概率計算，將語言模型概率最大的同義串作為第η個同義串進行反饋；
[0023] 所述語言模型概率為：同義串的兩兩相鄰的分詞片段之間的轉(zhuǎn)移概率之和。
[0024] 優(yōu)選地，若排在第η位的同義串Α之前的同義串和之后的同義串與Α的需求滿意度相同，所述方法還包括：
[0025] 對A以及與A的需求滿意度相同的所有同義串進行語言模型概率計算，對同義串按照計算出來的語言模型概率由大到小的順序進行排序；選出所述語言模型概率排序在前的（n-m)個同義串進行反饋，所述m小于n，所述m為排在A之前且需求滿意度值與A不同的同義串的總數(shù)；
[0026] 所述語言模型概率為：同義串的兩兩相鄰的分詞片段之間的轉(zhuǎn)移概率之和。
[0027] 優(yōu)選地，所述對每個所述同義串進行需求滿意度統(tǒng)計，具體為：
[0028] 從預設的歷史查詢結(jié)果中，獲取每個同義串對應的需求參數(shù)；
[0029] 根據(jù)每個所述同義串的需求參數(shù)，進行需求滿意度的線性計算。
[0030] 優(yōu)選地，
[0031] 在預設的歷史查詢結(jié)果中，獲取每個同義串對應的需求參數(shù)具體包括：
[0032] 在預設的歷史查詢結(jié)果中，獲取每個同義串對應的第一需求參數(shù)a和第二需求參數(shù)b ;
[0033] 根據(jù)每個所述同義串的需求參數(shù)，進行需求滿意度的線性計算，具體為：
[0034] 將每個同義串對應的第一需求參數(shù)a和第二需求參數(shù)b代入公式
[0035] y = k^+^b ；
[0036] ki+k；, = 1 ；
[0037] 其中，y為所述需求滿意度值，所述h為所述第一需求參數(shù)的加權(quán)系數(shù)，所述k2為所述第二需求參數(shù)的加權(quán)系數(shù)；所述第一需求參數(shù)為每個同義串的點擊數(shù)得分；所述第二需求參數(shù)為每個同義串的查詢頻次得分；所述點擊數(shù)得分和所述查詢頻次得分均為預先獲得的。
[0038] 優(yōu)選地，所述方法進一步包括：
[0039] 對搜索引擎積累的用戶歷史搜索的查詢串對應的點擊次數(shù)依據(jù)該點擊次數(shù)分布進行歸一化處理，將每個查詢串的點擊次數(shù)映射到〇~1的值域空間內(nèi)，得到所述點擊數(shù)得分；
[0040] 對搜索引擎積累的用戶歷史搜索的查詢串對應的查詢頻次依據(jù)該查詢頻次分布進行歸一化處理，將每個查詢串的查詢頻次映射到0~1的值域空間內(nèi)，得到所述查詢頻次得分。
[0041] 本發(fā)明實施例還提供一種查詢串的同義變換設備，包括：分詞模塊、同義串生成模塊、需求滿意度統(tǒng)計模塊、第一排序模塊和反饋模塊；
[0042] 所述分詞模塊，用于將查詢串進行分詞處理，得到分詞片段；
[0043] 所述同義串生成模塊，用于以分詞片段為單元利用正向最大匹配算法在預置的詞庫中對所述查詢串進行同義詞查詢，用查詢到的同義詞替換查詢串中對應的分詞片段得到多個同義串；
[0044] 所述需求滿意度統(tǒng)計模塊，用于對每個所述同義串進行需求滿意度統(tǒng)計，獲得每個同義串的需求滿意度值；
[0045] 所述第一排序模塊，用于對所述同義串按照需求滿意度值由大到小的順序進行排序；
[0046] 所述反饋模塊，用于將排序在前的η個同義串作為同義變換后的查詢串，所述η為預置的需要反饋的同義串個數(shù)，η為整數(shù)。
[0047] 優(yōu)選地，若排在第η位的同義串Α之后的同義串與Α的需求滿意度值相同，還包括：第一語言模型概率計算模塊和第一選擇模塊；
[0048] 所述第一語言模型概率計算模塊，用于對A以及與A的需求滿意度值相同的所有同義串進行語言模型概率計算；
[0049] 所述第一選擇模塊，用于將語言模型概率最大的同義串作為第η個同義串發(fā)送給所述反饋模塊；
[0050] 所述語言模型概率為：同義串的兩兩相鄰的分詞片段之間的轉(zhuǎn)移概率之和。
[0051] 優(yōu)選地，若排在第η位的同義串Α之前的同義串和之后的同義串與Α的需求滿意度相同，還包括：第二語言模型概率計算模塊、第二排序模塊和第二選擇模塊；
[0052] 所述第二語言模型概率計算模塊，用于對A以及與A的需求滿意度相同的所有同義串進行語言模型概率計算；
[0053] 所述第二排序模塊，用于對同義串按照計算出來的語言模型概率由大到小的順序進打排序；
[0054] 所述第二選擇模塊，用于選出所述語言模型概率排序在前的（n-m)個同義串進行反饋，所述m小于n，所述m為排在A之前且需求滿意度值與A不同的同義串的總數(shù)；
[0055] 所述語言模型概率為：同義串的兩兩相鄰的分詞片段之間的轉(zhuǎn)移概率之和。
[0056] 優(yōu)選地，所述需求滿意度統(tǒng)計模塊包括線性計算子模塊，用于從預設的歷史查詢結(jié)果中，獲取每個同義串對應的需求參數(shù)；根據(jù)每個所述同義串的需求參數(shù)，進行需求滿意度的線性計算。
[0057] 優(yōu)選地，
[0058] 當所述需求參數(shù)為兩個時，所述線性計算子模塊根據(jù)預設的需求參數(shù)對每個所述同義串進行線性計算獲得需求滿意度值，具體為：
[0059] y = k^+^b ；
[0060] k!+k2 = 1 ；
[0061] 其中，y為所述需求滿意度值，a為預設的第一需求參數(shù)，所述b為預設的第二需求參數(shù)，所述4為所述第一需求參數(shù)的加權(quán)系數(shù)，所述k 2為所述第二需求參數(shù)的加權(quán)系數(shù)；所述第一需求參數(shù)為每個同義串的點擊數(shù)得分；所述第二需求參數(shù)為每個同義串的查詢頻次得分；所述點擊數(shù)得分和所述查詢頻次得分均為預先獲得的。
[0062] 優(yōu)選地，所述需求滿意度統(tǒng)計模塊還包括：點擊數(shù)得分子模塊和查詢頻次得分子模塊；
[0063] 所述點擊數(shù)得分子模塊，用于對搜索引擎積累的用戶歷史搜索的查詢串對應的點擊次數(shù)依據(jù)該點擊次數(shù)分布進行歸一化處理，將每個查詢串的點擊次數(shù)映射到〇~1的值域空間內(nèi)，得到所述點擊數(shù)得分；
[0064] 所述查詢頻次得分子模塊，用于對搜索引擎積累的用戶歷史搜索的查詢串對應的查詢頻次依據(jù)該查詢頻次分布進行歸一化處理，將每個查詢串的查詢頻次映射到0~1的值域空間內(nèi)，得到所述查詢頻次得分。
[0065] 與現(xiàn)有技術相比，本發(fā)明具有以下優(yōu)點：
[0066] 本實施例提供的搜索引擎中查詢串的同義變換方法，利用正向最大匹配算法對分詞片段進行同義詞查詢，由于正向最大匹配算法是優(yōu)先匹配最長的同義詞，如果有最長的就停止匹配，如果沒有，就選擇次長的同義詞，這樣不會使更長的同義串漏掉，

完整全部詳細技術資料下載

當前第1頁1 2 3 4 5

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：王思聰;
技術所有人：高德軟件有限公司;
我是此專利的發(fā)明人

上一篇：一種數(shù)據(jù)重組方法和裝置的制造方法
上一篇：一種晶圓測試數(shù)據(jù)的處理方法及系統(tǒng)的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

變換爐設備圖相關技術

串聯(lián)諧振變換器相關技術

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種查詢串的同義變換方法及設備的制造方法