基于詞向量相似度的檢索方法和系統(tǒng)的制作方法

文檔序號：9865733閱讀：801來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于詞向量相似度的檢索方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及信息檢索技術(shù)領(lǐng)域，特別是設(shè)及基于詞向量相似度的檢索方法和基于詞向量相似度的檢索系統(tǒng)。
【背景技術(shù)】
[0002] 現(xiàn)有的對簡歷捜索匹配過程的技術(shù)，通常是通過多個關(guān)鍵詞進(jìn)行檢索。通過用戶提供一組關(guān)鍵詞在檢索庫中進(jìn)行檢索，W匹配詞命中的數(shù)量作為匹配分值，根據(jù)匹配分值由高到低的排列輸出檢索結(jié)果，默認(rèn)排在前的結(jié)果更符合用戶要求。然而，運(yùn)種檢索方式存在W下缺點(diǎn)：
[0003] (1)沒能考慮到不同檢索庫的用詞特點(diǎn)，例如英文的大小寫，字符的全角半角等；
[0004] (2)不能考慮到詞與詞之間的關(guān)系，導(dǎo)致檢索過程中，對與關(guān)鍵詞存在很強(qiáng)聯(lián)系的其它詞缺乏信息匹配能力；例如關(guān)鍵詞設(shè)為"程序"，卻無法對檢索庫中"軟件"的信息進(jìn)行檢索匹配；
[0005] (3)對關(guān)鍵詞選取的要求高，檢索魯棒性差;如果關(guān)鍵詞遺漏或者輸錯，對最終檢索結(jié)果會產(chǎn)生很大影響。
[0006] 綜上所述，現(xiàn)有的基于關(guān)鍵詞的檢索方法，其檢索召回率和檢索結(jié)果準(zhǔn)確率都不夠理想，同時存在魯棒性和適應(yīng)性較差的問題。

【發(fā)明內(nèi)容】

[0007] 基于此，本發(fā)明提供一種基于詞向量相似度的檢索方法和系統(tǒng)，能夠提高檢索準(zhǔn) 確率和魯棒性。
[000引本發(fā)明一方面提供一種基于詞向量相似度的檢索方法，包括：
[0009] 對檢索庫進(jìn)行詞向量訓(xùn)練，建立所述檢索庫對應(yīng)的訓(xùn)練模型；
[0010] 接收輸入的檢索關(guān)鍵詞，通過所述訓(xùn)練模型得到所述檢索關(guān)鍵詞的相關(guān)詞，W及各相關(guān)詞與所述檢索關(guān)鍵詞的相似度；
[0011] 用所述相關(guān)詞對所述檢索庫進(jìn)行檢索匹配，并根據(jù)所述相似度分別統(tǒng)計所述檢索庫中各文件與所述相關(guān)詞的匹配分值；
[0012] 根據(jù)所述匹配分值由高到低對所述檢索庫中的文件進(jìn)行排序，根據(jù)排序結(jié)果輸出檢索結(jié)果。
[0013] 優(yōu)選的，所述對檢索庫進(jìn)行詞向量訓(xùn)練，之前包括：
[0014] 對檢索庫中各文件分別進(jìn)行預(yù)處理，將各文件預(yù)處理后的數(shù)據(jù)存儲到一對應(yīng)的訓(xùn) 練樣本文件中；所述預(yù)處理包括數(shù)據(jù)清洗和提取數(shù)據(jù)描述；
[001引所述對檢索庫進(jìn)行詞向量訓(xùn)練包括；
[0016] 基于所述訓(xùn)練樣本文件對所述檢索庫進(jìn)行詞向量訓(xùn)練。
[0017] 優(yōu)選的，所述數(shù)據(jù)清洗包括統(tǒng)一大小寫、消除多余空格、統(tǒng)一標(biāo)點(diǎn)符號、統(tǒng)一全半角格式中至少一種；
[0018] 所述提取數(shù)據(jù)描述包括通過添加用戶詞典進(jìn)行分詞。
[0019] 優(yōu)選的，所述對檢索庫進(jìn)行詞向量訓(xùn)練包括：
[0020] 通過word2vec對所述訓(xùn)練樣本文件進(jìn)行詞向量訓(xùn)練。
[0021] 優(yōu)選的，用所述相關(guān)詞對所述檢索庫進(jìn)行檢索匹配，并根據(jù)所述相似度分別統(tǒng)計所述檢索庫中各文件與所述相關(guān)詞的匹配分值，包括：
[0022] 用所述相關(guān)詞分別對所述檢索庫中各文件進(jìn)行檢索匹配，得到各文件與所述相關(guān) 詞的匹配結(jié)果；
[0023] 將各相關(guān)詞對應(yīng)的相似度作為累加權(quán)值，結(jié)合所述匹配結(jié)果分別得出各文件與所述相關(guān)詞的匹配分值。
[0024] 本發(fā)明另一方面提供一種基于詞向量相似度的檢索系統(tǒng)，包括：
[0025] 模型訓(xùn)練單元，用于對檢索庫進(jìn)行詞向量訓(xùn)練，建立所述檢索庫對應(yīng)的訓(xùn)練模型；
[0026] 生成相關(guān)詞單元，用于接收輸入的檢索關(guān)鍵詞，通過所述訓(xùn)練模型得到所述檢索關(guān)鍵詞的相關(guān)詞，W及各相關(guān)詞與所述檢索關(guān)鍵詞的相似度；
[0027] 檢索匹配單元，用于用所述相關(guān)詞對所述檢索庫進(jìn)行檢索匹配，并根據(jù)所述相似度分別統(tǒng)計所述檢索庫中各文件與所述相關(guān)詞的匹配分值；
[0028] 結(jié)果輸出單元，用于根據(jù)所述匹配分值由高到低對所述檢索庫中的文件進(jìn)行排序，根據(jù)排序結(jié)果輸出檢索結(jié)果。
[0029] 優(yōu)選的，所述模型訓(xùn)練單元，還用于對檢索庫進(jìn)行詞向量訓(xùn)練之前，對檢索庫中各文件分別進(jìn)行預(yù)處理，將各文件預(yù)處理后的數(shù)據(jù)存儲到一對應(yīng)的訓(xùn)練樣本文件中；所述預(yù) 處理包括數(shù)據(jù)清洗和提取數(shù)據(jù)描述；
[0030] 所述對檢索庫進(jìn)行詞向量訓(xùn)練包括：
[0031] 基于所述訓(xùn)練樣本文件對所述檢索庫進(jìn)行詞向量訓(xùn)練。
[0032] 優(yōu)選的，所述數(shù)據(jù)清洗包括統(tǒng)一大小寫、消除多余空格、統(tǒng)一標(biāo)點(diǎn)符號、統(tǒng)一全半角格式中至少一種；
[0033] 所述提取數(shù)據(jù)描述包括通過添加用戶詞典進(jìn)行分詞。
[0034] 優(yōu)選的，所述對檢索庫進(jìn)行詞向量訓(xùn)練包括：
[0035] 通過word2vec對所述訓(xùn)練樣本文件進(jìn)行詞向量訓(xùn)練。
[0036] 優(yōu)選的，所述檢索匹配單元包括：
[0037] 匹配模塊，用于用所述相關(guān)詞分別對所述檢索庫中各文件進(jìn)行檢索匹配，得到各文件與所述相關(guān)詞的匹配結(jié)果；
[0038] 統(tǒng)計模塊，用于將各相關(guān)詞對應(yīng)的相似度作為累加權(quán)值，結(jié)合所述匹配結(jié)果分別得出各文件與所述相關(guān)詞的匹配分值。
[0039] 上述技術(shù)方案的基于詞向量相似度的檢索方法和系統(tǒng)，通過對檢索庫進(jìn)行詞向量訓(xùn)練，建立所述檢索庫對應(yīng)的訓(xùn)練模型;接收輸入的檢索關(guān)鍵詞，通過所述訓(xùn)練模型得到所述檢索關(guān)鍵詞的相關(guān)詞，W及各相關(guān)詞與所述檢索關(guān)鍵詞的相似度；用所述相關(guān)詞對所述檢索庫進(jìn)行檢索匹配，并根據(jù)所述相似度分別統(tǒng)計所述檢索庫中各文件與所述相關(guān)詞的匹配分值;根據(jù)所述匹配分值由高到低對所述檢索庫中的文件進(jìn)行排序，根據(jù)排序結(jié)果輸出檢索結(jié)果。首先由于訓(xùn)練模型是基于檢索庫訓(xùn)練得到的，因此能很好反映檢索庫的用詞特點(diǎn)，有利于提高檢索準(zhǔn)確率;其次將關(guān)鍵詞W詞向量的形式進(jìn)行表示，檢索時根據(jù)關(guān)鍵詞的相關(guān)詞進(jìn)行檢索匹配，增加了對相關(guān)詞的檢索匹配能力，從而提高了檢索魯棒性。
【附圖說明】
[0040] 圖1為本發(fā)明實施例的基于詞向量相似度的檢索方法的示意性流程圖；
[0041] 圖2為本發(fā)明實施例的基于詞向量相似度的檢索系統(tǒng)的示意性結(jié)構(gòu)圖。
【具體實施方式】
[0042] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，W下結(jié)合附圖及實施例，對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實施例僅僅用W解釋本發(fā)明，并不用于限定本發(fā)明。
[0043] 本發(fā)明提供的實施例包括基于詞向量相似度的檢索方法實施例，還包括相應(yīng)的基于詞向量相似度的檢索系統(tǒng)實施例。W下分別進(jìn)行詳細(xì)說明。
[0044] 圖1為本發(fā)明實施例的基于詞向量相似度的檢索方法的示意性流程圖；如圖1所示，本實施例的基于詞向量相似度的檢索方法包括如下步驟S1至S4,各步驟詳述如下：
[0045] S1，對檢索庫進(jìn)行詞向量訓(xùn)練，建立所述檢索庫對應(yīng)的訓(xùn)練模型；
[0046] 自然語言理解的問題要轉(zhuǎn)化為機(jī)器學(xué)習(xí)的問題，第一步需要找一種方法把運(yùn)些符號數(shù)學(xué)化，例如把每個詞都表示為一個特有的向量。詞向量是"Word Representation"或 "Word Embedding"的中文俗稱。
[0047] 本實施例中的詞向量應(yīng)當(dāng)具有的特點(diǎn)包括:讓相關(guān)或者相似的詞，在距離上更接近，例如"麥克"和"話筒"的距離會遠(yuǎn)小于"麥克"和"天氣"的距離。向量的距離可W用傳統(tǒng) 的歐氏距離來衡量，也可W用cos夾角來衡量。
[004引優(yōu)選的，所述詞向量可為用Di stributed Representation表示的詞向量。 Distributed Representation表示的詞向量為一種低維實數(shù)向量，運(yùn)種向量一般形式為 [0.792，-0.177，-0.107，0.109，-0.542，…]，維度 W50維和 100維比較常見。
[0049] 作為一優(yōu)選實施方式，在對檢索庫進(jìn)行詞向量訓(xùn)練之前，還可對檢索庫中各文件分別進(jìn)行預(yù)處理，將各文件預(yù)處理后的數(shù)據(jù)存儲到一對應(yīng)的訓(xùn)練樣本文件中。
[0050] 優(yōu)選的，其中所述預(yù)處理包

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李賢;
技術(shù)所有人：廣州視源電子科技股份有限公司;
我是此專利的發(fā)明人

上一篇：一種基于hdfs小文件存儲的優(yōu)化方法
上一篇：網(wǎng)頁的顯示方法和系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

相似圖像檢索相關(guān)技術(shù)

相似圖片檢索相關(guān)技術(shù)

佰騰網(wǎng)專利檢索系統(tǒng)相關(guān)技術(shù)

法律法規(guī)檢索系統(tǒng)相關(guān)技術(shù)

二十五史全文檢索系統(tǒng)相關(guān)技術(shù)

圖書館書目檢索系統(tǒng)相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于詞向量相似度的檢索方法和系統(tǒng)的制作方法