一種信息檢索方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,特別涉及一種信息檢索方法及裝置。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)通信技術(shù)以及互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)的信息資源成指數(shù)增長(zhǎng),通過互聯(lián)網(wǎng)檢索并獲取相關(guān)信息越來越成為人們生活以及工作中不可或缺的部分,任何人在任何時(shí)間、任何地點(diǎn)都可以通過網(wǎng)絡(luò)發(fā)布信息。在龐大的信息庫(kù)里面快速有效地查找到用戶需要的信息,使所述弓I擎成為了尋找信息的好幫手。
[0003]現(xiàn)有的信息檢索方法中,當(dāng)終端接收到檢索指示后,從存儲(chǔ)的檢索數(shù)據(jù)庫(kù)中查找包括檢索指示中的檢索關(guān)鍵詞的答案,并按照檢索到的答案中包括的檢索關(guān)鍵詞的多少來進(jìn)行排序,進(jìn)而進(jìn)行呈現(xiàn),具體過程如下:
[0004]步驟a:確定接收到的檢索指不中的檢索關(guān)鍵詞;
[0005]步驟b:檢索包括檢索關(guān)鍵詞的答案;
[0006]步驟c:將檢索到的答案根據(jù)包括檢索關(guān)鍵詞數(shù)量的多少來進(jìn)行排序,并將排序后的答案進(jìn)行呈現(xiàn)。
[0007]但是,上述方法存在如下缺陷:有些信息不包括檢索關(guān)鍵詞,其中,這些信息與檢索指示相關(guān)性較高,但是,由于這些信息中不包括檢索關(guān)鍵詞,因此,現(xiàn)有的信息檢索方法無法將這些相關(guān)性較高的信息檢索出來,所以,現(xiàn)有的信息檢索方法存在檢索結(jié)果準(zhǔn)確性較低的問題。
[0008]例如:檢索指示為“北京有什么特產(chǎn)”這個(gè)問題,現(xiàn)有的信息檢索方法為:檢索包括“北京”關(guān)鍵詞和/或“特產(chǎn)”關(guān)鍵詞的答案,假設(shè)有10個(gè)答案,并將這10個(gè)答案按照包括檢索“北京”關(guān)鍵詞、“特產(chǎn)”關(guān)鍵詞的數(shù)量進(jìn)行排序,進(jìn)而呈現(xiàn),但是,如“很多啊,比如說茯苓餅啦烤鴨什么的”這樣的信息,雖然這個(gè)信息與“北京有什么特產(chǎn)”這個(gè)問題的相關(guān)性較高,但是,由于不含有“北京”關(guān)鍵詞和“特產(chǎn)”關(guān)鍵詞,所以不會(huì)被檢索到,因此,檢索準(zhǔn)確度較低。
[0009]綜上所述,目前的信息檢索方法存在準(zhǔn)確度較低的問題。
【發(fā)明內(nèi)容】
[0010]本發(fā)明實(shí)施例提供一種信息檢索方法及裝置,用以解決現(xiàn)有信息檢索過程存在的檢索準(zhǔn)確度較低的問題。
[0011]本發(fā)明實(shí)施例提供的具體技術(shù)方案如下:
[0012]第一方面,提供一種信息檢索方法,包括:
[0013]從接收到的檢索指示中確定出檢索關(guān)鍵詞組,并根據(jù)所述檢索指示從檢索數(shù)據(jù)庫(kù)中檢索出結(jié)果信息組;
[0014]針對(duì)檢索出的所述結(jié)果信息組中的每個(gè)結(jié)果信息,分別執(zhí)行如下步驟:
[0015]根據(jù)所述檢索關(guān)鍵詞組、結(jié)果關(guān)鍵詞組,確定所述結(jié)果信息與局部匹配模型集合中的每一個(gè)局部匹配模型的匹配值,其中,所述結(jié)果關(guān)鍵詞組是根據(jù)所述結(jié)果信息組確定的;
[0016]根據(jù)所述結(jié)果信息與所述每一個(gè)局部匹配模型的匹配值,計(jì)算用于表征所述結(jié)果信息與所述檢索指示的相關(guān)性的相關(guān)度;
[0017]根據(jù)每一個(gè)結(jié)果信息對(duì)應(yīng)的相關(guān)度大小,對(duì)所述結(jié)果信息組中的每一個(gè)結(jié)果信息進(jìn)行排序,并將排序后的各個(gè)結(jié)果信息呈現(xiàn)。
[0018]結(jié)合第一方面,在第一種可能的實(shí)現(xiàn)方式中,在根據(jù)所述檢索指示從檢索數(shù)據(jù)庫(kù)中檢索出結(jié)果信息組之前,還包括:
[0019]獲取文檔數(shù)據(jù);并
[0020]根據(jù)所述文檔數(shù)據(jù)構(gòu)建所述檢索數(shù)據(jù)庫(kù)。
[0021]結(jié)合第一方面,或者第一方面的第一種可能的實(shí)現(xiàn)方式,在第二種可能的實(shí)現(xiàn)方式中,根據(jù)所述檢索指示從檢索數(shù)據(jù)庫(kù)中檢索出結(jié)果信息組,具體包括:
[0022]根據(jù)所述檢索指示采用局部敏感哈希LSH與關(guān)鍵詞匹配方式從檢索數(shù)據(jù)庫(kù)中檢索出結(jié)果信息組;和/或,
[0023]根據(jù)從所述檢索指示中確定出的所述檢索關(guān)鍵詞組,采用倒排索引方式從檢索數(shù)據(jù)庫(kù)中檢索出結(jié)果信息組。
[0024]結(jié)合第一方面,或者第一方面的第一至第二種可能的實(shí)現(xiàn)方式,在第三種可能的實(shí)現(xiàn)方式中,所述局部匹配模型集合中的任意一個(gè)局部匹配模型包括信息關(guān)鍵詞組和回應(yīng)關(guān)鍵詞組;
[0025]根據(jù)所述檢索關(guān)鍵詞組、結(jié)果關(guān)鍵詞組,確定所述結(jié)果信息與局部匹配模型集合中的每一個(gè)局部匹配模型的匹配值,具體包括:
[0026]針對(duì)每一個(gè)局部匹配模型,分別執(zhí)行如下步驟:
[0027]確定所述檢索關(guān)鍵詞組和所述信息關(guān)鍵詞組中匹配的信息關(guān)鍵詞,及所述結(jié)果關(guān)鍵詞組和所述回應(yīng)關(guān)鍵詞組中匹配的回應(yīng)關(guān)鍵詞;
[0028]生成二維關(guān)鍵詞組合;其中,所述二維關(guān)鍵詞組合包括所述匹配的信息關(guān)鍵詞和所述匹配的回應(yīng)關(guān)鍵詞;
[0029]確定與所述二維關(guān)鍵詞組合對(duì)應(yīng)的權(quán)重值;并
[0030]根據(jù)所述權(quán)重值,計(jì)算所述結(jié)果關(guān)鍵詞組與該局部匹配模型的匹配值。
[0031]結(jié)合第一方面的第三種可能的實(shí)現(xiàn)方式,在第四種可能的實(shí)現(xiàn)方式中,所述信息關(guān)鍵詞組和所述回應(yīng)關(guān)鍵詞組均基于獲取的標(biāo)注數(shù)據(jù),根據(jù)雙語(yǔ)主題模型確定的;
[0032]其中,所述標(biāo)注數(shù)據(jù)中包括的任意一個(gè)二維描述組合由信息描述和回應(yīng)描述組成,且每一個(gè)二維描述組合中的回應(yīng)描述均對(duì)應(yīng)一個(gè)標(biāo)記,所述標(biāo)記用于表征對(duì)應(yīng)的回應(yīng)描述與屬于同一個(gè)二維描述組合的信息描述是否匹配。
[0033]結(jié)合第一方面的第三或者第四種可能的實(shí)現(xiàn)方式,在第五種可能的實(shí)現(xiàn)方式中,確定與所述二維關(guān)鍵詞組合對(duì)應(yīng)的權(quán)重值,具體包括:
[0034]根據(jù)獲取的標(biāo)注數(shù)據(jù)確定與所述二維關(guān)鍵詞組合對(duì)應(yīng)的權(quán)重值。
[0035]結(jié)合第一方面的第五種可能的實(shí)現(xiàn)方式,在第六種可能的實(shí)現(xiàn)方式中,根據(jù)獲取的標(biāo)注數(shù)據(jù)確定與所述二維關(guān)鍵詞組合對(duì)應(yīng)的權(quán)重值,具體包括:
[0036]根據(jù)獲取的標(biāo)注數(shù)據(jù),采用反向傳播算法根據(jù)獲取的標(biāo)注數(shù)據(jù)確定與所述二維關(guān)鍵詞組合對(duì)應(yīng)的權(quán)重值。
[0037]結(jié)合第一方面,或者第一方面的第一至第六種可能的實(shí)現(xiàn)方式,在第七種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述結(jié)果信息與所述每一個(gè)局部匹配模型的匹配值,計(jì)算用于表征所述結(jié)果信息與所述檢索指示的相關(guān)性的相關(guān)度,具體包括:
[0038]根據(jù)所述結(jié)果信息與所述每一個(gè)局部匹配模型的匹配值,采用深度神經(jīng)網(wǎng)絡(luò)算法,基于綜合匹配模型計(jì)算用于表征所述結(jié)果信息與所述檢索指示的相關(guān)性的相關(guān)度。
[0039]結(jié)合第一方面的第七種可能的實(shí)現(xiàn)方式,在第八種可能的實(shí)現(xiàn)方式中,所述綜合匹配模型根據(jù)雙語(yǔ)主題模型確定。
[0040]結(jié)合第一方面的第七至第八種可能的實(shí)現(xiàn)方式,在第九種可能的實(shí)現(xiàn)方式中,根據(jù)所述結(jié)果信息與所述每一個(gè)局部匹配模型的匹配值,采用深度神經(jīng)網(wǎng)絡(luò)算法,基于綜合匹配模型計(jì)算用于表征所述結(jié)果信息與所述檢索指示的相關(guān)性的相關(guān)度,具體包括:
[0041]根據(jù)所述結(jié)果信息與所述每一個(gè)局部匹配模型的匹配值,采用深度神經(jīng)網(wǎng)絡(luò)算法,基于綜合匹配模型確定每一個(gè)匹配值的權(quán)重值;
[0042]根據(jù)所述每一個(gè)匹配值及與所述每一個(gè)匹配值分別對(duì)應(yīng)的權(quán)重值,計(jì)算用于表征所述結(jié)果信息與所述檢索指示的相關(guān)性的相關(guān)度。
[0043]結(jié)合第一方面的第九種可能的實(shí)現(xiàn)方式,在第十種可能的實(shí)現(xiàn)方式中,與所述每一個(gè)匹配值分別對(duì)應(yīng)的權(quán)重值是采用反向傳播算法根據(jù)獲取的標(biāo)注數(shù)據(jù)確定的。
[0044]結(jié)合第一方面的第一至第十種可能的實(shí)現(xiàn)方式,在第i^一種可能的實(shí)現(xiàn)方式中,確定所述檢索關(guān)鍵詞組和所述信息關(guān)鍵詞組中匹配的信息關(guān)鍵詞,具體包括:
[0045]確定與檢索關(guān)鍵詞相同的信息關(guān)鍵詞,和與檢索關(guān)鍵詞詞義相同的信息關(guān)鍵詞;
[0046]確定所述結(jié)果關(guān)鍵詞組和所述回應(yīng)關(guān)鍵詞組中匹配的回應(yīng)關(guān)鍵詞,具體包括:
[0047]確定與結(jié)果關(guān)鍵詞相同的回應(yīng)關(guān)鍵詞,和與結(jié)果關(guān)鍵詞詞義相同的信息關(guān)鍵詞。
[0048]第二方面,提供一種信息檢索裝置,包括:
[0049]檢索單元,用于從接收到的檢索指示中確定出檢索關(guān)鍵詞組,并根據(jù)所述檢索指示從檢索數(shù)據(jù)庫(kù)中檢索出結(jié)果信息組;
[0050]確定單元,用于針對(duì)檢索出的所述結(jié)果信息組中的每個(gè)結(jié)果信息,分別執(zhí)行如下步驟:根據(jù)所述檢索關(guān)鍵詞組、結(jié)果關(guān)鍵詞組,確定所述結(jié)果信息與局部匹配模型集合中的每一個(gè)局部匹配模型的匹配值,其中,所述結(jié)果關(guān)鍵詞組是根據(jù)所述結(jié)果信息組確定的;
[0051]計(jì)算單元,用于根據(jù)所述結(jié)果信息與所述每一個(gè)局部匹配模型的匹配值,計(jì)算用于表征所述結(jié)果信息與所述檢索指示的相關(guān)性的相關(guān)度;
[0052]呈現(xiàn)單元,用于根據(jù)每一個(gè)結(jié)果信息對(duì)應(yīng)的相關(guān)度大小,對(duì)所述結(jié)果信息組中的每一個(gè)結(jié)果信息進(jìn)行排序,并將排序后的各個(gè)結(jié)果信息呈現(xiàn)。
[0053]結(jié)合第一方面,在第一種可能的實(shí)現(xiàn)方式中,所述檢索單元還用于:獲取文檔數(shù)據(jù);并根據(jù)所述文檔數(shù)據(jù)構(gòu)建所述檢索數(shù)據(jù)庫(kù)。
[0054]結(jié)合第一方面,或者第一方面的第一種可能的實(shí)現(xiàn)方式,在第二種可能的實(shí)現(xiàn)方式中,所述檢索單元具體用于:根據(jù)所述檢索指示采用局部敏感哈希LSH與關(guān)鍵詞匹配方式從檢索數(shù)據(jù)庫(kù)中檢索出結(jié)果信息組;和/或,
[0055]根據(jù)從所述檢索指示中確定出的所述檢索關(guān)鍵詞組,采用倒排索引方式從檢索數(shù)據(jù)庫(kù)中檢索出結(jié)果信息組。
[0056]結(jié)合第一方面,或者第一方面的第一至第二種可能的實(shí)現(xiàn)方式,在第三種可能的實(shí)現(xiàn)方式中,所述確定單元確定匹配值的局部匹配模型集合中的任意一個(gè)局部匹配模型包括信息關(guān)鍵詞組和回應(yīng)關(guān)鍵詞組;
[0057]所述確定單元具體用于:針對(duì)每一個(gè)局部匹配模型,分別執(zhí)行如下步驟:
[0058]確定所述檢索關(guān)鍵詞組和所述信息關(guān)鍵詞組中匹配的信息關(guān)鍵詞,及所述結(jié)果關(guān)