用于挖掘意圖的方法和設(shè)備的制作方法
【專利摘要】本發(fā)明公開了用于挖掘意圖的方法和設(shè)備。該用于挖掘意圖的方法包括:接收步驟,接收輸入的查詢;預(yù)獲取步驟,基于所接收到的查詢來獲取第一組候選意圖;構(gòu)建步驟,為所述查詢構(gòu)建至少一個臨時意圖模式;獲取步驟,基于所述至少一個臨時意圖模式來獲取第二組候選意圖;以及組合步驟,將所述第一組候選意圖和第二組候選意圖進行組合以獲得所述查詢的候選意圖;其中,所述臨時意圖模式包括所述查詢和上下文字符。
【專利說明】用于挖掘意圖的方法和設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)搜索。特別地,本發(fā)明涉及一種用于挖掘意圖的方法和設(shè)備。更特別地,本發(fā)明涉及針對用戶提交的搜索查詢來挖掘用戶意圖的方法和設(shè)備。
【背景技術(shù)】
[0002]目前,互聯(lián)網(wǎng)正在快速發(fā)展,在互聯(lián)網(wǎng)中常常產(chǎn)生大量的信息(諸如官方公布的科技信息、個人產(chǎn)生的日記或者博客等),并且互聯(lián)網(wǎng)用戶在大量的互聯(lián)網(wǎng)信息中搜索所希望的信息這一方式已經(jīng)越來越普遍。為了在海量的互聯(lián)網(wǎng)數(shù)據(jù)中找到所希望的信息,信息檢索系統(tǒng)諸如搜索引擎變得越來越重要。
[0003]目前,在實際進行網(wǎng)絡(luò)搜索的過程中,用戶往往為了方便而輸入簡短但是含糊的查詢,并希望找到其希望的搜索結(jié)果。然而,在此情況下,大多數(shù)的依賴現(xiàn)有技術(shù)的信息檢索系統(tǒng)不足以準(zhǔn)確地返回用戶希望的搜索結(jié)果,這是因為不同用戶可能通過使用相同的簡短且含糊的查詢作為輸入來搜尋不同的解釋搜索結(jié)果,而現(xiàn)有技術(shù)所提供的搜索結(jié)果往往不能正確地契合用戶的意圖。
[0004]目前傳統(tǒng)的信息檢索系統(tǒng)如圖1所示,該圖示出了傳統(tǒng)信息檢索系統(tǒng)的用戶界面,其中示出了輸入的查詢以及搜索結(jié)果。
[0005]在這種傳統(tǒng)的信息檢索系統(tǒng)中,輸入的簡短并且可能含糊的查詢沒有被進行任何附加的處理,并且輸出也僅僅是與所輸入的查詢相對應(yīng)的搜索結(jié)果。
[0006]此外,在傳統(tǒng)的信息檢索系統(tǒng)中,搜索結(jié)果往往被不適當(dāng)?shù)亟M織;并且導(dǎo)致用戶需要花費大量時間來瀏覽搜索結(jié)果以找到其所希望的,使得效率以及用戶體驗變差。
[0007]為了使得用戶能夠快速且準(zhǔn)確地找到他們所感興趣的內(nèi)容,目前已經(jīng)提出了基于對返回的搜索結(jié)果進行組織的各種自然語言處理和信息檢索方法。
[0008]這樣的信息檢索系統(tǒng)可被稱為基于意圖的信息檢索系統(tǒng),此系統(tǒng)是針對用戶所輸入的簡短并且可能含糊的查詢進行挖掘以獲取用戶的查詢意圖。在此系統(tǒng)中,針對用戶輸入的查詢,系統(tǒng)挖掘并且顯示用戶輸入的查詢的可能的意圖,從而用戶可以在所顯示的意圖中進行選擇和確認(rèn),使得系統(tǒng)可以基于所選擇的意圖進行更有針對性的檢索。
[0009]圖2示出了基于意圖的信息搜索系統(tǒng)的用戶界面,在該界面中顯示出了包括輸入查詢、一些被挖掘得到的意圖以及對于所選擇的意圖的搜索結(jié)果。
[0010]在此系統(tǒng)中,用戶輸入的簡短并且可能含糊的查詢被進行挖掘以便從中獲取用戶可能的查詢意圖,并且所獲取的查詢意圖被呈現(xiàn)給用戶進行選擇和確認(rèn),這樣用戶能夠快速且準(zhǔn)確地找到他所想要的內(nèi)容,而且搜索結(jié)果也基于所獲取的查詢意圖被良好地進行組織。
[0011]在這樣的基于意圖的信息搜索系統(tǒng)中,通常包含用于挖掘意圖、即從用戶輸入的查詢來挖掘用戶意圖的系統(tǒng)。此挖掘系統(tǒng)旨在從用戶輸入的查詢挖掘出更加重要且多樣化的用戶意圖。其的輸入通常是查詢,并且輸出是候選意圖以供用戶進行選擇和確認(rèn)。
[0012]作為示例,典型的用于挖掘意圖的系統(tǒng)(參照NTCIR中的子主題挖掘任務(wù))被如下地設(shè)計(參見如下表1),其中NTCIR (Nil Test Collection for IR Systems)是一個為所有研究人員提供共同的測試數(shù)據(jù)從而方便評價各種方法的性能的平臺,其具體內(nèi)容可以參見如下網(wǎng)站:http: / / research, ni1.ac.jp/ntcir/out I ine/prop-en.html。并且,如下表中所示的示例是來自NTCIR10INTENT任務(wù)的針對NTCIR域的示例:
[0013]輸入:(簡短以及含糊的)查詢,例如“becoming a paralegal”;
[0014]輸出:(重要的以及多樣化的)η個最佳意圖(例如,η = 10),
[0015]表1
[0016]
【權(quán)利要求】
1.一種用于挖掘意圖的方法,包括: 接收步驟,接收輸入的查詢; 預(yù)獲取步驟,基于所接收到的查詢來獲取第一組候選意圖; 構(gòu)建步驟,為所述查詢構(gòu)建至少一個臨時意圖模式; 獲取步驟,基于所述至少 一個臨時意圖模式來獲取第二組候選意圖;以及組合步驟,將所述第一組候選意圖和第二組候選意圖進行組合以獲得所述查詢的候選意圖; 其中,所述臨時意圖模式包括所述查詢和上下文字符。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述接收步驟包括: 解析步驟,對所接收到的查詢進行解析以獲得所接收到的查詢中的各概念;以及 位置調(diào)整步驟,通過將所獲得的各概念進行位置調(diào)整,由此生成至少一個重組后的查詢; 其中,所述預(yù)獲取步驟基于所述至少一個重組后的查詢來獲得所述第一組候選意圖;且 所述構(gòu)建步驟為所述至少一個重組后的查詢構(gòu)建所述至少一個臨時意圖模式。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述接收步驟還包括: 過濾步驟,基于第一預(yù)定參數(shù)來對所生成的至少一個重組后的查詢進行過濾, 其中,所述預(yù)獲取步驟基于所述至少一個重組后的查詢中的其第一預(yù)定參數(shù)大于等于第一閾值的查詢來獲得所述第一組候選意圖;且 所述構(gòu)建步驟為所述至少一個重組后的查詢中的其第一預(yù)定參數(shù)大于等于所述第一閾值的查詢構(gòu)建所述至少一個臨時意圖模式, 其中,所述第一預(yù)定參數(shù)為所述至少一個重組后的查詢在數(shù)據(jù)搜索資源中的出現(xiàn)頻率。
4.根據(jù)權(quán)利要求1所述的方法,其中所述構(gòu)建步驟包括: 將所述查詢分割成至少一個子查詢; 對于所述至少一個子查詢中的每一個,獲得該子查詢的至少一個臨時意圖模式;基于所述至少一個子查詢中的每一個的臨時意圖模式中的每一個與其余子查詢的組合,得到該查詢的至少一個臨時意圖模式。
5.根據(jù)權(quán)利要求4所述的方法,其中所述構(gòu)建步驟還包括: 基于第二預(yù)定參數(shù)來對所得到的組合進行過濾以獲得所述至少一個臨時意圖模式,其中,所述至少一個臨時意圖模式包含所述組合中的其第二預(yù)定參數(shù)大于等于第二閾值的組合, 其中,所述第二預(yù)定參數(shù)為所得到的組合在數(shù)據(jù)搜索資源中的出現(xiàn)頻率。
6.根據(jù)權(quán)利要求4所述的方法,其中,所述獲得該子查詢的至少一個臨時意圖模式包括: 從意圖訓(xùn)練庫或者用戶搜索歷史選擇記錄中的各數(shù)據(jù)中提取包含該子查詢的最短字符串; 對所提取的最短字符串進行泛化以得到該子查詢的至少一個臨時意圖模式, 其中,在該最短字符串不包含連接字符的情況下,將該最短字符串中的除該子查詢之外的其它內(nèi)容用通配符替換,在此情況下該上下文字符為通配符; 在該最短字符串包含與該子查詢緊鄰的連接字符的情況下,將該最短字符串中的除該子查詢和與該子查詢緊鄰的連接字符之外的其它內(nèi)容用通配符替換,在此情況下該上下文字符為通配符和該連接字符。
7.根據(jù)權(quán)利要求1所述的方法,其中,所述構(gòu)建步驟包括: 從所述第一組候選意圖中泛化出至少一個第一意圖模式; 計算所述至少一個第一意圖模式中的各意圖模式的覆蓋率和置信度;以及確定所述至少一個第一意圖模式中的其覆蓋率大于等于第三閾值或其置信度大于等于第四閾值的意圖模式作為所述至少一個臨時意圖模式。
8.根據(jù)權(quán)利要求7所述的方法,其中,所述泛化步驟包括:對于所述第一組候選意圖中的每一個 在該候選意圖不包含連接字符的情況下,將該候選意圖中的除該查詢之外的其它內(nèi)容用通配符替換,在此情況下該上下文字符為通配符; 在該候選意圖包含與該查詢緊鄰的連接字符的情況下,將該意圖查詢中的除該查詢和與該查詢緊鄰的連接字符之外的其它內(nèi)容用通配符替換,在此情況下該上下文字符為通配符和該連接字符。
9.根據(jù)權(quán)利要求1所述的方法,其中,所述構(gòu)建步驟包括: 通過對所述第一組候選意圖中的每一個進行結(jié)構(gòu)分析來提取至少一個結(jié)構(gòu)模式; 計算所述至少一個結(jié)構(gòu)模式中的各結(jié)構(gòu)模式的覆蓋率和置信度;以及確定所述至少一個結(jié)構(gòu)模式中的其覆蓋率大于等于第五閾值或其置信度大于等于第六閾值的結(jié)構(gòu)模式作為所述至少一個臨時意圖模式。
10.根據(jù)權(quán)利要求1所述的方法,其中所述上下文字符為通配符和連接字符中的至少一個, 其中,所述連接字符包含冠詞、前置詞和連詞中的至少一個。
11.根據(jù)權(quán)利要求1所述的方法,其中,所述上下文字符是用戶預(yù)先設(shè)定的,或者是從意圖訓(xùn)練庫、用戶歷史選擇記錄和所述第一組候選意圖中的至少一個中獲取的。
12.根據(jù)權(quán)利要求1所述的方法,其中,所述組合步驟包括根據(jù)各候選意圖所對應(yīng)的臨時意圖模式的參數(shù)來將各候選意圖進行排序, 其中,所述臨時意圖模式的參數(shù)包含所述臨時意圖模式的置信度和覆蓋率中的至少一個。
13.根據(jù)權(quán)利要求1一 12中任一項所述的方法,其中,所述方法進一步包括: 在所獲得的所述查詢的候選意圖之中構(gòu)建至少一個排他合集,其中每個排他合集包括至少兩個相互排他的候選意圖。
14.根據(jù)權(quán)利要求13所述的方法,其中,所述方法進一步包括: 利用所述至少一個排他合集使所獲得的所述查詢的候選意圖多樣化。
15.根據(jù)權(quán)利要求1一 12中任一項所述的方法,其中,所述方法進一步包括: 獲取要被獲得的意圖的數(shù)量n,其中η為自然數(shù); 從至少一個數(shù)據(jù)搜索資源獲取與所述查詢和所獲得的所述查詢的候選意圖相關(guān)的一組搜索結(jié)果;以及基于合計的非重疊率選擇η個意圖,所述合計的非重疊率是針對η個候選意圖、基于η個候選意圖中的各候選意圖不與任意其它η-1個候選意圖重疊的非重疊搜索結(jié)果的數(shù)量計算的。
16.根據(jù)權(quán)利要求13所述的方法,其中,所述方法進一步包括: 獲取要被獲得的意圖的數(shù)量η,其中η為自然數(shù); 從至少一個數(shù)據(jù)搜索資源獲取與所述查詢和所獲得的所述查詢的候選意圖相關(guān)的一組搜索結(jié)果;以及 基于合計的非重疊率選擇η個意圖,所述合計的非重疊率是針對η個候選意圖、基于η個候選意圖中的各候選意圖不與任意其它η-1個候選意圖重疊的非重疊搜索結(jié)果的數(shù)量計算的。
17.根據(jù)權(quán)利要求14所述的方法,其中,所述方法進一步包括: 獲取要被獲得的意圖的數(shù)量η,其中η為自然數(shù); 從至少一個數(shù)據(jù)搜索資源獲取與所述查詢和多樣化后的候選意圖相關(guān)的一組搜索結(jié)果;以及 基于合計的非重疊率選擇η個意圖,所述合計的非重疊率是針對η個候選意圖、基于η個候選意圖中的 各候選意圖不與任意其它η-1個候選意圖重疊的非重疊搜索結(jié)果的數(shù)量計算的。
18.一種用于挖掘意圖的設(shè)備,包括: 接收單元,被配置用于接收輸入的查詢; 預(yù)獲取單元,被配置用于基于所接收到的查詢來獲取第一組候選意圖; 構(gòu)建單元,被配置用于為所述查詢構(gòu)建至少一個臨時意圖模式; 獲取單元,被配置用于基于所述至少一個臨時意圖模式來獲取第二組候選意圖;以及組合單元,被配置用于將所述第一組候選意圖和第二組候選意圖進行組合以獲得所述查詢的候選意圖; 其中,所述臨時意圖模式包括所述查詢和上下文字符。
19.根據(jù)權(quán)利要求18所述的設(shè)備,其中,所述接收單元包括: 解析單元,被配置用于對所接收到的查詢進行解析以獲得所接收到的查詢中的各概念;以及 位置調(diào)整單元,被配置用于通過將所獲得的各概念進行位置調(diào)整,由此生成至少一個重組后的查詢; 其中,所述預(yù)獲取單元基于所述至少一個重組后的查詢來獲得所述第一組候選意圖;且 所述構(gòu)建單元為所述至少一個重組后的查詢構(gòu)建所述至少一個臨時意圖模式。
20.根據(jù)權(quán)利要求19所述的設(shè)備,其中,所述接收單元還包括: 過濾單元,被配置用于基于第一預(yù)定參數(shù)來對所生成的至少一個重組后的查詢進行過濾, 其中,所述預(yù)獲取單元基于所述至少一個重組后的查詢中的其第一預(yù)定參數(shù)大于等于第一閾值的查詢來獲得所述第一組候選意圖;且 所述構(gòu)建單元為所述至少一個重組后的查詢中的其第一預(yù)定參數(shù)大于等于所述第一閾值的查詢構(gòu)建所述至少一個臨時意圖模式, 其中,所述第一預(yù)定參數(shù)為所述至少一個重組后的查詢在數(shù)據(jù)搜索資源中的出現(xiàn)頻率。
21.根據(jù)權(quán)利要求18所述的設(shè)備,其中所述構(gòu)建單元包括: 被配置用于將所述查詢分割成至少一個子查詢的單元; 被配置用于對于所述至少一個子查詢中的每一個,獲得該子查詢的至少一個臨時意圖模式的單元; 被配置用于基于所述至少一個子查詢中的每一個的臨時意圖模式中的每一個與其余子查詢的組合,得到該查詢的至少一個臨時意圖模式的單元。
22.根據(jù)權(quán)利要求21所述的設(shè)備,其中所述構(gòu)建單元還包括: 被配置用于基于第二預(yù)定參數(shù)來對所得到的組合進行過濾以獲得所述至少一個臨時意圖模式的單元, 其中,所述至少一個臨時意圖模式包含所述組合中的其第二預(yù)定參數(shù)大于等于第二閾值的組合, 其中,所述第二預(yù)定參數(shù)為所得到的組合在數(shù)據(jù)搜索資源中的出現(xiàn)頻率。
23.根據(jù)權(quán)利要求21所述的設(shè)備,其中,所述獲得該子查詢的至少一個臨時意圖模式的單元包括: 被配置用于從意圖訓(xùn)練庫或者用戶搜索歷史選擇記錄中的各數(shù)據(jù)中提取包含該子查詢的最短字符串的單元; 被配置用于對所提取的最短字符串進行泛化以得到該子查詢的至少一個臨時意圖模式的單元, 其中,在該最短字符串不包含連接字符的情況下,該最短字符串中的除該子查詢之外的其它內(nèi)容被用通配符替換,在此情況下該上下文字符為通配符; 在該最短字符串包含與該子查詢緊鄰的連接字符的情況下,該最短字符串中的除該子查詢和與該子查詢緊鄰的連接字符之外的其它內(nèi)容被用通配符替換,在此情況下該上下文字符為通配符和該連接字符。
24.根據(jù)權(quán)利要求18所述的設(shè)備,其中,所述構(gòu)建單元包括: 被配置用于從所述第一組候選意圖中泛化出至少一個第一意圖模式的單元; 被配置用于計算所述至少一個第一意圖模式中的各意圖模式的覆蓋率和置信度的單元;以及 被配置用于確定所述至少一個第一意圖模式中的其覆蓋率大于等于第三閾值或其置信度大于等于第四閾值的意圖模式作為所述至少一個臨時意圖模式的單元。
25.根據(jù)權(quán)利要求24所述的設(shè)備,其中,所述泛化單元包括如下單元,該單元被配置用于對于所述第一組候選意圖中的每一個 在該候選意圖不包含連接字符的情況下,將該候選意圖中的除該查詢之外的其它內(nèi)容用通配符替換,在此情況下該上下文字符為通配符; 在該候選意圖包含與該查詢緊鄰的連接字符的情況下,將該意圖查詢中的除該查詢和與該查詢緊鄰的連接字符之外的其它內(nèi)容用通配符替換,在此情況下該上下文字符為通配符和該連接字符。
26.根據(jù)權(quán)利要求18所述的設(shè)備,其中,所述構(gòu)建單元包括: 被配置用于通過對所述第一組候選意圖中的每一個進行結(jié)構(gòu)分析來提取至少一個結(jié)構(gòu)模式的單元; 被配置用于計算所述至少一個結(jié)構(gòu)模式中的各結(jié)構(gòu)模式的覆蓋率和置信度的單元;以及 被配置用于確定所述至少一個結(jié)構(gòu)模式中的其覆蓋率大于等于第五閾值或其置信度大于等于第六閾值的結(jié)構(gòu)模式作為所述至少一個臨時意圖模式的單元。
27.根據(jù)權(quán)利要求18所述的設(shè)備,其中所述上下文字符為通配符和連接字符中的至少一個, 其中,所述連接字符包含冠詞、前置詞和連詞中的至少一個。
28.根據(jù)權(quán)利要求18所述的設(shè)備,其中,所述上下文字符是用戶預(yù)先設(shè)定的,或者是從意圖訓(xùn)練庫、用戶歷史選擇記錄和所述第一組候選意圖中的至少一個中獲取的。
29.根據(jù)權(quán)利要求18所述的設(shè)備,其中,所述組合單元包括根據(jù)各候選意圖所對應(yīng)的臨時意圖模式的參數(shù)來將各候選意圖進行排序,
30.根據(jù)權(quán)利要求18- 29中任一項所述的設(shè)備,其中,所述設(shè)備進一步包括: 被配置用于在所獲得的所述查詢的候選意圖之中構(gòu)建至少一個排他合集的單元,其中每個排他合集包括至少兩個相互排他的候選意圖。
31.根據(jù)權(quán)利要求30所述的設(shè)備,其中,所述設(shè)備進一步包括: 被配置用于利用所述至少一個排他合集使所獲得的所述查詢的候選意圖多樣化的單J Li ο
32.根據(jù)權(quán)利要求18- 29中任一項所述的設(shè)備,其中,所述設(shè)備進一步包括: 被配置用于獲取要被獲得的意圖的數(shù)量η的單元,其中η為自然數(shù); 被配置用于從至少一個數(shù)據(jù)搜索資源獲取與所述查詢和所獲得的所述查詢的候選意圖相關(guān)的一組搜索結(jié)果的單元;以及 被配置用于基于合計的非重疊率選擇η個意圖的單元,所述合計的非重疊率是針對η個候選意圖、基于η個候選意圖中的各候選意圖不與任意其它η-1個候選意圖重疊的非重疊搜索結(jié)果的數(shù)量計算的。
33.根據(jù)權(quán)利要求30所述的設(shè)備,其中,所述設(shè)備進一步包括: 被配置用于獲取要被獲得的意圖的數(shù)量η的單元,其中η為自然數(shù); 被配置用于從至少一個數(shù)據(jù)搜索資源獲取與所述查詢和所獲得的所述查詢的候選意圖相關(guān)的一組搜索結(jié)果的單元;以及 被配置用于基于合計的非重疊率選擇η個意圖的單元,所述合計的非重疊率是針對η個候選意圖、基于η個候選意圖中的各候選意圖不與任意其它η-1個候選意圖重疊的非重疊搜索結(jié)果的數(shù)量計算的。
34.根據(jù)權(quán)利要求31所述的設(shè)備,其中,所述設(shè)備進一步包括: 被配置用于獲取要被獲得的意圖的數(shù)量η的單元,其中η為自然數(shù); 被配置用于從至少一個數(shù)據(jù)搜索資源獲取與所述查詢和多樣化后的候選意圖相關(guān)的一組搜索結(jié)果的單元;以及 被配置用于基于合計的非重疊率選擇η個意圖的單元,所述合計的非重疊率是針對η個候選意圖、基于η個候選意 圖中的各候選意圖不與任意其它η-1個候選意圖重疊的非重疊搜索結(jié)果的數(shù)量計算的。
【文檔編號】G06F17/30GK103942204SQ201310019620
【公開日】2014年7月23日 申請日期:2013年1月18日 優(yōu)先權(quán)日:2013年1月18日
【發(fā)明者】胡欽諳, 黃耀海, 那森, 李榮軍, 夏云慶 申請人:佳能株式會社, 清華大學(xué)