用于生成擴(kuò)展查詢?cè)~的方法和裝置的制造方法
【專利摘要】本發(fā)明的目的是提供一種用于生成擴(kuò)展查詢?cè)~的方法和裝置。根據(jù)本發(fā)明的方法包括以下步驟:通過對(duì)一個(gè)或多個(gè)實(shí)體信息進(jìn)行搜索,獲取所述一個(gè)或多個(gè)實(shí)體信息對(duì)應(yīng)的需求相關(guān)信息;根據(jù)所獲取的各個(gè)實(shí)體信息及其需求相關(guān)信息,確定與各個(gè)實(shí)體信息對(duì)應(yīng)的實(shí)體擴(kuò)展信息,以進(jìn)行存儲(chǔ);根據(jù)所述查詢信息和預(yù)定的實(shí)體擴(kuò)展信息,生成與該查詢信息對(duì)應(yīng)的一個(gè)或多個(gè)擴(kuò)展查詢?cè)~。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):通過基于實(shí)體詞及其需求相關(guān)信息來對(duì)用戶輸入的查詢?cè)~進(jìn)行擴(kuò)展,從而提供更多符合用戶搜索需求的查詢?cè)~,提高了所擴(kuò)展的關(guān)鍵詞的準(zhǔn)確性。
【專利說明】
用于生成擴(kuò)展查詢?cè)~的方法和裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種用于生成擴(kuò)展查詢?cè)~的方法和裝置。 【背景技術(shù)】
[0002]現(xiàn)有技術(shù)中,在搜索引擎等用于搜索的系統(tǒng)中,一般基于用戶輸入的全部查詢信息來進(jìn)行搜索,或是僅基于查詢信息中的部分關(guān)鍵詞或近義詞來進(jìn)行搜索,而沒有考慮用戶輸入的查詢信息所反映的搜索需求,從而無法為用戶呈現(xiàn)更多符合用戶搜索需求的信息。并且,在諸如詩歌生成系統(tǒng)等特定系統(tǒng)中,用戶輸入的一些查詢信息可能并不適合出現(xiàn)在該系統(tǒng)中,因而無法為用戶提供適合該系統(tǒng)的且滿足其搜索需求的內(nèi)容。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是提供一種用于生成擴(kuò)展查詢?cè)~的方法和裝置。
[0004]根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于生成擴(kuò)展查詢?cè)~的方法,其中,所述方法包括以下步驟:
[0005]-通過對(duì)一個(gè)或多個(gè)實(shí)體信息進(jìn)行搜索,獲取所述一個(gè)或多個(gè)實(shí)體信息對(duì)應(yīng)的需求相關(guān)信息;
[0006]-根據(jù)所獲取的各個(gè)實(shí)體信息及其需求相關(guān)信息,確定與各個(gè)實(shí)體信息對(duì)應(yīng)的實(shí)體擴(kuò)展信息,以進(jìn)行存儲(chǔ)。
[0007]其中,接收到用戶輸入的查詢信息時(shí),所述方法還包括以下步驟:
[0008]_根據(jù)所述查詢信息和預(yù)定的實(shí)體擴(kuò)展信息,生成與該查詢信息對(duì)應(yīng)的一個(gè)或多個(gè)擴(kuò)展查詢?cè)~。
[0009]根據(jù)本發(fā)明的一個(gè)方面,提供了一種用于生成擴(kuò)展查詢?cè)~的生成裝置,其中,所述生成裝置包括:
[0010]用于通過對(duì)一個(gè)或多個(gè)實(shí)體信息進(jìn)行搜索,獲取所述一個(gè)或多個(gè)實(shí)體信息對(duì)應(yīng)的需求相關(guān)信息的裝置;
[0011]用于根據(jù)所獲取的各個(gè)實(shí)體信息及其需求相關(guān)信息,確定與各個(gè)實(shí)體信息對(duì)應(yīng)的實(shí)體擴(kuò)展信息,以進(jìn)行存儲(chǔ)的裝置。
[0012]其中,所述生成裝置還包括:
[0013]用于根據(jù)所述查詢信息和預(yù)定的實(shí)體擴(kuò)展信息,獲得與該查詢信息對(duì)應(yīng)的一個(gè)或多個(gè)擴(kuò)展查詢?cè)~的裝置。
[0014]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):通過基于實(shí)體詞及其需求相關(guān)信息來對(duì)用戶輸入的查詢?cè)~進(jìn)行擴(kuò)展,從而提供更多符合用戶搜索需求的查詢?cè)~,提高了所擴(kuò)展的關(guān)鍵詞的準(zhǔn)確性;并且,根據(jù)本發(fā)明的方法,可在諸如用于生成詩歌的系統(tǒng)等特定系統(tǒng)中, 提供與特定語料庫對(duì)應(yīng)的擴(kuò)展關(guān)鍵詞,進(jìn)一步提升了所擴(kuò)展的關(guān)鍵詞的準(zhǔn)確性;可在諸如用于生成詩歌的系統(tǒng)等特定系統(tǒng)中,對(duì)不適合出現(xiàn)在特定系統(tǒng)中的擴(kuò)展關(guān)鍵詞進(jìn)行改寫, 進(jìn)一步提升了所擴(kuò)展的關(guān)鍵詞的準(zhǔn)確性?!靖綀D說明】
[0015]通過閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0016]圖1示意出了根據(jù)本發(fā)明的一種用于獲得擴(kuò)展查詢?cè)~的方法流程圖;
[0017]圖2示意出了根據(jù)本發(fā)明的一種用于獲得擴(kuò)展查詢?cè)~的生成裝置的結(jié)構(gòu)示意圖。
[0018]附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件?!揪唧w實(shí)施方式】
[0019]下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。
[0020]圖1示意出了根據(jù)本發(fā)明的一種用于生成擴(kuò)展查詢?cè)~的方法流程圖。根據(jù)本發(fā)明的方法包括步驟S1、步驟S2和步驟S3。
[0021]其中,根據(jù)本發(fā)明的方法通過包含于計(jì)算機(jī)設(shè)備中的生成裝置來實(shí)現(xiàn)。所述計(jì)算機(jī)設(shè)備包括一種能夠按照事先設(shè)定或存儲(chǔ)的指令,自動(dòng)進(jìn)行數(shù)值計(jì)算和/或信息處理的電子設(shè)備,其硬件包括但不限于微處理器、專用集成電路(ASIC)、可編程門陣列(FPGA)、數(shù)字處理器(DSP)、嵌入式設(shè)備等。所述計(jì)算機(jī)設(shè)備包括網(wǎng)絡(luò)設(shè)備和/或用戶設(shè)備。其中,所述網(wǎng)絡(luò)設(shè)備包括但不限于單個(gè)網(wǎng)絡(luò)服務(wù)器、多個(gè)網(wǎng)絡(luò)服務(wù)器組成的服務(wù)器組或基于云計(jì)算 (Cloud Computing)的由大量主機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成的云,其中,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個(gè)超級(jí)虛擬計(jì)算機(jī)。所述用戶設(shè)備包括但不限于任何一種可與用戶通過鍵盤、鼠標(biāo)、遙控器、觸摸板、或聲控設(shè)備等方式進(jìn)行人機(jī)交互的電子產(chǎn)品,例如,個(gè)人計(jì)算機(jī)、平板電腦、智能手機(jī)、PDA、游戲機(jī)、或IPTV等。其中,所述用戶設(shè)備及網(wǎng)絡(luò)設(shè)備所處的網(wǎng)絡(luò)包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、VPN網(wǎng)絡(luò)等。[〇〇22]優(yōu)選地,根據(jù)本發(fā)明的生成裝置包含于網(wǎng)絡(luò)設(shè)備中。
[0023]優(yōu)選地,根據(jù)本發(fā)明的生成裝置包含于諸如用于生成詩歌的系統(tǒng)等特定系統(tǒng)中, 以供該特定系統(tǒng)基于生成裝置所生成的擴(kuò)展查詢?cè)~來搜索或創(chuàng)建詩歌等內(nèi)容信息。[〇〇24]需要說明的是,所述用戶設(shè)備、網(wǎng)絡(luò)設(shè)備以及網(wǎng)絡(luò)僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的用戶設(shè)備、網(wǎng)絡(luò)設(shè)備以及網(wǎng)絡(luò)如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并以引用方式包含于此。
[0025]參照?qǐng)D1,在步驟S1中,生成裝置通過對(duì)一個(gè)或多個(gè)實(shí)體信息進(jìn)行搜索,獲取所述一個(gè)或多個(gè)實(shí)體信息對(duì)應(yīng)的需求相關(guān)信息。
[0026]其中,所述實(shí)體信息包括各種人名、地名或歌曲名等具有實(shí)體的信息。
[0027]其中,所述需求相關(guān)信息包括各種可反映實(shí)體信息對(duì)應(yīng)的搜索需求的信息。
[0028]優(yōu)選地,所述需求相關(guān)信息基于各個(gè)實(shí)體信息的描述信息而確定。
[0029]具體地,生成裝置可通過對(duì)各個(gè)實(shí)體信息進(jìn)行搜索,獲得與每個(gè)實(shí)體信息對(duì)應(yīng)的描述信息,并將獲得的描述信息作為實(shí)體信息的需求相關(guān)信息。[〇〇3〇]優(yōu)選地,生成裝置可基于預(yù)定的模板信息來對(duì)各個(gè)實(shí)體信息進(jìn)行搜索,來獲得與每個(gè)實(shí)體信息對(duì)應(yīng)的描述信息。
[0031] 例如,配置以下模板:[NE]是[W: 1-20]; [NE]被認(rèn)為是[W: 1-20]; [NE]被評(píng)為[W: 1-20],其中NE表示需要抽取的實(shí)體名稱,比如電影名,人名等,W: 1-20表示1到20個(gè)詞。生成裝置基于該模板,在諸如百科,電影網(wǎng)站或新聞網(wǎng)站等定向站點(diǎn)進(jìn)行搜索,從而得到與各個(gè)實(shí)體對(duì)應(yīng)的描述信息。
[0032]更優(yōu)選地,對(duì)于無法通過預(yù)定的模板信息來確定描述信息的實(shí)體信息,生成裝置可基于已獲得的描述信息和預(yù)定的模型信息,來獲得與每個(gè)實(shí)體信息對(duì)應(yīng)的描述信息。
[0033]例如,對(duì)于無法通過預(yù)定的模板信息來確定描述信息的實(shí)體信息,生成裝置通過正例和無標(biāo)記樣本學(xué)習(xí)(learning from Positive and Unlabeled examples,PU learning)學(xué)習(xí)的方式,將通過預(yù)定的模板信息進(jìn)行搜索而得到的描述信息作為positive 訓(xùn)練語料,將該實(shí)體信息的、無法確定是否為描述信息的信息作為無標(biāo)記樣本訓(xùn)練語料,從而得到PU學(xué)習(xí)模型。生成裝置基于PU學(xué)習(xí)模型,來為實(shí)體信息確定其對(duì)應(yīng)的描述信息。
[0034]根據(jù)本發(fā)明的一優(yōu)選實(shí)施例,生成裝置通過對(duì)各個(gè)實(shí)體信息進(jìn)行搜索,獲得與每個(gè)實(shí)體信息對(duì)應(yīng)的一個(gè)或多個(gè)描述信息及各個(gè)描述信息各自的搜索頻率信息;接著基于搜索頻率最高的描述信息來確定相應(yīng)的實(shí)體信息的需求相關(guān)信息。[〇〇35]優(yōu)選地,生成裝置從實(shí)體信息對(duì)應(yīng)的描述信息中進(jìn)一步提取一個(gè)或多個(gè)關(guān)鍵詞作為該實(shí)體信息的需求相關(guān)信息。[〇〇36]根據(jù)本發(fā)明的第一示例,對(duì)于用戶搜索過的實(shí)體信息“馬云”,生成裝置通過預(yù)定模板在搜索引擎中進(jìn)行搜索,得到以下4個(gè)描述信息:阿里巴巴創(chuàng)始人;明初將領(lǐng);河北師范大學(xué)教授;云南經(jīng)濟(jì)電視臺(tái)副臺(tái)長。生成裝置根據(jù)該4個(gè)描述信息的搜索頻率,將搜索頻率最高的“阿里巴巴創(chuàng)始人”作為與實(shí)體信息“馬云”的需求相關(guān)信息。[〇〇37]需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何通過對(duì)一個(gè)或多個(gè)實(shí)體信息進(jìn)行搜索,獲取所述一個(gè)或多個(gè)實(shí)體信息對(duì)應(yīng)的需求相關(guān)信息的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0038]繼續(xù)參照?qǐng)D1,在步驟S2中,生成裝置根據(jù)所獲取的各個(gè)實(shí)體信息及其需求相關(guān)信息,確定與各個(gè)實(shí)體信息對(duì)應(yīng)的實(shí)體擴(kuò)展信息,以進(jìn)行存儲(chǔ)。
[0039]其中,所述實(shí)體擴(kuò)展信息包括各個(gè)實(shí)體信息以及可對(duì)該實(shí)體信息進(jìn)行擴(kuò)展的擴(kuò)展fg息。
[0040]優(yōu)選地,所述擴(kuò)展信息包括各個(gè)實(shí)體信息及其對(duì)應(yīng)的一個(gè)或多個(gè)擴(kuò)展關(guān)鍵詞。
[0041]具體地,生成裝置可直接將需求相關(guān)信息作為實(shí)體信息的實(shí)體擴(kuò)展信息。[〇〇42]繼續(xù)對(duì)前述第一示例進(jìn)行說明,生成裝置將在步驟S1中得到的與實(shí)體信息“馬云” 對(duì)應(yīng)的需求相關(guān)信息“阿里巴巴創(chuàng)始人”,作為實(shí)體信息“馬云”的實(shí)體擴(kuò)展信息,從而在預(yù)定實(shí)體擴(kuò)展信息中存儲(chǔ)實(shí)體信息“馬云”和其對(duì)應(yīng)的擴(kuò)展信息“阿里巴巴創(chuàng)始人”。
[0043]優(yōu)選地,生成裝置將所述需求相關(guān)信息中的一個(gè)或多個(gè)關(guān)鍵詞作為所述實(shí)體信息的實(shí)體擴(kuò)展信息。
[0044]優(yōu)選地,生成裝置基于特定語料庫,將需求相關(guān)信息中不適合該特定語料庫的內(nèi)容進(jìn)行替換或刪除。
[0045]例如,在用于生成詩歌的系統(tǒng)中,生成裝置基于與詩歌對(duì)應(yīng)的語料庫,將需求相關(guān)信息中的英文替換為該語料庫中的中文或中文近義詞。[〇〇46]需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)所獲取的各個(gè)實(shí)體信息及其需求相關(guān)信息,確定與各個(gè)實(shí)體信息對(duì)應(yīng)的實(shí)體擴(kuò)展信息的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0047]優(yōu)選地,生成裝置通過離線的方式來執(zhí)行上述步驟S1和步驟S2,以得到與各個(gè)實(shí)體信息對(duì)應(yīng)的實(shí)體擴(kuò)展信息來進(jìn)行存儲(chǔ)。
[0048]優(yōu)選地,生成裝置定期執(zhí)行上述步驟S1和步驟S2來對(duì)所存儲(chǔ)的實(shí)體擴(kuò)展信息進(jìn)行更新。
[0049]繼續(xù)參照?qǐng)D1,接收到用戶輸入的查詢信息時(shí),在步驟S3中,生成裝置根據(jù)所述查詢信息和預(yù)定的實(shí)體擴(kuò)展信息,生成與該查詢信息對(duì)應(yīng)的一個(gè)或多個(gè)擴(kuò)展查詢?cè)~。
[0050]具體地,生成裝置先基于所述查詢信息在預(yù)定的實(shí)體擴(kuò)展信息中進(jìn)行查詢,獲得與該查詢信息對(duì)應(yīng)的擴(kuò)展信息,接著基于該擴(kuò)展信息生成與該查詢信息對(duì)應(yīng)的一個(gè)或多個(gè)擴(kuò)展查詢?cè)~。
[0051]繼續(xù)對(duì)前述第一示例進(jìn)行說明,生成裝置基于用戶輸入的查詢信息“馬云”,在預(yù)定的實(shí)體擴(kuò)展信息中進(jìn)行查詢,得到對(duì)應(yīng)的擴(kuò)展信息“阿里巴巴創(chuàng)始人”,則生成裝置將該擴(kuò)展信息中的所有詞作為擴(kuò)展查詢?cè)~,從而得到兩個(gè)擴(kuò)展查詢?cè)~“阿里巴巴”和“創(chuàng)始人”。
[0052]優(yōu)選地,所述步驟S3包括步驟S301 (圖未示)和S302 (圖未示)。[〇〇53]在步驟S301中,生成裝置從所述查詢信息中提取出一個(gè)或多個(gè)關(guān)鍵詞。
[0054]優(yōu)選地,生成裝置從所述查詢信息中提取出一個(gè)或多個(gè)候選關(guān)鍵詞;接著基于預(yù)定的選擇規(guī)則,選擇其中一個(gè)或多個(gè)關(guān)鍵詞。
[0055]其中,所述選擇規(guī)則包括各種用于從查詢信息中提取關(guān)鍵詞的規(guī)則。
[0056]優(yōu)選地,生成裝置對(duì)查詢信息中的詞語進(jìn)行統(tǒng)計(jì),以獲得與該查詢信息中的詞語相關(guān)的統(tǒng)計(jì)信息,并基于統(tǒng)計(jì)結(jié)果選擇該查詢信息中的重要詞語作為人所述一個(gè)或多個(gè)關(guān)鍵詞。[0〇57] 例如,預(yù)定的選擇規(guī)則指示,基于詞頻-逆向文件頻率(TF-1DF, term frequency-1nverse document frequency) 、單詞利用在歷史搜索查詢?cè)~中出現(xiàn)總次數(shù)、單詞作為獨(dú)立查詢?cè)~出現(xiàn)次數(shù)、單詞作為兩個(gè)詞的查詢?cè)~中的其中一個(gè)詞出現(xiàn)的次數(shù)等等,來統(tǒng)計(jì)查詢信息中的各個(gè)詞語的頻率相關(guān)信息,并選擇其中頻率較高的一個(gè)或多個(gè)關(guān)鍵詞。
[0058]又例如,預(yù)定的選擇規(guī)則指示,通過統(tǒng)計(jì)詞語的長度、上下文環(huán)境、詞語的類型、是否為句首尾單詞、是否為標(biāo)點(diǎn)符號(hào)、停用詞或數(shù)詞等等詞語的語義特征,來選擇該查詢信息的中的一個(gè)或多個(gè)關(guān)鍵詞。[〇〇59]接著,在步驟S302中,生成裝置基于已存儲(chǔ)的實(shí)體擴(kuò)展信息,對(duì)所述一個(gè)或多個(gè)關(guān)鍵詞進(jìn)行擴(kuò)展,以生成一個(gè)或多個(gè)擴(kuò)展查詢?cè)~。[0〇6〇] 例如,生成裝置在步驟S301中從所述查詢信息中提取出3個(gè)關(guān)鍵詞keyword_l至 keyword_3,并分別基于該3個(gè)關(guān)鍵詞在預(yù)定的實(shí)體擴(kuò)展信息中進(jìn)行查詢,從而得到的與該3 個(gè)關(guān)鍵詞中人一個(gè)對(duì)應(yīng)的擴(kuò)展信息。接著,生成裝置將得到的各個(gè)擴(kuò)展信息的中心詞語作為擴(kuò)展查詢?cè)~。
[0061]優(yōu)選地,根據(jù)本發(fā)明的方法還包括步驟S4(圖未示)和步驟S5(圖未示)。
[0062]在步驟S4中,生成裝置基于預(yù)定算法計(jì)算所獲得的一個(gè)或多個(gè)擴(kuò)展查詢?cè)~的權(quán)重 fg息。
[0063]優(yōu)選地,所述權(quán)重信息用于指示擴(kuò)展查詢?cè)~的重要性。
[0064]在步驟S5中,生成裝置基于所述算一個(gè)或多個(gè)擴(kuò)展查詢?cè)~的權(quán)重信息來進(jìn)行排序,從而選擇排序靠前的至少一個(gè)擴(kuò)展查詢?cè)~。
[0065]例如,生成裝置可基于上述詞頻-逆向文件頻率(TF-1DF,term frequency-1nverse document frequency) 、單詞利用在歷史搜索查詢?cè)~中出現(xiàn)總次數(shù)、單詞作為獨(dú)立查詢?cè)~出現(xiàn)次數(shù)、單詞作為兩個(gè)詞的查詢?cè)~中的其中一個(gè)詞出現(xiàn)的次數(shù)等等,來計(jì)算各個(gè)擴(kuò)展查詢?cè)~的權(quán)重信息,并基于各個(gè)擴(kuò)展查詢?cè)~的權(quán)重信息對(duì)各個(gè)擴(kuò)展查詢?cè)~進(jìn)行排序, 從而選擇排序靠前的至少一個(gè)擴(kuò)展查詢?cè)~。
[0066]優(yōu)選地,如果所獲得的擴(kuò)展查詢?cè)~數(shù)量小于預(yù)定閾值,生成裝置可獲取特定語料庫內(nèi)與一個(gè)或多個(gè)擴(kuò)展查詢?cè)~的共同出現(xiàn)頻率較高的一個(gè)或多個(gè)關(guān)鍵詞,以得到更多的擴(kuò)展查詢?cè)~。
[0067]例如,生成裝置包含于用于生成詩歌的系統(tǒng)中,對(duì)于擴(kuò)展查詢?cè)~“桃花”,生成裝置基于詩歌對(duì)應(yīng)的語料庫,獲取到該語料庫內(nèi)與“桃花”共同出現(xiàn)頻率最高的關(guān)鍵詞“春風(fēng)”, 作為可用的擴(kuò)展查詢?cè)~。
[0068]根據(jù)本發(fā)明的方法,通過基于實(shí)體詞及其需求相關(guān)信息來對(duì)用戶輸入的查詢?cè)~進(jìn)行擴(kuò)展,從而提供更多符合用戶搜索需求的查詢?cè)~,提高了所擴(kuò)展的關(guān)鍵詞的準(zhǔn)確性;并且,根據(jù)本發(fā)明的方法,可在諸如用于生成詩歌的系統(tǒng)等特定系統(tǒng)中,提供與特定語料庫對(duì)應(yīng)的擴(kuò)展關(guān)鍵詞,進(jìn)一步提升了所擴(kuò)展的關(guān)鍵詞的準(zhǔn)確性。[〇〇69]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施方案,根據(jù)方法還包括步驟S6(圖未示)。
[0070]在步驟S6中,如果一擴(kuò)展查詢?cè)~在特定語料庫中的頻率低于預(yù)定閾值,生成裝置對(duì)該擴(kuò)展查詢?cè)~進(jìn)行改寫。
[0071]優(yōu)選地,如果查詢信息的一個(gè)擴(kuò)展查詢?cè)~與該查詢信息的其他擴(kuò)展查詢?cè)~的邏輯距離相差較遠(yuǎn),則生成裝置對(duì)該擴(kuò)展查詢?cè)~進(jìn)行改寫。
[0072]具體地,生成裝置對(duì)該擴(kuò)展查詢?cè)~進(jìn)行改寫的方式包括但不限于以下任一種方式:
[0073]1)獲取特定語料庫內(nèi)與該擴(kuò)展查詢?cè)~對(duì)應(yīng)的一個(gè)或多個(gè)近義詞;基于所述一個(gè)或多個(gè)近義詞,對(duì)該擴(kuò)展查詢?cè)~進(jìn)行改寫;[〇〇74]例如,對(duì)于不適合出現(xiàn)在詩歌中的英文擴(kuò)展查詢?cè)~“CEO”,生成裝置將獲取到詩詞的語料庫內(nèi)與“CEO”的近義詞“東家”或者“店主”,從而將“CEO”改寫為“東家”或者“店主”。
[0075]2)生成裝置基于所述查詢改寫信息,確定與該擴(kuò)展查詢?cè)~對(duì)應(yīng)的替換查詢?cè)~,以替換該擴(kuò)展查詢?cè)~。
[0076]其中,所述查詢改寫信息包括預(yù)定的可用于替換特定查詢?cè)~的一個(gè)或多個(gè)替換查詢?cè)~,[〇〇77] 其中,所述方法通過執(zhí)行步驟S7、步驟S8和步驟S9來生成查詢?cè)~改寫信息。[〇〇78]在步驟S7中,生成裝置基于大量搜索用戶的搜索記錄,確定與一個(gè)或多個(gè)在特定語料庫中的頻率低于預(yù)定閾值的擴(kuò)展查詢?cè)~對(duì)應(yīng)的一個(gè)或多個(gè)近義詞。
[0079]在步驟S8中,生成裝置從一個(gè)或多個(gè)近義詞中選擇在特定語料庫中的頻率高于預(yù)定閾值的至少一個(gè)近義詞,作為該擴(kuò)展查詢?cè)~的替換查詢?cè)~。
[0080]在步驟S9中,生成裝置基于各個(gè)在特定語料庫中的頻率低于預(yù)定閾值的擴(kuò)展查詢?cè)~及其對(duì)應(yīng)的至少一個(gè)替換查詢?cè)~,生成所述查詢改寫信息。
[0081]例如,對(duì)于需要被改寫的擴(kuò)展查詢?cè)~query」,生成裝置查詢預(yù)定的改寫詞典,得到該改寫詞典中與query_l對(duì)應(yīng)的替換查詢?cè)~query_2,從而將query_l改寫為query_2。
[0082]根據(jù)本優(yōu)選實(shí)施方案的方法,可在諸如用于生成詩歌的系統(tǒng)等特定系統(tǒng)中,對(duì)不適合出現(xiàn)在特定系統(tǒng)中的擴(kuò)展關(guān)鍵詞進(jìn)行改寫,進(jìn)一步提升了所擴(kuò)展的關(guān)鍵詞的準(zhǔn)確性。
[0083]圖2示意出了根據(jù)本發(fā)明的一種用于獲得擴(kuò)展查詢?cè)~的生成裝置的結(jié)構(gòu)示意圖。
[0084]根據(jù)本發(fā)明的生成裝置包括:用于通過對(duì)一個(gè)或多個(gè)實(shí)體信息進(jìn)行搜索,獲取所述一個(gè)或多個(gè)實(shí)體信息對(duì)應(yīng)的需求相關(guān)信息的裝置(以下簡稱“需求獲取裝置I”);用于根據(jù)所獲取的各個(gè)實(shí)體信息及其需求相關(guān)信息,確定與各個(gè)實(shí)體信息對(duì)應(yīng)的實(shí)體擴(kuò)展信息,以進(jìn)行存儲(chǔ)的裝置(以下簡稱“第一確定裝置2”)。用于根據(jù)所述查詢信息和預(yù)定的實(shí)體擴(kuò)展信息,獲得與該查詢信息對(duì)應(yīng)的一個(gè)或多個(gè)擴(kuò)展查詢?cè)~的裝置(以下簡稱“擴(kuò)展生成裝置3,,)。
[0085]參照?qǐng)D2,需求獲取裝置I通過對(duì)一個(gè)或多個(gè)實(shí)體信息進(jìn)行搜索,獲取所述一個(gè)或多個(gè)實(shí)體信息對(duì)應(yīng)的需求相關(guān)信息。
[0086]其中,所述實(shí)體信息包括各種人名、地名或歌曲名等具有實(shí)體的信息。
[0087]其中,所述需求相關(guān)信息包括各種可反映實(shí)體信息對(duì)應(yīng)的搜索需求的信息。
[0088]優(yōu)選地,所述需求相關(guān)信息基于各個(gè)實(shí)體信息的描述信息而確定。
[0089]具體地,需求獲取裝置I可通過對(duì)各個(gè)實(shí)體信息進(jìn)行搜索,獲得與每個(gè)實(shí)體信息對(duì)應(yīng)的描述信息,并將獲得的描述信息作為實(shí)體信息的需求相關(guān)信息。
[0090]優(yōu)選地,生成裝置可基于預(yù)定的模板信息來對(duì)各個(gè)實(shí)體信息進(jìn)行搜索,來獲得與每個(gè)實(shí)體信息對(duì)應(yīng)的描述信息。
[0091 ] 例如,配置以下模板:[NE]是[W: 1-20]; [NE]被認(rèn)為是[W: 1-20]; [NE]被評(píng)為[W: 1-20],其中NE表示需要抽取的實(shí)體名稱,比如電影名,人名等,W: 1-20表示I到20個(gè)詞。第一獲取裝置I基于該模板,在諸如百科,電影網(wǎng)站或新聞網(wǎng)站等定向站點(diǎn)進(jìn)行搜索,從而得到與各個(gè)實(shí)體對(duì)應(yīng)的描述信息。
[0092]更優(yōu)選地,對(duì)于無法通過預(yù)定的模板信息來確定描述信息的實(shí)體信息,需求獲取裝置I可基于已獲得的描述信息和預(yù)定的模型信息,來獲得與每個(gè)實(shí)體信息對(duì)應(yīng)的描述信息。
[0093]例如,對(duì)于無法通過預(yù)定的模板信息來確定描述信息的實(shí)體信息,生成裝置通過正例和無標(biāo)記樣本學(xué)習(xí)(learning from Positive and Unlabeled examples ,PUlearning)學(xué)習(xí)的方式,將通過預(yù)定的模板信息進(jìn)行搜索而得到的描述信息作為positive訓(xùn)練語料,將該實(shí)體信息的、無法確定是否為描述信息的信息作為無標(biāo)記樣本訓(xùn)練語料,從而得到PU學(xué)習(xí)模型。需求獲取裝置I基于PU學(xué)習(xí)模型,來為實(shí)體信息確定其對(duì)應(yīng)的描述信息。
[0094]根據(jù)本發(fā)明的一優(yōu)選實(shí)施例,所述需求獲取裝置I包括用于通過對(duì)各個(gè)實(shí)體信息進(jìn)行搜索,獲得與每個(gè)實(shí)體信息對(duì)應(yīng)的一個(gè)或多個(gè)描述信息及各個(gè)描述信息各自的搜索頻率信息的裝置(圖未示,以下簡稱“子獲取裝置”)和用于基于搜索頻率最高的描述信息來確定相應(yīng)的實(shí)體信息的需求相關(guān)信息的裝置(圖未示,以下簡稱“需求確定裝置”)。
[0095]子獲取裝置通過對(duì)各個(gè)實(shí)體信息進(jìn)行搜索,獲得與每個(gè)實(shí)體信息對(duì)應(yīng)的一個(gè)或多個(gè)描述信息及各個(gè)描述信息各自的搜索頻率信息;接著,需求確定裝置基于搜索頻率最高的描述信息來確定相應(yīng)的實(shí)體信息的需求相關(guān)信息。
[0096]優(yōu)選地,需求獲取裝置I可從實(shí)體信息對(duì)應(yīng)的描述信息中進(jìn)一步提取一個(gè)或多個(gè)關(guān)鍵詞作為該實(shí)體信息的需求相關(guān)信息。
[0097]根據(jù)本發(fā)明的第一示例,對(duì)于用戶搜索過的實(shí)體信息“馬云”,需求獲取裝置I通過預(yù)定模板在搜索引擎中進(jìn)行搜索,得到以下4個(gè)描述信息:阿里巴巴創(chuàng)始人;明初將領(lǐng);河北師范大學(xué)教授;云南經(jīng)濟(jì)電視臺(tái)副臺(tái)長。第一獲取裝置I根據(jù)該4個(gè)描述信息的搜索頻率,將搜索頻率最高的“阿里巴巴創(chuàng)始人”作為與實(shí)體信息“馬云”的需求相關(guān)信息。
[0098]需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何通過對(duì)一個(gè)或多個(gè)實(shí)體信息進(jìn)行搜索,獲取所述一個(gè)或多個(gè)實(shí)體信息的需求相關(guān)信息的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0099]繼續(xù)參照?qǐng)D2,第一確定裝置2根據(jù)所獲取的各個(gè)實(shí)體信息及其需求相關(guān)信息,確定與各個(gè)實(shí)體信息對(duì)應(yīng)的實(shí)體擴(kuò)展信息,以進(jìn)行存儲(chǔ)。
[0100]其中,所述實(shí)體擴(kuò)展信息包括各個(gè)實(shí)體信息以及可對(duì)該實(shí)體信息進(jìn)行擴(kuò)展的擴(kuò)展
?目息O
[0101]優(yōu)選地,所述擴(kuò)展信息包括各個(gè)實(shí)體信息及其對(duì)應(yīng)的一個(gè)或多個(gè)擴(kuò)展關(guān)鍵詞。
[0102]具體地,第一確定裝置2可直接將需求相關(guān)信息作為實(shí)體信息的實(shí)體擴(kuò)展信息。
[0103]繼續(xù)對(duì)前述第一示例進(jìn)行說明,第一確定裝置2將第一獲取裝置I得到的與實(shí)體信息“馬云”對(duì)應(yīng)的需求相關(guān)信息“阿里巴巴創(chuàng)始人”,作為實(shí)體信息“馬云”的實(shí)體擴(kuò)展信息,從而在預(yù)定實(shí)體擴(kuò)展信息中存儲(chǔ)實(shí)體信息“馬云”和其對(duì)應(yīng)的擴(kuò)展信息“阿里巴巴創(chuàng)始人”。
[0104]優(yōu)選地,第一確定裝置2將所述需求相關(guān)信息中的一個(gè)或多個(gè)關(guān)鍵詞作為所述實(shí)體信息的實(shí)體擴(kuò)展信息。
[0105]優(yōu)選地,第一確定裝置2基于特定語料庫,將需求相關(guān)信息中不適合該特定語料庫的內(nèi)容進(jìn)行替換或刪除。
[0106]例如,在用于生成詩歌的系統(tǒng)中,第一確定裝置2基于與詩歌對(duì)應(yīng)的語料庫,將需求相關(guān)信息中的英文替換為語料庫中的中文或中文近義詞。
[0107]需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)所獲取的各個(gè)實(shí)體信息及其需求相關(guān)信息,確定與各個(gè)實(shí)體信息對(duì)應(yīng)的實(shí)體擴(kuò)展信息的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0108]優(yōu)選地,生成裝置通過離線的方式來執(zhí)行上述需求獲取裝置I和第一確定裝置2的操作,以得到與各個(gè)實(shí)體信息對(duì)應(yīng)的實(shí)體擴(kuò)展信息來進(jìn)行存儲(chǔ)。
[0109]優(yōu)選地,生成裝置定期執(zhí)行上述需求獲取裝置I和第一確定裝置2的操作,來對(duì)所存儲(chǔ)的實(shí)體擴(kuò)展信息進(jìn)行更新。
[0110]繼續(xù)參照?qǐng)D2,接收到用戶輸入的查詢信息時(shí),擴(kuò)展生成裝置3根據(jù)所述查詢信息和預(yù)定的實(shí)體擴(kuò)展信息,生成與該查詢信息對(duì)應(yīng)的一個(gè)或多個(gè)擴(kuò)展查詢?cè)~。
[0111]具體地,擴(kuò)展生成裝置3先基于所述查詢信息在預(yù)定的實(shí)體擴(kuò)展信息中進(jìn)行查詢,獲得與該查詢信息對(duì)應(yīng)的擴(kuò)展信息,接著基于該擴(kuò)展信息生成與該查詢信息對(duì)應(yīng)的一個(gè)或多個(gè)擴(kuò)展查詢?cè)~。
[0112]繼續(xù)對(duì)前述第一示例進(jìn)行說明,擴(kuò)展生成裝置3基于用戶輸入的查詢信息“馬云”,在預(yù)定的實(shí)體擴(kuò)展信息中進(jìn)行查詢,得到對(duì)應(yīng)的擴(kuò)展信息“阿里巴巴創(chuàng)始人”,則擴(kuò)展生成裝置3將該擴(kuò)展信息中的所有詞作為擴(kuò)展查詢?cè)~,從而得到兩個(gè)擴(kuò)展查詢?cè)~“阿里巴巴”和“創(chuàng)始人”。
[0113]優(yōu)選地,所述擴(kuò)展生成裝置3包括用于從所述查詢信息中提取出一個(gè)或多個(gè)關(guān)鍵詞的裝置(圖未示,以下簡稱“提取裝置”)和用于基于已存儲(chǔ)的實(shí)體擴(kuò)展信息,對(duì)所述一個(gè)或多個(gè)關(guān)鍵詞進(jìn)行擴(kuò)展,以生成一個(gè)或多個(gè)擴(kuò)展查詢?cè)~的裝置(圖未示,以下簡稱“擴(kuò)展裝置”)。
[0114]提取裝置從所述查詢信息中提取出一個(gè)或多個(gè)關(guān)鍵詞。
[0115]優(yōu)選地,所述提取裝置進(jìn)一步包括用于從所述查詢信息中提取出一個(gè)或多個(gè)候選關(guān)鍵詞的裝置(圖未示,以下簡稱“子提取裝置”)和用于基于預(yù)定的選擇規(guī)則,選擇其中一個(gè)或多個(gè)關(guān)鍵詞的裝置(圖未示,以下簡稱“選擇裝置”)。
[0116]子提取裝置從所述查詢信息中提取出一個(gè)或多個(gè)候選關(guān)鍵詞;接著基于預(yù)定的選擇規(guī)則,選擇裝置選擇其中一個(gè)或多個(gè)關(guān)鍵詞。
[0117]其中,所述選擇規(guī)則包括各種用于從查詢信息中提取關(guān)鍵詞的規(guī)則。
[0118]優(yōu)選地,選擇裝置對(duì)查詢信息中的詞語進(jìn)行統(tǒng)計(jì),以獲得與該查詢信息中的詞語相關(guān)的統(tǒng)計(jì)信息,并基于統(tǒng)計(jì)結(jié)果選擇該查詢信息中的重要詞語作為人所述一個(gè)或多個(gè)關(guān)鍵詞。
[0119]例如,預(yù)定的選擇規(guī)則指示,基于詞頻-逆向文件頻率(TF-1DF,term frequency-1nverse document frequency)、單詞利用在歷史搜索查詢?cè)~中出現(xiàn)總次數(shù)、單詞作為獨(dú)立查詢?cè)~出現(xiàn)次數(shù)、單詞作為兩個(gè)詞的查詢?cè)~中的其中一個(gè)詞出現(xiàn)的次數(shù)等等,來統(tǒng)計(jì)查詢信息中的各個(gè)詞語的頻率相關(guān)信息,并選擇其中頻率較高的一個(gè)或多個(gè)關(guān)鍵詞。
[0120]又例如,預(yù)定的選擇規(guī)則指示,通過統(tǒng)計(jì)詞語的長度、上下文環(huán)境、詞語的類型、是否為句首尾單詞、是否為標(biāo)點(diǎn)符號(hào)、停用詞或數(shù)詞等等詞語的語義特征,來選擇該查詢信息的中的一個(gè)或多個(gè)關(guān)鍵詞。
[0121]接著,擴(kuò)展裝置基于已存儲(chǔ)的實(shí)體擴(kuò)展信息,對(duì)所述一個(gè)或多個(gè)關(guān)鍵詞進(jìn)行擴(kuò)展,以生成一個(gè)或多個(gè)擴(kuò)展查詢?cè)~。
[0122]例如,提取裝置中從所述查詢信息中提取出3個(gè)關(guān)鍵詞keyword_l至keyword_3,以供生成裝置分別基于該3個(gè)關(guān)鍵詞在預(yù)定的實(shí)體擴(kuò)展信息中進(jìn)行查詢,從而得到的與該3個(gè)關(guān)鍵詞中人一個(gè)對(duì)應(yīng)的擴(kuò)展信息。接著,擴(kuò)展裝置將得到的各個(gè)擴(kuò)展信息的中心詞語作為擴(kuò)展查詢?cè)~。
[0123]優(yōu)選地,根據(jù)本發(fā)明的生成裝置還包括用于基于預(yù)定算法計(jì)算所獲得的一個(gè)或多個(gè)擴(kuò)展查詢?cè)~的權(quán)重信息的裝置(圖未示,以下簡稱“計(jì)算裝置”),和用于基于所述算一個(gè)或多個(gè)擴(kuò)展查詢?cè)~的權(quán)重信息來進(jìn)行排序,從而選擇排序靠前的至少一個(gè)擴(kuò)展查詢?cè)~的裝置(圖未示,以下簡稱“排序裝置”)。
[0124]計(jì)算裝置基于預(yù)定算法計(jì)算所獲得的一個(gè)或多個(gè)擴(kuò)展查詢?cè)~的權(quán)重信息。
[0125]優(yōu)選地,所述權(quán)重信息用于指示擴(kuò)展查詢?cè)~的重要性。
[0126]接著排序裝置基于所述算一個(gè)或多個(gè)擴(kuò)展查詢?cè)~的權(quán)重信息來進(jìn)行排序,從而選擇排序靠前的至少一個(gè)擴(kuò)展查詢?cè)~。
[0127]例如,計(jì)算裝置可基于上述詞頻-逆向文件頻率(TF-1DF,term frequency-1nverse document frequency)、單詞利用在歷史搜索查詢?cè)~中出現(xiàn)總次數(shù)、單詞作為獨(dú)立查詢?cè)~出現(xiàn)次數(shù)、單詞作為兩個(gè)詞的查詢?cè)~中的其中一個(gè)詞出現(xiàn)的次數(shù)等等,來計(jì)算各個(gè)擴(kuò)展查詢?cè)~的權(quán)重信息,排序裝置基于各個(gè)擴(kuò)展查詢?cè)~的權(quán)重信息對(duì)各個(gè)擴(kuò)展查詢?cè)~進(jìn)行排序,從而選擇排序靠前的至少一個(gè)擴(kuò)展查詢?cè)~。
[0128]優(yōu)選地,如果所獲得的擴(kuò)展查詢?cè)~數(shù)量小于預(yù)定閾值,擴(kuò)展生成裝置3可獲取特定語料庫內(nèi)與一個(gè)或多個(gè)擴(kuò)展查詢?cè)~的共同出現(xiàn)頻率較高的一個(gè)或多個(gè)關(guān)鍵詞,以得到更多的擴(kuò)展查詢?cè)~。
[0129]例如,生成裝置包含于用于生成詩歌的系統(tǒng)中,對(duì)于擴(kuò)展查詢?cè)~“桃花”,擴(kuò)展生成裝置3基于詩歌對(duì)應(yīng)的語料庫,獲取到該語料庫內(nèi)與“桃花”共同出現(xiàn)頻率最高的關(guān)鍵詞“春風(fēng)”,作為可用的擴(kuò)展查詢?cè)~。
[0130]根據(jù)本發(fā)明的方案,通過基于實(shí)體詞及其需求相關(guān)信息來對(duì)用戶輸入的查詢?cè)~進(jìn)行擴(kuò)展,從而提供更多符合用戶搜索需求的查詢?cè)~,提高了所擴(kuò)展的關(guān)鍵詞的準(zhǔn)確性;并且,根據(jù)本發(fā)明的方案,可在諸如用于生成詩歌的系統(tǒng)等特定系統(tǒng)中,提供與特定語料庫對(duì)應(yīng)的擴(kuò)展關(guān)鍵詞,進(jìn)一步提升了所擴(kuò)展的關(guān)鍵詞的準(zhǔn)確性。
[0131]根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施方案,根據(jù)生成裝置還包括用于如果一擴(kuò)展查詢?cè)~在特定語料庫中的頻率低于預(yù)定閾值,對(duì)該擴(kuò)展查詢?cè)~進(jìn)行改寫的裝置(圖未示,以下簡稱“改寫裝置”)。
[0132]如果一擴(kuò)展查詢?cè)~在特定語料庫中的頻率低于預(yù)定閾值,改寫裝置對(duì)該擴(kuò)展查詢?cè)~進(jìn)行改寫。
[0133]優(yōu)選地,如果查詢信息的一個(gè)擴(kuò)展查詢?cè)~與該查詢信息的其他擴(kuò)展查詢?cè)~的邏輯距離相差較遠(yuǎn),則改寫裝置對(duì)該擴(kuò)展查詢?cè)~進(jìn)行改寫。
[0134]具體地,改寫裝置對(duì)該擴(kuò)展查詢?cè)~進(jìn)行改寫的方式包括但不限于以下任一種方式:
[0135]I)獲取特定語料庫內(nèi)與該擴(kuò)展查詢?cè)~對(duì)應(yīng)的一個(gè)或多個(gè)近義詞;基于所述一個(gè)或多個(gè)近義詞,對(duì)該擴(kuò)展查詢?cè)~進(jìn)行改寫;
[0136]例如,對(duì)于不適合出現(xiàn)在詩歌中的英文擴(kuò)展查詢?cè)~“CEO”,改寫裝置將獲取到詩詞的語料庫內(nèi)與“CEO”的近義詞“東家”或者“店主”,從而將“CEO”改寫為“東家”或者“店主”。
[0137]2)基于所述查詢改寫信息,確定與該擴(kuò)展查詢?cè)~對(duì)應(yīng)的替換查詢?cè)~,以替換該擴(kuò)展查詢?cè)~。
[0138]其中,所述查詢改寫信息包括預(yù)定的可用于替換特定查詢?cè)~的一個(gè)或多個(gè)替換查詢?cè)~,
[0139]其中,所述生成裝置通過用于基于大量搜索用戶的搜索記錄,確定與一個(gè)或多個(gè)在特定語料庫中的頻率低于預(yù)定閾值的擴(kuò)展查詢?cè)~對(duì)應(yīng)的一個(gè)或多個(gè)近義詞的裝置(圖未示,以下簡稱“第二確定裝置”)、用于從一個(gè)或多個(gè)近義詞中選擇在特定語料庫中的頻率高于預(yù)定閾值的至少一個(gè)近義詞,作為該擴(kuò)展查詢?cè)~的替換查詢?cè)~。的裝置(圖未示,以下簡稱“替換選擇裝置”),和用于基于各個(gè)在特定語料庫中的頻率低于預(yù)定閾值的擴(kuò)展查詢?cè)~及其對(duì)應(yīng)的至少一個(gè)替換查詢?cè)~,生成所述查詢改寫信息的裝置(圖未示,以下簡稱“改寫生成裝置”),來生成查詢?cè)~改寫信息。
[0140]第二確定裝置基于大量搜索用戶的搜索記錄,確定與一個(gè)或多個(gè)在特定語料庫中的頻率低于預(yù)定閾值的擴(kuò)展查詢?cè)~對(duì)應(yīng)的一個(gè)或多個(gè)近義詞。
[0141]替換選擇裝置從一個(gè)或多個(gè)近義詞中選擇在特定語料庫中的頻率高于預(yù)定閾值的至少一個(gè)近義詞,作為該擴(kuò)展查詢?cè)~的替換查詢?cè)~。
[0142]改寫生成裝置基于各個(gè)在特定語料庫中的頻率低于預(yù)定閾值的擴(kuò)展查詢?cè)~及其對(duì)應(yīng)的至少一個(gè)替換查詢?cè)~,生成所述查詢改寫信息。
[0143]例如,對(duì)于需要被改寫的擴(kuò)展查詢?cè)~queryj,改寫裝置通過查詢預(yù)定的改寫詞典,得到該改寫詞典中與query_l對(duì)應(yīng)的替換查詢?cè)~query_2,從而將query_l改寫為query_2。
[0144]根據(jù)本優(yōu)選實(shí)施方案,可在諸如用于生成詩歌的系統(tǒng)等特定系統(tǒng)中,對(duì)不適合出現(xiàn)在特定系統(tǒng)中的擴(kuò)展關(guān)鍵詞進(jìn)行改寫,進(jìn)一步提升了所擴(kuò)展的關(guān)鍵詞的準(zhǔn)確性。
[0145]本發(fā)明的軟件程序可以通過處理器執(zhí)行以實(shí)現(xiàn)上文所述步驟或功能。同樣地,本發(fā)明的軟件程序(包括相關(guān)的數(shù)據(jù)結(jié)構(gòu))可以被存儲(chǔ)到計(jì)算機(jī)可讀記錄介質(zhì)中,例如,RAM存儲(chǔ)器,磁或光驅(qū)動(dòng)器或軟磁盤及類似設(shè)備。另外,本發(fā)明的一些步驟或功能可采用硬件來實(shí)現(xiàn),例如,作為與處理器配合從而執(zhí)行各個(gè)功能或步驟的電路。
[0146]另外,本發(fā)明的一部分可被應(yīng)用為計(jì)算機(jī)程序產(chǎn)品,例如計(jì)算機(jī)程序指令,當(dāng)其被計(jì)算機(jī)執(zhí)行時(shí),通過該計(jì)算機(jī)的操作,可以調(diào)用或提供根據(jù)本發(fā)明的方法和/或技術(shù)方案。而調(diào)用本發(fā)明的方法的程序指令,可能被存儲(chǔ)在固定的或可移動(dòng)的記錄介質(zhì)中,和/或通過廣播或其他信號(hào)承載媒體中的數(shù)據(jù)流而被傳輸,和/或被存儲(chǔ)在根據(jù)所述程序指令運(yùn)行的計(jì)算機(jī)設(shè)備的工作存儲(chǔ)器中。在此,根據(jù)本發(fā)明的一個(gè)實(shí)施例包括一個(gè)裝置,該裝置包括用于存儲(chǔ)計(jì)算機(jī)程序指令的存儲(chǔ)器和用于執(zhí)行程序指令的處理器,其中,當(dāng)該計(jì)算機(jī)程序指令被該處理器執(zhí)行時(shí),觸發(fā)該裝置運(yùn)行基于前述根據(jù)本發(fā)明的多個(gè)實(shí)施例的方法和/或技術(shù)方案。
[0147]對(duì)于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此,無論從哪一點(diǎn)來看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。此夕卜,顯然“包括”一詞不排除其他單元或步驟,單數(shù)不排除復(fù)數(shù)。系統(tǒng)權(quán)利要求中陳述的多個(gè)單元或裝置也可以由一個(gè)單元或裝置通過軟件或者硬件來實(shí)現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。
【主權(quán)項(xiàng)】
1.一種用于生成擴(kuò)展查詢?cè)~的方法,其中,所述方法包括以下步驟:-通過對(duì)一個(gè)或多個(gè)實(shí)體信息進(jìn)行搜索,獲取所述一個(gè)或多個(gè)實(shí)體信息對(duì)應(yīng)的需求相 關(guān)信息;-根據(jù)所獲取的各個(gè)實(shí)體信息及其需求相關(guān)信息,確定與各個(gè)實(shí)體信息對(duì)應(yīng)的實(shí)體擴(kuò) 展信息,以進(jìn)行存儲(chǔ)。其中,接收到用戶輸入的查詢信息時(shí),所述方法還包括以下步驟:-根據(jù)所述查詢信息和預(yù)定的實(shí)體擴(kuò)展信息,生成與該查詢信息對(duì)應(yīng)的一個(gè)或多個(gè)擴(kuò) 展查詢?cè)~。2.根據(jù)權(quán)利要求1所述的方法,其中,所述通過對(duì)一個(gè)或多個(gè)實(shí)體信息進(jìn)行搜索,獲取 所述一個(gè)或多個(gè)實(shí)體信息的需求相關(guān)信息的步驟包括以下步驟:-通過對(duì)各個(gè)實(shí)體信息進(jìn)行搜索,獲得與每個(gè)實(shí)體信息對(duì)應(yīng)的一個(gè)或多個(gè)描述信息及 各個(gè)描述信息各自的搜索頻率信息;-基于搜索頻率最高的描述信息來確定相應(yīng)的實(shí)體信息的需求相關(guān)信息。3.根據(jù)權(quán)利要求1或2所述的方法,其中,所述根據(jù)所獲取的各個(gè)實(shí)體信息及其需求相 關(guān)信息,確定與各個(gè)實(shí)體信息對(duì)應(yīng)的實(shí)體擴(kuò)展信息,以進(jìn)行存儲(chǔ)的步驟包括以下步驟:-將所述需求相關(guān)信息中的一個(gè)或多個(gè)關(guān)鍵詞作為所述實(shí)體信息的實(shí)體擴(kuò)展信息。4.根據(jù)權(quán)利要求1所述的方法,其中,所述根據(jù)所述查詢信息和預(yù)定的實(shí)體擴(kuò)展信息, 生成與該查詢信息對(duì)應(yīng)的一個(gè)或多個(gè)擴(kuò)展查詢?cè)~的步驟包括以下步驟:-從所述查詢信息中提取出一個(gè)或多個(gè)關(guān)鍵詞;-基于已存儲(chǔ)的實(shí)體擴(kuò)展信息,對(duì)所述一個(gè)或多個(gè)關(guān)鍵詞進(jìn)行擴(kuò)展,以生成一個(gè)或多個(gè) 擴(kuò)展查詢?cè)~。5.根據(jù)權(quán)利要求4所述的方法,其中,所述從所述查詢信息中提取出一個(gè)或多個(gè)關(guān)鍵詞 的步驟包括以下步驟:-從所述查詢信息中提取出一個(gè)或多個(gè)候選關(guān)鍵詞;-基于預(yù)定的選擇規(guī)則,選擇其中一個(gè)或多個(gè)關(guān)鍵詞。6.根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括以下步驟:-基于預(yù)定算法計(jì)算所獲得的一個(gè)或多個(gè)擴(kuò)展查詢?cè)~的權(quán)重信息;-基于所述算一個(gè)或多個(gè)擴(kuò)展查詢?cè)~的權(quán)重信息來進(jìn)行排序,從而選擇排序靠前的至 少一個(gè)擴(kuò)展查詢?cè)~。7.根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括以下步驟:-如果一擴(kuò)展查詢?cè)~在特定語料庫中的頻率低于預(yù)定閾值,對(duì)該擴(kuò)展查詢?cè)~進(jìn)行改寫。8.根據(jù)權(quán)利要求7所述的方法,其中,所述查詢改寫信息包括預(yù)定的可用于替換特定查 詢?cè)~的一個(gè)或多個(gè)替換查詢?cè)~,所述方法包括以下步驟:-基于所述查詢改寫信息,確定與該擴(kuò)展查詢?cè)~對(duì)應(yīng)的替換查詢?cè)~,以替換該擴(kuò)展查詢。9.根據(jù)權(quán)利要求8所述的方法,其中,所述方法通過執(zhí)行以下步驟來生成查詢?cè)~改寫信 息:-基于大量搜索用戶的搜索記錄,確定與一個(gè)或多個(gè)在特定語料庫中的頻率低于預(yù)定 閾值的擴(kuò)展查詢?cè)~對(duì)應(yīng)的一個(gè)或多個(gè)近義詞;-從一個(gè)或多個(gè)近義詞中選擇在特定語料庫中的頻率高于預(yù)定閾值的至少一個(gè)近義 詞,作為該擴(kuò)展查詢?cè)~的替換查詢?cè)~;-基于各個(gè)在特定語料庫中的頻率低于預(yù)定閾值的擴(kuò)展查詢?cè)~及其對(duì)應(yīng)的至少一個(gè)替 換查詢?cè)~,生成所述查詢改寫信息。10.根據(jù)權(quán)利要求7所述的方法,其中,所述方法包括以下步驟:-獲取特定語料庫內(nèi)與該擴(kuò)展查詢?cè)~對(duì)應(yīng)的一個(gè)或多個(gè)近義詞;-基于所述一個(gè)或多個(gè)近義詞,對(duì)該擴(kuò)展查詢?cè)~進(jìn)行改寫。11.一種用于生成擴(kuò)展查詢?cè)~的生成裝置,其中,所述生成裝置包括:用于通過對(duì)一個(gè)或多個(gè)實(shí)體信息進(jìn)行搜索,獲取所述一個(gè)或多個(gè)實(shí)體信息對(duì)應(yīng)的需求 相關(guān)信息的裝置;用于根據(jù)所獲取的各個(gè)實(shí)體信息及其需求相關(guān)信息,確定與各個(gè)實(shí)體信息對(duì)應(yīng)的實(shí)體 擴(kuò)展信息,以進(jìn)行存儲(chǔ)的裝置。其中,所述生成裝置還包括:用于根據(jù)所述查詢信息和預(yù)定的實(shí)體擴(kuò)展信息,獲得與該查詢信息對(duì)應(yīng)的一個(gè)或多個(gè) 擴(kuò)展查詢?cè)~的裝置。12.根據(jù)權(quán)利要求11所述的生成裝置,其中,所述用于通過對(duì)一個(gè)或多個(gè)實(shí)體信息進(jìn)行 搜索,獲取所述一個(gè)或多個(gè)實(shí)體信息的需求相關(guān)信息的裝置包括:用于通過對(duì)各個(gè)實(shí)體信息進(jìn)行搜索,獲得與每個(gè)實(shí)體信息對(duì)應(yīng)的一個(gè)或多個(gè)描述信息 及各個(gè)描述信息各自的搜索頻率信息的裝置;用于基于搜索頻率最高的描述信息來確定相應(yīng)的實(shí)體信息的需求相關(guān)信息的裝置。13.根據(jù)權(quán)利要求11或12所述的生成裝置,其中,所述用于根據(jù)所獲取的各個(gè)實(shí)體信息 及其需求相關(guān)信息,確定與各個(gè)實(shí)體信息對(duì)應(yīng)的實(shí)體擴(kuò)展信息,以進(jìn)行存儲(chǔ)的裝置用于:-將所述需求相關(guān)信息中的一個(gè)或多個(gè)關(guān)鍵詞作為所述實(shí)體信息的實(shí)體擴(kuò)展信息。14.根據(jù)權(quán)利要求11所述的生成裝置,其中,所述用于根據(jù)所獲取的各個(gè)實(shí)體信息及其 需求相關(guān)信息,確定與各個(gè)實(shí)體信息對(duì)應(yīng)的實(shí)體擴(kuò)展信息,以進(jìn)行存儲(chǔ)的裝置包括:用于從所述查詢信息中提取出一個(gè)或多個(gè)關(guān)鍵詞的裝置;用于基于已存儲(chǔ)的實(shí)體擴(kuò)展信息,對(duì)所述一個(gè)或多個(gè)關(guān)鍵詞進(jìn)行擴(kuò)展,以生成一個(gè)或 多個(gè)擴(kuò)展查詢?cè)~。15.根據(jù)權(quán)利要求14所述的生成裝置,其中,所述用于從所述查詢信息中提取出一個(gè)或 多個(gè)關(guān)鍵詞的裝置包括:用于從所述查詢信息中提取出一個(gè)或多個(gè)候選關(guān)鍵詞的裝置;用于基于預(yù)定的選擇規(guī)則,選擇其中一個(gè)或多個(gè)關(guān)鍵詞的裝置。16.根據(jù)權(quán)利要求11所述的生成裝置,其中,所述生成裝置還包括:用于基于預(yù)定算法計(jì)算所獲得的一個(gè)或多個(gè)擴(kuò)展查詢?cè)~的權(quán)重信息的裝置;用于基于所述算一個(gè)或多個(gè)擴(kuò)展查詢?cè)~的權(quán)重信息來進(jìn)行排序,從而選擇排序靠前的 至少一個(gè)擴(kuò)展查詢?cè)~的裝置。17.根據(jù)權(quán)利要求11所述的生成裝置,其中,所述生成裝置還包括:用于如果一擴(kuò)展查詢?cè)~在特定語料庫中的頻率低于預(yù)定閾值,對(duì)該擴(kuò)展查詢?cè)~進(jìn)行改 寫的裝置。18.根據(jù)權(quán)利要求17所述的生成裝置,其中,所述查詢改寫信息包括預(yù)定的可用于替換 特定查詢?cè)~的一個(gè)或多個(gè)替換查詢?cè)~,所述生成裝置包括:用于基于所述查詢改寫信息,確定與該擴(kuò)展查詢?cè)~對(duì)應(yīng)的替換查詢?cè)~,以替換該擴(kuò)展 查詢?cè)~的裝置。19.根據(jù)權(quán)利要求18所述的生成裝置,其中,所述生成裝置包括:用于基于大量搜索用戶的搜索記錄,確定與一個(gè)或多個(gè)在特定語料庫中的頻率低于預(yù) 定閾值的擴(kuò)展查詢?cè)~對(duì)應(yīng)的一個(gè)或多個(gè)近義詞的裝置;用于從一個(gè)或多個(gè)近義詞中選擇在特定語料庫中的頻率高于預(yù)定閾值的至少一個(gè)近 義詞,作為該擴(kuò)展查詢?cè)~的替換查詢?cè)~的裝置;用于基于各個(gè)在特定語料庫中的頻率低于預(yù)定閾值的擴(kuò)展查詢?cè)~及其對(duì)應(yīng)的至少一 個(gè)替換查詢?cè)~,生成所述查詢改寫信息的裝置。20.根據(jù)權(quán)利要求17所述的的裝置,其中,所述方的裝置包括:用于獲取特定語料庫內(nèi)與該擴(kuò)展查詢?cè)~對(duì)應(yīng)的一個(gè)或多個(gè)近義詞的裝置;用于基于所述一個(gè)或多個(gè)近義詞,對(duì)該擴(kuò)展查詢?cè)~進(jìn)行改寫的裝置。
【文檔編號(hào)】G06F17/30GK106095912SQ201610405084
【公開日】2016年11月9日
【申請(qǐng)日】2016年6月8日
【發(fā)明人】伍海洋, 和為, 李偉, 王哲, 胡曉光, 何中軍, 吳華, 王海峰
【申請(qǐng)人】北京百度網(wǎng)訊科技有限公司