專利名稱:檢索方法和裝置的制作方法
檢索方法和裝置技術(shù)領(lǐng)域
本申請(qǐng)涉及網(wǎng)絡(luò)數(shù)據(jù)處理領(lǐng)域,特別涉及一種檢索方法和裝置。
技術(shù)背景
搜索引擎(karch engine)已經(jīng)成為互聯(lián)網(wǎng)領(lǐng)域用戶獲得信息的一種常用手段。 從用戶的角度看,搜索引擎提供一個(gè)頁面,用戶在頁面輸入關(guān)鍵詞語,提交給搜索引擎后, 搜索引擎就會(huì)返回跟用戶輸入的內(nèi)容相關(guān)的信息。用戶輸入的關(guān)鍵詞語可以成為查詢數(shù) 據(jù),即是用戶通過查詢數(shù)據(jù)來查詢自己感興趣的相關(guān)內(nèi)容。其中,在電子商務(wù)領(lǐng)域,用戶輸 入的查詢數(shù)據(jù)有一個(gè)對(duì)應(yīng)的類目,例如,運(yùn)動(dòng)、娛樂等。
對(duì)于搜索引擎來講,如果能通過用戶的查詢數(shù)據(jù),在進(jìn)行檢索之前,準(zhǔn)確識(shí)別查詢 數(shù)據(jù)對(duì)應(yīng)的類目,并在該類目中檢索查詢數(shù)據(jù),則不僅準(zhǔn)確的縮小了搜索范圍,還能夠更加 準(zhǔn)確地向用戶推薦相關(guān)產(chǎn)品。在現(xiàn)有技術(shù)中,有實(shí)現(xiàn)分類檢索方法主要采取查表的方式,即 在后臺(tái)人工構(gòu)建一個(gè)查詢數(shù)據(jù)與行業(yè)類目的映射表,例如表1。
權(quán)利要求
1.一種檢索方法,其特征在于,該方法包括接收客戶端提交的當(dāng)前查詢數(shù)據(jù);提取所述當(dāng)前查詢數(shù)據(jù)的總屬性特征,所述屬性特征用于計(jì)算所述當(dāng)前查詢數(shù)據(jù)與每 個(gè)類目的置信度;根據(jù)所述總屬性特征,計(jì)算獲取所述當(dāng)前查詢數(shù)據(jù)與每個(gè)類目對(duì)應(yīng)的置信度,所述置 信度用于表示所述當(dāng)前查詢數(shù)據(jù)屬于某一個(gè)類目的可信程度;向客戶端返回所述每個(gè)類目及對(duì)應(yīng)的置信度;在客戶端根據(jù)所述置信度進(jìn)行選擇的類目中對(duì)所述當(dāng)前查詢數(shù)據(jù)進(jìn)行檢索,并將檢索 結(jié)果返回給客戶端。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述總屬性特征具體包括詞一級(jí)特征、 句法特征、語義特征、點(diǎn)擊特征、篩選特征和會(huì)話特征;所述詞一級(jí)特征為所述當(dāng)前查詢數(shù) 據(jù)中的關(guān)鍵詞,所述句法特征為所述當(dāng)前查詢數(shù)據(jù)中的中心詞所對(duì)應(yīng)的詞根,所述語義特 征為所述關(guān)鍵詞對(duì)應(yīng)的語義標(biāo)簽,所述點(diǎn)擊特征為所述當(dāng)前查詢數(shù)據(jù)在預(yù)置的點(diǎn)擊日志中 對(duì)應(yīng)的至少一個(gè)點(diǎn)擊類目,所述篩選特征為所述當(dāng)前查詢數(shù)據(jù)在預(yù)置的篩選日志中對(duì)應(yīng)的 至少一個(gè)篩選類目,所述會(huì)話特征用于表示在同一個(gè)會(huì)話中,所述當(dāng)前查詢數(shù)據(jù)對(duì)的前一 個(gè)查詢對(duì)應(yīng)的最優(yōu)類目。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述詞一級(jí)特征、句法特征、語 義特征、點(diǎn)擊特征、篩選特征和會(huì)話特征,計(jì)算獲取所述當(dāng)前查詢數(shù)據(jù)的類目及其對(duì)應(yīng)的置 信度,具體包括將所述詞一級(jí)特征、句法特征、語義特征、點(diǎn)擊特征、篩選特征和會(huì)話特征,作為條件概 率模型的給定信息;采用條件概率模型計(jì)算在所述給定信息的情況下,所述當(dāng)前查詢?cè)诿總€(gè)類目下的后驗(yàn) 概率;并將所述后驗(yàn)概率作為當(dāng)前查詢數(shù)據(jù)的在該類目下的置信度。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述向用戶返回所述每個(gè)類目及所述每 個(gè)類目對(duì)應(yīng)的置信度之前,還包括判斷所述計(jì)算獲取的置信度是否大于預(yù)置的第一閾值;如果是,則獲取所述大于所述閾值的置信度以及所述置信度對(duì)應(yīng)的類目;則所述向用戶返回所述每個(gè)類目及所述每個(gè)類目對(duì)應(yīng)的置信度,具體包括向用戶返回所述大于所述閾值的置信度以及所述置信度對(duì)應(yīng)的類目。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述判斷所述計(jì)算獲取的置信度是否大 于預(yù)置的第一閾值之后,還包括當(dāng)計(jì)算獲取的所有類目的置信度均小于所述第一閾值,則從所有置信度中直接獲取預(yù) 定個(gè)數(shù)的相對(duì)較大的置信度以及對(duì)應(yīng)的類目。
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述提取所述當(dāng)前查詢數(shù)據(jù)的句法特征, 具體包括對(duì)所述當(dāng)前查詢數(shù)據(jù)中的關(guān)鍵詞進(jìn)行詞性標(biāo)注和短語識(shí)別;從前述標(biāo)注和識(shí)別的結(jié)果中獲取所述當(dāng)前查詢數(shù)據(jù)中的名詞短語,并抽取出所述名詞 短語的中心詞;通過詞根抽取工具獲取所述中心詞的詞根。
7.根據(jù)權(quán)利要求2所述的方法,其特征在于,提取所述當(dāng)前查詢數(shù)據(jù)的語義特征,具體 包括對(duì)所述當(dāng)前查詢數(shù)據(jù)的關(guān)鍵詞進(jìn)行類型標(biāo)識(shí);根據(jù)所述類型標(biāo)識(shí)獲取所述關(guān)鍵詞的意動(dòng)詞標(biāo)簽、產(chǎn)品標(biāo)簽、品牌標(biāo)簽、型號(hào)標(biāo)簽和/ 或其他標(biāo)簽。
8.根據(jù)權(quán)利要求2所述的方法,其特征在于,提取所述當(dāng)前查詢數(shù)據(jù)的點(diǎn)擊特征,具體 包括判斷在預(yù)置的點(diǎn)擊日志中是否存在所述當(dāng)前查詢數(shù)據(jù),所述點(diǎn)擊日志用于保存查詢數(shù) 據(jù)與點(diǎn)擊特征的對(duì)應(yīng)關(guān)系;如果是,則在預(yù)置的點(diǎn)擊日志中獲取當(dāng)前查詢數(shù)據(jù)對(duì)應(yīng)的前預(yù)定個(gè)數(shù)的點(diǎn)擊類目;所 述點(diǎn)擊類目為用戶在檢索該查詢數(shù)據(jù)之后點(diǎn)擊的相應(yīng)產(chǎn)品所屬的類目;如果否,則在點(diǎn)擊日志中查詢與所述當(dāng)前查詢數(shù)據(jù)最接近的點(diǎn)擊查詢數(shù)據(jù),所述點(diǎn)擊 查詢數(shù)據(jù)與所述當(dāng)前查詢數(shù)據(jù)的編輯距離在點(diǎn)擊日志中最??;并將所述點(diǎn)擊查詢數(shù)據(jù)的對(duì) 應(yīng)的前預(yù)定個(gè)數(shù)的類目作為所述當(dāng)前查詢數(shù)據(jù)的點(diǎn)擊特征。
9.根據(jù)權(quán)利要求2所述的方法,其特征在于,提取所述當(dāng)前查詢數(shù)據(jù)的篩選特征,具體 包括判斷在預(yù)置的篩選日志中是否存在所述當(dāng)前查詢數(shù)據(jù),所述篩選日志用于保存查詢數(shù) 據(jù)與篩選特征的對(duì)應(yīng)關(guān)系;如果是,則在預(yù)置的篩選日志中獲取當(dāng)前查詢數(shù)據(jù)對(duì)應(yīng)的前預(yù)定個(gè)數(shù)的篩選類目;所 述篩選類目表示所述當(dāng)前查詢數(shù)據(jù)在搜索引擎的映射表中所關(guān)聯(lián)的類目;如果否,則在篩選日志中查詢與所述當(dāng)前查詢數(shù)據(jù)最接近的篩選查詢數(shù)據(jù),所述篩選 查詢數(shù)據(jù)與所述當(dāng)前查詢數(shù)據(jù)的編輯距離在篩選日志中最?。徊⑺龊Y選查詢數(shù)據(jù)的對(duì) 應(yīng)的前預(yù)定個(gè)數(shù)的類目作為所述當(dāng)前查詢數(shù)據(jù)的篩選特征。
10.根據(jù)權(quán)利要求2所述的方法,其特征在于,提取所述當(dāng)前查詢數(shù)據(jù)的會(huì)話特征,具 體包括在同一個(gè)會(huì)話中,獲取所述當(dāng)前查詢數(shù)據(jù)的上一個(gè)查詢數(shù)據(jù); 獲取到所述上一個(gè)查詢數(shù)據(jù)對(duì)應(yīng)的最優(yōu)分類結(jié)果所屬的類目,并以所述最優(yōu)分類結(jié)果 所屬的類目為所述當(dāng)前查詢數(shù)據(jù)的會(huì)話特征。
11.一種檢索方法,其特征在于,該方法包括 接收客戶端提交的當(dāng)前查詢數(shù)據(jù);提取所述當(dāng)前查詢數(shù)據(jù)的總屬性特征,所述屬性特征用于計(jì)算所述當(dāng)前查詢數(shù)據(jù)的置信度;根據(jù)所述總屬性特征,計(jì)算獲取所述當(dāng)前查詢數(shù)據(jù)與每個(gè)類目對(duì)應(yīng)的置信度,所述置 信度用于表示所述當(dāng)前查詢數(shù)據(jù)屬于某一個(gè)類目的可信程度;在計(jì)算得到的最大的置信度對(duì)應(yīng)的類目中,對(duì)所述當(dāng)前查詢數(shù)據(jù)進(jìn)行檢索,并將檢索 結(jié)果返回給客戶端。
12.一種檢索裝置,其特征在于,該裝置包括 接收模塊,用于接收客戶端提交的當(dāng)前查詢數(shù)據(jù);提取模塊,用于提取所述當(dāng)前查詢數(shù)據(jù)的總屬性特征,所述屬性特征用于計(jì)算所述當(dāng)前查詢數(shù)據(jù)的置信度;計(jì)算獲取模塊,用于根據(jù)所述總屬性特征,計(jì)算獲取所述當(dāng)前查詢數(shù)據(jù)與每個(gè)類目對(duì) 應(yīng)的置信度,所述置信度用于表示所述當(dāng)前查詢數(shù)據(jù)屬于某一個(gè)類目的可信程度; 返回模塊,用于向客戶端返回所述每個(gè)類目及對(duì)應(yīng)的置信度; 第一檢索模塊,用于在客戶端根據(jù)所述置信度進(jìn)行選擇的類目中對(duì)所述當(dāng)前查詢數(shù)據(jù) 進(jìn)行檢索。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述提取模塊具體用于提取所述當(dāng)前 查詢數(shù)據(jù)的詞一級(jí)特征、句法特征、語義特征、點(diǎn)擊特征、篩選特征和會(huì)話特征;所述詞一級(jí) 特征為所述當(dāng)前查詢數(shù)據(jù)中的關(guān)鍵詞,所述句法特征為所述當(dāng)前查詢數(shù)據(jù)中的中心詞所對(duì) 應(yīng)的詞根,所述語義特征為所述關(guān)鍵詞對(duì)應(yīng)的語義標(biāo)簽,所述點(diǎn)擊特征為所述當(dāng)前查詢數(shù) 據(jù)在預(yù)置的點(diǎn)擊日志中對(duì)應(yīng)的至少一個(gè)點(diǎn)擊類目,所述篩選特征為所述當(dāng)前查詢數(shù)據(jù)在預(yù) 置的篩選日志中對(duì)應(yīng)的至少一個(gè)篩選類目,所述會(huì)話特征用于表示在同一個(gè)會(huì)話中,所述 當(dāng)前查詢數(shù)據(jù)對(duì)的前一個(gè)查詢對(duì)應(yīng)的最優(yōu)類目。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述計(jì)算獲取模塊具體包括設(shè)置給定信息子模塊,用于將所述詞一級(jí)特征、句法特征、語義特征、點(diǎn)擊特征、篩選特 征和會(huì)話特征,作為條件概率模型的給定信息;計(jì)算置信度子模塊,用于采用條件概率模型計(jì)算在所述給定信息的情況下,所述當(dāng)前 查詢?cè)诿總€(gè)類目下的后驗(yàn)概率;并將所述后驗(yàn)概率作為當(dāng)前查詢數(shù)據(jù)的在該類目下的置信 度。
15.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述裝置還包括 第一判斷模塊,用于判斷所述計(jì)算獲取的置信度是否大于預(yù)置的第一閾值;第一獲取模塊,用于當(dāng)所述第一判斷模塊的結(jié)果為是時(shí),獲取所述大于所述閾值的置 信度以及所述置信度對(duì)應(yīng)的類目;則所述返回模塊,具體用于向用戶返回所述大于所述閾值的置信度以及所述置信度 對(duì)應(yīng)的類目。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述裝置還包括第二獲取模塊,用于當(dāng)計(jì)算獲取的所有類目的置信度均小于所述第一閾值,則從所有 置信度中直接獲取預(yù)定個(gè)數(shù)的相對(duì)較大的置信度以及對(duì)應(yīng)的類目。
17.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述提取模塊具體包括標(biāo)注識(shí)別子模塊,用于對(duì)所述當(dāng)前查詢數(shù)據(jù)中的關(guān)鍵詞進(jìn)行詞性標(biāo)注和短語識(shí)別; 抽取中心詞子模塊,用于從前述標(biāo)注和識(shí)別的結(jié)果中獲取所述當(dāng)前查詢數(shù)據(jù)中的名詞 短語,并抽取出所述名詞短語的中心詞;詞根抽取工具,用于獲取所述中心詞的詞根。
18.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述提取模塊具體包括 類型標(biāo)識(shí)子模塊,用于對(duì)所述當(dāng)前查詢數(shù)據(jù)的關(guān)鍵詞進(jìn)行類型標(biāo)識(shí);獲取標(biāo)簽子模塊,用于根據(jù)所述類型標(biāo)識(shí)獲取所述關(guān)鍵詞的意動(dòng)詞標(biāo)簽、產(chǎn)品標(biāo)簽、品 牌標(biāo)簽、型號(hào)標(biāo)簽和/或其他標(biāo)簽。
19.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述提取模塊具體包括第一判斷子模塊,用于判斷在預(yù)置的點(diǎn)擊日志中是否存在所述當(dāng)前查詢數(shù)據(jù),所述點(diǎn)擊日志用于保存查詢數(shù)據(jù)與點(diǎn)擊特征的對(duì)應(yīng)關(guān)系;第一獲取子模塊,用于當(dāng)所述第一判斷子模塊的結(jié)果為是時(shí),在預(yù)置的點(diǎn)擊日志中獲 取當(dāng)前查詢數(shù)據(jù)對(duì)應(yīng)的前預(yù)定個(gè)數(shù)的點(diǎn)擊類目;所述點(diǎn)擊類目為用戶在檢索該查詢數(shù)據(jù)之 后點(diǎn)擊的相應(yīng)產(chǎn)品所屬的類目;第一查詢獲取子模塊,用于當(dāng)所述第一判斷子模塊的結(jié)果為否時(shí),在點(diǎn)擊日志中查詢 與所述當(dāng)前查詢數(shù)據(jù)最接近的點(diǎn)擊查詢數(shù)據(jù),所述點(diǎn)擊查詢數(shù)據(jù)與所述當(dāng)前查詢數(shù)據(jù)的編 輯距離在點(diǎn)擊日志中最??;并將所述點(diǎn)擊查詢數(shù)據(jù)的對(duì)應(yīng)的前預(yù)定個(gè)數(shù)的類目作為所述當(dāng) 前查詢數(shù)據(jù)的點(diǎn)擊特征。
20.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述提取模塊具體包括第二判斷子模塊,用于判斷在預(yù)置的篩選日志中是否存在所述當(dāng)前查詢數(shù)據(jù),所述篩 選日志用于保存查詢數(shù)據(jù)與篩選特征的對(duì)應(yīng)關(guān)系;第二獲取子模塊,用于當(dāng)所述第二判斷子模塊的結(jié)果為是時(shí),在預(yù)置的篩選日志中獲 取當(dāng)前查詢數(shù)據(jù)對(duì)應(yīng)的前預(yù)定個(gè)數(shù)的篩選類目;所述篩選類目表示所述當(dāng)前查詢數(shù)據(jù)在搜 索引擎的映射表中所關(guān)聯(lián)的類目;第二查詢獲取子模塊,用于當(dāng)所述第二判斷子模塊的結(jié)果為否時(shí),在篩選日志中查詢 與所述當(dāng)前查詢數(shù)據(jù)最接近的篩選查詢數(shù)據(jù),所述篩選查詢數(shù)據(jù)與所述當(dāng)前查詢數(shù)據(jù)的編 輯距離在篩選日志中最?。徊⑺龊Y選查詢數(shù)據(jù)的對(duì)應(yīng)的前預(yù)定個(gè)數(shù)的類目作為所述當(dāng) 前查詢數(shù)據(jù)的篩選特征。
21.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述提取模塊具體包括第三獲取子模塊,用于在同一個(gè)會(huì)話中,獲取所述當(dāng)前查詢數(shù)據(jù)的上一個(gè)查詢數(shù)據(jù); 第四獲取子模塊,用于獲取到所述上一個(gè)查詢數(shù)據(jù)對(duì)應(yīng)的最優(yōu)分類結(jié)果所屬的類目, 并以所述最優(yōu)分類結(jié)果所屬的類目為所述當(dāng)前查詢數(shù)據(jù)的會(huì)話特征。
22.一種檢索裝置,其特征在于,該裝置包括 接收模塊,用于接收客戶端提交的當(dāng)前查詢數(shù)據(jù);提取模塊,用于提取所述當(dāng)前查詢數(shù)據(jù)的總屬性特征,所述屬性特征用于計(jì)算所述當(dāng) 前查詢數(shù)據(jù)的置信度;計(jì)算獲取模塊,用于根據(jù)所述總屬性特征,計(jì)算獲取所述當(dāng)前查詢數(shù)據(jù)與每個(gè)類目對(duì) 應(yīng)的置信度,所述置信度用于表示所述當(dāng)前查詢數(shù)據(jù)屬于某一個(gè)類目的可信程度;第二檢索模塊,用于在計(jì)算得到的最大的置信度對(duì)應(yīng)的類目中,對(duì)所述當(dāng)前查詢數(shù)據(jù) 進(jìn)行檢索。
全文摘要
本申請(qǐng)?zhí)峁┝艘环N檢索方法、裝置和系統(tǒng),所述方法包括接收客戶端提交的當(dāng)前查詢數(shù)據(jù);提取所述當(dāng)前查詢數(shù)據(jù)的總屬性特征,所述總屬性特征可以包括詞一級(jí)特征、句法特征、語義特征、點(diǎn)擊特征、篩選特征和會(huì)話特征;根據(jù)所述詞一級(jí)特征、句法特征、語義特征、點(diǎn)擊特征、篩選特征和會(huì)話特征,計(jì)算獲取所述當(dāng)前查詢數(shù)據(jù)與每個(gè)類目對(duì)應(yīng)的置信度,所述置信度用于表示所述當(dāng)前查詢數(shù)據(jù)屬于某一個(gè)類目的可信程度;向客戶端返回所述每個(gè)類目及對(duì)應(yīng)的置信度;在客戶端根據(jù)所述置信度進(jìn)行選擇的類目中對(duì)所述當(dāng)前查詢數(shù)據(jù)進(jìn)行檢索,并將檢索結(jié)果返回給客戶端。在本申請(qǐng)中,對(duì)用戶的查詢數(shù)據(jù)覆蓋率可以顯著提升,更進(jìn)一步的,提升搜索引擎服務(wù)器的性能。
文檔編號(hào)G06F17/30GK102033877SQ20091017506
公開日2011年4月27日 申請(qǐng)日期2009年9月27日 優(yōu)先權(quán)日2009年9月27日
發(fā)明者康戰(zhàn)輝, 林鋒, 黃鵬 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司