專利名稱:詞項加權(quán)函數(shù)確定及基于該函數(shù)進(jìn)行搜索的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本申請涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種詞項加權(quán)函數(shù)確定及基于該函數(shù)進(jìn)行搜索的方法及裝置。
背景技術(shù):
在電子商務(wù)領(lǐng)域中,詞項加權(quán)技術(shù)在智能搜索中具有廣泛的應(yīng)用,當(dāng)搜索引擎接收到用戶輸入的查詢關(guān)鍵詞后,根據(jù)該查詢關(guān)鍵詞可以匹配非常多的產(chǎn)品描述信息,按照每個產(chǎn)品描述信息與用戶輸入的查詢關(guān)鍵詞的相關(guān)性,對每個產(chǎn)品描述信息進(jìn)行排序是影響搜索引擎質(zhì)量的核心因素。用戶輸入的查詢關(guān)鍵詞以及每個產(chǎn)品描述信息是由多個詞項構(gòu)成的,因此可以表征為詞項的集合,用戶輸入的查詢關(guān)鍵詞以及每個產(chǎn)品描述信息的相關(guān)性程度,可以通過產(chǎn)品描述信息中每個詞項與用戶輸入的查詢關(guān)鍵詞中每個詞項的匹配重要程度來確定,因此一個精確的詞項加權(quán)模型是提高用戶搜索產(chǎn)品質(zhì)量的基礎(chǔ)及關(guān)鍵。對于一個給定的語言文本語句或語段,詞項加權(quán)模型可以評測每個詞項在表示該語言文本語句或語段內(nèi)容上的重要性。詞項加權(quán)模型可以廣泛應(yīng)用于電子商務(wù)搜索各種相關(guān)應(yīng)用中,例如,搜索結(jié)果排序、查詢改寫、相關(guān)查詢推薦和搜索廣告匹配等。目前一般通過某一詞項在每個產(chǎn)品描述信息中出現(xiàn)的頻率進(jìn)行詞項分析,確定搜索結(jié)果,但是由于電子商務(wù)技術(shù)領(lǐng)域中產(chǎn)品描述信息一般較短,即其包含的詞項一般較少,單單根據(jù)每個詞項出現(xiàn)的頻率很難準(zhǔn)確的確定搜索結(jié)果?;蛘撸诂F(xiàn)有技術(shù)中也可以根據(jù)每個詞項出現(xiàn)的頻率,及人工對每個詞項進(jìn)行加權(quán)處理實現(xiàn)詞項分析,但是該方法需要人工根據(jù)每個詞項的重要性進(jìn)行加權(quán)處理,對人工的要求很高,并且由于人工根據(jù)自己的經(jīng)驗對每個詞項進(jìn)行加權(quán)處理,很難保證在詞項分析的過程中不出現(xiàn)錯誤,另外當(dāng)每個產(chǎn)品的對應(yīng)的類目發(fā)生變化時,還需要人工重新學(xué)習(xí)相應(yīng)的規(guī)則,無法實現(xiàn)靈活擴(kuò)展。
發(fā)明內(nèi)容
有鑒于此,本申請實施例提供一種詞項加權(quán)函數(shù)確定及基于該函數(shù)進(jìn)行搜索的方法及裝置,用以解決現(xiàn)有詞項加權(quán)函數(shù)的確定不準(zhǔn)確,擴(kuò)展不靈活,以及導(dǎo)致的搜索結(jié)果不準(zhǔn)確的問題。本申請實施例提供的一種詞項加權(quán)函數(shù)的確定方法,包括服務(wù)器獲取數(shù)據(jù)庫中保存的查詢點擊日志信息,其中該查詢點擊日志信息中記錄有設(shè)定時間長度內(nèi)每個用戶發(fā)送的查詢關(guān)鍵詞,以及該用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息;針對用戶發(fā)送的查詢關(guān)鍵詞中的相應(yīng)詞項,及用戶對返回的對應(yīng)該查詢關(guān)鍵詞的信息點擊的產(chǎn)品描述信息,執(zhí)行以下步驟根據(jù)該查詢關(guān)鍵詞中的相應(yīng)詞項,確定該相應(yīng)詞項與點擊的產(chǎn)品描述信息中產(chǎn)品標(biāo)題信息中其他詞項的重要性關(guān)系,生成訓(xùn)練詞項加權(quán)函數(shù)的詞項序?qū)颖緮?shù)據(jù),對該點擊的產(chǎn)品描述信息中產(chǎn)品標(biāo)題信息中的相應(yīng)詞項,按照設(shè)置的至少一種特征表示方式,確定該相應(yīng)詞項針對每種特征表示方式的特征表示向量,根據(jù)生成的詞項加權(quán)函數(shù)的樣本數(shù)據(jù),以及確定的特征向量,采用排序?qū)W習(xí)的方法對預(yù)設(shè)的詞項加權(quán)函數(shù)進(jìn)行學(xué)習(xí),確定進(jìn)行詞項分析的詞項加權(quán)函數(shù)。本申請實施例提供的一種基于上述詞項加權(quán)函數(shù)確定方法進(jìn)行搜索的方法,包括
服務(wù)器根據(jù)獲取的用戶基于客戶端輸入的查詢關(guān)鍵詞,確定該查詢關(guān)鍵詞對應(yīng)的查詢結(jié)果信息;在該查詢結(jié)果信息中,根據(jù)進(jìn)行詞項分析的詞項加權(quán)函數(shù)采用的特征表示向量,采用相應(yīng)的特征表示方式,確定相應(yīng)產(chǎn)品描述信息的產(chǎn)品標(biāo)題信息包含的詞項對應(yīng)該相應(yīng)特征表示方式的特征表示向量;根據(jù)該特征表示向量,以及該進(jìn)行詞項分析的詞項加權(quán)函數(shù),確定相應(yīng)詞項的分值;根據(jù)確定的相應(yīng)產(chǎn)品標(biāo)題信息中詞項的總分值的大小,將所述產(chǎn)品描述信息進(jìn)行排序,將排序后的產(chǎn)品描述信息提供給所述用戶。本申請實施例提供的一種詞項加權(quán)函數(shù)的確定裝置,包括獲取模塊,用于獲取數(shù)據(jù)庫中保存的查詢點擊日志信息,其中該查詢點擊日志信息中記錄有設(shè)定時間長度內(nèi)每個用戶發(fā)送的查詢關(guān)鍵詞,以及該用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息;加權(quán)分值確定模塊,用于針對用戶發(fā)送的查詢關(guān)鍵詞中的相應(yīng)詞項,及用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息,執(zhí)行以下步驟根據(jù)該查詢關(guān)鍵詞中的相應(yīng)詞項,確定該相應(yīng)詞項與點擊的產(chǎn)品描述信息中產(chǎn)品標(biāo)題信息中其他詞項的重要性關(guān)系,生成訓(xùn)練詞項加權(quán)函數(shù)的詞項序?qū)颖緮?shù)據(jù),對該點擊的產(chǎn)品描述信息中產(chǎn)品標(biāo)題信息中的相應(yīng)詞項,按照設(shè)置的至少一種特征表示方式,確定該相應(yīng)詞項針對每種特征表示方式的特征表示向量;排序?qū)W習(xí)模塊,用于根據(jù)生成的詞項加權(quán)函數(shù)的樣本數(shù)據(jù),以及確定的特征向量,采用排序?qū)W習(xí)的方法對預(yù)設(shè)的詞項加權(quán)函數(shù)進(jìn)行學(xué)習(xí),確定進(jìn)行詞項分析的詞項加權(quán)函數(shù)。本申請實施例提供的一種基于上述詞項加權(quán)函數(shù)確定裝置進(jìn)行搜索的裝置,包括查詢結(jié)果確定模塊,用于根據(jù)獲取的用戶基于客戶端輸入的查詢關(guān)鍵詞,確定該查詢關(guān)鍵詞對應(yīng)的查詢結(jié)果信息;特征向量確定模塊,用于在該查詢結(jié)果信息中,根據(jù)進(jìn)行詞項分析的詞項加權(quán)函數(shù)采用的特征表示向量,采用相應(yīng)的特征表示方式,確定相應(yīng)產(chǎn)品描述信息的產(chǎn)品標(biāo)題信息包含的詞項對應(yīng)該相應(yīng)特征表示方式的特征表示向量;分析提供模塊,用于根據(jù)該特征表示向量,以及該進(jìn)行詞項分析的詞項加權(quán)函數(shù),確定相應(yīng)詞項的分值,根據(jù)確定的相應(yīng)產(chǎn)品標(biāo)題信息中詞項的總分值的大小,將所述產(chǎn)品描述信息進(jìn)行排序,將排序后的產(chǎn)品描述信息提供給所述用戶。本申請實施例提供了一種詞項加權(quán)函數(shù)確定及基于該函數(shù)進(jìn)行搜索的方法及裝置,該方法中,服務(wù)器根據(jù)數(shù)據(jù)庫中保存的查詢點擊日志信息,確定查詢關(guān)鍵詞中的相應(yīng)詞項與點擊的產(chǎn)品描述信息中產(chǎn)品標(biāo)題信息中相應(yīng)其他詞項的重要性關(guān)系,生成訓(xùn)練詞項加權(quán)函數(shù)的詞項序?qū)颖緮?shù)據(jù),并根據(jù)設(shè)置的至少一種特征表示方式,確定相應(yīng)詞項針對每種特征表示方式的特征表示向量,根據(jù)生成的詞項加權(quán)函數(shù)的樣本數(shù)據(jù),以及確定的特征向量,采用排序?qū)W習(xí)的方法對預(yù)設(shè)的詞項加權(quán)函數(shù)進(jìn)行學(xué)習(xí),確定進(jìn)行詞項分析的詞項加權(quán)函數(shù)。由于在本申請實施例中根據(jù)保存的查詢點擊日志信息中每個詞項間的重要性關(guān)系,生成訓(xùn)練詞項加權(quán)函數(shù)的詞項序?qū)颖緮?shù)據(jù),以及每個詞項對應(yīng)的特征表示向量,采用排序?qū)W習(xí)方法確定詞項加權(quán)函數(shù),從而可以保證確定的詞項加權(quán)函數(shù)的準(zhǔn)確性,另外本申請實現(xiàn)方案中排序?qū)W習(xí)所依賴的樣本數(shù)據(jù)完全是自動生成的,因此其可擴(kuò)展性比較高
圖I為本申請實施例提供的進(jìn)行詞項加權(quán)函數(shù)確定的系統(tǒng)結(jié)構(gòu)示意圖;圖2為本申請實施例提供的進(jìn)行詞項加權(quán)函數(shù)確定的過程;圖3為本申請實施例提供的詞項加權(quán)函數(shù)的詳細(xì)確定過程;圖4為本申請實施例提供的一種基于確定的詞項加權(quán)函數(shù)進(jìn)行搜索的過程;圖5為本申請實施例提供的一種詞項加權(quán)函數(shù)確定裝置的結(jié)構(gòu)示意圖;圖6為本申請實施例提供的一種基于詞項加權(quán)函數(shù)確定裝置進(jìn)行詞項搜索的裝置的結(jié)構(gòu)示意圖。
具體實施例方式本申請為了有效的提聞詞項加權(quán)函數(shù)確定的準(zhǔn)確性,以及提聞詞項加權(quán)函數(shù)確定方法的可擴(kuò)展性,提供了一種詞項加權(quán)函數(shù)的確定方法,以及基于確定的該詞項加權(quán)函數(shù)進(jìn)行搜索的方法。在本申請中進(jìn)行詞項加權(quán)函數(shù)確定的為服務(wù)器,并且服務(wù)器基于用戶通過客戶端輸入的查詢關(guān)鍵詞,以及該用戶對返回的對應(yīng)該查詢關(guān)鍵詞的信息點擊的產(chǎn)品描述信息,進(jìn)行詞項加權(quán)函數(shù)的生成。下面結(jié)合說明書附圖,對本申請實施例進(jìn)行詳細(xì)說明。圖I為本申請實施例提供的進(jìn)行詞項加權(quán)函數(shù)確定的系統(tǒng)結(jié)構(gòu)示意圖,在該系統(tǒng)中包含服務(wù)器11和客戶端12。其中,當(dāng)訓(xùn)練生成詞項加權(quán)函數(shù)時,服務(wù)器11從數(shù)據(jù)庫中獲取保存的查詢點擊日志信息,其中該查詢點擊日志信息中記錄有設(shè)定時間長度內(nèi)每個用戶發(fā)送的查詢關(guān)鍵詞,以及該用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息,針對用戶發(fā)送的查詢關(guān)鍵詞中的相應(yīng)詞項,及用戶對返回的對應(yīng)該查詢關(guān)鍵詞的信息點擊的產(chǎn)品描述信息,執(zhí)行以下步驟根據(jù)該查詢關(guān)鍵詞中的相應(yīng)詞項,確定該相應(yīng)詞項與點擊的產(chǎn)品描述信息中產(chǎn)品標(biāo)題信息中其他詞項的重要性關(guān)系,生成訓(xùn)練詞項加權(quán)函數(shù)的詞項序?qū)颖緮?shù)據(jù),對該點擊的產(chǎn)品描述信息中產(chǎn)品標(biāo)題信息中的相應(yīng)詞項,按照設(shè)置的至少一種特征表示方式,確定該相應(yīng)詞項針對每種特征表示方式的特征表示向量,根據(jù)生成的詞項加權(quán)函數(shù)的樣本數(shù)據(jù),以及確定的特征向量,采用排序?qū)W習(xí)的方法對預(yù)設(shè)的詞項加權(quán)函數(shù)進(jìn)行學(xué)習(xí),確定進(jìn)行詞項分析的詞項加權(quán)函數(shù)。在本申請實施例中,當(dāng)用戶通過客戶端向服務(wù)器發(fā)送查詢關(guān)鍵詞時,服務(wù)器接收到該查詢關(guān)鍵詞,將該查詢關(guān)鍵詞發(fā)送到數(shù)據(jù)庫中進(jìn)行記錄,并根據(jù)該查詢關(guān)鍵詞向用戶返回對應(yīng)該查詢關(guān)鍵詞的信息。當(dāng)客戶端接收到服務(wù)器返回的對應(yīng)該查詢關(guān)鍵詞的信息后,將該信息提供給用戶,其中該信息即為查詢結(jié)果信息,并將接收到的用戶在該返回的信息中所點擊的產(chǎn)品描述信息發(fā)送給服務(wù)器,服務(wù)器將客戶端發(fā)送的用戶在該信息點擊的產(chǎn)品描述信息發(fā)送到數(shù)據(jù)庫,數(shù)據(jù)庫將該查詢關(guān)鍵詞信息,以及用戶在返回的對應(yīng)該查詢關(guān)鍵詞信息中所點擊的產(chǎn)品描述信息進(jìn)行記錄,生成查詢點擊日志信息。其中,該數(shù)據(jù)庫可以位于服務(wù)器中,也可以位于進(jìn)行信息統(tǒng)計的其他平臺或終端內(nèi),具體的該服務(wù)器中可以包括數(shù)據(jù)庫和搜索引擎,數(shù)據(jù)庫用于生成并保存查詢點擊日志信息,搜索引擎具體用于根據(jù)接收到的客戶端發(fā)送的查詢關(guān)鍵詞進(jìn)行相應(yīng)信息的查詢。數(shù)據(jù)庫在生成該查詢點擊日志信息時,可以根據(jù)服務(wù)器發(fā)送的查詢關(guān)鍵詞以及用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息生成每個查詢集合,即在每個查詢集合中包含一個查詢關(guān)鍵詞,以及用戶針對該查詢關(guān)鍵詞返回的信息點擊的產(chǎn)品描述信息。
例如,數(shù)據(jù)庫接收到的服務(wù)器發(fā)送的查詢關(guān)鍵詞為A,此時服務(wù)器將對應(yīng)該查詢關(guān)鍵詞A的信息a、b、c和d返回給客戶端,通過客戶端顯示給用戶,用戶點擊的產(chǎn)品描述信息為a和c的產(chǎn)品描述信息,因此客戶端將用戶點擊的產(chǎn)品描述信息發(fā)送到服務(wù)器,服務(wù)器將該a和c的產(chǎn)品描述信息發(fā)送到數(shù)據(jù)庫,此時數(shù)據(jù)庫將查詢關(guān)鍵詞A以及a和c的產(chǎn)品描述信息,確定為查詢點擊日志中的一個查詢集合,保存在該查詢點擊日志中。當(dāng)服務(wù)器進(jìn)行詞項加權(quán)函數(shù)的訓(xùn)練生成時,由于數(shù)據(jù)庫中記錄有查詢點擊日志信息,服務(wù)器從數(shù)據(jù)庫獲取該查詢點擊日志信息,根據(jù)該查詢點擊日志信息訓(xùn)練生成詞項加權(quán)函數(shù)。具體的為了便于服務(wù)器進(jìn)行詞項加權(quán)函數(shù)的訓(xùn)練生成,服務(wù)器可以根據(jù)接收到的進(jìn)行詞項加權(quán)函數(shù)訓(xùn)練的指示,獲取數(shù)據(jù)庫中保存的查詢點擊日志信息,其中該查詢點擊日志信息中記錄有設(shè)定時間長度內(nèi)每個用戶發(fā)送的查詢關(guān)鍵詞,以及該用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息,或者,也可以當(dāng)數(shù)據(jù)庫中保存的查詢點擊日志記錄了設(shè)定時間長度內(nèi)每個用戶發(fā)送的查詢關(guān)鍵詞,以及該用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息時,數(shù)據(jù)庫主動向服務(wù)器發(fā)起詞項加權(quán)函數(shù)的訓(xùn)練生成的請求,服務(wù)器根據(jù)該請求,獲取數(shù)據(jù)庫中保存的查詢點擊日志信息,進(jìn)行詞項加權(quán)函數(shù)的生成。服務(wù)器獲取了數(shù)據(jù)庫中保存的查詢點擊日志信息后,根據(jù)該查詢點擊日志信息進(jìn)行詞項加權(quán)函數(shù)的確定。圖2為本申請實施例提供的進(jìn)行詞項加權(quán)函數(shù)確定的過程,該過程包括以下步驟S201 :服務(wù)器獲取數(shù)據(jù)庫中保存的查詢點擊日志信息,其中該查詢點擊日志信息中記錄有一段時間長度內(nèi)每個用戶發(fā)送的查詢關(guān)鍵詞,以及該用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息。S202 :針對用戶發(fā)送的每個查詢關(guān)鍵詞中的相應(yīng)詞項,及用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息,根據(jù)該查詢關(guān)鍵詞中的相應(yīng)詞項,確定該相應(yīng)詞項與點擊的產(chǎn)品描述信息中產(chǎn)品標(biāo)題信息中其他詞項的重要性關(guān)系,生成訓(xùn)練詞項加權(quán)函數(shù)的詞項序?qū)颖緮?shù)據(jù)。其中該其他詞項為該產(chǎn)品標(biāo)題信息包含的詞項中,與該查詢關(guān)鍵中包含的詞項不同的詞項,例如該產(chǎn)品標(biāo)題信息包含詞項A、B、C、D,該查詢關(guān)鍵詞中包含詞項A、C,則該產(chǎn)品標(biāo)題信息中的其他詞項為詞項B、D0該詞項序?qū)颖緮?shù)據(jù)包含多組詞項序?qū)?,其中每組詞項序?qū)Π▋蓚€詞項,且包含該兩個詞項的重要性關(guān)系,另外每組詞項序?qū)χ邪ú樵冴P(guān)鍵詞中包含的一個詞項。例如詞項序?qū)颖緮?shù)據(jù)包括的一組詞項序?qū)Πㄔ~項A、B,其中詞項A的重要性大于詞項B的重要性,并且詞項A為查詢關(guān)鍵詞中包含的詞項。S203 :對該點擊的產(chǎn)品描述信息中產(chǎn)品標(biāo)題信息中的相應(yīng)詞項,按照設(shè)置的至少一種特征表示方式,確定該相應(yīng)詞項針對每種特征表示方式的特征表示向量。S204 :根據(jù)生成的詞項加權(quán)函數(shù)的樣本數(shù)據(jù),以及確定的特征向量,采用排序?qū)W習(xí)的方法對預(yù)設(shè)的詞項加權(quán)函數(shù)進(jìn)行學(xué)習(xí),確定進(jìn)行詞項分析的詞項加權(quán)函數(shù)。本申請實施例中描述的關(guān)鍵詞中的每個詞項,如A、C,以及產(chǎn)品標(biāo)題信息中的每個詞項,如A、B、C、D,并不必然是指關(guān)鍵詞或產(chǎn)品標(biāo)題信息中的每一個文字或字符,可以是除去一些干擾詞,如的、嗎等之后進(jìn)行分詞獲得的詞項。本申請實施例中所用措辭“每個”,僅僅是為了方便描述本申請的具體實施方式
,并不能做為對本申請思想的限制。具體的在本申請實施例中,當(dāng)服務(wù)器從數(shù)據(jù)庫中基于數(shù)據(jù)庫保存的查詢點擊日志信息,獲取了進(jìn)行訓(xùn)練的數(shù)據(jù)后,基于獲取的訓(xùn)練數(shù)據(jù)確定詞項序?qū)颖緮?shù)據(jù),當(dāng)確定了詞項序?qū)颖緮?shù)據(jù)后,根據(jù)設(shè)置的至少一種特征表示方式,確定每個詞項的針對每種特征表示方式的特征表示向量,根據(jù)生成的詞項加權(quán)函數(shù)的樣本數(shù)據(jù),以及確定的特征向量,采用排序?qū)W習(xí)的方法對詞項加權(quán)函數(shù)進(jìn)行學(xué)習(xí),確定進(jìn)行詞項分析的詞項加權(quán)函數(shù)。本申請實施例中該排序?qū)W習(xí)方法可以為排序支持向量機(jī)(Rank SVM)方法、排序神經(jīng)網(wǎng)絡(luò)(Rank Net)方法、排序集成算法(Rank Boost)等。在本申請實施例中數(shù)據(jù)庫中保存的查詢點擊日志,可以是用戶對電子商務(wù)搜索引擎的用戶點擊信息,記錄的查詢點擊日志信息。該查詢點擊日志(ClickThrough)信息中,記錄用戶的歷史查詢和用戶對該查詢結(jié)果文檔的點擊情況。在該查詢點擊日志中記錄有每個查詢集合,該查詢集合可以表示為CT = {〈q,d> I q e Q,d e Dj其中,q為某時間段內(nèi)用戶基于客戶端向搜索引擎提交的產(chǎn)生點擊行為的每個查詢關(guān)鍵詞,Q是某個時間段內(nèi)用戶提交到搜索引擎的產(chǎn)生點擊行為的查詢關(guān)鍵詞的集合,d為用戶輸入查詢關(guān)鍵詞后基于搜索引擎返回的信息點擊的信息,Dq表示用戶在輸入查詢關(guān)鍵詞q后基于搜索引擎返回的信息點擊的信息的集合,q = Q1Q2- . . qn為每個查詢關(guān)鍵詞q對應(yīng)的詞項序列,其序列長度為n ;d = Cl1Cl2. . . dm為點擊信息的產(chǎn)品描述信息所對應(yīng)的詞項序列,其序列長度為m,在本申請中,一種典型的實現(xiàn)是用產(chǎn)品描述信息中的產(chǎn)品標(biāo)題信息(title)來表征d。 在本申請實施例中在確定每個詞項與點擊的產(chǎn)品描述信息中產(chǎn)品標(biāo)題信息中每個其他詞項的重要性關(guān)系之前,所述方法還包括確定查詢點擊日志中每個查詢集合,其中該查詢集合中包含用戶發(fā)送的查詢關(guān)鍵詞,以及該用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息,根據(jù)設(shè)置的規(guī)則,對獲取的每個查詢集合中查詢關(guān)鍵詞及用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息,進(jìn)行過濾。 其中設(shè)置的規(guī)則包括以下一種或幾種判斷產(chǎn)品描述信息的產(chǎn)品標(biāo)題信息中包含的詞項的個數(shù)是否不小于查詢關(guān)鍵詞包含的詞項的個數(shù);判斷查詢關(guān)鍵詞包含的詞項,是否在產(chǎn)品描述信息的產(chǎn)品標(biāo)題信息中包含的詞項中全部出現(xiàn);針對每個查詢關(guān)鍵詞,判斷該查詢關(guān)鍵詞中包含的每兩個詞項是否不重復(fù);針對每個產(chǎn)品描述信息,判斷產(chǎn)品描述信息的產(chǎn)品標(biāo)題信息中包含的每兩個詞項是否不重復(fù)。具體的在對獲取的查詢關(guān)鍵詞及用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息進(jìn)行過濾時,根據(jù)從數(shù)據(jù)庫中獲取的查詢點擊日志信息,針對該查詢點擊日志信息中記錄的每個查詢集合,例如該查詢集合為CT',
權(quán)利要求
1.一種詞項加權(quán)函數(shù)確定方法,其特征在于,包括 服務(wù)器獲取數(shù)據(jù)庫中保存的查詢點擊日志信息,其中該查詢點擊日志信息中記錄有設(shè)定時間長度內(nèi)每個用戶發(fā)送的查詢關(guān)鍵詞,以及該用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息; 針對用戶發(fā)送的查詢關(guān)鍵詞中的相應(yīng)詞項,及用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息,執(zhí)行以下步驟 根據(jù)該查詢關(guān)鍵詞中的相應(yīng)詞項,確定該相應(yīng)詞項與點擊的產(chǎn)品描述信息中產(chǎn)品標(biāo)題信息中其他詞項的重要性關(guān)系,生成訓(xùn)練詞項加權(quán)函數(shù)的詞項序?qū)颖緮?shù)據(jù),對該點擊的產(chǎn)品描述信息中產(chǎn)品標(biāo)題信息中的相應(yīng)詞項,按照設(shè)置的至少一種特征表示方式,確定該相應(yīng)詞項針對每種特征表示方式的特征表示向量,根據(jù)生成的詞項加權(quán)函數(shù)的樣本數(shù)據(jù),以及確定的特征向量,采用排序?qū)W習(xí)的方法對預(yù)設(shè)的詞項加權(quán)函數(shù)進(jìn)行學(xué)習(xí),確定進(jìn)行詞項分析的詞項加權(quán)函數(shù)。
2.如權(quán)利要求I所述的方法,其特征在于,所述確定該相應(yīng)詞項與點擊的產(chǎn)品描述信息中產(chǎn)品標(biāo)題信息中其他詞項的重要性關(guān)系之前,所述方法還包括 確定查詢點擊日志中每個查詢集合,其中該查詢集合中包含用戶發(fā)送的查詢關(guān)鍵詞,以及該用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息,根據(jù)設(shè)置的規(guī)貝U,對獲取的每個查詢集合中查詢關(guān)鍵詞及用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息,進(jìn)行過濾。
3.如權(quán)利要求2所述的方法,其特征在于,所述設(shè)置的規(guī)則包括以下一種或幾種, 判斷產(chǎn)品描述信息的產(chǎn)品標(biāo)題信息中包含的詞項的個數(shù)是否不小于查詢關(guān)鍵詞包含的詞項的個數(shù); 判斷查詢關(guān)鍵詞包含的詞項,是否在產(chǎn)品描述信息的產(chǎn)品標(biāo)題信息中包含的詞項中全部出現(xiàn); 針對每個查詢關(guān)鍵詞,判斷該查詢關(guān)鍵詞中包含的每兩個詞項是否不重復(fù); 針對每個產(chǎn)品描述信息,判斷產(chǎn)品描述信息的產(chǎn)品標(biāo)題信息中包含的每兩個詞項是否不重復(fù)。
4.如權(quán)利要求I所述的方法,其特征在于,所述按照設(shè)置的至少一種特征表示方式,確定該相應(yīng)詞項針對每種特征表示方式的特征表示向量包括 按照設(shè)置的統(tǒng)計特征表示方式、詞級特征表示方式、語法特征表示方式和語義特征表示方式中的至少一種,確定該詞項針對每種特征表示方式的特征表示向量。
5.如權(quán)利要求4所述的方法,其特征在于,當(dāng)設(shè)置的特征表示方式為統(tǒng)計特征表示方式時,確定該每個詞項針對統(tǒng)計特征表示方式的特征表示向量包括 根據(jù)詞項在每種產(chǎn)品類別的標(biāo)題中出現(xiàn)的頻率,以及該詞項在所有產(chǎn)品類別的標(biāo)題中出現(xiàn)的頻率,確定該詞項針對詞項類目特指特征表示方式的特征表示子向量; 根據(jù)詞項在查詢點擊日志中獨立作為查詢關(guān)鍵詞出現(xiàn)的次數(shù),確定該詞項針對詞項獨立特征表示方式的特征表示子向量; 確定查詢點擊日志中每個查詢集合,其中該查詢集合中包含用戶發(fā)送的查詢關(guān)鍵詞,以及該用戶在返回的針對該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息,根據(jù)詞項在僅包含兩個詞項的查詢集合中出現(xiàn)的次數(shù),及該詞項在僅包含兩個詞項的查詢集合中位于左邊位置的次數(shù),確定該詞項針對詞項修飾特征表示方式的特征表示子向量;和 確定查詢點擊日志中每個查詢集合,根據(jù)詞項在僅包含兩個詞項的查詢集合中出現(xiàn)的次數(shù),確定該詞項針對詞項主題中心性特征表示方式的特征表示子向量; 根據(jù)至少一種特征表示子向量,以及該特征表示子向量對應(yīng)的參數(shù)子向量,確定該詞項針對統(tǒng)計特征表示方式的特征表示向量。
6.如權(quán)利要求4所述的方法,其特征在于,當(dāng)設(shè)置的特征表示方式為詞級特征表示方式時,確定該相應(yīng)詞項針對詞級特征表示方式的特征表示向量包括 根據(jù)詞項包含的字節(jié)數(shù),確定該詞項對應(yīng)詞級特征表示方式的特征表示第一子向量; 根據(jù)詞項是否僅由數(shù)字組成,確定該詞項對應(yīng)詞級特征表示方式的特征表示第二子向量; 根據(jù)詞項的后綴,確定該詞項對應(yīng)詞級特征表示方式的特征表示第三子向量; 根據(jù)確定的至少一個子向量,以及每個子向量對應(yīng)的參數(shù)子向量,確定該詞項針對詞級特征的特征表示向量。
7.如權(quán)利要求4所述的方法,其特征在于,當(dāng)設(shè)置的特征表示方式為語法特征表示方式時,確定該相應(yīng)詞項針對語法特征表示方式的特征表示向量包括 根據(jù)詞項的詞性,確定該詞項對應(yīng)語法特征表示方式的特征表示第一子向量; 根據(jù)短語對應(yīng)的詞性,確定構(gòu)成該短語的每個詞項對應(yīng)語法特征表示方式的特征表示第二子向量; 將每個詞項,與保存的詞法中心詞進(jìn)行匹配,根據(jù)是否匹配成功,確定該詞項對應(yīng)該語法特征表示方式的特征表示第三子向量; 根據(jù)確定的至少一個子向量,以及每個子向量對應(yīng)的參數(shù)子向量,確定該詞項針對語法特征的特征表示向量。
8.如權(quán)利要求4所述的方法,其特征在于,當(dāng)設(shè)置的特征表示方式為語義特征表示方式時,確定該相應(yīng)詞項針對語義特征表示方式的特征表示向量包括 根據(jù)詞項是否為產(chǎn)品名詞項,或產(chǎn)品名中的部分詞項,確定該詞項對應(yīng)詞義特征表示方式的特征表不第一子向量; 根據(jù)詞項是否為品牌名詞項,或品牌名中的部分詞項,確定該詞項對應(yīng)詞義特征表示方式的特征表不第二子向量;和 根據(jù)詞項是否為型號名詞項,或型號名中的部分詞項,確定該詞項對應(yīng)詞義特征表示方式的特征表不第三子向量; 根據(jù)確定的至少一個子向量,以及每個子向量對應(yīng)的參數(shù)子向量,確定該詞項針對語義特征表示方式的特征表示向量。
9.如權(quán)利要求I所述的方法,其特征在于,所述排序?qū)W習(xí)方法包括 排序支持向量機(jī)方法、排序神經(jīng)網(wǎng)絡(luò)方法和排序集成算法。
10.一種基于權(quán)利要求I所述的詞項加權(quán)函數(shù)確定方法進(jìn)行搜索的方法,其特征在于,所述方法包括 服務(wù)器根據(jù)獲取的用戶基于客戶端輸入的查詢關(guān)鍵詞,確定該查詢關(guān)鍵詞對應(yīng)的查詢結(jié)果息; 在該查詢結(jié)果信息中,根據(jù)進(jìn)行詞項分析的詞項加權(quán)函數(shù)采用的特征表示向量,采用相應(yīng)的特征表示方式,確定相應(yīng)產(chǎn)品描述信息的產(chǎn)品標(biāo)題信息包含的詞項對應(yīng)該相應(yīng)特征表示方式的特征表示向量; 根據(jù)該特征表示向量,以及該進(jìn)行詞項分析的詞項加權(quán)函數(shù),確定相應(yīng)詞項的分值;根據(jù)確定的相應(yīng)產(chǎn)品標(biāo)題信息中詞項的總分值的大小,將所述產(chǎn)品描述信息進(jìn)行排序,將排序后的產(chǎn)品描述信息提供給所述用戶。
11.如權(quán)利要求10所述的方法,其特征在于,所述定該查詢關(guān)鍵詞對應(yīng)的查詢結(jié)果信息之前,所述方法還包括 根據(jù)進(jìn)行詞項分析的詞項加權(quán)函數(shù)采用的特征表示向量,采用相應(yīng)的特征表示方式,確定用戶輸入的所述查詢關(guān)鍵詞包含的每個詞項對應(yīng)相應(yīng)特征表示方式的特征表示向量; 根據(jù)該特征表示向量,以及該進(jìn)行詞項分析的詞項加權(quán)函數(shù),確定該查詢關(guān)鍵詞中相應(yīng)詞項的分值; 根據(jù)確定的相應(yīng)詞項的分值,選擇分值較大的詞項作為查詢結(jié)果信息確定的查詢關(guān)鍵詞中的詞項。
12.如權(quán)利要求10或11所述的方法,其特征在于,所述相應(yīng)的特征表示方式包括以下一種或幾種 統(tǒng)計特征表示方式、詞級特征表示方式、語法特征表示方式和語義特征表示方式。
13.如權(quán)利要求12所述的方法,其特征在于,當(dāng)特征表示方式為統(tǒng)計特征表示方式時,確定詞項對應(yīng)統(tǒng)計特征表示方式的特征表示向量包括 根據(jù)詞項在每種產(chǎn)品類別的標(biāo)題中出現(xiàn)的頻率,以及該詞項在所有產(chǎn)品類別的標(biāo)題中出現(xiàn)的頻率,確定該詞項針對詞項類目特指特征表示方式的特征表示子向量; 根據(jù)詞項在查詢點擊日志中獨立作為查詢關(guān)鍵詞出現(xiàn)的次數(shù),確定該詞項針對詞項獨立特征表示方式的特征表示子向量; 確定查詢點擊日志中每個查詢集合,其中該查詢集合中包含用戶發(fā)送的查詢關(guān)鍵詞,以及該用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息,根據(jù)詞項在僅包含兩個詞項的查詢集合中出現(xiàn)的次數(shù),及該詞項在僅包含兩個詞項的查詢集合中位于左邊位置的次數(shù),確定該詞項針對詞項修飾特征表示方式的特征表示子向量;和 確定查詢點擊日志中每個查詢集合,根據(jù)詞項在僅包含兩個詞項的查詢集合中出現(xiàn)的次數(shù),確定該詞項針對詞項主題中心性特征表示方式的特征表示子向量; 根據(jù)至少一種特征表示子向量,以及該特征表示子向量對應(yīng)的參數(shù)子向量,確定該詞項對應(yīng)統(tǒng)計特征表示方式的特征表示向量。
14.如權(quán)利要求12所述的方法,其特征在于,當(dāng)特征表示方式為詞級特征表示方式時,確定詞項對應(yīng)詞級特征表示方式的特征表示向量包括 根據(jù)詞項包含的字節(jié)數(shù),確定該詞項對應(yīng)詞級特征表示方式的特征表示第一子向量; 根據(jù)詞項是否僅由數(shù)字組成,確定該詞項對應(yīng)詞級特征表示方式的特征表示第二子向量; 根據(jù)詞項的后綴,確定該詞項對應(yīng)詞級特征表示方式的特征表示第三子向量; 根據(jù)確定的至少一個子向量,以及每個子向量對應(yīng)的參數(shù)子向量,確定該詞項對應(yīng)詞級特征的特征表示向量。
15.如權(quán)利要求12所述的方法,其特征在于,當(dāng)特征表示方式為語法特征表示方式時,確定詞項對應(yīng)語法特征表示方式的特征表示向量包括 根據(jù)詞項的詞性,確定該詞項對應(yīng)語法特征表示方式的特征表示第一子向量; 根據(jù)短語對應(yīng)的詞性,確定構(gòu)成該短語的每個詞項對應(yīng)語法特征表示方式的特征表示第二子向量; 根據(jù)每個詞項是否為語法中心詞,確定該詞項對應(yīng)語法特征表示方式的特征表示第三子向量; 根據(jù)確定的至少一個子向量,以及每個子向量對應(yīng)的參數(shù)子向量,確定該詞項對應(yīng)語法特征的特征表示向量。
16.如權(quán)利要求12所述的方法,其特征在于,當(dāng)特征表示方式為語義特征表示方式時,確定詞項對應(yīng)語義特征表示方式的特征表示向量包括 根據(jù)詞項是否為產(chǎn)品名詞項,或產(chǎn)品名中的部分詞項,確定該詞項對應(yīng)詞義特征表示方式的特征表不第一子向量; 根據(jù)詞項是否為品牌名詞項,或品牌名中的部分詞項,確定該詞項對應(yīng)詞義特征表示方式的特征表不第二子向量;和 根據(jù)詞項是否為型號名詞項,或型號名中的部分詞項,確定該詞項對應(yīng)詞義特征表示方式的特征表不第三子向量; 根據(jù)確定的至少一個子向量,以及每個子向量對應(yīng)的參數(shù)子向量,確定該詞項對應(yīng)語義特征表示方式的特征表示向量。
17.—種詞項加權(quán)函數(shù)確定裝置,其特征在于,所述裝置包括 獲取模塊,用于獲取數(shù)據(jù)庫中保存的查詢點擊日志信息,其中該查詢點擊日志信息中記錄有設(shè)定時間長度內(nèi)每個用戶發(fā)送的查詢關(guān)鍵詞,以及該用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息; 加權(quán)分值確定模塊,用于針對用戶發(fā)送的查詢關(guān)鍵詞中的相應(yīng)詞項,及用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息,執(zhí)行以下步驟根據(jù)該查詢關(guān)鍵詞中的相應(yīng)詞項,確定該相應(yīng)詞項與點擊的產(chǎn)品描述信息中產(chǎn)品標(biāo)題信息中其他詞項的重要性關(guān)系,生成訓(xùn)練詞項加權(quán)函數(shù)的詞項序?qū)颖緮?shù)據(jù),對該點擊的產(chǎn)品描述信息中產(chǎn)品標(biāo)題信息中的相應(yīng)詞項,按照設(shè)置的至少一種特征表示方式,確定該相應(yīng)詞項針對每種特征表示方式的特征表示向量; 排序?qū)W習(xí)模塊,用于根據(jù)生成的詞項加權(quán)函數(shù)的樣本數(shù)據(jù),以及確定的特征向量,采用排序?qū)W習(xí)的方法對預(yù)設(shè)的詞項加權(quán)函數(shù)進(jìn)行學(xué)習(xí),確定進(jìn)行詞項分析的詞項加權(quán)函數(shù)。
18.如權(quán)利要求17所述的裝置,其特征在于,所述裝置還包括 過濾模塊,用于確定查詢點擊日志中每個查詢集合,其中該查詢集合中包含用戶發(fā)送的查詢關(guān)鍵詞,以及該用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息,根據(jù)設(shè)置的規(guī)則,對獲取的每個查詢集合中查詢關(guān)鍵詞及用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息,進(jìn)行過濾。
19.如權(quán)利要求18所述的裝置,其特征在于,所述過濾模塊,具體用于根據(jù)設(shè)置的規(guī)則的一種或幾種進(jìn)行過濾,其中設(shè)置的規(guī)則包括判斷產(chǎn)品描述信息的產(chǎn)品標(biāo)題信息中包含的詞項的個數(shù)是否不小于查詢關(guān)鍵詞包含的詞項的個數(shù),判斷查詢關(guān)鍵詞包含的詞項,是否在產(chǎn)品描述信息的產(chǎn)品標(biāo)題信息中包含的詞項中全部出現(xiàn),針對每個查詢關(guān)鍵詞,判斷該查詢關(guān)鍵詞中包含的每兩個詞項是否不重復(fù),針對每個產(chǎn)品描述信息,判斷產(chǎn)品描述信息的產(chǎn)品標(biāo)題信息中包含的每兩個詞項是否不重復(fù)。
20.如權(quán)利要求17所述的裝置,其特征在于,加權(quán)分值確定模塊,具體用于當(dāng)設(shè)置的特征表示方式為統(tǒng)計特征表示方式時,根據(jù)詞項在每種產(chǎn)品類別的標(biāo)題中出現(xiàn)的頻率,以及該詞項在所有產(chǎn)品類別的標(biāo)題中出現(xiàn)的頻率,確定該詞項針對詞項類目特指特征表示方式的特征表示子向量,根據(jù)詞項在查詢點擊日志中獨立作為查詢關(guān)鍵詞出現(xiàn)的次數(shù),確定該詞項針對詞項獨立特征表示方式的特征表示子向量,確定查詢點擊日志中每個查詢集合,其中該查詢集合中包含用戶發(fā)送的查詢關(guān)鍵詞,以及該用戶對返回的針對該查詢關(guān)鍵詞的信息點擊的產(chǎn)品描述信息,根據(jù)詞項在僅包含兩個詞項的查詢集合中出現(xiàn)的次數(shù),及該詞項在僅包含兩個詞項的查詢集合中位于左邊位置的次數(shù),確定該詞項針對詞項修飾特征表示方式的特征表示子向量,和,確定查詢點擊日志中每個查詢集合,根據(jù)詞項在僅包含兩個詞項的查詢集合中出現(xiàn)的次數(shù),確定該詞項針對詞項主題中心性特征表示方式的特征表示子向量,根據(jù)至少一種特征表示子向量,以及該特征表示子向量對應(yīng)的參數(shù)子向量,確定該詞項針對統(tǒng)計特征表示方式的特征表示向量。
21.如權(quán)利要求17所述的裝置,其特征在于,加權(quán)分值確定模塊,具體用于當(dāng)設(shè)置的特征表示方式為詞級特征表示方式時,根據(jù)詞項包含的字節(jié)數(shù),確定該詞項對應(yīng)詞級特征表示方式的特征表示第一子向量,根據(jù)詞項是否僅由數(shù)字組成,確定該詞項對應(yīng)詞級特征表示方式的特征表示第二子向量,根據(jù)詞項的后綴,確定該詞項對應(yīng)詞級特征表示方式的特征表示第三子向量,根據(jù)確定的至少一個子向量,以及每個子向量對應(yīng)的參數(shù)子向量,確定該詞項針對詞級特征的特征表示向量。
22.如權(quán)利要求17所述的裝置,其特征在于,加權(quán)分值確定模塊,具體用于當(dāng)設(shè)置的特征表示方式為語法特征表示方式時,根據(jù)詞項的詞性,確定該詞項對應(yīng)語法特征表示方式的特征表示第一子向量,根據(jù)短語對應(yīng)的詞性,確定構(gòu)成該短語的每個詞項對應(yīng)語法特征表示方式的特征表示第二子向量,根據(jù)每個詞項是否為語法中心詞,確定該詞項對應(yīng)語法特征表示方式的特征表示第三子向量,根據(jù)確定的至少一個子向量,以及每個子向量對應(yīng)的參數(shù)子向量,確定該詞項針對語法特征的特征表示向量。
23.如權(quán)利要求17所述的裝置,其特征在于,加權(quán)分值確定模塊,具體用于當(dāng)設(shè)置的特征表示方式為語義特征表示方式時,根據(jù)詞項是否為產(chǎn)品名詞項,或產(chǎn)品名中的部分詞項,確定該詞項對應(yīng)詞義特征表示方式的特征表示第一子向量,根據(jù)詞項是否為品牌名詞項,或品牌名中的部分詞項,確定該詞項對應(yīng)詞義特征表示方式的特征表示第二子向量,和,根據(jù)詞項是否為型號名詞項,或型號名中的部分詞項,確定該詞項對應(yīng)詞義特征表示方式的特征表不第三子向量,根據(jù)確定的至少一個子向量,以及每個子向量對應(yīng)的參數(shù)子向量,確定該詞項針對語義特征表示方式的特征表示向量。
24.一種基于權(quán)利要求17所述的詞項加權(quán)函數(shù)確定裝置進(jìn)行詞項搜索的裝置,其特征在于,所述裝置包括 查詢結(jié)果確定模塊,用于根據(jù)獲取的用戶基于客戶端輸入的查詢關(guān)鍵詞,確定該查詢關(guān)鍵詞對應(yīng)的查詢結(jié)果信息; 特征向量確定模塊,用于在該查詢結(jié)果信息中,根據(jù)進(jìn)行詞項分析的詞項加權(quán)函數(shù)采用的特征表示向量,采用相應(yīng)的特征表示方式,確定相應(yīng)產(chǎn)品描述信息的產(chǎn)品標(biāo)題信息包含的詞項對應(yīng)該相應(yīng)特征表示方式的特征表示向量; 分析提供模塊,用于根據(jù)該特征表示向量,以及該進(jìn)行詞項分析的詞項加權(quán)函數(shù),確定相應(yīng)詞項的分值,根據(jù)確定的相應(yīng)產(chǎn)品標(biāo)題信息中詞項的總分值的大小,將所述產(chǎn)品描述信息進(jìn)行排序,將排序后的產(chǎn)品描述信息提供給所述用戶。
25.如權(quán)利要求24所述的裝置,其特征在于,所述裝置還包括 縮寫確定模塊,用于根據(jù)進(jìn)行詞項分析的詞項加權(quán)函數(shù)采用的特征表示向量,采用相應(yīng)的特征表示方式,確定用戶輸入的所述查詢關(guān)鍵詞包含的每個詞項對應(yīng)相應(yīng)特征表示方式的特征表示向量,根據(jù)該特征表示向量,以及該進(jìn)行詞項分析的詞項加權(quán)函數(shù),確定該查詢關(guān)鍵詞中相應(yīng)詞項的分值,根據(jù)確定的相應(yīng)詞項的分值,選擇分值較大的詞項作為查詢結(jié)果信息確定的查詢關(guān)鍵詞中的詞項。
26.如權(quán)利要求24或25所述的裝置,其特征在于,所述特征向量確定模塊,具體用于當(dāng)特征表示方式為統(tǒng)計特征表示方式時,根據(jù)詞項在每種產(chǎn)品類別的標(biāo)題中出現(xiàn)的頻率,以及該詞項在所有產(chǎn)品類別的標(biāo)題中出現(xiàn)的頻率,確定該詞項針對詞項類目特指特征表示方式的特征表示子向量,根據(jù)詞項在查詢點擊日志中獨立作為查詢關(guān)鍵詞出現(xiàn)的次數(shù),確定該詞項針對詞項獨立特征表示方式的特征表示子向量,確定查詢點擊日志中每個查詢集合,其中該查詢集合中包含用戶發(fā)送的查詢關(guān)鍵詞,以及該用戶在返回的對應(yīng)該查詢關(guān)鍵詞的信息中所點擊的產(chǎn)品描述信息,根據(jù)詞項在僅包含兩個詞項的查詢集合中出現(xiàn)的次數(shù),及該詞項在僅包含兩個詞項的查詢集合中位于左邊位置的次數(shù),確定該詞項針對詞項修飾特征表示方式的特征表示子向量,和,確定查詢點擊日志中每個查詢集合,根據(jù)詞項在僅包含兩個詞項的查詢集合中出現(xiàn)的次數(shù),確定該詞項針對詞項主題中心性特征表示方式的特征表不子向量,根據(jù)至少一種特征表不子向量,以及該特征表不子向量對應(yīng)的參數(shù)子向量,確定該詞項對應(yīng)統(tǒng)計特征表示方式的特征表示向量。
27.如權(quán)利要求24或25所述的裝置,其特征在于,所述特征向量確定模塊,具體用于當(dāng)特征表示方式為詞級特征表示方式時,根據(jù)詞項包含的字節(jié)數(shù),確定該詞項對應(yīng)詞級特征表示方式的特征表示第一子向量,根據(jù)詞項是否僅由數(shù)字組成,確定該詞項對應(yīng)詞級特征表示方式的特征表示第二子向量,根據(jù)詞項的后綴,確定該詞項對應(yīng)詞級特征表示方式的特征表不第三子向量,根據(jù)確定的至少一個子向量,以及每個子向量對應(yīng)的參數(shù)子向量,確定該詞項對應(yīng)詞級特征的特征表示向量。
28.如權(quán)利要求24或25所述的裝置,其特征在于,所述特征向量確定模塊,具體用于當(dāng)特征表示方式為語法特征表示方式時,根據(jù)詞項的詞性,確定該詞項對應(yīng)語法特征表示方式的特征表示第一子向量,根據(jù)短語對應(yīng)的詞性,確定構(gòu)成該短語的每個詞項對應(yīng)語法特征表示方式的特征表示第二子向量,根據(jù)每個詞項是否為語法中心詞,確定該詞項對應(yīng)語法特征表不方式的特征表不第三子向量,根據(jù)確定的至少一個子向量,以及每個子向量對應(yīng)的參數(shù)子向量,確定該詞項對應(yīng)語法特征的特征表示向量。
29.如權(quán)利要求24或25所述的裝置,其特征在于,所述特征向量確定模塊,具體用于當(dāng)特征表示方式為語義特征表示方式時,根據(jù)詞項是否為產(chǎn)品名詞項,或產(chǎn)品名中的部分詞項,確定該詞項對應(yīng)詞義特征表示方式的特征表示第一子向量,根據(jù)詞項是否為品牌名詞項,或品牌名中的部分詞項,確定該詞項對應(yīng)詞義特征表示方式的特征表示第二子向量,和,根據(jù)詞項是否為型號名詞項,或型號名中的部分詞項,確定該詞項對應(yīng)詞義特征表示方式的特征表示第三子向量,根據(jù)確定的至少一個 子向量,以及每個子向量對應(yīng)的參數(shù)子向量,確定該詞項對應(yīng)語義特征表示方式的特征表示向量。
全文摘要
本申請公開了一種詞項加權(quán)函數(shù)確定及基于確定的函數(shù)進(jìn)行搜索的方法及裝置,解決詞項加權(quán)函數(shù)的確定不準(zhǔn)確擴(kuò)展不靈活問題。該方法服務(wù)器根據(jù)數(shù)據(jù)庫中保存的查詢點擊日志信息,確定查詢關(guān)鍵詞中相應(yīng)詞項與點擊的產(chǎn)品描述信息中產(chǎn)品標(biāo)題信息中其他詞項的重要性關(guān)系,生成訓(xùn)練詞項加權(quán)函數(shù)樣本數(shù)據(jù),并根據(jù)設(shè)置的至少一種特征表示方式,確定相應(yīng)詞項針對每種特征表示方式的特征表示向量,根據(jù)生成的詞項加權(quán)函數(shù)樣本數(shù)據(jù),在特征表示的基礎(chǔ)上,采用排序?qū)W習(xí)方法對預(yù)設(shè)的詞項加權(quán)函數(shù)進(jìn)行學(xué)習(xí)。本申請中采用排序?qū)W習(xí)方法確定最優(yōu)的詞項加權(quán)函數(shù),可以保證確定的詞項加權(quán)函數(shù)的準(zhǔn)確性,并且排序?qū)W習(xí)所依賴的樣本數(shù)據(jù)完全自動生成,其可擴(kuò)展性比較高。
文檔編號G06F17/30GK102637179SQ20111003746
公開日2012年8月15日 申請日期2011年2月14日 優(yōu)先權(quán)日2011年2月14日
發(fā)明者林鋒, 趙京雷 申請人:阿里巴巴集團(tuán)控股有限公司