專利名稱:一種商品類目信息的確定方法及裝置的制作方法
技術(shù)領(lǐng)域:
本申請涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種商品類目信息的確定方法及裝置。
背景技術(shù):
用戶通過服務(wù)器上傳商品的信息時(shí),需要根據(jù)服務(wù)器提供的商品類目的信息,確定上傳的該商品的信息所歸屬的類目,將該商品的信息掛靠在相應(yīng)類目下。但是由于服務(wù)器可以提供的商品類目的信息非常的龐雜,當(dāng)用戶主動(dòng)確定商品的信息所歸屬的類目時(shí),很可能錯(cuò)選類目,導(dǎo)致提供的信息不準(zhǔn)確。另外,服務(wù)器采用開放搜索的方式,將其他服務(wù)器中保存的商品的信息納入自身數(shù)據(jù)庫中時(shí),其他服務(wù)器中掛靠商品的信息的商品類目的劃分類型可能與該服務(wù)器的商品類目的劃分類型并不相同,在將其他服務(wù)器中保存的商品的信息納入自身數(shù)據(jù)庫時(shí),如果商品類目的劃分類型不同,將會(huì)導(dǎo)致其他服務(wù)器中保存的商品信息無法自動(dòng)納入到自身的 數(shù)據(jù)庫中,在這種情況下,只能采用人工識(shí)別的納入方式,這大幅影響了商品信息納入的效率及準(zhǔn)確率?,F(xiàn)有商品歸屬類目的確定方法包括基于搜索的商品類目確定方法,以及長尾查詢(query)類目確定方法。其中,基于搜索的商品類目確定方法中,當(dāng)用戶輸入了商品的標(biāo)題信息后,服務(wù)器根據(jù)用戶輸入的該商品的標(biāo)題信息,通過搜索引擎在數(shù)據(jù)庫中查找與該商品的標(biāo)題信息完全匹配的商品的標(biāo)題信息,用戶根據(jù)查找到的該商品的標(biāo)題信息匹配的商品掛靠的商品類目,確定輸入的商品掛靠的類目。該方法中,只有查找到的標(biāo)題信息完全匹配,才能確定商品所掛靠的商品類目,但是一般情況下,商品的標(biāo)題信息包含的字符數(shù)很多,一般都在10 30個(gè)字符之間,因此,由于在大部分情況下都沒辦法查找到標(biāo)題信息完全匹配的商品,并且逐一查找的過程非常耗時(shí),這不但導(dǎo)致難以確定該商品掛靠的商品類目,而且效率低下。此外,即使查找到了完全匹配的標(biāo)題信息,但當(dāng)該標(biāo)題信息對應(yīng)的商品掛靠的商品類目存在錯(cuò)誤時(shí),也會(huì)導(dǎo)致確定的該商品掛靠的商品類目的出現(xiàn)差錯(cuò)。在長尾query類目確定方法中,當(dāng)用戶輸入了查詢關(guān)鍵詞后,根據(jù)該查詢關(guān)鍵詞向用戶返回查詢結(jié)果,服務(wù)器根據(jù)用戶輸入的查詢關(guān)鍵詞,以及每個(gè)查詢結(jié)果對應(yīng)的商品類目,確定該查詢關(guān)鍵詞與每個(gè)商品類目的關(guān)聯(lián)度,根據(jù)確定的關(guān)聯(lián)度關(guān)系進(jìn)行商品類目的確定。但是該方法在進(jìn)行商品類目的確定時(shí),采用的是一種扁平狀的確定方法,即只確定了每個(gè)關(guān)鍵詞與葉子節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度,在進(jìn)行商品類目的確定過程中,需要逐一與每個(gè)葉子節(jié)點(diǎn)對應(yīng)的商品類目進(jìn)行匹配,而一般葉子節(jié)點(diǎn)對應(yīng)的商品類目成千上萬,這導(dǎo)致應(yīng)用該方法確定商品類目的過程耗時(shí)較長,效率較低。
發(fā)明內(nèi)容
有鑒于此,本申請實(shí)施例提供一種商品類目信息的確定方法及裝置,用以解決現(xiàn)有確定商品類目效率低,準(zhǔn)確性差的問題。
本申請實(shí)施例提供的一種商品信息與商品類目關(guān)聯(lián)度的確定方法,包括針對商品類目樹中每個(gè)商品類目對應(yīng)的節(jié)點(diǎn),確定該節(jié)點(diǎn)的父節(jié)點(diǎn);針對該節(jié)點(diǎn)包含的每個(gè)商品標(biāo)題信息,進(jìn)行以下步驟對該商品標(biāo)題信息分詞,確定該商品標(biāo)題信息對應(yīng)的每個(gè)詞組,其中所述詞組包括至少一個(gè)分詞;針對每個(gè)詞組,根據(jù)該詞組在該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)次數(shù),該詞組在該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)的次數(shù),該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量及與該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量,確定該詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值;針對該節(jié)點(diǎn)分別保存每個(gè)詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值。本申請實(shí)施例提供的一種基于上述關(guān)聯(lián)度的確定方法確定商品類目信息的方法, 包括接收商品標(biāo)題信息;對該商品標(biāo)題信息進(jìn)行分詞,確定該商品標(biāo)題信息對應(yīng)的每個(gè)詞組,其中每個(gè)詞組中包括至少一個(gè)分詞;根據(jù)針對每個(gè)節(jié)點(diǎn)保存的每個(gè)詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值,查找確定的每個(gè)詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度;根據(jù)查找到的每個(gè)詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度,確定包含該商品信息的節(jié)點(diǎn);將確定的該子節(jié)點(diǎn)作為父節(jié)點(diǎn),確定該父節(jié)點(diǎn)的子節(jié)點(diǎn),直到將所述商品標(biāo)題信息對應(yīng)的商品信息掛靠到葉子節(jié)點(diǎn)對應(yīng)的商品類目。本申請實(shí)施例提供的一種商品信息與商品類目關(guān)聯(lián)度的確定裝置,包括節(jié)點(diǎn)確定模塊,用于針對商品類目樹中每個(gè)商品類目對應(yīng)的節(jié)點(diǎn),確定該節(jié)點(diǎn)的父節(jié)點(diǎn);控制模塊,針對該節(jié)點(diǎn)包含的每個(gè)商品標(biāo)題信息,進(jìn)行以下步驟對該商品標(biāo)題信息分詞,確定該商品標(biāo)題信息對應(yīng)的每個(gè)詞組,其中所述詞組包括至少一個(gè)分詞,針對每個(gè)詞組,根據(jù)該詞組在該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)次數(shù),該詞組在該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)的次數(shù),該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量及與該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量,確定該詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值;關(guān)聯(lián)度確定模塊,用于針對每個(gè)節(jié)點(diǎn)分別保存每個(gè)詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值。本申請實(shí)施例提供的一種基于上述關(guān)聯(lián)度的確定裝置確定商品類目信息的裝置,包括分詞模塊,用于接收獲取的商品標(biāo)題信息,對該商品標(biāo)題信息進(jìn)行分詞,確定該商品標(biāo)題信息對應(yīng)的每個(gè)詞組,其中該詞組中包括至少一個(gè)分詞;查找模塊,用于針對每個(gè)詞組及與根節(jié)點(diǎn)連接的每個(gè)子節(jié)點(diǎn),根據(jù)保存的每個(gè)詞組與每個(gè)節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值,查找每個(gè)詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度;商品類目確定模塊,用于根據(jù)查找到的每個(gè)詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度,確定包含該商品信息的節(jié)點(diǎn);將該子節(jié)點(diǎn)作為父節(jié)點(diǎn),確定該父節(jié)點(diǎn)的子節(jié)點(diǎn),直到將所述商品標(biāo)題信息對應(yīng)的商品掛靠到葉子節(jié)點(diǎn)對應(yīng)的商品類目。本申請實(shí)施例提供了一種商品類目信息的確定方法及裝置,所述方法中,當(dāng)獲取到商品標(biāo)題信息后,對該商品標(biāo)題信息分詞構(gòu)成相應(yīng)的詞組,針對每個(gè)詞組及與根節(jié)點(diǎn)連接的每個(gè)子節(jié)點(diǎn),根據(jù)保存的每個(gè)詞組與每個(gè)節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值,查找每個(gè)詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度,并確定包含該商品信息的節(jié)點(diǎn);將該子節(jié)點(diǎn)作為父節(jié)點(diǎn),確定該父節(jié)點(diǎn)的子節(jié)點(diǎn),直到將所述商品標(biāo)題信息對應(yīng)的商品掛靠到葉子節(jié)點(diǎn)對應(yīng)的商品類目。由于在本申請實(shí)施例中通過確定每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度,并且在確定的過程中從根節(jié)點(diǎn)開始依次查找包含商品信息的節(jié)點(diǎn),由于與根節(jié)點(diǎn)連接的子節(jié)點(diǎn)的數(shù)量,遠(yuǎn)遠(yuǎn)小于商品類目樹中包含的葉子節(jié)點(diǎn)的數(shù)量, 因此可以大大縮短確定商品掛靠的葉子節(jié)點(diǎn)的時(shí)間,并且由于本申請實(shí)施例中,由與根節(jié)點(diǎn)連接的子節(jié)點(diǎn)依次確定包含該商品信息的子節(jié)點(diǎn),從而可以保證商品掛靠的商品類目確定的準(zhǔn)確性。
圖IA為本申請實(shí)施例提供的一種商品類目樹的結(jié)構(gòu)示意圖;圖IB為本申請實(shí)施例提供的商品類目信息的確定過程;圖2A為本申請實(shí)施例提供的商品信息與商品類目關(guān)聯(lián)度的確定過程,涉及的各個(gè)系統(tǒng)的組成結(jié)構(gòu)示意圖;圖2B為本申請實(shí)施例提供的商品信息與商品類目關(guān)聯(lián)度的確定過程;圖3為本申請實(shí)施例提供的該apache模塊具體的可以通過控制模塊和確定模塊實(shí)現(xiàn)結(jié)構(gòu)示意圖;圖4為本申請實(shí)施例提供的商品類目信息的詳細(xì)確定過程;圖5為本申請實(shí)施例提供的一種商品信息與商品類目關(guān)聯(lián)度的確定裝置結(jié)構(gòu)示意圖;圖6為本申請實(shí)施例提供的一種基于上述圖6的關(guān)聯(lián)度的確定裝置確定商品類目信息的裝置結(jié)構(gòu)示意圖。
具體實(shí)施例方式本申請實(shí)施例為了提高確定商品所掛靠的商品類目的準(zhǔn)確性及效率,提供了一種商品類目信息的確定方法、系統(tǒng)及裝置,該方法通過確定每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度,并且在確定的過程中從根節(jié)點(diǎn)開始依次查找包含商品信息的節(jié)點(diǎn),由于與根節(jié)點(diǎn)連接的子節(jié)點(diǎn)的數(shù)量,遠(yuǎn)遠(yuǎn)小于商品類目樹中包含的葉子節(jié)點(diǎn)的數(shù)量,因此可以大大縮短確定商品掛靠的葉子節(jié)點(diǎn)的時(shí)間,并且由于本申請實(shí)施例中,由與根節(jié)點(diǎn)連接的子節(jié)點(diǎn)依次確定包含該商品信息的子節(jié)點(diǎn),從而可以保證商品掛靠的商品類目確定的準(zhǔn)確性。下面結(jié)合說明書附圖,對本申請實(shí)施例進(jìn)行詳細(xì)說明。具體的,在本申請實(shí)施例中,數(shù)據(jù)庫中保存有每個(gè)商品信息與其掛靠的商品類目信息的關(guān)系,該關(guān)系為用戶根據(jù)其提供的商品信息與服務(wù)器上提供的商品類目的對應(yīng)關(guān)系而選擇建立的。在該數(shù)據(jù)庫中保存的該商品信息與其掛靠的商品類目信息的關(guān)系可以以以下格式存在商品ID-商品標(biāo)題信息-商品歸屬的商品類目ID。
其中,該商品歸屬的商品類目為商品類目樹中的葉子節(jié)點(diǎn)對應(yīng)的商品類目。在該商品類目樹中,只存在該葉子節(jié)點(diǎn)的父節(jié)點(diǎn)等上層節(jié)點(diǎn),不存在該葉子節(jié)點(diǎn)的子節(jié)點(diǎn)等下層節(jié)點(diǎn),即該商品信息只能掛靠在葉子節(jié)點(diǎn)對應(yīng)的商品類目下。另外,由于商品類目樹中存在父節(jié)點(diǎn)與子節(jié)點(diǎn)之間的父子關(guān)系,當(dāng)確定每個(gè)商品掛靠的商品類目時(shí),通過與根節(jié)點(diǎn)連接的子節(jié)點(diǎn)依次確定對應(yīng)的每個(gè)節(jié)點(diǎn),最終掛靠到相應(yīng)的葉子節(jié)點(diǎn)下的。因此在商品類目樹中,掛靠了商品信息的葉子節(jié)點(diǎn)對應(yīng)的父節(jié)點(diǎn),一直到根節(jié)點(diǎn)都包含該商品的信息。圖IA為本申請實(shí)施例提供的一種商品類目樹的結(jié)構(gòu)示意圖,在該圖IA中根節(jié)點(diǎn)的子節(jié)點(diǎn)包括“綠植園藝” “3C數(shù)碼”和“女裝”等商品類目對應(yīng)的節(jié)點(diǎn),其中商品類目“綠植園藝”對應(yīng)的節(jié)點(diǎn)的子節(jié)點(diǎn)包括“花卉盆栽”和“花種”商品類目的節(jié)點(diǎn),另外,“花卉盆栽”商品類目對應(yīng)的節(jié)點(diǎn)又包括子節(jié)點(diǎn)“球根花卉”以及“芳香花卉”對應(yīng)的商品類目,并且“球根花卉”以及“芳香花卉”為葉子節(jié)點(diǎn)對應(yīng)的商品類目,商品信息掛靠在葉子節(jié)點(diǎn)對應(yīng)的商 品類目下。當(dāng)該商品信息掛靠在葉子類目下時(shí),例如,掛靠在“球根花卉”商品類目對應(yīng)的葉子節(jié)點(diǎn)下,此時(shí),該葉子節(jié)點(diǎn)的父節(jié)點(diǎn)“花卉盆栽”包含該商品信息,并且“花卉盆栽”節(jié)點(diǎn)的父節(jié)點(diǎn)“綠植園藝”也包含該商品信息。這是因?yàn)?,?dāng)某一商品信息掛靠在對應(yīng)的商品類目對應(yīng)的葉子節(jié)點(diǎn)下后,在數(shù)據(jù)庫中除了保存該商品信息與其掛靠的商品類目信息,還保存有通過該商品類目樹的節(jié)點(diǎn)到達(dá)該葉子節(jié)點(diǎn)的路徑,因此,在數(shù)據(jù)庫中保存的該商品信息與其掛靠的商品類目信息的關(guān)系可以以以下格式存在商品ID-商品標(biāo)題信息-商品歸屬的商品類目的祖節(jié)點(diǎn)ID-商品歸屬的商品類目的父節(jié)點(diǎn)ID-商品歸屬的商品類目ID。圖IB為本申請實(shí)施例提供的商品類目信息的確定過程,該過程包括以下步驟SlOl :接收獲取的商品標(biāo)題信息,對該商品標(biāo)題信息進(jìn)行分詞,確定該商品標(biāo)題信息對應(yīng)的每個(gè)詞組,其中,每個(gè)詞組中包括至少一個(gè)分詞。其中,獲取商品標(biāo)題信息可以是,將接收到的用戶輸入的商品標(biāo)題信息作為獲取的商品標(biāo)題信息,也可以是在將其他服務(wù)器的商品信息納入自身數(shù)據(jù)庫中時(shí),將其他服務(wù)器中對該商品描述的商品標(biāo)題信息,作為獲取的商品標(biāo)題信息。在本申請實(shí)施例中當(dāng)獲取了商品標(biāo)題信息后,需對該商品標(biāo)題信息進(jìn)行分詞,獲取每個(gè)分詞后,可以將至少一個(gè)分詞組成一個(gè)詞組。S102:針對每個(gè)詞組及與根節(jié)點(diǎn)連接的每個(gè)子節(jié)點(diǎn),根據(jù)保存的每個(gè)詞組與每個(gè)節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值,查找每個(gè)詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度。在服務(wù)器中保存有每個(gè)詞組與每個(gè)節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值,即保存了該每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度值,當(dāng)確定了每個(gè)詞組后,可以根據(jù)保存的上述關(guān)聯(lián)度值,確定該商品標(biāo)題信息中每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度。具體的,當(dāng)該詞組中包含一個(gè)分詞時(shí),所述查找每個(gè)詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度包括針對每個(gè)詞組,根據(jù)保存的每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度值,確定包含該詞組的每個(gè)商品類目對應(yīng)的子節(jié)點(diǎn);針對確定的每個(gè)子節(jié)點(diǎn),將保存的該詞組與該子節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值,作為查找到的該詞組與該子節(jié)點(diǎn)的關(guān)聯(lián)度。S103:根據(jù)查找到的每個(gè)詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度,確定包含該商品信息的節(jié)點(diǎn)。確定包含該商品信息的節(jié)點(diǎn),包括針對每個(gè)詞組,根據(jù)查找到的該詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度,選擇關(guān)聯(lián)度較大的設(shè)定數(shù)量的子節(jié)點(diǎn);針對選擇的每個(gè)子節(jié)點(diǎn)對應(yīng)的商品類目,根據(jù)該商品標(biāo)題信息中每個(gè)詞組與該商品類目的關(guān)聯(lián)度,確定該商品標(biāo)題信息與該商品類目的總關(guān)聯(lián)度;將總關(guān)聯(lián)度最大的商品類目,確定為包含該商品信息的節(jié)點(diǎn)對應(yīng)的商品類目。S104:將該子節(jié)點(diǎn)作為父節(jié)點(diǎn),確定該父節(jié)點(diǎn)的子節(jié)點(diǎn),直到將所述商品標(biāo)題信息對應(yīng)的商品掛靠到葉子節(jié)點(diǎn)對應(yīng)的商品類目。
本申請實(shí)施例提供的商品類目信息的確定方法,通過確定每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度,并且在確定的過程中從根節(jié)點(diǎn)開始依次查找包含商品信息的節(jié)點(diǎn),由于與根節(jié)點(diǎn)連接的子節(jié)點(diǎn)的數(shù)量,遠(yuǎn)遠(yuǎn)小于商品類目樹中包含的葉子節(jié)點(diǎn)的數(shù)量,因此可以大大縮短確定商品掛靠的葉子節(jié)點(diǎn)的時(shí)間,并且由于本申請實(shí)施例中,由與根節(jié)點(diǎn)連接的子節(jié)點(diǎn)依次確定包含該商品信息的子節(jié)點(diǎn),從而可以保證商品掛靠的商品類目確定的準(zhǔn)確性。在確定商品歸屬的商品類目之前,需要確定并保存每個(gè)詞組與每個(gè)節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值,該每個(gè)詞組與商品類目的關(guān)聯(lián)度值可以根據(jù)經(jīng)驗(yàn)值設(shè)置,但是為了提高確定的商品類目信息的準(zhǔn)確性,本申請實(shí)施例提供了一種商品信息與商品類目關(guān)聯(lián)度的確定方法。圖2A為本申請實(shí)施例提供的商品信息與商品類目關(guān)聯(lián)度的確定及商品類目信息確定過程,由于在本申請實(shí)施例中當(dāng)用戶上傳商品信息時(shí),通過登錄服務(wù)器將商品信息錄入,服務(wù)器為用戶提供其保存的商品類目樹,用戶通過由根節(jié)點(diǎn)不斷的選擇子孫節(jié)點(diǎn),為其商品信息選擇一個(gè)葉子節(jié)點(diǎn)對應(yīng)的商品類目,此時(shí)在服務(wù)器中將該商品信息掛靠在該商品類目下,其中,該服務(wù)器可以為WEB服務(wù)器。當(dāng)服務(wù)器將該商品信息掛靠在該商品類目下后,將該信息發(fā)送到數(shù)據(jù)庫,由于涉及數(shù)據(jù)信息量巨大,因此可采用云計(jì)算平臺(tái)實(shí)現(xiàn),即由數(shù)據(jù)庫周期性的將該信息導(dǎo)入到云計(jì)算平臺(tái),例如該云計(jì)算平臺(tái)可以為Hadoop。由于商品信息與其掛靠的商品類目信息的都保存到了云計(jì)算平臺(tái),因此云計(jì)算平臺(tái)可以對自身保存的信息進(jìn)行分析,確定每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度值。具體的云計(jì)算平臺(tái)在確定每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度值時(shí),可以采用分布式分析系統(tǒng)確定。云計(jì)算平臺(tái)確定了每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度值后,將每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度的信息發(fā)送到服務(wù)器保存,以便服務(wù)器在確定商品類目信息時(shí),可以根據(jù)該每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度值確定。圖2B為本申請實(shí)施例提供的商品信息與商品類目關(guān)聯(lián)度的確定過程,該過程包括以下步驟S201 :針對商品類目樹中每個(gè)商品類目對應(yīng)的節(jié)點(diǎn),確定該節(jié)點(diǎn)的父節(jié)點(diǎn)。具體的,在本申請實(shí)施例中,商品類目為每種商品所歸屬的種類,每個(gè)商品類目與商品類目樹中的某個(gè)節(jié)點(diǎn)對應(yīng),最終掛靠商品信息的節(jié)點(diǎn)為葉子節(jié)點(diǎn)。并且商品類目樹中由根節(jié)點(diǎn)開始,節(jié)點(diǎn)之間存在連接關(guān)系,對于根節(jié)點(diǎn)存在與其連接的子節(jié)點(diǎn),對于葉子節(jié)點(diǎn)存在與其連接的父節(jié)點(diǎn),對應(yīng)中間節(jié)點(diǎn)即存在與其連接的父節(jié)點(diǎn),也存在與其連接的子節(jié)點(diǎn)。當(dāng)確定商品信息與商品類目的關(guān)聯(lián)度時(shí),為了保證確定的商品類目的準(zhǔn)確性,需要針對每個(gè)節(jié)點(diǎn)確定相應(yīng)詞組與該節(jié)點(diǎn)的關(guān)聯(lián)度值。S202 :針對該節(jié)點(diǎn)包含的每個(gè)商品標(biāo)題信息,進(jìn)行以下步驟對該商品標(biāo)題信息分詞,確定該商品標(biāo)題信息對應(yīng)的每個(gè)詞組,其中所述詞組包括至少一個(gè)分詞,針對每個(gè)詞組,根據(jù)該詞組在該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)次數(shù),該詞組在該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)的次數(shù),該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量及與該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量,確定該詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值。具體的,確定該詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值包括根據(jù)該詞組在該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)的次數(shù),及該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量,確定該詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的第一權(quán)重值;根據(jù)該詞組在該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)次數(shù),該詞組在該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)的次數(shù),該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量及與該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量,確定該詞組與該父節(jié)點(diǎn)對應(yīng)的商品類目中其他商品類目的第二權(quán)重值;確定第一權(quán)重值與第二權(quán)重值的差值,根據(jù)該差值與第一權(quán)重值的商,確定該詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值。
S203 :針對每個(gè)節(jié)點(diǎn)分別保存每個(gè)詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值。在本申請實(shí)施例中在確定詞組與商品類目的關(guān)聯(lián)度時(shí),是針對該商品類目樹中的每個(gè)節(jié)點(diǎn)對應(yīng)的商品類目,分別確定該商品類目與相應(yīng)詞組的關(guān)聯(lián)度。在確定每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度值時(shí),由于每個(gè)節(jié)點(diǎn)對應(yīng)的商品類目包含的商品信息是可知的,因此可以針對每個(gè)節(jié)點(diǎn),確定該節(jié)點(diǎn)的父節(jié)點(diǎn),針對該節(jié)點(diǎn)包含的每個(gè)商品的商品標(biāo)題信息,確定該商品標(biāo)題信息中的每個(gè)詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值。并且在本申請實(shí)施例中可以針對每兩個(gè)存在父子關(guān)系的節(jié)點(diǎn),確定該子節(jié)點(diǎn)包含的每個(gè)商品的商品標(biāo)題信息中每個(gè)詞組與該子節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值。仍以圖IA為例,當(dāng)確定每個(gè)詞組與“花卉盆栽”節(jié)點(diǎn)的關(guān)聯(lián)度時(shí),根據(jù)該商品類目樹可知該節(jié)點(diǎn)的父節(jié)點(diǎn)為“綠植園藝”節(jié)點(diǎn),針對“花卉盆栽”節(jié)點(diǎn)包含的每個(gè)商品的商品標(biāo)題信息,確定該商品標(biāo)題信息中的每個(gè)詞組與該“花卉盆栽”節(jié)點(diǎn)的關(guān)聯(lián)度。當(dāng)確定每個(gè)詞組與“綠植園藝”節(jié)點(diǎn)關(guān)聯(lián)度時(shí),根據(jù)該商品類目樹可知該節(jié)點(diǎn)的父節(jié)點(diǎn)為根節(jié)點(diǎn),針對“綠植園藝”節(jié)點(diǎn)包含的每個(gè)商品的商品標(biāo)題信息,確定該商品標(biāo)題信息中的每個(gè)詞組與該“綠植園藝”節(jié)點(diǎn)的關(guān)聯(lián)度值。具體的在進(jìn)行關(guān)聯(lián)度值的計(jì)算時(shí),可以以葉子節(jié)點(diǎn)到根節(jié)點(diǎn)的方向,依次確定每個(gè)節(jié)點(diǎn)與每個(gè)詞組的關(guān)聯(lián)度值,也可以以根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的方向,依次確定每個(gè)節(jié)點(diǎn)與每個(gè)詞組的關(guān)聯(lián)度值。具體的在確定每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度值時(shí),針對該商品類目對應(yīng)的節(jié)點(diǎn)中包含的每個(gè)商品的商品標(biāo)題信息,將該商品標(biāo)題信息進(jìn)行分詞,將其中至少一個(gè)分詞構(gòu)成詞組,確定該商品標(biāo)題信息對應(yīng)的每個(gè)詞組,針對每個(gè)詞組根據(jù)該詞組與該節(jié)點(diǎn)的父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)次數(shù),該詞組在該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)的次數(shù),該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量及與該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量,確定該詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值。具體的確定該詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值包括根據(jù)該詞組在該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)的次數(shù),及該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量,確定該詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的第一權(quán)重值;
根據(jù)該詞組在該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)次數(shù),該詞組在該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)的次數(shù),該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量及與該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量,確定該詞組與該父節(jié)點(diǎn)對應(yīng)的商品類目中其他商品類目的第二權(quán)重值;確定第一權(quán)重值與第二權(quán)重值的差值,根據(jù)該差值與第一權(quán)重值的商,確定該詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值。確定該詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的第一權(quán)重值,包括根據(jù)該詞組在該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)的次數(shù),及該節(jié)點(diǎn)對應(yīng)的商品類目包含商品數(shù)量的商值,確定第一權(quán)重值。下面以一個(gè)具體的例子進(jìn)行說明。當(dāng)商品ID為“1000”的商品信息掛靠在“球根 花卉”商品類目對應(yīng)的葉子節(jié)點(diǎn)下時(shí),根據(jù)商品類目樹,可知“球根花卉”商品類目對應(yīng)的葉子節(jié)點(diǎn),其父節(jié)點(diǎn)對應(yīng)的商品類目為“花卉盆栽”。當(dāng)商品ID為“1000”的商品信息的商品標(biāo)題信息為“風(fēng)信子水培紫色風(fēng)信子種球可盆栽”,將該商品標(biāo)題信息進(jìn)行分詞,針對分詞“風(fēng)信子”構(gòu)成的詞組,確定詞組風(fēng)信子與商品類目“球根花卉”的關(guān)聯(lián)度值。例如與“花卉盆栽”商品類目關(guān)聯(lián)的商品數(shù)量為1623912,掛靠在“球根花卉“商品類目下的商品數(shù)量為104286,并且詞組“風(fēng)信子”在“球根花卉”商品類目下的商品標(biāo) 題信息中出現(xiàn)的次數(shù)為6588,在與“花卉盆栽”商品類目關(guān)聯(lián)的商品的商品標(biāo)題信息中出現(xiàn)次數(shù)為20683,則可知風(fēng)信子相對于其所掛靠的“球根花卉”商品類目的第一權(quán)重值為6588/104286,風(fēng)信子與該“花卉盆栽”商品類目中其他商品類目的第二權(quán)重值為(20683-6588) / (1623912-104286),因此可知風(fēng)信子與“球根花卉“商品類目的關(guān)聯(lián)度值為[6588/104286-(20683-6588)/(1623912-104286)]/(6588/104286),即為 85. 3%0由于該商品標(biāo)題信息“風(fēng)信子水培紫色風(fēng)信子種球可盆栽”包含在“花卉盆栽”節(jié)點(diǎn)中,當(dāng)確定該商品標(biāo)題信息中每個(gè)詞組與“花卉盆栽”節(jié)點(diǎn)的關(guān)聯(lián)度值時(shí),根據(jù)該“花卉盆栽”節(jié)點(diǎn)的父節(jié)點(diǎn)“綠植園藝”包含的每個(gè)商品的信息確定,其過程與上述過程相同,這里就不一一贅述。上述為確定詞組與每個(gè)商品類目的關(guān)聯(lián)度的過程,并且該過程是以該詞組包括一個(gè)分詞進(jìn)行說明的,由于該分詞中可以包括至少一個(gè)分詞,當(dāng)該詞組中包含兩個(gè)以上的分詞時(shí),將該兩個(gè)以上的分詞作為一個(gè)詞組,根據(jù)上述確定方法,確定該詞組與每個(gè)商品類目的關(guān)聯(lián)度。該兩個(gè)以上分詞可以是該商品標(biāo)題信息中的任意兩個(gè)以上的分詞,并且該兩個(gè)以上分詞的組成前后順序不限于該商品標(biāo)題信息中的該兩個(gè)以上分詞的前后順序,例如當(dāng)詞組中包含兩個(gè)分詞時(shí),該詞組中的兩個(gè)分詞可以為“風(fēng)信子”和“紫色”,也可以是“紫色”和“水培”,或者是“盆栽”和“水培”等,只要是任意兩個(gè)分詞構(gòu)成的詞組即可。這是因?yàn)閷τ谏唐窐?biāo)題信息中可能包括多個(gè)產(chǎn)品詞對應(yīng)的分詞,根據(jù)上述方式確定每個(gè)分詞與對應(yīng)商品類目的關(guān)聯(lián)度相差不大,為了進(jìn)一步提高確定商品類目的準(zhǔn)確性,需要結(jié)合包含至少兩個(gè)分詞的詞組,與每個(gè)商品類目的關(guān)聯(lián)度值,確定每個(gè)商品所掛靠的商品類目。例如對于3C行業(yè)中的數(shù)碼產(chǎn)品和數(shù)碼產(chǎn)品配件,經(jīng)常出現(xiàn)商品標(biāo)題信息多個(gè)分詞與多個(gè)商品類目的關(guān)聯(lián)度相當(dāng),僅依據(jù)單個(gè)分詞與每個(gè)商品類目的關(guān)聯(lián)度,很難通過商品標(biāo)題信息判斷一個(gè)商品究竟屬于哪個(gè)商品類目。例如,當(dāng)商品標(biāo)題信息為“品勝正品三星Galaxy S i9000手機(jī)電池”,根據(jù)該商品標(biāo)題信息,可以確定該商品的信息與商品類目“手機(jī)”和“手機(jī)電池”的關(guān)聯(lián)度不相上下。為了解決這個(gè)問題,可以確定包含至少兩個(gè)分詞的詞組,對于每個(gè)商品類目的關(guān)聯(lián)度,例如確定詞組“手機(jī)電池”與商品類目“手機(jī)電池”的關(guān)聯(lián)度,通過該方法,可以確定該商品的信息與商品類目“手機(jī)電池”的關(guān)聯(lián)度較大。這里為了簡便,當(dāng)該詞組中包含一個(gè)分詞時(shí),可以將詞組與每個(gè)商品類目的關(guān)聯(lián)度值作為一階表征向量,將至少兩個(gè)分詞組成的每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度值作為二階表征向量。當(dāng)確定并保存了每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度值后,獲取了商品標(biāo)題信息后,可以根據(jù)該商品標(biāo)題信息,確定該商品標(biāo)題信息對應(yīng)的商品所歸屬的商品類目。由于將每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度保存在了服務(wù)器中,在確定每個(gè)商品歸屬的商品類目時(shí),可以通過線上實(shí)時(shí)預(yù)測系統(tǒng)進(jìn)行查找并確定每個(gè)商品所歸屬的商品類目,其中該線上實(shí)時(shí)預(yù)測系統(tǒng)可以位于服務(wù)器中,例如,為植入了 Apache模塊的WEB服務(wù)器。該Apache模塊具體的可以通過控制模塊和確定模塊實(shí)現(xiàn),如圖3所示。
在確定商品歸屬的商品類目時(shí),可以是用戶在將商品信息上傳到服務(wù)器時(shí),向服務(wù)器發(fā)送商品類目確定請求,當(dāng)服務(wù)器接收到該商品類目確定請求后,提示用戶輸入該商品的商品標(biāo)題信息,根據(jù)該商品標(biāo)題信息,以及保存的每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度值,確定每個(gè)商品歸屬的商品類目。也可以是在服務(wù)器在將其他服務(wù)器中保存的商品信息納入自身的數(shù)據(jù)庫中時(shí),識(shí)別并獲取到每個(gè)商品的商品標(biāo)題信息后,根據(jù)保存的每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度值,確定每個(gè)商品歸屬的商品類目。其具體的實(shí)現(xiàn)過程,可以根據(jù)需要靈活設(shè)定。在確定商品歸屬商品類目的過程中,當(dāng)獲取了商品標(biāo)題信息后,為了提高確定的商品歸屬的商品類目的準(zhǔn)確性,可以首先對該商品標(biāo)題信息進(jìn)行歸一化處理,確定將該商品標(biāo)題信息中的每個(gè)字符,對應(yīng)的標(biāo)準(zhǔn)字符,例如當(dāng)商品標(biāo)題信息中存在英文的大寫和小寫時(shí),服務(wù)器認(rèn)為的標(biāo)準(zhǔn)字符為英文大寫,則將該商品標(biāo)題信息中的英文小寫,調(diào)整為大寫。之后將該商品標(biāo)題信息進(jìn)行分詞,并根據(jù)保存的停用詞信息表,過濾掉保存在該停用詞信息表中的分詞,針對過濾后得到的每個(gè)分詞,確定該商品歸屬的商品類目。另外,由于在本申請實(shí)施例中可以確定每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度,該詞組包括至少一個(gè)分詞,因此在服務(wù)器在保存每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度值時(shí),可以針對一個(gè)分詞,兩個(gè)或多個(gè)分詞分別保存每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度值,即在服務(wù)器中保存有關(guān)聯(lián)度關(guān)系表,其中一個(gè)表中記錄的為每個(gè)分詞與每個(gè)商品類目的關(guān)聯(lián)度值,另一個(gè)表中記錄的為由至少兩個(gè)分詞構(gòu)成的詞組與每個(gè)商品類目的關(guān)聯(lián)度值。當(dāng)確定每個(gè)商品歸屬的商品類目時(shí),由于已經(jīng)確定了每個(gè)商品標(biāo)題信息中的每個(gè)分詞,將至少一個(gè)分詞組成一個(gè)詞組,可以首先根據(jù)與根節(jié)點(diǎn)連接的該根節(jié)點(diǎn)的每個(gè)子節(jié)點(diǎn),根據(jù)保存的該每個(gè)子節(jié)點(diǎn)與每個(gè)詞組的關(guān)聯(lián)度值,確定每個(gè)詞組與該每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度,根據(jù)該商品標(biāo)題信息中每個(gè)詞組與該每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度,確定包含該商品標(biāo)題信息的子節(jié)點(diǎn),之后將該子節(jié)點(diǎn)作為父節(jié)點(diǎn),確定該父節(jié)點(diǎn)的子節(jié)點(diǎn),依據(jù)上述步驟,確定該商品標(biāo)題信息中每個(gè)詞組與該每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度,確定包含該商品標(biāo)題信息的子節(jié)點(diǎn),直到將所述商品標(biāo)題信息對應(yīng)的商品掛靠到葉子節(jié)點(diǎn)對應(yīng)的商品類目。并且在確定該商品標(biāo)題信息對應(yīng)的商品掛靠的葉子節(jié)點(diǎn)對應(yīng)的商品類目時(shí),可以首先針對每個(gè)分詞,分別查找每個(gè)分詞與每個(gè)商品類目的關(guān)聯(lián)度。為了提高確定的商品類目的準(zhǔn)確性,只有在某一分詞與某一商品類目的關(guān)聯(lián)度大于設(shè)定的關(guān)聯(lián)度閾值時(shí),才確定該分詞與其他分詞構(gòu)成的詞組,查找該詞組與每個(gè)商品類目的關(guān)聯(lián)度。圖4為本申請實(shí)施例提供的商品歸屬商品類目的詳細(xì)確定過程,該過程包括以下步驟S401 :服務(wù)器接收用戶所在的客戶端發(fā)送的商品類目確定請求;S402:服務(wù)器根據(jù)接收到的商品類目確定請求,提示并獲取用戶輸入的商品標(biāo)題
信息;S403 :對該商品標(biāo)題信息進(jìn)行歸一化、分詞及過濾處理,得到該商品標(biāo)題信息對應(yīng)的每個(gè)分詞;S404:提取該商品標(biāo)題信息對應(yīng)的分詞中一個(gè),將提取的該分詞作為當(dāng)前關(guān)聯(lián)度 確定的分詞,針對該提取的分詞,以及與根節(jié)點(diǎn)連接的每個(gè)子節(jié)點(diǎn),根據(jù)保存的每個(gè)詞組與該每個(gè)子節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值,查找該詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度;S405:判斷查找到的該分詞與每個(gè)子節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度中,是否存在超過設(shè)定的關(guān)聯(lián)度閾值的關(guān)聯(lián)度,當(dāng)存在時(shí),進(jìn)行步驟S407,否則,進(jìn)行步驟S406 ;S406 :判斷該分詞是否為該商品標(biāo)題信息中的最后一個(gè)分詞,當(dāng)判斷結(jié)果為是時(shí),進(jìn)行步驟S408,否則,轉(zhuǎn)步驟S404 ;S407 :將該分詞與該分詞之后的至少一個(gè)分詞構(gòu)成詞組,針對該詞組,以及與根節(jié)點(diǎn)連接的每個(gè)子節(jié)點(diǎn),根據(jù)保存的每個(gè)詞組與該每個(gè)子節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值,查找該詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度;S408:針對查找的每個(gè)詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度,選擇關(guān)聯(lián)度較大的設(shè)定數(shù)量的子節(jié)點(diǎn);S409:針對選擇的每個(gè)子節(jié)點(diǎn)對應(yīng)的商品類目,根據(jù)該商品標(biāo)題信息中每個(gè)分詞與該商品類目的關(guān)聯(lián)度,確定該商品標(biāo)題信息與該商品類目的第一總關(guān)聯(lián)度度,根據(jù)每個(gè)詞組與該商品類目的關(guān)聯(lián)度,確定該商品標(biāo)題信息與該商品類目的第二總關(guān)聯(lián)度度;S410:根據(jù)該商品標(biāo)題信息與每個(gè)商品類目的第一總關(guān)聯(lián)度和第二總關(guān)聯(lián)度,確定該商品標(biāo)題信息與每個(gè)商品類目的總關(guān)聯(lián)度,將總關(guān)聯(lián)度最大的商品類目,確定為包含該商品信息的節(jié)點(diǎn)對應(yīng)的商品類目;S411 :將包含該商品信息的節(jié)點(diǎn)作為父節(jié)點(diǎn),確定該父節(jié)點(diǎn)的子節(jié)點(diǎn),返回步驟S404,直到將所述商品標(biāo)題信息對應(yīng)的商品掛靠到葉子節(jié)點(diǎn)對應(yīng)的商品類目。具體的例如,當(dāng)該商品的商品標(biāo)題信息包括分詞A、B、C時(shí),該設(shè)定數(shù)量的商品類目為3,下表為該商品標(biāo)題信息中包含的每個(gè)分詞與每個(gè)商品類目的關(guān)聯(lián)度值
權(quán)利要求
1.一種商品信息與商品類目關(guān)聯(lián)度的確定方法,其特征在于,包括 針對商品類目樹中每個(gè)商品類目對應(yīng)的節(jié)點(diǎn),確定該節(jié)點(diǎn)的父節(jié)點(diǎn); 針對該節(jié)點(diǎn)包含的每個(gè)商品標(biāo)題信息,進(jìn)行以下步驟 對該商品標(biāo)題信息分詞,確定該商品標(biāo)題信息對應(yīng)的每個(gè)詞組,其中所述詞組包括至少一個(gè)分詞; 針對每個(gè)詞組,根據(jù)該詞組在該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)次數(shù),該詞組在該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)的次數(shù),該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量及與該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量,確定該詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值; 針對該節(jié)點(diǎn)分別保存每個(gè)詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值。
2.如權(quán)利要求I所述的方法,其特征在于,所述確定該詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值包括 根據(jù)該詞組在該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)的次數(shù),及該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量,確定該詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的第一權(quán)重值; 根據(jù)該詞組在該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)次數(shù),該詞組在該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)的次數(shù),該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量及與該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量,確定該詞組與該父節(jié)點(diǎn)對應(yīng)的商品類目中其他商品類目的第二權(quán)重值; 確定第一權(quán)重值與第二權(quán)重值的差值,根據(jù)該差值與第一權(quán)重值的商,確定該詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值。
3.如權(quán)利要求2所述的方法,其特征在于,所述確定該詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的第一權(quán)重值,包括 根據(jù)該詞組在該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)的次數(shù),及該節(jié)點(diǎn)對應(yīng)的商品類目包含商品數(shù)量的商值,確定第一權(quán)重值。
4.如權(quán)利要求2所述的方法,其特征在于,所述確定該詞組與該父節(jié)點(diǎn)對應(yīng)的商品類目中其他商品類目的第二權(quán)重值,包括 確定該詞組在該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)次數(shù),及該詞組在該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)的次數(shù)的第一差值; 確定該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量,及該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量的第二差值; 根據(jù)第一差值與第二差值的商值,確定該第二權(quán)重值。
5.一種基于權(quán)利要求I的關(guān)聯(lián)度的確定方法確定商品類目信息的方法,其特征在于,該方法包括 接收商品標(biāo)題信息; 對該商品標(biāo)題信息進(jìn)行分詞,確定該商品標(biāo)題信息對應(yīng)的每個(gè)詞組,其中每個(gè)詞組中包括至少一個(gè)分詞; 根據(jù)針對每個(gè)節(jié)點(diǎn)保存的每個(gè)詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值,查找確定的每個(gè)詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度; 根據(jù)查找到的每個(gè)詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度,確定包含該商品信息的節(jié)點(diǎn);將確定的該子節(jié)點(diǎn)作為父節(jié)點(diǎn),確定該父節(jié)點(diǎn)的子節(jié)點(diǎn),直到將所述商品標(biāo)題信息對應(yīng)的商品信息掛靠到葉子節(jié)點(diǎn)對應(yīng)的商品類目。
6.如權(quán)利要求5所述的方法,其特征在于,當(dāng)該詞組中包含一個(gè)分詞時(shí),所述查找每個(gè)詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度包括 針對每個(gè)詞組,根據(jù)保存的每個(gè)詞組與每個(gè)商品類目的關(guān)聯(lián)度值,確定包含該詞組的每個(gè)商品類目對應(yīng)的子節(jié)點(diǎn); 針對確定的每個(gè)子節(jié)點(diǎn),將保存的該詞組與該子節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值,作為查找到的該詞組與該子節(jié)點(diǎn)的關(guān)聯(lián)度。
7.如權(quán)利要求6所述的方法,其特征在于,所述方法還包括 判斷查找到的該詞組與該子節(jié)點(diǎn)的關(guān)聯(lián)度是否大于設(shè)定的關(guān)聯(lián)度閾值; 當(dāng)判斷結(jié)果為是時(shí),將所述分詞與該商品標(biāo)題信息中的其他分詞組成詞組,查找該詞組與每個(gè)商品類目的關(guān)聯(lián)度。
8.如權(quán)利要求5所述的方法,其特征在于,根據(jù)查找到的每個(gè)詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度,確定包含該商品信息的節(jié)點(diǎn),包括 針對每個(gè)詞組,根據(jù)查找到的該詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度,選擇關(guān)聯(lián)度較大的設(shè)定數(shù)量的子節(jié)點(diǎn); 針對選擇的每個(gè)子節(jié)點(diǎn)對應(yīng)的商品類目,根據(jù)該商品標(biāo)題信息中每個(gè)詞組與該商品類目的關(guān)聯(lián)度,確定該商品標(biāo)題信息與該商品類目的總關(guān)聯(lián)度; 將總關(guān)聯(lián)度最大的商品類目,確定為包含該商品信息的節(jié)點(diǎn)對應(yīng)的商品類目。
9.一種商品信息與商品類目關(guān)聯(lián)度的確定裝置,其特征在于,包括 節(jié)點(diǎn)確定模塊,用于針對商品類目樹中每個(gè)商品類目對應(yīng)的節(jié)點(diǎn),確定該節(jié)點(diǎn)的父節(jié)占. 控制模塊,針對該節(jié)點(diǎn)包含的每個(gè)商品標(biāo)題信息,進(jìn)行以下步驟對該商品標(biāo)題信息分詞,確定該商品標(biāo)題信息對應(yīng)的每個(gè)詞組,其中所述詞組包括至少一個(gè)分詞,針對每個(gè)詞組,根據(jù)該詞組在該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)次數(shù),該詞組在該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品標(biāo)題信息中出現(xiàn)的次數(shù),該節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量及與該父節(jié)點(diǎn)對應(yīng)的商品類目包含的商品數(shù)量,確定該詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值; 關(guān)聯(lián)度確定模塊,用于針對每個(gè)節(jié)點(diǎn)分別保存每個(gè)詞組與該節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值。
10.一種基于權(quán)利要求9的關(guān)聯(lián)度的確定裝置確定商品類目信息的裝置,其特征在于,該裝置包括 分詞模塊,用于接收獲取的商品標(biāo)題信息,對該商品標(biāo)題信息進(jìn)行分詞,確定該商品標(biāo)題信息對應(yīng)的每個(gè)詞組,其中該詞組中包括至少一個(gè)分詞; 查找模塊,用于針對每個(gè)詞組及與根節(jié)點(diǎn)連接的每個(gè)子節(jié)點(diǎn),根據(jù)保存的每個(gè)詞組與每個(gè)節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值,查找每個(gè)詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度; 商品類目確定模塊,用于根據(jù)查找到的每個(gè)詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度,確定包含該商品信息的節(jié)點(diǎn);將該子節(jié)點(diǎn)作為父節(jié)點(diǎn),確定該父節(jié)點(diǎn)的子節(jié)點(diǎn),直到將所述商品標(biāo)題信息對應(yīng)的商品掛靠到葉子節(jié)點(diǎn)對應(yīng)的商品類目。
全文摘要
本申請公開了一種商品類目信息的確定方法及裝置,用以解決現(xiàn)有確定商品類目效率低,準(zhǔn)確性差的問題。該方法當(dāng)獲取到商品標(biāo)題信息后,對該商品標(biāo)題信息分詞構(gòu)成相應(yīng)的詞組,針對每個(gè)詞組及與根節(jié)點(diǎn)連接的每個(gè)子節(jié)點(diǎn),根據(jù)保存的每個(gè)詞組與每個(gè)節(jié)點(diǎn)對應(yīng)的商品類目的關(guān)聯(lián)度值,查找每個(gè)詞組與每個(gè)子節(jié)點(diǎn)的關(guān)聯(lián)度,并確定包含該商品信息的節(jié)點(diǎn);將該子節(jié)點(diǎn)作為父節(jié)點(diǎn),確定該父節(jié)點(diǎn)的子節(jié)點(diǎn),直到將所述商品標(biāo)題信息對應(yīng)的商品掛靠到葉子節(jié)點(diǎn)對應(yīng)的商品類目。如本申請?zhí)岢龅姆桨?,因此可以大大縮短確定商品掛靠的葉子節(jié)點(diǎn)的時(shí)間,保證商品掛靠的商品類目確定的準(zhǔn)確性。
文檔編號G06F17/30GK102737057SQ201110093430
公開日2012年10月17日 申請日期2011年4月14日 優(yōu)先權(quán)日2011年4月14日
發(fā)明者苗文彥, 錢建平 申請人:阿里巴巴集團(tuán)控股有限公司