專利名稱:一種信息處理的方法及設(shè)備的制作方法
技術(shù)領(lǐng)域:
本申請涉及計算機技術(shù)領(lǐng)域,尤其涉及一種信息處理的方法及設(shè)備。
背景技術(shù):
隨著計算機技術(shù)以及通信技術(shù)的不斷發(fā)展,越來越多的用戶在購物網(wǎng)站上搜索、 查詢、購買商品。用戶在搜索、查詢、購買商品之前,會瀏覽賣家用戶在網(wǎng)站上發(fā)布的產(chǎn)品信息,所述賣家用戶可以是企業(yè)實體、廠商或是個人經(jīng)營者。網(wǎng)站服務(wù)器接收到的賣家用戶上報的產(chǎn)品信息是海量信息,為了對接收到的產(chǎn)品信息所表示的產(chǎn)品進行分類以及有效地引導買家用戶獲得其想要的產(chǎn)品信息,網(wǎng)站服務(wù)器通常采用多級類目的方式來劃分產(chǎn)品信息。多級類目體系一般有以下兩個特征特征1 多級類目體系的架構(gòu)相對穩(wěn)定。架構(gòu)相對穩(wěn)定的多級類目體系一方面有助于賣家用戶積累習慣,在向網(wǎng)站服務(wù)器上報產(chǎn)品信息時,按照多級類目體系的要求上報標準格式和內(nèi)容的產(chǎn)品信息。另一方面有助于買家用戶積累習慣,根據(jù)累計的經(jīng)驗在多級類目體系下快速搜索、查找想要獲得的產(chǎn)
min 息。特征2 多級類目體系一般由網(wǎng)站服務(wù)器的運營人員人工運營。人工運營的方式可以將本領(lǐng)域的共有知識固定下來形成標準,有助于多級類目體系在各種網(wǎng)站內(nèi)的推廣使用。為了保持多級類目體系的上述兩點特征,在通過多級類目的方式劃分海量產(chǎn)品信息時,只能按照相對較粗的粒度劃分產(chǎn)品信息,這是因為由于產(chǎn)品信息的多種多樣,如果將產(chǎn)品信息劃分為較細的粒度,則多級類目的最底層葉子類目需要隨著產(chǎn)品信息的改變而變化,不利于多級類目體系的穩(wěn)定;且如果細粒度地劃分產(chǎn)品信息,生成的多級類目的架構(gòu)勢必會非常龐大,增加了人工運營網(wǎng)站服務(wù)器的難度。例如若某一葉子類目下是連衣裙的產(chǎn)品信息,針對其中的某一產(chǎn)品信息,在該產(chǎn)品信息中的產(chǎn)品材質(zhì)由絲質(zhì)修改為棉質(zhì)時,該產(chǎn)品信息仍是該連衣裙葉子類目下的產(chǎn)品信息,葉子類目不發(fā)生變化。若多級類目體系劃分的粒度更細,如某一葉子類目下是絲質(zhì)連衣裙的產(chǎn)品信息,則當某一產(chǎn)品信息中的產(chǎn)品材質(zhì)由絲質(zhì)修改為棉質(zhì)時,需要將該產(chǎn)品信息由絲質(zhì)連衣裙的葉子類目改為棉質(zhì)連衣裙的葉子類目,此時,葉子類目隨著產(chǎn)品信息的改變而變化。同時,由于多級類目體系是樹狀的節(jié)點架構(gòu),因此,每增加一層子類目,多級類目體系中將增加大量的類目,使得多級類目的架構(gòu)非常龐大。由于多級類目體系下的產(chǎn)品信息劃分粒度較粗,因此,即使是多級類目體系中的最底層的葉子類目中包含的產(chǎn)品信息也依舊是海量的。在此情況下,買家用戶通過多級類目體系搜索、查詢產(chǎn)品信息時的查詢時間較長,且查詢的準確度較低,且網(wǎng)站服務(wù)器向買家用戶推薦產(chǎn)品信息時,也只能以葉子類目為單位,向買家用戶推薦葉子類目下的所有產(chǎn)品信息,使得推薦的產(chǎn)品信息差異很大,準確度不能滿足買家用戶的實際需求。除此以外,由于葉子類目中包含的產(chǎn)品信息量很大,屬于同一葉子類目中的產(chǎn)品信息差異也很大,因此,針對葉子類目下的產(chǎn)品信息的操作實現(xiàn)難度也較大。例如在通過價格參數(shù)來自動抓取不安全的產(chǎn)品信息的操作中,一般認為極端價格很可能涉嫌假冒產(chǎn)品,假設(shè)A品牌的產(chǎn)品價格低于100元時表示該產(chǎn)品為假冒產(chǎn)品,而B品牌的同類型產(chǎn)品價格低于20元時表示該產(chǎn)品為假冒產(chǎn)品,如果某一產(chǎn)品的價格為50元,則通過價格參數(shù)的方式很難直接定位出價格為50元的產(chǎn)品是否為假冒產(chǎn)品,還必須結(jié)合該產(chǎn)品的其他信息來判斷,而葉子類目下的產(chǎn)品信息眾多,使得運算量非常大。
發(fā)明內(nèi)容
本申請實施例提供一種信息處理的方法及設(shè)備,用以解決現(xiàn)有技術(shù)中存在的多級類目體系下產(chǎn)品信息劃分粒度較大的問題。一種信息處理的方法,所述方法包括確定葉子類目下各標準產(chǎn)品信息中的至少一個產(chǎn)品屬性參數(shù);利用確定的所述至少一個產(chǎn)品屬性參數(shù)對所述標準產(chǎn)品信息進行劃分,得到所述葉子類目下的多個集合;其中,劃分在同一集合內(nèi)的標準產(chǎn)品信息中的所述至少一個產(chǎn)品屬性參數(shù)的值都相同。一種信息處理的設(shè)備,所述設(shè)備包括標準參數(shù)確定模塊,用于確定葉子類目下各標準產(chǎn)品信息中的至少一個產(chǎn)品屬性參數(shù);第一劃分模塊,用于利用確定的所述至少一個產(chǎn)品屬性參數(shù)對所述標準產(chǎn)品信息進行劃分,得到所述葉子類目下的多個集合,其中,劃分在同一集合內(nèi)的標準產(chǎn)品信息中的所述至少一個產(chǎn)品屬性參數(shù)的值都相同。本申請有益效果如下本申請實施例在葉子類目的基礎(chǔ)上,根據(jù)葉子類目下各標準產(chǎn)品信息中的至少一個產(chǎn)品屬性參數(shù)對所述標準產(chǎn)品信息進行劃分,得到所述葉子類目下的多個集合,由于劃分在同一集合內(nèi)的標準產(chǎn)品信息中的所述至少一個產(chǎn)品屬性參數(shù)的值都相同,因此,最終得到的是產(chǎn)品信息細粒度劃分的集合,買家用戶以細粒度的產(chǎn)品信息集合為基礎(chǔ)搜索、查詢產(chǎn)品信息時,可以有效減少搜索、查詢的時間、提高搜索、查詢的準確性以及提高向買家用戶推薦產(chǎn)品信息的準確度,且細粒度的產(chǎn)品信息集合也能夠提高對產(chǎn)品信息進行操作的可用性,減少對產(chǎn)品信息進行操作時的運算量。
圖1為本申請中的信息處理設(shè)備在多級類目體系下的示意圖;圖2為本申請實施例一中信息處理方法示意圖;圖3為本申請實施例二中信息處理設(shè)備結(jié)構(gòu)示意圖;圖4為本申請實施例二中信息處理設(shè)備中的標準參數(shù)確定模塊結(jié)構(gòu)示意圖。
具體實施例方式為了實現(xiàn)本申請目的,本申請在多類目體系的葉子類目基礎(chǔ)上,對葉子類目下的產(chǎn)品信息按照其產(chǎn)品屬性參數(shù)作進一步劃分,在每一個葉子類目下劃分出多個細粒度的產(chǎn)品信息集合,使得在買家用戶搜索、查詢產(chǎn)品信息時,以細粒度的產(chǎn)品信息集合為基礎(chǔ),可以有效減少搜索、查詢的時間、提高搜索、查詢的準確性以及提高網(wǎng)站服務(wù)器向買家用戶推薦產(chǎn)品信息的準確度,且細粒度的產(chǎn)品信息集合也能夠提高對產(chǎn)品信息進行操作的可用性,減少對產(chǎn)品信息進行操作時的運算量;并且,本申請方案是在多類目體系的葉子類目基礎(chǔ)上執(zhí)行的,對多級類目體系的實質(zhì)性內(nèi)容沒有改變,多級類目體系本身仍然具有上述的兩點特征。本申請各實施例中涉及的信息處理設(shè)備可以應(yīng)用在多級類目體系下,其架構(gòu)如圖 1所示,在多級類目體系的最底層葉子類目下,信息處理設(shè)備對葉子類目中的產(chǎn)品信息進行處理,得到葉子類目下一層次的對產(chǎn)品信息做細粒度劃分的集合和子集合。多級類目體系下的各葉子類目是相對獨立的類目,本申請方案是要在每一葉子類目下繼續(xù)構(gòu)建細粒度的類目結(jié)構(gòu),因此,本實施例方案中可以采用分布式算法,將每一個葉子類目作為一個計算節(jié)點,通過計算機集群對多個葉子類目進行分布式操作,以加快本實施例中的信息處理方案。 在圖1所示的結(jié)構(gòu)下,獨立于多級類目體系下的一個信息處理設(shè)備可以對多級類目體系下的多個葉子類目中的產(chǎn)品信息進行處理。若將本申請方案中的信息處理方案處理后的集合和子集合中的標準產(chǎn)品信息應(yīng)用于向買家用戶推薦產(chǎn)品信息或是買家用戶的產(chǎn)品信息搜索的場景,則用于向買家用戶推送產(chǎn)品信息的服務(wù)器根據(jù)買家用戶的需求(如買家用戶輸入的關(guān)鍵字或是買家用戶在之前一段時間內(nèi)的購買習慣),將集合或子集合中的產(chǎn)品信息推送給買家用戶,或是搜索引擎從集合和子集合中進行關(guān)鍵字搜索,并將搜索得到的產(chǎn)品信息發(fā)送給買家用戶。根據(jù)葉子類目下的產(chǎn)品信息的產(chǎn)品屬性參數(shù)值是否符合設(shè)定的條件,可以將其劃分為標準產(chǎn)品信息和非標準產(chǎn)品信息,標準產(chǎn)品信息的產(chǎn)品屬性參數(shù)值符合設(shè)定的條件, 而非標準產(chǎn)品信息的某些或全部產(chǎn)品屬性參數(shù)值不符合設(shè)定的條件。所述設(shè)定的條件可以是產(chǎn)品屬性參數(shù)值的取值是實際可用的取值。例如某一葉子類目下包含的是針對連衣裙的產(chǎn)品信息,產(chǎn)品信息1中的價格參數(shù)值是100 150元區(qū)間,而產(chǎn)品信息2中的價格參數(shù)值是ABC,并不是表示價格的正數(shù)數(shù)值,說明賣家用戶在填寫產(chǎn)品信息2中的價格參數(shù)值時可能出現(xiàn)失誤,則將產(chǎn)品信息2看作是非標準產(chǎn)品信息。不論是標準產(chǎn)品信息還是非標準產(chǎn)品信息都包括產(chǎn)品屬性參數(shù)和非產(chǎn)品屬性參數(shù),產(chǎn)品屬性參數(shù)表示該產(chǎn)品信息對應(yīng)產(chǎn)品本身的固定屬性,包括但不限于產(chǎn)品的價格、 產(chǎn)品的材質(zhì)、產(chǎn)品的品牌、產(chǎn)品的型號、產(chǎn)品的重量等;非產(chǎn)品屬性參數(shù)表示賣家用戶或是網(wǎng)站服務(wù)器為產(chǎn)品定義的屬性,包括但不限于產(chǎn)品信息所屬的葉子類目、發(fā)布產(chǎn)品的標題、賣家用戶ID、產(chǎn)品的用途等。下面結(jié)合說明書附圖對本申請實施例進行詳細描述。實施例一如圖2所示,為本申請實施例一中信息處理方法示意圖,所述方法包括以下步驟步驟101 確定葉子類目下各標準產(chǎn)品信息中的至少一個產(chǎn)品屬性參數(shù)。假設(shè)本步驟中的葉子類目包含的是針對連衣裙的產(chǎn)品信息,包含的標準產(chǎn)品信息有1000個,其中3個標準產(chǎn)品信息(標準產(chǎn)品信息1、標準產(chǎn)品信息2和標準產(chǎn)品信息3) 的內(nèi)容如表1所示每個標準產(chǎn)品信息中有4個產(chǎn)品屬性參數(shù),分別是連衣裙的價格、連衣裙的材質(zhì)、連衣裙的品牌、連衣裙的型號。
標準產(chǎn)品信息價格材質(zhì)品牌型號標準產(chǎn)品信息1價格區(qū)間1材質(zhì)1A型號1標準產(chǎn)品信息2價格區(qū)間1材質(zhì)1B型號2標準產(chǎn)品信息3價格區(qū)間2材質(zhì)2C型號3 表 1若將表1中的4個產(chǎn)品屬性參數(shù)都作為細粒度產(chǎn)品信息的劃分條件,對葉子類目下的標準產(chǎn)品信息進行劃分,則會由于劃分條件過于復雜導致劃分后得到的集合數(shù)量過多。例如若葉子類目下的所有1000個標準產(chǎn)品信息中共包含4種連衣裙的價格區(qū)間、3種連衣裙的材質(zhì)、50種連衣裙的品牌、5種連衣裙的型號,則最多將會劃分得到4X3X50X5 =3000個集合。而在實際的處理過程中,產(chǎn)品屬性參數(shù)的種類可能會更多,每種產(chǎn)品屬性參數(shù)值的可選項也更多,因此,將全部產(chǎn)品屬性參數(shù)都作為劃分條件的話,運算量會比較大。對此,本步驟提出一種優(yōu)化方案,從全部產(chǎn)品屬性參數(shù)中選擇部分產(chǎn)品屬性參數(shù)來作為本步驟101中確定的產(chǎn)品屬性參數(shù)用于作細粒度的產(chǎn)品信息劃分。具體的選擇產(chǎn)品屬性參數(shù)的操作需要滿足以下兩方面要求一方面,選擇的產(chǎn)品屬性參數(shù)應(yīng)該是對外最能反映該產(chǎn)品信息的參數(shù),即買家用戶常用于搜索、查詢的參數(shù),以便于根據(jù)選擇的產(chǎn)品屬性參數(shù)進行劃分后得到的集合能夠提高用戶搜索、查詢的準確性;另一方面,選擇的產(chǎn)品屬性參數(shù)的值最好是離散型的,以減少在后續(xù)劃分集合時由于標準產(chǎn)品信息中的產(chǎn)品屬性參數(shù)的取值可能性過多導致運算量大的問題。為了滿足以上兩方面要求,本步驟中選擇用戶集合劃分的產(chǎn)品屬性參數(shù)的條件是產(chǎn)品屬性參數(shù)作為搜索條件,在之前的一段設(shè)定時長內(nèi),在葉子類目下進行產(chǎn)品信息搜索的次數(shù)需要達到第一閾值,且該產(chǎn)品屬性參數(shù)的值為離散型。按照上述條件選擇出至少一個產(chǎn)品屬性參數(shù)后用于后續(xù)的集合劃分操作。仍以表 1所示的產(chǎn)品信息中的產(chǎn)品屬性參數(shù)為例,若葉子類目下的所有1000個標準產(chǎn)品信息中共包含4種連衣裙的價格區(qū)間、3種連衣裙的材質(zhì)、50種連衣裙的品牌、5種連衣裙的型號,則可以將其中連衣裙的價格的值的4個區(qū)間看作離散型;連衣裙的材質(zhì)的取值為3種不同的材質(zhì),可以看作是離散型;連衣裙的品牌的取值為50種不同的品牌,可以看作是離散型;連衣裙的型號的取值為5種不同的型號,可以看作是離散型。若買家用戶最常用價格和材質(zhì)為搜索條件進行產(chǎn)品信息的搜索、查詢,則將產(chǎn)品的價格、產(chǎn)品的材質(zhì)作為本步驟中確定的用于集合劃分的產(chǎn)品屬性參數(shù)。步驟102 對所述標準產(chǎn)品信息進行劃分,得到所述葉子類目下的多個集合,其中,劃分在同一集合內(nèi)的標準產(chǎn)品信息中的所述至少一個產(chǎn)品屬性參數(shù)的值都相同。在本步驟中,若用于劃分集合的產(chǎn)品屬性參數(shù)是產(chǎn)品的價格和產(chǎn)品的材質(zhì),其中, 產(chǎn)品的價格有4種價格區(qū)間,產(chǎn)品的材質(zhì)有3種不同的材質(zhì),則劃分后應(yīng)該得到以下12個集合集合1 價格區(qū)間1+材質(zhì)1 ;集合2 價格區(qū)間1+材質(zhì)2 ;集合3 價格區(qū)間1+材質(zhì)3 ;集合4 價格區(qū)間2+材質(zhì)1 ;集合5 價格區(qū)間2+材質(zhì)2 ;集合6 價格區(qū)間2+材質(zhì)3 ; 集合7 價格區(qū)間3+材質(zhì)1 ;集合8 價格區(qū)間3+材質(zhì)2 ;集合9 價格區(qū)間3+材質(zhì)3 ;集合 10 價格區(qū)間4+材質(zhì)1 ;集合11 價格區(qū)間4+材質(zhì)2 ;集合12 價格區(qū)間4+材質(zhì)3。劃分在同一集合中的任意兩個標準產(chǎn)品信息中的價格區(qū)間和材質(zhì)都相同,根據(jù)表 1所示的各標準產(chǎn)品信息的產(chǎn)品屬性參數(shù)描述,標準產(chǎn)品信息1和標準產(chǎn)品信息2應(yīng)劃分在集合1,標準產(chǎn)品信息3應(yīng)劃分在集合5,任意兩個集合中滿足類與類不相似的原則。由于在步驟101中選擇用于細粒度產(chǎn)品信息劃分的產(chǎn)品屬性參數(shù)時,充分考慮到了買家用戶的搜索、查詢習慣以及產(chǎn)品屬性參數(shù)的值為離散型,同時忽略未選擇的產(chǎn)品屬性參數(shù),使得本步驟的劃分結(jié)果不僅能夠正確體現(xiàn)買家用戶的使用習慣,還減少了劃分時的運算量。通過以上步驟101和步驟102的方案,對多級類目體系的葉子類目中的產(chǎn)品信息作了細粒度的劃分,得到了細粒度劃分產(chǎn)品信息的集合,使得買家用戶通過集合內(nèi)的細粒度產(chǎn)品進行搜索、查詢時可以有效減少等待時間、提高準確性以及提高網(wǎng)站服務(wù)器向買家用戶推薦產(chǎn)品信息的準確性,有助于提高對產(chǎn)品信息的各項操作的可行性。例如,在將連衣裙的葉子類目劃分為上述12個集合后,可以根據(jù)買家用戶的搜索條件在相應(yīng)的集合內(nèi)進行搜索,由于集合內(nèi)的產(chǎn)品信息數(shù)量遠遠小于葉子類目下的產(chǎn)品信息數(shù)量,因此,可以大大減少買家用戶搜索等待時間,且保證搜索、查詢的準確性;同時,在向買家用戶推薦產(chǎn)品信息時,根據(jù)向買家用戶推薦特定價位以及材質(zhì)的產(chǎn)品信息,使得推薦的產(chǎn)品信息接近買家用戶實際需求;另外,仍以通過價格參數(shù)來自動抓取不安全的產(chǎn)品信息的操作為例,通過上述方式劃分細粒度的產(chǎn)品信息集合后,可以根據(jù)待測的價格快速定位出相應(yīng)的集合,進而在定位出的集合中查詢是否存在假冒產(chǎn)品,相比于在葉子類目下的操作,可以有效地減少操作的運算量,提高操作執(zhí)行的有效性。在上述步驟101和步驟102的優(yōu)選方案中,根據(jù)最能反映產(chǎn)品信息以及取值為離散型的產(chǎn)品屬性參數(shù)作為劃分集合的產(chǎn)品屬性參數(shù),可以進一步根據(jù)劃分后得到的集合來提高用戶搜索、查詢的準確性,以及減少在劃分集合時由于標準產(chǎn)品信息中的產(chǎn)品屬性參數(shù)的值的可能性過多導致運算量大的問題。步驟103 針對劃分后的每一集合,按照集合中各標準產(chǎn)品信息中的至少一個非產(chǎn)品屬性參數(shù)的相似度,將集合內(nèi)的標準產(chǎn)品信息進一步劃分至多個子集合。本步驟是實現(xiàn)本申請目的的優(yōu)選步驟,在葉子類目下劃分出多個集合后,再針對每一個集合作進一步的劃分,可以在步驟102的基礎(chǔ)上得到更細粒度的標準產(chǎn)品信息的子
集合 ο本步驟的具體做法為首先,針對劃分后得到的每一集合,確定集合中各標準產(chǎn)品信息中的至少一個非產(chǎn)品屬性參數(shù)。仍以步驟101和步驟102中涉及的連衣裙產(chǎn)品信息為例,假設(shè)本步驟中確定的非產(chǎn)品屬性參數(shù)是賣家用戶在網(wǎng)站服務(wù)器上發(fā)布產(chǎn)品的標題,標準產(chǎn)品信息1和標準產(chǎn)品信息2劃分在集合1中,標準產(chǎn)品信息1內(nèi)發(fā)布產(chǎn)品的標題中的關(guān)鍵詞為連衣裙、動物圖案,標準產(chǎn)品信息2內(nèi)發(fā)布產(chǎn)品的標題中的關(guān)鍵詞為連衣裙、條紋圖案。然后,確定同一集合內(nèi)各標準產(chǎn)品信息的至少一個非產(chǎn)品屬性參數(shù)的相似度。由于以發(fā)布產(chǎn)品的標題為非產(chǎn)品屬性參數(shù),因此,本步驟中需要運算同一集合內(nèi)各發(fā)布產(chǎn)品的標題之間的相似度。如通過K-中心點等聚類算法運算相似度。最后,將同一集合內(nèi)各標準產(chǎn)品信息做進一步劃分,得到該集合下的多個子集合, 使得劃分在同一子集合內(nèi)的兩兩標準產(chǎn)品信息中的所述至少一個非產(chǎn)品屬性參數(shù)之間的相似度達到第二閾值。若通過K-中心點等聚類算法運算相似度時,將相似度達到第二閾值的各標準產(chǎn)品信息劃分在同一子集合,不同子集合之間,非產(chǎn)品屬性參數(shù)的相似度較低。本實施例也不限于通過產(chǎn)品信息的其他非產(chǎn)品屬性參數(shù)之間的相似度來劃分子集合,如通過產(chǎn)品用途劃分等。通過上述步驟101 步驟103的方案,完成了針對標準產(chǎn)品信息的細粒度劃分,進一步地,還可以對非標準產(chǎn)品信息作細粒度的劃分。步驟104 確定葉子類目下的非標準產(chǎn)品信息。本步驟也是實現(xiàn)本申請目的的優(yōu)選步驟,雖然葉子類目下的非標準產(chǎn)品信息中的部分或全部產(chǎn)品屬性參數(shù)的值不符合設(shè)定的條件,但如果這些值是賣家用戶上報時填寫失誤或是其他人為誤差造成的,則該非標準產(chǎn)品信息也應(yīng)該真實表示一個產(chǎn)品的相關(guān)信息, 且該非標準產(chǎn)品信息也具有搜索、查詢、向用戶推薦或是用于其它操作的意義,因此,本優(yōu)選步驟就是在已劃分標準產(chǎn)品信息的集合和子集合后,進一步對非標準產(chǎn)品信息的劃分。步驟105 判斷非標準產(chǎn)品信息中的用于劃分集合的全部產(chǎn)品屬性參數(shù)的值是否都不符合設(shè)定的條件,若是,則執(zhí)行步驟106 ;否則執(zhí)行步驟108。非標準產(chǎn)品信息的某些或全部產(chǎn)品屬性參數(shù)值不符合設(shè)定的條件,在本步驟中, 需要判斷在步驟101中確定的用于劃分集合的產(chǎn)品屬性參數(shù)是否是不符合設(shè)定的條件的參數(shù)。例如,在步驟101中確定的用戶劃分集合的產(chǎn)品屬性參數(shù)為產(chǎn)品的價格、產(chǎn)品的材質(zhì),則在本步驟中將確定非標準產(chǎn)品信息中的產(chǎn)品的價格和產(chǎn)品的材質(zhì)這兩種產(chǎn)品屬性參數(shù)是否都不符合設(shè)定的條件。需要說明的是,若在步驟101中將產(chǎn)品信息的全部產(chǎn)品屬性參數(shù)都用于劃分集合,則只要有產(chǎn)品屬性參數(shù)值是不符合設(shè)定的條件的產(chǎn)品信息就定義為非標準產(chǎn)品信息; 若在步驟101中設(shè)定部分產(chǎn)品屬性參數(shù)用于劃分集合,則在本步驟中涉及的非標準產(chǎn)品信息是指用于劃分集合的至少一個產(chǎn)品屬性參數(shù)值為不符合設(shè)定的條件的產(chǎn)品信息。特殊地,若存在某一非標準產(chǎn)品信息,該非標準產(chǎn)品信息中取值不符合設(shè)定的條件的產(chǎn)品屬性參數(shù)并未用于劃分集合,如用于劃分集合的產(chǎn)品屬性參數(shù)為產(chǎn)品的價格、產(chǎn)品的材質(zhì),但該非標準產(chǎn)品信息中取值不符合設(shè)定的條件的產(chǎn)品屬性參數(shù)是產(chǎn)品型號,則該非標準產(chǎn)品信息可以作為標準產(chǎn)品信息的特例,在步驟102中進行劃分;也可以仍舊作為非標準產(chǎn)品信息,在后續(xù)步驟中劃分。步驟106 確定非標準產(chǎn)品信息中的至少一個非產(chǎn)品屬性參數(shù),并判斷是否存在與非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù)的相關(guān)性達到第三閾值的子集合,若存在,則將非標準產(chǎn)品信息劃分至相關(guān)性達到第三閾值且最高的子集合內(nèi),并跳轉(zhuǎn)至步驟111 ;否則,執(zhí)行步驟107。
由于非標準產(chǎn)品信息中的產(chǎn)品屬性參數(shù)無法用于集合劃分,因此,本步驟中利用非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù)來判斷該非標準產(chǎn)品信息應(yīng)該屬于哪一子集合。仍以用于劃分集合的產(chǎn)品屬性參數(shù)為產(chǎn)品的價格、產(chǎn)品的材質(zhì)為例,用于劃分子集合的非產(chǎn)品屬性參數(shù)為發(fā)布產(chǎn)品的標題,則在本步驟中,某一非標準產(chǎn)品信息的產(chǎn)品的價格和產(chǎn)品的材質(zhì)的值不符合設(shè)定的條件,確定該非標準產(chǎn)品信息的發(fā)布產(chǎn)品的標題,通過K-中心點等聚類算法運算該發(fā)布產(chǎn)品的標題與每一子集合中的各標準產(chǎn)品信息的發(fā)布產(chǎn)品的標題的相似度,為減少運算量,可以與每一子集合中的一個標準產(chǎn)品信息的發(fā)布產(chǎn)品的標題進行相似運算,查找出相似度達到第三閾值的標準產(chǎn)品信息所在的子集合,并將該非標準產(chǎn)品信息劃分為相似度最高的標準產(chǎn)品信息所在的子集合。步驟107 將該非標準產(chǎn)品信息劃分至特定集合,并跳轉(zhuǎn)至步驟111。在本實施例中,由于存在某些非標準產(chǎn)品信息的用于劃分集合的產(chǎn)品屬性參數(shù)的值不符合設(shè)定的條件且非產(chǎn)品屬性參數(shù)不與任何集合內(nèi)的子集合相關(guān),則為這一類非標準產(chǎn)品信息單獨設(shè)置一個特定集合。該特定集合與步驟102中劃分的集合滿足類與類之間不相似的原則。步驟108 確定非標準產(chǎn)品信息中用于劃分集合的產(chǎn)品屬性參數(shù)中的值符合設(shè)定的條件的產(chǎn)品屬性參數(shù)。在本步驟中,由于非標準產(chǎn)品信息中部分用于劃分集合的產(chǎn)品屬性參數(shù)中的值符合設(shè)定的條件,因此,可以利用值符合設(shè)定的條件的這部分產(chǎn)品屬性參數(shù)來劃分非標準產(chǎn)
min 息。例如若在步驟101中確定的用于劃分集合的產(chǎn)品屬性參數(shù)為產(chǎn)品的價格、產(chǎn)品的材質(zhì),而某一非標準產(chǎn)品信息的產(chǎn)品的價格的值不符合設(shè)定的條件,但產(chǎn)品的材質(zhì)的值符合設(shè)定的條件,則可以利用產(chǎn)品材質(zhì)這一產(chǎn)品屬性參數(shù)來劃分非標準產(chǎn)品信息。步驟109 根據(jù)步驟108確定的產(chǎn)品屬性參數(shù),確定非標準產(chǎn)品信息所屬的集合。在本步驟中,根據(jù)確定的產(chǎn)品屬性參數(shù)的值以及各集合中的標準產(chǎn)品信息中的該產(chǎn)品屬性參數(shù)的值,查找出與該非標準產(chǎn)品信息的產(chǎn)品屬性參數(shù)的值相同的集合。確定的集合數(shù)量可能不止一個,在此情況下,可以將確定的所有集合執(zhí)行后續(xù)步驟。例如在步驟101中示例中產(chǎn)生了 12個集合,假設(shè)本步驟中的產(chǎn)品屬性參數(shù)是產(chǎn)品的材質(zhì),取值為材質(zhì)1,則本步驟確定的該非標準產(chǎn)品信息所屬的集合可能為集合1、集合4、 集合7以及集合10中的一個。步驟110 根據(jù)非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù),將該非標準產(chǎn)品信息劃分至步驟109確定的集合內(nèi)的一個子集合中。通過步驟109確定了非標準產(chǎn)品信息應(yīng)該屬于的集合,但還不能最終確定該非標準產(chǎn)品信息應(yīng)該屬于哪一集合中的哪一子集合,因此,本步驟進一步采用非產(chǎn)品屬性信息對非標準產(chǎn)品信息作進一步劃分,將非標準產(chǎn)品信息劃分至非產(chǎn)品屬性參數(shù)的相似度最高的子集合中。在步驟106中劃分非標準產(chǎn)品信息時,與劃分至的子集合之間的相似度需要達到第三閾值,進而再選擇相似度最高的子集合,而在本步驟中只需要從步驟109確定的集合中選擇相似度最高的子集合即可,這是因為在步驟106中,非標準產(chǎn)品信息的用于劃分集合的產(chǎn)品屬性參數(shù)都不符合設(shè)定的條件,因此,如果只選擇與非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù)相關(guān)性最高的子集合,而不為相關(guān)性設(shè)置最低的門限值(即第三閾值),則可能出現(xiàn)非標準產(chǎn)品信息與任一子集合的相關(guān)性都很低,但仍舊選擇一個子集合作為非標準產(chǎn)品信息歸屬的子集合,導致該非標準產(chǎn)品信息和同一子集合內(nèi)的其他標準產(chǎn)品信息的相關(guān)性低。而在步驟110中,由于在步驟109中確定的集合是通過非標準產(chǎn)品信息的一個取值符合設(shè)定的條件的產(chǎn)品屬性參數(shù)來確定的,因此,在步驟110中用于選擇的集合與非標準產(chǎn)品信息有一定的相關(guān)性,進而從中選擇的子集合與非標準產(chǎn)品信息的相關(guān)性也較高。步驟111 確定重復的標準產(chǎn)品信息,并保留其中一個標準產(chǎn)品信息,去除剩余的標準產(chǎn)品信息,以及確定重復的非標準產(chǎn)品信息,并保留其中一個非標準產(chǎn)品信息,去除剩余的非標準產(chǎn)品信息。若兩個標準產(chǎn)品信息間的產(chǎn)品屬性參數(shù)和非產(chǎn)品屬性參數(shù)都相同,則定義這兩個標準產(chǎn)品信息是重復的標準產(chǎn)品信息。若兩個非標準產(chǎn)品信息間的產(chǎn)品屬性參數(shù)和非產(chǎn)品屬性參數(shù)都相同,則定義這兩個非標準產(chǎn)品信息是重復的非標準產(chǎn)品信息。步驟111是實現(xiàn)本申請目的的優(yōu)選步驟,由于賣家用戶在網(wǎng)站服務(wù)器上可能出現(xiàn)重復發(fā)布產(chǎn)品信息的情況,為了減少對重復產(chǎn)品信息進行處理所占用的資源,步驟111對標準產(chǎn)品信息和非標準產(chǎn)品信息進行去重操作。步驟111的去重操作可以在步驟101之前,或是步驟101 步驟110之間的任意時刻執(zhí)行,或是在步驟110之后執(zhí)行。步驟112 為每一子集合命名。在執(zhí)行到步驟110時,實際上已經(jīng)自動對產(chǎn)品信息進行了劃分,得到了以集合為單位或是子集合為單位的標準產(chǎn)品單元(standard product unit,SPU)。本步驟作為本實施例的優(yōu)選步驟,是為每一個SPU進行命名或者打標簽,也就是標識每一 SPU代表的內(nèi)容。本步驟的具體做法是首先確定每一子集合的標準產(chǎn)品信息和非標準產(chǎn)品信息中的產(chǎn)品屬性參數(shù)和非產(chǎn)品屬性參數(shù);然后統(tǒng)計確定該產(chǎn)品屬性參數(shù)和非產(chǎn)品屬性參數(shù)中的至少一個高頻詞;最后將該高頻詞用于為該子集合命名。后續(xù)買家用戶搜索、查詢以及向買家用戶推薦產(chǎn)品信息時,可以通過子集合名稱中涉及的高頻詞作為關(guān)鍵字進行搜索或推薦。步驟112可以在步驟110之后且步驟111之前執(zhí)行。實施例二 本申請實施例二提供一種與實施例一屬于同一發(fā)明構(gòu)思下的信息處理的設(shè)備,如圖3所示,所述設(shè)備包括標準參數(shù)確定模塊11和第一劃分模塊12,其中標準參數(shù)確定模塊11用于確定葉子類目下各標準產(chǎn)品信息中的至少一個產(chǎn)品屬性參數(shù);第一劃分模塊12 用于利用確定的所述至少一個產(chǎn)品屬性參數(shù)對所述標準產(chǎn)品信息進行劃分,得到所述葉子類目下的多個集合,其中,劃分在同一集合內(nèi)的標準產(chǎn)品信息中的所述至少一個產(chǎn)品屬性參數(shù)的值都相同。如圖4所示,所述標準參數(shù)確定模塊具體包括屬性參數(shù)確定子模塊21、次數(shù)確定子模塊22和選擇子模塊23,其中屬性參數(shù)確定子模塊21用于確定葉子類目下各標準產(chǎn)品信息中的全部產(chǎn)品屬性參數(shù);次數(shù)確定子模塊22確定設(shè)定時長內(nèi)每一產(chǎn)品屬性參數(shù)作為搜索條件,在所述葉子類目下進行產(chǎn)品信息搜索的次數(shù);選擇子模塊23用于從所述全部產(chǎn)品屬性參數(shù)中選擇至少一個產(chǎn)品屬性參數(shù),其中,選擇的任一產(chǎn)品屬性參數(shù)作為搜索條件進行產(chǎn)品信息搜索的次數(shù)達到第一閾值且該產(chǎn)品屬性參數(shù)的值為離散型。所述設(shè)備還包括非標準參數(shù)確定模塊13、相似度確定模塊14和第二劃分模塊15, 其中非標準參數(shù)確定模塊13用于針對劃分后得到的每一集合,確定集合中各標準產(chǎn)品信息中的至少一個非產(chǎn)品屬性參數(shù);相似度確定模塊14用于確定同一集合內(nèi)各標準產(chǎn)品信息的至少一個非產(chǎn)品屬性參數(shù)的相似度;第二劃分模塊15用于按照確定的相似度對同一集合內(nèi)各標準產(chǎn)品信息做進一步劃分,得到該集合下的多個子集合,其中,劃分在同一子集合內(nèi)的任意兩個標準產(chǎn)品信息的所述至少一個非產(chǎn)品屬性參數(shù)之間的相似度達到第二閾值。所述設(shè)備還包括判斷模塊16,用于判斷非標準產(chǎn)品信息中的用于劃分集合的全部產(chǎn)品屬性參數(shù)的值是否都不符合設(shè)定的條件,若是,則觸發(fā)非標準參數(shù)確定模塊13,否則, 觸發(fā)標準參數(shù)確定模塊11,所述非標準產(chǎn)品信息中的用于劃分集合的至少一個產(chǎn)品屬性參數(shù)的值不符合設(shè)定的條件。根據(jù)判斷模塊16的觸發(fā),非標準參數(shù)確定模塊13和標準參數(shù)確定模塊11各自的運行過程如下在非標準產(chǎn)品信息中的用于劃分集合的全部產(chǎn)品屬性參數(shù)的值都不符合設(shè)定的條件時所述非標準參數(shù)確定模塊13還用于確定該非標準產(chǎn)品信息中的至少一個非產(chǎn)品屬性參數(shù);所述相似度確定模塊14用于確定非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù)與各子集合內(nèi)的標準產(chǎn)品信息中的非產(chǎn)品屬性參數(shù)的相似度;所述第二劃分模塊15還用于根據(jù)非產(chǎn)品屬性參數(shù),將該非標準產(chǎn)品信息劃分至一個子集合內(nèi),其中,該非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù)與劃分至的子集合內(nèi)的標準產(chǎn)品信息中的非產(chǎn)品屬性參數(shù)的相似度達到第三閾值。特殊地,非標準產(chǎn)品信息中的用于劃分集合的全部產(chǎn)品屬性參數(shù)的值不符合設(shè)定的條件,且該非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù)與任一子集合內(nèi)的標準產(chǎn)品信息中的非產(chǎn)品屬性參數(shù)的相似度低于第三閾值時,所述第一劃分模塊12還用于在非標準產(chǎn)品信息中的用于劃分集合的全部產(chǎn)品屬性參數(shù)的值不符合設(shè)定的條件,且該非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù)與任一子集合內(nèi)的標準產(chǎn)品信息中的非產(chǎn)品屬性參數(shù)的相似度低于第三閾值時,將該非標準產(chǎn)品信息劃分至特定集合。在非標準產(chǎn)品信息中的用于劃分集合的全部產(chǎn)品屬性參數(shù)的值不全不符合設(shè)定的條件時所述標準參數(shù)確定模塊11還用于確定非標準產(chǎn)品信息中用于劃分集合的產(chǎn)品屬性參數(shù)中值符合設(shè)定的條件的產(chǎn)品屬性參數(shù);所述第一劃分模塊12還用于確定包含所述值符合設(shè)定的條件的產(chǎn)品屬性參數(shù)的集合;所述第二劃分模塊15還用于根據(jù)非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù),將該非標準產(chǎn)品信息劃分至第一劃分模塊12確定的集合內(nèi)的一個子集合中,其中,該非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù)與劃分至的子集合內(nèi)的標準產(chǎn)品信息中的非產(chǎn)品屬性參數(shù)的相似度最高。
所述設(shè)備還包括去重模塊17,用于確定重復的標準產(chǎn)品信息,保留其中一個標準產(chǎn)品信息,去除剩余的標準產(chǎn)品信息,以及,確定重復的非標準產(chǎn)品信息,保留其中一個非標準產(chǎn)品信息,去除剩余的非標準產(chǎn)品信息,所述重復的標準產(chǎn)品信息間的產(chǎn)品屬性參數(shù)和非產(chǎn)品屬性參數(shù)都相同,所述重復的非標準產(chǎn)品信息間的產(chǎn)品屬性參數(shù)和非產(chǎn)品屬性參數(shù)都相同。所述設(shè)備還包括命名模塊18,用于確定每一子集合的標準產(chǎn)品信息和非標準產(chǎn)品信息中的產(chǎn)品屬性參數(shù)和非產(chǎn)品屬性參數(shù)。統(tǒng)計確定該產(chǎn)品屬性參數(shù)和非產(chǎn)品屬性參數(shù)中的至少一個高頻詞,并利用確定的至少一個高頻詞為該子集合命名。本實施例二中的信息處理設(shè)備還可以包括能夠執(zhí)行實施例一中涉及的各項功能的模塊。通過本申請實施例提供的方法及設(shè)備,可以在葉子類目的基礎(chǔ)上,以產(chǎn)品屬性參數(shù)為條件劃分細粒度的產(chǎn)品信息集合,進一步地,還以非產(chǎn)品屬性參數(shù)為條件劃分更加細粒度的產(chǎn)品信息子集合,使得在買家用戶搜索、查詢產(chǎn)品信息時,以細粒度的產(chǎn)品信息集合為基礎(chǔ),可以有效減少搜索、查詢的時間、提高搜索、查詢的準確性以及提高網(wǎng)站服務(wù)器向買家用戶推薦產(chǎn)品信息的準確度,且細粒度的產(chǎn)品信息集合也能夠提高對產(chǎn)品信息進行操作的可用性,減少對產(chǎn)品信息進行操作時的運算量;并且,在集合和子集合的劃分過程中, 對多級類目體系的實質(zhì)性內(nèi)容沒有改變,遵守現(xiàn)有的多級類目體系的特點,且充分考慮買家用戶搜索習慣,將買家用戶常用于搜索的產(chǎn)品屬性參數(shù)用于劃分集合;另外,對于非標準產(chǎn)品信息中的產(chǎn)品屬性參數(shù)的值不符合設(shè)定的條件的各種情況給出了對應(yīng)的劃分手段,使得各非標準產(chǎn)品信息能夠盡可能地劃分至相關(guān)性高的子集合中;最后,本申請方案還對產(chǎn)品信息進行去重以及對劃分后的子集合進行命名,有效地減少了對重復產(chǎn)品信息進行處理所占用的資源,以及方便管理員根據(jù)子集合的名稱對子集合進行管理和以子集合的名稱為關(guān)鍵字查找子集合內(nèi)的產(chǎn)品信息。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產(chǎn)品的形式。本申請是參照根據(jù)本申請實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。盡管已描述了本申請的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本申請范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對本申請進行各種改動和變型而不脫離本申請的精神和范圍。這樣,倘若本申請的這些修改和變型屬于本申請權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
1.一種信息處理的方法,其特征在于,所述方法包括 確定葉子類目下各標準產(chǎn)品信息中的至少一個產(chǎn)品屬性參數(shù);利用確定的所述至少一個產(chǎn)品屬性參數(shù)對所述標準產(chǎn)品信息進行劃分,得到所述葉子類目下的多個集合;其中,劃分在同一集合內(nèi)的標準產(chǎn)品信息中的所述至少一個產(chǎn)品屬性參數(shù)的值都相同。
2.如權(quán)利要求1所述的方法,其特征在于,確定葉子類目下各標準產(chǎn)品信息中的至少一個產(chǎn)品屬性參數(shù),具體包括確定葉子類目下各標準產(chǎn)品信息中的全部產(chǎn)品屬性參數(shù);確定設(shè)定時長內(nèi)每一產(chǎn)品屬性參數(shù)作為搜索條件,在所述葉子類目下進行產(chǎn)品信息搜索的次數(shù);從所述全部產(chǎn)品屬性參數(shù)中選擇至少一個產(chǎn)品屬性參數(shù);其中,選擇的任一產(chǎn)品屬性參數(shù)作為搜索條件進行產(chǎn)品信息搜索的次數(shù)達到第一閾值且該產(chǎn)品屬性參數(shù)的值為離散型。
3.如權(quán)利要求2所述的方法,其特征在于,對所述標準產(chǎn)品信息進行劃分,得到所述葉子類目下的多個集合之后,所述方法還包括針對劃分后得到的每一集合,確定集合中各標準產(chǎn)品信息中的至少一個非產(chǎn)品屬性參數(shù);確定同一集合內(nèi)各標準產(chǎn)品信息的至少一個非產(chǎn)品屬性參數(shù)的相似度; 按照確定的相似度對同一集合內(nèi)各標準產(chǎn)品信息做進一步劃分,得到該集合下的多個子集合;其中,劃分在同一子集合內(nèi)的任意兩個標準產(chǎn)品信息的所述至少一個非產(chǎn)品屬性參數(shù)之間的相似度達到第二閾值。
4.如權(quán)利要求3所述的方法,其特征在于,所述方法還包括確定葉子類目下的非標準產(chǎn)品信息,所述非標準產(chǎn)品信息中的用于劃分集合的至少一個產(chǎn)品屬性參數(shù)的值不符合設(shè)定的條件;得到集合下的多個子集合之后,所述方法還包括判斷非標準產(chǎn)品信息中的用于劃分集合的全部產(chǎn)品屬性參數(shù)的值是否都不符合設(shè)定的條件;若是,則確定該非標準產(chǎn)品信息中的至少一個非產(chǎn)品屬性參數(shù),并根據(jù)該非產(chǎn)品屬性參數(shù)將該非標準產(chǎn)品信息劃分至一個子集合內(nèi),其中,該非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù)與劃分至的子集合內(nèi)的標準產(chǎn)品信息中的非產(chǎn)品屬性參數(shù)的相似度達到第三閾值;若否,則確定非標準產(chǎn)品信息中用于劃分集合的產(chǎn)品屬性參數(shù)中取值符合設(shè)定的條件的產(chǎn)品屬性參數(shù),并確定包含取值符合設(shè)定的條件的產(chǎn)品屬性參數(shù)的集合,以及,根據(jù)非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù),將該非標準產(chǎn)品信息劃分至確定的集合內(nèi)的一個子集合中,其中,該非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù)與劃分至的子集合內(nèi)的標準產(chǎn)品信息中的非產(chǎn)品屬性參數(shù)的相似度最高。
5.如權(quán)利要求4所述的方法,其特征在于,在非標準產(chǎn)品信息中的用于劃分集合的全部產(chǎn)品屬性參數(shù)的值不符合設(shè)定的條件,且該非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù)與任一子集合內(nèi)的標準產(chǎn)品信息中的非產(chǎn)品屬性參數(shù)的相似度低于第三閾值時,將該非標準產(chǎn)品信息劃分至特定集合。
6.如權(quán)利要求4或5所述的方法,其特征在于,所述方法還包括確定重復的標準產(chǎn)品信息,保留其中一個標準產(chǎn)品信息,去除剩余的標準產(chǎn)品信息;確定重復的非標準產(chǎn)品信息,保留其中一個非標準產(chǎn)品信息,去除剩余的非標準產(chǎn)品 fn息;所述重復的標準產(chǎn)品信息間的產(chǎn)品屬性參數(shù)和非產(chǎn)品屬性參數(shù)都相同,所述重復的非標準產(chǎn)品信息間的產(chǎn)品屬性參數(shù)和非產(chǎn)品屬性參數(shù)都相同。
7.如權(quán)利要求4或5所述的方法,其特征在于,確定每一子集合的標準產(chǎn)品信息和非標準產(chǎn)品信息中的產(chǎn)品屬性參數(shù)和非產(chǎn)品屬性參數(shù);統(tǒng)計確定該產(chǎn)品屬性參數(shù)和非產(chǎn)品屬性參數(shù)中的至少一個高頻詞;利用確定的至少一個高頻詞為該子集合命名。
8.如權(quán)利要求1所述的方法,其特征在于,得到所述葉子類目下的多個集合之后,所述方法還包括根據(jù)得到的各集合中的標準產(chǎn)品信息進行搜索或產(chǎn)品信息推薦。
9.一種信息處理的設(shè)備,其特征在于,所述設(shè)備包括標準參數(shù)確定模塊,用于確定葉子類目下各標準產(chǎn)品信息中的至少一個產(chǎn)品屬性參數(shù);第一劃分模塊,用于利用確定的所述至少一個產(chǎn)品屬性參數(shù)對所述標準產(chǎn)品信息進行劃分,得到所述葉子類目下的多個集合,其中,劃分在同一集合內(nèi)的標準產(chǎn)品信息中的所述至少一個產(chǎn)品屬性參數(shù)的值都相同。
10.如權(quán)利要求9所述的設(shè)備,其特征在于,所述標準參數(shù)確定模塊,包括 屬性參數(shù)確定子模塊,用于確定葉子類目下各標準產(chǎn)品信息中的全部產(chǎn)品屬性參數(shù);次數(shù)確定子模塊,確定設(shè)定時長內(nèi)每一產(chǎn)品屬性參數(shù)作為搜索條件,在所述葉子類目下進行產(chǎn)品信息搜索的次數(shù);選擇子模塊,用于從所述全部產(chǎn)品屬性參數(shù)中選擇至少一個產(chǎn)品屬性參數(shù),其中,選擇的任一產(chǎn)品屬性參數(shù)作為搜索條件進行產(chǎn)品信息搜索的次數(shù)達到第一閾值且該產(chǎn)品屬性參數(shù)的值為離散型。
11.如權(quán)利要求10所述的設(shè)備,其特征在于,所述設(shè)備還包括非標準參數(shù)確定模塊,用于針對劃分后得到的每一集合,確定集合中各標準產(chǎn)品信息中的至少一個非產(chǎn)品屬性參數(shù);相似度確定模塊,用于確定同一集合內(nèi)各標準產(chǎn)品信息的至少一個非產(chǎn)品屬性參數(shù)的相似度;第二劃分模塊,用于按照確定的相似度對同一集合內(nèi)各標準產(chǎn)品信息做進一步劃分, 得到該集合下的多個子集合,其中,劃分在同一子集合內(nèi)的任意兩個標準產(chǎn)品信息的所述至少一個非產(chǎn)品屬性參數(shù)之間的相似度達到第二閾值。
12.如權(quán)利要求11所述的設(shè)備,其特征在于,所述設(shè)備還包括判斷模塊,用于判斷非標準產(chǎn)品信息中的用于劃分集合的全部產(chǎn)品屬性參數(shù)的值是否都不符合設(shè)定的條件,若是,則觸發(fā)非標準參數(shù)確定模塊,否則,觸發(fā)標準參數(shù)確定模塊,所述非標準產(chǎn)品信息中的用于劃分集合的至少一個產(chǎn)品屬性參數(shù)的值不符合設(shè)定的條件; 所述非標準參數(shù)確定模塊,還用于確定該非標準產(chǎn)品信息中的至少一個非產(chǎn)品屬性參數(shù);所述相似度確定模塊,用于確定非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù)與各子集合內(nèi)的標準產(chǎn)品信息中的非產(chǎn)品屬性參數(shù)的相似度;所述標準參數(shù)確定模塊,還用于確定非標準產(chǎn)品信息中用于劃分集合的產(chǎn)品屬性參數(shù)中符合設(shè)定的條件的產(chǎn)品屬性參數(shù);所述第一劃分模塊,還用于確定包含所述符合設(shè)定的條件的產(chǎn)品屬性參數(shù)的集合; 所述第二劃分模塊,還用于根據(jù)非產(chǎn)品屬性參數(shù),將該非標準產(chǎn)品信息劃分至一個子集合內(nèi),其中,該非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù)與劃分至的子集合內(nèi)的標準產(chǎn)品信息中的非產(chǎn)品屬性參數(shù)的相似度達到第三閾值,或者,根據(jù)非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù),將該非標準產(chǎn)品信息劃分至第一劃分模塊確定的集合內(nèi)的一個子集合中,其中,該非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù)與劃分至的子集合內(nèi)的標準產(chǎn)品信息中的非產(chǎn)品屬性參數(shù)的相似度最高。
13.如權(quán)利要求12所述的設(shè)備,其特征在于,所述第一劃分模塊,還用于在非標準產(chǎn)品信息中的用于劃分集合的全部產(chǎn)品屬性參數(shù)的值不符合設(shè)定的條件,且該非標準產(chǎn)品信息的非產(chǎn)品屬性參數(shù)與任一子集合內(nèi)的標準產(chǎn)品信息中的非產(chǎn)品屬性參數(shù)的相似度低于第三閾值時,將該非標準產(chǎn)品信息劃分至特定集合。
14.如權(quán)利要求12或13所述的設(shè)備,其特征在于,所述設(shè)備還包括去重模塊,用于確定重復的標準產(chǎn)品信息,保留其中一個標準產(chǎn)品信息,去除剩余的標準產(chǎn)品信息,以及,確定重復的非標準產(chǎn)品信息,保留其中一個非標準產(chǎn)品信息,去除剩余的非標準產(chǎn)品信息,所述重復的標準產(chǎn)品信息間的產(chǎn)品屬性參數(shù)和非產(chǎn)品屬性參數(shù)都相同,所述重復的非標準產(chǎn)品信息間的產(chǎn)品屬性參數(shù)和非產(chǎn)品屬性參數(shù)都相同。
15.如權(quán)利要求12或13所述的設(shè)備,其特征在于,所述設(shè)備還包括命名模塊,用于確定每一子集合的標準產(chǎn)品信息和非標準產(chǎn)品信息中的產(chǎn)品屬性參數(shù)和非產(chǎn)品屬性參數(shù),統(tǒng)計確定該產(chǎn)品屬性參數(shù)和非產(chǎn)品屬性參數(shù)中的至少一個高頻詞,并利用確定的至少一個高頻詞為該子集合命名。
全文摘要
本申請公開了一種信息處理的方法及設(shè)備,主要內(nèi)容包括在葉子類目的基礎(chǔ)上,根據(jù)葉子類目下各標準產(chǎn)品信息中的至少一個產(chǎn)品屬性參數(shù)對所述標準產(chǎn)品信息進行劃分,得到所述葉子類目下的多個集合,由于劃分在同一集合內(nèi)的標準產(chǎn)品信息中的所述至少一個產(chǎn)品屬性參數(shù)的值都相同,因此,最終得到的是產(chǎn)品信息細粒度劃分的集合,買家用戶以細粒度的產(chǎn)品信息集合為基礎(chǔ)搜索、查詢產(chǎn)品信息時,可以有效減少搜索、查詢的時間、提高搜索、查詢的準確性以及提高向買家用戶推薦產(chǎn)品信息的準確度,且細粒度的產(chǎn)品信息集合也能夠提高對產(chǎn)品信息進行操作的可用性,減少對產(chǎn)品信息進行操作時的運算量。
文檔編號G06F17/30GK102411591SQ20101029238
公開日2012年4月11日 申請日期2010年9月21日 優(yōu)先權(quán)日2010年9月21日
發(fā)明者代其鋒, 張金銀, 蘇寧軍, 陳恩紅, 顧海杰, 馬海平 申請人:阿里巴巴集團控股有限公司