)、服務器根據(jù)用戶瀏覽的網頁的網頁標識,獲取網頁包括的網頁內容;
[0060]其中,網頁包括的網頁內容可以為網頁包括的網頁標題或者網頁包括的網頁摘要坐寸。
[0061]步驟(1-1)具體可以為:
[0062]服務器根據(jù)用戶瀏覽的網頁的網頁標識從服務器中下載該網頁標識對應的網頁內容。
[0063](1-2)、服務器對該網頁內容進行分詞,得到該網頁內容包括的分詞;
[0064]服務器對網頁內容進行分詞的方法為現(xiàn)有的任一分詞方法,在本發(fā)明實施例中,對網頁內容進行分詞的方法不作具體限定。
[0065]如,將網頁內容作為待切分詞串,以最大正向匹配的方法對待切分詞串進行切分,并使用條件隨機場的方法對待切分詞串中以最大正向匹配的方法進行切分時存在歧義的片段進行校正,得到分詞結果。
[0066](1-3)、服務器從該網頁內容包括的分詞中去除滿足第一預設詞性的分詞,將剩下的分詞作為網頁包括的特征詞并組成網頁對應的第一特征詞集合。
[0067]第一預設詞性包括語氣詞、停用詞以及近義詞等。語氣詞為任一表示語氣的詞,如,啊、呵呵或者嗯等。停用詞為任一表示停頓的詞,如的、我、你或者就等。近義詞為意思相近的詞。第一特征詞集合中包括至少一個特征詞。
[0068]服務器獲取網頁內容包括的分詞中的所有近義詞組,從每個近義詞組中選擇一個近義詞,并從網頁內容包括的分詞中去除語氣詞、停用詞以及除選擇的近義詞之外的其他近義詞,將剩下的分詞作為網頁包括的特征詞,并組成網頁對應的第一特征詞集合。
[0069]其中,需要說明的是,服務器按照以上步驟(1-1)至(1-3)獲取用戶瀏覽記錄中包括的每個網頁對應的第一特征詞集合。
[0070](2)、服務器計算第一特征詞集合與信息類別和第二特征詞集合的對應關系中的每個第二特征詞集合之間的匹配度;
[0071]其中,步驟⑵可以包括以下步驟(2-1)至(2-3):
[0072](2-1)、服務器獲取信息類別和第二特征詞集合的對應關系中的第二特征詞集合;
[0073]服務器中事先存儲信息類別和第二特征詞集合的對應關系。服務器獲取信息類別和第二特征詞集合的對應關系中的每個第二特征詞集合,第二特征詞集合中包括信息類別對應的至少一個特征詞。
[0074](2-2)、服務器計算第一特征詞集合中包括的每個特征詞分別與獲取的第二特征詞集合中包括的每個特征詞之間的匹配度;
[0075]其中,服務器計算特征詞與特征詞之間的匹配度的方法為現(xiàn)有的任一計算特征詞與特征詞之間的匹配度的方法,在本發(fā)明實施例中,對計算特征詞與特征詞之間的匹配度的方法不作具體限定。
[0076]如,第一特征詞集合中包括特征詞A和B,第二特征詞集合中包括特征詞A、C和D,服務器分別計算特征詞A和特征詞A、特征詞A和特征詞C、特征詞A和特征詞D、特征詞B和特征詞A、特征詞B和特征詞C以及特征詞B與特征詞D的匹配度。
[0077]其中,需要說明的是,在本步驟中,服務器分別計算第一特征詞集合中包括的每個特征詞分別與每個第二特征詞集合中包括的每個特征詞之間的匹配度。
[0078](2-3)、服務器計算第一特征詞集合中包括的每個特征詞分別與獲取的第二特征詞集合中包括的每個特征詞之間的匹配度的平均值,將平均值作為第一特征詞集合與獲取的第二特征詞集合之間的匹配度。
[0079]如,服務器計算特征詞A和特征詞A、特征詞A和特征詞C、特征詞A和特征詞D、特征詞B和特征詞A、特征詞B和特征詞C以及特征詞B與特征詞D的匹配度的平均值,將得到的平均值作為第一特征詞集合與第二特征詞集合之間的匹配度。
[0080]其中,在本步驟中,服務器還可以計算第一特征詞集合中包括的每個特征詞在獲取的第二特征詞集合中的概率,將每個特征詞在第二特征詞集合中的非零概率的乘積作為第一特征詞集合與獲取的第二特征詞集合之間的匹配度。
[0081](3)、服務器選擇與第一特征詞集合之間的匹配度最大的第二特征詞集合;
[0082]服務器計算得到第一特征詞集合與每個第二特征詞集合的匹配度,選擇與第一特征詞集合之間的匹配度最大的第二特征詞集合。
[0083](4)、服務器將選擇的第二特征詞集合對應的信息類別確定為該網頁屬于的信息類別。
[0084]服務器中事先存儲信息類別和第二特征詞集合的對應關系,服務器根據(jù)選擇的第二特征詞集合從信息類別和第二特征詞集合的對應關系中獲取選擇的第二特征詞集合對應的信息類別,并將獲取的信息類別確定為網頁屬于的信息類別。
[0085]信息類別對應的第二特征詞集合中并不可能包含該信息類別包括的所有特征詞,為了優(yōu)化第二特征詞集合,在本發(fā)明實施例中,服務器確定出第一特征詞集合對應的信息類別之后,將第一特征詞集合中包括的特征詞添加到選擇的第二特征詞集合中。
[0086]其中,服務器將第一特征詞集合中包括的特征詞添加到選擇的第二特征詞集合中,可以為:
[0087]服務器獲取第一特征詞集合包括的特征詞,并獲取選擇的第二特征詞集合中包括的特征詞,并找出第一特征詞集合包括的特征詞和選擇的第二特征詞集合中包括的特征詞中意思相同以及意思相近的特征詞,將第一特征詞集合中除相同以及意思相近的特征詞之外的其他特征詞添加到選擇的第二特征詞集合中。
[0088]步驟S204:服務器統(tǒng)計各信息類別包括的網頁數(shù)目;
[0089]步驟S205:服務器將各信息類別包括的網頁數(shù)目分別確定為用戶對各信息類別的興趣度;
[0090]信息類別包括的網頁數(shù)目越多,說明用戶對該信息類別的興趣度越高,因此,服務器將各信息類別包括的網頁數(shù)目分別確定為用戶對各信息類別的興趣度。
[0091]步驟S206:服務器獲取興趣度滿足第一預設條件的信息類別,并將獲取的信息類別作為用戶感興趣的信息類別;
[0092]其中,第一預設條件可以為用戶興趣度大于第一預設閾值的信息類別;或者,第一預設條件為用戶興趣度最大的第一預設個數(shù)。
[0093]如果第一預設條件為用戶興趣度大于第一預設閾值,步驟S206可以為:
[0094]服務器獲取用戶興趣度大于第一預設閾值的信息類別,將用戶興趣度大于第一預設閾值的消息類別確定為用戶興趣度滿足第一預設條件的信息類別,并將獲取的信息類別作為用戶感興趣的信息類別。
[0095]如果第一預設條件為用戶興趣度最大的第一預設個數(shù),步驟S206可以為:
[0096]服務器獲取用戶興趣度最大的第一預設個數(shù)個信息類別,將用戶興趣度最大的第一預設個數(shù)個信息類別確定為用戶興趣度滿足第一預設條件的信息類別,并將獲取的信息類別作為用戶感興趣的信息類別。
[0097]第一預設個數(shù)可以根據(jù)需要進行設置并更改,如,第一預設個數(shù)為3或者5等。
[0098]步驟S207:服務器將用戶的用戶標識和用戶感興趣度的信息類別存儲在用戶標識與信息類別的對應關系中。
[0099]服務器將用戶的用戶標識和用戶感興趣的信息類別存儲在用戶標識與信息類別的對應關系中,服務器可以根據(jù)用戶的用戶標識從用戶標識和信息類別的對應關系中獲取用戶感興趣的信息類別,并根據(jù)用戶感興趣的信息類別為用戶推薦用戶感興趣的信息類別對應的?目息或者廣品等。
[0100]在本發(fā)明實施例中,服務器根據(jù)瀏覽記錄獲取用戶對各信息類別的興趣度,獲取興趣度滿足第一預設條件的信息類別,并將獲取的信息類別作為用戶感興趣的信息類別,從而能夠提高獲取用戶感興趣的信息類別的準確度。
[0101]實施例3
[0102]本發(fā)明實施例提供了一種獲取信息類別的方法。參見圖3,其中,該方法包括:
[0103]步驟S301:獲取用戶瀏覽網頁的瀏覽記錄,該瀏覽記錄至少包括用戶瀏覽的網頁的網頁標識;
[0104]網頁標識可以為網頁的URL等。該瀏覽記錄還包括用戶瀏覽網頁的時間戳。
[0105]事先存儲用戶標識和瀏覽記錄的對應關系,獲取用戶的用戶標識,根據(jù)用戶的用戶標識從用戶標識和瀏覽記錄的對應關系中獲取用戶瀏覽網頁的瀏覽記錄。
[0106]其中,瀏覽記錄中還包括用戶瀏覽網頁的時間戳,還可以根據(jù)用戶瀏覽網頁的時間戳,獲取用戶在離當前最近且時長為第二預設時長的時間段內用戶瀏覽網頁的瀏覽記錄。
[0107]第二預設時長可以根據(jù)需要進行設置并更改,如第二預設時長為一個月或者半年等。用戶的用戶標識為任一可以標識用戶的標識,如用戶的用戶標識為用戶對應的終端的GUID 等。