[0108]步驟S302:根據(jù)用戶瀏覽的網(wǎng)頁的網(wǎng)頁標識,獲取該網(wǎng)頁對應(yīng)的第一特征詞集合,該第一特征詞集合用于存儲該網(wǎng)頁包括的特征詞;
[0109]其中,在步驟S302之前,去除該瀏覽記錄中包括的重復(fù)的網(wǎng)頁標識。
[0110]對于相同的網(wǎng)頁標識,去除重復(fù)的網(wǎng)頁標識,并記錄網(wǎng)頁標識對應(yīng)的數(shù)目。
[0111]步驟S302可以包括以下步驟(1)至⑶:
[0112](1)、根據(jù)用戶瀏覽的網(wǎng)頁的網(wǎng)頁標識,獲取網(wǎng)頁包括的網(wǎng)頁內(nèi)容;
[0113]其中,網(wǎng)頁包括的網(wǎng)頁內(nèi)容可以為網(wǎng)頁包括的網(wǎng)頁標題或者網(wǎng)頁包括的網(wǎng)頁摘要坐寸。
[0114]步驟⑴具體可以為:
[0115]根據(jù)用戶瀏覽的網(wǎng)頁的網(wǎng)頁標識從中下載該網(wǎng)頁標識對應(yīng)的網(wǎng)頁內(nèi)容。
[0116](2)、對該網(wǎng)頁內(nèi)容進行分詞,得到該網(wǎng)頁內(nèi)容包括的分詞;
[0117]對網(wǎng)頁內(nèi)容進行分詞的方法為現(xiàn)有的任一分詞方法,在本發(fā)明實施例中,對網(wǎng)頁內(nèi)容進行分詞的方法不作具體限定。
[0118]如,將網(wǎng)頁內(nèi)容作為待切分詞串,以最大正向匹配的方法對待切分詞串進行切分,并使用條件隨機場的方法對待切分詞串中以最大正向匹配的方法進行切分時存在歧義的片段進行校正,得到分詞結(jié)果。
[0119](3)、從該網(wǎng)頁內(nèi)容包括的分詞中去除滿足第二預(yù)設(shè)詞性的分詞,將剩下的分詞作為網(wǎng)頁包括的特征詞并組成網(wǎng)頁對應(yīng)的第一特征詞集合。
[0120]第二預(yù)設(shè)詞性包括語氣詞、停用詞以及近義詞等。語氣詞為任一表示語氣的詞,如,啊、呵呵或者嗯等。停用詞為任一表示停頓的詞,如的、我、你或者就等。近義詞為意思相近的詞。第一特征詞集合中包括至少一個特征詞。
[0121]獲取網(wǎng)頁內(nèi)容包括的分詞中的所有近義詞組,從每個近義詞組中選擇一個近義詞,并從網(wǎng)頁內(nèi)容包括的分詞中去除語氣詞、停用詞以及除選擇的近義詞之外的其他近義詞,將剩下的分詞作為網(wǎng)頁包括的特征詞,并組成網(wǎng)頁對應(yīng)的第一特征詞集合。
[0122]步驟S303:根據(jù)該第一特征詞集合與信息類別和第二特征詞集合的對應(yīng)關(guān)系,獲取該網(wǎng)頁屬于的信息類別;
[0123]其中,步驟S303可以包括以下步驟(1)至(3):
[0124](1)、計算該第一特征詞集合與信息類別和第二特征詞集合的對應(yīng)關(guān)系中的每個第二特征詞集合之間的匹配度;
[0125]獲取信息類別和第二特征詞集合的對應(yīng)關(guān)系中的每個第二特征詞集合,計算該第一特征詞集合與信息類別和第二特征詞集合的對應(yīng)關(guān)系中的每個第二特征詞集合之間的匹配度。
[0126]事先存儲信息類別和第二特征詞集合的對應(yīng)關(guān)系。獲取信息類別和第二特征詞集合的對應(yīng)關(guān)系中的每個第二特征詞集合,第二特征詞集合中包括信息類別對應(yīng)的至少一個特征詞。
[0127]其中,計算特征詞與特征詞之間的匹配度的方法為現(xiàn)有的任一計算特征詞與特征詞之間的匹配度的方法,在本發(fā)明實施例中,對計算特征詞與特征詞之間的匹配度的方法不作具體限定。
[0128]其中,需要說明的是,在本步驟中,分別計算第一特征詞集合中包括的每個特征詞分別與每個第二特征詞集合中包括的每個特征詞之間的匹配度。
[0129](2)、選擇與該第一特征詞集合之間的匹配度最大的第二特征詞集合;
[0130](3)、將選擇的第二特征詞集合對應(yīng)的信息類別確定為該網(wǎng)頁屬于的信息類別。
[0131]步驟S304:統(tǒng)計各信息類別包括的網(wǎng)頁數(shù)目;
[0132]步驟S305:將各信息類別包括的網(wǎng)頁數(shù)目分別確定為用戶對各信息類別的興趣度;
[0133]信息類別包括的網(wǎng)頁數(shù)目越多,說明用戶對該信息類別的興趣度越高,因此,將各信息類別包括的網(wǎng)頁數(shù)目分別確定為用戶對各信息類別的興趣度。
[0134]步驟S306:獲取興趣度滿足第二預(yù)設(shè)條件的信息類別,并將獲取的信息類別作為用戶感興趣的信息類別;
[0135]其中,第二預(yù)設(shè)條件可以為用戶興趣度大于第二預(yù)設(shè)閾值的信息類別;或者,第二預(yù)設(shè)條件為用戶興趣度最大的第二預(yù)設(shè)個數(shù)。
[0136]如果第二預(yù)設(shè)條件為用戶興趣度大于第二預(yù)設(shè)閾值,步驟S306可以為:
[0137]獲取用戶興趣度大于第二預(yù)設(shè)閾值的信息類別,將用戶興趣度大于第二預(yù)設(shè)閾值的消息類別確定為用戶興趣度滿足第二預(yù)設(shè)條件的信息類別,并將獲取的信息類別作為用戶感興趣的信息類別。
[0138]如果第二預(yù)設(shè)條件為用戶興趣度最大的第二預(yù)設(shè)個數(shù),步驟S306可以為:
[0139]獲取用戶興趣度最大的第二預(yù)設(shè)個數(shù)個信息類別,將用戶興趣度最大的第二預(yù)設(shè)個數(shù)個信息類別確定為用戶興趣度滿足第二預(yù)設(shè)條件的信息類別,并將獲取的信息類別作為用戶感興趣的信息類別。
[0140]第二預(yù)設(shè)個數(shù)可以根據(jù)需要進行設(shè)置并更改,如,第二預(yù)設(shè)個數(shù)為3或者5等。
[0141]步驟S307:將用戶的用戶標識和用戶感興趣度的信息類別存儲在用戶標識與信息類別的對應(yīng)關(guān)系中。
[0142]將用戶的用戶標識和用戶感興趣的信息類別存儲在用戶標識與信息類別的對應(yīng)關(guān)系中,可以根據(jù)用戶的用戶標識從用戶標識和信息類別的對應(yīng)關(guān)系中獲取用戶感興趣的信息類別,并根據(jù)用戶感興趣的信息類別為用戶推薦用戶感興趣的信息類別對應(yīng)的信息或去蘆品坐^ 廠 ΡΠ ο
[0143]在本發(fā)明實施例中,服務(wù)器根據(jù)瀏覽記錄中包括的用戶瀏覽的網(wǎng)頁的網(wǎng)頁標識,獲取該網(wǎng)頁對應(yīng)的第一特征詞集合,根據(jù)該網(wǎng)頁對應(yīng)的第一特征詞集合與信息類別和第二特征詞集合的對應(yīng)關(guān)系,獲取該網(wǎng)頁屬于的信息類別,將各信息類別包括的網(wǎng)頁數(shù)目分別確定為用戶對各信息類別的興趣度,獲取興趣度滿足第二預(yù)設(shè)條件的信息類別,并將獲取的信息類別作為用戶感興趣的信息類別,從而能夠提高獲取用戶感興趣的信息類別的準確度。
[0144]實施例4
[0145]本發(fā)明實施例提供了一種獲取信息類別的裝置。參見圖4,其中,該裝置包括:
[0146]第一獲取模塊401,用于獲取用戶瀏覽網(wǎng)頁的瀏覽記錄,瀏覽記錄至少包括用戶瀏覽的網(wǎng)頁的網(wǎng)頁標識;
[0147]第二獲取模塊402,用于根據(jù)瀏覽記錄獲取用戶對各信息類別的興趣度;
[0148]第三獲取模塊403,用于獲取興趣度滿足第一預(yù)設(shè)條件的信息類別,并將獲取的信息類別作為用戶感興趣的信息類別。
[0149]進一步地,第二獲取模塊402,包括:
[0150]第一確定單元,用于根據(jù)瀏覽記錄,確定用戶瀏覽的網(wǎng)頁屬于的信息類別;
[0151]統(tǒng)計單元,用于統(tǒng)計各信息類別包括的網(wǎng)頁數(shù)目;
[0152]第二確定單元,用于將各信息類別包括的網(wǎng)頁數(shù)目分別確定為用戶對各信息類別的興趣度。
[0153]進一步地,第一確定單元,包括:
[0154]獲取子單元,用于根據(jù)用戶瀏覽的網(wǎng)頁的網(wǎng)頁標識,獲取網(wǎng)頁對應(yīng)的第一特征詞集合,第一特征詞集合用于存儲網(wǎng)頁包括的特征詞;
[0155]計算子單元,用于計算第一特征詞集合與信息類別和第二特征詞集合的對應(yīng)關(guān)系中的每個第二特征詞集合之間的匹配度;
[0156]選擇子單元,用于選擇與第一特征詞集合之間的匹配度最大的第二特征詞集合;
[0157]確定子單元,用于將選擇的第二特征詞集合對應(yīng)的信息類別確定為網(wǎng)頁屬于的信息類別。
[0158]進一步地,獲取子單元,用于根據(jù)用戶瀏覽的網(wǎng)頁的網(wǎng)頁標識,獲取網(wǎng)頁包括的網(wǎng)頁內(nèi)容,對網(wǎng)頁內(nèi)容進行分詞,得到網(wǎng)頁內(nèi)容包括的分詞,從網(wǎng)頁內(nèi)容包括的分詞中去除滿足第一預(yù)設(shè)詞性的分詞,將剩下的分詞作為網(wǎng)頁包括的特征詞并組成網(wǎng)頁對應(yīng)的第一特征詞集合。
[0159]進一步地,計算子單元,用于獲取信息類別和第二特征詞集合的對應(yīng)關(guān)系中的第二特征詞集合,計算第一特征詞集合中包括的每個特征詞分別與獲取的第二特征詞集合中包括的每個特征詞之間的匹配度,計算第一特征詞集合中包括的每個特征詞分別與獲取的第二特征詞集合中包括的每個特征詞之間的匹配度的平均值,將平均值作為第一特征詞集合與獲取的第二特征詞集合之間的匹配度。
[0160]進一步地,該裝置還包括:
[0161]添加模塊,用于將第一特征詞集合中包括的特征詞添加到選擇的第二特征詞集合中。
[0162]進一步地,該裝置還包括:
[0163]第一存儲模塊,用于將用戶的用戶標識和用戶感興趣度的信息類別存儲在用戶標識與信息類別的對應(yīng)關(guān)系中。
[0164]在本發(fā)明實施例中,服務(wù)器根據(jù)瀏覽記錄獲取用戶對各信息類別的興趣度,獲取興趣度滿足第一預(yù)設(shè)條件的信息類別,并將獲取的信息類