国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      建立ip地址分類模型的方法、對(duì)用戶分類的方法及裝置的制作方法

      文檔序號(hào):6430753閱讀:283來源:國知局
      專利名稱:建立ip地址分類模型的方法、對(duì)用戶分類的方法及裝置的制作方法
      建立IP地址分類模型的方法、對(duì)用戶分類的方法及裝置
      技術(shù)領(lǐng)域
      本發(fā)明涉及搜索引擎領(lǐng)域,特別涉及一種建立IP地址分類模型的方法、對(duì)用戶分類的方法及裝置。
      背景技術(shù)
      隨著互聯(lián)網(wǎng)的廣泛使用,搜索引擎越來越成為人們生活當(dāng)中不可或缺的工具,與普通的軟件應(yīng)用系統(tǒng)或其他的網(wǎng)絡(luò)應(yīng)用系統(tǒng)相比,搜索引擎系統(tǒng)有個(gè)重要的特點(diǎn),即它的用戶群體來源廣泛,通常用戶并不需要在系統(tǒng)中注冊并留下自己的個(gè)性化信息就可以使用搜索引擎,因此,對(duì)搜索引擎系統(tǒng)而言,對(duì)用戶進(jìn)行分類就顯得比較困難,由于無法對(duì)用戶進(jìn)行有效地分類,也就限制了搜索引擎系統(tǒng)針對(duì)不同的用戶實(shí)現(xiàn)不同的結(jié)果呈現(xiàn)形式,或針對(duì)不同的用戶采用不同的計(jì)算方式以減少系統(tǒng)的開銷。

      發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種建立IP地址分類模型的方法、對(duì)用戶分類的方法及裝置,以解決現(xiàn)有技術(shù)中由于無法對(duì)搜索引擎用戶進(jìn)行有效分類導(dǎo)致的搜索結(jié)果呈現(xiàn)方式單一或搜索引擎系統(tǒng)資源浪費(fèi)的缺陷。本發(fā)明為解決技術(shù)問題而采用的技術(shù)方案是提供一種建立IP地址分類模型的方法,包括A.獲取用戶搜索日志;B.統(tǒng)計(jì)所述搜索日志中每個(gè)IP地址下的cookie數(shù)量;
      C.對(duì)cookie數(shù)量大于或等于設(shè)定的第一閾值的IP地址下的cookie和查詢抽取特征;D.利用抽取的特征進(jìn)行模型訓(xùn)練,以得到包含IP地址與用戶類型之間對(duì)應(yīng)關(guān)系的IP地址分類模型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,該方法還包括將cookie數(shù)量小于設(shè)定的第一閾值的IP地址確定為家庭用戶類別的IP地址。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟C中,對(duì)cookie抽取的特征包括周末使用時(shí)間與工作日使用時(shí)間相對(duì)比例、日間使用時(shí)間與夜間使用時(shí)間的相對(duì)比例、或直接訪問服務(wù)器次數(shù)與間接訪問服務(wù)器次數(shù)的相對(duì)比例。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟C中,對(duì)查詢抽取的特征是通過信息增益的方法得到的。本發(fā)明還提供了一種對(duì)用戶分類的方法,包括a.獲取當(dāng)前用戶的IP地址;b.采用前文所述方法建立的IP地址分類模型,得到與所述當(dāng)前用戶的IP地址一致的用戶類型作為所述當(dāng)前用戶的用戶類型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述方法進(jìn)一步包括c.當(dāng)所述當(dāng)前用戶的IP地址的類型為家庭類或小區(qū)類時(shí),判斷所述當(dāng)前用戶的cookie是否已識(shí)別,如果是,則確定所述當(dāng)前用戶的細(xì)分用戶類型為與所述cookie對(duì)應(yīng)的用戶類型,否則執(zhí)行識(shí)別cookie的步驟;所述識(shí)別cookie的步驟包括d.根據(jù)查詢分類模型對(duì)所述cookie下的每個(gè)會(huì)話所處周期內(nèi)的查詢進(jìn)行分類,以得到所述查詢對(duì)應(yīng)的用戶類型作為每個(gè)會(huì)話對(duì)應(yīng)的用戶類型,其中所述查詢分類模型是包含查詢與用戶類型之間對(duì)應(yīng)關(guān)系的分類模型確定所述cookie下屬于每類用戶的會(huì)話的比例,當(dāng)存在大于設(shè)定的第二閾值的比例時(shí),將所述cookie對(duì)應(yīng)的用戶類型識(shí)別為該比例的會(huì)話對(duì)應(yīng)的用戶類型,且所述當(dāng)前用戶的細(xì)分用戶類型為與所述cookie對(duì)應(yīng)的用戶類型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述步驟c中,當(dāng)在設(shè)定的第三閾值的時(shí)間內(nèi),所述cookie對(duì)應(yīng)的用戶類型均被識(shí)別為同一用戶類型時(shí),判斷所述cookie為已識(shí)別。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述查詢分類模型是通過下列方式獲得的從注冊用戶搜索日志中挖掘所有線下查詢;統(tǒng)計(jì)每個(gè)線下查詢被每類用戶搜索的比例,并將所述比例作為每個(gè)線下查詢隸屬于每類用戶的隸屬分值;將每個(gè)線下查詢進(jìn)行分詞處理得到分詞結(jié)果,并通過用所述分詞結(jié)果擬合對(duì)應(yīng)的隸屬分值對(duì)最大熵模型進(jìn)行訓(xùn)練,得到包含查詢與用戶類型之間對(duì)應(yīng)關(guān)系的查詢分類模型。本發(fā)明還提供了一種建立IP地址分類模型的裝置,其特征在于,所述裝置包括接收單元,用于獲取用戶搜索日志;統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述搜索日志中每個(gè)IP地址下的cookie數(shù)量;特征抽取單元,用于對(duì)cookie數(shù)量大于或等于設(shè)定的第一閾值的IP地址下的cookie和查詢抽取特征;訓(xùn)練單元,用于利用抽取的特征進(jìn)行模型訓(xùn)練,以得到包含IP地址與用戶類型之間對(duì)應(yīng)關(guān)系的分類模型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述訓(xùn)練單元還用于將cookie數(shù)量小于設(shè)定的第一閾值的IP地址確定為家庭用戶類別的IP地址。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述特征抽取單元對(duì)cookie抽取的特征包括周末使用時(shí)間與工作日使用時(shí)間相對(duì)比例、日間使用時(shí)間與夜間使用時(shí)間的相對(duì)比例、或直接訪問服務(wù)器次數(shù)與間接訪問服務(wù)器次數(shù)的相對(duì)比例。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述特征抽取單元對(duì)查詢抽取的特征是通過信息增益的方法得到的。本發(fā)明還提供了一種對(duì)用戶分類的裝置,其特征在于,所述裝置包括檢測單元,用于獲取當(dāng)前用戶的IP地址;分類單元,用于采用前文所述裝置建立的IP地址分類模型得到與所述當(dāng)前用戶的IP地址一致的用戶類型作為所述當(dāng)前用戶的用戶類型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述裝置進(jìn)一步包括判斷單元,用于當(dāng)所述當(dāng)前用戶的IP地址的類型為家庭類或小區(qū)類時(shí),判斷所述當(dāng)前用戶的cookie是否已識(shí)別,如果是,則確定所述當(dāng)前用戶的細(xì)分用戶類型為與所述cookie對(duì)應(yīng)的用戶類型,否則觸發(fā)cookie識(shí)別單元;所述cookie識(shí)別單元具體包括查詢分類子單元,用于受到所述判斷單元的觸發(fā)后,根據(jù)查詢分類模型對(duì)所述cookie下的每個(gè)會(huì)話所處周期內(nèi)的查詢進(jìn)行分類,以得到所述查詢對(duì)應(yīng)的用戶類型作為每個(gè)會(huì)話對(duì)應(yīng)的用戶類型,其中所述查詢分類模型是包含查詢與用戶類型之間對(duì)應(yīng)關(guān)系的分類模型;識(shí)別子單元,用于確定所述cookie下屬于每類用戶的會(huì)話的比例,當(dāng)存在大于設(shè)定的第二閾值的比例時(shí),將所述cookie對(duì)應(yīng)的用戶類型識(shí)別為該比例的會(huì)話對(duì)應(yīng)的用戶類型,且所述當(dāng)前用戶的細(xì)分用戶類型為與所述cookie對(duì)應(yīng)的用戶類型。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,當(dāng)在設(shè)定的第三閾值的時(shí)間內(nèi),所述cookie對(duì)應(yīng)的用戶類型均被識(shí)別為同一用戶類型時(shí),所述判斷單元判斷所述cookie為已識(shí)別。根據(jù)本發(fā)明之一優(yōu)選實(shí)施例,所述裝置進(jìn)一步包括查詢分類模型生成單元;所述查詢分類模型生成單元具體包括挖掘子單元,用于從所述注冊用戶搜索日志中挖掘所有線下查詢;統(tǒng)計(jì)子單元,用于統(tǒng)計(jì)每個(gè)線下查詢被每類用戶搜索的比例,并將所述比例作為每個(gè)線下查詢隸屬于每類用戶的隸屬分值;訓(xùn)練子單元,用于將每個(gè)線下查詢進(jìn)行分詞處理得到分詞結(jié)果,并通過用所述分詞結(jié)果擬合對(duì)應(yīng)的隸屬分值對(duì)最大熵模型進(jìn)行訓(xùn)練,得到包含查詢與用戶類型之間對(duì)應(yīng)關(guān)系的所述查詢分類模型。由以上技術(shù)方案可以看出,通過對(duì)搜索引擎用戶的訪問行為特征,即cookie特征和搜索引擎用戶訪問時(shí)的語義特征,即查詢特征進(jìn)行分析,本發(fā)明可以實(shí)現(xiàn)對(duì)搜索引擎用戶的有效分類,從而使搜索引擎系統(tǒng)在面對(duì)不同用戶時(shí),能夠?qū)崿F(xiàn)有針對(duì)性的結(jié)果呈現(xiàn)方式,并可針對(duì)不同類型的用戶采用不同的計(jì)算方式,節(jié)約系統(tǒng)資源。

      圖I為本發(fā)明實(shí)施例中建立IP地址分類模型的方法的流程示意圖;圖2為本發(fā)明實(shí)施例中對(duì)用戶分類的方法的流程示意圖;圖3為本發(fā)明實(shí)施例中建立查詢分類模型的方法的流程示意圖;圖4為本發(fā)明實(shí)施例中訓(xùn)練和使用查詢分類模型的示意圖;圖5為本發(fā)明實(shí)施例中建立IP地址分類模型的裝置的結(jié)構(gòu)示意框圖;圖6為本發(fā)明實(shí)施例中對(duì)用戶分類的裝置的結(jié)構(gòu)示意框圖。
      具體實(shí)施方式為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。請參考圖1,圖I為本發(fā)明實(shí)施例中建立IP地址分類模型的方法的流程示意圖。如圖I所示,所述方法包括步驟101 :獲取用戶搜索日志。步驟102 :統(tǒng)計(jì)搜索日志中每個(gè)IP地址下的cookie數(shù)量。步驟103 :對(duì)cookie數(shù)量大于或等于設(shè)定的第一閾值的IP地址下的cookie和查詢抽取特征。步驟104 :利用抽取的特征進(jìn)行模型訓(xùn)練,以得到包含IP地址與用戶類型之間對(duì)應(yīng)關(guān)系的IP地址分類模型。下面具體介紹上述步驟。在步驟101中,用戶搜索日志是一個(gè)記錄著與用戶有關(guān)的各種信息的文本,其內(nèi)容包括用戶的IP(Internet Protocol)地址、在該IP地址下的cookie信息、用戶的歷史行為記錄、用戶歷史行為發(fā)生的時(shí)間等等信息。cookie獲取用戶搜索日志是進(jìn)行后續(xù)處理的前提。在步驟102中,統(tǒng)計(jì)搜索日志中每個(gè)IP地址下的cookie的數(shù)量。如果某個(gè)IP地址下cookie的數(shù)量小于設(shè)定的第一閾值,則在后續(xù)的步驟104中可將該IP確定為家庭用戶類別的IP地址。cookie是一個(gè)記錄了在同一臺(tái)電腦上發(fā)生的各種行為的文件,如果一個(gè)IP地址下有多個(gè)cookie文件,則說明這個(gè)IP地址很可能是網(wǎng)關(guān)的IP地址,對(duì)應(yīng)該IP地址下有多臺(tái)電腦。而作為家庭用戶,其IP地址下通常不會(huì)有太多數(shù)量的電腦,因此可以為每個(gè)IP地址下的cookie數(shù)量設(shè)置一個(gè)閾值,同一個(gè)IP地址下的cookie數(shù)量小于這個(gè)閾值時(shí),說明這個(gè)IP地址應(yīng)該是非網(wǎng)關(guān)IP地址,因此可以確認(rèn)為家庭用戶類別的IP地址。在步驟103中,對(duì)cookie數(shù)量大于或等于設(shè)定的第一閾值的IP地址,也就是認(rèn)為是網(wǎng)關(guān)IP的IP地址下的cookie和查詢(query)抽取特征,以方便在后續(xù)步驟用于訓(xùn)練分類模型。對(duì)cookie抽取的特征包括周末使用時(shí)間與工作日使用時(shí)間相對(duì)比例、日間使用時(shí)間與夜間使用時(shí)間的相對(duì)比例、直接訪問服務(wù)器次數(shù)與間接訪問服務(wù)器次數(shù)的相對(duì)比例。其中,周末使用時(shí)間與工作日使用時(shí)間相對(duì)比例,指的是在cookie上記錄的用戶在周末訪問了搜索服務(wù)器的時(shí)間與在工作日訪問了搜索服務(wù)器的時(shí)間的相對(duì)比例,日間使用時(shí)間與夜間使用時(shí)間的相對(duì)比例指的是白天工作時(shí)間(即上班時(shí)間)里訪問了搜索服務(wù)器的時(shí)間與除工作時(shí)間以外的時(shí)間(即下班時(shí)間)里訪問了搜索服務(wù)器的時(shí)間的相對(duì)比例,直接訪問服務(wù)器指的是用戶是通過主動(dòng)輸入搜索服務(wù)器地址的方式訪問了搜索服務(wù)器,而間接訪問服務(wù)器指的是用戶是通過其他網(wǎng)站跳轉(zhuǎn)的方式訪問了搜索服務(wù)器。對(duì)查詢(query)抽取的特征是通過信息增益的方法得到的。所謂信息增益是指期望信息或者信息熵的有效減少量,根據(jù)它能夠確定在什么樣的層次上選擇什么樣的變量來分類。由于采用信息增益的方法選取特征是現(xiàn)有技術(shù),在此不再贅述。通過信息增益的方法,可以從查詢中抽取出最能體現(xiàn)類別差異的詞語,作為后續(xù)訓(xùn)練分類模型的特征。在步驟104中,可以利用步驟103中抽取的各種特征,通過機(jī)器學(xué)習(xí)算法對(duì)分類模型進(jìn)行訓(xùn)練,以得到包含IP地址與用戶類型之間對(duì)應(yīng)關(guān)系的IP地址分類模型。例如可以采用SVM(support vector machine支持向量機(jī))的方法來訓(xùn)練分類模型。下面對(duì)SVM方法進(jìn)行簡單的介紹。SVM的分類原理可概括為尋找一個(gè)分類超平面,使得訓(xùn)練樣本中的兩類樣本點(diǎn)能被分開,并且距離該平面盡可能地遠(yuǎn);而對(duì)線性不可分的問題,通過核函數(shù)將低維輸入空間的數(shù)據(jù)映射到高維空間,從而將原低維空間的線性不可分問題轉(zhuǎn)化為高維空間上的線性可分問題。對(duì)于兩類問題,給定樣本集(Xi, Yi),Xi e Rd,Yi = {I, -1}, i = 1,2,... I,以及核函數(shù)K(Xpyj) = (Φ (Xi) ·Φ(χ」)),其中Φ是非線性映射函數(shù)。SVM訓(xùn)練出的學(xué)習(xí)機(jī)器為f (X) = (w · Φ (x)) +b,其中w是權(quán)重,b是偏置。由于核函數(shù)的選取已是SVM領(lǐng)域的公知技術(shù),在此不做贅述。對(duì)本發(fā)明而言,樣本集(Xpyi)中的Xi是由IP地址下的各種特征(包括從cookie抽取的特征及從查詢抽取的特征)組成的特征向量,Yi表示分類中兩類中的一類,而由于多類問題都可以轉(zhuǎn)換為兩類問題,因此本發(fā)明就可以通過SVM的方法訓(xùn)練出IP地址的分類模型。例如,本發(fā)明中將IP地址分為學(xué)校類、公司類、小區(qū)類、網(wǎng)吧類,由于存在多類,可以先通過一對(duì)多的方式將多類變?yōu)閮深?,如學(xué)校類與其他類,其中其他類包括公司類、小區(qū)類、網(wǎng)吧類,這時(shí)Yi就分別表示學(xué)校類和其他類,接著可以用同樣的方式將公司類、小區(qū)類、網(wǎng)吧類區(qū)分開。值得注意的是,本發(fā)明并不限定訓(xùn)練分類模型的方法,除了可以采用SVM的機(jī)器學(xué)習(xí)方法進(jìn)行分類以外,本發(fā)明還可以用Bayes(貝葉斯)、KNN(k_Nearest Neighbor K-最近鄰)等方法都可以得到相應(yīng)的IP地址分類模型。請參考圖2,圖2為本發(fā)明實(shí)施例中對(duì)用戶分類的方法的流程示意圖。如圖2所示,所述方法包括步驟201 :獲取當(dāng)前用戶的IP地址。步驟202 :采用前文所述建立IP地址分類模型的方法建立的IP地址分類模型得到與當(dāng)前用戶的IP地址一致的用戶類型作為當(dāng)前用戶的用戶類型。步驟203:當(dāng)當(dāng)前用戶的IP地址類型為家庭類或小區(qū)類時(shí),判斷當(dāng)前用戶的cookie是否已識(shí)別,如果是,則確定當(dāng)前用戶的細(xì)分用戶類型為與該cookie對(duì)應(yīng)的用戶類型,否則執(zhí)行識(shí)別cookie的步驟。識(shí)別cookie的步驟包括步驟204和步驟205 步驟204 :根據(jù)查詢分類模型對(duì)cookie下的每個(gè)會(huì)話所處周期內(nèi)的查詢進(jìn)行分類,以得到查詢對(duì)應(yīng)的用戶類型作為每個(gè)會(huì)話對(duì)應(yīng)的用戶類型。步驟205 :確定cookie下屬于每類用戶的會(huì)話的比例,當(dāng)存在大于設(shè)定的第二閾值的比例時(shí),將該cookie識(shí)別為該比例的會(huì)話對(duì)應(yīng)的用戶類型,且當(dāng)前用戶的細(xì)分用戶類型為與該cookie對(duì)應(yīng)的用戶類型。下面對(duì)上述步驟進(jìn)行詳細(xì)說明。在步驟201中,獲取當(dāng)前用戶的IP地址。當(dāng)前用戶與搜索服務(wù)器建立連接后,就可以通過連接中的數(shù)據(jù)交換獲取到當(dāng)前用戶的IP地址。在步驟202中,將采用前文所述建立IP地址分類模型的方法建立的IP地址分類模型得到當(dāng)前用戶的用戶類型。以前文所述的分類模型采用的分類體系包括家庭類、學(xué)校類、公司類、小區(qū)類和網(wǎng)吧類為例進(jìn)行說明,當(dāng)前用戶的IP地址被分類模型分到學(xué)校類時(shí),當(dāng)前用戶的用戶類型就是學(xué)生;當(dāng)前用戶的IP地址被分類模型分到公司類時(shí),當(dāng)前用戶的用戶類型就是白領(lǐng);當(dāng)前用戶的IP地址被分類模型分到網(wǎng)吧類時(shí),當(dāng)前用戶的用戶類型就是網(wǎng)民;當(dāng)前用戶的IP地址被分類模型分到家庭類或小區(qū)類時(shí),當(dāng)前用戶的用戶類型是學(xué)生或白領(lǐng)。如果當(dāng)前用戶的IP地址的類型為家庭類或小區(qū)類,則本發(fā)明的方法可在步驟203中進(jìn)一步判斷當(dāng)前用戶的cookie是否已識(shí)別,如果是,則當(dāng)前用戶的細(xì)分用戶類型為與該cookie對(duì)應(yīng)的用戶類型,否則執(zhí)行后續(xù)識(shí)別cookie的步驟。以前文所舉的分類體系為例,如果當(dāng)前用戶的IP地址的類型為家庭類或小區(qū)類,則當(dāng)前用戶的用戶類型是學(xué)生或白領(lǐng)。這時(shí),學(xué)生或白領(lǐng)的其中之一就是細(xì)分用戶類型。例如cookie被識(shí)別為白領(lǐng)用戶的cookie,貝U當(dāng)前用戶的細(xì)分用戶類型就是白領(lǐng)類的用戶。Cookie為已識(shí)別cookie的判斷標(biāo)準(zhǔn)為在設(shè)定的第三閾值的時(shí)間內(nèi)該cookie對(duì)應(yīng)的用戶類型均被識(shí)別為同一用戶類型。例如,在連續(xù)三天的時(shí)間里,同一個(gè)cookie都被識(shí)別為白領(lǐng)用戶的cookie,那么就認(rèn)為這個(gè)cookie已經(jīng)被識(shí)別了。識(shí)別一個(gè)cookie為哪個(gè)用戶類型的cookie,可以采用后續(xù)識(shí)別cookie的步驟,即步驟204和205中所說的方法,但是并不限于這種方法。在步驟204中,將對(duì)當(dāng)前用戶的cookie下的每個(gè)會(huì)話(session)所處周期內(nèi)的查詢進(jìn)行分類,以得到這些查詢對(duì)應(yīng)的用戶類型作為每個(gè)會(huì)話對(duì)應(yīng)的用戶類型。對(duì)查詢進(jìn)行分類,需要通過查詢分類模型進(jìn)行,該分類模型是包含查詢與用戶類型之間對(duì)應(yīng)關(guān)系的分類模型。由于cookie是以電腦為單位進(jìn)行記錄的,如果一臺(tái)機(jī)子被若干個(gè)用戶使用,則該cookie上會(huì)記錄這若干個(gè)用戶的使用信息,而不會(huì)針對(duì)每個(gè)用戶都產(chǎn)生一個(gè)cookie。而會(huì)話指的是一個(gè)用戶與服務(wù)器進(jìn)行交互的一段時(shí)間,它是針對(duì)一個(gè)用戶而言的,如果能夠得到cookie下所有會(huì)話的類型,則可以進(jìn)一步判斷cookie所屬的用戶類型,從而推理得出這個(gè)cookie對(duì)應(yīng)的當(dāng)前用戶的細(xì)分用戶類型。會(huì)話所處的周期內(nèi),一個(gè)用戶可能會(huì)與搜索服務(wù)器進(jìn)行了若干次交互,發(fā)出了若干次查詢請求,因此,分析一個(gè)會(huì)話下的查詢所屬的類別,就能夠判斷該會(huì)話的類型。例如,從查詢中分析得知,一個(gè)會(huì)話下的查詢有非常大的可能是白領(lǐng)用戶發(fā)出的查詢請求,那么這個(gè)查詢所處的會(huì)話就會(huì)被判斷為白領(lǐng)用戶類型的會(huì)話。在本發(fā)明中,對(duì)會(huì)話所處周期內(nèi)的查詢進(jìn)行分析,是通過查詢分類模型進(jìn)行的。該查詢分類模型,可以利用線下的歷史數(shù)據(jù),通過最大熵的思想進(jìn)行構(gòu)建。請參考圖3,圖3為本發(fā)明實(shí)施例中建立查詢分類模型的方法的流程示意圖。如圖3所示,建立查詢分類模型的方法包括步驟301 :從注冊用戶搜索日志中挖掘所有線下查詢。注冊用戶是已知用戶類型的用戶,從這些用戶的搜索日志中挖掘出所有線下查詢,可以作為下一步分析的依據(jù)。步驟302 :統(tǒng)計(jì)每個(gè)線下查詢被每類用戶搜索的比例,并將該比例作為每個(gè)線下查詢隸屬于每類用戶的隸屬分值。例如,“美國是否會(huì)打伊朗”這個(gè)查詢,從注冊用戶搜索日志中,可以統(tǒng)計(jì)出白領(lǐng)用戶搜索了 10000次,而學(xué)生用戶搜索了 5000次,則“美國是否會(huì)打伊朗”這個(gè)查詢隸屬于白領(lǐng)用戶的隸屬分值就是10000/15000,隸屬于學(xué)生用戶的隸屬分值就是5000/15000。隸屬分值反應(yīng)了一個(gè)已知查詢隸屬于某個(gè)類別的概率分布,可以作為已知事實(shí)作為后續(xù)模型訓(xùn)練中的約束條件。步驟303 :將每個(gè)線下查詢進(jìn)行分詞處理得到分詞結(jié)果,并通過用該分詞結(jié)果擬合對(duì)應(yīng)的隸屬分值對(duì)最大熵模型進(jìn)行訓(xùn)練,得到包含查詢與用戶類型之間對(duì)應(yīng)關(guān)系的查詢分類模型。最大熵的思想,直觀地說,就是擬合所有已知事實(shí),保持對(duì)未知事件的未知狀態(tài)。在本發(fā)明中,已知事實(shí)就是前文所述的隸屬分值,用分詞結(jié)果進(jìn)行數(shù)據(jù)擬合的訓(xùn)練過程,就是在滿足已知文本(即樣本)的類別概率分布的條件下,求出一個(gè)文本隨機(jī)變量的類別概率分布,這個(gè)文本隨機(jī)變量的類別概率分布就可以用來預(yù)測一個(gè)未知類別的查詢的類別了(因?yàn)椴樵儽举|(zhì)上也是一個(gè)文本)。請參考圖4,圖4為本發(fā)明實(shí)施例中訓(xùn)練和使用查詢分類模型的示意圖。假設(shè)用詞代表特征,在模型訓(xùn)練過程階段,線下查詢經(jīng)過分詞后得到特征集,特征集中的文本特征就是所有的分詞。通過特征選擇算法與評(píng)測算法,可以從特征集中發(fā)現(xiàn)最能體現(xiàn)分類區(qū)別的特征詞,這些特征詞構(gòu)成了特征子集,其中評(píng)測算法是用來評(píng)估選擇的特征的質(zhì)量的。在訓(xùn)練過程中,必須保證滿足約束條件,在本發(fā)明中,也就是要滿足線下查詢的類別概率分布。在模型的使用過程階段,也就是分類過程中,對(duì)未知類型的查詢,在分詞后,可以生成特征子集,該特征子集包含的特征詞正是最能體現(xiàn)分類區(qū)別的詞,通過已經(jīng)訓(xùn)練好的分類模型,就可以得到分類結(jié)果了。值得注意的是,在步驟303中,除了可以采用最大熵思想來建立模型之外,用其他的分類思想進(jìn)行數(shù)據(jù)擬合也是可以的,本發(fā)明對(duì)此并不做限定。
      請繼續(xù)參考圖2。在步驟204中判斷了 cookie下的每個(gè)會(huì)話對(duì)應(yīng)的類型后,在步驟205中,就可以根據(jù)每個(gè)會(huì)話對(duì)應(yīng)的類型進(jìn)一步判斷cookie的類型。采用的方法是確定cookie下屬于每類用戶的會(huì)話的比例,當(dāng)存在大于設(shè)定的第二閾值的比例時(shí),就將該cookie識(shí)別為該比例的會(huì)話對(duì)應(yīng)的用戶類型。例如cookie下屬于白領(lǐng)類型的會(huì)話比例為2/3,而屬于學(xué)生類型的會(huì)話比例為1/3,如果設(shè)定的閾值為50%,則該cookie就認(rèn)為是白領(lǐng)類型用戶的cookie,因此也認(rèn)為當(dāng)前用戶就是白領(lǐng)類型的用戶。請參考圖5,圖5為本發(fā)明實(shí)施例中建立IP地址分類模型的裝置的結(jié)構(gòu)示意框圖。如圖5所示,所述裝置包括接收單元401、統(tǒng)計(jì)單元402、特征抽取單元403和訓(xùn)練單元 404。其中接收單元401,用于獲取用戶搜索日志。用戶搜索日志是一個(gè)記錄著與用戶有關(guān)的各種信息的文本,其內(nèi)容包括用戶的IP(Internet Protocol)地址、在該IP地址下的cookie信息、用戶的歷史行為記錄、用戶歷史行為發(fā)生的時(shí)間等等信息。cookie獲取用戶搜索日志是進(jìn)行后續(xù)處理的前提。統(tǒng)計(jì)單元402,用于統(tǒng)計(jì)搜索日志中每個(gè)IP地址下的cookie數(shù)量。cookie是一個(gè)記錄了在同一臺(tái)電腦上發(fā)生的各種行為的文件,如果一個(gè)IP地址下有多個(gè)cookie文件,則說明這個(gè)IP地址很可能是網(wǎng)關(guān)的IP地址,對(duì)應(yīng)該IP地址下有多臺(tái)電腦,而作為家庭用戶,其IP地址下通常不會(huì)有太多數(shù)量的電腦,因此可以為每個(gè)IP地址下的cookie數(shù)量設(shè)置一個(gè)閾值,同一個(gè)IP地址下的cookie數(shù)量小于這個(gè)閾值時(shí),說明這個(gè)IP地址應(yīng)該是非網(wǎng)關(guān)IP地址,因此可以確認(rèn)為家庭用戶類別的IP地址。特征抽取單元403,用于對(duì)cookie數(shù)量大于或等于設(shè)定的第一閾值的IP地址下的cookie和查詢抽取特征。對(duì)cookie數(shù)量大于或等于設(shè)定的第一閾值的IP地址,也就是認(rèn)為是網(wǎng)關(guān)IP的IP地址下的cookie和查詢(query)抽取特征,以方便在后續(xù)步驟用于訓(xùn)練分類模型。對(duì)cookie抽取的特征包括周末使用時(shí)間與工作日使用時(shí)間相對(duì)比例、日間使用時(shí)間與夜間使用時(shí)間的相對(duì)比例、直接訪問服務(wù)器次數(shù)與間接訪問服務(wù)器次數(shù)的相對(duì)比例。其中,周末使用時(shí)間與工作日使用時(shí)間相對(duì)比例,指的是在cookie上記錄的用戶在周末訪問了搜索服務(wù)器的時(shí)間與在工作日訪問了搜索服務(wù)器的時(shí)間的相對(duì)比例,日間使用時(shí)間與夜間使用時(shí)間的相對(duì)比例指的是白天工作時(shí)間(即上班時(shí)間)里訪問了搜索服務(wù)器的時(shí)間與除工作時(shí)間以外的時(shí)間(即下班時(shí)間)里訪問了搜索服務(wù)器的時(shí)間的相對(duì)比例,直接訪問服務(wù)器指的是用戶是通過主動(dòng)輸入搜索服務(wù)器地址的方式訪問了搜索服務(wù)器,而間接訪問服務(wù)器指的是用戶是通過其他網(wǎng)站跳轉(zhuǎn)的方式訪問了搜索服務(wù)器。對(duì)查詢(query)抽取的特征是通過信息增益的方法得到的。所謂信息增益是指期望信息或者信息熵的有效減少量,根據(jù)它能夠確定在什么樣的層次上選擇什么樣的變量來分類。由于采用信息增益的方法選取特征是現(xiàn)有技術(shù),在此不再贅述。通過信息增益的方法,可以從查詢中抽取出最能體現(xiàn)類別差異的詞語,作為后續(xù)訓(xùn)練分類模型的特征。訓(xùn)練單元404,用于利用抽取的特征進(jìn)行模型訓(xùn)練,以得到包含IP地址與用戶類型之間對(duì)應(yīng)關(guān)系的IP地址分類模型。另外,根據(jù)統(tǒng)計(jì)單元402的統(tǒng)計(jì)結(jié)果,將cookie的數(shù)量小于設(shè)定的第一閾值的IP地址確定為家庭用戶類別的IP地址。利用特征抽取單元403抽取的各種特征,通過機(jī)器學(xué)習(xí)算法對(duì)分類模型進(jìn)行訓(xùn)練,就可以得到包含IP地址與用戶類型之間對(duì)應(yīng)關(guān)系的IP地址分類模型。例如可以采用SVM(support vector machine支持向量機(jī))的方法來訓(xùn)練分類模型。下面對(duì)SVM方法進(jìn)行簡單的介紹。SVM的分類原理可概括為尋找一個(gè)分類超平面,使得訓(xùn)練樣本中的兩類樣本點(diǎn)能被分開,并且距離該平面盡可能地遠(yuǎn);而對(duì)線性不可分的問題,通過核函數(shù)將低維輸入空間的數(shù)據(jù)映射到高維空間,從而將原低維空間的線性不可分問題轉(zhuǎn)化為高維空間上的線性可分問題。對(duì)于兩類問題,給定樣本集(Xi, Yi),Xi e Rd,Yi = {I, -1}, i = 1,2,... I,以及核函數(shù)K(Xpyj) = (Φ (Xi) ·Φ(χ」)),其中Φ是非線性映射函數(shù)。SVM訓(xùn)練出的學(xué)習(xí)機(jī)器為f (X) = (w · Φ (x)) +b,其中w是權(quán)重,b是偏置。由于核函數(shù)的選取已是SVM領(lǐng)域的公知技術(shù),在此不做贅述。對(duì)本發(fā)明而言,樣本集(Xpyi)中的Xi是由IP地址下的各種特征(包括從cookie抽取的特征及從查詢抽取的特征)組成的特征向量,Yi表示分類中兩類中的一類,而由于多類問題都可以轉(zhuǎn)換為兩類問題,因此本發(fā)明就可以通過SVM的方法訓(xùn)練出IP地址的分類模型。例如,本發(fā)明中將IP地址分為學(xué)校類、公司類、小區(qū)類、網(wǎng)吧類,由于存在多類,可以先通過一對(duì)多的方式將多類變?yōu)閮深?,如學(xué)校類與其他類,其中其他類包括公司類、小區(qū)類、網(wǎng)吧類,這時(shí)Yi就分別表示學(xué)校類和其他類,接著可以用同樣的方式將公司類、小區(qū)類、網(wǎng)吧類區(qū)分開。值得注意的是,本發(fā)明并不限定訓(xùn)練分類模型的方法,除了可以采用SVM的機(jī)器學(xué)習(xí)方法進(jìn)行分類以外,本發(fā)明還可以用Bayes(貝葉斯)、KNN(k_Nearest Neighbor K-最近鄰)等方法都可以得到相應(yīng)的IP地址分類模型。請參考圖6,圖6為本發(fā)明實(shí)施例中對(duì)用戶分類的裝置的結(jié)構(gòu)示意框圖。如圖6所示,所述裝置包括檢測單元501、分類單元502、判斷單元503、cookie識(shí)別單元504和查詢分類模型生成單元505。其中檢測單元501,用于獲取當(dāng)前用戶的IP地址。當(dāng)前用戶與搜索服務(wù)器建立連接后,就可以通過連接中的數(shù)據(jù)交換獲取到當(dāng)前用戶的IP地址。分類單元502,用于采用前文所述建立IP地址分類模型的裝置建立的IP地址分類模型得到與當(dāng)前用戶的IP地址一致的用戶類型作為當(dāng)前用戶的用戶類型。以前文所述的分類模型采用的分類體系包括家庭類、學(xué)校類、公司類、小區(qū)類和網(wǎng)吧類為例進(jìn)行說明,當(dāng)前用戶的IP地址被分類模型分到學(xué)校類時(shí),當(dāng)前用戶的用戶類型就是學(xué)生;當(dāng)前用戶的IP地址被分類模型分到公司類時(shí),當(dāng)前用戶的用戶類型就是白領(lǐng);當(dāng)前用戶的IP地址被分類模型分到網(wǎng)吧類時(shí),當(dāng)前用戶的用戶類型就是網(wǎng)民;當(dāng)前用戶的IP地址被分類模型分到家庭類或小區(qū)類時(shí),當(dāng)前用戶的用戶類型是學(xué)生或白領(lǐng)。判斷單元503,用于當(dāng)當(dāng)前用戶的IP地址類型為家庭類或小區(qū)類時(shí),判斷當(dāng)前用戶的cookie是否已識(shí)別,如果是,則確定當(dāng)前用戶的細(xì)分用戶類型為與該cookie對(duì)應(yīng)的用戶類型,否則觸發(fā)cookie識(shí)別單元504。
      12
      以前文所舉的分類體系為例,如果當(dāng)前用戶的IP地址的類型為家庭類或小區(qū)類,則當(dāng)前用戶的用戶類型是學(xué)生或白領(lǐng)。這時(shí),學(xué)生或白領(lǐng)的其中之一就是細(xì)分用戶類型。例如cookie被識(shí)別為白領(lǐng)用戶的cookie,則當(dāng)前用戶的細(xì)分用戶類型就是白領(lǐng)類的用戶。Cookie為已識(shí)別cookie的判斷標(biāo)準(zhǔn)為在設(shè)定的第三閾值的時(shí)間內(nèi)該cookie對(duì)應(yīng)的用戶類型均被識(shí)別為同一用戶類型。例如,在連續(xù)三天的時(shí)間里,同一個(gè)cookie都被識(shí)別為白領(lǐng)用戶的cookie,那么就認(rèn)為這個(gè)cookie已經(jīng)被識(shí)別了。cookie識(shí)別單元504,用于識(shí)別當(dāng)前用戶的cookie對(duì)應(yīng)的用戶類型,并將該用戶類型作為當(dāng)前用戶的細(xì)分用戶類型。cookie識(shí)別單元504包括查詢分類子單元5041和識(shí)別子單元5042。查詢分類子單元5041,用于根據(jù)查詢分類模型對(duì)當(dāng)前用戶的cookie下的每個(gè)會(huì)話所處周期內(nèi)的查詢進(jìn)行分類,以得到這些查詢對(duì)應(yīng)的用戶類型作為每個(gè)會(huì)話對(duì)應(yīng)的用戶類型。對(duì)查詢進(jìn)行分類,需要通過一個(gè)查詢分類模型進(jìn)行,該分類模型是包含查詢與用戶類型之間對(duì)應(yīng)關(guān)系的分類模型。由于cookie是以電腦為單位進(jìn)行記錄的,如果一臺(tái)機(jī)子被若干個(gè)用戶使用,則該cookie上會(huì)記錄這若干個(gè)用戶的使用信息,而不會(huì)針對(duì)每個(gè)用戶都產(chǎn)生一個(gè)cookie。而會(huì)話指的是一個(gè)用戶與服務(wù)器進(jìn)行交互的一段時(shí)間,它是針對(duì)一個(gè)用戶而言的,如果能夠得到cookie下所有會(huì)話的類型,則可以進(jìn)一步判斷cookie所屬的用戶類型,從而推理得出這個(gè)cookie對(duì)應(yīng)的當(dāng)前用戶的細(xì)分用戶類型。會(huì)話所處的周期內(nèi),一個(gè)用戶可能會(huì)與搜索服務(wù)器進(jìn)行了若干次交互,發(fā)出了若干次查詢請求,因此,分析一個(gè)會(huì)話下的查詢所屬的類別,就能夠判斷該會(huì)話的類型。例如,從查詢中分析得知,一個(gè)會(huì)話下的查詢有非常大的可能是白領(lǐng)用戶發(fā)出的查詢請求,那么這個(gè)查詢所處的會(huì)話就會(huì)被判斷為白領(lǐng)用戶類型的會(huì)話。在本發(fā)明中,對(duì)會(huì)話所處周期內(nèi)的查詢進(jìn)行分析,是通過一個(gè)查詢分類模型進(jìn)行的。該查詢分類模型,是通過查詢分類模型生成單元505的處理得到的。查詢分類模型生成單元505,用于通過利用注冊用戶搜索日志中的數(shù)據(jù)進(jìn)行模型訓(xùn)練,以得到查詢分類模型。查詢分類模型生成單元505包括挖掘子單元5051、統(tǒng)計(jì)子單元5052、訓(xùn)練子單元5053。其中挖掘子單元5051,用于從注冊用戶搜索日志中挖掘所有線下查詢。注冊用戶是已知用戶類型的用戶,從這些用戶的搜索日志中挖掘出所有線下查詢,可以作為下一步分析的依據(jù)。統(tǒng)計(jì)子單元5052,用于統(tǒng)計(jì)每個(gè)線下查詢被每類用戶搜索的比例,并將該比例作為每個(gè)線下查詢隸屬于每類用戶的隸屬分值。例如,“美國是否會(huì)打伊朗”這個(gè)查詢,從注冊用戶搜索日志中,可以統(tǒng)計(jì)出白領(lǐng)用戶搜索了 10000次,而學(xué)生用戶搜索了 5000次,則“美國是否會(huì)打伊朗”這個(gè)查詢隸屬于白領(lǐng)用戶的隸屬分值就是10000/15000,隸屬于學(xué)生用戶的隸屬分值就是5000/15000。隸屬分值反應(yīng)了一個(gè)已知查詢隸屬于某個(gè)類別的概率分布,可以作為已知事實(shí)作為后續(xù)模型訓(xùn)練中的約束條件。訓(xùn)練子單元5053,用于將每個(gè)線下查詢進(jìn)行分詞處理得到分詞結(jié)果,并通過用該分詞結(jié)果擬合對(duì)應(yīng)的隸屬分值對(duì)最大熵模型進(jìn)行訓(xùn)練,得到包含查詢與用戶類型之間對(duì)應(yīng)關(guān)系的查詢分類模型。
      最大熵的思想,直觀地說,就是擬合所有已知事實(shí),保持對(duì)未知事件的未知狀態(tài)。在本發(fā)明中,已知事實(shí)就是前文所述的隸屬分值,用分詞結(jié)果進(jìn)行數(shù)據(jù)擬合的訓(xùn)練過程,就是在滿足已知文本(即樣本)的類別概率分布的條件下,求出一個(gè)文本隨機(jī)變量的類別概率分布,這個(gè)文本隨機(jī)變量的類別概率分布就可以用來預(yù)測一個(gè)未知類別的查詢的類別了(因?yàn)椴樵儽举|(zhì)上也是一個(gè)文本)。請參考圖4,圖4為本發(fā)明實(shí)施例中訓(xùn)練和使用分類模型的示意圖。假設(shè)用詞代表特征,在模型訓(xùn)練過程階段,線下查詢經(jīng)過分詞后得到特征集,特征集中的文本特征就是所有的分詞。通過特征選擇算法與評(píng)測算法,可以從特征集中發(fā)現(xiàn)最能體現(xiàn)分類區(qū)別的特征詞,這些特征詞構(gòu)成了特征子集,其中評(píng)測算法是用來評(píng)估選擇的特征的質(zhì)量的。在訓(xùn)練過程中,必須保證滿足約束條件,在本發(fā)明中,也就是要滿足線下查詢的類別概率分布。在模型的使用過程階段,也就是分類過程中,對(duì)未知類型的查詢,在分詞后,可以生成特征子集,該特征子集包含的特征詞正是最能體現(xiàn)分類區(qū)別的詞,通過已經(jīng)訓(xùn)練好的分類模型,就可以得到分類結(jié)果了。請繼續(xù)參考圖6。識(shí)別子單元5042,用于確定cookie下屬于每類用戶的會(huì)話的比例,當(dāng)存在大于設(shè)定的第二閾值的比例時(shí),將該cookie識(shí)別為該比例的會(huì)話對(duì)應(yīng)的用戶類型,且當(dāng)前用戶的細(xì)分用戶類型為與該cookie對(duì)應(yīng)的用戶類型。例如C00kie下屬于白領(lǐng)類型的會(huì)話比例為2/3,而屬于學(xué)生類型的會(huì)話比例為1/3,如果設(shè)定的閾值為50%,則該cookie就認(rèn)為是白領(lǐng)類型用戶的cookie,因此也認(rèn)為當(dāng)前用戶就是白領(lǐng)類型的用戶。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
      權(quán)利要求
      1.一種建立IP地址分類模型的方法,其特征在于,所述方法包括A.獲取用戶搜索日志;B.統(tǒng)計(jì)所述搜索日志中每個(gè)IP地址下的cookie數(shù)量;C.對(duì)cookie數(shù)量大于或等于設(shè)定的第一閾值的IP地址下的cookie和查詢抽取特征;D.利用抽取的特征進(jìn)行模型訓(xùn)練,以得到包含IP地址與用戶類型之間對(duì)應(yīng)關(guān)系的IP地址分類模型。
      2.根據(jù)權(quán)利要求I所述的方法,其特征在于,該方法還包括將cookie數(shù)量小于設(shè)定的第一閾值的IP地址確定為家庭用戶類別的IP地址。
      3.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟C中,對(duì)cookie抽取的特征包括周末使用時(shí)間與工作日使用時(shí)間相對(duì)比例、日間使用時(shí)間與夜間使用時(shí)間的相對(duì)比例、或直接訪問服務(wù)器次數(shù)與間接訪問服務(wù)器次數(shù)的相對(duì)比例。
      4.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟C中,對(duì)查詢抽取的特征是通過信息增益的方法得到的。
      5.一種對(duì)用戶分類的方法,其特征在于,所述方法包括a.獲取當(dāng)前用戶的IP地址;b.采用權(quán)利要求I至4中任一權(quán)項(xiàng)所述方法建立的IP地址分類模型,得到與所述當(dāng)前用戶的IP地址一致的用戶類型作為所述當(dāng)前用戶的用戶類型。
      6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述方法進(jìn)一步包括c.當(dāng)所述當(dāng)前用戶的IP地址的類型為家庭類或小區(qū)類時(shí),判斷所述當(dāng)前用戶的cookie是否已識(shí)別,如果是,則確定所述當(dāng)前用戶的細(xì)分用戶類型為與所述cookie對(duì)應(yīng)的用戶類型,否則執(zhí)行識(shí)別cookie的步驟;所述識(shí)別cookie的步驟包括d.根據(jù)查詢分類模型對(duì)所述cookie下的每個(gè)會(huì)話所處周期內(nèi)的查詢進(jìn)行分類,以得到所述查詢對(duì)應(yīng)的用戶類型作為每個(gè)會(huì)話對(duì)應(yīng)的用戶類型,其中所述查詢分類模型是包含查詢與用戶類型之間對(duì)應(yīng)關(guān)系的分類模型;e.確定所述cookie下屬于每類用戶的會(huì)話的比例,當(dāng)存在大于設(shè)定的第二閾值的比例時(shí),將所述cookie對(duì)應(yīng)的用戶類型識(shí)別為該比例的會(huì)話對(duì)應(yīng)的用戶類型,且所述當(dāng)前用戶的細(xì)分用戶類型為與所述cookie對(duì)應(yīng)的用戶類型。
      7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述步驟c中,當(dāng)在設(shè)定的第三閾值的時(shí)間內(nèi),所述cookie對(duì)應(yīng)的用戶類型均被識(shí)別為同一用戶類型時(shí),判斷所述cookie為已識(shí)別。
      8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述查詢分類模型是通過下列方式獲得的從注冊用戶搜索日志中挖掘所有線下查詢;統(tǒng)計(jì)每個(gè)線下查詢被每類用戶搜索的比例,并將所述比例作為每個(gè)線下查詢隸屬于每類用戶的隸屬分值;將每個(gè)線下查詢進(jìn)行分詞處理得到分詞結(jié)果,并通過用所述分詞結(jié)果擬合對(duì)應(yīng)的隸屬分值對(duì)最大熵模型進(jìn)行訓(xùn)練,得到包含查詢與用戶類型之間對(duì)應(yīng)關(guān)系的查詢分類模型。
      9.一種建立IP地址分類模型的裝置,其特征在于,所述裝置包括接收單元,用于獲取用戶搜索日志;統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述搜索日志中每個(gè)IP地址下的cookie數(shù)量;特征抽取單元,用于對(duì)cookie數(shù)量大于或等于設(shè)定的第一閾值的IP地址下的cookie和查詢抽取特征;訓(xùn)練單元,用于利用抽取的特征進(jìn)行模型訓(xùn)練,以得到包含IP地址與用戶類型之間對(duì)應(yīng)關(guān)系的分類模型。
      10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述訓(xùn)練單元還用于將cookie數(shù)量小于設(shè)定的第一閾值的IP地址確定為家庭用戶類別的IP地址。
      11.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述特征抽取單元對(duì)cookie抽取的特征包括周末使用時(shí)間與工作日使用時(shí)間相對(duì)比例、日間使用時(shí)間與夜間使用時(shí)間的相對(duì)比例、或直接訪問服務(wù)器次數(shù)與間接訪問服務(wù)器次數(shù)的相對(duì)比例。
      12.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述特征抽取單元對(duì)查詢抽取的特征是通過信息增益的方法得到的。
      13.一種對(duì)用戶分類的裝置,其特征在于,所述裝置包括檢測單元,用于獲取當(dāng)前用戶的IP地址;分類單元,用于采用權(quán)利要求9至12中任一權(quán)項(xiàng)所述裝置建立的IP地址分類模型得到與所述當(dāng)前用戶的IP地址一致的用戶類型作為所述當(dāng)前用戶的用戶類型。
      14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述裝置進(jìn)一步包括判斷單元,用于當(dāng)所述當(dāng)前用戶的IP地址的類型為家庭類或小區(qū)類時(shí),判斷所述當(dāng)前用戶的cookie是否已識(shí)別,如果是,則確定所述當(dāng)前用戶的細(xì)分用戶類型為與所述cookie對(duì)應(yīng)的用戶類型,否則觸發(fā)cookie識(shí)別單元;所述cookie識(shí)別單元具體包括查詢分類子單元,用于受到所述判斷單元的觸發(fā)后,根據(jù)查詢分類模型對(duì)所述cookie下的每個(gè)會(huì)話所處周期內(nèi)的查詢進(jìn)行分類,以得到所述查詢對(duì)應(yīng)的用戶類型作為每個(gè)會(huì)話對(duì)應(yīng)的用戶類型,其中所述查詢分類模型是包含查詢與用戶類型之間對(duì)應(yīng)關(guān)系的分類模型;識(shí)別子單元,用于確定所述cookie下屬于每類用戶的會(huì)話的比例,當(dāng)存在大于設(shè)定的第二閾值的比例時(shí),將所述cookie對(duì)應(yīng)的用戶類型識(shí)別為該比例的會(huì)話對(duì)應(yīng)的用戶類型,且所述當(dāng)前用戶的細(xì)分用戶類型為與所述cookie對(duì)應(yīng)的用戶類型。
      15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,當(dāng)在設(shè)定的第三閾值的時(shí)間內(nèi),所述cookie對(duì)應(yīng)的用戶類型均被識(shí)別為同一用戶類型時(shí),所述判斷單元判斷所述cookie為已識(shí)別。
      16.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述裝置進(jìn)一步包括查詢分類模型生成單元;所述查詢分類模型生成單元具體包括挖掘子單元,用于從所述注冊用戶搜索日志中挖掘所有線下查詢;統(tǒng)計(jì)子單元,用于統(tǒng)計(jì)每個(gè)線下查詢被每類用戶搜索的比例,并將所述比例作為每個(gè)線下查詢隸屬于每類用戶的隸屬分值;訓(xùn)練子單元,用于將每個(gè)線下查詢進(jìn)行分詞處理得到分詞結(jié)果,并通過用所述分詞結(jié)果擬合對(duì)應(yīng)的隸屬分值對(duì)最大熵模型進(jìn)行訓(xùn)練,得到包含查詢與用戶類型之間對(duì)應(yīng)關(guān)系的所述查詢分類模型。
      全文摘要
      本發(fā)明提供一種建立IP地址分類模型的方法、對(duì)用戶分類的方法及裝置,其中所述建立IP地址分類模型的方法包括A.獲取用戶搜索日志;B.統(tǒng)計(jì)搜索日志中每個(gè)IP地址下的cookie數(shù)量;C.對(duì)cookie數(shù)量大于或等于設(shè)定的第一閾值的IP地址下的cookie和查詢抽取特征;D.利用抽取的特征進(jìn)行模型訓(xùn)練,以得到包含IP地址與用戶類型之間對(duì)應(yīng)關(guān)系的IP地址分類模型。通過使用上述模型,可以實(shí)現(xiàn)對(duì)搜索引擎用戶的有效分類,使搜索引擎系統(tǒng)能夠針對(duì)不同類型的用戶采用不同的計(jì)算方式,節(jié)約系統(tǒng)資源。
      文檔編號(hào)G06F17/30GK102937951SQ201110232269
      公開日2013年2月20日 申請日期2011年8月15日 優(yōu)先權(quán)日2011年8月15日
      發(fā)明者張旭 申請人:北京百度網(wǎng)訊科技有限公司
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1