點擊模型生成方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及搜索引擎領域,具體而言,涉及一種點擊模型生成方法和裝置。
【背景技術】
[0002] 在互聯(lián)網(wǎng)領域中,對于提供搜索服務的網(wǎng)站而言,搜索引擎系統(tǒng)能夠根據(jù)用戶輸 入的檢索詞來預測用戶的點擊行為。而這個過程中,點擊模型起到了至關重要的作用。點擊 模型是對用戶點擊行為的建模,根據(jù)用戶的歷史點擊信息,對用戶的信物和行為進行建模, 以對用戶未來的點擊行為進行預測,提高相關性。
[0003] 然而,發(fā)明人發(fā)現(xiàn),由于使用互聯(lián)網(wǎng)的用戶存在地域差異,不同地域的用戶的歷史 點擊行為也具有差異性,而現(xiàn)有搜索引擎中通常是利用用戶行為來訓練得到一個點擊模 型,這樣,導致通過運行點擊模型得到的搜索結果不能準確地預測用戶的點擊行為。
[0004] 針對現(xiàn)有技術中通過運行點擊模型得到的搜索結果不能準確地預測用戶的點擊 行為的問題,目前尚未提出有效的解決方案。
【發(fā)明內容】
[0005] 本發(fā)明實施例提供了一種點擊模型生成方法和裝置,以解決現(xiàn)有技術中通過運行 點擊模型得到的搜索結果不能準確地預測用戶的點擊行為的技術問題。
[0006] 根據(jù)本發(fā)明實施例的一個方面,提供了一種點擊模型生成方法,包括:分別獲取預 先劃分的多個地理區(qū)域的用戶的歷史點擊信息,得到對應于多個地理區(qū)域的多個歷史點擊 信息集合;計算多個歷史點擊信息集合之間的歷史點擊信息的重疊率,重疊率用于表示多 個歷史點擊信息集合之間具有相同點擊行為的比例;利用多個歷史點擊信息集合之間的歷 史點擊信息的重疊率來對多個地理區(qū)域進行聚類,得到多個區(qū)域類,其中,多個區(qū)域類中的 每一個區(qū)域類包括一個或者多個地理區(qū)域;以及分別生成對應于多個區(qū)域類的點擊模型, 得到多個點擊模型,多個點擊模型與多個區(qū)域類一一對應。
[0007] 根據(jù)本發(fā)明實施例的另一方面,還提供了一種點擊模型生成裝置,包括:第一獲取 單元,用于分別獲取預先劃分的多個地理區(qū)域的用戶的歷史點擊信息,得到對應于多個地 理區(qū)域的多個歷史點擊信息集合;計算單元,用于計算多個歷史點擊信息集合之間的歷史 點擊信息的重疊率,重疊率用于表示所述多個歷史點擊信息集合之間具有相同點擊行為的 比例;聚類單元,用于利用所述多個歷史點擊信息集合之間的歷史點擊信息的重疊率來對 所述多個地理區(qū)域進行聚類,得到多個區(qū)域類,其中,所述多個區(qū)域類中的每一個區(qū)域類包 括一個或者多個地理區(qū)域;以及生成單元,用于分別生成對應于所述多個區(qū)域類的點擊模 型,得到多個點擊模型,所述多個點擊模型與所述多個區(qū)域類一一對應。
[0008] 根據(jù)本發(fā)明實施例,通過按照預先劃分的多個地理區(qū)域對歷史點擊信息進行分 類,得到對應于多個地理區(qū)域的多個歷史點擊信息集合,并利用多個歷史點擊信息集合之 間的歷史點擊信息的重疊率來對多個地理區(qū)域進行聚類,得到多個區(qū)域類,分別生成對應 于多個區(qū)域類的點擊模型,得到多個點擊模型,其中,每個區(qū)域類對應一個點擊模型,通過 建立的點擊模型,可以按照地域差異性來預測用戶的點擊行為,從而可以根據(jù)用戶的位置 信息準確地預測用戶的點擊行為,解決了現(xiàn)有技術中通過運行點擊模型得到的搜索結果不 能準確地預測用戶的點擊行為的技術問題,達到了基于不同地理區(qū)域的點擊模型準確地預 測用戶的點擊行為的效果。
【附圖說明】
[0009] 此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā) 明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:
[0010] 圖1是根據(jù)本發(fā)明實施例的點擊模型生成方法的流程圖;
[0011] 圖2是根據(jù)本發(fā)明實施例的一種可選的區(qū)域類的聚類流程圖;
[0012] 圖3是根據(jù)本發(fā)明實施例優(yōu)選的點擊模型生成方法的流程圖;
[0013] 圖4是根據(jù)本發(fā)明實施例的一種可選的模型參數(shù)優(yōu)化流程圖;
[0014] 圖5是根據(jù)本發(fā)明實施例的一種可選的硬件環(huán)境的示意圖;
[0015] 圖6是根據(jù)本發(fā)明實施例的點擊模型生成裝置的示意圖;以及
[0016] 圖7是根據(jù)本發(fā)明實施例的一種可選的服務器的結構示意圖。
【具體實施方式】
[0017] 為了使本技術領域的人員更好地理解本發(fā)明方案,下面將結合本發(fā)明實施例中的 附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是 本發(fā)明一部分的實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術 人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應當屬于本發(fā)明保護的范 圍。
[0018] 需要說明的是,本發(fā)明的說明書和權利要求書及上述附圖中的術語"第一"、"第 二"等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應該理解這樣使用 的數(shù)據(jù)在適當情況下可以互換,以便這里描述的本發(fā)明的實施例能夠以除了在這里圖示或 描述的那些以外的順序實施。此外,術語"包括"和"具有"以及他們的任何變形,意圖在于 覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設備不必限 于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對于這些過程、方法、產(chǎn) 品或設備固有的其它步驟或單元。
[0019] 實施例1
[0020] 根據(jù)本發(fā)明實施例,提供了一種點擊模型生成方法,如圖1所示,該方法包括:
[0021] 步驟S102,分別獲取預先劃分的多個地理區(qū)域的用戶的歷史點擊信息,得到對應 于多個地理區(qū)域的多個歷史點擊信息集合。
[0022] 用戶的歷史點擊信息為用戶通過點擊行為產(chǎn)生的數(shù)據(jù)信息。其中,用戶的點擊行 為包括但不限定于:用戶的點擊什么文檔、點擊發(fā)生的時間、文檔當時的展現(xiàn)位置。上述行 為均可以通過數(shù)據(jù)的形式體現(xiàn),例如,在用戶的點擊日志中存在用于反映上述行為特征的 數(shù)據(jù)信息。用戶的歷史點擊信息可以是從用戶的點擊日志中獲取。
[0023] 多個歷史點擊信息集合與多個地理區(qū)域一一對應。預先劃分的多個地理區(qū)域可以 是行政區(qū)域,行政區(qū)域可以是以城市為粒度。多個歷史點擊信息集合中的每一個歷史點擊 信息集合中包括與其對應的地理區(qū)域的用戶的歷史點擊信息。
[0024] 具體地,分別獲取預先劃分的多個地理區(qū)域的用戶的歷史點擊信息,得到對應于 多個地理區(qū)域的多個歷史點擊信息集合可以是先獲取用戶的位置信息(例如精度與維 度),將用戶對應到相應的地理區(qū)域中,然后再將獲取各個地理區(qū)域的用戶的歷史點擊信 息,得到每個地理區(qū)域對應的歷史點擊信息集合。
[0025] 步驟S104,計算多個歷史點擊信息集合之間的歷史點擊信息的重疊率,重疊率用 于表示多個歷史點擊信息集合之間具有相同點擊行為的比例。
[0026] 由于一些不同地理區(qū)域之間,用戶的點擊行為會存在相似性,例如,在不同區(qū)域的 用戶對于同一個檢索詞的輸出結果,點擊了相同的文檔,這即為重疊,表示該不同區(qū)域的用 戶具有相同的點擊行為。當不同區(qū)域之間具有相同點擊行為的比例即重疊率達到一定值 時,則表明該不同區(qū)域之間用戶點擊行為的相似度比較高。
[0027] 計算多個歷史點擊信息集合之間的歷史點擊信息的重疊率即計算多個歷史點擊 信息集合對應的多個地理區(qū)域之間的用戶點擊行為的重疊率。
[0028] 步驟S106,利用多個歷史點擊信息集合之間的歷史點擊信息的重疊率來對多個地 理區(qū)域進行聚類,得到多個區(qū)域類,其中,多個區(qū)域類中的每一個區(qū)域類包括一個或者多個 地理區(qū)域。
[0029] 聚類具體是指將物理或者抽象對象的集合分成由類似的對象組成的多個類的過 程。在本發(fā)明實施例中,利用多個歷史點擊信息集合之間的重疊率將多個地理區(qū)域進行聚 類,將具有用戶點擊行為相似性的地理區(qū)域合并到一個區(qū)域類中,當然,對于與其他地理區(qū) 域不存在相似性的地理區(qū)域,則單獨放在一個區(qū)域類中。
[0030] 步驟S108,分別生成對應于多個區(qū)域類的點擊模型,得到多個點擊模型,多個點擊 模型與多個區(qū)域類 對應。
[0031] 在聚類得到多個區(qū)域類之后,利用每個區(qū)域類中用戶的歷史點擊信息來生成點擊 模型。其中,每個區(qū)域類中用戶的歷史點擊信息是由該區(qū)域類中的一個或者多個地理區(qū)域 對應的歷史點擊信息集合得到。
[0032] 根據(jù)本發(fā)明實施例,通過按照預先劃分的多個地理區(qū)域對歷史點擊信息進行分 類,得到對應于多個地理區(qū)域的多個歷史點擊信息集合,并利用多個歷史點擊信息集合之 間的歷史點擊信息的重疊率來對多個地理區(qū)域進行聚類,得到多個區(qū)域類,分別生成對應 于多個區(qū)域類的點擊模型,得到多個點擊模型,其中,每個區(qū)域類對應一個點擊模型,通過 建立的點擊模型,可以按照地域差異性來預測用戶的點擊行為,從而可以根據(jù)用戶的位置 信息準確地預測用戶的點擊行為,解決了現(xiàn)有技術中通過運行點擊模型得到的搜索結果不 能準確地預測用戶的點擊行為的技術問題,達到了基于不同地理區(qū)域的點擊模型準確地預 測用戶的點擊行為的效果。
[0033] 下面通過本發(fā)明實施例的點擊模型生成方法的應用場景來對本發(fā)明實施例進行 描述。如表1所示:
[0034] 表 1
[0035]
[0036] 預先劃分的地理區(qū)域包括:地理區(qū)域