專利名稱:個(gè)性化搜索方法及系統(tǒng)的制作方法
個(gè)性化搜索方法及系統(tǒng)
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索技術(shù),尤其涉及一種個(gè)性化搜索方法及系統(tǒng)。
背景技術(shù):
個(gè)性化搜索是一種信息搜索方式,相對于普通搜索方式其考慮了用戶的區(qū)別,利用用戶信息對搜索結(jié)果進(jìn)行修改或過濾,以得到更符合用戶個(gè)性化需求的搜索結(jié)果。個(gè)性化搜索的基本方法是將用戶輸入的關(guān)鍵詞和用戶的個(gè)人偏好聯(lián)系起來進(jìn)行查詢,從而得到用戶最可能需要的信息顯示在最前面。個(gè)性化搜索需要解決兩個(gè)問題,一是如何構(gòu)建用戶模型,二是如何對搜索結(jié)果進(jìn) 行重新排序。構(gòu)建用戶模型需要先采集用戶信息,包括用戶注冊時(shí)提供的職業(yè)、畢業(yè)院校、興趣愛好等個(gè)人信息及用戶訪問日志等。傳統(tǒng)的個(gè)性化搜索方式中,是基于IP、Cookie等方式來采集用戶信息。根據(jù)采集到的用戶信息構(gòu)建用戶模型,傳統(tǒng)的個(gè)性化搜索方式中,通常采用基于內(nèi)容的方法來構(gòu)建用戶模型,利用用戶信息中的特征詞來表示用戶的興趣,構(gòu)建的是基于特征詞的向量空間模型。然而,這樣所構(gòu)建的用戶模型維度過高,一般都是幾萬維,而個(gè)性化搜索都需要在線實(shí)時(shí)計(jì)算,在用戶模型維度過高的情況下,實(shí)現(xiàn)起來非常困難。
發(fā)明內(nèi)容基于此,有必要提供一種實(shí)現(xiàn)簡單、能提高運(yùn)行性能的個(gè)性化搜索方法。一種個(gè)性化搜索方法,包括以下步驟獲取用戶發(fā)表的文檔,對文檔進(jìn)行分類,得到文檔的分類信息;根據(jù)文檔的分類信息構(gòu)建用戶模型和文檔模型;根據(jù)用戶輸入的檢索 詞進(jìn)行檢索,得到檢索結(jié)果;根據(jù)所述用戶模型和文檔模型計(jì)算所述檢索結(jié)果的排序權(quán)值;根據(jù)所述排序權(quán)值對所述檢索結(jié)果進(jìn)行排序。優(yōu)選的,所述根據(jù)文檔的分類信息構(gòu)建用戶模型和文檔模型的步驟為獲取用戶發(fā)表的文檔的分類概率及檢索詞的分類概率;構(gòu)建個(gè)人模型,所述個(gè)人模型為由用戶發(fā)表的文檔的分類概率組成的向量,構(gòu)建大眾模型,所述大眾模型為由檢索詞的分類概率組成的向量,將所述個(gè)人模型與大眾模型進(jìn)行線性疊加,得到用戶模型;構(gòu)建文檔模型,所述文檔模型為由文檔屬于各分類的概率組成的向量。優(yōu)選的,采用如下公式構(gòu)建所述用戶模型P(people_social) = aXP(query)+ (l~a)P(people) ,0 ^ a ^ I其中,P(people_social)為用戶模型,P(query)為大眾模型,P(people)為個(gè)人模型,a為用戶活躍度指數(shù);所述用戶活躍度指數(shù)的計(jì)算公式為
權(quán)利要求
1.一種個(gè)性化搜索方法,包括以下步驟 獲取用戶發(fā)表的文檔,對文檔進(jìn)行分類,得到文檔的分類信息; 根據(jù)文檔的分類信息構(gòu)建用戶模型和文檔模型; 根據(jù)用戶輸入的檢索詞進(jìn)行檢索,得到檢索結(jié)果; 根據(jù)所述用戶模型和文檔模型計(jì)算所述檢索結(jié)果的排序權(quán)值; 根據(jù)所述排序權(quán)值對所述檢索結(jié)果進(jìn)行排序。
2.根據(jù)權(quán)利要求I所述的個(gè)性化搜索方法,其特征在于,所述根據(jù)文檔的分類信息構(gòu)建用戶模型和文檔模型的步驟為 獲取用戶發(fā)表的文檔的分類概率及檢索詞的分類概率; 構(gòu)建個(gè)人模型,所述個(gè)人模型為由用戶發(fā)表的文檔的分類概率組成的向量,構(gòu)建大眾模型,所述大眾模型為由檢索詞的分類概率組成的向量,將所述個(gè)人模型與大眾模型進(jìn)行線性疊加,得到用戶模型; 構(gòu)建文檔模型,所述文檔模型為由文檔屬于各分類的概率組成的向量。
3.根據(jù)權(quán)利要求2所述的個(gè)性化搜索方法,其特征在于,采用如下公式構(gòu)建所述用戶模型P(people_social) = aXP(query)+ (l~a)P(people) ,0 ^ a ^ I其中,P(people_social)為用戶模型,P(query)為大眾模型,P(people)為個(gè)人模型,a為用戶活躍度指數(shù); 所述用戶活躍度指數(shù)的計(jì)算公式為 f N -,N<2xNl a = \ 2xM \N>2xN\ 其中,N為一個(gè)用戶發(fā)表的文檔總數(shù),NI為所有用戶平均發(fā)表的文檔數(shù)。
4.根據(jù)權(quán)利要求I所述的個(gè)性化搜索方法,其特征在于,所述根據(jù)用戶模型和文檔模型計(jì)算所述檢索結(jié)果的排序權(quán)值的步驟為 獲取登錄用戶的用戶模型和所述檢索結(jié)果中每個(gè)文檔的文檔模型; 計(jì)算所述登錄用戶的用戶模型和所述文檔模型的第一相似度; 獲取檢索結(jié)果中每個(gè)文檔的作者的用戶模型,計(jì)算所述作者的用戶模型與所述登錄用戶的用戶模型的第二相似度; 將所述第一相似度與第二相似度進(jìn)行線性疊加,得到所述排序權(quán)值。
5.根據(jù)權(quán)利要求I所述的個(gè)性化搜索方法,其特征在于,所述方法還包括對用戶模型進(jìn)行更新的步驟,具體是 設(shè)置線性衰減函數(shù)、統(tǒng)計(jì)周期和統(tǒng)計(jì)時(shí)間段; 在所述統(tǒng)計(jì)時(shí)間段內(nèi)統(tǒng)計(jì)每個(gè)統(tǒng)計(jì)周期內(nèi)用戶發(fā)表的各類文檔數(shù); 根據(jù)所述線性衰減函數(shù),獲取折算后的統(tǒng)計(jì)時(shí)間段內(nèi)用戶發(fā)表的各類文檔數(shù); 根據(jù)所述折算后的用戶發(fā)表的各類文檔數(shù)構(gòu)建用戶模型。
6.一種個(gè)性化搜索系統(tǒng),其特征在于,包括 文檔分類模塊,用于獲取用戶發(fā)表的文檔,并對文檔進(jìn)行分類,得到文檔的分類信息;用戶模型構(gòu)建模塊,用于獲取所述文檔分類信息,根據(jù)所述文檔分類信息構(gòu)建用戶模型; 文檔模型構(gòu)建模塊,用于獲取所述文檔分類信息,根據(jù)所述文檔分類信息構(gòu)建文檔模型; 檢索模塊,用于根據(jù)用戶輸入的檢索詞進(jìn)行檢索,得到檢索結(jié)果; 排序權(quán)值計(jì)算模塊,用于根據(jù)所述用戶模型和文檔模型計(jì)算所述檢索結(jié)果的排序權(quán)值; 排序模塊,用于根據(jù)所述排序權(quán)值對所述檢索結(jié)果進(jìn)行排序。
7.根據(jù)權(quán)利要求6所述的個(gè)性化搜索系統(tǒng),其特征在于,所述用戶模型構(gòu)建模塊用于獲取用戶發(fā)表的文檔的分類概率及檢索詞的分類概率,構(gòu)建個(gè)人模型,所述個(gè)人模型為由用戶發(fā)表的文檔的分類概率組成的向量,構(gòu)建大眾模型,所述大眾模型為由檢索詞的分類概率組成的向量,將所述個(gè)人模型與大眾模型進(jìn)行線性疊加,得到用戶模型; 所述文檔模型構(gòu)建模塊用于構(gòu)建所述文檔模型,所述文檔模型為由文檔屬于各分類的概率組成的向量。
8.根據(jù)權(quán)利要求7所述的個(gè)性化搜索系統(tǒng),其特征在于,所述用戶模型構(gòu)建模塊按如下公式構(gòu)建所述用戶模型P(people_social) = aXP(query) + (l~a)P(people),0 ^ a ^ I其中,P(people_social)為用戶模型,P(query)為大眾模型,P(people)為個(gè)人模型,a為用戶活躍度指數(shù); 所述系統(tǒng)還包括用戶活躍度指數(shù)計(jì)算模塊,所述用戶活躍度指數(shù)計(jì)算模塊計(jì)算所述用戶活躍度指數(shù)的計(jì)算公式為
9.根據(jù)權(quán)利要求6所述的個(gè)性化搜索系統(tǒng),其特征在于,所述排序權(quán)值計(jì)算模塊包括 查詢單元,用于獲取登錄用戶的用戶模型; 相似度計(jì)算單元,用于獲取檢索結(jié)果中每個(gè)文檔的文檔模型及每個(gè)文檔的作者的用戶模型,計(jì)算所述登錄用戶的用戶模型和所述文檔模型的第一相似度,以及計(jì)算所述作者的用戶模型與所述登錄用戶的用戶模型的第二相似度; 線性疊加單元,用于將所述第一相似度和第二相似度進(jìn)行線性疊加,得到排序權(quán)值。
10.根據(jù)權(quán)利要求6所述的個(gè)性化搜索系統(tǒng),其特征在于,所述用戶模型構(gòu)建模塊包括更新模塊,所述更新模塊具體包括 設(shè)置單元,用于設(shè)置線性衰減函數(shù)、統(tǒng)計(jì)周期和統(tǒng)計(jì)時(shí)間段; 統(tǒng)計(jì)單元,用于在所述統(tǒng)計(jì)時(shí)間段內(nèi)統(tǒng)計(jì)每個(gè)統(tǒng)計(jì)周期內(nèi)用戶發(fā)表的各類文檔數(shù);折算單元,用于根據(jù)所述線性衰減函數(shù),獲取折算后的統(tǒng)計(jì)時(shí)間段內(nèi)用戶發(fā)表的各類文檔數(shù); 用戶模型構(gòu)建單元,用于根據(jù)所述折算后的用戶發(fā)表的各類文檔數(shù)構(gòu)建用戶模型。
全文摘要
一種個(gè)性化搜索方法,包括以下步驟獲取用戶發(fā)表的文檔,對文檔進(jìn)行分類,得到文檔的分類信息;根據(jù)文檔的分類信息構(gòu)建用戶模型和文檔模型;根據(jù)用戶輸入的檢索詞進(jìn)行檢索,得到檢索結(jié)果;根據(jù)所述用戶模型和文檔模型計(jì)算所述檢索結(jié)果排序權(quán)值;根據(jù)所述排序權(quán)值對所述檢索結(jié)果進(jìn)行排序。采用上述方法,構(gòu)建的用戶模型和文檔模型的維度較低,實(shí)現(xiàn)起來簡單,從而能夠提高運(yùn)行性能。此外,還提供了一種個(gè)性化搜索系統(tǒng)。
文檔編號G06F17/30GK102737027SQ201110082369
公開日2012年10月17日 申請日期2011年4月1日 優(yōu)先權(quán)日2011年4月1日
發(fā)明者付劍波, 劉曉云, 文勖, 焦峰, 王亮, 王銳, 石一峰, 許春林 申請人:騰訊科技(深圳)有限公司