述第二消息中每一個(gè)詞在所述K 個(gè)話題上的當(dāng)前分配信息確定所述第二消息的話題描述信息。
[0065] 本發(fā)明實(shí)施例中,把用戶u發(fā)送的第m條消息(消息m)中的第η個(gè)詞的標(biāo)志記為 夂L ,這個(gè)詞的值記為w。(例如,用戶1發(fā)送的第2條消息中的第3個(gè)詞記為這個(gè)詞 的值為"九寨溝",則 < =九寨溝。)把話題標(biāo)志記為ζ,把C的話題分配情況記為(例 如,第8個(gè)話題為"旅游",把用戶1發(fā)送的第2條消息中的第3個(gè)詞分配給"旅游"這個(gè)話 題,則記為=8)把數(shù)據(jù)集合中除了 之外的詞的取值情況記為C把貧^的話題分配 情況記為
[0066] 其中,每個(gè)詞分配到某一話題的概率,和數(shù)據(jù)集合中其他詞的話題分配情況相關(guān)。 具體來說,<?分配到話題ζ的概率取決于:所在的消息m由話題ζ生成的概率,以及 '<二的值w由話題z生成的概率。
[0067] 首先,考慮$1所在的消息m由話題z生成的概率,可從兩個(gè)方面來考慮。第一方 面是消息m中除了 之外的其他詞的話題分配情況。第二方面是該用戶的整體話題分配 情況。在第一方面中,用$^表示消息m中一個(gè)詞在之前所有輪話題分配中,被分配到話題 z的次數(shù)。用表示消息m中除了 之外的其他所有詞,在之前所有輪話題分配 中,被分配到話題z的次數(shù)。在第二方面中,用(Nzlu)表示用戶u發(fā)布的消息中(不管是哪 條消息)一個(gè)詞被分配到話題z的次數(shù)。用+ 表示用戶u發(fā)布的消息中(不管是哪 條消息)除了1C之外的其他所有詞,在之前所有輪話題分配中,被分配到話題Z的次數(shù)。令 N. |U=N1|U+N2|U+··· +NK|U,用(風(fēng)丨"廣;%表示用戶u發(fā)布的消息中(不管是哪條消息)除了 wL 之外的其他所有詞,在之前所有輪話題分配中,被分配到各個(gè)話題(從話題1到話題K)的次 數(shù)。
[0068] 所在的消息m由話題z生成的概率,可用(N^
來定量的描述,其中,λ"用來調(diào)整第一方面和第二方面的權(quán)重大小,β是用戶興趣分布的 先驗(yàn)值,Au和β都是可調(diào)整的參數(shù)。
[0069] 其次,考慮勺值w由話題ζ生成的概率。用Nwlz表示數(shù)據(jù)集合中值為w的詞被 分配到話題Z的次數(shù)。(Μ+表示在之前所有輪話題分配中,數(shù)據(jù)集合中值為W的詞 被分配到話題Z的次數(shù)。N.|z表示數(shù)據(jù)集合中詞(不管該詞的值是什么)被分配到話題z的 次數(shù)。(N 表示數(shù)據(jù)集合中詞(不管該詞的值是什么),在之前所有輪話題分配中,被 分配到話題z的次數(shù)。其中,W表示數(shù)據(jù)集合中不重復(fù)的詞的總數(shù),γ是話題中詞分布的先 驗(yàn)值,Y是可調(diào)整的參數(shù),可以預(yù)先設(shè)定。
[0070] 因此,本發(fā)明實(shí)施例中,具體地,各個(gè)詞分配到或者屬于某個(gè)話題的概率大小,如 分配給話題z的概率可以通過下式確定:
[0071]
[0072] 其中,表示用戶u發(fā)送的第m條消息(消息m)中的第η個(gè)詞;
[0073] ζ表示話題;
[0074] .表示4話題的分配情況;表示數(shù)據(jù)集合中除了 之外的詞;
[0075] ζ ^表示(二的話題分配情況;
[0076] 表示消息m中一個(gè)詞在之前所有輪話題分配中,被分配到話題ζ的次數(shù);
[0077] (N^; )··<表示消息m中除了《之外的其他所有詞,在之前所有輪話題分配中, 被分配到話題ζ的次數(shù);
[0078] (Nzlu)表示用戶U發(fā)布的消息中(不管是哪條消息)一個(gè)詞被分配到話題ζ的次數(shù);
[0079] (Ν+Γ4繁示用戶u發(fā)布的消息中(不管是哪條消息)除了 <之外的其他所有 詞,在之前所有輪話題分配中,被分配到話題ζ的次數(shù);
[0080] 表示用戶U發(fā)布的消息中(不管是哪條消息)除了、之外的其他所有 詞,在之前所有輪話題分配中,被分配到各個(gè)話題(從話題1到話題Κ)的次數(shù);
[0081] 示在之前所有輪話題分配中,數(shù)據(jù)集合中值為W的詞被分配到話題 ζ的次數(shù);
[0082] Ν.|ζ表示數(shù)據(jù)集合中詞(不管該詞的值是什么)被分配到話題ζ的次數(shù); ?表示數(shù)據(jù)集合中詞(不管該詞的值是什么),在之前所有輪話題分配中,被分配 到話題Z的次數(shù);
[0083] W表示數(shù)據(jù)集合中詞的總數(shù);
[0084] Y表示話題中詞分布的先驗(yàn)值;
[0085] λ u表示調(diào)整第一方面和第二反面的權(quán)重大??;
[0086] β表示用戶興趣分布的先驗(yàn)值。
[0087] 本發(fā)明實(shí)施例中,公式(1)給出了把分配給各個(gè)話題的概率的相對(duì)大小,并根 據(jù)'〃L屬于其他話題概率的大小,確定是否需要將所述詞重新分配到其他話題。
[0088] 本發(fā)明實(shí)施例中,每一輪的話題重新分配可采用吉布斯采樣方法,吉布斯采樣方 法可以采用如下程序?qū)崿F(xiàn):
[0089]
[0090] 其中,所述公另3參數(shù)同上述 公式(1),在此不再贅述。
[0091] 進(jìn)一步地,本發(fā)明實(shí)施例中在吉布斯采樣的輪數(shù)達(dá)到第一預(yù)定值,或者每輪需要 被重新分配話題的詞占據(jù)發(fā)送所述消息的用戶發(fā)布的所有消息中的所有詞的比例少于第 二預(yù)定值時(shí)停止所述遍歷,并獲取經(jīng)過最后一次遍歷之后所述消息中每一個(gè)詞在K個(gè)話題 上的當(dāng)前分配信息(如隊(duì)^1;及凡0,若所述消息為所述第一消息時(shí),根據(jù)所述第一消息 中每一個(gè)詞在所述κ個(gè)話題上的當(dāng)前分配信息確定所述第一消息的興趣描述信息,參見公 式(4);若所述消息為所述第二消息時(shí),根據(jù)所述第二消息中每一個(gè)詞在所述K個(gè)話題上的 當(dāng)前分配信息確定所述第二消息的話題描述信息,參見公式(5)。。
[0092] 本發(fā)明人實(shí)施例中,第z個(gè)話題可以表示為在所有詞上的概率分布
(ΦΖι1, Φ - O.....Φ" J ,該分布的每一個(gè)元素可以為:
[0093]
[0094] 其中,ΦΖι"表示話題ζ在詞上的概率分布的第w個(gè)分量;
[0095] w=l,2,~,W,其它參數(shù)同上述公式(1)中參數(shù)相同,在此不再贅 Vt-' 述。
[0096] 某一個(gè)用戶U的興趣描述信息可以表示為(,該分布的每一個(gè)元 素可以為:
[0097]
[0098] 其中,<表示用戶U的興趣在話題ζ上的概率分布的第ζ個(gè)分量;
[0099] ζ=1,…,κ,嗔它參數(shù)同上述公式(1)中參數(shù)相同。
[0100] 某一個(gè)用戶u的消息m的話題描述信息可以表示為),該分布 的每一個(gè)元素可以為:
[0101]
[0102] 其中,€...灰示用戶U的消息m在話題z上的概率分布的第z個(gè)分量;
[0103] z=l,…,K,'其它參數(shù)同上述公式(1)中參數(shù)相同。 :ν.
[0104] 本發(fā)明實(shí)施例中,分別通過上述公式(3)、(4)及(5)計(jì)算得到任一話題在所有詞 上的概率分布、任一用戶的興趣描述信息及任一消息的話題描述信息。
[0105] 步驟102、將所述話題描述信息與所述興趣描述信息進(jìn)行比較,并計(jì)算所述話題描 述信息與所述興趣描述信息的相似度。
[0106] 具體地,比較所述第二消息在K個(gè)話題上的概率分布信息與所述第一消息在K個(gè) 話題上的概率分布信息,并計(jì)算所述第二消息在K個(gè)話題上的概率分布信息與所述第一消 息在K個(gè)話題上的概率分布信息的相似度。
[0107] 本發(fā)明實(shí)施例中,具體地,第一種可實(shí)現(xiàn)方式為使用余弦相似度算法:
[0108]
[0109] 其中,s (u,d)表示所述第一消息的興趣描述信息與所述第二消息的話題描述信息 的相似度;u表示所述第一消息的興趣描述信息;d表示所述第二消息的話題描述信息 ;Pl 表TK向量u的第i個(gè)分量;qi表TK向量d的第i個(gè)分量。
[0110] 本發(fā)明實(shí)施例中,在公式(5)中,令A(yù)、其中,可分別通過上述公式 (4)及(5)計(jì)算出用戶u的興趣描述消息(即第一消息的興趣描述消息),及用戶V發(fā)布的消 息t的話題描述信息(即第二消息的話題描述消息)。從而,通過上述公式(6)計(jì)算所述第 二消息在K個(gè)話題上的概率分布信息與所述第一消息在K個(gè)話題上的概率分布信息的相似 度。
[0111] 可選地,本發(fā)明實(shí)施例中,第二種可實(shí)現(xiàn)方式為使用KL散度算法:
[0112]
[0113] 其中,KL(u,d)表示所述第一消息的興趣描述信息與所述第二消息的話題描述信 息的相似度;u表示所述第一消息的興趣描述信息;d表示所述第二消息的話題描述信息; Pi表示向量u的第i個(gè)分量;q;表示向量d的第i個(gè)分量。
[0114] 本發(fā)明實(shí)施例中,在公式(7)中,令,其中,可分