基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法
【專利摘要】本發(fā)明提供了一種基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法,該方法包括:將用戶的檢索詞提交給分布式檢索系統(tǒng);完成檢索后,獲取檢索結(jié)果的所屬領(lǐng)域表示;基于用戶興趣和檢索結(jié)果所屬領(lǐng)域的近似度,對(duì)檢索結(jié)果進(jìn)行排序。本發(fā)明提出了一種基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法,分布式檢索系統(tǒng)對(duì)數(shù)據(jù)集進(jìn)行統(tǒng)一收集管理,并基于用戶的反饋和評(píng)價(jià)對(duì)檢索結(jié)果進(jìn)一步優(yōu)化,更高效率地滿足了用戶個(gè)性化的需求。
【專利說明】
基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及數(shù)據(jù)推送,特別設(shè)及一種基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法。
【背景技術(shù)】
[0002] 在信息時(shí)代的今天,隨著互聯(lián)網(wǎng)技術(shù)和社會(huì)信息化技術(shù)的不斷發(fā)展,信息量W爆 炸式的速度增長,互聯(lián)網(wǎng)正不斷地影響和改變著人們的日常生活方式。然而,隨著網(wǎng)絡(luò)信息 變得越來越紛繁復(fù)雜,人們?nèi)绾螐娜绱撕茲M的信息海洋中高效地找到符合需求的信息就成 了一個(gè)越來越值得關(guān)注的課題。雖然有相關(guān)分布式檢索系統(tǒng)可W幫助人們更精確的找到所 需要的信息,但在某些應(yīng)用領(lǐng)域,如電影、音樂、社交網(wǎng)絡(luò)捜索,用戶一般不能很好的提出很 好的檢索需求,通過研究用戶的歷史記錄、用戶的社會(huì)化信息W及對(duì)應(yīng)領(lǐng)域數(shù)據(jù)的屬性信 息,將用戶的信息建?;蛘哳I(lǐng)域數(shù)據(jù)資源建模,通過可靠方式將用戶潛在感興趣的數(shù)據(jù)資 源推薦給用戶。然而現(xiàn)有的分布式檢索系統(tǒng)在工作效率和用戶的滿意度各不相同,并且缺 少通用的接口來處理異構(gòu)數(shù)據(jù)的輸入。
【發(fā)明內(nèi)容】
[0003] 為解決上述現(xiàn)有技術(shù)所存在的問題,本發(fā)明提出了一種基于興趣偏好的內(nèi)容主動(dòng) 呈現(xiàn)方法,包括:
[0004] 將用戶的檢索詞提交給分布式檢索系統(tǒng);
[0005] 完成檢索后,獲取檢索結(jié)果的所屬領(lǐng)域表示;
[0006] 基于用戶興趣和檢索結(jié)果所屬領(lǐng)域的近似度,對(duì)檢索結(jié)果進(jìn)行排序。
[0007] 優(yōu)選地,所述將用戶的檢索詞提交給分布式檢索系統(tǒng)之后,還包括:
[000引獲取分布式檢索系統(tǒng)的檢索結(jié)果,并提取出檢索結(jié)果標(biāo)題、描述和URL,并進(jìn)行分 詞,根據(jù)停用詞表,將無用的詞刪除;根據(jù)逆向詞頻算法計(jì)算結(jié)果標(biāo)題和描述的每個(gè)詞的加 權(quán)值,然后合并;檢查每個(gè)詞所屬的細(xì)分領(lǐng)域,如果有兩個(gè)詞所屬的細(xì)分領(lǐng)域相同,則將其 加權(quán)值相加,作為該細(xì)分領(lǐng)域的加權(quán)值,最后可得到該檢索結(jié)果的細(xì)分領(lǐng)域矢量;檢查每個(gè) 細(xì)分領(lǐng)域所屬的主領(lǐng)域,如果相同則繼續(xù)合并,最后可得到該檢索結(jié)果的主領(lǐng)域矢量;
[0009] 所述基于用戶興趣和檢索結(jié)果所屬領(lǐng)域的近似度,對(duì)檢索結(jié)果進(jìn)行排序,具體包 括:
[0010] 定義UF為用戶的主興趣矢量,US為用戶的細(xì)分興趣矢量,DF是檢索集中某個(gè)檢索 結(jié)果的主領(lǐng)域矢量,DS該檢索結(jié)果的細(xì)分領(lǐng)域矢量,依次計(jì)算用戶興趣和每個(gè)結(jié)果的近似 度:
[0011] 計(jì)算用戶興趣和檢索結(jié)果的細(xì)分領(lǐng)域集合的邊界差:
[0012] 化=DS-US HDS
[0013] 計(jì)算用戶興趣和檢索結(jié)果的細(xì)分領(lǐng)域集合的近似度:
[0014]
[0015] 其中S WsWiXUSWi)是該檢索結(jié)果和用戶興趣中都存在的細(xì)分領(lǐng)域的權(quán)值乘 佔(zhàn) USnDS 積的和,rmm (BL)和rmm (DS)分別是化和DS的數(shù)量;
[0016] 計(jì)算用戶興趣和檢索結(jié)果的主領(lǐng)域集合的邊界差:
[0017] Bu=DF-(UFnDF)
[0018] 計(jì)算用戶興趣和檢索結(jié)果的主領(lǐng)域集合的近似度:
[0019]
[0020] 其中2^ WfWiXufWi:)是該檢索結(jié)果和用戶興趣中都存在的主領(lǐng)域的權(quán)值乘積 i 吐 JSryDS 的和,num (BU)和num (D巧分別是Bu和DF的數(shù)量;
[0021] 最后計(jì)算該檢索結(jié)果和用戶興趣的總近似度:
[0022] Sim = CXSimL化S,DS) + (l-〇 XSi皿化F,DF)
[0023] 其中C為細(xì)分領(lǐng)域集合近似度的加權(quán)值;
[0024] 對(duì)分布式檢索系統(tǒng)返回的每個(gè)結(jié)果依次計(jì)算總近似度Sim,得到每個(gè)檢索結(jié)果新 的權(quán)值,然后從大到小排序。
[0025] 本發(fā)明相比現(xiàn)有技術(shù),具有W下優(yōu)點(diǎn):
[00%]本發(fā)明提出了一種基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法,分布式檢索系統(tǒng)對(duì)數(shù)據(jù)集 進(jìn)行統(tǒng)一收集管理,并基于用戶的反饋和評(píng)價(jià)對(duì)檢索結(jié)果進(jìn)一步優(yōu)化,更高效率地滿足了 用戶個(gè)性化的需求。
【附圖說明】
[0027] 圖1是根據(jù)本發(fā)明實(shí)施例的基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法的流程圖。
【具體實(shí)施方式】
[0028] 下文與圖示本發(fā)明原理的附圖一起提供對(duì)本發(fā)明一個(gè)或者多個(gè)實(shí)施例的詳細(xì)描 述。結(jié)合運(yùn)樣的實(shí)施例描述本發(fā)明,但是本發(fā)明不限于任何實(shí)施例。本發(fā)明的范圍僅由權(quán)利 要求書限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細(xì)節(jié)W 便提供對(duì)本發(fā)明的透徹理解。出于示例的目的而提供運(yùn)些細(xì)節(jié),并且無運(yùn)些具體細(xì)節(jié)中的 一些或者所有細(xì)節(jié)也可W根據(jù)權(quán)利要求書實(shí)現(xiàn)本發(fā)明。
[0029] 本發(fā)明的一方面提供了一種基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法。圖1是根據(jù)本發(fā) 明實(shí)施例的基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法流程圖。
[0030] 本發(fā)明在分布式檢索系統(tǒng)中對(duì)于檢索輸入數(shù)據(jù)集進(jìn)行統(tǒng)一的管理與存儲(chǔ),并且對(duì) 其進(jìn)行數(shù)據(jù)轉(zhuǎn)換,根據(jù)獲得的反饋結(jié)果進(jìn)行結(jié)果評(píng)價(jià),分布式檢索系統(tǒng)評(píng)價(jià)單元包括數(shù)據(jù) 管理模塊、檢索執(zhí)行模塊和展現(xiàn)模塊。
[0031] 數(shù)據(jù)管理模塊用于接收數(shù)據(jù)輸入、統(tǒng)一格式W及數(shù)據(jù)集的特征分析和采樣。數(shù)據(jù) 文件輸入系統(tǒng)后,經(jīng)過數(shù)據(jù)管理模塊的數(shù)據(jù)匯總子模塊將其轉(zhuǎn)換成系統(tǒng)可識(shí)別的數(shù)據(jù)資 源,經(jīng)過數(shù)據(jù)整理子模塊處理,成為系統(tǒng)可計(jì)算的數(shù)據(jù),數(shù)據(jù)整理包括將來自文本文件,數(shù) 據(jù)庫文件,W及日志文件的輸入數(shù)據(jù)進(jìn)行格式的統(tǒng)一,轉(zhuǎn)換為二維矩陣或多維列表,W使后 續(xù)的數(shù)據(jù)操作繼續(xù)執(zhí)行。在檢索執(zhí)行模塊請(qǐng)求數(shù)據(jù)的時(shí)候,檢索執(zhí)行模塊在對(duì)應(yīng)的請(qǐng)求參 數(shù)中包含請(qǐng)求數(shù)據(jù)的格式,然后數(shù)據(jù)傳輸子模塊根據(jù)該參數(shù)來處理經(jīng)過數(shù)據(jù)采樣的數(shù)據(jù)。
[0032] 數(shù)據(jù)集根據(jù)各服務(wù)器的存儲(chǔ)情況存儲(chǔ)在不同的服務(wù)器上,檢索執(zhí)行模塊向數(shù)據(jù)管 理模塊請(qǐng)求數(shù)據(jù)時(shí),數(shù)據(jù)管理模塊先進(jìn)行緩存查找,采用的是客戶端的散列策略,如果緩存 命中,直接從緩存中將數(shù)據(jù)集取出,若不命中,則在數(shù)據(jù)庫中請(qǐng)求相關(guān)數(shù)據(jù)。
[0033] 在數(shù)據(jù)管理模塊訪問緩存服務(wù)器時(shí),首先,數(shù)據(jù)管理模塊請(qǐng)求數(shù)據(jù)集時(shí)的key經(jīng)過 預(yù)定算法映射到其中一臺(tái)緩存服務(wù)器,然后從該服務(wù)器上取出相應(yīng)的數(shù)據(jù)值。為使其命中 率盡量高,采取了 W下策略:使用環(huán)形散列隊(duì)列,將對(duì)應(yīng)查找的對(duì)象映射到32位key,從0- 的數(shù)值空間,將其鏈接成首尾相連的環(huán)。緩存和對(duì)象經(jīng)過同一個(gè)散列算法映射到同一 個(gè)數(shù)值空間;在整個(gè)環(huán)形隊(duì)列,沿順時(shí)針方向找到對(duì)象的key值出發(fā),直到遇到一個(gè)緩存,貝U 就將此對(duì)象存儲(chǔ)在該緩存中。當(dāng)移除緩存時(shí),逆時(shí)針遍歷此緩存至下一個(gè)緩存中的對(duì)象;當(dāng) 增加緩存時(shí),將此緩存映射的位置逆時(shí)針找到與下一個(gè)緩存區(qū)間中的對(duì)象,將它們從順時(shí) 針的下一個(gè)緩存中刪去,映射到該緩存中。
[0034] 由于用戶輸入的數(shù)據(jù)集形式多樣,系統(tǒng)通過創(chuàng)建數(shù)據(jù)集板,每輸入一種數(shù)據(jù)集時(shí) 則實(shí)例化一個(gè)數(shù)據(jù)集,配置W不同的參數(shù),由于不同的算法所需要的數(shù)據(jù)集不同,所W不同 的算法使用到不同格式的數(shù)據(jù)集,對(duì)數(shù)據(jù)集格式整理包括:識(shí)別冗余的輸入的字段或信息, 將其過濾;根據(jù)用戶的配置文件,來對(duì)輸入數(shù)據(jù)集的各個(gè)字段信息進(jìn)行保存;設(shè)置數(shù)據(jù)集的 稀疏性闊值,如果輸入數(shù)據(jù)集低于闊值,可W根據(jù)用戶的輸入?yún)?shù)將低于該闊值的用戶過 濾。
[0035] 通過數(shù)據(jù)匯總將數(shù)據(jù)文件輸入分布式檢索系統(tǒng),保存至數(shù)據(jù)庫之后,運(yùn)些數(shù)據(jù)可 W直接進(jìn)入數(shù)據(jù)整理子模塊,數(shù)據(jù)整理子模塊先根據(jù)用戶的需求將某些字段過濾。接下來 將處理后的數(shù)據(jù)構(gòu)造成評(píng)分矩陣,構(gòu)造完畢后將其保存至數(shù)據(jù)庫,如果該數(shù)據(jù)整理前的數(shù) 據(jù)集非其他用戶所私有,通過此整理后的數(shù)據(jù)集保存的向前引用,找到原始的數(shù)據(jù)集。
[0036] 數(shù)據(jù)管理模塊中,數(shù)據(jù)采樣子模塊的采樣時(shí)間可W選擇在數(shù)據(jù)集處理的時(shí)候進(jìn)行 采樣,或者在算法配置完成的時(shí)候?qū)ζ溥M(jìn)行采樣。前一種方式是在數(shù)據(jù)管理模塊內(nèi)部完成, 其具體的邏輯是當(dāng)用戶選擇數(shù)據(jù)集采樣,然后選擇數(shù)據(jù)集,接著選擇對(duì)應(yīng)的采樣方式,如果 操作能成功完成則將對(duì)應(yīng)的采樣后的數(shù)據(jù)集存儲(chǔ)起來,原數(shù)據(jù)集不變,新的采樣過后的數(shù) 據(jù)集有標(biāo)記字段指示原數(shù)據(jù)集,而且有對(duì)應(yīng)的采樣方式W及其他信息。后一種方式是算法 經(jīng)過配置之后請(qǐng)求數(shù)據(jù),而數(shù)據(jù)收到具體的采樣需求,如數(shù)據(jù)集名稱,采樣方式W及其他信 息后,檢查檢索執(zhí)行模塊傳來的消息中是否能夠完成數(shù)據(jù)采樣的操作,如果是,則進(jìn)行數(shù)據(jù) 采樣,采樣完畢后將采樣后的數(shù)據(jù)集在本地?cái)?shù)據(jù)庫備份,然后將對(duì)應(yīng)的采樣數(shù)據(jù)集發(fā)給請(qǐng) 求的執(zhí)行端,一次算法執(zhí)行過程中可能會(huì)有多次數(shù)據(jù)傳輸,鑒于算法運(yùn)行時(shí)間比較久,所W 算法的運(yùn)行采用分布式處理,為了算法執(zhí)行的高效性,數(shù)據(jù)管理模塊發(fā)送給檢索執(zhí)行模塊 中對(duì)應(yīng)的不同執(zhí)行端,執(zhí)行模塊在請(qǐng)求數(shù)據(jù)采樣每次數(shù)據(jù)傳輸都會(huì)檢查它要求的采樣方式 是否已經(jīng)在數(shù)據(jù)庫中存在,如果是,則取出數(shù)據(jù),如果不是,重新發(fā)送該請(qǐng)求。
[0037] 當(dāng)進(jìn)行數(shù)據(jù)采樣的時(shí)候,首先將數(shù)據(jù)的尺寸讀入數(shù)據(jù)采樣子模塊,系統(tǒng)構(gòu)造一個(gè) 布爾矩陣,初始值全為化Ise,接著選擇采樣方式,如果只是單次采樣,生成的對(duì)應(yīng)訓(xùn)練集和 測(cè)試集都將只生成一次,如果是循環(huán)多次采樣,將生成多個(gè),根據(jù)采樣方式不同,將把此矩 陣的一些值填充為化Ue,另外一些仍為false,運(yùn)個(gè)布爾矩陣將它命名為訓(xùn)練集的模表,通 過運(yùn)個(gè)模表,可W計(jì)算出對(duì)應(yīng)的訓(xùn)練集,只需將它與對(duì)應(yīng)的數(shù)據(jù)集按位相與,同理可W計(jì)算 出測(cè)試集,只需將訓(xùn)練集的模表按位取反即可。據(jù)此生成的訓(xùn)練集與測(cè)試集表即可發(fā)送給 檢索執(zhí)行模塊執(zhí)行,檢索執(zhí)行模塊根據(jù)訓(xùn)練集去預(yù)測(cè)測(cè)試集表中值為True的數(shù)據(jù)項(xiàng)評(píng)分即 可。
[0038] 在測(cè)試集中對(duì)檢索結(jié)果進(jìn)行評(píng)價(jià),該測(cè)試集中的內(nèi)容是用戶感興趣的項(xiàng)目集合。 由于在數(shù)據(jù)采樣的時(shí)候在本地保存了測(cè)試集,當(dāng)算法執(zhí)行執(zhí)行完畢返回結(jié)果時(shí),系統(tǒng)先從 通信的報(bào)文中取出所對(duì)應(yīng)的序列碼,根據(jù)此序列碼將數(shù)據(jù)庫中所對(duì)應(yīng)的測(cè)試集取出,然后 將其與返回的結(jié)果進(jìn)行比較,從而得出評(píng)價(jià)結(jié)果。檢索執(zhí)行模塊保存著W算法類型為主鍵, 算法配置概要信息的表,待算法執(zhí)行完畢后將其非主鍵信息發(fā)送回來。結(jié)合算法執(zhí)行完畢 后傳來的各個(gè)參數(shù),進(jìn)行結(jié)果的評(píng)價(jià)輸出。
[0039] 檢索執(zhí)行模塊返回?cái)?shù)據(jù)的時(shí)候,附帶雙方約定的序列碼,傳回的算法執(zhí)行結(jié)果,并 附加上算法的執(zhí)行類型表中所帶的配置算法所需的參數(shù),傳回本地W后對(duì)結(jié)果進(jìn)行評(píng)價(jià)和 展現(xiàn),W供用戶反饋修改參數(shù)。
[0040] 在用戶提供相關(guān)反饋后,對(duì)檢索結(jié)果進(jìn)行重新排序處理,具體為,結(jié)合檢索結(jié)果評(píng) 分、用戶反饋中相關(guān)和不相關(guān)結(jié)果的近似度距離差來進(jìn)行重新排序。
[0041 ]在度量檢索結(jié)果間的相關(guān)性之前,首先需要將其進(jìn)行量化表示,將每個(gè)檢索結(jié)果 di表示成一個(gè)矢量,矢量的維度是文本中至少出現(xiàn)過一次的詞構(gòu)成集合的大小,每一維的 值是相應(yīng)的詞在該結(jié)果中逆向詞頻指標(biāo)表示的權(quán)值。然后采用W下公式評(píng)價(jià)結(jié)果和檢索式 之間的相關(guān)性評(píng)分:
[0042]
[0043]
[0044]
[0045] 式中W(t|di)為詞t在di中的權(quán)值;
[0046] W(t Iq)為詞t在檢索式Q中的權(quán)值;
[0047] Kdi)為結(jié)果di的長度;
[004引 tf (t I di)為詞t在結(jié)果di中出現(xiàn)的頻率;
[0049] tf(t Iq)為詞t在檢索式Q中出現(xiàn)的頻率;
[0050] 壯(t Ic)為詞t在整個(gè)結(jié)果集C中的頻率;
[0051 ] kl,k2,b為預(yù)設(shè)調(diào)節(jié)參數(shù)。
[0052] 最后根據(jù)結(jié)果的最終評(píng)分,對(duì)初始的檢索結(jié)果進(jìn)行重新排序,即按結(jié)果的Score的 評(píng)分由高到低進(jìn)行排序。
[0053] 本發(fā)明在W下實(shí)施例使用可選的結(jié)果排序方法,包括檢索結(jié)果的領(lǐng)域表示和基于 近似度計(jì)算的檢索結(jié)果排序。
[0054] 首先是將用戶的檢索詞提交給分布式檢索系統(tǒng),然后獲取分布式檢索系統(tǒng)的檢索 結(jié)果,并提取出檢索結(jié)果標(biāo)題、描述和URL,并進(jìn)行分詞,根據(jù)停用詞表,將無用的詞刪除;根 據(jù)逆向詞頻算法計(jì)算結(jié)果標(biāo)題和描述的每個(gè)詞的加權(quán)值,然后合并;檢查每個(gè)詞所屬的細(xì) 分領(lǐng)域,如果有兩個(gè)詞所屬的細(xì)分領(lǐng)域相同,則將其加權(quán)值相加,作為該細(xì)分領(lǐng)域的加權(quán) 值,最后可得到該檢索結(jié)果的細(xì)分領(lǐng)域矢量;檢查每個(gè)細(xì)分領(lǐng)域所屬的主領(lǐng)域,如果相同則 繼續(xù)合并,最后可得到該檢索結(jié)果的主領(lǐng)域矢量;對(duì)分布式檢索系統(tǒng)結(jié)果集執(zhí)行W上步驟, 得到分布式檢索系統(tǒng)結(jié)果集的領(lǐng)域矢量表。
[0055] 設(shè)UF為用戶的主興趣矢量,US為用戶的細(xì)分興趣矢量,依次計(jì)算用戶興趣和每個(gè) 結(jié)果的近似度。設(shè)DF是檢索集中某個(gè)檢索結(jié)果的主領(lǐng)域矢量,DS該檢索結(jié)果的細(xì)分領(lǐng)域矢 量。
[0056] 計(jì)算用戶興趣和檢索結(jié)果的細(xì)分領(lǐng)域集合的邊界差:
[0057] 化=DS-US HDS
[0058] 計(jì)算用戶興趣和檢索結(jié)果的細(xì)分領(lǐng)域集合的近似度:
[0化9]
[0060] 其中Z ^dswiXiiswi)是該檢索結(jié)果和用戶興趣中都存在的細(xì)分領(lǐng)域的權(quán)值乘 ieUSnDS 積的和,rmm (BL)和rmm (DS)分別是化和DS的數(shù)量。
[0061] 計(jì)算用戶興趣和檢索結(jié)果的主領(lǐng)域集合的邊界差:
[0062] Bu=DF-(UFnDF)
[0063] 計(jì)算用戶興趣和檢索結(jié)果的主領(lǐng)域集合的近似度:
[0064]
[00化]其中I!. WfWiXufw':)是該檢索結(jié)果和用戶興趣中都存在的主領(lǐng)域的權(quán)值乘積 缺SnDS: 的和,num (BU)和num (D巧分別是Bu和DF的數(shù)量;
[0066] 最后計(jì)算該檢索結(jié)果和用戶興趣的總近似度:
[0067] Sim = CXSimL化S,DS) + (l-〇 XSi皿化F,DF)
[0068] 其中C為細(xì)分領(lǐng)域集合近似度的加權(quán)值。
[0069] 依據(jù)運(yùn)個(gè)步驟,對(duì)分布式檢索系統(tǒng)返回的每個(gè)結(jié)果依次計(jì)算總近似度Sim,得到每 個(gè)檢索結(jié)果新的權(quán)值,然后從大到小排序,得到新的結(jié)果順序。
[0070] 在上述用戶興趣的向量表示中,本發(fā)明采用獲取本地瀏覽記錄W進(jìn)行興趣分析的 方式。首先獲取用戶訪問的檢索結(jié)果的標(biāo)題和描述,并對(duì)運(yùn)些標(biāo)題和描述進(jìn)行分詞,分詞后 根據(jù)停用詞表將無用的詞刪除;對(duì)照特征詞表,檢查瀏覽記錄中所有檢索結(jié)果的所有詞,統(tǒng) 計(jì)每個(gè)細(xì)分領(lǐng)域出現(xiàn)的特征詞數(shù),得到矢量{化31,(31),化32,02),,,,,化3。,(3。)},其中1131指 第i個(gè)細(xì)分領(lǐng)域,Cl指第i個(gè)細(xì)分領(lǐng)域出現(xiàn)了多少個(gè)特征詞;計(jì)算每個(gè)細(xì)分領(lǐng)域的權(quán)值,計(jì)算 公式夫
最后得到一個(gè)細(xì)分興趣矢量HS= Khsi,hswi),化S2,hsW2),…,化Sn, hswn)};細(xì)分興趣矢量與用戶選擇的興趣領(lǐng)域合并后,一起生成主領(lǐng)域興趣矢量。
[0071] 綜上所述,本發(fā)明提出了一種基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法,分布式檢索系 統(tǒng)對(duì)數(shù)據(jù)集進(jìn)行統(tǒng)一收集管理,并基于用戶的反饋和評(píng)價(jià)對(duì)檢索結(jié)果進(jìn)一步優(yōu)化,更高效 率地滿足了用戶個(gè)性化的需求。
[0072] 顯然,本領(lǐng)域的技術(shù)人員應(yīng)該理解,上述的本發(fā)明的各模塊或各步驟可W用通用 的計(jì)算系統(tǒng)來實(shí)現(xiàn),它們可W集中在單個(gè)的計(jì)算系統(tǒng)上,或者分布在多個(gè)計(jì)算系統(tǒng)所組成 的網(wǎng)絡(luò)上,可選地,它們可W用計(jì)算系統(tǒng)可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可W將它們存儲(chǔ) 在存儲(chǔ)系統(tǒng)中由計(jì)算系統(tǒng)來執(zhí)行。運(yùn)樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
[0073]應(yīng)當(dāng)理解的是,本發(fā)明的上述【具體實(shí)施方式】僅僅用于示例性說明或解釋本發(fā)明的 原理,而不構(gòu)成對(duì)本發(fā)明的限制。因此,在不偏離本發(fā)明的精神和范圍的情況下所做的任何 修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。此外,本發(fā)明所附權(quán)利要求旨 在涵蓋落入所附權(quán)利要求范圍和邊界、或者運(yùn)種范圍和邊界的等同形式內(nèi)的全部變化和修 改例。
【主權(quán)項(xiàng)】
1. 一種基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法,其特征在于,包括: 將用戶的檢索詞提交給分布式檢索系統(tǒng); 完成檢索后,獲取檢索結(jié)果的所屬領(lǐng)域表示; 基于用戶興趣和檢索結(jié)果所屬領(lǐng)域的近似度,對(duì)檢索結(jié)果進(jìn)行排序。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將用戶的檢索詞提交給分布式檢索系 統(tǒng)之后,還包括: 獲取分布式檢索系統(tǒng)的檢索結(jié)果,并提取出檢索結(jié)果標(biāo)題、描述和URL,并進(jìn)行分詞,根 據(jù)停用詞表,將無用的詞刪除;根據(jù)逆向詞頻算法計(jì)算結(jié)果標(biāo)題和描述的每個(gè)詞的加權(quán)值, 然后合并;檢查每個(gè)詞所屬的細(xì)分領(lǐng)域,如果有兩個(gè)詞所屬的細(xì)分領(lǐng)域相同,則將其加權(quán)值 相加,作為該細(xì)分領(lǐng)域的加權(quán)值,最后可得到該檢索結(jié)果的細(xì)分領(lǐng)域矢量;檢查每個(gè)細(xì)分領(lǐng) 域所屬的主領(lǐng)域,如果相同則繼續(xù)合并,最后可得到該檢索結(jié)果的主領(lǐng)域矢量; 所述基于用戶興趣和檢索結(jié)果所屬領(lǐng)域的近似度,對(duì)檢索結(jié)果進(jìn)行排序,具體包括: 定義UF為用戶的主興趣矢量,US為用戶的細(xì)分興趣矢量,DF是檢索集中某個(gè)檢索結(jié)果 的主領(lǐng)域矢量,DS該檢索結(jié)果的細(xì)分領(lǐng)域矢量,依次計(jì)算用戶興趣和每個(gè)結(jié)果的近似度: 計(jì)算用戶興趣和檢索結(jié)果的細(xì)分領(lǐng)域集合的邊界差: Bl = DS-US 門 DS 計(jì)算用戶興細(xì)(和拾索結(jié)里的細(xì)分領(lǐng)域隼合的沂似庶,其=是該檢索結(jié)果和用戶興趣中都存在的細(xì)分領(lǐng)域的權(quán)值乘積的 和,num(BL)和num(DS)分別是Bl和DS的數(shù)量; 計(jì)算用戶興趣和檢索結(jié)果的主領(lǐng)域集合的邊界差: Bu = DF-(UFnDF) i十笪田戶興細(xì)和烚親結(jié)里的Φ緬城隹合的忻M麼.其4k該檢索結(jié)果和用戶興趣中都存在的主領(lǐng)域的權(quán)值乘積的和, num (BU)和num (DF)分別是Bu和DF的數(shù)量; 最后計(jì)算該檢索結(jié)果和用戶興趣的總近似度: Sim=GXSimL(US,DS) + (l〇 XSimu(UF,DF) 其中ζ為細(xì)分領(lǐng)域集合近似度的加權(quán)值; 對(duì)分布式檢索系統(tǒng)返回的每個(gè)結(jié)果依次計(jì)算總近似度Sim,得到每個(gè)檢索結(jié)果新的權(quán) 值,然后從大到小排序。
【文檔編號(hào)】G06F17/30GK106021513SQ201610347202
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月23日
【發(fā)明人】董政, 吳文杰, 陳露, 李學(xué)生
【申請(qǐng)人】成都陌云科技有限公司