基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法

文檔序號(hào)：10655350閱讀：266來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法
【專利摘要】本發(fā)明提供了一種基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法，該方法包括：將用戶的檢索詞提交給分布式檢索系統(tǒng)；完成檢索后，獲取檢索結(jié)果的所屬領(lǐng)域表示；基于用戶興趣和檢索結(jié)果所屬領(lǐng)域的近似度，對(duì)檢索結(jié)果進(jìn)行排序。本發(fā)明提出了一種基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法，分布式檢索系統(tǒng)對(duì)數(shù)據(jù)集進(jìn)行統(tǒng)一收集管理，并基于用戶的反饋和評(píng)價(jià)對(duì)檢索結(jié)果進(jìn)一步優(yōu)化，更高效率地滿足了用戶個(gè)性化的需求。
【專利說明】
基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及數(shù)據(jù)推送，特別設(shè)及一種基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法。
【背景技術(shù)】
[0002] 在信息時(shí)代的今天，隨著互聯(lián)網(wǎng)技術(shù)和社會(huì)信息化技術(shù)的不斷發(fā)展，信息量W爆炸式的速度增長，互聯(lián)網(wǎng)正不斷地影響和改變著人們的日常生活方式。然而，隨著網(wǎng)絡(luò)信息變得越來越紛繁復(fù)雜，人們?nèi)绾螐娜绱撕茲M的信息海洋中高效地找到符合需求的信息就成了一個(gè)越來越值得關(guān)注的課題。雖然有相關(guān)分布式檢索系統(tǒng)可W幫助人們更精確的找到所需要的信息，但在某些應(yīng)用領(lǐng)域，如電影、音樂、社交網(wǎng)絡(luò)捜索，用戶一般不能很好的提出很好的檢索需求，通過研究用戶的歷史記錄、用戶的社會(huì)化信息W及對(duì)應(yīng)領(lǐng)域數(shù)據(jù)的屬性信息，將用戶的信息建?；蛘哳I(lǐng)域數(shù)據(jù)資源建模，通過可靠方式將用戶潛在感興趣的數(shù)據(jù)資源推薦給用戶。然而現(xiàn)有的分布式檢索系統(tǒng)在工作效率和用戶的滿意度各不相同，并且缺少通用的接口來處理異構(gòu)數(shù)據(jù)的輸入。

【發(fā)明內(nèi)容】

[0003] 為解決上述現(xiàn)有技術(shù)所存在的問題，本發(fā)明提出了一種基于興趣偏好的內(nèi)容主動(dòng) 呈現(xiàn)方法，包括：
[0004] 將用戶的檢索詞提交給分布式檢索系統(tǒng)；
[0005] 完成檢索后，獲取檢索結(jié)果的所屬領(lǐng)域表示；
[0006] 基于用戶興趣和檢索結(jié)果所屬領(lǐng)域的近似度，對(duì)檢索結(jié)果進(jìn)行排序。
[0007] 優(yōu)選地，所述將用戶的檢索詞提交給分布式檢索系統(tǒng)之后，還包括：
[000引獲取分布式檢索系統(tǒng)的檢索結(jié)果，并提取出檢索結(jié)果標(biāo)題、描述和URL，并進(jìn)行分詞，根據(jù)停用詞表，將無用的詞刪除;根據(jù)逆向詞頻算法計(jì)算結(jié)果標(biāo)題和描述的每個(gè)詞的加權(quán)值，然后合并;檢查每個(gè)詞所屬的細(xì)分領(lǐng)域，如果有兩個(gè)詞所屬的細(xì)分領(lǐng)域相同，則將其加權(quán)值相加，作為該細(xì)分領(lǐng)域的加權(quán)值，最后可得到該檢索結(jié)果的細(xì)分領(lǐng)域矢量;檢查每個(gè) 細(xì)分領(lǐng)域所屬的主領(lǐng)域，如果相同則繼續(xù)合并，最后可得到該檢索結(jié)果的主領(lǐng)域矢量；
[0009] 所述基于用戶興趣和檢索結(jié)果所屬領(lǐng)域的近似度，對(duì)檢索結(jié)果進(jìn)行排序，具體包括：
[0010] 定義UF為用戶的主興趣矢量，US為用戶的細(xì)分興趣矢量，DF是檢索集中某個(gè)檢索結(jié)果的主領(lǐng)域矢量，DS該檢索結(jié)果的細(xì)分領(lǐng)域矢量，依次計(jì)算用戶興趣和每個(gè)結(jié)果的近似度：
[0011] 計(jì)算用戶興趣和檢索結(jié)果的細(xì)分領(lǐng)域集合的邊界差：
[0012] 化=DS-US HDS
[0013] 計(jì)算用戶興趣和檢索結(jié)果的細(xì)分領(lǐng)域集合的近似度：
[0014]
[0015] 其中S WsWiXUSWi)是該檢索結(jié)果和用戶興趣中都存在的細(xì)分領(lǐng)域的權(quán)值乘佔(zhàn) USnDS 積的和，rmm (BL)和rmm (DS)分別是化和DS的數(shù)量；
[0016] 計(jì)算用戶興趣和檢索結(jié)果的主領(lǐng)域集合的邊界差：
[0017] Bu=DF-(UFnDF)
[0018] 計(jì)算用戶興趣和檢索結(jié)果的主領(lǐng)域集合的近似度：
[0019]
[0020] 其中2^ WfWiXufWi：)是該檢索結(jié)果和用戶興趣中都存在的主領(lǐng)域的權(quán)值乘積 i 吐 JSryDS 的和，num (BU)和num (D巧分別是Bu和DF的數(shù)量；
[0021] 最后計(jì)算該檢索結(jié)果和用戶興趣的總近似度：
[0022] Sim = CXSimL化S，DS) + (l-〇 XSi皿化F，DF)
[0023] 其中C為細(xì)分領(lǐng)域集合近似度的加權(quán)值；
[0024] 對(duì)分布式檢索系統(tǒng)返回的每個(gè)結(jié)果依次計(jì)算總近似度Sim,得到每個(gè)檢索結(jié)果新的權(quán)值，然后從大到小排序。
[0025] 本發(fā)明相比現(xiàn)有技術(shù)，具有W下優(yōu)點(diǎn)：
[00%]本發(fā)明提出了一種基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法，分布式檢索系統(tǒng)對(duì)數(shù)據(jù)集進(jìn)行統(tǒng)一收集管理，并基于用戶的反饋和評(píng)價(jià)對(duì)檢索結(jié)果進(jìn)一步優(yōu)化，更高效率地滿足了用戶個(gè)性化的需求。
【附圖說明】
[0027] 圖1是根據(jù)本發(fā)明實(shí)施例的基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法的流程圖。
【具體實(shí)施方式】
[0028] 下文與圖示本發(fā)明原理的附圖一起提供對(duì)本發(fā)明一個(gè)或者多個(gè)實(shí)施例的詳細(xì)描述。結(jié)合運(yùn)樣的實(shí)施例描述本發(fā)明，但是本發(fā)明不限于任何實(shí)施例。本發(fā)明的范圍僅由權(quán)利要求書限定，并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細(xì)節(jié)W 便提供對(duì)本發(fā)明的透徹理解。出于示例的目的而提供運(yùn)些細(xì)節(jié)，并且無運(yùn)些具體細(xì)節(jié)中的一些或者所有細(xì)節(jié)也可W根據(jù)權(quán)利要求書實(shí)現(xiàn)本發(fā)明。
[0029] 本發(fā)明的一方面提供了一種基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法。圖1是根據(jù)本發(fā) 明實(shí)施例的基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法流程圖。
[0030] 本發(fā)明在分布式檢索系統(tǒng)中對(duì)于檢索輸入數(shù)據(jù)集進(jìn)行統(tǒng)一的管理與存儲(chǔ)，并且對(duì) 其進(jìn)行數(shù)據(jù)轉(zhuǎn)換，根據(jù)獲得的反饋結(jié)果進(jìn)行結(jié)果評(píng)價(jià)，分布式檢索系統(tǒng)評(píng)價(jià)單元包括數(shù)據(jù) 管理模塊、檢索執(zhí)行模塊和展現(xiàn)模塊。
[0031] 數(shù)據(jù)管理模塊用于接收數(shù)據(jù)輸入、統(tǒng)一格式W及數(shù)據(jù)集的特征分析和采樣。數(shù)據(jù) 文件輸入系統(tǒng)后，經(jīng)過數(shù)據(jù)管理模塊的數(shù)據(jù)匯總子模塊將其轉(zhuǎn)換成系統(tǒng)可識(shí)別的數(shù)據(jù)資源，經(jīng)過數(shù)據(jù)整理子模塊處理，成為系統(tǒng)可計(jì)算的數(shù)據(jù)，數(shù)據(jù)整理包括將來自文本文件，數(shù) 據(jù)庫文件，W及日志文件的輸入數(shù)據(jù)進(jìn)行格式的統(tǒng)一，轉(zhuǎn)換為二維矩陣或多維列表，W使后續(xù)的數(shù)據(jù)操作繼續(xù)執(zhí)行。在檢索執(zhí)行模塊請(qǐng)求數(shù)據(jù)的時(shí)候，檢索執(zhí)行模塊在對(duì)應(yīng)的請(qǐng)求參數(shù)中包含請(qǐng)求數(shù)據(jù)的格式，然后數(shù)據(jù)傳輸子模塊根據(jù)該參數(shù)來處理經(jīng)過數(shù)據(jù)采樣的數(shù)據(jù)。
[0032] 數(shù)據(jù)集根據(jù)各服務(wù)器的存儲(chǔ)情況存儲(chǔ)在不同的服務(wù)器上，檢索執(zhí)行模塊向數(shù)據(jù)管理模塊請(qǐng)求數(shù)據(jù)時(shí)，數(shù)據(jù)管理模塊先進(jìn)行緩存查找，采用的是客戶端的散列策略，如果緩存命中，直接從緩存中將數(shù)據(jù)集取出，若不命中，則在數(shù)據(jù)庫中請(qǐng)求相關(guān)數(shù)據(jù)。
[0033] 在數(shù)據(jù)管理模塊訪問緩存服務(wù)器時(shí)，首先，數(shù)據(jù)管理模塊請(qǐng)求數(shù)據(jù)集時(shí)的key經(jīng)過預(yù)定算法映射到其中一臺(tái)緩存服務(wù)器，然后從該服務(wù)器上取出相應(yīng)的數(shù)據(jù)值。為使其命中率盡量高，采取了 W下策略:使用環(huán)形散列隊(duì)列，將對(duì)應(yīng)查找的對(duì)象映射到32位key,從0- 的數(shù)值空間，將其鏈接成首尾相連的環(huán)。緩存和對(duì)象經(jīng)過同一個(gè)散列算法映射到同一個(gè)數(shù)值空間；在整個(gè)環(huán)形隊(duì)列，沿順時(shí)針方向找到對(duì)象的key值出發(fā)，直到遇到一個(gè)緩存，貝U 就將此對(duì)象存儲(chǔ)在該緩存中。當(dāng)移除緩存時(shí)，逆時(shí)針遍歷此緩存至下一個(gè)緩存中的對(duì)象；當(dāng) 增加緩存時(shí)，將此緩存映射的位置逆時(shí)針找到與下一個(gè)緩存區(qū)間中的對(duì)象，將它們從順時(shí) 針的下一個(gè)緩存中刪去，映射到該緩存中。
[0034] 由于用戶輸入的數(shù)據(jù)集形式多樣，系統(tǒng)通過創(chuàng)建數(shù)據(jù)集板，每輸入一種數(shù)據(jù)集時(shí) 則實(shí)例化一個(gè)數(shù)據(jù)集，配置W不同的參數(shù)，由于不同的算法所需要的數(shù)據(jù)集不同，所W不同的算法使用到不同格式的數(shù)據(jù)集，對(duì)數(shù)據(jù)集格式整理包括:識(shí)別冗余的輸入的字段或信息，將其過濾;根據(jù)用戶的配置文件，來對(duì)輸入數(shù)據(jù)集的各個(gè)字段信息進(jìn)行保存;設(shè)置數(shù)據(jù)集的稀疏性闊值，如果輸入數(shù)據(jù)集低于闊值，可W根據(jù)用戶的輸入?yún)?shù)將低于該闊值的用戶過濾。
[0035] 通過數(shù)據(jù)匯總將數(shù)據(jù)文件輸入分布式檢索系統(tǒng)，保存至數(shù)據(jù)庫之后，運(yùn)些數(shù)據(jù)可 W直接進(jìn)入數(shù)據(jù)整理子模塊，數(shù)據(jù)整理子模塊先根據(jù)用戶的需求將某些字段過濾。接下來將處理后的數(shù)據(jù)構(gòu)造成評(píng)分矩陣，構(gòu)造完畢后將其保存至數(shù)據(jù)庫，如果該數(shù)據(jù)整理前的數(shù) 據(jù)集非其他用戶所私有，通過此整理后的數(shù)據(jù)集保存的向前引用，找到原始的數(shù)據(jù)集。
[0036] 數(shù)據(jù)管理模塊中，數(shù)據(jù)采樣子模塊的采樣時(shí)間可W選擇在數(shù)據(jù)集處理的時(shí)候進(jìn)行采樣，或者在算法配置完成的時(shí)候?qū)ζ溥M(jìn)行采樣。前一種方式是在數(shù)據(jù)管理模塊內(nèi)部完成，其具體的邏輯是當(dāng)用戶選擇數(shù)據(jù)集采樣，然后選擇數(shù)據(jù)集，接著選擇對(duì)應(yīng)的采樣方式，如果操作能成功完成則將對(duì)應(yīng)的采樣后的數(shù)據(jù)集存儲(chǔ)起來，原數(shù)據(jù)集不變，新的采樣過后的數(shù) 據(jù)集有標(biāo)記字段指示原數(shù)據(jù)集，而且有對(duì)應(yīng)的采樣方式W及其他信息。后一種方式是算法經(jīng)過配置之后請(qǐng)求數(shù)據(jù)，而數(shù)據(jù)收到具體的采樣需求，如數(shù)據(jù)集名稱，采樣方式W及其他信息后，檢查檢索執(zhí)行模塊傳來的消息中是否能夠完成數(shù)據(jù)采樣的操作，如果是，則進(jìn)行數(shù)據(jù) 采樣，采樣完畢后將采樣后的數(shù)據(jù)集在本地?cái)?shù)據(jù)庫備份，然后將對(duì)應(yīng)的采樣數(shù)據(jù)集發(fā)給請(qǐng) 求的執(zhí)行端，一次算法執(zhí)行過程中可能會(huì)有多次數(shù)據(jù)傳輸，鑒于算法運(yùn)行時(shí)間比較久，所W 算法的運(yùn)行采用分布式處理，為了算法執(zhí)行的高效性，數(shù)據(jù)管理模塊發(fā)送給檢索執(zhí)行模塊中對(duì)應(yīng)的不同執(zhí)行端，執(zhí)行模塊在請(qǐng)求數(shù)據(jù)采樣每次數(shù)據(jù)傳輸都會(huì)檢查它要求的采樣方式是否已經(jīng)在數(shù)據(jù)庫中存在，如果是，則取出數(shù)據(jù)，如果不是，重新發(fā)送該請(qǐng)求。
[0037] 當(dāng)進(jìn)行數(shù)據(jù)采樣的時(shí)候，首先將數(shù)據(jù)的尺寸讀入數(shù)據(jù)采樣子模塊，系統(tǒng)構(gòu)造一個(gè) 布爾矩陣，初始值全為化Ise，接著選擇采樣方式，如果只是單次采樣，生成的對(duì)應(yīng)訓(xùn)練集和測(cè)試集都將只生成一次，如果是循環(huán)多次采樣，將生成多個(gè)，根據(jù)采樣方式不同，將把此矩陣的一些值填充為化Ue，另外一些仍為false,運(yùn)個(gè)布爾矩陣將它命名為訓(xùn)練集的模表，通過運(yùn)個(gè)模表，可W計(jì)算出對(duì)應(yīng)的訓(xùn)練集，只需將它與對(duì)應(yīng)的數(shù)據(jù)集按位相與，同理可W計(jì)算出測(cè)試集，只需將訓(xùn)練集的模表按位取反即可。據(jù)此生成的訓(xùn)練集與測(cè)試集表即可發(fā)送給檢索執(zhí)行模塊執(zhí)行，檢索執(zhí)行模塊根據(jù)訓(xùn)練集去預(yù)測(cè)測(cè)試集表中值為True的數(shù)據(jù)項(xiàng)評(píng)分即可。
[0038] 在測(cè)試集中對(duì)檢索結(jié)果進(jìn)行評(píng)價(jià)，該測(cè)試集中的內(nèi)容是用戶感興趣的項(xiàng)目集合。由于在數(shù)據(jù)采樣的時(shí)候在本地保存了測(cè)試集，當(dāng)算法執(zhí)行執(zhí)行完畢返回結(jié)果時(shí)，系統(tǒng)先從通信的報(bào)文中取出所對(duì)應(yīng)的序列碼，根據(jù)此序列碼將數(shù)據(jù)庫中所對(duì)應(yīng)的測(cè)試集取出，然后將其與返回的結(jié)果進(jìn)行比較，從而得出評(píng)價(jià)結(jié)果。檢索執(zhí)行模塊保存著W算法類型為主鍵，算法配置概要信息的表，待算法執(zhí)行完畢后將其非主鍵信息發(fā)送回來。結(jié)合算法執(zhí)行完畢后傳來的各個(gè)參數(shù)，進(jìn)行結(jié)果的評(píng)價(jià)輸出。
[0039] 檢索執(zhí)行模塊返回?cái)?shù)據(jù)的時(shí)候，附帶雙方約定的序列碼，傳回的算法執(zhí)行結(jié)果，并附加上算法的執(zhí)行類型表中所帶的配置算法所需的參數(shù)，傳回本地W后對(duì)結(jié)果進(jìn)行評(píng)價(jià)和展現(xiàn)，W供用戶反饋修改參數(shù)。
[0040] 在用戶提供相關(guān)反饋后，對(duì)檢索結(jié)果進(jìn)行重新排序處理，具體為，結(jié)合檢索結(jié)果評(píng) 分、用戶反饋中相關(guān)和不相關(guān)結(jié)果的近似度距離差來進(jìn)行重新排序。
[0041 ]在度量檢索結(jié)果間的相關(guān)性之前，首先需要將其進(jìn)行量化表示，將每個(gè)檢索結(jié)果 di表示成一個(gè)矢量，矢量的維度是文本中至少出現(xiàn)過一次的詞構(gòu)成集合的大小，每一維的值是相應(yīng)的詞在該結(jié)果中逆向詞頻指標(biāo)表示的權(quán)值。然后采用W下公式評(píng)價(jià)結(jié)果和檢索式之間的相關(guān)性評(píng)分：
[0042]
[0043]
[0044]
[0045] 式中W(t|di)為詞t在di中的權(quán)值；
[0046] W(t Iq)為詞t在檢索式Q中的權(quán)值；
[0047] Kdi)為結(jié)果di的長度；
[004引 tf (t I di)為詞t在結(jié)果di中出現(xiàn)的頻率；
[0049] tf(t Iq)為詞t在檢索式Q中出現(xiàn)的頻率；
[0050] 壯(t Ic)為詞t在整個(gè)結(jié)果集C中的頻率；
[0051 ] kl，k2，b為預(yù)設(shè)調(diào)節(jié)參數(shù)。
[0052] 最后根據(jù)結(jié)果的最終評(píng)分，對(duì)初始的檢索結(jié)果進(jìn)行重新排序，即按結(jié)果的Score的評(píng)分由高到低進(jìn)行排序。
[0053] 本發(fā)明在W下實(shí)施例使用可選的結(jié)果排序方法，包括檢索結(jié)果的領(lǐng)域表示和基于近似度計(jì)算的檢索結(jié)果排序。
[0054] 首先是將用戶的檢索詞提交給分布式檢索系統(tǒng)，然后獲取分布式檢索系統(tǒng)的檢索結(jié)果，并提取出檢索結(jié)果標(biāo)題、描述和URL，并進(jìn)行分詞，根據(jù)停用詞表，將無用的詞刪除;根據(jù)逆向詞頻算法計(jì)算結(jié)果標(biāo)題和描述的每個(gè)詞的加權(quán)值，然后合并;檢查每個(gè)詞所屬的細(xì) 分領(lǐng)域，如果有兩個(gè)詞所屬的細(xì)分領(lǐng)域相同，則將其加權(quán)值相加，作為該細(xì)分領(lǐng)域的加權(quán) 值，最后可得到該檢索結(jié)果的細(xì)分領(lǐng)域矢量;檢查每個(gè)細(xì)分領(lǐng)域所屬的主領(lǐng)域，如果相同則繼續(xù)合并，最后可得到該檢索結(jié)果的主領(lǐng)域矢量;對(duì)分布式檢索系統(tǒng)結(jié)果集執(zhí)行W上步驟，得到分布式檢索系統(tǒng)結(jié)果集的領(lǐng)域矢量表。
[0055] 設(shè)UF為用戶的主興趣矢量，US為用戶的細(xì)分興趣矢量，依次計(jì)算用戶興趣和每個(gè) 結(jié)果的近似度。設(shè)DF是檢索集中某個(gè)檢索結(jié)果的主領(lǐng)域矢量，DS該檢索結(jié)果的細(xì)分領(lǐng)域矢量。
[0056] 計(jì)算用戶興趣和檢索結(jié)果的細(xì)分領(lǐng)域集合的邊界差：
[0057] 化=DS-US HDS
[0058] 計(jì)算用戶興趣和檢索結(jié)果的細(xì)分領(lǐng)域集合的近似度：
[0化9]
[0060] 其中Z ^dswiXiiswi)是該檢索結(jié)果和用戶興趣中都存在的細(xì)分領(lǐng)域的權(quán)值乘 ieUSnDS 積的和，rmm (BL)和rmm (DS)分別是化和DS的數(shù)量。
[0061] 計(jì)算用戶興趣和檢索結(jié)果的主領(lǐng)域集合的邊界差：
[0062] Bu=DF-(UFnDF)
[0063] 計(jì)算用戶興趣和檢索結(jié)果的主領(lǐng)域集合的近似度：
[0064]
[00化]其中I!. WfWiXufw'：)是該檢索結(jié)果和用戶興趣中都存在的主領(lǐng)域的權(quán)值乘積缺SnDS: 的和，num (BU)和num (D巧分別是Bu和DF的數(shù)量；
[0066] 最后計(jì)算該檢索結(jié)果和用戶興趣的總近似度：
[0067] Sim = CXSimL化S，DS) + (l-〇 XSi皿化F，DF)
[0068] 其中C為細(xì)分領(lǐng)域集合近似度的加權(quán)值。
[0069] 依據(jù)運(yùn)個(gè)步驟，對(duì)分布式檢索系統(tǒng)返回的每個(gè)結(jié)果依次計(jì)算總近似度Sim,得到每個(gè)檢索結(jié)果新的權(quán)值，然后從大到小排序，得到新的結(jié)果順序。
[0070] 在上述用戶興趣的向量表示中，本發(fā)明采用獲取本地瀏覽記錄W進(jìn)行興趣分析的方式。首先獲取用戶訪問的檢索結(jié)果的標(biāo)題和描述，并對(duì)運(yùn)些標(biāo)題和描述進(jìn)行分詞，分詞后根據(jù)停用詞表將無用的詞刪除;對(duì)照特征詞表，檢查瀏覽記錄中所有檢索結(jié)果的所有詞，統(tǒng) 計(jì)每個(gè)細(xì)分領(lǐng)域出現(xiàn)的特征詞數(shù)，得到矢量{化31，(31)，化32,02)，，，，，化3。，(3。）}，其中1131指第i個(gè)細(xì)分領(lǐng)域，Cl指第i個(gè)細(xì)分領(lǐng)域出現(xiàn)了多少個(gè)特征詞;計(jì)算每個(gè)細(xì)分領(lǐng)域的權(quán)值，計(jì)算公式夫
最后得到一個(gè)細(xì)分興趣矢量HS= Khsi，hswi)，化S2，hsW2)，…，化Sn, hswn)};細(xì)分興趣矢量與用戶選擇的興趣領(lǐng)域合并后，一起生成主領(lǐng)域興趣矢量。
[0071] 綜上所述，本發(fā)明提出了一種基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法，分布式檢索系統(tǒng)對(duì)數(shù)據(jù)集進(jìn)行統(tǒng)一收集管理，并基于用戶的反饋和評(píng)價(jià)對(duì)檢索結(jié)果進(jìn)一步優(yōu)化，更高效率地滿足了用戶個(gè)性化的需求。
[0072] 顯然，本領(lǐng)域的技術(shù)人員應(yīng)該理解，上述的本發(fā)明的各模塊或各步驟可W用通用的計(jì)算系統(tǒng)來實(shí)現(xiàn)，它們可W集中在單個(gè)的計(jì)算系統(tǒng)上，或者分布在多個(gè)計(jì)算系統(tǒng)所組成的網(wǎng)絡(luò)上，可選地，它們可W用計(jì)算系統(tǒng)可執(zhí)行的程序代碼來實(shí)現(xiàn)，從而，可W將它們存儲(chǔ) 在存儲(chǔ)系統(tǒng)中由計(jì)算系統(tǒng)來執(zhí)行。運(yùn)樣，本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
[0073]應(yīng)當(dāng)理解的是，本發(fā)明的上述【具體實(shí)施方式】僅僅用于示例性說明或解釋本發(fā)明的原理，而不構(gòu)成對(duì)本發(fā)明的限制。因此，在不偏離本發(fā)明的精神和范圍的情況下所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。此外，本發(fā)明所附權(quán)利要求旨在涵蓋落入所附權(quán)利要求范圍和邊界、或者運(yùn)種范圍和邊界的等同形式內(nèi)的全部變化和修改例。
【主權(quán)項(xiàng)】
1. 一種基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法，其特征在于，包括：將用戶的檢索詞提交給分布式檢索系統(tǒng)；完成檢索后，獲取檢索結(jié)果的所屬領(lǐng)域表示；基于用戶興趣和檢索結(jié)果所屬領(lǐng)域的近似度，對(duì)檢索結(jié)果進(jìn)行排序。2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述將用戶的檢索詞提交給分布式檢索系統(tǒng)之后，還包括：獲取分布式檢索系統(tǒng)的檢索結(jié)果，并提取出檢索結(jié)果標(biāo)題、描述和URL，并進(jìn)行分詞，根據(jù)停用詞表，將無用的詞刪除;根據(jù)逆向詞頻算法計(jì)算結(jié)果標(biāo)題和描述的每個(gè)詞的加權(quán)值，然后合并;檢查每個(gè)詞所屬的細(xì)分領(lǐng)域，如果有兩個(gè)詞所屬的細(xì)分領(lǐng)域相同，則將其加權(quán)值相加，作為該細(xì)分領(lǐng)域的加權(quán)值，最后可得到該檢索結(jié)果的細(xì)分領(lǐng)域矢量;檢查每個(gè)細(xì)分領(lǐng) 域所屬的主領(lǐng)域，如果相同則繼續(xù)合并，最后可得到該檢索結(jié)果的主領(lǐng)域矢量；所述基于用戶興趣和檢索結(jié)果所屬領(lǐng)域的近似度，對(duì)檢索結(jié)果進(jìn)行排序，具體包括：定義UF為用戶的主興趣矢量，US為用戶的細(xì)分興趣矢量，DF是檢索集中某個(gè)檢索結(jié)果的主領(lǐng)域矢量，DS該檢索結(jié)果的細(xì)分領(lǐng)域矢量，依次計(jì)算用戶興趣和每個(gè)結(jié)果的近似度：計(jì)算用戶興趣和檢索結(jié)果的細(xì)分領(lǐng)域集合的邊界差： Bl = DS-US 門 DS 計(jì)算用戶興細(xì)(和拾索結(jié)里的細(xì)分領(lǐng)域隼合的沂似庶，其=是該檢索結(jié)果和用戶興趣中都存在的細(xì)分領(lǐng)域的權(quán)值乘積的和，num(BL)和num(DS)分別是Bl和DS的數(shù)量；計(jì)算用戶興趣和檢索結(jié)果的主領(lǐng)域集合的邊界差： Bu = DF-(UFnDF) i十笪田戶興細(xì)和烚親結(jié)里的Φ緬城隹合的忻M麼.其4k該檢索結(jié)果和用戶興趣中都存在的主領(lǐng)域的權(quán)值乘積的和， num (BU)和num (DF)分別是Bu和DF的數(shù)量；最后計(jì)算該檢索結(jié)果和用戶興趣的總近似度： Sim=GXSimL(US，DS) + (l〇 XSimu(UF，DF) 其中ζ為細(xì)分領(lǐng)域集合近似度的加權(quán)值；對(duì)分布式檢索系統(tǒng)返回的每個(gè)結(jié)果依次計(jì)算總近似度Sim，得到每個(gè)檢索結(jié)果新的權(quán) 值，然后從大到小排序。
【文檔編號(hào)】G06F17/30GK106021513SQ201610347202
【公開日】2016年10月12日
【申請(qǐng)日】2016年5月23日
【發(fā)明人】董政, 吳文杰, 陳露, 李學(xué)生
【申請(qǐng)人】成都陌云科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：董政;吳文杰;陳露;李學(xué)生;
技術(shù)所有人：成都陌云科技有限公司;
我是此專利的發(fā)明人

上一篇：基于大數(shù)據(jù)處理的商品定制系統(tǒng)的制作方法
上一篇：一種頁面刷新方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

呈現(xiàn)方法相關(guān)技術(shù)

教學(xué)方法呈現(xiàn)方法相關(guān)技術(shù)

提高英語興趣的方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于興趣偏好的內(nèi)容主動(dòng)呈現(xiàn)方法