一種個(gè)性化文獻(xiàn)檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文獻(xiàn)、信息檢索技術(shù)領(lǐng)域,確切地說(shuō)涉及一種個(gè)性化文獻(xiàn)的檢索方法。
【背景技術(shù)】
[0002]文獻(xiàn)檢索是指根據(jù)學(xué)習(xí)和工作的需要獲取文獻(xiàn)的過(guò)程。現(xiàn)有的文獻(xiàn)檢索系統(tǒng)大多數(shù)都是基于文獻(xiàn)本身的屬性,包括關(guān)鍵詞、作者、參考文獻(xiàn)等靜態(tài)信息進(jìn)行構(gòu)建,沒(méi)有將文獻(xiàn)需求者或檢索人的特性納入文獻(xiàn)檢索過(guò)程中,也就是說(shuō)任何人輸入同樣的檢索關(guān)鍵詞時(shí),得到的檢索結(jié)果是相同的。在這個(gè)信息爆炸的時(shí)代,文獻(xiàn)檢索同樣面臨海量的信息檢索結(jié)果,如果能夠?qū)z索人的身份特質(zhì)納入檢索過(guò)程,對(duì)檢索結(jié)果進(jìn)行個(gè)性化匹配,將有助于得到很有用的檢索結(jié)果。比如,一個(gè)研究物流的人員在檢索“network”時(shí)得到的檢索結(jié)果和一個(gè)研究光纖通信的研究者輸入同樣關(guān)鍵詞時(shí)得到的檢索結(jié)果應(yīng)該有所區(qū)別,以反映他們各自研究領(lǐng)域的研究成果,即根據(jù)其身份進(jìn)行個(gè)性化的文件檢索。
[0003]公開(kāi)號(hào)為CN 101373486,公開(kāi)日為2009年2月25日的中國(guó)專利文獻(xiàn)公開(kāi)了一種基于用戶興趣模型的個(gè)性化摘要系統(tǒng),該個(gè)性化摘要系統(tǒng)由WEB信息檢索單元、用戶興趣單元和個(gè)性化摘要單元組成。該個(gè)性化摘要系統(tǒng)通過(guò)分析用戶檢索日志,利用概念聚類方法建立和/或更新以層次概念結(jié)構(gòu)描述的用戶興趣模型;然后依據(jù)該用戶興趣模型與檢索結(jié)果進(jìn)行用戶興趣與檢索結(jié)果中句子相似度的解析,從而得到滿足用戶的個(gè)性化摘要。采用的個(gè)性化句子評(píng)分處理得到的個(gè)性化摘要充分考慮了用戶的興趣特點(diǎn),使摘要的生成過(guò)程根據(jù)用戶的興趣進(jìn)行匹配,可以提高摘要的有效性以及用戶的滿意度。
[0004]以上述專利文獻(xiàn)為代表的現(xiàn)有技術(shù),雖然也采用興趣模型與檢索結(jié)果進(jìn)行用戶興趣與檢索結(jié)果中句子相似度的解析,從而得到滿足用戶個(gè)性化的摘要,但其需要對(duì)句子相似度進(jìn)行解析,解析后展現(xiàn)出來(lái)的個(gè)性化摘要系統(tǒng)準(zhǔn)確率并不夠高,且檢索方式復(fù)雜。同時(shí),由于文獻(xiàn)檢索系統(tǒng)的用戶多是專業(yè)的研究者,檢索的內(nèi)容也主要是專業(yè)研究文獻(xiàn),所得結(jié)果是自動(dòng)文摘,而對(duì)于專業(yè)研究文獻(xiàn)檢索結(jié)果的匹配性不夠好。
【發(fā)明內(nèi)容】
[0005]本發(fā)明旨在針對(duì)上述現(xiàn)有技術(shù)所存在的缺陷和不足,提供一種個(gè)性化文獻(xiàn)檢索方法,采用本方法進(jìn)行檢索時(shí),增加了用戶的興趣關(guān)鍵詞及對(duì)應(yīng)的興趣度,對(duì)于每個(gè)信息檢索結(jié)果,都是基于用戶興趣關(guān)鍵詞庫(kù)進(jìn)行調(diào)整,從而輸出用戶個(gè)性化的檢索結(jié)果,使得輸出的檢索結(jié)果更加準(zhǔn)確,檢索方法簡(jiǎn)單。
[0006]本發(fā)明是通過(guò)采用下述技術(shù)方案實(shí)現(xiàn)的:
一種個(gè)性化文獻(xiàn)檢索方法,其特征在于步驟如下:
a、為每個(gè)用戶構(gòu)建用戶信息靜態(tài)庫(kù):包括并不限于用戶的身份信息和研究領(lǐng)域,并由用戶輸入至檢索系統(tǒng);
b、為每個(gè)用戶構(gòu)建用戶的興趣關(guān)鍵詞庫(kù)X:包括多個(gè)興趣關(guān)鍵詞和每個(gè)興趣關(guān)鍵詞相應(yīng)的興趣度;將興趣關(guān)鍵詞庫(kù)X形式化表達(dá)為xl,x2,…,xm (其中m為自然數(shù)),對(duì)于每項(xiàng)兀素x= (k, w),其中k為興趣關(guān)鍵詞,w為該興趣關(guān)鍵詞對(duì)應(yīng)的興趣度,興趣關(guān)鍵詞庫(kù)X初始化為步驟a中用戶輸入的關(guān)注領(lǐng)域,并將興趣度統(tǒng)一賦予一個(gè)靜態(tài)值;
C、信息檢索:用戶進(jìn)行信息檢索時(shí),設(shè)定輸入的關(guān)鍵詞集合為Q,進(jìn)行檢索,得到檢索結(jié)果Rl,R2,….,Rn,(η為自然數(shù));再將用戶的興趣關(guān)鍵詞庫(kù)X中的每個(gè)興趣關(guān)鍵詞加入到關(guān)鍵詞集合中,再進(jìn)行檢索,得到的檢索結(jié)果如與Rl,R2,….,Rn有重復(fù)元素,則將這些重復(fù)元素的排名向前移動(dòng),移動(dòng)的距離根據(jù)這個(gè)興趣關(guān)鍵詞的興趣度確定;
若該用戶興趣關(guān)鍵詞庫(kù)X中有m個(gè)興趣關(guān)鍵詞,則需要做m次信息檢索動(dòng)作,最后調(diào)整完成的檢索結(jié)果作為最終結(jié)果輸出。
[0007]興趣關(guān)鍵詞庫(kù)X的更新:每次用戶輸入檢索關(guān)鍵詞時(shí),將檢索關(guān)鍵詞加入到興趣關(guān)鍵詞庫(kù)X中,形成一個(gè)新的興趣關(guān)鍵詞,并將該興趣關(guān)鍵詞對(duì)應(yīng)的興趣度初始化為一個(gè)靜態(tài)值;如某個(gè)檢索關(guān)鍵詞k在興趣關(guān)鍵詞庫(kù)X中已經(jīng)存在,則將該興趣關(guān)鍵詞對(duì)應(yīng)的興趣度w加I。
[0008]同時(shí),每次檢索后,將所有興趣關(guān)鍵詞的興趣度值做衰減操作,即減少一個(gè)數(shù)值e。此數(shù)值反映興趣衰減的速度,可以為一個(gè)固定值,如0.01,也可以與用戶的檢索習(xí)慣相關(guān),做自適應(yīng)的學(xué)習(xí)確定。如興趣度衰減到小于等于0,則將其對(duì)應(yīng)的興趣關(guān)鍵詞從興趣關(guān)鍵詞庫(kù)X中刪除,以保持興趣關(guān)鍵詞庫(kù)的鮮活性。
[0009]所述關(guān)鍵詞集合中包括興趣關(guān)鍵詞和檢索關(guān)鍵詞。
[0010]與現(xiàn)有技術(shù)相比,本發(fā)明所達(dá)到的有益效果如下:
1、采用本發(fā)明所述的abc三個(gè)步驟,在進(jìn)行信息檢索時(shí),先為每個(gè)用戶構(gòu)建了興趣關(guān)鍵詞庫(kù)X,在檢索時(shí),是先采用檢索關(guān)鍵詞進(jìn)行檢索獲得結(jié)果,再增加用戶的興趣關(guān)鍵詞進(jìn)入關(guān)鍵詞集合獲得檢索結(jié)果,最后將重復(fù)的元素的排名前移,移動(dòng)的距離根據(jù)興趣關(guān)鍵詞的興趣度來(lái)確定。這樣的方式,對(duì)每個(gè)信息檢索結(jié)果,都是基于用戶興趣關(guān)鍵詞庫(kù)進(jìn)行調(diào)整,輸出用戶個(gè)性化的檢索結(jié)果,使檢索結(jié)果更匹配用戶的需求。
[0011]2、本方法采用對(duì)興趣關(guān)鍵詞庫(kù)X進(jìn)行更新,是根據(jù)每次用戶的信息檢索行為,對(duì)用戶興趣關(guān)鍵詞庫(kù)進(jìn)行動(dòng)態(tài)調(diào)整,使得系統(tǒng)不斷加深對(duì)用戶的了解,從而使得未來(lái)檢索結(jié)果更加匹配其興趣,檢索結(jié)果更加準(zhǔn)確。
【具體實(shí)施方式】
[0012]作為本發(fā)明的最佳實(shí)施,其公開(kāi)了一種個(gè)性化文獻(xiàn)檢索方法,其步驟如下:
a、為每個(gè)用戶構(gòu)建用戶信息靜態(tài)庫(kù):包括并不限于用戶的身份信息和研究領(lǐng)域,并由用戶輸入至檢索系統(tǒng);
b、為每個(gè)用戶構(gòu)建用戶的興趣關(guān)鍵詞庫(kù)X:包括多個(gè)興趣關(guān)鍵詞和每個(gè)興趣關(guān)鍵詞相應(yīng)的興趣度;將興趣關(guān)鍵詞庫(kù)X形式化表達(dá)為xl,x2,…,xm (其中m為自然數(shù)),對(duì)于每項(xiàng)兀素X= (k, W),其中k為興趣關(guān)鍵詞,w為該興趣關(guān)鍵詞對(duì)應(yīng)的興趣度,興趣關(guān)鍵詞庫(kù)X初始化為步驟a中用戶輸入的關(guān)注領(lǐng)域,并將興趣度統(tǒng)一賦予一個(gè)靜態(tài)值;
C、信息檢索:用戶進(jìn)行信息檢索時(shí),設(shè)定輸入的關(guān)鍵詞集合為Q,進(jìn)行檢索,得到檢索結(jié)果Rl,R2,….,Rn,(η為自然數(shù));再將用戶的興趣關(guān)鍵詞庫(kù)X中的每個(gè)興趣關(guān)鍵詞加入到關(guān)鍵詞集合中,再進(jìn)行檢索,得到的檢索結(jié)果如與Rl,R2,….,Rn有重復(fù)元素,則將這些重復(fù)元素的排名向前移動(dòng),移動(dòng)的距離根據(jù)這個(gè)興趣關(guān)鍵詞的興趣度w按線性比例確定;
若該用戶興趣關(guān)鍵詞庫(kù)X中有m個(gè)興趣關(guān)鍵詞,則需要做m次信息檢索動(dòng)作,最后調(diào)整完成的檢索結(jié)果作為最終結(jié)果輸出。
[0013]興趣關(guān)鍵詞庫(kù)X的更新:每次用戶輸入檢索關(guān)鍵詞時(shí),將檢索關(guān)鍵詞加入到興趣關(guān)鍵詞庫(kù)X中,形成一個(gè)新的興趣關(guān)鍵詞,并將其對(duì)應(yīng)的興趣度初始化為一個(gè)靜態(tài)值;如某個(gè)檢索關(guān)鍵詞k在興趣關(guān)鍵詞庫(kù)X中已經(jīng)存在,則將該興趣關(guān)鍵詞對(duì)應(yīng)的興趣度w加I。
[0014]同時(shí),每次檢索后,將所有興趣關(guān)鍵詞的興趣度值做衰減操作,即減少一個(gè)數(shù)值e。此數(shù)值反映興趣衰減的速度,可以為一個(gè)固定值,如0.01,也可以與用戶的檢索習(xí)慣相關(guān),做自適應(yīng)的學(xué)習(xí)確定。如興趣度衰減到小于等于0,則將其對(duì)應(yīng)的興趣關(guān)鍵詞從興趣關(guān)鍵詞庫(kù)X中刪除,以保持興趣關(guān)鍵詞庫(kù)的鮮活性。
[0015]本實(shí)施例中,關(guān)鍵詞集合中包括興趣關(guān)鍵詞和檢索關(guān)鍵詞。
[0016]本方法在實(shí)際應(yīng)用過(guò)程中,動(dòng)態(tài)的用戶興趣關(guān)鍵詞庫(kù)X,包括用戶的興趣關(guān)鍵詞及對(duì)應(yīng)的興趣度,對(duì)每個(gè)信息檢索結(jié)果,基于用戶興趣關(guān)鍵詞庫(kù)進(jìn)行調(diào)整,從而輸出用戶個(gè)性化的檢索結(jié)果;同時(shí),根據(jù)每次用戶的信息檢索行為,對(duì)用戶興趣關(guān)鍵詞庫(kù)進(jìn)行動(dòng)態(tài)調(diào)整,使得系統(tǒng)不斷加深對(duì)用戶的了解,從而使得未來(lái)檢索結(jié)果更加匹配其興趣,檢索結(jié)果更加準(zhǔn)確。
【主權(quán)項(xiàng)】
1.一種個(gè)性化文獻(xiàn)檢索方法,其特征在于步驟如下: a、為每個(gè)用戶構(gòu)建用戶信息靜態(tài)庫(kù):包括并不限于用戶的身份信息和研究領(lǐng)域,并由用戶輸入至檢索系統(tǒng); b、為每個(gè)用戶構(gòu)建用戶的興趣關(guān)鍵詞庫(kù)X:包括多個(gè)興趣關(guān)鍵詞和每個(gè)興趣關(guān)鍵詞相應(yīng)的興趣度;將興趣關(guān)鍵詞庫(kù)X形式化表達(dá)為xl,x2,…,xm (其中m為自然數(shù)),對(duì)于每項(xiàng)兀素X= (k, W),其中k為興趣關(guān)鍵詞,w為該興趣關(guān)鍵詞對(duì)應(yīng)的興趣度,興趣關(guān)鍵詞庫(kù)X初始化為步驟a中用戶輸入的關(guān)注領(lǐng)域,并將興趣度統(tǒng)一賦予一個(gè)靜態(tài)值; C、信息檢索:用戶進(jìn)行信息檢索時(shí),設(shè)定輸入的關(guān)鍵詞集合為Q,進(jìn)行檢索,得到檢索結(jié)果Rl,R2,….,Rn,(η為自然數(shù));再將用戶的興趣關(guān)鍵詞庫(kù)X中的每個(gè)興趣關(guān)鍵詞加入到關(guān)鍵詞集合中,再進(jìn)行檢索,得到的檢索結(jié)果如與Rl,R2,….,Rn有重復(fù)元素,則將這些重復(fù)元素的排名向前移動(dòng),移動(dòng)的距離根據(jù)這個(gè)興趣關(guān)鍵詞的興趣度確定; 若該用戶興趣關(guān)鍵詞庫(kù)X中有m個(gè)興趣關(guān)鍵詞,則需要做m次信息檢索動(dòng)作,最后調(diào)整完成的檢索結(jié)果作為最終結(jié)果輸出。2.根據(jù)權(quán)利要求1所述的一種個(gè)性化文獻(xiàn)檢索方法,其特征在于:興趣關(guān)鍵詞庫(kù)X的更新:每次用戶輸入檢索關(guān)鍵詞時(shí),將檢索關(guān)鍵詞加入到興趣關(guān)鍵詞庫(kù)X中,形成一個(gè)新的興趣關(guān)鍵詞,并將該興趣關(guān)鍵詞對(duì)應(yīng)的興趣度初始化為一個(gè)靜態(tài)值;如某個(gè)檢索關(guān)鍵詞k在興趣關(guān)鍵詞庫(kù)X中已經(jīng)存在,則將該興趣關(guān)鍵詞對(duì)應(yīng)的興趣度w加I。3.根據(jù)權(quán)利要求2所述的一種個(gè)性化文獻(xiàn)檢索方法,其特征在于:每次檢索后,將所有興趣關(guān)鍵詞的興趣度值做衰減操作,所述的衰減操作是減少一個(gè)數(shù)值e,如興趣度衰減到小于等于O,則將其對(duì)應(yīng)的興趣關(guān)鍵詞從興趣關(guān)鍵詞庫(kù)X中刪除。
【專利摘要】本發(fā)明公開(kāi)了一種個(gè)性化文獻(xiàn)檢索方法,其步驟為:a、為每個(gè)用戶構(gòu)建用戶信息靜態(tài)庫(kù):包括并不限于身份信息和研究領(lǐng)域,輸入至檢索系統(tǒng);b、構(gòu)建用戶的興趣關(guān)鍵詞庫(kù)X:包括多個(gè)興趣關(guān)鍵詞和每個(gè)興趣關(guān)鍵詞相應(yīng)的興趣度;c、信息檢索:用戶進(jìn)行信息檢索時(shí),設(shè)定輸入的關(guān)鍵詞集合為Q,進(jìn)行檢索,得到檢索結(jié)果R1,R2,…,?Rn;再將每個(gè)興趣關(guān)鍵詞加入到關(guān)鍵詞集合中,再進(jìn)行檢索,得到的檢索結(jié)果如與R1,R2,…,Rn有重復(fù)元素,則將這些重復(fù)元素的排名向前移動(dòng),移動(dòng)的距離根據(jù)興趣度確定,最終獲得檢索結(jié)果。采用本方法,對(duì)于每個(gè)信息檢索結(jié)果,都是基于用戶興趣關(guān)鍵詞庫(kù)進(jìn)行調(diào)整,從而輸出用戶個(gè)性化的檢索結(jié)果,使得輸出的檢索結(jié)果更加準(zhǔn)確。
【IPC分類】G06F17/30
【公開(kāi)號(hào)】CN105205139
【申請(qǐng)?zhí)枴緾N201510592309
【發(fā)明人】羅旭斌
【申請(qǐng)人】羅旭斌
【公開(kāi)日】2015年12月30日
【申請(qǐng)日】2015年9月17日