一種基于文獻(xiàn)內(nèi)容知識(shí)圖譜的多層引文推薦方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息推薦技術(shù)領(lǐng)域,特別是涉及一種基于文獻(xiàn)內(nèi)容知識(shí)圖譜的多層引 文推薦方法。本發(fā)明在信息推薦、信息檢索、網(wǎng)絡(luò)輿情監(jiān)控等領(lǐng)域具有廣闊的應(yīng)用前景。
【背景技術(shù)】
[0002] 目前,信息推薦方法可以分為三大類,基于內(nèi)容的推薦、基于協(xié)同過(guò)濾的推薦、以 及混合的方法。
[0003] 在基于內(nèi)容的推薦方法中,首先構(gòu)建推薦對(duì)象的內(nèi)容特征模型和用戶興趣模型, 然后計(jì)算推薦對(duì)象與用戶興趣的相似度,最后將相似度較大的推薦對(duì)象推薦給用戶。推薦 對(duì)象和用戶模型通常采用關(guān)鍵詞表示特征。該方法的優(yōu)點(diǎn)是可以根據(jù)用戶的歷史記錄來(lái)構(gòu) 建用戶興趣模型,反映用戶的需求和偏好。其特點(diǎn)是,第一,推薦性能依賴于推薦對(duì)象的特 征提取方法和內(nèi)容特征模型,也就是依賴于推薦對(duì)象的內(nèi)容特征的準(zhǔn)確性和完整性;第二, 推薦對(duì)象和用戶興趣模型基于關(guān)鍵詞進(jìn)行表示和相似度計(jì)算,停留在字符串層面,限制用 戶對(duì)高層次概念的認(rèn)知,難以滿足用戶的真正需求。
[0004] 基于協(xié)同過(guò)濾的推薦方法是基于推薦對(duì)象之間的相關(guān)性或用戶之間的相關(guān)性來(lái) 進(jìn)行推薦?;趨f(xié)同過(guò)濾的推薦方法可以分為基于用戶的協(xié)同推薦、基于物品的協(xié)同推薦, 以及基于模型的協(xié)同推薦。該方法的優(yōu)點(diǎn)是可以處理結(jié)構(gòu)化和非結(jié)構(gòu)化的復(fù)雜對(duì)象。其特 點(diǎn)是存在稀疏性問(wèn)題和冷啟動(dòng)問(wèn)題。稀疏性問(wèn)題是指對(duì)于涉及推薦對(duì)象較少的用戶,在龐 大的用戶集中難以發(fā)現(xiàn)與該用戶興趣相似的用戶。冷啟動(dòng)問(wèn)題是指當(dāng)新用戶或者新推薦對(duì) 象第一次出現(xiàn)在推薦系統(tǒng)中,系統(tǒng)難以獲知新用戶的興趣偏好,難以對(duì)新推薦對(duì)象進(jìn)行推 薦。
[0005] 引文推薦是信息推薦的重要研究?jī)?nèi)容,其目的是在海量的文獻(xiàn)中找出當(dāng)前論文需 要引用的論文?,F(xiàn)有引文推薦方法主要利用文獻(xiàn)的引用關(guān)系來(lái)進(jìn)行推薦,基于關(guān)鍵詞來(lái)表 示論文的內(nèi)容和用戶的興趣。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的是為了解決上述現(xiàn)有技術(shù)中推薦方法受限于相似用戶的數(shù)量,難以 檢索字符不同語(yǔ)義相似的文獻(xiàn),難以檢索與論文的研究對(duì)象和研究行為具有不同語(yǔ)義關(guān)聯(lián) 關(guān)系的文獻(xiàn),以及現(xiàn)有技術(shù)中的引用論文推薦結(jié)果不能很好滿足用戶需求的問(wèn)題,提供一 種基于文獻(xiàn)內(nèi)容知識(shí)圖譜的多層引文推薦方法。
[0007] 本發(fā)明的目的是通過(guò)下述技術(shù)方案實(shí)現(xiàn)的。
[0008] -種基于文獻(xiàn)內(nèi)容知識(shí)圖譜的多層引文推薦方法,包括如下步驟:
[0009] 步驟1,獲取查詢需求
[0010] 提取需要推薦引文的論文的標(biāo)題和摘要,進(jìn)行詞根提?。⊿temming)和詞形還原 (Lemmatization),去掉標(biāo)點(diǎn)符號(hào)和停用詞。停用詞是指不具有實(shí)際意義的詞語(yǔ),主要包括 助詞、介詞、連詞等。進(jìn)一步,提取關(guān)鍵詞作為搜索引擎Lucene查詢需求的檢索詞。
[0011] 步驟2,利用文獻(xiàn)內(nèi)容的知識(shí)圖譜進(jìn)行查詢擴(kuò)展
[0012] 第一,對(duì)查詢需求的檢索詞進(jìn)行擴(kuò)充,利用同義詞詞典和近義詞詞典獲得檢索詞 的同義詞和近義詞,擴(kuò)充檢索詞集合;
[0013] 第二,根據(jù)論文的標(biāo)題和摘要,識(shí)別論文的研究對(duì)象詞語(yǔ)u和研究行為詞語(yǔ)v;
[0014]第三,利用同義詞詞典和近義詞詞典,提取論文的研究對(duì)象詞語(yǔ)和研究行為詞語(yǔ) 的同義詞和近義詞,構(gòu)建檢索擴(kuò)展詞,將其添加到檢索詞集合中。
[0015] 若論文的研究對(duì)象詞語(yǔ)u的同義詞和近義詞為&1,&2,-_,&?(!11為自然數(shù)),研究行為 詞語(yǔ)v的同義詞和近義詞為bi,b 2,…,bn(n為自然數(shù)),則構(gòu)建如下的檢索擴(kuò)展詞,其中"+"是 指兩個(gè)詞語(yǔ)的連接。例如,W是指詞語(yǔ)u和詞語(yǔ)匕的連接。
[0016] u+bi ,u+b2, ·' ,u+bn,
[0017] ai+v,ai+bi,ai+b2,…,ai+bn,
[0018] a2+v,a2+bi,a2+b2,···,a2+bn,
[0019] …,
[0020] am+v,am+bi,am+b2,···,am+bn·
[0021] 第四,利用知識(shí)圖譜中的上下位關(guān)系子網(wǎng)絡(luò),提取論文的研究對(duì)象詞語(yǔ)u和研究行 為詞語(yǔ)v的上位概念和下位概念;
[0022] 若u的上位概念為ci,C2,···,cP(p為自然數(shù)),u的下位概念為di,d2,···,dq(q為自然 數(shù)),v的上位概念為ei,e 2,…,es(s為自然數(shù)),v的下位概念為fi,f2,···,ft(t為自然數(shù)),則 構(gòu)建如下的檢索擴(kuò)展詞:
[0023] u+ej( j = l ,2,··· ,s) ,u+fj( j = 1,2, ···, t),
[0024] ai+e j (i = l,2,...,m,j = l,2,...,s), ai+fj(i = l,2,...,m,j = l,2,.",t),
[0025] ci+v(i = 1,2,···,p),di+v(i = l,2,---,q),
[0026] ci+bj(i = l,2,··· ,p, j = l,2,··· ,n) ,di+bj(i = l ,2,··· ,q, j = l ,2,··· ,n),
[0027] ci+ej(i = l,2,---,P,j = 1,2,=
[0028] di+ej (i = l,2,???.q.j = 1,2,---,8), di+f j (i = l,2,---,q,j = l,2,---,t).
[0029] 第五,利用知識(shí)圖譜中的部分整體關(guān)系子網(wǎng)絡(luò),提取論文的研究對(duì)象詞語(yǔ)u和研究 行為詞語(yǔ)v的部分概念和整體概念。若u的整體概念為 81^2,一^。(〇為自然數(shù)),1!的部分概 念為hi,h2,···,h r(r為自然數(shù)),v的整體概念為ki,k2,···,kw(w為自然數(shù)),v的部分概念為li, I2,…,lz(z為自然數(shù)),則構(gòu)建如下的檢索擴(kuò)展詞:
[0030] u+kj(j = 1,2,…,w),u+lj (j = 1,2,…,z),
[0031 ] ai+kj(i = l,2,··· ,m, j = l,2,··· ,w) ,ai+lj(i = l ,2,··· ,m, j = l ,2,··· ,ζ),
[0032] gi+v (i = l,2,···,〇), hi+v (i = l,2,---,r),
[0033] gi+bj(i = l,2,··· ,0, j = l,2,··· ,n) ,hi+bj(i = l ,2,··· ,r, j = l ,2,··· ,n),
[0034] gi+kj (i = l, 2,···,〇,』· = 1,2,···,《〇, gi+lj (i = l, 2,···,〇,j = l, 2,···,ζ),
[0035] hi+kj (i = l,2,???.r.j = 1,2,= = 1,2,
[0036] 第六,利用知識(shí)圖譜中的并列關(guān)系子網(wǎng)絡(luò),提取論文的研究對(duì)象詞語(yǔ)u和研究行為 詞語(yǔ)v的并列概念。若u的并列概念為χι,Χ2,…,xki(kl為自然數(shù)),v的并列概念為yi,y2,···, yk2(k2為自然數(shù)),則構(gòu)建如下的檢索擴(kuò)展詞。
[0037] u+yj(j = 1,2,···,k2),xi+v(i = l,2,---,kl).
[0038] 步驟3,構(gòu)建文獻(xiàn)的倒排索引
[0039] 根據(jù)數(shù)據(jù)集中的文獻(xiàn)的標(biāo)題和摘要構(gòu)建倒排索引,包括預(yù)處理、構(gòu)建索引和存儲(chǔ) 索引。預(yù)處理包括詞根提取和詞形還原,去掉標(biāo)點(diǎn)符號(hào)和停用詞。構(gòu)建索引包括構(gòu)建詞語(yǔ)到 文檔的映射詞典,對(duì)詞語(yǔ)按照字典順序排序,合并相同詞語(yǔ)的文檔映射信息,構(gòu)建文檔倒排 鏈表即文檔倒排索引。
[0040] 步驟4,選取候選引文集
[0041] 首先,根據(jù)擴(kuò)展后的檢索詞集合,在數(shù)據(jù)集中檢索出在標(biāo)題和摘要中包括任一檢 索詞的論文。然后,計(jì)算查詢與這些論文的相似度。將相似度最高的前N(N為自然數(shù))篇論文 作為候選引文集。其中,查詢與論文的相似度采用搜索引擎Lucene中的向量空間模型進(jìn)行 計(jì)算。查詢和論文由查詢向量和論文向量來(lái)表示,查詢和論文的相似度為查詢向量和論文 向量的余弦相似度。
[0042] 步驟5,提取候選引文與查詢的相似度特征
[0043] 候選引文與查詢的相似度特征分為如下兩種特征。第一種是基于搜索引擎Lucene 的候選引文與查詢的相似度特征。第二種是