候選引文與查詢的主題分布的KL距離 (Kullback-Leibler Divergence)。首先,采用隱含狄利克雷分布模型獲取查詢和候選引文 的主題分布。然后,計(jì)算這兩個(gè)主題分布的KL距離。
[0044]步驟6,構(gòu)建引文推薦的訓(xùn)練數(shù)據(jù)
[0045] 第一,對(duì)訓(xùn)練數(shù)據(jù)集中每篇訓(xùn)練論文,根據(jù)其標(biāo)題和摘要,利用搜索引擎Lucene檢 索出候選引文。
[0046] 第二,對(duì)于每一篇候選引文p,構(gòu)建一個(gè)訓(xùn)練樣本。訓(xùn)練樣本特征包括候選引文p的 引用次數(shù)特征、候選引文P和根據(jù)訓(xùn)練論文構(gòu)建的查詢的相似度特征。如果訓(xùn)練論文引用了 候選引文P,則該樣本的分類標(biāo)簽為1,否則為〇。若訓(xùn)練論文包含m個(gè)參考文獻(xiàn),則可以構(gòu)建m 個(gè)正樣本和n-m個(gè)負(fù)樣本,其中η為候選引文的篇數(shù)。
[0047] 步驟7,基于梯度漸進(jìn)回歸樹進(jìn)行引文推薦
[0048] 第一,采用梯度漸進(jìn)回歸樹GBRT(Gradient Boost Regression Tree)來訓(xùn)練分類 模型,實(shí)現(xiàn)引文推薦。分類特征包括候選引文與查詢的相似度特征、論文引用次數(shù)特征。梯 度漸進(jìn)回歸樹的輸出值一般為0~1之間的實(shí)數(shù),將GBRT的輸出值作為候選引文的推薦度。 推薦度越大表示該候選引文分類為"推薦"的可能性就越大。進(jìn)一步,將推薦度最高的M(M為 自然數(shù))篇候選引文作為當(dāng)前論文的引文推薦結(jié)果;
[0049] 第二,對(duì)推薦的每一篇引文p,從其標(biāo)題和摘要中識(shí)別研究對(duì)象詞語X和研究行為 詞語y。對(duì)于當(dāng)前論文,構(gòu)建每一篇引文P與它的多層語義關(guān)聯(lián)關(guān)系。若u和v分別為當(dāng)前論文 的研究對(duì)象詞語和研究行為詞語;
[0050] 情形1:若X為u的整體概念,或7為¥的整體概念,則引文p的研究內(nèi)容包括當(dāng)前論文 的研究內(nèi)容。若X為u的部分概念,或y為v的部分概念,則當(dāng)前論文的研究內(nèi)容包括引文p的 研究內(nèi)容;
[0051] 情形2:若X為u的上位概念,或ySv的上位概念,則引文p的研究方法可應(yīng)用于解決 當(dāng)前論文的研究問題。若X為u的下位概念,或 7為¥的下位概念,則當(dāng)前論文的研究方法可應(yīng) 用于解決引文P的研究問題;
[0052] 情形3:若X為u的并列概念,或7為¥的并列概念,則當(dāng)前論文的研究方法可借鑒引 文P的研究方法。
[0053]至此,就完成了本方法的全部過程。
[0054] 有益效果
[0055] 本發(fā)明方法,針對(duì)現(xiàn)有引文推薦方法難以檢索字符不同語義相似的文獻(xiàn)、難以檢 索與論文的研究對(duì)象和研究行為具有不同語義關(guān)聯(lián)關(guān)系的文獻(xiàn)、受限于相似用戶數(shù)量等問 題,引入不同文獻(xiàn)的內(nèi)容語義關(guān)聯(lián)的知識(shí),采用一種基于文獻(xiàn)內(nèi)容知識(shí)圖譜的多層引文推 薦方法。該方法利用文獻(xiàn)內(nèi)容中研究對(duì)象詞語和研究行為詞語的各種語義關(guān)系來獲取檢索 擴(kuò)展詞,基于梯度漸近回歸樹來進(jìn)行多層次的引文推薦,提高了用戶獲取引文的效率。具體 體現(xiàn)在如下方面:
[0056] (1)本發(fā)明一方面通過提取論文的標(biāo)題和摘要的關(guān)鍵詞來表示論文的研究內(nèi)容, 另一方面通過提取論文的研究對(duì)象詞語和研究行為詞語來表示論文的研究內(nèi)容,對(duì)論文的 研究問題和研究內(nèi)容進(jìn)行了語義表征,更加準(zhǔn)確地表達(dá)了論文的研究主題和內(nèi)容,從而提 高引文推薦的效果。
[0057] (2)利用文獻(xiàn)內(nèi)容的知識(shí)圖譜來獲取檢索擴(kuò)展詞,也就是,利用論文的研究對(duì)象詞 語和研究行為詞語的同義關(guān)系、近義關(guān)系、上下位關(guān)系、部分整體關(guān)系、并列關(guān)系來獲取檢 索擴(kuò)展詞,擴(kuò)大了候選引文的范圍,從而解決引用文獻(xiàn)漏檢的問題和推薦系統(tǒng)初期的冷啟 動(dòng)問題。
[0058] (3)本發(fā)明采用梯度漸進(jìn)回歸樹GBRT進(jìn)行引文推薦,將引文推薦看作分類問題,每 個(gè)訓(xùn)練樣本引文的類別標(biāo)簽為1或〇,即表示"推薦"或"不推薦",不但保證了引文推薦結(jié)果 的效果,而且保證了引文推薦方法的運(yùn)行效率。
[0059] (4)在文獻(xiàn)內(nèi)容的知識(shí)圖譜中,可以動(dòng)態(tài)添加與論文的研究對(duì)象詞語和研究行為 詞語具有不同語義關(guān)系的詞語,不斷擴(kuò)充文獻(xiàn)內(nèi)容的知識(shí)圖譜網(wǎng)絡(luò),從而提高引文推薦方 法的實(shí)時(shí)性和靈活性。
【附圖說明】
[0060] 圖1為本發(fā)明方法的流程圖。
【具體實(shí)施方式】
[0061 ]下面結(jié)合實(shí)施例對(duì)本發(fā)明方法進(jìn)行詳細(xì)說明。
[0062] 實(shí)施例
[0063] -種基于文獻(xiàn)內(nèi)容知識(shí)圖譜的多層引文推薦方法,包括如下步驟:
[0064]步驟1,獲取查詢需求。
[0065] 提取需要推薦引文的論文的標(biāo)題和摘要,進(jìn)行詞根提取(Stemming)和詞形還原 (Lemmat izat ion),去掉標(biāo)點(diǎn)符號(hào)和停用詞。例如,單詞"enti t ies"通過詞根提取轉(zhuǎn)化為 "entity"。單詞"identified"通過詞形還原轉(zhuǎn)化為"identify"。停用詞是指不具有實(shí)際意 義的詞語,主要包括助詞、介詞、連詞等。例如,"is" "with"和"and"都是停用詞。進(jìn)一步,提 取關(guān)鍵詞作為搜索引擎Lucene查詢需求的檢索詞。
[0066] 步驟2,利用文獻(xiàn)內(nèi)容的知識(shí)圖譜進(jìn)行查詢擴(kuò)展。
[0067] 第一,對(duì)查詢需求的檢索詞進(jìn)行擴(kuò)充,利用同義詞詞典和近義詞詞典獲得檢索詞 的同義詞和近義詞,擴(kuò)充檢索擴(kuò)展詞集合。
[0068] 例如,從標(biāo)題為"一種基于隱馬爾科夫模型的命名實(shí)體識(shí)別"的論文中提取關(guān)鍵詞 "隱馬爾科夫模型"和"命名實(shí)體識(shí)別"作為檢索詞。通過同義詞詞典和近義詞詞典獲得檢索 擴(kuò)展詞"HMM(隱馬爾科夫模型)"和"NER(命名實(shí)體識(shí)別)"。
[0069] 第二,根據(jù)論文的標(biāo)題和摘要,識(shí)別論文的研究對(duì)象詞語u和研究行為詞語V。例 如,對(duì)于標(biāo)題為"一種基于隱馬爾科夫模型的命名實(shí)體識(shí)別"的論文,識(shí)別其論文的研究對(duì) 象詞語為"命名實(shí)體",研究行為詞語為"識(shí)別"。
[0070] 第三,利用同義詞詞典和近義詞詞典,提取論文的研究對(duì)象詞語和研究行為詞語 的同義詞和近義詞,構(gòu)建檢索擴(kuò)展詞,將其添加到檢索詞集合中。
[0071]若論文的研究對(duì)象詞語u的同義詞和近義詞為&1,&2,-_, &?(!11為自然數(shù)),研究行為 詞語v的同義詞和近義詞為bi,b2,…,bn(n為自然數(shù)),則構(gòu)建如下的檢索擴(kuò)展詞,其中"+"是 指兩個(gè)詞語的連接。例如,W是指詞語u和詞語h的連接。"實(shí)體+檢測"是指詞語"實(shí)體" 和詞語"檢測"的連接,即"實(shí)體檢測"。
[0072] u+bi,u+b2,…,u+bn,
[0073] ai+v,ai+bi,ai+b2,…,ai+bn,
[0074] a2+v,a2+bi,a2+b2,···,a2+bn,
[0075] ···,
[0076] am+v,am+bi,am+b2,···,a m+bn·
[0077] 例如,對(duì)于標(biāo)題為"一種基于隱馬爾科夫模型的命名實(shí)體識(shí)別"的論文,提取研究 行為詞語"識(shí)別"的近義詞為"檢測"和"提取",因此,構(gòu)建檢索擴(kuò)展詞"命名實(shí)體檢測"和"命 名實(shí)體提取",并將它們添加到檢索詞集合中。
[0078] 第四,利用知識(shí)圖譜中的上下位關(guān)系子網(wǎng)絡(luò),提取論文的研究對(duì)象詞語u和研究行 為詞語v的上位概念和下位概念。
[0079] 若u的上位概念為ci,C2,···,cP(p為自然數(shù)),u的下位概念為di,d2,···,dq(q為自然 數(shù)),v的上位概念為ei,e 2,…,es(s為自然數(shù)),v的下位概念為fi,f2,···,ft(t為自然數(shù)),則 構(gòu)建如下的檢索擴(kuò)展詞。
[0080] u+ej (j = 1,2,…,s),u+fj (j = 1,2,…,t),
[0081 ] ai+e j (i = l,2,...,m,j = l,2,...,s),ai+fj(i = l,2,...,m,j = l,2,···,!:),
[0082] ci+v(i = 1,2,···,p),di+v(i = l,2,---,q),
[0083] ci+bj(i = l,2,··· ,p, j = l,2,··· ,n) ,di+bj(i = l ,2,··· ,q, j = l ,2,··· ,n),
[0084] ci+ej(i = l,2,---,P,j = 1,2,=
[0085] di+ej (i = l,2,???.q.j = 1,2,---,8), di+f j (i = l,2,---,q,j = l,2,---,t).
[0086] 例如,對(duì)于標(biāo)題為"一種基于