国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于文獻(xiàn)內(nèi)容知識(shí)圖譜的多層引文推薦方法_2

      文檔序號(hào):9887806閱讀:來源:國知局
      候選引文與查詢的主題分布的KL距離 (Kullback-Leibler Divergence)。首先,采用隱含狄利克雷分布模型獲取查詢和候選引文 的主題分布。然后,計(jì)算這兩個(gè)主題分布的KL距離。
      [0044]步驟6,構(gòu)建引文推薦的訓(xùn)練數(shù)據(jù)
      [0045] 第一,對(duì)訓(xùn)練數(shù)據(jù)集中每篇訓(xùn)練論文,根據(jù)其標(biāo)題和摘要,利用搜索引擎Lucene檢 索出候選引文。
      [0046] 第二,對(duì)于每一篇候選引文p,構(gòu)建一個(gè)訓(xùn)練樣本。訓(xùn)練樣本特征包括候選引文p的 引用次數(shù)特征、候選引文P和根據(jù)訓(xùn)練論文構(gòu)建的查詢的相似度特征。如果訓(xùn)練論文引用了 候選引文P,則該樣本的分類標(biāo)簽為1,否則為〇。若訓(xùn)練論文包含m個(gè)參考文獻(xiàn),則可以構(gòu)建m 個(gè)正樣本和n-m個(gè)負(fù)樣本,其中η為候選引文的篇數(shù)。
      [0047] 步驟7,基于梯度漸進(jìn)回歸樹進(jìn)行引文推薦
      [0048] 第一,采用梯度漸進(jìn)回歸樹GBRT(Gradient Boost Regression Tree)來訓(xùn)練分類 模型,實(shí)現(xiàn)引文推薦。分類特征包括候選引文與查詢的相似度特征、論文引用次數(shù)特征。梯 度漸進(jìn)回歸樹的輸出值一般為0~1之間的實(shí)數(shù),將GBRT的輸出值作為候選引文的推薦度。 推薦度越大表示該候選引文分類為"推薦"的可能性就越大。進(jìn)一步,將推薦度最高的M(M為 自然數(shù))篇候選引文作為當(dāng)前論文的引文推薦結(jié)果;
      [0049] 第二,對(duì)推薦的每一篇引文p,從其標(biāo)題和摘要中識(shí)別研究對(duì)象詞語X和研究行為 詞語y。對(duì)于當(dāng)前論文,構(gòu)建每一篇引文P與它的多層語義關(guān)聯(lián)關(guān)系。若u和v分別為當(dāng)前論文 的研究對(duì)象詞語和研究行為詞語;
      [0050] 情形1:若X為u的整體概念,或7為¥的整體概念,則引文p的研究內(nèi)容包括當(dāng)前論文 的研究內(nèi)容。若X為u的部分概念,或y為v的部分概念,則當(dāng)前論文的研究內(nèi)容包括引文p的 研究內(nèi)容;
      [0051] 情形2:若X為u的上位概念,或ySv的上位概念,則引文p的研究方法可應(yīng)用于解決 當(dāng)前論文的研究問題。若X為u的下位概念,或 7為¥的下位概念,則當(dāng)前論文的研究方法可應(yīng) 用于解決引文P的研究問題;
      [0052] 情形3:若X為u的并列概念,或7為¥的并列概念,則當(dāng)前論文的研究方法可借鑒引 文P的研究方法。
      [0053]至此,就完成了本方法的全部過程。
      [0054] 有益效果
      [0055] 本發(fā)明方法,針對(duì)現(xiàn)有引文推薦方法難以檢索字符不同語義相似的文獻(xiàn)、難以檢 索與論文的研究對(duì)象和研究行為具有不同語義關(guān)聯(lián)關(guān)系的文獻(xiàn)、受限于相似用戶數(shù)量等問 題,引入不同文獻(xiàn)的內(nèi)容語義關(guān)聯(lián)的知識(shí),采用一種基于文獻(xiàn)內(nèi)容知識(shí)圖譜的多層引文推 薦方法。該方法利用文獻(xiàn)內(nèi)容中研究對(duì)象詞語和研究行為詞語的各種語義關(guān)系來獲取檢索 擴(kuò)展詞,基于梯度漸近回歸樹來進(jìn)行多層次的引文推薦,提高了用戶獲取引文的效率。具體 體現(xiàn)在如下方面:
      [0056] (1)本發(fā)明一方面通過提取論文的標(biāo)題和摘要的關(guān)鍵詞來表示論文的研究內(nèi)容, 另一方面通過提取論文的研究對(duì)象詞語和研究行為詞語來表示論文的研究內(nèi)容,對(duì)論文的 研究問題和研究內(nèi)容進(jìn)行了語義表征,更加準(zhǔn)確地表達(dá)了論文的研究主題和內(nèi)容,從而提 高引文推薦的效果。
      [0057] (2)利用文獻(xiàn)內(nèi)容的知識(shí)圖譜來獲取檢索擴(kuò)展詞,也就是,利用論文的研究對(duì)象詞 語和研究行為詞語的同義關(guān)系、近義關(guān)系、上下位關(guān)系、部分整體關(guān)系、并列關(guān)系來獲取檢 索擴(kuò)展詞,擴(kuò)大了候選引文的范圍,從而解決引用文獻(xiàn)漏檢的問題和推薦系統(tǒng)初期的冷啟 動(dòng)問題。
      [0058] (3)本發(fā)明采用梯度漸進(jìn)回歸樹GBRT進(jìn)行引文推薦,將引文推薦看作分類問題,每 個(gè)訓(xùn)練樣本引文的類別標(biāo)簽為1或〇,即表示"推薦"或"不推薦",不但保證了引文推薦結(jié)果 的效果,而且保證了引文推薦方法的運(yùn)行效率。
      [0059] (4)在文獻(xiàn)內(nèi)容的知識(shí)圖譜中,可以動(dòng)態(tài)添加與論文的研究對(duì)象詞語和研究行為 詞語具有不同語義關(guān)系的詞語,不斷擴(kuò)充文獻(xiàn)內(nèi)容的知識(shí)圖譜網(wǎng)絡(luò),從而提高引文推薦方 法的實(shí)時(shí)性和靈活性。
      【附圖說明】
      [0060] 圖1為本發(fā)明方法的流程圖。
      【具體實(shí)施方式】
      [0061 ]下面結(jié)合實(shí)施例對(duì)本發(fā)明方法進(jìn)行詳細(xì)說明。
      [0062] 實(shí)施例
      [0063] -種基于文獻(xiàn)內(nèi)容知識(shí)圖譜的多層引文推薦方法,包括如下步驟:
      [0064]步驟1,獲取查詢需求。
      [0065] 提取需要推薦引文的論文的標(biāo)題和摘要,進(jìn)行詞根提取(Stemming)和詞形還原 (Lemmat izat ion),去掉標(biāo)點(diǎn)符號(hào)和停用詞。例如,單詞"enti t ies"通過詞根提取轉(zhuǎn)化為 "entity"。單詞"identified"通過詞形還原轉(zhuǎn)化為"identify"。停用詞是指不具有實(shí)際意 義的詞語,主要包括助詞、介詞、連詞等。例如,"is" "with"和"and"都是停用詞。進(jìn)一步,提 取關(guān)鍵詞作為搜索引擎Lucene查詢需求的檢索詞。
      [0066] 步驟2,利用文獻(xiàn)內(nèi)容的知識(shí)圖譜進(jìn)行查詢擴(kuò)展。
      [0067] 第一,對(duì)查詢需求的檢索詞進(jìn)行擴(kuò)充,利用同義詞詞典和近義詞詞典獲得檢索詞 的同義詞和近義詞,擴(kuò)充檢索擴(kuò)展詞集合。
      [0068] 例如,從標(biāo)題為"一種基于隱馬爾科夫模型的命名實(shí)體識(shí)別"的論文中提取關(guān)鍵詞 "隱馬爾科夫模型"和"命名實(shí)體識(shí)別"作為檢索詞。通過同義詞詞典和近義詞詞典獲得檢索 擴(kuò)展詞"HMM(隱馬爾科夫模型)"和"NER(命名實(shí)體識(shí)別)"。
      [0069] 第二,根據(jù)論文的標(biāo)題和摘要,識(shí)別論文的研究對(duì)象詞語u和研究行為詞語V。例 如,對(duì)于標(biāo)題為"一種基于隱馬爾科夫模型的命名實(shí)體識(shí)別"的論文,識(shí)別其論文的研究對(duì) 象詞語為"命名實(shí)體",研究行為詞語為"識(shí)別"。
      [0070] 第三,利用同義詞詞典和近義詞詞典,提取論文的研究對(duì)象詞語和研究行為詞語 的同義詞和近義詞,構(gòu)建檢索擴(kuò)展詞,將其添加到檢索詞集合中。
      [0071]若論文的研究對(duì)象詞語u的同義詞和近義詞為&1,&2,-_, &?(!11為自然數(shù)),研究行為 詞語v的同義詞和近義詞為bi,b2,…,bn(n為自然數(shù)),則構(gòu)建如下的檢索擴(kuò)展詞,其中"+"是 指兩個(gè)詞語的連接。例如,W是指詞語u和詞語h的連接。"實(shí)體+檢測"是指詞語"實(shí)體" 和詞語"檢測"的連接,即"實(shí)體檢測"。
      [0072] u+bi,u+b2,…,u+bn,
      [0073] ai+v,ai+bi,ai+b2,…,ai+bn,
      [0074] a2+v,a2+bi,a2+b2,···,a2+bn,
      [0075] ···,
      [0076] am+v,am+bi,am+b2,···,a m+bn·
      [0077] 例如,對(duì)于標(biāo)題為"一種基于隱馬爾科夫模型的命名實(shí)體識(shí)別"的論文,提取研究 行為詞語"識(shí)別"的近義詞為"檢測"和"提取",因此,構(gòu)建檢索擴(kuò)展詞"命名實(shí)體檢測"和"命 名實(shí)體提取",并將它們添加到檢索詞集合中。
      [0078] 第四,利用知識(shí)圖譜中的上下位關(guān)系子網(wǎng)絡(luò),提取論文的研究對(duì)象詞語u和研究行 為詞語v的上位概念和下位概念。
      [0079] 若u的上位概念為ci,C2,···,cP(p為自然數(shù)),u的下位概念為di,d2,···,dq(q為自然 數(shù)),v的上位概念為ei,e 2,…,es(s為自然數(shù)),v的下位概念為fi,f2,···,ft(t為自然數(shù)),則 構(gòu)建如下的檢索擴(kuò)展詞。
      [0080] u+ej (j = 1,2,…,s),u+fj (j = 1,2,…,t),
      [0081 ] ai+e j (i = l,2,...,m,j = l,2,...,s),ai+fj(i = l,2,...,m,j = l,2,···,!:),
      [0082] ci+v(i = 1,2,···,p),di+v(i = l,2,---,q),
      [0083] ci+bj(i = l,2,··· ,p, j = l,2,··· ,n) ,di+bj(i = l ,2,··· ,q, j = l ,2,··· ,n),
      [0084] ci+ej(i = l,2,---,P,j = 1,2,=
      [0085] di+ej (i = l,2,???.q.j = 1,2,---,8), di+f j (i = l,2,---,q,j = l,2,---,t).
      [0086] 例如,對(duì)于標(biāo)題為"一種基于
      當(dāng)前第2頁1 2 3 4 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1