本發(fā)明涉及科研文獻的篩選和檢索方法領(lǐng)域,尤其涉及一種針對個性化科研文獻的篩選方法。
背景技術(shù):
科研文獻是目前科研成果的主要載體,在實驗手段不斷革新、技術(shù)平臺不斷創(chuàng)新的大背景下,各個研究領(lǐng)域內(nèi)的科研文獻在數(shù)量上均出現(xiàn)了井噴??蒲腥藛T在查看某具體研究領(lǐng)域的時候,往往花費大量的時間在篩選文獻上,同時因為科研文獻大多為英語文獻而國內(nèi)科研人員的英語閱讀能力普遍不高,所以科研文獻的閱讀和搜索是我國科研領(lǐng)域中的一大瓶頸。
以肺癌基因研究為例(2016年7月),根據(jù)”lung cancer gene”關(guān)鍵詞在NCBI Pubmed上進行搜索發(fā)現(xiàn)超過3萬篇文獻(其中近3年內(nèi)的文獻已經(jīng)超過7000篇)。要用純?nèi)斯ら喿x的傳統(tǒng)方法去完成如此繁重的文獻閱讀并篩選出符合自己研究領(lǐng)域的參考文獻是耗時的、低效的,因此,開發(fā)出自動識別用戶個性化需求的科研文獻推薦系統(tǒng)顯得非常迫切。
目前比較常用的推薦算法有協(xié)同過濾推薦算法和基于內(nèi)容的推薦算法。協(xié)同過濾推薦算法的原理是根據(jù)用戶和用戶之間的相似性找到用戶潛在的興趣進而作出合理的推薦對象,但是該推薦算法的缺點是不適用于對象的特征值難以提取的情況(例如:科研文獻)。
科學文獻是一種字符化的信息,在單詞分割后再計算出每個詞的TF-IDF值(詞頻-逆向文檔頻率)并據(jù)此構(gòu)建出每篇文獻相應(yīng)的向量,再計算出每篇科研文獻與用戶研究領(lǐng)域內(nèi)的參考文獻之間的余弦值,最后根據(jù)余弦值的大小排序并完成向用戶推薦個性化科研文獻。因此,基于內(nèi)容的推薦算法比較適用于個性化的科研文獻推薦。
目前,對于應(yīng)用傳統(tǒng)人工搜索的每一個科研人員來說,要在數(shù)量和信息量井噴的科研文獻里找到與自己研究領(lǐng)域高度相關(guān)的科研文獻并進行整理和設(shè)計實驗,這個過程需要花費的時間在目前大約3-6個月,目前和可預(yù)見的未來數(shù)年內(nèi)科研文獻無論在數(shù)量上還是在信息量上都呈現(xiàn)指數(shù)式的增長趨勢,所以很有必要開發(fā)出對應(yīng)的科研文獻推薦算法以解決傳統(tǒng)人工搜索文獻過程需要耗時太長的問題。
技術(shù)實現(xiàn)要素:
針對上述存在的問題,本發(fā)明目的在于提供一種準確率高,操作簡單方便,可大幅縮短科研人員在閱讀和整理科研文獻時間的個性化科研文獻的高效檢索方法。
為了達到上述目的,本發(fā)明采用的技術(shù)方案如下:一種針對個性化科研文獻的篩選方法,所述的篩選方法包括如下操作步驟:
1)通過科研人員收集X個的特定領(lǐng)域的關(guān)鍵詞,在數(shù)據(jù)庫上輸入這些關(guān)鍵詞然后得到大量的科研文章,然后將題目、作者和摘要信息輸出成一個匯總的文本文件,并要求科研人員提供閱讀過的Y篇在該特定領(lǐng)域內(nèi)偏好文獻。
2)在該匯總的文本文件內(nèi)將每篇文章去除標點符號,將文章分隔成單個的詞,然后對所有詞進行TF-IDF值的計算,并建立表示每篇文章的k維向量;
以和分別表示所有文章和用戶偏好參考文獻的向量,w是每個單詞的TF-IDF值而k為單詞的個數(shù);
單詞Ki在文獻dj中的詞頻TFi定義為;
單詞Ki在整個文獻集中出現(xiàn)的逆向文獻頻率IDFi定義為;
每個單詞的w等于TF-IDF并定義為,
其中N為文獻集包含的文獻數(shù),ni為文獻集中包含關(guān)鍵詞Ki的文獻數(shù),fij 為關(guān)鍵字Ki在文檔dj 中出現(xiàn)的次數(shù);
每個候選文獻與所有用戶研究領(lǐng)域中偏好的參考文獻按照進行余弦值計算以表示相似度;
把每篇候選文獻與所有用戶偏好的參考文獻之間的余弦值進行求和,得到每篇候選文獻的綜合相似度;對各篇候選文件的綜合相似度進行降序排列,得出第一輪綜合推薦文獻結(jié)果;
3)將步驟2)得出的結(jié)果返回給用戶進行人工判斷,再從第一輪推綜合推薦文獻結(jié)果中重新篩選Y篇的用戶偏好文獻,按照步驟2)的操作方法進行迭代運算一次,得出第二輪綜合推薦文獻結(jié)果;
4)從第二輪推薦結(jié)果中找出Y篇用戶偏好文獻,綜合前兩次找出的共3×Y篇的用戶偏好文獻,可以視為用戶在本研究領(lǐng)域的代表性訓練數(shù)據(jù)集。
根據(jù)此訓練數(shù)據(jù)集按照第(2)步驟進行用戶個性化科研文獻搜索,得到的推薦文獻準確率達到95%以上;而且該訓練數(shù)據(jù)集將隨研究的逐步深入而變得越來越豐富,其準確率也將逐步上升。
本發(fā)明所述的步驟1)~步驟4)中的Y的取值范圍為:5≤Y≤15,X的取值范圍為2≤X≤5。
本發(fā)明所述的篩選方法針對的科研文獻為NCBI Pubmed數(shù)據(jù)庫上的英文文獻。
根據(jù)本發(fā)明的步驟1)中的操作方法,將步驟1)的操作方法編制成自動化程序;根據(jù)本發(fā)明的步驟2)中的操作方法,將步驟2)的操作方法編制成自動化程序;根據(jù)本發(fā)明的步驟3)中的操作方法,將步驟3)的操作方法編制成自動化程序;
本發(fā)明的優(yōu)點在于:本發(fā)明采用了用戶與基于內(nèi)容推薦算法替互動的個性化科研文獻閱讀方法取代傳統(tǒng)的基于純?nèi)斯に阉鞯奈墨I閱讀方法。
與傳統(tǒng)方法相比,其具有以下優(yōu)點:
本發(fā)明僅需要有限的人工閱讀作為完善基于內(nèi)容推薦算法并高效提供個性化科研文獻,對于每一個科研人員來說能夠節(jié)省大量文獻閱讀時間并避免重復(fù)研究和實驗資源浪費。
按照本發(fā)明3次迭代后得到的訓練數(shù)據(jù)集進行個性化科研文獻閱讀,經(jīng)計算機閱讀后推薦得到的科研文獻中95%以上的文獻符合用戶的研究領(lǐng)域,在閱讀時間上減少90%以上,訓練數(shù)據(jù)集能跟隨用戶深入研究變得豐富并進一步提升文獻推薦的準確率。
附圖說明
圖1為本發(fā)明的檢索方法的操作流程圖;
圖2為本發(fā)明的技術(shù)方案針對三種截然不同的研究領(lǐng)域(每個領(lǐng)域文獻數(shù)量均超過10000篇),經(jīng)過4次循環(huán)完善用戶相關(guān)研究領(lǐng)域的訓練數(shù)據(jù)集結(jié)果圖。
圖3為本發(fā)明的技術(shù)方案針對三種截然不同的研究領(lǐng)域(每個領(lǐng)域文獻數(shù)量均超過30000篇),經(jīng)過4次循環(huán)完善用戶相關(guān)研究領(lǐng)域的訓練數(shù)據(jù)集結(jié)果圖。
具體實施方式
下面結(jié)合附圖說明和具體實施方式對本發(fā)明作進一步詳細的描述。
實施例1:如圖1所述,一種針對個性化科研文獻的篩選方法,所述的篩選方法包括如下操作步驟:
1)通過科研人員收集3個的特定領(lǐng)域的關(guān)鍵詞,在數(shù)據(jù)庫上輸入這些關(guān)鍵詞然后得到大量的科研文章,然后將題目、作者和摘要信息輸出成一個匯總的文本文件,并要求科研人員提供閱讀過的10篇在該特定領(lǐng)域內(nèi)偏好文獻。
2)在該匯總的文本文件內(nèi)將每篇文章去除標點符號,將文章分隔成單個的詞,然后對所有詞進行TF-IDF值的計算,并建立表示每篇文章的k維向量;
以和分別表示所有文章和用戶偏好參考文獻的向量,w是每個單詞的TF-IDF值而k為單詞的個數(shù);
單詞Ki在文獻dj中的詞頻TFi定義為;
單詞Ki在整個文獻集中出現(xiàn)的逆向文獻頻率IDFi定義為;
每個單詞的w等于TF-IDF并定義為,
其中N為文獻集包含的文獻數(shù),ni為文獻集中包含關(guān)鍵詞Ki的文獻數(shù),fij 為關(guān)鍵字Ki在文檔dj 中出現(xiàn)的次數(shù);
每個候選文獻與所有用戶研究領(lǐng)域中偏好的參考文獻按照進行余弦值計算以表示相似度;
把每篇候選文獻與所有用戶偏好的參考文獻之間的余弦值進行求和,得到每篇候選文獻的綜合相似度;對各篇候選文件的綜合相似度進行降序排列,得出第一輪綜合推薦文獻結(jié)果;
3)將步驟2)得出的結(jié)果返回給用戶進行人工判斷,再從第一輪推綜合推薦文獻結(jié)果中重新篩選10篇的用戶偏好文獻,按照步驟2)的操作方法進行迭代運算一次,得出第二輪綜合推薦文獻結(jié)果;
4)從第二輪推薦結(jié)果中找出10篇用戶偏好文獻,綜合前兩次找出的共30篇的用戶偏好文獻,可以視為用戶在本研究領(lǐng)域的代表性訓練數(shù)據(jù)集。
實施例2:如圖1和2所示:
以2016年的老藥新用、胰腺癌基因靶標和脂肪肝代謝機理三個截然不同的研究領(lǐng)域來說相關(guān)文獻數(shù)量均超過10000篇,按照傳統(tǒng)人工搜索方法是沒有辦法完成對所有文獻進行全面閱讀的,假設(shè)隨機抽取其中5%的文獻進行閱讀也需要耗費3-6個月不等(根據(jù)不同文獻難度進行估算)。
然而按照本發(fā)明所述的方法進行檢索,我們花費的總時間約1天就完成了文獻的全面閱讀并推薦出個性化的科研文獻。另外,在4次循環(huán)完善訓練數(shù)據(jù)集之后,我們按照傳統(tǒng)人工閱讀方法將這些推薦文獻進行抽樣閱讀進行人工判斷,發(fā)現(xiàn)推薦出的文獻符合個性化需求的準確率達95%以上。
實施例3:如圖1和3所示:
以2016年的胰腺癌新藥試驗、肝毒性炎癥小體和膽汁淤積機理三個截然不同的研究領(lǐng)域來說相關(guān)文獻數(shù)量均超過30000篇,按照傳統(tǒng)人工搜索方法是沒有辦法完成對所有文獻進行全面閱讀的,假設(shè)隨機抽取其中5%的文獻進行閱讀也需要耗費6-9個月不等(根據(jù)不同文獻難度進行估算)。
然而按照本發(fā)明所述的方法進行檢索,我們花費的總時間約6天就完成了文獻的全面閱讀并推薦出個性化的科研文獻。另外,在4次循環(huán)完善訓練數(shù)據(jù)集之后,我們按照傳統(tǒng)人工閱讀方法將這些推薦文獻進行抽樣閱讀進行人工判斷,發(fā)現(xiàn)推薦出的文獻符合個性化需求的準確率達95%以上。
需要說明的是,上述僅僅是本發(fā)明的較佳實施例,并非用來限定本發(fā)明的保護范圍,在上述實施例的基礎(chǔ)上所做出的任意組合或等同變換均屬于本發(fā)明的保護范圍。