国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于人物屬性的科研信息持續(xù)檢索方法

      文檔序號:6335726閱讀:206來源:國知局
      專利名稱:一種基于人物屬性的科研信息持續(xù)檢索方法
      技術(shù)領(lǐng)域
      本發(fā)明屬于信息檢索anformation Retrieval)技術(shù)領(lǐng)域,是一種面向人物科研活動,通過人物屬性信息,持續(xù)檢索互聯(lián)網(wǎng)主流搜索引擎和定向網(wǎng)站,追蹤人物科研信息的方法。>
      背景技術(shù)
      信息檢索指將信息按一定的方式組織和存儲起來,并根據(jù)信息用戶的需要找出有關(guān)的信息的過程和技術(shù)。信息檢索包括四個要素信息檢索前提,即信息意識;信息檢索的基礎(chǔ),即信息源;信息檢索的核心,即信息獲取能力;信息檢索的關(guān)鍵,即信息利用。獲取科研人員學術(shù)活動信息的目的是通過對人物科研信息的檢索、整理、分析、整理、歸納和總結(jié), 根據(jù)他人學習、研究過程中的思考和思路,以便迅速掌握領(lǐng)域和領(lǐng)域?qū)<业目蒲袆討B(tài)和最新研究成果。針對科研活動信息獲取,一般信息檢索方法首先通過搜索機制獲取互聯(lián)網(wǎng)人物活動信息,并進行信息的過濾處理,再通過異構(gòu)信息整合,形成科研信息庫。用戶通過智能檢索或知識檢索,進行知識挖掘,將其所關(guān)心的科研人員及科研動態(tài)呈現(xiàn),從而完成獲取知識,實現(xiàn)科學研究向?qū)У倪^程(如圖1所示)。面向人物科研活動信息的持續(xù)檢索,現(xiàn)有信息檢索技術(shù)主要利用人物屬性信息, 形成搜索關(guān)鍵詞,利用主流搜索引擎搜索人物互聯(lián)網(wǎng)信息。同時構(gòu)建監(jiān)控方法,定期搜索人物互聯(lián)網(wǎng)信息,將更新的人物信息加入后臺信息庫中。本專利面向人物科研活動信息,利用信息檢索技術(shù),圍繞人物屬性信息,持續(xù)檢索互聯(lián)網(wǎng)主流搜索引擎和定向網(wǎng)站,追蹤人物科研信息。例如,搜索中國科學院院長路甬祥的科研活動信息,利用現(xiàn)有信息檢索技術(shù),則通過主流搜索引擎,如百度,利用關(guān)鍵詞“路甬祥中國科學院”,以及定向搜索中國科學院網(wǎng)站www. cas. ac. cn,返回其所有的新聞和網(wǎng)頁信息。同時建立一個定期更新爬蟲,將更新活動信息入庫。針對人物的科研活動信息獲取,主流信息檢索系統(tǒng),主要利用關(guān)鍵詞檢索機制,獲取互聯(lián)網(wǎng)上該人物的所有相關(guān)新聞信息,并通過長期搜索機制,定期更新活動信息。為實現(xiàn)準確的人物科研活動信息獲取,現(xiàn)有檢索方法主要存在的問題有1)通過關(guān)鍵詞檢索方法獲取的人物信息,包括各類活動信息,需要過濾獲取科研活動信息;2)科研活動信息未進行分類,科研活動信息混雜,不利于歸類整理?;脺蚀_率不高,包含人物名稱和人物屬性關(guān)鍵詞的網(wǎng)頁,由于重名、搜索引擎索引錯誤等問題,不一定屬于該人物。即通過主流搜索引擎獲取得到的人物科研活動信息準確率不高。4)缺少長期科研活動信息更新機制,造成信息的不全面。有鑒于此,本發(fā)明的目的就是給出一種基于人物屬性的科研信息持續(xù)檢索方法。 該方法通過人物與人物屬性的空間距離測定算法,準確獲取屬于該人物的活動信息;通過科研概念定義過濾獲取科研活動信息;通過科研活動歸類方法,將人物科研活動信息進行分類,形成不同類別的活動。通過人物爬蟲,持續(xù)獲取更新科研活動信息。
      基于人物屬性的科研信息持續(xù)檢索方法將精確和持續(xù)地獲取人物科研活動信息, 并以更為直觀的歸類機制將最新的人物科研活動信息呈現(xiàn)為用戶,以方便他了解其所關(guān)心人物的最新科研進展情況。>

      發(fā)明內(nèi)容
      (一 )本申請?zhí)岚敢鉀Q的技術(shù)問題本發(fā)明的目的是解決上述現(xiàn)有技術(shù)很對人物科研活動信息搜索不準確、歸類不明顯以及信息搜索不全的問題,提出一種基于人物屬性的科研信息持續(xù)檢索方法。本發(fā)明通過人物與人物屬性的空間距離測定算法、科研概念定義和科研活動分類方法以及人物爬蟲,來準確地、持久地獲取人物最新科研活動信息,以幫助相關(guān)人員了解最新科研進展情況。( 二)簡要說明欲保護的關(guān)鍵點及對應的技術(shù)效果關(guān)鍵點1,人物與人物屬性的空間距離測定算法。包括人物屬性定義和擴充、人物名稱與人物屬性的聯(lián)合查詢、人物與人物屬性的距離測定。人物屬性定義指的是可以用于描述人物特征的屬性,主要有人物單位(包括學習和工作單位)、郵件地址、電話等。人物屬性也可以通過簡稱、相似詞、反義詞等方式進行屬性擴充。另外,標簽(tagging)技術(shù)也可以對人物屬性進行關(guān)聯(lián)性擴充。如可以給“李未”打上標簽“大飛機”,以表明其在國產(chǎn)大飛機科研活動中的工作。人物名稱與人物屬性的聯(lián)合查詢指的是利用信息檢索技術(shù),在主流搜索引擎,如谷歌,百度和雅虎,以及指定網(wǎng)站,如該人物所在單位網(wǎng)站,獲取與該人物相關(guān)的檢索項。人物名稱與人物屬性的聯(lián)合查詢指的是將人物名稱和人物屬性作為一系列 “AND”關(guān)系的關(guān)鍵詞在搜索引擎和指定網(wǎng)站進行搜索。人物與人物屬性的距離測定指的是測量搜索結(jié)果集中人物與人物屬性之間的空間距離。在測定時,首先要提取網(wǎng)頁的正文信息,過濾掉廣告、記者、備注等非正文或者非描述該人物信息的噪音數(shù)據(jù)。然后分別定位人物名稱和人物屬性所在位置,按照最近原則,獲取人物與人物屬性的距離,并給出人物與人物屬性的順序關(guān)系。最后根據(jù)兩者距離和順序進行歸一化處理。技術(shù)效果利用人物名稱和人物屬性,從主流搜索引擎和指定網(wǎng)站獲取人物屬性描述的人物互聯(lián)網(wǎng)信息。關(guān)鍵點2,科研概念定義和科研活動信息分類。建立科研活動關(guān)鍵詞庫,制定跟科研活動相關(guān)的詞匯條目。如發(fā)表論文、參與項目、科學考察、出席會議等出現(xiàn)的相關(guān)詞匯。利用科研活動關(guān)鍵詞庫,與網(wǎng)頁分詞得到的關(guān)鍵詞進行比對,過濾未包含科研活動信息的網(wǎng)頁。將人物科研活動按照活動類別,形成不同的信息組織方法。主要的活動類信息有學術(shù)會議,學術(shù)報告,考察,采訪,報導等;科研成果類有論文,項目,專利,獎勵等;科研關(guān)系類有學生,同行,導師,專家組等;觀點類主要有評論,看法等。技術(shù)效果從龐雜的互聯(lián)網(wǎng)信息中過濾得到符合科研活動的人物信息,并按照科研活動分類組織信息。關(guān)鍵點3,人物爬蟲。指定人物以及人物屬性信息,定期從互聯(lián)網(wǎng)搜索更新信息。 人物爬蟲比較當前人物信息日期與上次爬取時間,選取上次爬取時間之后的網(wǎng)頁信息,并轉(zhuǎn)入該網(wǎng)頁,查看是否正常。如正常,將該網(wǎng)頁信息入庫,并進行整理提交。對于爬取獲得的網(wǎng)頁,存在大量網(wǎng)頁信息重復的問題。人物爬蟲通過比較兩個網(wǎng)頁的標題相似性,將標題相似的網(wǎng)頁進行去重,只保留最新、并且能夠訪問的網(wǎng)頁。
      技術(shù)效果持續(xù)獲取關(guān)注人物的更新科研活動信息。(三)總的技術(shù)效果本發(fā)明具有以下的優(yōu)點和特點1)本發(fā)明提供一種基于人物屬性的科研信息持續(xù)檢索方法,通過科研活動信息的獲取、分析、定義、分類和持久性更新機制,方便廣大科研人員獲取其所關(guān)注領(lǐng)域的專家最新科研活動動態(tài),減少大量的重復搜索和信息過濾時間。2)本發(fā)明提供的基于人物屬性的科研信息持續(xù)檢索方法,通過人物屬性限定提高了人物信息檢索的準確性,通過持續(xù)信息檢索提高了人物信息的全面性,方便科研人員全面了解某領(lǐng)域最新的研究動態(tài),幫助其快速掌握新知識。>


      附圖1是科研信息的檢索和挖掘過程。附圖2是基于人物屬性的科研信息持續(xù)檢索流程。>
      具體實施例方式下面結(jié)合附圖與具體實施方式
      對本發(fā)明作進一步詳細描述。本發(fā)明提供的基于人物屬性的科研信息持續(xù)檢索方法包括以下幾個步驟步驟S2. 1 用戶設定感興趣的科研人物及相關(guān)人物屬性。步驟S2. 2 人物信息獲取。根據(jù)人物名稱和人物屬性組成的關(guān)鍵詞,從主流搜索引擎和定向網(wǎng)站獲取該人物的所有信息。步驟S2. 3 人物信息一致性檢驗。通過人物與人物屬性在網(wǎng)頁中的距離測定算法,將距離小于0. 1的網(wǎng)頁予以保留,否則丟棄。步驟S2. 4 人物科研信息過濾。根據(jù)科研活動信息詞匯庫,分析網(wǎng)頁內(nèi)容是否具備科研特性。如是,則將該信息保留,否則剔除。步驟S2. 5 人物科研信息歸類。按照科研活動類別,將獲取得到的網(wǎng)頁信息進行組織分類。步驟S2. 6 通過人物爬蟲定期獲取更新的人物科研信息。更新周期由用戶根據(jù)不同需要設定。步驟S2. 7 流程結(jié)束。用戶可以通過訂閱方式持續(xù)獲取所關(guān)注人物的科研動態(tài)。下面以實施具體說明本發(fā)明方法的實現(xiàn)。某用戶關(guān)注某科研人員“南凱”,添加該科研人員的屬性信息,如單位信息“中國科學院計算機網(wǎng)絡信息中心”,則從百度網(wǎng)頁能夠檢索得到259篇信息,從定向網(wǎng)站www. cnic. cn獲取得到61篇相關(guān)信息。首先對兩個信息源信息進行排重,將重復數(shù)據(jù)過濾(即百度網(wǎng)頁從www. cnic. cn 網(wǎng)站獲取的網(wǎng)頁),獲取得到214篇相關(guān)網(wǎng)頁。利用人物與人物屬性距離測定算法,將距離大于0. 1的排除,共排除11篇網(wǎng)頁。獲取得到203篇網(wǎng)頁。按照科研活動定義,剔除不屬于科研活動的7篇網(wǎng)頁信息。按照科研活動分類,獲得科研活動類信息61篇、獲得科研成果類信息73篇、獲得科研關(guān)系類信息30篇、獲得科研觀點類信息6篇。其它的列為未知分類的科研活動信息。按照科研活動分類情況,將科研活動動態(tài)信息呈現(xiàn)給用戶。
      5
      通過人物爬蟲每天搜索一次百度網(wǎng)頁和定向網(wǎng)站www. cnic. cn,將更新的該人物信息通過郵件方式發(fā)送給訂閱該科研人員的相關(guān)人員。如上述實例,利用基于人物屬性的科研信息持續(xù)檢索方法,將能夠?qū)崿F(xiàn)感興趣科研人員或所研究領(lǐng)域中最新科研動態(tài)情況,減少科研過程中的信息重復搜索。以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。
      權(quán)利要求
      1.基于人物屬性的科研信息持續(xù)檢索方法,用于從主流搜索引擎和定向網(wǎng)站持續(xù)性獲取科研動態(tài)。其特征在于,利用人物屬性信息,對獲取的科研動態(tài)進行預處理、過濾、分類整理,實現(xiàn)所關(guān)注科研人物的持久性信息獲取。
      2.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法進一步包括通過人物屬性信息, 進一步提高人物科研活動信息檢索的準確性,通過人物爬蟲,進一步提高人物科研活動信息檢索的完整性。
      全文摘要
      本發(fā)明屬于信息檢索技術(shù)領(lǐng)域,公開了基于人物屬性的科研信息持續(xù)檢索方法,本發(fā)明通過人物與人物屬性的空間距離測定算法、科研概念定義和科研活動分類方法以及人物爬蟲,來準確地、全面持久地獲取人物最新科研活動信息,以幫助相關(guān)人員了解最新科研進展情況。方法包括S1,人物與人物屬性的空間距離測定算法,利用人物名稱和人物屬性,從主流搜索引擎和定向網(wǎng)站獲取人物屬性描述的人物互聯(lián)網(wǎng)信息;S2,科研概念定義和科研活動信息分類,從龐雜的互聯(lián)網(wǎng)信息中過濾得到符合科研活動的人物信息,并按照科研活動分類組織信息。S3,人物爬蟲,持續(xù)獲取關(guān)注人物的更新科研活動信息。本發(fā)明適用于精確、全面、持續(xù)地獲取所關(guān)注科研人員的科研動態(tài),方便用戶了解領(lǐng)域或領(lǐng)域?qū)<易钚驴蒲谐晒取?br> 文檔編號G06F17/30GK102467531SQ20101054083
      公開日2012年5月23日 申請日期2010年11月12日 優(yōu)先權(quán)日2010年11月12日
      發(fā)明者于建軍, 南凱, 張振華, 趙娟 申請人:中國科學院計算機網(wǎng)絡信息中心
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1