專(zhuān)利名稱(chēng):基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及相關(guān)信息抽取方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,尤其涉及ー種基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及相關(guān)イM息抽取方法和系統(tǒng)。
背景技術(shù):
眾多實(shí)際網(wǎng)絡(luò)都有ー個(gè)共同性質(zhì),即它們都是由各個(gè)社團(tuán)通過(guò)公共節(jié)點(diǎn)連接而成網(wǎng)絡(luò)。社団內(nèi)部節(jié)點(diǎn)間的連接相對(duì)緊密,社団間的連接相對(duì)稀疏。例如萬(wàn)維網(wǎng)可以看成是由大量網(wǎng)站社團(tuán)組成,同一社団內(nèi)部的眾多站點(diǎn)討論的往往是有共同興趣的ー些話(huà)題。類(lèi)似地,在作者合作網(wǎng)或者電路網(wǎng)絡(luò)中,同樣可以將各個(gè)節(jié)點(diǎn)根據(jù)其不同的性質(zhì)劃分為不同的社団。因此,網(wǎng)絡(luò)中社団的數(shù)目以及每個(gè)節(jié)點(diǎn)的歸屬社団及數(shù)目對(duì)復(fù)雜網(wǎng)絡(luò)的研究都具有重要意義。對(duì)于網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)的定義,目前沒(méi)有ー個(gè)公認(rèn)的標(biāo)準(zhǔn)。因此網(wǎng)絡(luò)中社團(tuán)結(jié)構(gòu)定義的形式很多,但是大體上分為兩類(lèi)1.使用節(jié)點(diǎn)對(duì)間邊的相對(duì)疏密程度來(lái)衡量社団結(jié)構(gòu)。在這種方法定義下,每個(gè)社團(tuán)內(nèi)部的節(jié)點(diǎn)對(duì)間的連接相對(duì)緊密,但是各個(gè)社團(tuán)之間的連接卻相對(duì)稀疏。2.使用圖論中的精確數(shù)量指標(biāo)來(lái)定義社團(tuán)結(jié)構(gòu)。這些社團(tuán)結(jié)構(gòu)都是由圖論中團(tuán)的定義衍生而來(lái)。在這類(lèi)結(jié)構(gòu)的定義方式下,一般要求社団內(nèi)部每個(gè)點(diǎn)都相鄰,或者至多可以與多少點(diǎn)不相鄰,或者任兩點(diǎn)之間最遠(yuǎn)多少跳等等類(lèi)似的方式。當(dāng)前領(lǐng)域?qū)<易R(shí)別推薦通常采用通過(guò)構(gòu)造模糊文本分類(lèi)器,對(duì)專(zhuān)家上傳到知識(shí)庫(kù)中的文檔進(jìn)行模糊文本分類(lèi),結(jié)合數(shù)量、時(shí)間等因素建立專(zhuān)家知識(shí)模型的方法,這種方法存在所用文本庫(kù)不全,覆蓋面低,很難在多個(gè)領(lǐng)域進(jìn)行全方位綜合分析所在領(lǐng)域?qū)<业木唧w貢獻(xiàn)及相關(guān)個(gè)人信息,存在很大的局限性?;诖耍景l(fā)明使用復(fù)雜網(wǎng)絡(luò)分析技術(shù)中的復(fù)雜網(wǎng)絡(luò)構(gòu)建、參數(shù)分析以及社團(tuán)發(fā)現(xiàn)算法,可有效地用于學(xué)科領(lǐng)域核心人物或核心団體的發(fā)現(xiàn)與其相關(guān)信息的獲取。
發(fā)明內(nèi)容
本發(fā)明針對(duì)挖掘某一學(xué)術(shù)領(lǐng)域核心人物及智能提取其相關(guān)信息的問(wèn)題,本發(fā)明提出了一種基于社會(huì)網(wǎng)絡(luò)分析技術(shù)中的核心節(jié)點(diǎn)發(fā)現(xiàn)方法而改進(jìn)的學(xué)術(shù)核心作者挖掘、信息抽取算法和系統(tǒng)。該方法和系統(tǒng)針對(duì)特定領(lǐng)域的文獻(xiàn)數(shù)據(jù),使用復(fù)雜網(wǎng)絡(luò)分析技術(shù)中的復(fù)雜網(wǎng)絡(luò)構(gòu)建、參數(shù)分析以及社團(tuán)發(fā)現(xiàn)算法,高效率的找到領(lǐng)域核心団體或關(guān)鍵人物。本發(fā)明提出的ー種基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及相關(guān)信息抽取方法,其包括步驟1、采用垂直捜索技術(shù)采集指定領(lǐng)域的文獻(xiàn)數(shù)據(jù),并對(duì)所述文獻(xiàn)數(shù)據(jù)進(jìn)行整理分析,以獲取作者相關(guān)信息;步驟2、根據(jù)所獲取的作者相關(guān)信息抽取作者合作網(wǎng)絡(luò),并統(tǒng)計(jì)作者相關(guān)的參數(shù),根據(jù)所統(tǒng)計(jì)的不同相關(guān)參數(shù)獲得不同的作者排名信息;步驟3、對(duì)所抽取的合作網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分,劃分后的社団作為ー個(gè)科研群體;步驟4、向用戶(hù)展示所述不同的作者排名信息和科研群體,井根據(jù)用戶(hù)所選擇的作者排名信息和科研群體為用戶(hù)推薦核心作者和領(lǐng)袖團(tuán)隊(duì)。本發(fā)明還提出了ー種基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及相關(guān)信息抽取系統(tǒng),其包括數(shù)據(jù)采集和整理裝置用于采用垂直捜索技術(shù)采集指定領(lǐng)域的文獻(xiàn)數(shù)據(jù),并對(duì)所述文獻(xiàn)數(shù)據(jù)進(jìn)行整理分析,以獲取作者相關(guān)信息;參數(shù)分析統(tǒng)計(jì)裝置根據(jù)所獲取的作者相關(guān)信息抽取作者合作網(wǎng)絡(luò),并統(tǒng)計(jì)作者相關(guān)的參數(shù),根據(jù)所統(tǒng)計(jì)的不同相關(guān)參數(shù)獲得不同的作者排名信息;;社團(tuán)劃分裝置對(duì)所抽取的合作網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分,劃分后的社団作為ー個(gè)科研群體;結(jié)果展示裝置向用戶(hù)展示所述不同的作者排名信息和科研群體,井根據(jù)用戶(hù)所選擇的作者排名信息和科研群體為用戶(hù)推薦核心作者和領(lǐng)袖團(tuán)隊(duì)。
圖1是本發(fā)明的應(yīng)用系統(tǒng)原理圖;圖2是本發(fā)明的應(yīng)用系統(tǒng)的簡(jiǎn)單使用流程圖;圖3是本發(fā)明中基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及相關(guān)信息抽取方法的流程圖;圖4是本發(fā)明中數(shù)據(jù)采集子流程圖;圖5是本發(fā)明中數(shù)據(jù)采集配置子流程圖;圖6是本發(fā)明中數(shù)據(jù)分析整理子流程圖;圖7是本發(fā)明實(shí)現(xiàn)的應(yīng)用系統(tǒng)截圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)ー步詳細(xì)說(shuō)明。本發(fā)明所提出的基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及相關(guān)信息抽取方法和系統(tǒng)是針對(duì)領(lǐng)域核心專(zhuān)家群體信息檢索而發(fā)明的,應(yīng)用系統(tǒng)原理見(jiàn)附圖1。下面介紹本發(fā)明所使用到的技術(shù)1、采集技術(shù)1.1垂直搜索本方法利用垂直捜索技術(shù),根據(jù)用戶(hù)關(guān)注的領(lǐng)域、會(huì)議等相關(guān)信息,從CNKI,SpringerLink等常用的文獻(xiàn)檢索引擎上獲取相關(guān)的作者、機(jī)構(gòu)、會(huì)議等元數(shù)據(jù),自動(dòng)下載并解析文獻(xiàn)全文,獲取文獻(xiàn)作者或機(jī)構(gòu)的詳細(xì)通訊方式。垂直捜索是針對(duì)某ー個(gè)領(lǐng)域的專(zhuān)業(yè)搜索引擎,是搜索引擎的細(xì)分和延伸,是對(duì)網(wǎng)頁(yè)庫(kù)中的某類(lèi)專(zhuān)門(mén)的信息進(jìn)行一次整合,定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶(hù)。相對(duì)通用搜索引擎的信息量大、查詢(xún)不準(zhǔn)確、深度不夠等提出來(lái)的新的搜索引擎服務(wù)模式,通過(guò)針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù)。其特點(diǎn)就是“專(zhuān)、精、深”,且具有行業(yè)色彩,相比較通用搜索引擎的海量信息無(wú)序化,垂直搜索引擎則顯得更加專(zhuān)注、具體和深入。垂直搜索最重要的技術(shù)是搜索引擎爬蟲(chóng)。搜索引擎爬蟲(chóng)技術(shù)是ー種按照一定的規(guī)貝U,自動(dòng)的抓取網(wǎng)絡(luò)信息的技木。本系統(tǒng)相關(guān)搜索引擎爬蟲(chóng)的設(shè)計(jì)是以普通爬蟲(chóng)為基礎(chǔ),并對(duì)其功能進(jìn)行有效擴(kuò)充,主要包括領(lǐng)域相關(guān)初始URL種子集、頁(yè)面抓取模塊、主題相關(guān)性分析模塊,URL查重與頁(yè)面下載等模塊。這種設(shè)計(jì)能夠保證系統(tǒng)良好的主題相關(guān)性,以提高爬取的主題相關(guān)性頁(yè)面命中率,切合用戶(hù)的需求。1. 2網(wǎng)頁(yè)采集本技術(shù)中網(wǎng)頁(yè)采集主要分為深度網(wǎng)采集和動(dòng)態(tài)網(wǎng)采集。深度網(wǎng)的特征是在于其頁(yè)面的隱蔽性,一般需要用戶(hù)提交數(shù)據(jù)請(qǐng)求的表單才能獲得返回的結(jié)果。動(dòng)態(tài)網(wǎng)的頁(yè)面主要特點(diǎn)是“動(dòng)態(tài)存在”,即用戶(hù)在調(diào)用頁(yè)面時(shí)臨時(shí)通過(guò)程序動(dòng)態(tài)生成的頁(yè)面。動(dòng)態(tài)網(wǎng)按照信息項(xiàng)的分布主要分成兩個(gè)類(lèi)型一是多記錄項(xiàng)動(dòng)態(tài)網(wǎng)頁(yè);另外一個(gè)就是單記錄項(xiàng)動(dòng)態(tài)網(wǎng)頁(yè),其頁(yè)面抽取的主要難度在于網(wǎng)頁(yè)信息的有效定位以及不同用戶(hù)所定義的不同抽取請(qǐng)求的精確表示。2、分析技術(shù)2.1復(fù)雜網(wǎng)絡(luò)技術(shù)2.1.1基本概念ー個(gè)具體的網(wǎng)絡(luò)可以抽象為由點(diǎn)集V和邊集E組成的圖G,節(jié)點(diǎn)數(shù)記為N =V(G) I,邊數(shù)記為M = E(G) I。E中每條邊都有V中一個(gè)節(jié)點(diǎn)對(duì)與之對(duì)應(yīng)。如果任意點(diǎn)對(duì)
對(duì)應(yīng)于同一條邊,則該網(wǎng)絡(luò)為無(wú)向網(wǎng)絡(luò),否則為有向網(wǎng)絡(luò)。若網(wǎng)絡(luò)中包含的節(jié)點(diǎn)與邊只有一種類(lèi)型,則稱(chēng)該網(wǎng)絡(luò)是同質(zhì)的,否則該網(wǎng)絡(luò)屬于異質(zhì)網(wǎng)絡(luò)。2.1. 2中介度中心性中介度中心性(betweenness centrality)是基于節(jié)點(diǎn)對(duì)網(wǎng)絡(luò)通信的控制能力來(lái)定義的。它認(rèn)為如果某節(jié)點(diǎn)存在于網(wǎng)絡(luò)中其它節(jié)點(diǎn)對(duì)之間通信的必經(jīng)之路上,則其在網(wǎng)絡(luò)中必定具有重要的地位。2.1. 3聚集系數(shù)聚集系數(shù)(clusteringcoefficient)經(jīng)常被用來(lái)描述網(wǎng)絡(luò)的傳遞性。比如在社交關(guān)系網(wǎng)中,你朋友的朋友很可能也是你的朋友;你的兩個(gè)朋友很可能彼此也是朋友。聚集系數(shù)就是用來(lái)度量網(wǎng)絡(luò)的這種性質(zhì)的。2. 2其他統(tǒng)計(jì)指標(biāo)2. 2. lH-1ndex評(píng)價(jià)科學(xué)家影響カ的ー個(gè)重要的測(cè)度是H-1ndex度量。H_index的取值依據(jù)的是科學(xué)家的文章的數(shù)量以及被引用的次數(shù)。例如,某ー個(gè)學(xué)者有至少h篇文章分別被引用h次,則這個(gè)學(xué)者的H-1ndex取值為h。從上述描述知,某學(xué)者的H-1ndex取值越大,他在其研究領(lǐng)域內(nèi)的影響カ也越大。H-1ndex度量將學(xué)者們發(fā)表的科研成果的數(shù)量的質(zhì)量綜合地納入了考量。2. 2. 2APS值(平均產(chǎn)出得分)APS值定義為對(duì)于ー篇有n個(gè)作者的論文,APS給每個(gè)作者的得分是1/n。ー個(gè)作者的APS就是它所有論文的得分之和。它描述了作者對(duì)其所發(fā)文章的貢獻(xiàn)度。本發(fā)明提出了ー種基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及信息抽取方法,應(yīng)用系統(tǒng)的簡(jiǎn)單使用流程見(jiàn)附圖2,學(xué)術(shù)核心作者挖掘及相關(guān)信息抽取方法的流程見(jiàn)附圖3。具體步驟如下步驟ー數(shù)據(jù)采集與整理。本方法采用垂直捜索技術(shù)進(jìn)行指定會(huì)議的論文文獻(xiàn)數(shù)據(jù)采集。采集流程見(jiàn)附圖4。本步驟包含三個(gè)階段階段1:基本數(shù)據(jù)獲取,具體包 括步驟a)確定采集條件,采集條件的確定見(jiàn)附圖5。首先需要確定檢索類(lèi)型,包括三種檢索類(lèi)型期刊、會(huì)議與關(guān)鍵詞。然后根據(jù)不同類(lèi)型確定檢索詞、時(shí)間等檢索條件,如會(huì)議配置條件(會(huì)議相關(guān)的檢索詞等)、文獻(xiàn)檢索來(lái)源和檢索年份等配置條件。接著選取數(shù)據(jù)源,包括國(guó)內(nèi)外不同的數(shù)據(jù)庫(kù)。從而構(gòu)成檢索條件集合。其中,會(huì)議配置條件需要用戶(hù)輸入,其余配置條件由系統(tǒng)自行調(diào)整;步驟b),根據(jù)采集條件動(dòng)態(tài)配置采集信息,對(duì)確定的每個(gè)數(shù)據(jù)源站點(diǎn),如CNKI,SpringerLink等分別配置采集信息,如檢索類(lèi)型為期刊,則配置的采集信息為期刊等;步驟c)基本文獻(xiàn)數(shù)據(jù)采集。這里利用垂直捜索技術(shù),根據(jù)用戶(hù)關(guān)注的領(lǐng)域、會(huì)議等相關(guān)信息,通過(guò)初始URL種子集、頁(yè)面抓取模塊、主題相關(guān)性分析模塊,URL查重與頁(yè)面下載等模塊從CNKI,SpringerLink等常用的文獻(xiàn)檢索引擎上獲取相關(guān)的作者、機(jī)構(gòu)、會(huì)議等元數(shù)據(jù),自動(dòng)下載并解析文獻(xiàn)全文。階段2 :數(shù)據(jù)整理,具體包括步驟d)進(jìn)行數(shù)據(jù)清洗,主要是將作者姓名規(guī)范化,去除多余字符,例如空格等,對(duì)機(jī)構(gòu)進(jìn)行一定歸并,如ニ級(jí)機(jī)構(gòu)単位由其一級(jí)單位名稱(chēng)替代等;步驟e)指定信息獲取,本發(fā)明中最主要的研究對(duì)象是作者,因此在此步驟中可以獲得簡(jiǎn)單的作者信息,即作者姓名及系統(tǒng)分配的唯一標(biāo)識(shí)ID。階段3 :信息入庫(kù),具體包括步驟f)將結(jié)果展示給用戶(hù),由用戶(hù)判斷是否對(duì)結(jié)果滿(mǎn)意,滿(mǎn)意則進(jìn)行步驟g),否則返回步驟a)重新配置;步驟g)將基本文獻(xiàn)信息和作者信息存入指定數(shù)據(jù)庫(kù);步驟h)系統(tǒng)判斷是否循環(huán)采集數(shù)據(jù),是則等待一段時(shí)間之后再次采集,否則結(jié)束采集步驟。步驟ニ參數(shù)統(tǒng)計(jì)分析。數(shù)據(jù)分析整理子流程見(jiàn)附圖6。本方法研究對(duì)象為指定領(lǐng)域相關(guān)核心作者與団體。因此需要對(duì)作者的文獻(xiàn)統(tǒng)計(jì)參數(shù)進(jìn)行分析,通過(guò)對(duì)各項(xiàng)參數(shù)值進(jìn)行綜合排名進(jìn)而識(shí)別出該領(lǐng)域的核心作者。統(tǒng)計(jì)參數(shù)包含作者的發(fā)文量分布和作者APS(平均產(chǎn)出得分)分布,并利用合作者關(guān)系抽取作者的合作網(wǎng)絡(luò),分析作者在合作網(wǎng)絡(luò)中的節(jié)點(diǎn)中介中心性、度分布、網(wǎng)絡(luò)聚集系數(shù)和H-1ndex度量,其中節(jié)點(diǎn)中介中心性用于衡量ー個(gè)作者能在多大程度上控制他人之間的交往,如果ー個(gè)節(jié)點(diǎn)處于許多其他點(diǎn)對(duì)的最短路徑上,它就具有較高的中介中心度。可以認(rèn)為該作者居于重要位置,度分布表示某個(gè)作者與多少人有過(guò)合作關(guān)系,網(wǎng)絡(luò)聚集系數(shù)指網(wǎng)絡(luò)中節(jié)點(diǎn)的鄰接點(diǎn)也互為鄰接點(diǎn)的比例,即小集群結(jié)構(gòu)的完美程度,用來(lái)衡量此作者在網(wǎng)絡(luò)節(jié)點(diǎn)聚類(lèi)情況的參數(shù);H-1ndeX度量表示某作者h(yuǎn)篇文章分別被引用h次,則這個(gè)學(xué)者的H-1ndex取值為h,用來(lái)衡量其在研究領(lǐng)域內(nèi)的影響力。將按不同參數(shù)得到的作者排名信息保存,即按照作者的發(fā)文量分布、作者APS(平均產(chǎn)出得分)分布、作者在合作網(wǎng)絡(luò)中的節(jié)點(diǎn)中介中心性、度分布、網(wǎng)絡(luò)聚集系數(shù)和H-1ndex度量等參數(shù)得到不同的作者排名信息。步驟三根據(jù)社團(tuán)劃分算法進(jìn)行群體分析。本方法針對(duì)作者合作網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分,劃分后的每個(gè)社団相當(dāng)于ー個(gè)科研群體。針對(duì)全部科研群體統(tǒng)計(jì)發(fā)文量分布情況。
步驟四作者排名信息及科研群體信息展示。將步驟ニ保存的不同作者排名信息和步驟三找到的科研群體展現(xiàn)給用戶(hù),井根據(jù)用戶(hù)選擇的作者排名信息和科研群體排名推薦重要作者作為科研領(lǐng)袖,重要群體作為核心團(tuán)隊(duì)。步驟五核心作者信息抽取及展示。用戶(hù)根據(jù)需要,選定主要領(lǐng)域?qū)W者作為核心作者,由系統(tǒng)通過(guò)文獻(xiàn)信息自動(dòng)抽取其個(gè)人資料信息展現(xiàn)給用戶(hù)進(jìn)行相關(guān)業(yè)務(wù)或研究使用。其中,步驟ー的階段I中,文獻(xiàn)采集方式為深度網(wǎng)采集與動(dòng)態(tài)網(wǎng)采集相結(jié)合。深度網(wǎng)采集的工作過(guò)程可分為3步1)分析頁(yè)面,尋找表単;2)學(xué)習(xí)填寫(xiě)表単;3)識(shí)別和取回結(jié)果頁(yè)面。其中,深度網(wǎng)爬蟲(chóng)第一步從站點(diǎn)主頁(yè)開(kāi)始爬行表單頁(yè)面,這個(gè)過(guò)程使用一組啟發(fā)式規(guī)則來(lái)去除非研究表単;第二步從表單中抽取標(biāo)簽,配合領(lǐng)域規(guī)則知識(shí)庫(kù)及網(wǎng)站的特征標(biāo)識(shí)(用戶(hù)名、密碼或驗(yàn)證碼),爬蟲(chóng)盡力學(xué)習(xí)如何正確地填寫(xiě)表單;最后一歩提交表單,然后取回結(jié)果頁(yè)面識(shí)別記錄。另外,在深度網(wǎng)采集的過(guò)程中,網(wǎng)絡(luò)爬蟲(chóng)需要基于領(lǐng)域知識(shí)庫(kù),智能化地識(shí)別特定應(yīng)用領(lǐng)域知識(shí),以保證采集到的信息的相關(guān)性和準(zhǔn)確性。動(dòng)態(tài)網(wǎng)采集過(guò)程中,抽取多記錄項(xiàng)動(dòng)態(tài)網(wǎng)頁(yè)的信息時(shí),需要運(yùn)用樹(shù)編輯距離模型和樹(shù)歸并模型算法定位和抽取網(wǎng)頁(yè)信息。使用樹(shù)編輯距離準(zhǔn)確定位網(wǎng)頁(yè)的抽取結(jié)構(gòu),將動(dòng)態(tài)網(wǎng)頁(yè)轉(zhuǎn)換為標(biāo)簽樹(shù)并定位分離網(wǎng)頁(yè)中的數(shù)據(jù)項(xiàng),為單個(gè)數(shù)據(jù)項(xiàng)生成獨(dú)自的數(shù)據(jù)項(xiàng)樹(shù);將樹(shù)歸并模型運(yùn)用于多數(shù)據(jù)項(xiàng)的模式抽取上,控制重復(fù)數(shù)據(jù)項(xiàng)和可選數(shù)據(jù)項(xiàng),生成用于抽取的包裝器樹(shù),即最終抽取器。在抽取單記錄項(xiàng)動(dòng)態(tài)網(wǎng)頁(yè)的信息時(shí),用戶(hù)需要通過(guò)可選模塊,自定義抽取的數(shù)據(jù)項(xiàng),系統(tǒng)將根據(jù)用戶(hù)所選數(shù)據(jù)項(xiàng)生成抽取模板。在抽取過(guò)程中,首先將網(wǎng)頁(yè)轉(zhuǎn)換為標(biāo)簽樹(shù),通過(guò)用戶(hù)自定義的抽取模板匹配并抽取網(wǎng)頁(yè)信息并保存。階段I的步驟c中,文獻(xiàn)弓I擎來(lái)源主要有CNKI和SpringerLink,采集內(nèi)容包含文獻(xiàn)標(biāo)題,文獻(xiàn)原文,文獻(xiàn)作者,文獻(xiàn)關(guān)鍵詞,作者機(jī)構(gòu),文獻(xiàn)所在出版物,文獻(xiàn)發(fā)表時(shí)間。步驟ニ中,中介度中心性的表達(dá)式定義為
權(quán)利要求
1.一種基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及相關(guān)信息抽取方法,其包括 步驟1、采用垂直搜索技術(shù)采集指定領(lǐng)域的文獻(xiàn)數(shù)據(jù),并對(duì)所述文獻(xiàn)數(shù)據(jù)進(jìn)行整理分析,以獲取作者相關(guān)信息; 步驟2、根據(jù)所獲取的作者相關(guān)信息抽取作者合作網(wǎng)絡(luò),并統(tǒng)計(jì)作者相關(guān)的參數(shù),根據(jù)所統(tǒng)計(jì)的不同相關(guān)參數(shù)獲得不同的作者排名信息; 步驟3、對(duì)所抽取的合作網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分,劃分后的社團(tuán)作為一個(gè)科研群體; 步驟4、向用戶(hù)展示所述不同的作者排名信息和科研群體,并根據(jù)用戶(hù)所選擇的作者排名信息和科研群體為用戶(hù)推薦核心作者和領(lǐng)袖團(tuán)隊(duì)。
2.如權(quán)利要求1所述的方法,其特征在于,步驟I中采集指定領(lǐng)域的文獻(xiàn)數(shù)據(jù)具體包括 步驟11、確定采集條件,包括確定檢索類(lèi)型、根據(jù)不同檢索類(lèi)型確定檢索條件; 步驟12、根據(jù)采集條件動(dòng)態(tài)配置采集信息; 步驟13、根據(jù)采集條件和采集信息獲取文獻(xiàn)數(shù)據(jù)。
3.如權(quán)利要求1所述的方法,其特征在于,步驟I中對(duì)數(shù)據(jù)進(jìn)行整理分析以獲取作者相關(guān)信息具體包括 步驟14、進(jìn)行數(shù)據(jù)清洗; 步驟15、獲取指定的作者相關(guān)信息。
4.如權(quán)利要求1所述的方法,其特征在于,步驟I還包括將獲取的作者相關(guān)信息展示給用戶(hù),由用戶(hù)確定是否需要重新采集數(shù)據(jù),如果需要?jiǎng)t重新配置采集條件,并根據(jù)重新配置的采集條件進(jìn)行采集數(shù)據(jù)。
5.如權(quán)利要求1所述的方法,其特征在于,步驟2中所述相關(guān)參數(shù)包括作者的發(fā)文量分布、作者的平均產(chǎn)出得分、作者在合作網(wǎng)絡(luò)中的節(jié)點(diǎn)中介中心性、度分布、網(wǎng)絡(luò)聚集系數(shù)和H-1ndex 度量。
6.如權(quán)利要求5所述的方法,其特征在于,所述節(jié)點(diǎn)中介中心性根據(jù)下式計(jì)算獲得
7.如權(quán)利要求1所述的方法,其特征在于,步驟3中所述社團(tuán)劃分采用針對(duì)有向網(wǎng)絡(luò)的快速社團(tuán)劃分方法,具體包括 步驟31、初始化所述合作網(wǎng)絡(luò)為n個(gè)社團(tuán),即每個(gè)節(jié)點(diǎn)為一個(gè)獨(dú)立社團(tuán); 步驟32、依次合并有邊相連的社團(tuán),并計(jì)算合并后的模塊度值;步驟33、重復(fù)執(zhí)行步驟32,直到整個(gè)合作網(wǎng)絡(luò)都合并成一個(gè)社團(tuán),其中,模塊度值最大時(shí),合并后對(duì)應(yīng)的社團(tuán)為最終劃分后的社團(tuán)。
8.如權(quán)利要求7所述的方法,其中所述模塊度值根據(jù)下式計(jì)算
9.如權(quán)利要求1所述的方法,其特征在于,該方法還包括 步驟5、分析文獻(xiàn)數(shù)據(jù),抽取核心作者的個(gè)人資料并提供給用戶(hù)。
10.一種基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及相關(guān)信息抽取系統(tǒng),其包括 數(shù)據(jù)采集和整理裝置用于采用垂直搜索技術(shù)采集指定領(lǐng)域的文獻(xiàn)數(shù)據(jù),并對(duì)所述文獻(xiàn)數(shù)據(jù)進(jìn)行整理分析,以獲取作者相關(guān)信息; 參數(shù)分析統(tǒng)計(jì)裝置根據(jù)所獲取的作者相關(guān)信息抽取作者合作網(wǎng)絡(luò),并統(tǒng)計(jì)作者相關(guān)的參數(shù),根據(jù)所統(tǒng)計(jì)的不同相關(guān)參數(shù)獲得不同的作者排名信息; 社團(tuán)劃分裝置對(duì)所抽取的合作網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分,劃分后的社團(tuán)作為一個(gè)科研群體; 結(jié)果展示裝置向用戶(hù)展示所述不同的作者排名信息和科研群體,并根據(jù)用戶(hù)所選擇的作者排名信息和科研群體為用戶(hù)推薦核心作者和領(lǐng)袖團(tuán)隊(duì)。
全文摘要
本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,針對(duì)挖掘某一學(xué)術(shù)領(lǐng)域核心作者及智能提取其相關(guān)信息的問(wèn)題,本發(fā)明提出了一種基于社會(huì)網(wǎng)絡(luò)分析技術(shù)中的核心節(jié)點(diǎn)發(fā)現(xiàn)算法而改進(jìn)的學(xué)術(shù)核心作者挖掘、信息抽取方法和系統(tǒng)。本方法融合了垂直搜索技術(shù),社會(huì)網(wǎng)絡(luò)分析技術(shù)和文本分析技術(shù),能夠在海量信息中找到某一學(xué)術(shù)領(lǐng)域核心作者或群體,進(jìn)而獲取其相關(guān)個(gè)人資料信息。本發(fā)明采用垂直搜索技術(shù)采集開(kāi)源文獻(xiàn)數(shù)據(jù)。利用文獻(xiàn)計(jì)量學(xué)技術(shù)和復(fù)雜網(wǎng)絡(luò)分析技術(shù)分析數(shù)據(jù)中出現(xiàn)的多種社會(huì)實(shí)體的重要性。并利用社團(tuán)發(fā)現(xiàn)算法,基于實(shí)體間關(guān)系的緊密程度進(jìn)行針對(duì)實(shí)體的聚類(lèi),發(fā)現(xiàn)學(xué)術(shù)團(tuán)體。用戶(hù)根據(jù)實(shí)體重要性排序,找到核心作者或機(jī)構(gòu),并根據(jù)合作群體的發(fā)文量分布找到領(lǐng)袖團(tuán)隊(duì)。
文檔編號(hào)G06F17/30GK103020302SQ201210592828
公開(kāi)日2013年4月3日 申請(qǐng)日期2012年12月31日 優(yōu)先權(quán)日2012年12月31日
發(fā)明者陸浩, 王飛躍, 溫婉婷, 甘潤(rùn)生, 孫星愷 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所