基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及相關(guān)信息抽取方法和系統(tǒng)的制作方法

文檔序號(hào)：6386475閱讀：237來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及相關(guān)信息抽取方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域，尤其涉及ー種基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及相關(guān)イM息抽取方法和系統(tǒng)。
背景技術(shù)：
眾多實(shí)際網(wǎng)絡(luò)都有ー個(gè)共同性質(zhì)，即它們都是由各個(gè)社團(tuán)通過(guò)公共節(jié)點(diǎn)連接而成網(wǎng)絡(luò)。社団內(nèi)部節(jié)點(diǎn)間的連接相對(duì)緊密，社団間的連接相對(duì)稀疏。例如萬(wàn)維網(wǎng)可以看成是由大量網(wǎng)站社團(tuán)組成，同一社団內(nèi)部的眾多站點(diǎn)討論的往往是有共同興趣的ー些話(huà)題。類(lèi)似地，在作者合作網(wǎng)或者電路網(wǎng)絡(luò)中，同樣可以將各個(gè)節(jié)點(diǎn)根據(jù)其不同的性質(zhì)劃分為不同的社団。因此，網(wǎng)絡(luò)中社団的數(shù)目以及每個(gè)節(jié)點(diǎn)的歸屬社団及數(shù)目對(duì)復(fù)雜網(wǎng)絡(luò)的研究都具有重要意義。對(duì)于網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)的定義，目前沒(méi)有ー個(gè)公認(rèn)的標(biāo)準(zhǔn)。因此網(wǎng)絡(luò)中社團(tuán)結(jié)構(gòu)定義的形式很多，但是大體上分為兩類(lèi)1.使用節(jié)點(diǎn)對(duì)間邊的相對(duì)疏密程度來(lái)衡量社団結(jié)構(gòu)。在這種方法定義下，每個(gè)社團(tuán)內(nèi)部的節(jié)點(diǎn)對(duì)間的連接相對(duì)緊密，但是各個(gè)社團(tuán)之間的連接卻相對(duì)稀疏。2.使用圖論中的精確數(shù)量指標(biāo)來(lái)定義社團(tuán)結(jié)構(gòu)。這些社團(tuán)結(jié)構(gòu)都是由圖論中團(tuán)的定義衍生而來(lái)。在這類(lèi)結(jié)構(gòu)的定義方式下，一般要求社団內(nèi)部每個(gè)點(diǎn)都相鄰，或者至多可以與多少點(diǎn)不相鄰，或者任兩點(diǎn)之間最遠(yuǎn)多少跳等等類(lèi)似的方式。當(dāng)前領(lǐng)域?qū)＜易R(shí)別推薦通常采用通過(guò)構(gòu)造模糊文本分類(lèi)器，對(duì)專(zhuān)家上傳到知識(shí)庫(kù)中的文檔進(jìn)行模糊文本分類(lèi)，結(jié)合數(shù)量、時(shí)間等因素建立專(zhuān)家知識(shí)模型的方法，這種方法存在所用文本庫(kù)不全，覆蓋面低，很難在多個(gè)領(lǐng)域進(jìn)行全方位綜合分析所在領(lǐng)域?qū)＜业木唧w貢獻(xiàn)及相關(guān)個(gè)人信息，存在很大的局限性?；诖耍景l(fā)明使用復(fù)雜網(wǎng)絡(luò)分析技術(shù)中的復(fù)雜網(wǎng)絡(luò)構(gòu)建、參數(shù)分析以及社團(tuán)發(fā)現(xiàn)算法，可有效地用于學(xué)科領(lǐng)域核心人物或核心団體的發(fā)現(xiàn)與其相關(guān)信息的獲取。

發(fā)明內(nèi)容
本發(fā)明針對(duì)挖掘某一學(xué)術(shù)領(lǐng)域核心人物及智能提取其相關(guān)信息的問(wèn)題，本發(fā)明提出了一種基于社會(huì)網(wǎng)絡(luò)分析技術(shù)中的核心節(jié)點(diǎn)發(fā)現(xiàn)方法而改進(jìn)的學(xué)術(shù)核心作者挖掘、信息抽取算法和系統(tǒng)。該方法和系統(tǒng)針對(duì)特定領(lǐng)域的文獻(xiàn)數(shù)據(jù)，使用復(fù)雜網(wǎng)絡(luò)分析技術(shù)中的復(fù)雜網(wǎng)絡(luò)構(gòu)建、參數(shù)分析以及社團(tuán)發(fā)現(xiàn)算法，高效率的找到領(lǐng)域核心団體或關(guān)鍵人物。本發(fā)明提出的ー種基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及相關(guān)信息抽取方法，其包括步驟1、采用垂直捜索技術(shù)采集指定領(lǐng)域的文獻(xiàn)數(shù)據(jù)，并對(duì)所述文獻(xiàn)數(shù)據(jù)進(jìn)行整理分析，以獲取作者相關(guān)信息；步驟2、根據(jù)所獲取的作者相關(guān)信息抽取作者合作網(wǎng)絡(luò)，并統(tǒng)計(jì)作者相關(guān)的參數(shù)，根據(jù)所統(tǒng)計(jì)的不同相關(guān)參數(shù)獲得不同的作者排名信息；步驟3、對(duì)所抽取的合作網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分，劃分后的社団作為ー個(gè)科研群體；步驟4、向用戶(hù)展示所述不同的作者排名信息和科研群體，井根據(jù)用戶(hù)所選擇的作者排名信息和科研群體為用戶(hù)推薦核心作者和領(lǐng)袖團(tuán)隊(duì)。本發(fā)明還提出了ー種基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及相關(guān)信息抽取系統(tǒng)，其包括數(shù)據(jù)采集和整理裝置用于采用垂直捜索技術(shù)采集指定領(lǐng)域的文獻(xiàn)數(shù)據(jù)，并對(duì)所述文獻(xiàn)數(shù)據(jù)進(jìn)行整理分析，以獲取作者相關(guān)信息；參數(shù)分析統(tǒng)計(jì)裝置根據(jù)所獲取的作者相關(guān)信息抽取作者合作網(wǎng)絡(luò)，并統(tǒng)計(jì)作者相關(guān)的參數(shù)，根據(jù)所統(tǒng)計(jì)的不同相關(guān)參數(shù)獲得不同的作者排名信息；；社團(tuán)劃分裝置對(duì)所抽取的合作網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分，劃分后的社団作為ー個(gè)科研群體；結(jié)果展示裝置向用戶(hù)展示所述不同的作者排名信息和科研群體，井根據(jù)用戶(hù)所選擇的作者排名信息和科研群體為用戶(hù)推薦核心作者和領(lǐng)袖團(tuán)隊(duì)。

圖1是本發(fā)明的應(yīng)用系統(tǒng)原理圖；圖2是本發(fā)明的應(yīng)用系統(tǒng)的簡(jiǎn)單使用流程圖；圖3是本發(fā)明中基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及相關(guān)信息抽取方法的流程圖；圖4是本發(fā)明中數(shù)據(jù)采集子流程圖；圖5是本發(fā)明中數(shù)據(jù)采集配置子流程圖；圖6是本發(fā)明中數(shù)據(jù)分析整理子流程圖；圖7是本發(fā)明實(shí)現(xiàn)的應(yīng)用系統(tǒng)截圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白，以下結(jié)合具體實(shí)施例，并參照附圖，對(duì)本發(fā)明進(jìn)ー步詳細(xì)說(shuō)明。本發(fā)明所提出的基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及相關(guān)信息抽取方法和系統(tǒng)是針對(duì)領(lǐng)域核心專(zhuān)家群體信息檢索而發(fā)明的，應(yīng)用系統(tǒng)原理見(jiàn)附圖1。下面介紹本發(fā)明所使用到的技術(shù)1、采集技術(shù)1.1垂直搜索本方法利用垂直捜索技術(shù)，根據(jù)用戶(hù)關(guān)注的領(lǐng)域、會(huì)議等相關(guān)信息，從CNKI，SpringerLink等常用的文獻(xiàn)檢索引擎上獲取相關(guān)的作者、機(jī)構(gòu)、會(huì)議等元數(shù)據(jù)，自動(dòng)下載并解析文獻(xiàn)全文，獲取文獻(xiàn)作者或機(jī)構(gòu)的詳細(xì)通訊方式。垂直捜索是針對(duì)某ー個(gè)領(lǐng)域的專(zhuān)業(yè)搜索引擎，是搜索引擎的細(xì)分和延伸，是對(duì)網(wǎng)頁(yè)庫(kù)中的某類(lèi)專(zhuān)門(mén)的信息進(jìn)行一次整合，定向分字段抽取出需要的數(shù)據(jù)進(jìn)行處理后再以某種形式返回給用戶(hù)。相對(duì)通用搜索引擎的信息量大、查詢(xún)不準(zhǔn)確、深度不夠等提出來(lái)的新的搜索引擎服務(wù)模式，通過(guò)針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求提供的有一定價(jià)值的信息和相關(guān)服務(wù)。其特點(diǎn)就是“專(zhuān)、精、深”，且具有行業(yè)色彩，相比較通用搜索引擎的海量信息無(wú)序化，垂直搜索引擎則顯得更加專(zhuān)注、具體和深入。垂直搜索最重要的技術(shù)是搜索引擎爬蟲(chóng)。搜索引擎爬蟲(chóng)技術(shù)是ー種按照一定的規(guī)貝U，自動(dòng)的抓取網(wǎng)絡(luò)信息的技木。本系統(tǒng)相關(guān)搜索引擎爬蟲(chóng)的設(shè)計(jì)是以普通爬蟲(chóng)為基礎(chǔ)，并對(duì)其功能進(jìn)行有效擴(kuò)充，主要包括領(lǐng)域相關(guān)初始URL種子集、頁(yè)面抓取模塊、主題相關(guān)性分析模塊，URL查重與頁(yè)面下載等模塊。這種設(shè)計(jì)能夠保證系統(tǒng)良好的主題相關(guān)性，以提高爬取的主題相關(guān)性頁(yè)面命中率，切合用戶(hù)的需求。1. 2網(wǎng)頁(yè)采集本技術(shù)中網(wǎng)頁(yè)采集主要分為深度網(wǎng)采集和動(dòng)態(tài)網(wǎng)采集。深度網(wǎng)的特征是在于其頁(yè)面的隱蔽性，一般需要用戶(hù)提交數(shù)據(jù)請(qǐng)求的表單才能獲得返回的結(jié)果。動(dòng)態(tài)網(wǎng)的頁(yè)面主要特點(diǎn)是“動(dòng)態(tài)存在”，即用戶(hù)在調(diào)用頁(yè)面時(shí)臨時(shí)通過(guò)程序動(dòng)態(tài)生成的頁(yè)面。動(dòng)態(tài)網(wǎng)按照信息項(xiàng)的分布主要分成兩個(gè)類(lèi)型一是多記錄項(xiàng)動(dòng)態(tài)網(wǎng)頁(yè)；另外一個(gè)就是單記錄項(xiàng)動(dòng)態(tài)網(wǎng)頁(yè)，其頁(yè)面抽取的主要難度在于網(wǎng)頁(yè)信息的有效定位以及不同用戶(hù)所定義的不同抽取請(qǐng)求的精確表示。2、分析技術(shù)2.1復(fù)雜網(wǎng)絡(luò)技術(shù)2.1.1基本概念ー個(gè)具體的網(wǎng)絡(luò)可以抽象為由點(diǎn)集V和邊集E組成的圖G，節(jié)點(diǎn)數(shù)記為N =V(G) I，邊數(shù)記為M = E(G) I。E中每條邊都有V中一個(gè)節(jié)點(diǎn)對(duì)與之對(duì)應(yīng)。如果任意點(diǎn)對(duì)
對(duì)應(yīng)于同一條邊，則該網(wǎng)絡(luò)為無(wú)向網(wǎng)絡(luò)，否則為有向網(wǎng)絡(luò)。若網(wǎng)絡(luò)中包含的節(jié)點(diǎn)與邊只有一種類(lèi)型，則稱(chēng)該網(wǎng)絡(luò)是同質(zhì)的，否則該網(wǎng)絡(luò)屬于異質(zhì)網(wǎng)絡(luò)。2.1. 2中介度中心性中介度中心性(betweenness centrality)是基于節(jié)點(diǎn)對(duì)網(wǎng)絡(luò)通信的控制能力來(lái)定義的。它認(rèn)為如果某節(jié)點(diǎn)存在于網(wǎng)絡(luò)中其它節(jié)點(diǎn)對(duì)之間通信的必經(jīng)之路上，則其在網(wǎng)絡(luò)中必定具有重要的地位。2.1. 3聚集系數(shù)聚集系數(shù)(clusteringcoefficient)經(jīng)常被用來(lái)描述網(wǎng)絡(luò)的傳遞性。比如在社交關(guān)系網(wǎng)中，你朋友的朋友很可能也是你的朋友；你的兩個(gè)朋友很可能彼此也是朋友。聚集系數(shù)就是用來(lái)度量網(wǎng)絡(luò)的這種性質(zhì)的。2. 2其他統(tǒng)計(jì)指標(biāo)2. 2. lH-1ndex評(píng)價(jià)科學(xué)家影響カ的ー個(gè)重要的測(cè)度是H-1ndex度量。H_index的取值依據(jù)的是科學(xué)家的文章的數(shù)量以及被引用的次數(shù)。例如，某ー個(gè)學(xué)者有至少h篇文章分別被引用h次，則這個(gè)學(xué)者的H-1ndex取值為h。從上述描述知，某學(xué)者的H-1ndex取值越大，他在其研究領(lǐng)域內(nèi)的影響カ也越大。H-1ndex度量將學(xué)者們發(fā)表的科研成果的數(shù)量的質(zhì)量綜合地納入了考量。2. 2. 2APS值(平均產(chǎn)出得分)APS值定義為對(duì)于ー篇有n個(gè)作者的論文，APS給每個(gè)作者的得分是1/n。ー個(gè)作者的APS就是它所有論文的得分之和。它描述了作者對(duì)其所發(fā)文章的貢獻(xiàn)度。本發(fā)明提出了ー種基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及信息抽取方法，應(yīng)用系統(tǒng)的簡(jiǎn)單使用流程見(jiàn)附圖2，學(xué)術(shù)核心作者挖掘及相關(guān)信息抽取方法的流程見(jiàn)附圖3。具體步驟如下步驟ー數(shù)據(jù)采集與整理。本方法采用垂直捜索技術(shù)進(jìn)行指定會(huì)議的論文文獻(xiàn)數(shù)據(jù)采集。采集流程見(jiàn)附圖4。本步驟包含三個(gè)階段階段1:基本數(shù)據(jù)獲取，具體包括步驟a)確定采集條件，采集條件的確定見(jiàn)附圖5。首先需要確定檢索類(lèi)型，包括三種檢索類(lèi)型期刊、會(huì)議與關(guān)鍵詞。然后根據(jù)不同類(lèi)型確定檢索詞、時(shí)間等檢索條件，如會(huì)議配置條件(會(huì)議相關(guān)的檢索詞等)、文獻(xiàn)檢索來(lái)源和檢索年份等配置條件。接著選取數(shù)據(jù)源，包括國(guó)內(nèi)外不同的數(shù)據(jù)庫(kù)。從而構(gòu)成檢索條件集合。其中，會(huì)議配置條件需要用戶(hù)輸入，其余配置條件由系統(tǒng)自行調(diào)整；步驟b)，根據(jù)采集條件動(dòng)態(tài)配置采集信息，對(duì)確定的每個(gè)數(shù)據(jù)源站點(diǎn)，如CNKI，SpringerLink等分別配置采集信息，如檢索類(lèi)型為期刊，則配置的采集信息為期刊等；步驟c)基本文獻(xiàn)數(shù)據(jù)采集。這里利用垂直捜索技術(shù)，根據(jù)用戶(hù)關(guān)注的領(lǐng)域、會(huì)議等相關(guān)信息，通過(guò)初始URL種子集、頁(yè)面抓取模塊、主題相關(guān)性分析模塊，URL查重與頁(yè)面下載等模塊從CNKI,SpringerLink等常用的文獻(xiàn)檢索引擎上獲取相關(guān)的作者、機(jī)構(gòu)、會(huì)議等元數(shù)據(jù)，自動(dòng)下載并解析文獻(xiàn)全文。階段2 :數(shù)據(jù)整理，具體包括步驟d)進(jìn)行數(shù)據(jù)清洗，主要是將作者姓名規(guī)范化，去除多余字符，例如空格等，對(duì)機(jī)構(gòu)進(jìn)行一定歸并，如ニ級(jí)機(jī)構(gòu)単位由其一級(jí)單位名稱(chēng)替代等；步驟e)指定信息獲取，本發(fā)明中最主要的研究對(duì)象是作者，因此在此步驟中可以獲得簡(jiǎn)單的作者信息，即作者姓名及系統(tǒng)分配的唯一標(biāo)識(shí)ID。階段3 :信息入庫(kù)，具體包括步驟f)將結(jié)果展示給用戶(hù)，由用戶(hù)判斷是否對(duì)結(jié)果滿(mǎn)意，滿(mǎn)意則進(jìn)行步驟g)，否則返回步驟a)重新配置；步驟g)將基本文獻(xiàn)信息和作者信息存入指定數(shù)據(jù)庫(kù)；步驟h)系統(tǒng)判斷是否循環(huán)采集數(shù)據(jù)，是則等待一段時(shí)間之后再次采集，否則結(jié)束采集步驟。步驟ニ參數(shù)統(tǒng)計(jì)分析。數(shù)據(jù)分析整理子流程見(jiàn)附圖6。本方法研究對(duì)象為指定領(lǐng)域相關(guān)核心作者與団體。因此需要對(duì)作者的文獻(xiàn)統(tǒng)計(jì)參數(shù)進(jìn)行分析，通過(guò)對(duì)各項(xiàng)參數(shù)值進(jìn)行綜合排名進(jìn)而識(shí)別出該領(lǐng)域的核心作者。統(tǒng)計(jì)參數(shù)包含作者的發(fā)文量分布和作者APS(平均產(chǎn)出得分)分布，并利用合作者關(guān)系抽取作者的合作網(wǎng)絡(luò)，分析作者在合作網(wǎng)絡(luò)中的節(jié)點(diǎn)中介中心性、度分布、網(wǎng)絡(luò)聚集系數(shù)和H-1ndex度量，其中節(jié)點(diǎn)中介中心性用于衡量ー個(gè)作者能在多大程度上控制他人之間的交往，如果ー個(gè)節(jié)點(diǎn)處于許多其他點(diǎn)對(duì)的最短路徑上，它就具有較高的中介中心度。可以認(rèn)為該作者居于重要位置，度分布表示某個(gè)作者與多少人有過(guò)合作關(guān)系，網(wǎng)絡(luò)聚集系數(shù)指網(wǎng)絡(luò)中節(jié)點(diǎn)的鄰接點(diǎn)也互為鄰接點(diǎn)的比例，即小集群結(jié)構(gòu)的完美程度，用來(lái)衡量此作者在網(wǎng)絡(luò)節(jié)點(diǎn)聚類(lèi)情況的參數(shù)；H-1ndeX度量表示某作者h(yuǎn)篇文章分別被引用h次，則這個(gè)學(xué)者的H-1ndex取值為h，用來(lái)衡量其在研究領(lǐng)域內(nèi)的影響力。將按不同參數(shù)得到的作者排名信息保存，即按照作者的發(fā)文量分布、作者APS(平均產(chǎn)出得分)分布、作者在合作網(wǎng)絡(luò)中的節(jié)點(diǎn)中介中心性、度分布、網(wǎng)絡(luò)聚集系數(shù)和H-1ndex度量等參數(shù)得到不同的作者排名信息。步驟三根據(jù)社團(tuán)劃分算法進(jìn)行群體分析。本方法針對(duì)作者合作網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分，劃分后的每個(gè)社団相當(dāng)于ー個(gè)科研群體。針對(duì)全部科研群體統(tǒng)計(jì)發(fā)文量分布情況。
步驟四作者排名信息及科研群體信息展示。將步驟ニ保存的不同作者排名信息和步驟三找到的科研群體展現(xiàn)給用戶(hù)，井根據(jù)用戶(hù)選擇的作者排名信息和科研群體排名推薦重要作者作為科研領(lǐng)袖，重要群體作為核心團(tuán)隊(duì)。步驟五核心作者信息抽取及展示。用戶(hù)根據(jù)需要，選定主要領(lǐng)域?qū)W者作為核心作者，由系統(tǒng)通過(guò)文獻(xiàn)信息自動(dòng)抽取其個(gè)人資料信息展現(xiàn)給用戶(hù)進(jìn)行相關(guān)業(yè)務(wù)或研究使用。其中，步驟ー的階段I中，文獻(xiàn)采集方式為深度網(wǎng)采集與動(dòng)態(tài)網(wǎng)采集相結(jié)合。深度網(wǎng)采集的工作過(guò)程可分為3步1)分析頁(yè)面，尋找表単；2)學(xué)習(xí)填寫(xiě)表単；3)識(shí)別和取回結(jié)果頁(yè)面。其中，深度網(wǎng)爬蟲(chóng)第一步從站點(diǎn)主頁(yè)開(kāi)始爬行表單頁(yè)面，這個(gè)過(guò)程使用一組啟發(fā)式規(guī)則來(lái)去除非研究表単；第二步從表單中抽取標(biāo)簽，配合領(lǐng)域規(guī)則知識(shí)庫(kù)及網(wǎng)站的特征標(biāo)識(shí)(用戶(hù)名、密碼或驗(yàn)證碼)，爬蟲(chóng)盡力學(xué)習(xí)如何正確地填寫(xiě)表單；最后一歩提交表單，然后取回結(jié)果頁(yè)面識(shí)別記錄。另外，在深度網(wǎng)采集的過(guò)程中，網(wǎng)絡(luò)爬蟲(chóng)需要基于領(lǐng)域知識(shí)庫(kù)，智能化地識(shí)別特定應(yīng)用領(lǐng)域知識(shí)，以保證采集到的信息的相關(guān)性和準(zhǔn)確性。動(dòng)態(tài)網(wǎng)采集過(guò)程中，抽取多記錄項(xiàng)動(dòng)態(tài)網(wǎng)頁(yè)的信息時(shí)，需要運(yùn)用樹(shù)編輯距離模型和樹(shù)歸并模型算法定位和抽取網(wǎng)頁(yè)信息。使用樹(shù)編輯距離準(zhǔn)確定位網(wǎng)頁(yè)的抽取結(jié)構(gòu)，將動(dòng)態(tài)網(wǎng)頁(yè)轉(zhuǎn)換為標(biāo)簽樹(shù)并定位分離網(wǎng)頁(yè)中的數(shù)據(jù)項(xiàng)，為單個(gè)數(shù)據(jù)項(xiàng)生成獨(dú)自的數(shù)據(jù)項(xiàng)樹(shù)；將樹(shù)歸并模型運(yùn)用于多數(shù)據(jù)項(xiàng)的模式抽取上，控制重復(fù)數(shù)據(jù)項(xiàng)和可選數(shù)據(jù)項(xiàng)，生成用于抽取的包裝器樹(shù)，即最終抽取器。在抽取單記錄項(xiàng)動(dòng)態(tài)網(wǎng)頁(yè)的信息時(shí)，用戶(hù)需要通過(guò)可選模塊，自定義抽取的數(shù)據(jù)項(xiàng)，系統(tǒng)將根據(jù)用戶(hù)所選數(shù)據(jù)項(xiàng)生成抽取模板。在抽取過(guò)程中，首先將網(wǎng)頁(yè)轉(zhuǎn)換為標(biāo)簽樹(shù)，通過(guò)用戶(hù)自定義的抽取模板匹配并抽取網(wǎng)頁(yè)信息并保存。階段I的步驟c中，文獻(xiàn)弓I擎來(lái)源主要有CNKI和SpringerLink，采集內(nèi)容包含文獻(xiàn)標(biāo)題，文獻(xiàn)原文，文獻(xiàn)作者，文獻(xiàn)關(guān)鍵詞，作者機(jī)構(gòu)，文獻(xiàn)所在出版物，文獻(xiàn)發(fā)表時(shí)間。步驟ニ中，中介度中心性的表達(dá)式定義為
權(quán)利要求
1.一種基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及相關(guān)信息抽取方法，其包括步驟1、采用垂直搜索技術(shù)采集指定領(lǐng)域的文獻(xiàn)數(shù)據(jù)，并對(duì)所述文獻(xiàn)數(shù)據(jù)進(jìn)行整理分析，以獲取作者相關(guān)信息；步驟2、根據(jù)所獲取的作者相關(guān)信息抽取作者合作網(wǎng)絡(luò)，并統(tǒng)計(jì)作者相關(guān)的參數(shù)，根據(jù)所統(tǒng)計(jì)的不同相關(guān)參數(shù)獲得不同的作者排名信息；步驟3、對(duì)所抽取的合作網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分，劃分后的社團(tuán)作為一個(gè)科研群體；步驟4、向用戶(hù)展示所述不同的作者排名信息和科研群體，并根據(jù)用戶(hù)所選擇的作者排名信息和科研群體為用戶(hù)推薦核心作者和領(lǐng)袖團(tuán)隊(duì)。
2.如權(quán)利要求1所述的方法，其特征在于，步驟I中采集指定領(lǐng)域的文獻(xiàn)數(shù)據(jù)具體包括步驟11、確定采集條件，包括確定檢索類(lèi)型、根據(jù)不同檢索類(lèi)型確定檢索條件；步驟12、根據(jù)采集條件動(dòng)態(tài)配置采集信息；步驟13、根據(jù)采集條件和采集信息獲取文獻(xiàn)數(shù)據(jù)。
3.如權(quán)利要求1所述的方法，其特征在于，步驟I中對(duì)數(shù)據(jù)進(jìn)行整理分析以獲取作者相關(guān)信息具體包括步驟14、進(jìn)行數(shù)據(jù)清洗；步驟15、獲取指定的作者相關(guān)信息。
4.如權(quán)利要求1所述的方法，其特征在于，步驟I還包括將獲取的作者相關(guān)信息展示給用戶(hù)，由用戶(hù)確定是否需要重新采集數(shù)據(jù)，如果需要?jiǎng)t重新配置采集條件，并根據(jù)重新配置的采集條件進(jìn)行采集數(shù)據(jù)。
5.如權(quán)利要求1所述的方法，其特征在于，步驟2中所述相關(guān)參數(shù)包括作者的發(fā)文量分布、作者的平均產(chǎn)出得分、作者在合作網(wǎng)絡(luò)中的節(jié)點(diǎn)中介中心性、度分布、網(wǎng)絡(luò)聚集系數(shù)和H-1ndex 度量。
6.如權(quán)利要求5所述的方法，其特征在于，所述節(jié)點(diǎn)中介中心性根據(jù)下式計(jì)算獲得
7.如權(quán)利要求1所述的方法，其特征在于，步驟3中所述社團(tuán)劃分采用針對(duì)有向網(wǎng)絡(luò)的快速社團(tuán)劃分方法，具體包括步驟31、初始化所述合作網(wǎng)絡(luò)為n個(gè)社團(tuán)，即每個(gè)節(jié)點(diǎn)為一個(gè)獨(dú)立社團(tuán)；步驟32、依次合并有邊相連的社團(tuán)，并計(jì)算合并后的模塊度值；步驟33、重復(fù)執(zhí)行步驟32，直到整個(gè)合作網(wǎng)絡(luò)都合并成一個(gè)社團(tuán)，其中，模塊度值最大時(shí)，合并后對(duì)應(yīng)的社團(tuán)為最終劃分后的社團(tuán)。
8.如權(quán)利要求7所述的方法，其中所述模塊度值根據(jù)下式計(jì)算
9.如權(quán)利要求1所述的方法，其特征在于，該方法還包括步驟5、分析文獻(xiàn)數(shù)據(jù)，抽取核心作者的個(gè)人資料并提供給用戶(hù)。
10.一種基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及相關(guān)信息抽取系統(tǒng)，其包括數(shù)據(jù)采集和整理裝置用于采用垂直搜索技術(shù)采集指定領(lǐng)域的文獻(xiàn)數(shù)據(jù)，并對(duì)所述文獻(xiàn)數(shù)據(jù)進(jìn)行整理分析，以獲取作者相關(guān)信息；參數(shù)分析統(tǒng)計(jì)裝置根據(jù)所獲取的作者相關(guān)信息抽取作者合作網(wǎng)絡(luò)，并統(tǒng)計(jì)作者相關(guān)的參數(shù)，根據(jù)所統(tǒng)計(jì)的不同相關(guān)參數(shù)獲得不同的作者排名信息；社團(tuán)劃分裝置對(duì)所抽取的合作網(wǎng)絡(luò)進(jìn)行社團(tuán)劃分，劃分后的社團(tuán)作為一個(gè)科研群體；結(jié)果展示裝置向用戶(hù)展示所述不同的作者排名信息和科研群體，并根據(jù)用戶(hù)所選擇的作者排名信息和科研群體為用戶(hù)推薦核心作者和領(lǐng)袖團(tuán)隊(duì)。
全文摘要
本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域，針對(duì)挖掘某一學(xué)術(shù)領(lǐng)域核心作者及智能提取其相關(guān)信息的問(wèn)題，本發(fā)明提出了一種基于社會(huì)網(wǎng)絡(luò)分析技術(shù)中的核心節(jié)點(diǎn)發(fā)現(xiàn)算法而改進(jìn)的學(xué)術(shù)核心作者挖掘、信息抽取方法和系統(tǒng)。本方法融合了垂直搜索技術(shù)，社會(huì)網(wǎng)絡(luò)分析技術(shù)和文本分析技術(shù)，能夠在海量信息中找到某一學(xué)術(shù)領(lǐng)域核心作者或群體，進(jìn)而獲取其相關(guān)個(gè)人資料信息。本發(fā)明采用垂直搜索技術(shù)采集開(kāi)源文獻(xiàn)數(shù)據(jù)。利用文獻(xiàn)計(jì)量學(xué)技術(shù)和復(fù)雜網(wǎng)絡(luò)分析技術(shù)分析數(shù)據(jù)中出現(xiàn)的多種社會(huì)實(shí)體的重要性。并利用社團(tuán)發(fā)現(xiàn)算法，基于實(shí)體間關(guān)系的緊密程度進(jìn)行針對(duì)實(shí)體的聚類(lèi)，發(fā)現(xiàn)學(xué)術(shù)團(tuán)體。用戶(hù)根據(jù)實(shí)體重要性排序，找到核心作者或機(jī)構(gòu)，并根據(jù)合作群體的發(fā)文量分布找到領(lǐng)袖團(tuán)隊(duì)。
文檔編號(hào)G06F17/30GK103020302SQ201210592828
公開(kāi)日2013年4月3日申請(qǐng)日期2012年12月31日優(yōu)先權(quán)日2012年12月31日
發(fā)明者陸浩, 王飛躍, 溫婉婷, 甘潤(rùn)生, 孫星愷申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陸浩;王飛躍;溫婉婷;甘潤(rùn)生;孫星愷
技術(shù)所有人：中國(guó)科學(xué)院自動(dòng)化研究所
我是此專(zhuān)利的發(fā)明人

上一篇：保障卡多功能查詢(xún)終端的制作方法
上一篇：一種用于實(shí)現(xiàn)語(yǔ)音輸入的方法與設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于復(fù)雜網(wǎng)絡(luò)的學(xué)術(shù)核心作者挖掘及相關(guān)信息抽取方法和系統(tǒng)的制作方法