科技文獻異構網(wǎng)絡中節(jié)點的學術影響力協(xié)同排序方法
【專利摘要】本發(fā)明公布了科技文獻異構網(wǎng)絡中節(jié)點(論文、作者、期刊/會議)的學術影響力協(xié)同排序方法,由于科技文獻網(wǎng)絡的異構性,本發(fā)明采用兩個級別的隨機游走計算科技文獻中節(jié)點的學術影響力并排序,分別是在科技文獻異構網(wǎng)絡上的節(jié)點網(wǎng)絡拓撲驅動下的隨機游走和在科技文獻網(wǎng)絡的極小網(wǎng)絡模式上的學術類型驅動下的隨機游走,在科技文獻異構網(wǎng)絡中計算各條邊權重以配置節(jié)點網(wǎng)絡拓撲驅動下的隨機游走,根據(jù)科技文獻異構網(wǎng)絡的最小網(wǎng)絡模式,統(tǒng)計不同領域的各種關系邊的平均邊介數(shù),計算傳播因子并配置節(jié)點學術類型驅動下的隨機游走,此方法不僅克服了異構網(wǎng)絡的異構性帶來的難題以及避免了節(jié)點影響力與入度正相關的現(xiàn)象,從而使得排序結果相對準確。
【專利說明】科技文獻異構網(wǎng)絡中節(jié)點的學術影響力協(xié)同排序方法
【技術領域】
[0001]本發(fā)明提供了一種科技文獻異構網(wǎng)絡中節(jié)點(論文、作者、期刊/會議)的學術影響力協(xié)同排序方法,屬于信息檢索領域。
【背景技術】
[0002]科技文獻網(wǎng)絡通常包含三種不同類型的學術節(jié)點:作者、論文和期刊/會議,不同類型學術節(jié)點之間還具有不同關系的連接邊,比如:作者-論文間撰寫和被撰寫關系、論文-論文間的引用和被引用關系、會議-論文間的發(fā)表和被發(fā)表關系、作者-作者間的合作和引用等關系。
[0003]一般情況下,一個信息網(wǎng)絡可以用一個有向圖G= (V, E)以及節(jié)點類型函數(shù)τ: V —A和連接邊類型函數(shù)Φ:Ε —R加以表征。其中,每個節(jié)點V e V的節(jié)點類型τ (V) e A ;每條邊e e E的邊類型Φ (e) e R。當|A|>1或者|R|>1時,該網(wǎng)絡為異構型信息網(wǎng)絡,否則為同構型信息網(wǎng)絡,因此科技文獻網(wǎng)絡是一種典型異構信息網(wǎng)絡。
[0004]異構信息網(wǎng)絡的節(jié)點影響力排序方法主要分成同構方式和異構方式的方法,同構方式抽取一種類型節(jié)點生成同構網(wǎng)絡,然后計算該類型節(jié)點的影響力并排序;異構方式同時考慮多種類型節(jié)點生成異構網(wǎng)絡,然后計算多種類型節(jié)點的影響力并排序。同樣對科技文獻網(wǎng)絡中的學術節(jié)點的排序方法也存在著兩種方式,目前為止,對科技文獻網(wǎng)絡的現(xiàn)有排序方法包括:
[0005]1.提取科技文獻網(wǎng)絡中一種節(jié)點生成同構網(wǎng)絡,然后應用pagerank算法對該種類型的節(jié)點進行排序。Bol 了 n J, Rodriquez M A等人應用pagerank于期刊-期刊引用網(wǎng)絡中,對期刊進行排序;Ding Y應用pagerank于作者-作者引用網(wǎng)絡中,對作者進行排序;Ma N, Guan J等人應用pagerank于論文-論文引用網(wǎng)絡中,對論文進行排序,這些方法無法利用文獻網(wǎng)絡中的所有語義信息,并只對一種類型的節(jié)點排序。
[0006]2.將科技文獻網(wǎng)絡看成異構網(wǎng)絡,對科技文獻網(wǎng)絡中三種類型的節(jié)點同時進行排序,Deng, Z.H, Lai B Y等人提出PAV模型對三種類型的節(jié)點同時進行排序,此方法中的文獻網(wǎng)絡包括了間接關系作者-作者合作關系,可以由作者-論文的撰寫關系和被撰寫關系復合而成,不足在于其在處理網(wǎng)絡異構性的方法僅僅是對不同類型的邊定義不同的權重,但是此權重在定義時潛意識地是比較同類型邊的之間的關系強弱,并沒有很好處理不同類型邊之間的關系,并且會出現(xiàn)節(jié)點影響力與入度相關的現(xiàn)象,即發(fā)表論文數(shù)量越多的作者和期刊會排的越靠前面。
【發(fā)明內容】
[0007]本發(fā)明針對目前科研文獻網(wǎng)絡排序方法存在的問題,提出了科技文獻異構網(wǎng)絡中節(jié)點(論文、作者、期刊/會議)的學術影響力協(xié)同排序方法。
[0008]本發(fā)明的具體技術方案如下:
[0009]一種科技文獻異構網(wǎng)絡中節(jié)點的學術影響力協(xié)同排序方法,其特征在于:步驟包括如下:
[0010]A.獲取科技文獻異構網(wǎng)絡,抽取出科技文獻異構網(wǎng)絡的極小網(wǎng)絡模式;
[0011]B.在科技文獻異構網(wǎng)絡中計算各條邊權重以配置節(jié)點網(wǎng)絡拓撲驅動下的隨機游走;
[0012]C.根據(jù)科技文獻異構網(wǎng)絡的最小網(wǎng)絡模式,統(tǒng)計不同領域的各種關系邊的平均邊介數(shù),計算傳播因子并配置節(jié)點學術類型驅動下的隨機游走;
[0013]D.結合節(jié)點的網(wǎng)絡拓撲驅動下的隨機游走和學術類型驅動下的隨機游走的兩級隨機游走計算科技文獻異構網(wǎng)絡中的論文、作者、期刊/會議三種不同類型的學術節(jié)點的影響力排序。
[0014]在本發(fā)明一實施例中,步驟A中,文獻網(wǎng)絡的網(wǎng)絡模式中,節(jié)點對應文獻網(wǎng)絡的三種學術對象,分別為作者、論文、期刊/會議、邊代表學術對象之間的關系;學術對象之間可能的關系包括:作者-論文間撰寫和被撰寫關系、論文-論文間的引用和被引用關系、會議-論文間的發(fā)表和被發(fā)表關系、作者-作者間的合作和引用關系;上述關系可以劃分為直接關系和間接關系,直接關系為語義上無法由其它關系復合而成的關系,間接關系為語義上可以由直接關系復合而成的關系;文獻網(wǎng)絡的極小網(wǎng)絡模式是一個極小化網(wǎng)絡元模板,僅保留學術對象間的直接關系,去掉其中的間接關系,包括5種直接關系:作者-論文間撰寫和被撰寫關系、論文間的引用關系、會議-論文間的發(fā)表和被發(fā)表關系。
[0015]在本發(fā)明一實施例中,步驟B中,基于科技文獻異構網(wǎng)絡設計其中學術節(jié)點在網(wǎng)絡拓撲驅動下的隨機游走行為,并配置各權重量化計算,具體計算如下:
C
[0016]I)撰寫關系邊的權重計算公式》=V一.其中cP表示作者a對論文P
2^ip2cP(a) P2-a
I
的貢獻,計算公式為C =! ’ sp,a表示作者a是論文P的第幾作者,P (a)是作
Lu a2eA(P ) ^
者a的所有撰寫的論文集合,A(p)是論文P的作者列表;
I1.—ιηρ氺廣
[0017]2)被撰寫關系邊的權重計算公式:' =[Hinfn P Hinp是論文在引用關系
V/?z'eP(a)
中的入度;
I
[0018]3)引用關系邊的權重計算公式:= Ν--?η{[Λ P) ’其中Num(pl,P)是論文pi在引用關系中的出度;
_ Hinp
[0019]4)被發(fā)表關系邊的權重計算公式u = V // ’其中P (V)是期刊/會議V發(fā)
/ jinpi
VpieP(v\
表的論文列表;
[0020]5)發(fā)表關系邊的權重計算公式:、=N二p)其中Num(v,P)是期刊/會議V在發(fā)表關系中的出度。
[0021]在本發(fā)明一實施例中,步驟C中,基于科技文獻異構網(wǎng)絡的極小網(wǎng)絡模式設計學術節(jié)點的學術類型驅動的隨機游走行為,并配置科技文獻異構網(wǎng)絡的極小網(wǎng)絡模式中五種不同類型邊的傳播因子(PF)量化,PF包括λρρ) λρν) Aap, λ νρ,分別代表撰寫關系、被撰寫關系、引用關系、發(fā)表關系、被發(fā)表關系上的傳播因子,PF的設置方法如下:
[0022]Cl.獲取η個領域的強連通圖,η>3 ;
[0023]C2.統(tǒng)計η個領域強連通圖中被撰寫關系邊、引用關系邊、被發(fā)表關系邊的平均邊介數(shù),并得到相近的λ; λρρ: λρν比值,取η組比值的平均值為這三個傳播因子的比值;
[0024]C3.最后根據(jù)λ pa+ λ ρρ+ λ ρν = I算出二個傳播因子,而Xap= IXvp = I ο
[0025]在本發(fā)明一實施例中,步驟D中,結合節(jié)點的網(wǎng)絡拓撲驅動下的隨機游走和學術類型驅動下的隨機游走的兩級隨機游走計算科技文獻異構網(wǎng)絡中的作者、論文、期刊/會議三種不同類型的學術節(jié)點的影響力排序,按照以下方法實現(xiàn):
[0026]Dl.定義從學術節(jié)點i到學術節(jié)點j的轉移概率為:TPMi j = (1-6')* TPM.reI(i J) + ^ ,其中 TPM 是轉移概率矩陣,TPMi;J 為 TPM 的第
i行第j列的轉移概率,TPMlevel為網(wǎng)絡拓撲驅動下和學術類型驅動下隨機游走行為合成轉移概率,TPMleveiaj0為TPMlevel第i行第j列的轉移概率,計算公式為
2* W
T7DSzT_tvpeijvpe} IiJ
_)= Σ Xnwuhwk *wuk ’ e是全圖隨機跳轉的概率,是i節(jié)點類型到j
e(i^k)eE
節(jié)點類型的傳播因子,是節(jié)點i到節(jié)點j邊的權重,N是整張網(wǎng)絡節(jié)點總個數(shù),計算得到
TPMlevel ;
[0027]D2.設定兩個長度為N的向量Vec_C,Vec_R, Vec_R中的值為文獻網(wǎng)絡中每個節(jié)點的影響力值,Vec_C 初始為[&_]、x、,通Aik—i? = Vec_C * ΓΡΜ,ν,.,., + P [ j]、x、公式計算Vec_R ;
[0028]D3.通過以下兩個公式計算Vec_C和Vec_R
[0029]Vec_C = Vec_R
[0030]Vec R = Vec_C * TPMlnvi +ε*[丄]s,xs,
N
[0031]當I |VeC_R-VeC_C| |彡ξ時繼續(xù)以上兩個公式的計算,否則得到Vec_R,ξ為事先設定的誤差閾值;
[0032]D4.分別對Vec_R中作者、論文、期刊/會議的值進行排序,得到作者、論文、期刊/會議排序結果序列。
[0033]本發(fā)明的有益成果是:本發(fā)明提出了科技文獻異構網(wǎng)絡中節(jié)點(論文、作者、會議)的學術影響力協(xié)同排序方法,建立在包含更豐富的語義信息的異構文獻網(wǎng)絡的基礎上,結合了節(jié)點學術類型驅動下的隨機游走和節(jié)點網(wǎng)絡拓撲驅動下的隨機游走的兩級隨機游走來克服異構網(wǎng)絡的異構性帶來的難題以及避免了節(jié)點影響力與入度正相關的現(xiàn)象,從而具有更好排序結果。
【專利附圖】
【附圖說明】
[0034]圖1是本發(fā)明向科技文獻的論文、作者、期刊會議的協(xié)同排序方法的一個實施例的流程圖
[0035]圖2是異構文獻網(wǎng)絡的網(wǎng)絡模式。
[0036]圖3是異構文獻網(wǎng)絡的一個實例。
【具體實施方式】
[0037]下面通過實例對本發(fā)明做進一步的說明,但是需要注意的是,公布實施例的目的在于幫助進一步理解本發(fā)明,但是本領域的技術人員可以理解:在不脫離本發(fā)明及所附的權利要求的精神和范圍內,各種替換和修改都是可能的。因此,本發(fā)明不應局限于實施例所公開的內容,本發(fā)明要求保護的范圍以權利要求書界定的范圍為準。
[0038]參見圖1,為本發(fā)明科技文獻異構網(wǎng)絡中節(jié)點(論文、作者、期刊/會議)的學術影響力協(xié)同排序方法的一個實施例的流程圖,該方法包括如下步驟:
[0039]A.從網(wǎng)址(http://arnetminer.0rg/DBLP_Citat1n)獲取 DBLP科技文獻,處理文獻數(shù)據(jù),提取科技文獻實體,包括作者(A),論文(P),會議(V)三種實體,此數(shù)據(jù)中的這些實體間存在關系有:作者-論文間撰寫和被撰寫關系、論文間的引用關系、會議-論文間的發(fā)表和被發(fā)表關系、作者間的合作關系,最終生成科技文獻異構網(wǎng)絡。
[0040]科技文獻網(wǎng)絡模式中節(jié)點為作者(A),論文(P),會議(V),邊代表點之間的關系,分別為作者-論文間撰寫和被撰寫關系、論文間的引用關系、會議-論文間的發(fā)表和被發(fā)表關系、作者間的合作關系。由于作者間的合作關系可以由作者-論文間撰寫和被撰寫關系復合而成(簡寫成A-P-A),所以從網(wǎng)絡模式中去除作者間的合作關系,最終抽取的極小的文獻網(wǎng)絡網(wǎng)絡模式如圖2所示,包括3種節(jié)點,分別為作者(A),論文(P),會議(V)和5種關系,分別為作者-論文間撰寫和被撰寫關系、論文間的引用關系、會議-論文間的發(fā)表和被發(fā)表關系??萍嘉墨I網(wǎng)絡的一個例子如圖3所示。
[0041]B.在科技文獻異構網(wǎng)絡中計算各條邊權重以配置節(jié)點網(wǎng)絡拓撲驅動下的隨機游走,這些權重計算公式定義如下:
Cpa
[0042]I)撰寫關系邊的權重計算公式:^其中Cp,a表示作者a對論文P
p2^P\a.)
I
的貢獻,計算公式為= ~' sp,a表示作者a是論文P的第幾作者,P (a)是作
Lu alsAip) C
P.a 2
者a的所有撰寫的論文集合,A(p)是論文P的作者列表。
Hitll, ^
[0043]2)被撰寫關系邊的權重計算公式:'=J; Hinpi Hinp是論文在引用關系中
V/?ieP(a)
的入度。
I
[0044]3)引用關系邊的權重計算公式:wpi,p2 = Nimi(p\ i5),其中Num(p1,P)是論文Pi在引用關系中的出度。
I I
_ιηρ
[0045]4)被發(fā)表關系邊的權重計算公式.U = V //..’其中P (V)是期刊/會議V發(fā)
/ j ιηρι
Vpi^P(v)
表的論文列表
[0046]5)發(fā)表關系邊的權重計算公式:u’v.p = NlJ(v尸)其中Num(v,P)是期刊/會議V
在發(fā)表關系中的出度。
[0047]C.根據(jù)科技文獻異構網(wǎng)絡的最小網(wǎng)絡模式,統(tǒng)計不同領域的各種關系邊的平均邊介數(shù),計算傳播因子并配置節(jié)點學術類型驅動下的隨機游走。PF包括^ pa, λ ρρ, λ ρν, λ ap, λ νρ,分別代表撰與關系、被撰與關系、引用關系、發(fā)表關系、被發(fā)表關系上的傳播因子,PF的設置方法如下:
[0048]Cl.首先得到如下5個領域的強連通圖:1.數(shù)據(jù)庫/數(shù)據(jù)挖掘/信息檢索領域強連通圖2.人工智能/模式識別領域強連通圖,3.網(wǎng)絡信息安全領域強連通圖,4.計算機圖形和多媒體領域強連通圖,5.模型軟件/軟件工程/程序設計語言領域連通圖;得到某個領域強連通圖的方法是:首先選取該領域的大多數(shù)期刊會議,以這些期刊會議為節(jié)點種子,得到這些期刊會議發(fā)表的論文,和這些論文的作者,然后再添加這些節(jié)點之間的邊。
[0049]C2.然后統(tǒng)計這5個領域強連通圖中被撰寫關系邊、引用關系邊、被發(fā)表關系邊的平均邊介數(shù),并得到相近的λ; λρρ: λρν比值,取5組比值的平均值為這三個傳播因子的比值;
[0050]C3.最后根據(jù)入pa+入ρρ+入ρν = I算出二個傳播因子結果為[Xpa,Xpp, Xpv]=[0.181,0.178,0.641],而 Xap = 1λνρ = I。
[0051]此實施例的傳播因子的結果如表I所示,表I是本發(fā)明實施例的五個領域邊介數(shù)比值。
[0052]
強連通圖名稱I邊介數(shù)比值(λ ηη:人ηη: P'
數(shù)據(jù)庫&數(shù)據(jù)挖掘&信息檢索_1:0.90:3.69_
人工智能&模式識別_1:1.18:3.75_
網(wǎng)絡信息安全_1:0.96:3.17
計算機圖形&多媒體_ 1:0.97:3.41
系統(tǒng)軟件&軟件工程&程序設計語言11:0.93:3.71
[0053]表I
[0054]D.結合節(jié)點學術類型驅動下的隨機游走和節(jié)點網(wǎng)絡拓撲驅動下的隨機游走的兩級隨機游走計算文獻網(wǎng)絡中的作者、文獻、期刊/會議三種類型的學術節(jié)點的影響力并進行排序,排序實現(xiàn)方法流程如下:
[0055]Dl.定義從i到j的轉移概率為:TPMi j = TPMlevehin +專,其中TPM是轉移概率矩陣,TPMi; j為TPM的第i行第j列的轉移概率,TPMlevel為節(jié)點網(wǎng)絡拓撲驅動下的隨機游走和節(jié)點學術類型驅動下的隨機游走合成轉移概率,計算公式為
TPM— \'pei,typej ^1.j
—-Σ “H,,/ ε是全圖隨機跳轉的概率,xtypei,tmj是i節(jié)點類型到j
e(i,k)GE
節(jié)點類型的傳播因子,是節(jié)點i到節(jié)點j邊的權重,N是整張網(wǎng)絡節(jié)點總個數(shù),計算得到
TPMlevel。
[0056]D2.設定兩個長度為N的向量Vec_C,Vec_R, Vec_R中的值為文獻網(wǎng)絡中每個節(jié)點的影響力值,Vec_C初始為[j]w、,通過Re —= k —C * TPMlnvl _f 麟公式計算Vec_R。
[0057]D3.通過以下兩個公式計算Vec_C和Vec_R
[0058]Vec_C = Vec_R
[0059]Vec_R = Vec_C * TPMhri,, + f*[—]VxV
N
[0060]當I I Vec_R-Vec_CI |彡ξ時繼續(xù)以上兩個公式的計算,否則得到Vec_R。
[0061]D4.分別對Vec_R中作者、論文、期刊/會議的值進行排序,得到作者、論文、期刊/會議排序結果序列。
[0062]上述實例的數(shù)據(jù)領域的排在前五的作者如表2所示,表2是本發(fā)明實施例的數(shù)據(jù)領域作者排序示例??梢钥闯雠旁谇懊娴淖髡叨际菙?shù)據(jù)領域方面的權威作者。
[0063]
Author
Rakesh Agrawal
Hector Garcia—Molina
Η.V.Jagadish
Jiawei Han
Surajit Chaudhuri
[0064]表2
[0065]上述實例的數(shù)據(jù)領域的論文排序結果如表3所示,表3是本發(fā)明實施例的數(shù)據(jù)領域論文排序示例。大部分數(shù)據(jù)領域高質量的高引用論文被排在前面,并且可以挖掘出低引用高質量的論文,如 B Sarwar 發(fā)表在 www 上的 ‘Item-based collaborative filtering’。
[0066]
論文題目被引次數(shù)第一作者論文的會議
The R^-Tree: An Efficient and Robust...365N Beckmann ACM SiGMQD Record
BIRCH: An Efficient Data Clustering...169T ZhangSi GMOD
Fast Algorithms for Mining Associat1n,..493R AgrawalVLDB
Mining Associat1n Ra 了 s between Sets… 405RAgrawalSiGMOD
A language Modeling Approach...185JM PonteSlGiR
Scatter/Gather: A Cluster-based...88DR Cutting SiGlR
[0067]
Improved Algorithms for Topic...84K BharatSIGiR
Imp T meriting data cubes efficiently165V Harinarayan SIGMOD
Item-based collaborative filtering...D3B SarwarWWW
Data Cube: A ReJatianal Aggregat1n...123J GraySpringer Data Mining and
Know J dge Discovery
[0068]表 3
[0069]上述實例的數(shù)據(jù)領域的會議排序結果如表4所示,表4是本發(fā)明實施例的數(shù)據(jù)領域會議排序示例??梢钥闯霰景l(fā)明的科技文獻異構網(wǎng)絡中節(jié)點(論文、作者、會議)的學術影響力協(xié)同排序方法在此實施例對數(shù)據(jù)領域會議的排序結果與現(xiàn)有排序系統(tǒng),微軟學術(MAS)XSRankXiteSeer排序基本是一致的,說明本發(fā)明的方法是可行的,并且克服了影響力與入度相關的現(xiàn)象,在異構文獻網(wǎng)絡中,作者的入度為作者撰寫的論文數(shù)量vpum,由表4很容易看到本發(fā)明的方法得到的數(shù)據(jù)領域的會議的排序與入度并不成正相關。
[0070]
會議 |CSRank [CiteSeer (2007) I MAS lVpnum
SIGM0D~ rank I 0.122 396
VLDB 一rankl 0.1I 153
PODS —rankl 0.124 95
ICDE — rankl 0.063 668
CIKM — rankl 0.057 714
DEXA — rank2 0.0118 269
SSDBtT" rank2 Null19 128
ICDT —rankl 0.0711 57
DASFAA~ rank2 0.0528 260
WAIM !others |nu!1丨75 丨96
[0071]表4
[0072]以上所述僅為本發(fā)明的較佳實施例,凡依本發(fā)明申請專利范圍所做的均等變化與修飾,皆應屬本發(fā)明的涵蓋范圍。
【權利要求】
1.一種科技文獻異構網(wǎng)絡中節(jié)點的學術影響力協(xié)同排序方法,其特征在于:步驟包括如下: A.獲取科技文獻異構網(wǎng)絡,抽取出科技文獻異構網(wǎng)絡的極小網(wǎng)絡模式; B.在科技文獻異構網(wǎng)絡中計算各條邊權重以配置節(jié)點網(wǎng)絡拓撲驅動下的隨機游走; C.根據(jù)科技文獻異構網(wǎng)絡的最小網(wǎng)絡模式,統(tǒng)計不同領域的各種關系邊的平均邊介數(shù),計算傳播因子并配置節(jié)點學術類型驅動下的隨機游走; D.結合節(jié)點的網(wǎng)絡拓撲驅動下的隨機游走和學術類型驅動下的隨機游走的兩級隨機游走計算科技文獻異構網(wǎng)絡中的論文、作者、期刊/會議三種不同類型的學術節(jié)點的影響力排序。
2.根據(jù)權利要求1所述的科技文獻異構網(wǎng)絡中節(jié)點的學術影響力協(xié)同排序方法,其特征在于:步驟A中,文獻網(wǎng)絡的網(wǎng)絡模式中,節(jié)點對應文獻網(wǎng)絡的三種學術對象,分別為作者、論文、期刊/會議、邊代表學術對象之間的關系;學術對象之間可能的關系包括:作者-論文間撰寫和被撰寫關系、論文-論文間的引用和被引用關系、會議-論文間的發(fā)表和被發(fā)表關系、作者-作者間的合作和引用關系;上述關系可以劃分為直接關系和間接關系,直接關系為語義上無法由其它關系復合而成的關系,間接關系為語義上可以由直接關系復合而成的關系;文獻網(wǎng)絡的極小網(wǎng)絡模式是一個極小化網(wǎng)絡元模板,僅保留學術對象間的直接關系,去掉其中的間接關系,包括5種直接關系:作者-論文間撰寫和被撰寫關系、論文間的引用關系、會議-論文間的發(fā)表和被發(fā)表關系。
3.根據(jù)權利要求1所述的科技文獻異構網(wǎng)絡中節(jié)點的學術影響力協(xié)同排序方法,其特征在于:步驟B中,基于科技文獻異構網(wǎng)絡設計其中學術節(jié)點在網(wǎng)絡拓撲驅動下的隨機游走行為,并配置各權重量化計算,具體計算如下:
?.1)撰寫關系邊的權重計算公式:'P= Y-^其中Cp,a表示作者a對論文P的
Δ^ρ2^Ρ{?) P2,a
I貢獻,計算公式為^7!^ = —-—~i一 sp,a表示作者a是論文P的第幾作者,P (a)是作者
Lu a2ed(P I O
° p.a2a的所有撰寫的論文集合,A(p)是論文P的作者列表;
II
…— mP 2)被撰寫關系邊的權重計算公式—[Hmpi Hinp是論文在引用關系中的
ypi^P(a)入度; 3)引用關系邊的權重計算公式:仏,p2= N,milp\ p),其中Num(pl, P)是論文pi在引用關系中的出度; 4)被發(fā)表關系邊的權重計算公式:?=VII ’其中P(V)是期刊/會議V發(fā)表
/ jιηρι的論文列表; 5)發(fā)表關系邊的權重計算公式> =NlJ(v尸)其中Num(v,P)是期刊1會議V在發(fā)表關系中的出度。
4.根據(jù)權利要求1所述的科技文獻異構網(wǎng)絡中節(jié)點的學術影響力協(xié)同排序方法,其特征在于:步驟C中,基于科技文獻異構網(wǎng)絡的極小網(wǎng)絡模式設計學術節(jié)點的學術類型驅動的隨機游走行為,并配置科技文獻異構網(wǎng)絡的極小網(wǎng)絡模式中五種不同類型邊的傳播因子(PF)量化,PF包括λρρ) λρν) Aap, Xvp,分別代表撰寫關系、被撰寫關系、引用關系、發(fā)表關系、被發(fā)表關系上的傳播因子,PF的設置方法如下: Cl.獲取η個領域的強連通圖,η>3; C2.統(tǒng)計η個領域強連通圖中被撰寫關系邊、引用關系邊、被發(fā)表關系邊的平均邊介數(shù),并得到相近的Apa: λρρ: λρν比值,取η組比值的平均值為這三個傳播因子的比值; C3.最后根據(jù)λ pa+ λ ρρ+ λ ρν = I算出二個傳播因子,而Xfip=IXvp= I。
5.根據(jù)權利要求1所述的科技文獻異構網(wǎng)絡中節(jié)點的學術影響力協(xié)同排序方法,其特征在于:步驟D中,結合節(jié)點的網(wǎng)絡拓撲驅動下的隨機游走和學術類型驅動下的隨機游走的兩級隨機游走計算科技文獻異構網(wǎng)絡中的作者、論文、期刊/會議三種不同類型的學術節(jié)點的影響力排序,按照以下方法實現(xiàn): Dl.定義從學術節(jié)點i到學術節(jié)點j的轉移概率為:TPMu - (1-£)*TPMleivlii n ,其中TPM是轉移概率矩陣,TPMy為TPM的第i行第j列的轉移概率,TPMlevel為網(wǎng)絡拓撲驅動下和學術類型驅動下隨機游走行為合成轉移概率,TPMleveiaj0為TPMlevel第i行第j列的轉
2傘 ?Λ;
rTOHzf_ [ypei,lypeJ Uj移概率,計算公式為7 —^£是全圖隨機跳轉的概率,是i節(jié)點類型到j節(jié)點類型的傳播因子,Wiij是節(jié)點i到節(jié)點j邊的權重,N是整張網(wǎng)絡節(jié)點總個數(shù),計算得到TPMlevel ; D2.設定兩個長度為N的向量Vec_C,Vec_R, Vec_R中的值為文獻網(wǎng)絡中每個節(jié)點的影響力值,Vec_C 初始為[+]、x、,通過仏_/? = Fee: —C *+ 6'*[^]NxN 公式計算 Vec_R; D3.通過以下兩個公式計算Vec—C和Vec—R Vec_C = Vec—R
Vec_R = Vec_ C * TPM:evel+
N 當I |VeC_R-VeC_C| I彡ξ時繼續(xù)以上兩個公式的計算,否則得到Vec_R,ξ為事先設定誤差閾值; D4.分別對Vec_R中作者、論文、期刊/會議的值進行排序,得到作者、論文、期刊/會議排序結果序列。
【文檔編號】G06F17/30GK104133843SQ201410292725
【公開日】2014年11月5日 申請日期:2014年6月25日 優(yōu)先權日:2014年6月25日
【發(fā)明者】余春艷, 吳志強, 葉東毅, 何振峰 申請人:福州大學