本技術(shù)涉及計算機,尤其涉及基于無監(jiān)督偽負標(biāo)簽策略的的學(xué)術(shù)論文評審人推薦方法。
背景技術(shù):
1、學(xué)術(shù)評審人推薦是為各種學(xué)術(shù)文檔材料(如基金申報書、研究論文、技術(shù)報告等)提供合適的同行評議評審人的關(guān)鍵過程。已有的評審人推薦研究通常是基于一個主題相似假設(shè),即:評審人更有可能愿意評審與他們的研究興趣密切相關(guān)的論文。然而,由于潛在的評審偏好,這種假設(shè)可能并不總是成立。例如,評審人做出評審的決定不僅受到與其專業(yè)領(lǐng)域的直接相關(guān)性的影響,還受到諸如出版物的聲譽、該領(lǐng)域的隱含相關(guān)性以及評審人當(dāng)前工作量等因素的影響。并且,為了確保評審過程的客觀性,大多數(shù)同行評議記錄都是保密的,這一政策使得編輯部和資助機構(gòu)之間的信息共享幾乎不可能實現(xiàn)。所以,現(xiàn)有的圖神經(jīng)網(wǎng)絡(luò)模型不能直接適應(yīng)“評審人-論文”固有的圖稀疏性,難以直接用于學(xué)術(shù)評審人推薦。
技術(shù)實現(xiàn)思路
1、本技術(shù)旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
2、為此,本技術(shù)的第一個目的在于提出一種基于無監(jiān)督偽負標(biāo)簽策略的的學(xué)術(shù)論文評審人推薦方法,解決了捕獲全面的上下文信息需要考慮異構(gòu)實體之間的復(fù)雜關(guān)聯(lián)分析的困難,并整合了論文的密集知識信息和評審人之間有限的稀疏行為標(biāo)簽之間的關(guān)聯(lián),從而實現(xiàn)了有效且準(zhǔn)確的學(xué)術(shù)評審人的推薦。
3、本技術(shù)的第二個目的在于提出一種計算機設(shè)備。
4、為達上述目的,本技術(shù)第一方面實施例提出了一種基于無監(jiān)督偽負標(biāo)簽策略的的學(xué)術(shù)論文評審人推薦方法,包括:獲取異構(gòu)的學(xué)術(shù)知識圖譜,其中,學(xué)術(shù)圖譜中的節(jié)點包括評審人節(jié)點和論文節(jié)點,學(xué)術(shù)圖譜中的關(guān)系包括評審關(guān)系;將學(xué)術(shù)知識圖譜分解,得到表示論文和評審人交互行為的二部圖和描述節(jié)點信息的知識圖譜;使用兩階段編碼器分別對二部圖和知識圖譜進行編碼,得到各節(jié)點的第一基本嵌入表示和第二基本嵌入表示,并通過聚合運算分別將每個節(jié)點的第一基本嵌入表示和第二基本嵌入表示融合,得到各節(jié)點的融合嵌入表示;通過圖對比學(xué)習(xí)對各節(jié)點的融合嵌入表示精調(diào),在圖對比學(xué)習(xí)時使用對節(jié)點聚類得到的偽標(biāo)簽提取負樣本,并進行正樣本嵌入表示學(xué)習(xí),得到各節(jié)點的最終嵌入表示;選定待預(yù)測的評審人和論文,通過推薦網(wǎng)絡(luò)基于對應(yīng)的節(jié)點的最終嵌入表示預(yù)測評審發(fā)生概率。
5、本技術(shù)實施例的基于無監(jiān)督偽負標(biāo)簽策略的的學(xué)術(shù)論文評審人推薦方法,采用兩階段編碼器結(jié)構(gòu)來學(xué)習(xí)評審人和論文的全方位嵌入表示。在第一階段,使用一個解耦的gnn對評審人的行為偏好進行編碼,同時使用基于學(xué)術(shù)語料預(yù)訓(xùn)練語言模型捕獲論文的先驗科學(xué)語義知識;在第二階段,通過引入偽負標(biāo)簽策略來解決“評審人-論文”的二部圖的極端稀疏性導(dǎo)致的假陰性問題,以提高圖對比學(xué)習(xí)過程中的負采樣性能。本技術(shù)實施例利用無監(jiān)督偽負標(biāo)簽策略來增強圖對比學(xué)習(xí),更加有效地選取與當(dāng)前節(jié)點語義范圍不一致的節(jié)點,在用于推薦學(xué)術(shù)評審人時提供相對性的表示信息支持。
6、可選地,在本技術(shù)的一個實施例中,學(xué)術(shù)知識圖譜表示為:
7、g=(n,ε)
8、其中,n為不同類型節(jié)點的集合,n={nscholar,nsubmission},nscholar為評審人節(jié)點,nsubmission為論文節(jié)點,ε={ereview},ereview為評審關(guān)系。
9、可選地,在本技術(shù)的一個實施例中,兩階段編碼器包括行為偏好編碼器和知識編碼器,行為偏好編碼器為解耦的圖卷積網(wǎng)絡(luò),知識編碼器為預(yù)訓(xùn)練語言編碼模型oag-bert,通過兩階段編碼器分別對二部圖和知識圖譜進行編碼,得到各節(jié)點的第一基本嵌入表示和第二基本嵌入表示,包括:
10、通過行為偏好編碼器對二部圖進行編碼,得到各節(jié)點的第一基本嵌入表示;
11、通過知識編碼器對二部圖進行編碼,得到各節(jié)點的第二基本嵌入表示;
12、上述方法還包括:
13、在通過行為偏好編碼器、知識編碼器進行編碼時,通過優(yōu)化行為偏好編碼器的損失函數(shù)調(diào)整解耦的圖卷積網(wǎng)絡(luò)中的參數(shù)。
14、可選地,在本技術(shù)的一個實施例中,行為偏好編碼器的編碼過程表示為:
15、
16、其中,節(jié)點u在l層的嵌入表示向量,第l層推導(dǎo)出的節(jié)點表示矩陣為
17、d表示嵌入表征的維度,為歸一化的鄰接矩陣,a為具有自環(huán)的鄰接矩陣,d是與a對應(yīng)的對角度矩陣,wb(l)為解耦的圖卷積網(wǎng)絡(luò)中第l層可學(xué)習(xí)的參數(shù)矩陣;
18、行為偏好編碼器的損失函數(shù)表示為:
19、
20、其中,(u,v)∈εreview表示,yu,v表示在節(jié)點u和v之間觀察到的邊,為待評審論文u到評審人v之間連邊的概率,表示,表示,
21、可選地,在本技術(shù)的一個實施例中,通過聚合運算分別將每個節(jié)點的第一基本嵌入表示和第二基本嵌入表示融合,得到各節(jié)點的融合嵌入表示,表示為:
22、
23、其中,為各節(jié)點的第一基本嵌入表示,為各節(jié)點的第二基本嵌入表示。
24、可選地,在本技術(shù)的一個實施例中,通過圖對比學(xué)習(xí)對各節(jié)點的融合嵌入表示精調(diào),包括:
25、通過第一協(xié)同對比編碼器和第二協(xié)同對比編碼器進行圖對比學(xué)習(xí),實現(xiàn)對各節(jié)點的融合嵌入表示的優(yōu)化,其中,第一協(xié)同對比編碼器通過行為偏好編碼器和知識編碼器分別處理二部圖和知識圖譜的數(shù)據(jù),并將處理得到的嵌入表示融合,得到各節(jié)點的基本嵌入表示,第二協(xié)同對比編碼器利用偽標(biāo)簽提取負樣本,第一協(xié)同對比編碼器和第二協(xié)同編碼器分別學(xué)習(xí)正樣本和負樣本的嵌入表示;
26、上述方法還包括:
27、在通過編碼器進行圖對比學(xué)習(xí)時,選擇與當(dāng)前節(jié)點偽標(biāo)簽不一致的節(jié)點作為負樣本,其中,節(jié)點的偽標(biāo)簽的生成過程包括:通過聚類層對節(jié)點聚類,為每個節(jié)點分配標(biāo)識;
28、上述方法還包括:
29、在通過編碼器進行圖對比學(xué)習(xí)時,通過修改每個節(jié)點上的特征嵌入表示獲取正樣本,并通過圖卷積層在圖上傳播嵌入表示信息;
30、通過聯(lián)合優(yōu)化第一協(xié)同對比編碼器和第二協(xié)同對比編碼器的損失函數(shù)調(diào)整圖卷積層中的參數(shù),并將對比互信息編碼進節(jié)點的嵌入表示中。
31、可選地,在本技術(shù)的一個實施例中,通過聚類層對節(jié)點聚類,為每個節(jié)點分配標(biāo)識,包括:
32、設(shè)定存在c個聚類,對應(yīng)的聚類中心在rd空間被隨機初始化,通過最小化第一協(xié)同對比編碼器的損失函數(shù),為每個節(jié)點分配聚類id作為偽標(biāo)簽;
33、圖卷積層為共享權(quán)重的圖卷積層,表示為:
34、
35、其中,為歸一化的鄰接矩陣,a為具有自環(huán)的鄰接矩陣,d是與a對應(yīng)的對角度矩陣,wc為圖卷積層中的權(quán)重矩陣,h1為所有節(jié)點的嵌入表示矩陣,
36、第一協(xié)同對比編碼器的損失函數(shù)表示為:
37、
38、其中,nschoiar為評審人節(jié)點,nsubmission為論文節(jié)點,pu,i為目標(biāo)分布,qu,i為嵌入表示hu和聚類中心μi之間的相似度,pu,i表示目標(biāo)分布;
39、第二協(xié)同對比編碼器的損失函數(shù)表示為:
40、
41、其中,代表正樣本,表示通過隨機屏蔽給定節(jié)點上的部分特征,wc是圖卷積層中的權(quán)重矩陣,代表負采樣集合,c(u)表示節(jié)點u的聚類id。
42、可選地,在本技術(shù)的一個實施例中,對應(yīng)的節(jié)點的最終嵌入表示包括待預(yù)測的評審人節(jié)點的最終嵌入表示、待預(yù)測的論文節(jié)點的最終嵌入表示以及評審人的歷史評審論文節(jié)點的最終嵌入表示;
43、推薦網(wǎng)絡(luò)為解碼器網(wǎng)絡(luò),通過推薦網(wǎng)絡(luò)基于對應(yīng)的節(jié)點的最終嵌入表示預(yù)測評審發(fā)生概率,包括:
44、計算待預(yù)測的論文節(jié)點的最終嵌入表示和歷史評審論文節(jié)點的最終嵌入表示之間的交互注意力,確定歷史評審論文節(jié)點的注意力權(quán)重;
45、將待預(yù)測的評審人節(jié)點的最終嵌入表示、待預(yù)測的論文節(jié)點的最終嵌入表示以及加權(quán)的歷史評審論文節(jié)點的拼接,并通過多層感知器計算待預(yù)測的評審人和投稿人之間的評審概率。
46、可選地,在本技術(shù)的一個實施例中,計算待預(yù)測的論文節(jié)點的最終嵌入表示和歷史評審論文節(jié)點的最終嵌入表示之間的交互注意力,確定歷史評審論文節(jié)點的注意力權(quán)重,包括:
47、對每個歷史評審論文節(jié)點的最終嵌入表示和待預(yù)測的論文節(jié)點的最終嵌入表示使用外積進行計算,并通過多層感知器進行解碼,得到歷史評審論文節(jié)點的注意力權(quán)重,其中,
48、歷史評審論文節(jié)點的注意力權(quán)重表示為:
49、
50、其中,是偏置矩陣維度(d2,η)、(η,1)的權(quán)重矩陣,η為中間編碼維度的大小,為歷史評審論文節(jié)點的最終嵌入表示,hv為待預(yù)測的論文節(jié)點的最終嵌入表示。
51、可選地,在本技術(shù)的一個實施例中,在學(xué)術(shù)論文評審人推薦方法的訓(xùn)練過程中,采用的損失函數(shù)為bce損失函數(shù),訓(xùn)練對象為論文和評審人之間的連邊概率,在訓(xùn)練時將損失梯度反向傳播到解耦的圖卷積網(wǎng)絡(luò)中的權(quán)重矩陣,在訓(xùn)練時將所有的損失函數(shù)乘以將其調(diào)整到相同數(shù)值水平的系數(shù),得到總損失函數(shù)。
52、本技術(shù)附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本技術(shù)的實踐了解到。