一種跨社交網(wǎng)絡(luò)的科研人員評(píng)價(jià)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種人員的評(píng)價(jià)方法,具體來(lái)講是一種跨社交網(wǎng)絡(luò)的科研人員評(píng)價(jià)方 法。
【背景技術(shù)】
[0002] 現(xiàn)有的科研人員評(píng)價(jià)體系主要是通過同行評(píng)議、H指數(shù)、以及期刊影響因子等進(jìn) 行,同行無(wú)法正確評(píng)判某位科研人員的科研貢獻(xiàn)。H指數(shù)僅通過文章的被引用數(shù)量計(jì)算,并 沒有說(shuō)明施引文獻(xiàn)對(duì)該文章的具體引用原因,是褒是貶無(wú)從得知,且統(tǒng)計(jì)時(shí)間較長(zhǎng)。期刊影 響因子是通過上一年度某一期刊所有文章的平均引用情況統(tǒng)計(jì),也是需要較長(zhǎng)時(shí)間才能發(fā) 布。上述方法均無(wú)法快速實(shí)時(shí)、準(zhǔn)確無(wú)誤的提供科研人員的實(shí)際科研能力。
[0003] 部分科研社交網(wǎng)站中,通過整合科研人員在本網(wǎng)站中的社交網(wǎng)絡(luò)信息,通過用 戶影響力分析方法,計(jì)算科研人員在本網(wǎng)站的學(xué)術(shù)影響力。如ResearchGate. net中的 RG Score值,是通過用戶在ResearchGate. net中提交的文章、講稿等學(xué)術(shù)貢獻(xiàn),以及在 ResearchGate. net中參與科研討論的活躍情況、同行在線評(píng)議情況和粉絲情況等進(jìn)行綜合 計(jì)算。RG Score可以通過本站信息快速構(gòu)建科研人員的學(xué)術(shù)聲譽(yù),具有較好的實(shí)時(shí)性和一 定的權(quán)威性。該技術(shù)中,僅考慮了某一用戶在單一社交網(wǎng)絡(luò)中的相關(guān)信息,而現(xiàn)實(shí)生活中, 大部分科研人員不僅在研究社交網(wǎng)絡(luò)中比較活躍,而且也經(jīng)常在其他社交網(wǎng)絡(luò)中參與、發(fā) 布與科研相關(guān)的信息。本發(fā)明通過跨社交網(wǎng)絡(luò)數(shù)據(jù)分析手段,將同一科研人員信息分析整 合,通過特定算法,分析科研人員在不同社交網(wǎng)絡(luò)中的相關(guān)數(shù)據(jù),計(jì)算其在社交網(wǎng)絡(luò)中的整 體影響力。
[0004] 另一種方式是僅通過科研人員的發(fā)表文章數(shù)量、H指數(shù)、G指數(shù)等信息進(jìn)行分別統(tǒng) 計(jì),并可通過相關(guān)指數(shù)進(jìn)行排名。如國(guó)內(nèi)的Aminer. org等科研人員開放平臺(tái),就是通過搜 索科研人員的在線信息,統(tǒng)計(jì)其科研信息,如H指數(shù)、文章數(shù)量等信息,生成科研信息雷達(dá) 圖。是評(píng)價(jià)和查找高水平科研人員先進(jìn)系統(tǒng)的代表。該技術(shù)的缺點(diǎn)是沒有充分整合科研 人員信息,而是分別計(jì)算,分別排名,沒有通過統(tǒng)一的指數(shù)信息來(lái)進(jìn)行科研人員學(xué)術(shù)水平排 名。
[0005] 經(jīng)過檢索發(fā)現(xiàn),現(xiàn)有技術(shù)中并沒有發(fā)現(xiàn)有人對(duì)跨平臺(tái)科研人員評(píng)價(jià)進(jìn)行過研究。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目標(biāo)為針對(duì)現(xiàn)有科研人員評(píng)價(jià)體系中存在的不足,提供一種具有高準(zhǔn)確 率、高時(shí)效性的科研人員評(píng)價(jià)方法,該方法能夠?qū)⑼挥脩粼诓煌缃痪W(wǎng)絡(luò)中科研人員的 具體屬性結(jié)合到科研領(lǐng)域的相關(guān)參數(shù)中,使用大數(shù)據(jù)分析方法處理海量社交網(wǎng)絡(luò)數(shù)據(jù),進(jìn) 而形成基于社交網(wǎng)絡(luò)的科研人員學(xué)術(shù)聲望的多元化評(píng)價(jià)體系。
[0007] 本發(fā)明提供的技術(shù)方案為:一種跨社交網(wǎng)絡(luò)的科研人員評(píng)價(jià)方法,按照如下步驟 進(jìn)行:
[0008] 步驟一,數(shù)據(jù)采集,系統(tǒng)通過網(wǎng)絡(luò)爬蟲自動(dòng)收集目標(biāo)網(wǎng)絡(luò)中的目標(biāo)數(shù)據(jù),所述目標(biāo) 數(shù)據(jù)按照用戶為基本單元存儲(chǔ)備用;
[0009] 步驟二,用戶識(shí)別,系統(tǒng)對(duì)步驟一中獲得的目標(biāo)數(shù)據(jù)進(jìn)行處理,根據(jù)用戶信息特征 對(duì)相同用戶進(jìn)行合并,對(duì)相同用戶名下的其他數(shù)據(jù)匯總后存儲(chǔ)備用;
[0010] 步驟三,數(shù)據(jù)歸并,系統(tǒng)對(duì)步驟二中單個(gè)用戶名下的數(shù)據(jù)分類,對(duì)同類數(shù)據(jù)進(jìn)行對(duì) 比并剔除重合信息;
[0011] 步驟四,分析計(jì)算,系統(tǒng)對(duì)用戶名下整理好的數(shù)據(jù)按照如下分析計(jì)算模型得出用 戶的學(xué)術(shù)聲譽(yù)值:SA (i) = aS (i)+bA (i),其中S為社交網(wǎng)絡(luò)參數(shù)計(jì)算模型,A為學(xué)術(shù)領(lǐng)域參 數(shù)計(jì)算模型,其中a與b為常數(shù)。
[0012] 該方法以同一用戶在不同社交網(wǎng)絡(luò)中的海量數(shù)據(jù)為依據(jù),結(jié)合用戶的科研領(lǐng)域參 數(shù),如科研人員的H指數(shù),其發(fā)表論文的他引數(shù)量、影響因子總和,以及項(xiàng)目經(jīng)費(fèi),獲獎(jiǎng)級(jí) 另IJ,成果轉(zhuǎn)化等數(shù)據(jù),并整合用戶的各類科研貢獻(xiàn)在不同社交網(wǎng)絡(luò)中的傳播情況,如文章的 引用數(shù)、轉(zhuǎn)發(fā)數(shù)、好評(píng)數(shù),以及用戶的粉絲數(shù)量與粉絲級(jí)別等多元化數(shù)據(jù),對(duì)科研用戶進(jìn)行 綜合的科研聲譽(yù)分析,建立一種多元化的科研人員學(xué)術(shù)聲譽(yù)評(píng)價(jià)體系,為現(xiàn)有的科研評(píng)價(jià) 體系建立一種新的參考指標(biāo),還能夠?yàn)榭蒲泄芾砣藛T提供一套可靠的評(píng)判依據(jù)。
[0013] 本發(fā)明進(jìn)一步限定的技術(shù)方案為:
[0014] 進(jìn)一步的,步驟一中,目標(biāo)網(wǎng)絡(luò)為國(guó)內(nèi)外各大社交、學(xué)術(shù)網(wǎng)絡(luò),目標(biāo)數(shù)據(jù)包括:用戶 的個(gè)人信息、該用戶的學(xué)術(shù)信息和該用戶與其他用戶之間的互動(dòng)信息。
[0015] 進(jìn)一步的,步驟二中,系統(tǒng)主要通過如下條件對(duì)用戶進(jìn)行比對(duì)、合并:(I)Email或 手機(jī)信息,(2)用戶名信息,(3)工作經(jīng)歷和學(xué)習(xí)經(jīng)歷,(4)擁有至少一個(gè)相同好友信息,在 上述4個(gè)條件中,只要同時(shí)滿足2個(gè)條件,系統(tǒng)認(rèn)定兩個(gè)社交網(wǎng)絡(luò)中的用戶為同一用戶。
[0016] 進(jìn)一步的,步驟三中,數(shù)據(jù)分類采用大數(shù)據(jù)處理方法,對(duì)名稱相同的一類數(shù)據(jù)根據(jù) 其特性進(jìn)行分布式計(jì)算。
[0017] 進(jìn)一步的,步驟四中,計(jì)算過程如下:
[0018] (1)根據(jù)PageRank公式建立社交網(wǎng)絡(luò)參數(shù)計(jì)算模型;
[0021] R表示要計(jì)算的科研用戶粉絲關(guān)注情況值,B為該用戶的關(guān)注數(shù)和粉絲數(shù)總和, N(j)表示關(guān)注數(shù),c為常數(shù);
[0023]
[0024] T(i)表示某用戶的用戶評(píng)論情況值,G(j)表示好評(píng)用戶數(shù),N(j)表示差評(píng)用戶 數(shù),B (i)表示所有用戶評(píng)論數(shù);
[0025] 根據(jù)上述計(jì)算得出的R和T確定社交網(wǎng)絡(luò)影響參數(shù)S :
[0026] (2)學(xué)術(shù)領(lǐng)域參數(shù)計(jì)算模型
[0028] 式中U(j)表示合作用戶的影響力值,L(j)表示該用戶在文章中的署名位置,例 如:第一作者j = 1,第二作者j = 2,以此類推……;
[0030] Ab⑴為用戶學(xué)術(shù)影口向參數(shù)值,H⑴為H-指數(shù),I⑴表示影口向因子總和,P⑴表 示作者所發(fā)文章數(shù)量;
[0031] 該模型將合作者影響力參數(shù)引入到研究人員影響力值中,確定公式為:
[0032] (3)定義科研社交網(wǎng)絡(luò)中多元化用戶影響力模型SA,公式為:
[0033] SA (i) = aS(i)+bA(i),
[0034] SA表示科研社交網(wǎng)絡(luò)中用戶影響力值,S表示用戶社交網(wǎng)絡(luò)影響參數(shù)值,A表示學(xué) 術(shù)影響從參數(shù)值,a與b表示兩類影響因子權(quán)值。
[0035] 進(jìn)一步的,步驟三中,大數(shù)據(jù)處理采用Spark平臺(tái)處理;所述類別主要為:H指數(shù)、 文章數(shù)、文章引用數(shù)。
[0036] 進(jìn)一步的,步驟二中,如果兩位用戶僅同時(shí)滿足條件(3)和條件(4)但不滿足條件 (1)和/或條件(2),則進(jìn)行二次比對(duì)如下:查找同屬于兩個(gè)用戶的學(xué)術(shù)論文,如果無(wú)法找 到,則認(rèn)為這兩個(gè)用戶不是相同用戶。如果能夠找到,進(jìn)行后續(xù)比對(duì);如果兩個(gè)用戶在文章 中的署名相同,則認(rèn)為其為相同用戶,反之則認(rèn)為其為不同用戶。
[0037] 一種跨社交網(wǎng)絡(luò)的科研人員評(píng)價(jià)系統(tǒng),包括:
[0038] 數(shù)據(jù)采集單元,用于收集目標(biāo)網(wǎng)絡(luò)中的目標(biāo)數(shù)據(jù);
[0039] 用戶數(shù)據(jù)識(shí)別單元,用于對(duì)數(shù)據(jù)采集單元獲得的用戶信息特征進(jìn)行重復(fù)用戶合 并,對(duì)相同用戶名下的其他數(shù)據(jù)匯總后存儲(chǔ)備用;
[0040] 數(shù)據(jù)歸并單元,用于對(duì)用戶數(shù)據(jù)識(shí)別單元處理好的單個(gè)用戶名下的數(shù)據(jù)做精細(xì)化 分類,對(duì)同類數(shù)據(jù)進(jìn)行對(duì)比并剔除重合信息;
[0041] 分析計(jì)算單元,用于對(duì)數(shù)據(jù)歸并單元整理好的單個(gè)用戶名下的數(shù)據(jù)按照如下分析 計(jì)算模型得出用戶的學(xué)術(shù)聲譽(yù)值:SA (i) = aS (i)+bA (i),其中S為通過社交網(wǎng)絡(luò)參數(shù)計(jì)算 模型,A為學(xué)術(shù)領(lǐng)域參數(shù)計(jì)算模型,其中a與b為常數(shù)。
[0042] 本發(fā)明的有益效果為:該方法以同一用戶在不同社交網(wǎng)絡(luò)中的海量數(shù)據(jù)為依據(jù), 結(jié)合用戶的科研領(lǐng)域參數(shù),如科研人員的H指數(shù),其發(fā)表論文的他引數(shù)量、影響因子總和, 以及項(xiàng)目經(jīng)費(fèi),獲獎(jiǎng)級(jí)別,成果轉(zhuǎn)化等數(shù)據(jù),并整合用戶的各類科研貢獻(xiàn)在不同社交網(wǎng)絡(luò)中 的傳播情況,如文章的引用數(shù)、轉(zhuǎn)發(fā)數(shù)、好評(píng)數(shù),以及用戶的粉絲數(shù)量與粉絲級(jí)別等多元化 數(shù)據(jù),對(duì)科研用戶進(jìn)行綜合的科研聲譽(yù)分析,建立一種多元化的科研人員學(xué)術(shù)聲譽(yù)評(píng)價(jià)體 系,為現(xiàn)有的科研評(píng)價(jià)體系建立一種新的參考指標(biāo),為科研管理人員提供一套可靠的評(píng)判 依據(jù)。
【附圖說(shuō)明】:
[0043] 圖1為跨社交網(wǎng)絡(luò)科研人員評(píng)價(jià)方法流程圖。
【具體實(shí)施方式】
[0044] 下面結(jié)合附圖和實(shí)施例詳細(xì)說(shuō)明本發(fā)明的技術(shù)方案:
[0045] 一種跨社交網(wǎng)絡(luò)的科研人員評(píng)價(jià)方法,具體步驟如下:
[0046] 1、數(shù)據(jù)采集:通過抓取國(guó)內(nèi)外各大社交網(wǎng)絡(luò)數(shù)據(jù)和學(xué)術(shù)社交網(wǎng)絡(luò)數(shù)據(jù),包括用戶 社交網(wǎng)絡(luò)屬性和學(xué)術(shù)領(lǐng)域?qū)傩?,以及用戶關(guān)系等。社交網(wǎng)絡(luò)屬性有:(1)該用戶的關(guān)注與被 關(guān)注狀況,如關(guān)注了多少人,被多少人關(guān)注,有多少人之間是相互關(guān)注的,而關(guān)注該用戶的 其他人的科研水平等;(2)用戶在社交網(wǎng)絡(luò)發(fā)布的文章、項(xiàng)目、獲獎(jiǎng)等科研成果的數(shù)量和級(jí) 另IJ,以及受到多少其他用戶的好評(píng)、差評(píng)、轉(zhuǎn)發(fā)等操作。學(xué)術(shù)領(lǐng)域?qū)傩杂校海?)該作者的文章 數(shù)、H指數(shù)、總影響因子等參數(shù);(2)共同完成學(xué)術(shù)論文、項(xiàng)目等科研合作者的情況,如共同 完成論文時(shí)的署名情況,是否是責(zé)任作者等,以及該合作者的科研水平等。
[0047] 其具體實(shí)施如下:
[0048] 抓取平臺(tái):使用Python開源爬蟲框架Scrapy作為數(shù)據(jù)獲取平臺(tái);
[0049] 抓取步驟:
[0050] 1)首先定義需要抓取的頁(yè)面URL以及需要獲取的字段;
[0051] 2)分析這些字段在URL頁(yè)面中的具體定位,使用記錄該字段所在的xpath信息;
[0052] 3)啟動(dòng)scrapy,將所要item取回,并存放到j(luò)son文件或者M(jìn)ongoDB數(shù)據(jù)庫(kù)中。
[0053] 讀取數(shù)據(jù)庫(kù)或Json文件進(jìn)行后續(xù)分析。
[0054] 2、用戶識(shí)別:根據(jù)用戶在不同社交網(wǎng)絡(luò)中的屬性,識(shí)別相同用戶??缟缃痪W(wǎng)絡(luò)的科 研人員同名識(shí)別較為困難,本發(fā)明涉及一種跨平臺(tái)用戶識(shí)別方法。主要通過如下條件:(1) Email或手機(jī)信息,用戶登錄社交網(wǎng)絡(luò)時(shí),大多會(huì)綁定相同Email或者手機(jī)號(hào)碼;(2)用戶名 信息,大部分用戶在不同網(wǎng)絡(luò)中喜歡使用相同用戶名;(3)附屬信息,如果用戶名和Email 均不相同,則可通過工作經(jīng)歷和學(xué)習(xí)經(jīng)歷等信息進(jìn)行匹配;(4)好友信息,同一用戶,在不 同社交網(wǎng)絡(luò)中,可能會(huì)擁有相同的好友。
[0055] 對(duì)于一些特殊情況,例如,在上述4個(gè)條件中,如果a,b兩位用戶僅同時(shí)滿足(3) 和(4)但不滿足(1)和者(2)兩條,則只進(jìn)行一次新的比對(duì)。如果新比對(duì)不匹配,則認(rèn)為不 是相同用戶,具體如下:
[0056] 1)嘗試查找一篇學(xué)術(shù)論文,同時(shí)屬于a用戶與b用戶,如果無(wú)法找到,則認(rèn)為a與 b不是相同用戶。如果能夠找到,進(jìn)行后續(xù)比對(duì);
[0057] 2)如果a用戶與b用戶在文章中的署名相同,則認(rèn)為其為相同用戶;
[0058] 3)如