本發(fā)明屬于推薦算法和關(guān)聯(lián)規(guī)則挖掘技術(shù)領(lǐng)域,特別涉及一種基于皮爾遜相似度和FP-Growth的圖審專(zhuān)家推薦方法,主要用于計(jì)算項(xiàng)目審查專(zhuān)家組合的支持度,即契合度,進(jìn)而使得專(zhuān)家協(xié)同審查效率提高,并以此增加歷史項(xiàng)目審查專(zhuān)家集數(shù)據(jù)的使用價(jià)值。
背景技術(shù):
項(xiàng)目審查專(zhuān)家推薦算法對(duì)項(xiàng)目審查領(lǐng)域中實(shí)現(xiàn)項(xiàng)目審查專(zhuān)家高效的遴選有重要的作用和意義。傳統(tǒng)的項(xiàng)目審查專(zhuān)家組由人工選擇的方式已經(jīng)不能滿(mǎn)足項(xiàng)目審查領(lǐng)域的需求。近年來(lái)針對(duì)不同的推薦系統(tǒng)的需求,研究者提出了相應(yīng)的個(gè)性化推薦方案,如基于內(nèi)容推薦,協(xié)同過(guò)濾,關(guān)聯(lián)規(guī)則,效用推薦,組合推薦等。
馮萬(wàn)利,朱全銀等人已有的研究基礎(chǔ)包括:Wanli Feng.Research of theme statement extraction for chinese literature based on lexical chain.International Journal of Multimedia and Ubiquitous Engineering,Vol.11,No.6(2016),pp.379-388;Wanli Feng,Ying Li,Shangbing Gao,Yunyang Yan,Jianxun Xue.A novel flame edge detection algorithm via a novel active contour model.International Journal of Hybrid Information Technology,Vol.9,No.9(2016),pp.275-282;劉金嶺,馮萬(wàn)利.基于屬性依賴(lài)關(guān)系的模式匹配方法[J].微電子學(xué)與計(jì)算機(jī),2011,28(12):167-170;劉金嶺,馮萬(wàn)利,張亞紅.初始化簇類(lèi)中心和重構(gòu)標(biāo)度函數(shù)的文本聚類(lèi)[J].計(jì)算機(jī)應(yīng)用研究,2011,28(11):4115-4117;劉金嶺,馮萬(wàn)利,張亞紅.基于重新標(biāo)度的中文短信文本聚類(lèi)方法[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(21):146-150.;朱全銀,潘祿,劉文儒,等.Web科技新聞分類(lèi)抽取算法[J].淮陰工學(xué)院學(xué)報(bào),2015,24(5):18-24;李翔,朱全銀.聯(lián)合聚類(lèi)和評(píng)分矩陣共享的協(xié)同過(guò)濾推薦[J].計(jì)算機(jī)科學(xué)與探索,2014,8(6):751-759;Quanyin Zhu,Sunqun Cao.A Novel Classifier-independent Feature Selection Algorithm for Imbalanced Datasets.2009,p:77-82;Quanyin Zhu,Yunyang Yan,Jin Ding,Jin Qian.The Case Study for Price Extracting of Mobile Phone Sell Online.2011,p:282-285;Quanyin Zhu,Suqun Cao,Pei Zhou,Yunyang Yan,Hong Zhou.Integrated Price Forecast based on Dichotomy Backfilling and Disturbance Factor Algorithm.International Review on Computers and Software,2011,Vol.6(6):1089-1093;朱全銀,馮萬(wàn)利等人申請(qǐng)、公開(kāi)與授權(quán)的相關(guān)專(zhuān)利:馮萬(wàn)利,邵鶴帥,莊軍.一種智能冷藏車(chē)狀態(tài)監(jiān)測(cè)無(wú)線(xiàn)網(wǎng)絡(luò)終端裝置:CN203616634U[P].2014;朱全銀,胡蓉靜,何蘇群,周培等.一種基于線(xiàn)性插補(bǔ)與自適應(yīng)滑動(dòng)窗口的商品價(jià)格預(yù)測(cè)方法.中國(guó)專(zhuān)利:ZL 2011 1 0423015.5,2015.07.01;朱全銀,曹蘇群,嚴(yán)云洋,胡蓉靜等,一種基于二分?jǐn)?shù)據(jù)修補(bǔ)與擾亂因子的商品價(jià)格預(yù)測(cè)方法.中國(guó)專(zhuān)利:ZL 2011 1 0422274.6,2013.01.02;李翔,朱全銀,胡榮林,周泓.一種基于譜聚類(lèi)的冷鏈物流配載智能推薦方法.中國(guó)專(zhuān)利公開(kāi)號(hào):CN105654267A,2016.06.08。
皮爾遜積矩相關(guān)系數(shù):
皮爾遜積矩相關(guān)系數(shù)(Pearson product-moment correlation coefficient)用于度量?jī)蓚€(gè)變量X和Y之間的相關(guān),其值介于-1與1之間。在自然科學(xué)領(lǐng)域中,該系數(shù)廣泛用于度量?jī)蓚€(gè)變量之間的相關(guān)程度。
關(guān)聯(lián)規(guī)則算法:
基于關(guān)聯(lián)規(guī)則的推薦更常見(jiàn)于電子商務(wù)系統(tǒng)中,并且也被證明行之有效,其實(shí)際的意義為購(gòu)買(mǎi)了一些物品的用戶(hù)更傾向于購(gòu)買(mǎi)另一些物品,基于關(guān)聯(lián)規(guī)則的推薦系統(tǒng)的首要目標(biāo)是挖掘出關(guān)聯(lián)規(guī)則,也就是那些同時(shí)被很多用戶(hù)購(gòu)買(mǎi)的物品集合,這些集合內(nèi)的物品可以相互進(jìn)行推薦?;陉P(guān)聯(lián)規(guī)則的推薦系統(tǒng)一般轉(zhuǎn)化率比較高,因?yàn)楫?dāng)用戶(hù)已經(jīng)購(gòu)買(mǎi)了頻繁集合中的若干項(xiàng)目后,購(gòu)買(mǎi)該頻繁集合中的其他項(xiàng)目的可能性更高。然而挖掘項(xiàng)目集合的關(guān)聯(lián)規(guī)則計(jì)算量較大,同時(shí)也存在用戶(hù)數(shù)據(jù)的稀疏性問(wèn)題,降低了推薦的準(zhǔn)確率。
FP-Growth算法:
FP-Growth算法是韓家煒等人在2000年提出的關(guān)聯(lián)分析算法,它采取如下分治策略:將提供頻繁項(xiàng)集的數(shù)據(jù)庫(kù)壓縮到一棵頻繁模式樹(shù)(FP-tree),但仍保留項(xiàng)集關(guān)聯(lián)信息。FP-tree是一種特殊的前綴樹(shù),由頻繁項(xiàng)頭表和項(xiàng)前綴樹(shù)構(gòu)成。FP-Growth算法基于以上的結(jié)構(gòu)加快整個(gè)挖掘過(guò)程。FP-Growth算法較挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法中的Apriori算法而言,采用分治策略對(duì)數(shù)據(jù)庫(kù)進(jìn)行挖掘,不產(chǎn)生候選項(xiàng)集,它采用FP-Tree存放數(shù)據(jù)庫(kù)的重要信息,只需掃描兩次數(shù)據(jù)庫(kù),然后將關(guān)鍵的信息以FP-Tree的形式存放在內(nèi)存中,避免了多次掃描數(shù)據(jù)庫(kù)帶來(lái)的巨大開(kāi)銷(xiāo)。
技術(shù)實(shí)現(xiàn)要素:
發(fā)明目的:傳統(tǒng)的項(xiàng)目審查專(zhuān)家組是人工選擇出來(lái)的,就會(huì)存在這樣的問(wèn)題:選出的專(zhuān)家組并沒(méi)有審查過(guò)類(lèi)似規(guī)模的項(xiàng)目,會(huì)浪費(fèi)大量時(shí)間;選出來(lái)的專(zhuān)家組成員之間契合度不高,導(dǎo)致項(xiàng)目審查效率較低。針對(duì)傳統(tǒng)方法存在的問(wèn)題,本發(fā)明通過(guò)綜合分析歷史項(xiàng)目審查專(zhuān)家集和歷史綜合項(xiàng)目記錄集,采用一種基于皮爾遜相似度和FP-Growth的圖審專(zhuān)家推薦方法,為待審查項(xiàng)目推薦契合度最高的審查專(zhuān)家組。
技術(shù)方案:本發(fā)明提出一種基于皮爾遜相似度和FP-Growth的圖審專(zhuān)家推薦方法,包括如下步驟:
步驟1:對(duì)待審查項(xiàng)目和綜合項(xiàng)目記錄集中的項(xiàng)目屬性進(jìn)行歸一化預(yù)處理,所述待審查項(xiàng)目和綜合項(xiàng)目通過(guò)綜合項(xiàng)目類(lèi)型、綜合項(xiàng)目類(lèi)型的分支項(xiàng)目類(lèi)型和項(xiàng)目屬性表示,具體方法為:
步驟1.1:定義綜合型項(xiàng)目類(lèi)型、分支項(xiàng)目類(lèi)型和項(xiàng)目屬性;
步驟1.2:記錄綜合項(xiàng)目記錄集項(xiàng)目屬性中各項(xiàng)數(shù)據(jù)的最大值和最小值;
步驟1.3:對(duì)綜合項(xiàng)目記錄集和待處理項(xiàng)目項(xiàng)目屬性的數(shù)據(jù)進(jìn)行歸一化處理,具體公式為:
Anorm=(A-Amin)/(Amax-Amin)
式中,Amax和Amin分別為項(xiàng)目屬性各項(xiàng)數(shù)據(jù)的最大值和最小值,A為歸一化前的數(shù)據(jù),Anorm為歸一化后的數(shù)據(jù)。
步驟2:通過(guò)皮爾遜相似度方法對(duì)歸一化后的數(shù)據(jù)集處理得出與待審查項(xiàng)目規(guī)模最接近的十個(gè)項(xiàng)目,并抽取十個(gè)項(xiàng)目的審查專(zhuān)家,所述審查專(zhuān)家通過(guò)研究的分支項(xiàng)目類(lèi)型和審查項(xiàng)目記錄表示,具體方法為:
步驟2.1:定義圖審專(zhuān)家數(shù)據(jù)集和已審查項(xiàng)目記錄集,所述圖審專(zhuān)家數(shù)據(jù)用專(zhuān)家編號(hào)和專(zhuān)家研究的分支項(xiàng)目類(lèi)型表示,所述圖審專(zhuān)家數(shù)據(jù)集用項(xiàng)目編號(hào)和圖審專(zhuān)家編號(hào)表示;
步驟2.2:根據(jù)項(xiàng)目編號(hào)對(duì)已審查項(xiàng)目記錄集中的專(zhuān)家進(jìn)行整合,得到審查不同項(xiàng)目的工程項(xiàng)目審查專(zhuān)家集;
步驟2.3:計(jì)算待審查項(xiàng)目與綜合項(xiàng)目記錄集中各項(xiàng)目的相似度,具體公式為:
式中,simi為待審查項(xiàng)目與第i個(gè)項(xiàng)目的相似度,Xj和Yij分別為待審查項(xiàng)目和第i個(gè)項(xiàng)目的項(xiàng)目屬性數(shù)據(jù)集元素;和分別為待審查項(xiàng)目和第i個(gè)項(xiàng)目的項(xiàng)目屬性數(shù)據(jù)的均值;
步驟2.4:對(duì)相似對(duì)進(jìn)行排序,提取前十個(gè)項(xiàng)目對(duì)應(yīng)的項(xiàng)目編號(hào)及對(duì)應(yīng)的審查專(zhuān)家集,即得預(yù)選圖審專(zhuān)家集。
步驟3:根據(jù)待審查的綜合項(xiàng)目的分支項(xiàng)目類(lèi)型和圖審專(zhuān)家研究方向,對(duì)抽取出的專(zhuān)家進(jìn)行組合,得到所有備選組合專(zhuān)家集,具體方法為:
步驟3.1:從預(yù)選圖審專(zhuān)家集中剔除有審查任務(wù)的專(zhuān)家;
步驟3.2:從步驟3.1得到的專(zhuān)家集中選擇研究分支項(xiàng)目類(lèi)型與待審查項(xiàng)目分支項(xiàng)目類(lèi)型相同的圖審專(zhuān)家,并將專(zhuān)家按照分支項(xiàng)目類(lèi)型表示;
步驟3.3:若步驟3.2得到的專(zhuān)家集存在待審查項(xiàng)目某分支類(lèi)型沒(méi)有專(zhuān)家,則針對(duì)該項(xiàng)目分支類(lèi)型,從所有圖審專(zhuān)家數(shù)據(jù)集中尋找審查該分支項(xiàng)目類(lèi)型且沒(méi)有工作任務(wù)的專(zhuān)家加入;
步驟3.4:從步驟3.3得到的專(zhuān)家集對(duì)應(yīng)的每個(gè)分支項(xiàng)目類(lèi)型中至少抽取一個(gè)專(zhuān)家,即得所有備選組合專(zhuān)家集。
步驟4:使用FP-Growth方法對(duì)歷史項(xiàng)目審查專(zhuān)家集處理,得到圖審專(zhuān)家組合頻繁項(xiàng)集;
步驟5:利用組合頻繁項(xiàng)集通過(guò)每種專(zhuān)家組合自適應(yīng)契合度方法計(jì)算每種備選專(zhuān)家組合集的支持度,最終支持度最大即契合度最高的專(zhuān)家組合集即為參與待審查項(xiàng)目的專(zhuān)家集,具體方法為:
步驟5.1:以一種備選組合專(zhuān)家集為例,該專(zhuān)家集共有n個(gè)專(zhuān)家,從備選組合專(zhuān)家集中抽取1位專(zhuān)家,共有種抽取方式,從備選組合專(zhuān)家集中抽取2位專(zhuān)家,共有種抽取方式,以此類(lèi)推,一直抽取到n為專(zhuān)家,共有種抽取方式,即所有的抽取結(jié)果組合成Subset集,Subset包含集合數(shù)量為初始化備選組合專(zhuān)家集的契合度SValue為0;
步驟5.2:遍歷Subset,若Subset中的一種抽取后的專(zhuān)家組合在圖審專(zhuān)家組合頻繁項(xiàng)集中,則步驟5.1中備選組合專(zhuān)家集的契合度應(yīng)加上該抽取后的專(zhuān)家組合對(duì)應(yīng)頻繁項(xiàng)集中的頻數(shù)與該抽取后的專(zhuān)家組合中的專(zhuān)家數(shù)的乘積,即:
SValue=SValue+f*k
式中,SValue為備選組合專(zhuān)家集的契合度,f為抽取后的專(zhuān)家組合對(duì)應(yīng)頻繁項(xiàng)集中的頻數(shù),k為抽取后的專(zhuān)家組合中的專(zhuān)家數(shù)的乘積,遍歷結(jié)束,即得到步驟5.1中備選組合專(zhuān)家集的最終契合度;
步驟5.3:通過(guò)步驟5.1、5.2方法計(jì)算所有備選組合專(zhuān)家集的契合度,最終契合度最高的備選組合專(zhuān)家集即為參與待審查項(xiàng)目的專(zhuān)家集。
本發(fā)明采用上述技術(shù)方案,具有以下有益效果:本發(fā)明方法利用綜合項(xiàng)目記錄集和歷史項(xiàng)目審查專(zhuān)家集,有效的推薦了一種契合度最高的圖審專(zhuān)家組合,提高了審查的效率,具體的:本發(fā)明利用專(zhuān)家審查項(xiàng)目歷史記錄進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)專(zhuān)家之間的組合關(guān)系和契合度,采用皮爾遜相似度算法得到與待審查項(xiàng)目相似的歷史項(xiàng)目審查專(zhuān)家集,抽取該專(zhuān)家集中沒(méi)有審查任務(wù)的專(zhuān)家,并依據(jù)待審查的綜合項(xiàng)目的分支項(xiàng)目和專(zhuān)家審查方向?qū)μ幚砗蟮膶?zhuān)家進(jìn)行組合,使得每種組合包含的專(zhuān)家均為審查過(guò)與待審查項(xiàng)目類(lèi)似的專(zhuān)家。此外,本發(fā)明創(chuàng)造性地提出了一種專(zhuān)家組合契合度算法用于計(jì)算每種專(zhuān)家組合的契合度,契合度最高的專(zhuān)家組即為最終推薦的待審查項(xiàng)目的專(zhuān)家組,提高了審查的效率。
附圖說(shuō)明
圖1為圖審專(zhuān)家推薦方法整體流程圖;
圖2為項(xiàng)目和審查專(zhuān)家相關(guān)數(shù)據(jù)預(yù)處理和關(guān)聯(lián)規(guī)則方法流程圖;
圖3為項(xiàng)目相關(guān)數(shù)據(jù)歸一化處理和相似度計(jì)算方法流程圖;
圖4為專(zhuān)家組合方法流程圖;
圖5為選取所有備選專(zhuān)家組合中契合度最高的專(zhuān)家組和的方法流程;
圖6為每種專(zhuān)家組合自適應(yīng)契合度方法流程。
具體實(shí)施方式
下面結(jié)合具體實(shí)施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實(shí)施例僅用于說(shuō)明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對(duì)本發(fā)明的各種等價(jià)形式的修改均落于本申請(qǐng)所附權(quán)利要求所限定的范圍。
步驟1:對(duì)待審查項(xiàng)目和綜合項(xiàng)目記錄集中的項(xiàng)目屬性進(jìn)行歸一化預(yù)處理,所述待審查項(xiàng)目和綜合項(xiàng)目通過(guò)綜合項(xiàng)目類(lèi)型、綜合項(xiàng)目類(lèi)型的分支項(xiàng)目類(lèi)型和項(xiàng)目屬性表示,具體的如圖2所示:
步驟1.1:定義G1,G2,G3,G4,G5分別為綜合型項(xiàng)目類(lèi)型中的城市供水排水、建筑裝飾、居住建筑、房屋建筑勘察和單項(xiàng)設(shè)計(jì)工程類(lèi),定義B1,B2,B3,B4,B5,B6,B7分別為分支項(xiàng)目類(lèi)型中的巖土工程勘察、建筑、暖通、電氣、結(jié)構(gòu)、給排水和道路類(lèi),并且滿(mǎn)足關(guān)系:
G1={B1,B2,B3,B4,B5,B6,B7},G2={B1,B2,B3,B4,B5,B6},G3={B1,B2,B3,B4,B5,B6},G4={B1,B2,B4,B5,B6},G5={B1,B2,B4,B5,B6}
步驟1.2:定義ProjectInfo為所有綜合項(xiàng)目數(shù)據(jù)集,ProjectInfo={pr1,pr2,...,prA},pri={idi,GB,Ari,Fli,Hii,Aci,Coi,Ami}為單個(gè)綜合項(xiàng)目數(shù)據(jù)集,其中,A=Card(ProjectInfo),函數(shù)Card()用于計(jì)算集合元素?cái)?shù)量,變量i∈[1,A],變量B∈[1,5],idi為項(xiàng)目編號(hào),GB,Ari,Fli,Hii,Aci,Coi,Ami分別表示項(xiàng)目編號(hào)為idi的項(xiàng)目的綜合型項(xiàng)目類(lèi)型、占地面積、樓層數(shù)、建筑高度、應(yīng)收賬款、配方含量和耗材量;
步驟1.3:定義HP為待處理項(xiàng)目,綜合型項(xiàng)目類(lèi)型為HPType,項(xiàng)目數(shù)據(jù)集HPInfo={HPType,HAr,HFl,HHi,HAc,HCo,HAm},其中,HAr,HFl,HHi,HAc,HCo,HAm分別為HP項(xiàng)目的占地面積、樓層數(shù)、建筑高度、應(yīng)收賬款、配方含量和耗材量;
步驟1.4:定義Armin,Flmin,Himin,Acmin,Comin,Ammin分別為步驟1.2中的ProjectInfo中Ar,Fl,Hi,Ac,Co,Am的最小值,Armax,Flmax,Himax,AcMax,Comax,Ammax分別為步驟1.2中的ProjectInfo中Ar,Fl,Hi,Ac,Co,Am的最大值,定義循環(huán)變量P,用來(lái)遍歷步驟1.2中的ProjectInfo,P賦初值為1;
步驟1.5:當(dāng)循環(huán)變量P≤A時(shí),則轉(zhuǎn)至步驟1.6;否則執(zhí)行步驟1.8;
步驟1.6:ArP=(ArP-Armin)/(Armax-Armin),F(xiàn)lP=(FlP-Flmin)/(Flmax-Flmin),HiP=(HiP-Himin)/(Himax-Himin),AcP=(AcP-Acmin)/(Acmax-Acmin),CoP=(CoP-Comin)/
(Comax-Comin),AmP=(AmP-Ammin)/(Ammax-Ammin);即對(duì)綜合項(xiàng)目記錄集中的數(shù)據(jù)的歸一化處理;
步驟1.7:令P=P+1,轉(zhuǎn)至步驟1.5;
步驟1.8:HAr=(HAr-Armin)/(Armax-Armin),HFl=(HFl-Flmin)/(Flmax-Flmin),HHi=(HHi-Himin)/(Himax-Himin),HAc=(HAc-Acmin)/(Acmax-Acmin),HCo=(HCo-Comin)/(Comax-Comin),HAm=(HAm-Ammin)/(Ammax-Ammin);即對(duì)待審查項(xiàng)目的數(shù)據(jù)的歸一化處理。
步驟2:通過(guò)皮爾遜相似度方法對(duì)歸一化后的數(shù)據(jù)集處理得出與待審查項(xiàng)目規(guī)模最接近的十個(gè)項(xiàng)目,并抽取十個(gè)項(xiàng)目的審查專(zhuān)家,所述審查專(zhuān)家通過(guò)研究的分支項(xiàng)目類(lèi)型和審查項(xiàng)目記錄表示,具體的如圖3所示:
步驟2.1:定義ExpertInfo={expertInfo1,expertInfo2,...,expertInfoE}為所有圖審專(zhuān)家數(shù)據(jù)集,expertInfoF={MaF,Bg}為單個(gè)圖審專(zhuān)家數(shù)據(jù)集,ExpertAll={Ma1,Ma2,...,MaE}為所有圖審專(zhuān)家編號(hào)集,其中,E=Card(ExpertInfo),MaF為圖審專(zhuān)家編號(hào),變量F∈[1,E],g∈[1,7],Bg為編號(hào)為MaF圖審專(zhuān)家研究的分支項(xiàng)目類(lèi)型;
步驟2.2:定義CenSorOpinions為圖審專(zhuān)家已審查項(xiàng)目記錄集,CenSorOpinions={{id1,MaC1},{id1,MaC2},...,{idA,MaD1},{idA,MaD2}},其中,C1,C2,D1,D2∈[1,E],N=Card(CenSorOpinions);
步驟2.3:對(duì)步驟2.2中的CenSorOpinions數(shù)據(jù)集中idi相同的數(shù)據(jù)子集中的Ma數(shù)據(jù)項(xiàng)進(jìn)行行列轉(zhuǎn)換,得到工程項(xiàng)目審查專(zhuān)家集:
ExpertJoin={expertJoin1,expertJoin2,...,expertJoinA},其中,expertJoinb={{MaH,...,MaI}為編號(hào)為idb的prb項(xiàng)目審查專(zhuān)家集,變量H,I∈[1,E],b∈[1,A];
步驟2.4:定義循環(huán)變量R,用來(lái)遍歷步驟1.2中的所有綜合項(xiàng)目數(shù)據(jù)集ProjectInfo,X={HAr,HFl,HHi,HAcc,HCo,HAm},simR為步驟1.2中的ProjectInfo中的綜合項(xiàng)目prR與待處理項(xiàng)目HP的相似度,Sim為相似度集,其中,R∈[1,A],R賦初值為1,idR為單個(gè)綜合項(xiàng)目prR的項(xiàng)目編號(hào),Sim賦初值為
步驟2.5:當(dāng)循環(huán)變量R≤A,則執(zhí)行步驟2.6;否則轉(zhuǎn)至步驟2.9;
步驟2.6:Y={ArR,FlR,HiR,AcR,CoR,AmR},其中,
步驟2.7:其中,Xr1,Yr1分別表示X,Y中的第r1個(gè)數(shù)據(jù)項(xiàng),分別表示X,Y中元素的平均值,分別表示X,Y中元素的平均值,Sim=Sim∪{idR,simR};
步驟2.8:令R=R+1,轉(zhuǎn)至步驟2.5;
步驟2.9:得到Sim={{id1,sim1},{id2,sim2},...,{idA,simA}}后進(jìn)行排序,得到有序相似度集Simi={{idj1,aj1},{idj2,aj2},...,{idjA,ajA}},其中,aj1≥aj2≥...≥ajA,{idjt,ajt}∈Sim,jt,j1,j2,jA∈[1,A],SimProject={{idj1,aj1},{idj2,aj2},...,{idj10,aj10}};
步驟2.10:定義Forecast為預(yù)選圖審專(zhuān)家集,并賦初值為定義循環(huán)變量V,用來(lái)遍歷步驟2.9中的SimProject,V賦初值為1,定義變量T為預(yù)選的圖審專(zhuān)家編號(hào);
步驟2.11:當(dāng)循環(huán)變量V≤10時(shí),則執(zhí)行步驟2.12;否則轉(zhuǎn)至步驟2.14;
步驟2.12:令項(xiàng)目審查專(zhuān)家集expertJoinjV為項(xiàng)目編號(hào)為idjV的審查專(zhuān)家集,預(yù)選圖審專(zhuān)家集
步驟2.13:令V=V+1,轉(zhuǎn)至步驟2.11;
步驟2.14:得到預(yù)選圖審專(zhuān)家集Forecast={Mam1,Mam2,...,Mamn},其中,Mami為預(yù)選圖審專(zhuān)家集Forecast中的第i個(gè)數(shù)據(jù)項(xiàng),Mami∈ExpertAll,mi∈[1,E]。
步驟3:根據(jù)待審查的綜合項(xiàng)目的分支項(xiàng)目類(lèi)型和圖審專(zhuān)家研究方向,對(duì)抽取出的專(zhuān)家進(jìn)行組合,得到所有備選組合專(zhuān)家集,具體的如圖4所示:
步驟3.1:定義Work為有審查任務(wù)的圖審專(zhuān)家集,Work={Mau1,Mau2,...,Maun},預(yù)選圖審專(zhuān)家集Forecast=Forecast-Work,其中,Maui為Work中的第i個(gè)數(shù)據(jù)項(xiàng),Maui∈ExpertAll,ui∈[1,E];
步驟3.2:定義綜合型項(xiàng)目類(lèi)型GN2={E1,E2,...,EZ},GN2={E1,E2,...,EZ}為待參與綜合型項(xiàng)目類(lèi)型GN2審查的圖審專(zhuān)家集,其中,EJ為待參與分支項(xiàng)目類(lèi)型EJ審查的圖審專(zhuān)家集,EJ賦初值為GN2=HPtype,即綜合型項(xiàng)目類(lèi)型GN2為步驟2.1中的待處理項(xiàng)目HP的綜合型項(xiàng)目類(lèi)型HPtype,Z=Card(GN2),Z∈[5,7],J∈[1,Z];
步驟3.3:定義循環(huán)變量Num1,Num2分別用來(lái)遍歷步驟3.2中的GN2和步驟3.1中的Forecast,并都賦初值為1,Num3=Card(Forecast),ENum1為步驟3.2中的GN2圖審專(zhuān)家集中第Num1個(gè)分支項(xiàng)目類(lèi)型,MaNum2為步驟3.1中的Forecast中第Num2個(gè)圖審專(zhuān)家編號(hào);
步驟3.4:當(dāng)循環(huán)變量Num1≤Z時(shí),則執(zhí)行步驟3.5;否則轉(zhuǎn)至步驟3.17;
步驟3.5:當(dāng)循環(huán)變量Num2≤Num3時(shí),則執(zhí)行步驟3.6;否則轉(zhuǎn)至步驟3.10;
步驟3.6:令BNum4為編號(hào)MaNum2專(zhuān)家研究的分支項(xiàng)目類(lèi)型,{MaNum2:BNum4}∈ExpertInfo,其中,Num4∈[1,7];
步驟3.7:當(dāng)BNum4==ENum1時(shí),即編號(hào)MaNum2專(zhuān)家研究的分支項(xiàng)目類(lèi)型與GN2圖審專(zhuān)家集中第Num1個(gè)分支項(xiàng)目類(lèi)型,則執(zhí)行步驟3.8;否則轉(zhuǎn)至步驟3.9;
步驟3.8:步驟3.2中的GN2圖審專(zhuān)家集中的第Num1個(gè)數(shù)據(jù)項(xiàng)目ENum1=ENum1∪MaNum2;
步驟3.9:令Num2=Num2+1,轉(zhuǎn)至步驟3.5;
步驟3.10:當(dāng)時(shí),則執(zhí)行步驟3.11;否則轉(zhuǎn)至步驟3.16;
步驟3.11:定義循環(huán)變量c,用于遍歷步驟1.3中的ExpertInfo,ExpertInfo中的第c個(gè)數(shù)據(jù)項(xiàng)expertInfoc={Mac,ty},其中,ty為編號(hào)Mac專(zhuān)家審查的分支項(xiàng)目類(lèi)型,c賦初值為1;
步驟3.12:當(dāng)循環(huán)變量c≤E時(shí),則執(zhí)行步驟3.13;否則執(zhí)行步驟3.16;
步驟3.13:當(dāng)并且ty==ENum1時(shí),則執(zhí)行步驟3.14;否則執(zhí)行步驟3.15;
步驟3.14:ENum1=ENum1∪Mac;
步驟3.15:令c=c+1,轉(zhuǎn)至步驟3.12;
步驟3.16:令Num1=Num1+1,轉(zhuǎn)至步驟3.4;
步驟3.17:得到GN2={E1,E2,...,EZ},EJ={MaJ1,MaJ2,...,MaJnu},nu=Card(EJ),J∈[1,Z]
步驟3.18:定義ExportCom為所有備選審查HP的圖審專(zhuān)家組合集,定義Com為其中一種備選審查HP的圖審專(zhuān)家組合集;
步驟3.19:定義ComN3={Q1,Q2,...,QN5},ExportCom={Com1,Com2,...,ComN6},SN3為ComN3的支持度,SC={S1,S2,...,SN6}為支持度集,其中,QN7表示ComN3中的第N7個(gè)圖審專(zhuān)家編號(hào),QN7為EN7中任意一個(gè)元素,EN7為步驟3.17中的GN2中第N7個(gè)數(shù)據(jù)項(xiàng),1≤N7≤Z,N5=Z,1≤N3≤N6,N3賦初值為1,定義End為最終審查步驟2.1中的HP項(xiàng)目的圖審專(zhuān)家集,End賦初值為
步驟4:使用FP-Growth方法對(duì)歷史項(xiàng)目審查專(zhuān)家集處理,得到圖審專(zhuān)家組合頻繁項(xiàng)集,具體的:使用關(guān)聯(lián)規(guī)則方法FP-Growth對(duì)步驟2.5中的工程項(xiàng)目審查專(zhuān)家集ExpertJoin處理,得到所有圖審專(zhuān)家組合頻繁項(xiàng)集Relationt,Relationt={{relationt1:fr1},{relationt2:fr2},...,{relationtM:frM}},其中,relationtX1={r1,r2,...,rj},rj∈ExpertAll,1≤j≤E,變量M=Card(Relationt),X1∈[1,M],H1∈[1,E],frx1表示relationtX1的頻數(shù)。
步驟5所有備選專(zhuān)家組合中契合度最高的專(zhuān)家組合的方法流程步驟51到步驟5.8,具體的如圖5示:
步驟5.1:步驟3.19中的N3用于遍歷步驟3.19中所有備選組合專(zhuān)家集ExportCom,步驟3.19中的N6為ExportCom的子集個(gè)數(shù);
步驟5.2:當(dāng)N3≤N6時(shí),
步驟5.3:將步驟3.19中的ComN3賦值給步驟X1即步驟5.4.1到步驟5.4.14中的ExpertHandle,Relationt賦值給步驟5.4中的Rel;
步驟5.4:執(zhí)行步驟X1,即步驟5.4.1到步驟5.4.14;
步驟5.5:將步驟X1,即步驟5.4.1到步驟5.4.14執(zhí)行結(jié)果SValue賦值給SN3,SN3為步驟3.19中的SC中第N3個(gè)元素;
步驟5.6:N3=N3+1;
步驟5.7:令SN4為SC中最大的值,ComN4的支持度為SN4,其中,N4∈[1,N6];
步驟5.8:得到最終審查HP項(xiàng)目的圖審專(zhuān)家集End={K1,K2,...,KZ},即End=ComN4,Work=Work∪End,其中,1≤q≤Z;
步驟5.4:合頻繁項(xiàng)集通過(guò)每種專(zhuān)家組合自適應(yīng)契合度方法計(jì)算每種備選專(zhuān)家組合集的支持度,最終支持度最大即契合度最高的專(zhuān)家組合集即為參與待審查項(xiàng)目的專(zhuān)家集,具體的如圖6示:
步驟5.4.1:定義圖審專(zhuān)家組合集ExpertHandle={Ma1,Ma2,...,MaNu},SValue為ExpertHandle的支持度,所有圖審專(zhuān)家組合頻繁項(xiàng)集Rel={{rel1:f1},{rel2:f2},...,{relM1:fM1}},其中,Nu=Card(ExpertHandle),M1=Card(Rel),SValue賦初值為0;
步驟5.4.2:定義Subset={Sub1,Sub2,...,SubNu},Sub1={Su11,Su12,...,Su1n1},Su1n1={dkh},Sub2={Su21,Su22,...,Su2n2},Su2n2={dki,dkj},SubNu={SuNu1},SuNu1={dk1,dk2,...,dkNu},其中,dkh,dki,dkj,dk1,dk2,...,dkNu∈ExpertHandle,即Subset為從ExpertHandle中抽取的專(zhuān)家并組合后的所有的組合結(jié)果,Sub1為從ExpertHandle中任意抽取1個(gè)專(zhuān)家組成的n1=Nu個(gè)組合結(jié)果集,Sub2為從ExpertHandle中任意抽取2個(gè)專(zhuān)家組成的個(gè)組合結(jié)果集,SubNu為從ExpertHandle中抽取Nu個(gè)專(zhuān)家組成僅一個(gè)組合結(jié)果集;
步驟5.4.3:定義循環(huán)變量index1,用于遍歷Subset,其中,index1賦初值為1;
步驟5.4.4:當(dāng)循環(huán)變量index1≤Nu時(shí),則執(zhí)行步驟5.4.5;否則執(zhí)行步驟5.4.14;
步驟5.4.5:定義循環(huán)變量index2,用于遍歷Subindex1,其中,Suindex1index2為從Subindex1中取出的第index2個(gè)集合,index2賦初值為1;
步驟5.4.6:當(dāng)循環(huán)變量時(shí),則執(zhí)行步驟5.4.7;否則執(zhí)行步驟5.4.13;
步驟5.4.7:定義循環(huán)變量index3,用于遍歷Rel,定義{relindex3:findex3}為Rel第index3個(gè)集合,其中,變量index3賦初值為1;
步驟5.4.8:當(dāng)循環(huán)變量index3≤M1時(shí),則執(zhí)行步驟5.4.9;否則執(zhí)行步驟5.4.12;
步驟5.4.9:當(dāng)Suindex1index2=relindex3時(shí),則執(zhí)行步驟5.4.10;否則執(zhí)行步驟5.4.11;
步驟5.4.10:SValue=SValue+findex3*index1,即SValue的值更新為SValue的值加上指定的專(zhuān)家組合頻數(shù)與該專(zhuān)家組合專(zhuān)家數(shù)量的乘積;
步驟5.4.11:index3=index3+1,轉(zhuǎn)至步驟5.4.8;
步驟5.4.12:index2=index2+1,轉(zhuǎn)至步驟5.4.6;
步驟5.4.13:index1=index1+1,轉(zhuǎn)至步驟5.4.4;
步驟5.4.14:得到SValue。
其中,皮爾遜相似度方法是通過(guò)對(duì)項(xiàng)目屬性預(yù)處理后的數(shù)據(jù)集進(jìn)行數(shù)據(jù)分析,F(xiàn)P-Growth方法對(duì)歷史項(xiàng)目審查專(zhuān)家集處理,得到圖審專(zhuān)家組合頻繁項(xiàng)集,專(zhuān)家組合契合度方法根據(jù)頻繁項(xiàng)集計(jì)算每種專(zhuān)家組合的支持度,即專(zhuān)家組合契合度。
通過(guò)PF-Growth方法對(duì)65536條歷史項(xiàng)目審查專(zhuān)家記錄進(jìn)行關(guān)聯(lián)規(guī)則挖掘,得到圖審專(zhuān)家組合頻繁項(xiàng)集;對(duì)20061條綜合項(xiàng)目記錄進(jìn)行數(shù)據(jù)壓縮和預(yù)處理,采用皮爾遜相似度方法并抽取與待審查項(xiàng)目規(guī)模最接近的十個(gè)項(xiàng)目的審查專(zhuān)家,使得抽取出來(lái)的專(zhuān)家均為審查過(guò)與待審查項(xiàng)目類(lèi)似的專(zhuān)家;本發(fā)明方法在實(shí)際應(yīng)用中較人工推薦的專(zhuān)家組合結(jié)果相似度達(dá)到82.13%,采納率達(dá)到97.25%。