国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于圖集重構(gòu)與圖核降維的圖分類方法與流程

      文檔序號:11654357閱讀:256來源:國知局
      一種基于圖集重構(gòu)與圖核降維的圖分類方法與流程

      本發(fā)明涉及到頻繁子圖挖掘、圖核映射、分類器構(gòu)建等方面,具體涉及的是一種基于圖集重構(gòu)與圖核降維的圖分類方法,屬于機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘技術(shù)領(lǐng)域。



      背景技術(shù):

      隨著數(shù)據(jù)挖掘在情報學(xué)、生物信息學(xué)、網(wǎng)絡(luò)入侵檢測等多領(lǐng)域的應(yīng)用,越來越多的數(shù)據(jù)呈現(xiàn)出結(jié)構(gòu)化強(qiáng)、數(shù)據(jù)間關(guān)系復(fù)雜等新特點,如電路、圖像、化合物、蛋白質(zhì)結(jié)構(gòu)、生物學(xué)網(wǎng)絡(luò)等。圖作為一種數(shù)據(jù)結(jié)構(gòu)類型,可以用來清晰地描述各種事物以及它們之間的相互關(guān)系。如生物信息學(xué)領(lǐng)域,生物學(xué)家希望找到頻繁出現(xiàn)的與有毒物質(zhì)具有相同子結(jié)構(gòu)的物質(zhì),此時分子結(jié)構(gòu)可以被描述為圖結(jié)構(gòu),其中的分子對應(yīng)圖中的頂點,而分子間的化學(xué)鍵則可表示為圖中對應(yīng)的邊,通過對分子結(jié)構(gòu)圖集的挖掘,可以預(yù)先發(fā)現(xiàn)分子結(jié)構(gòu)之間的內(nèi)在關(guān)系或共享模式,從而實現(xiàn)對未知物質(zhì)的毒性分類。

      圖分類作為圖挖掘領(lǐng)域的一個分支,它的主體學(xué)習(xí)思想與傳統(tǒng)數(shù)據(jù)分類類似,都是通過對已獲得分類標(biāo)記的圖數(shù)據(jù)進(jìn)行學(xué)習(xí),從而建立出分類模型,再通過這個模型實現(xiàn)對新獲得的未知標(biāo)記的圖數(shù)據(jù)進(jìn)行類別預(yù)測。圖分類總體上可以分為基于核函數(shù)的分類方法與基于特征向量構(gòu)造的分類方法兩類。

      基于核函數(shù)的圖分類方法的核心思想是通過一種非線性映射將圖結(jié)構(gòu)的數(shù)據(jù)映射到高維特征空間,然后利用線性學(xué)習(xí)的方法在新空間分析和處理數(shù)據(jù)。基于核函數(shù)的圖分類方法無需提前知道非線性映射的具體形式與參數(shù),而是引入核函數(shù),通過改變核函數(shù)的形式與參數(shù),隱式地實現(xiàn)從圖數(shù)據(jù)到高維特征空間的映射,利用圖核函數(shù),可以獲得用于描述圖與圖之間相似性的矩陣(marginalizedkernelsbetweenlabeledgraphs.kashima,h.,tsuda,k.,inokuchi,a.)。盡管基于核函數(shù)的圖分類方法的分類性能較好,但是由于其計算中所不可避免的np問題,因此該方法只適合于小規(guī)模的圖數(shù)據(jù)集,擴(kuò)展性能較差。

      基于特征向量構(gòu)造的圖分類方法是事先選定一個劃分標(biāo)準(zhǔn),然后將每一張圖數(shù)據(jù)按照這個標(biāo)準(zhǔn)轉(zhuǎn)化為向量型數(shù)據(jù),再利用傳統(tǒng)的分類方法對其進(jìn)行分類?;谔卣鞯膱D分類方法又可以細(xì)化為基于頻繁子圖特征的分類方法和基于理論指標(biāo)特征的分類方法?;陬l繁子圖特征的分類方法主要步驟為頻繁子圖挖掘、選擇分類特征、構(gòu)造分類模型。為了獲得更高的分類性能,從頻繁子圖模式集中選擇有判別力的特征模式是一個關(guān)鍵問題(moss:aprogramformolecularsubstructuremining.borgelt,christian,meinl)?;诶碚撝笜?biāo)特征的分類多以特征路徑長度、聚類系數(shù)、介數(shù)等作為刻畫圖數(shù)據(jù)信息的統(tǒng)計量(classifyinggraphsusingtheoreticalmetrics:astudyoffeasibility.zhul,ngwk,hans),或是各自特定領(lǐng)域的專家應(yīng)用他們的專業(yè)背景知識指定出物理化學(xué)特征(如分子重量、分子密度等)作為劃分標(biāo)準(zhǔn),雖然這樣可以避免過擬合,算法簡單易造,但是容易丟失結(jié)構(gòu)信息,而且需要過強(qiáng)的專業(yè)知識,普適性差。

      本發(fā)明基于現(xiàn)有圖分類方法的研究成果與存在的問題,提出一種基于圖集重構(gòu)與圖核降維的圖分類方法,利用頻繁子圖中判別性強(qiáng)的子圖重構(gòu)原圖集,然后對重構(gòu)好的新圖集采用圖核映射至高維空間,并采用基于類別的特征選擇方法對高維核矩陣降維,最后以此訓(xùn)練分類器。該方法可以高效且準(zhǔn)確地實現(xiàn)對圖數(shù)據(jù)的分類。



      技術(shù)實現(xiàn)要素:

      本發(fā)明所要解決的技術(shù)問題是圖數(shù)據(jù)的分類問題,提出一種基于圖集重構(gòu)與圖核降維的圖分類方法。該方法利用判別性較強(qiáng)的頻繁子圖重構(gòu)原圖集,有效地降低了原始圖集的規(guī)模,通過weisfeiler-lehman最短路徑圖核函數(shù)將圖集映射到高維空間,并采用kfda算法對高維核矩陣進(jìn)行降維,在降維的同時考慮了圖的類別信息,提升了后續(xù)分類的準(zhǔn)確性。

      本發(fā)明提供一種基于圖集重構(gòu)與圖核降維的圖分類方法,該方法包括訓(xùn)練和應(yīng)用兩個階段,具體包括如下步驟:

      步驟1),對用于訓(xùn)練的圖數(shù)據(jù)集進(jìn)行頻繁子圖挖掘,對找出的頻繁子圖,以其在正負(fù)兩類中出現(xiàn)的頻度差的大小作為判別性指標(biāo),進(jìn)行判別性子圖篩選;

      步驟2),根據(jù)步驟1)篩選出的具有判別性的頻繁子圖,重構(gòu)原圖集;

      步驟3),根據(jù)步驟2)中重構(gòu)好的新圖集,采用weisfeiler-lehman最短路徑核方法獲得用于描述圖集中每兩個圖之間相似性的核矩陣,并利用訓(xùn)練圖的類標(biāo)簽信息,采用kfda(kernelfisherdiscriminantanalysis)方法對高維核矩陣降維;

      步驟4),根據(jù)步驟3)得到的低維數(shù)據(jù),基于極限學(xué)習(xí)機(jī)對投影到低維向量空間的圖數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建出分類器;

      步驟5),根據(jù)步驟3)中的圖核降維過程,規(guī)范化需要進(jìn)行分類的圖數(shù)據(jù),將其投影到訓(xùn)練得到的低維空間,并把投影后的數(shù)據(jù)輸入到步驟4)構(gòu)建出的分類器中,得到分類結(jié)果。

      進(jìn)一步的,本發(fā)明的基于圖集重構(gòu)與圖核降維的圖分類方法,步驟1)對用于訓(xùn)練的圖數(shù)據(jù)集進(jìn)行頻繁子圖挖掘,對找出的頻繁子圖,以其在正負(fù)兩類中出現(xiàn)的頻度差的大小作為判別性指標(biāo),進(jìn)行判別性子圖篩選。本發(fā)明采用gspan頻繁子圖挖掘算法對訓(xùn)練圖集進(jìn)行頻繁子圖挖掘,頻繁子圖挖掘過程中,人為地指定所要挖掘的子圖的支持度,支持度定義為:

      公式中,gs表示一個子圖,g為圖數(shù)據(jù)d中的一個圖,當(dāng)一個子圖的支持度大于人為指定的閾值時,該子圖即為頻繁子圖。通過gspan算法,可以找出訓(xùn)練圖數(shù)據(jù)集中所有支持度大于設(shè)定閾值的子圖,并且獲得這些子圖分別出現(xiàn)在圖集中的哪些圖中,以及子圖中包含的節(jié)點與邊的信息。利用頻繁子圖挖掘的結(jié)果,得以獲得各個頻繁子圖在圖集的正類圖中的支持度r+(g)與負(fù)類圖中的支持度r-(g),其中:

      將各個子圖在正負(fù)兩類圖中的支持度相減后得到的結(jié)果,作為各個頻繁子圖的判別性得分:

      score(g)=|r+(g)-r-(g)|

      將所有頻繁子圖按照判別性得分的高低降序排序,然后根據(jù)人為設(shè)定的判別性子圖比例篩選出得分排在前面的子圖作為判別性子圖。

      進(jìn)一步的,本發(fā)明的基于圖集重構(gòu)與圖核降維的圖分類方法,步驟2)根據(jù)步驟1)篩選出的具有判別性的頻繁子圖,重構(gòu)原圖集。gspan頻繁子圖挖掘算法的輸出結(jié)果中包含各個頻繁子圖中所包含的節(jié)點與邊的信息,以及該頻繁子圖所處的圖的編號,對于原圖集的重構(gòu)過程,是依次對原圖集中的每一個圖,考察各個判別性子圖是否在該圖中出現(xiàn),如果出現(xiàn),則將該判別性子圖中所包含的節(jié)點與邊信息加到與原圖集對應(yīng)的新圖集里去,如果沒有出現(xiàn),則繼續(xù)考察下一個判別性子圖。該步驟結(jié)束后即可獲得一個與原圖集一一對應(yīng)、僅由判別性子圖重構(gòu)而成的新圖集。

      進(jìn)一步的,本發(fā)明的基于圖集重構(gòu)與圖核降維的圖分類方法,步驟3)根據(jù)步驟2)中重構(gòu)好的新圖集,采用weisfeiler-lehman最短路徑核方法獲得用于描述圖集中每兩個圖之間相似性的核矩陣,weisfeiler-lehman算法的最短路徑圖核定義為:

      其中最短路徑核ksp作為該圖核的基函數(shù),定義為:

      其中i∈{0,…,h}表示第i次迭代過程,ω表示三元組之間的核函數(shù),如果兩條最短路徑e、e'的起始節(jié)點、終止節(jié)點以及路徑長度均相同,則ω(e,e')的值為1,否則為0。人為地指定迭代次數(shù)h之后,對于輸入的訓(xùn)練圖集gtrain={g1,g2,…,gn},利用最短路徑核方法可以得到核矩陣在此基礎(chǔ)上,利用該核矩陣與各個訓(xùn)練圖對應(yīng)的類標(biāo)簽信息,采用kfda算法對利用圖核映射到特征空間中的高維數(shù)據(jù)進(jìn)行降維,kfda的目標(biāo)函數(shù)為:

      其中分子表示類間距離,分母表示類內(nèi)距離,ω∈f空間,任意f空間內(nèi)的解ω都可以由投影到f空間內(nèi)的原數(shù)據(jù)組合得到,即:φ表示一個投影到f特征空間的映射函數(shù)。訓(xùn)練圖在ω的投影為:

      于是可得到由向量表示的、包含了訓(xùn)練圖集的主要特征也使得問題的分析解決更加合理化的低維數(shù)據(jù)集

      進(jìn)一步的,本發(fā)明的基于圖集重構(gòu)與圖核降維的圖分類方法,步驟4)根據(jù)步驟3)得到的低維數(shù)據(jù),基于極限學(xué)習(xí)機(jī)(elm)對投影到低維向量空間的圖數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建出分類器。該步驟中需要人為地指定elm隱藏層神經(jīng)元個數(shù)l,然后elm隨機(jī)分配輸入權(quán)重wi與偏置bi,從而計算出隱藏層節(jié)點的輸出:

      然后根據(jù)計算出輸出權(quán)重,其中是矩陣h的廣義逆,t為期望輸出。

      進(jìn)一步的,本發(fā)明的基于圖集重構(gòu)與圖核降維的圖分類方法,步驟5)根據(jù)步驟3)中的圖核降維過程,規(guī)范化需要進(jìn)行分類的圖數(shù)據(jù),將其投影到訓(xùn)練得到的低維空間。首先使用weisfeiler-lehman最短路徑核方法計算待分類的圖數(shù)據(jù)與訓(xùn)練圖集中各個圖之間的相似性,得到相似性向量[ksp(g1,g),ksp(g2,g),…,ksp(gn,g)],然后采用kfda降維方法,使用下式對其進(jìn)行降維:

      將降維后的數(shù)據(jù)輸入到步驟4構(gòu)建出的elm分類器中,即可根據(jù)hβ=t得到類標(biāo)簽未知的圖的分類結(jié)果。

      有益效果

      本發(fā)明針對機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘中的圖數(shù)據(jù)分類問題,通過圖集重構(gòu)與圖核降維,實現(xiàn)圖數(shù)據(jù)分類模型的構(gòu)建,并以此對類標(biāo)簽未知的圖數(shù)據(jù)進(jìn)行分類。本發(fā)明的有點主要體現(xiàn)在三個方面:(1)以頻度差作為篩選標(biāo)準(zhǔn),找出判別性較強(qiáng)的子圖并以此重構(gòu)原始圖集,可以減小圖集的規(guī)模,并將圖集中對分類結(jié)果具有混淆作用的部分去除;(2)采用圖核函數(shù)將圖數(shù)據(jù)映射到高維空間,再使用kfda算法對高維矩陣進(jìn)行降維,該過程充分利用了訓(xùn)練圖集的類別信息,提升了分類器的性能;(3)可以直接對類標(biāo)簽未知的圖數(shù)據(jù)進(jìn)行測試和分類。

      附圖說明

      圖1是基于圖集重構(gòu)與圖核降維的圖分類方法的流程圖。

      圖2是weisfeiler-lehman圖核函數(shù)迭代過程示意圖。圖中以一次迭代為例,展示了圖核映射中的多標(biāo)簽映射、標(biāo)簽排序、標(biāo)簽壓縮與標(biāo)簽重新分配的過程。

      具體實施方式

      下面結(jié)合附圖對技術(shù)方案的實施作進(jìn)一步的詳細(xì)描述:

      結(jié)合流程圖及實施案例對本發(fā)明所述的基于圖集重構(gòu)與圖核降維的圖分類方法作進(jìn)一步的詳細(xì)描述。

      本實施案例對帶有類標(biāo)簽的訓(xùn)練圖集采用圖集重構(gòu)與圖核降維的方法,并使用極限學(xué)習(xí)機(jī)構(gòu)造分類器,通過此分類器可實現(xiàn)對未知圖數(shù)據(jù)的分類。如圖1所示,本方法包含如下步驟:

      步驟10,對用于訓(xùn)練的圖數(shù)據(jù)集進(jìn)行頻繁子圖挖掘,對找出的頻繁子圖,以其在正負(fù)兩類中出現(xiàn)的頻度差的大小作為判別性指標(biāo),進(jìn)行判別性子圖篩選;

      步驟101,采用gspan頻繁子圖挖掘算法對訓(xùn)練圖集進(jìn)行頻繁子圖挖掘,所要挖掘的頻繁子圖的支持度是在gspan算法的輸入階段人為設(shè)定的,在這里取支持度為0.4,通過gspan算法,可以找出訓(xùn)練圖集中所有支持度大于0.4的頻繁子圖,并且獲得這些子圖分別出現(xiàn)在圖集中的哪些圖中,以及子圖中包含的節(jié)點與邊的信息;

      步驟102,根據(jù)公式分別計算通過gspan算法獲得的每個頻繁子圖在訓(xùn)練集的正類圖中的支持度r+(g)與負(fù)類圖中的支持度r-(g);

      步驟103,根據(jù)公式score(g)=|r+(g)-r-(g)|,將各個頻繁子圖在正負(fù)兩類圖中的支持度相減后得到的結(jié)果,作為各個頻繁子圖的判別性得分;

      步驟104,將所有頻繁子圖按照判別性得分的高低降序排序,然后根據(jù)預(yù)先設(shè)定的判別性子圖比例篩選出得分較高的一部分頻繁子圖作為判別性子圖,在這里取判別性子圖比例為50%,即選擇判別性得分排在前50%的子圖作為判別性子圖;

      步驟20,根據(jù)上一步得到的判別性子圖,重構(gòu)原圖集;

      步驟201,gspan頻繁子圖挖掘算法的輸出結(jié)果中包含各個頻繁子圖中所包含的節(jié)點與邊的信息,以及該頻繁子圖所處的圖的編號,對于原圖集的重構(gòu)過程,是依次對原圖集中的每一個圖,考察各個判別性子圖是否在該圖中出現(xiàn);

      步驟202,如果一個判別性頻繁子圖在該圖中出現(xiàn),則將該判別性子圖中所包含的節(jié)點與邊信息加到與原圖集對應(yīng)的新圖集里去,如果沒有出現(xiàn),則繼續(xù)考察下一個判別性子圖;

      步驟203,針對原圖集中的一張圖,對所有的判別性子圖執(zhí)行步驟202的操作,即可對該訓(xùn)練圖進(jìn)行重構(gòu);

      步驟204,對訓(xùn)練圖集中的每一張圖執(zhí)行步驟201-203的操作,即可獲得一個與原圖集一一對應(yīng)、僅由判別性子圖重構(gòu)而成的新圖集;

      步驟30,根據(jù)上一步重構(gòu)好的新圖集,采用weisfeiler-lehman最短路徑核方法獲得用于描述圖集中每兩個圖之間相似性的核矩陣,并利用訓(xùn)練圖的類標(biāo)簽信息,采用kfda算法對高維核矩陣降維;

      步驟301,weisfeiler-lehman圖核映射函數(shù)的迭代過程如圖2所示,圖2以一次迭代為例,展示了圖核映射中的多標(biāo)簽映射、標(biāo)簽排序、標(biāo)簽壓縮與標(biāo)簽重新分配的過程,weisfeiler-lehman最短路徑核的迭代次數(shù)h需要人為設(shè)定,這里設(shè)置為5次;

      步驟302,根據(jù)公式ksp(g,g')=∑e∈s∑e'∈s'ω(e,e')與

      計算出經(jīng)過5次迭代之后,重構(gòu)圖集中每兩個圖之間的相似性,從而得到核矩陣

      步驟303,根據(jù)核矩陣與各個訓(xùn)練圖對應(yīng)的類標(biāo)簽信息,采用kfda算法對利用圖核映射到特征空間中的高維數(shù)據(jù)進(jìn)行降維,即最大化目標(biāo)函數(shù)得到

      步驟304,根據(jù)公式計算訓(xùn)練圖在ω上的投影,從而獲得由訓(xùn)練圖集轉(zhuǎn)化而成、用向量表示的低維數(shù)據(jù)集

      步驟40,根據(jù)上一步得到的低維數(shù)據(jù),基于極限學(xué)習(xí)機(jī)對投影到低維向量空間的圖數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建出分類器;

      步驟401,極限學(xué)習(xí)機(jī)在訓(xùn)練前需要人為指定其隱藏層神經(jīng)元個數(shù)l,在這里設(shè)置為200;

      步驟402,極限學(xué)習(xí)機(jī)隨機(jī)分配輸入權(quán)重wi與偏置bi,然后根據(jù)公式

      計算出隱藏層節(jié)點的輸出;

      步驟403,根據(jù)公式計算出輸出權(quán)重;

      步驟50,根據(jù)步驟30中的圖核降維過程,規(guī)范化需要進(jìn)行分類的圖數(shù)據(jù),將其投影到訓(xùn)練得到的低維空間,并把投影后的數(shù)據(jù)輸入到步驟40構(gòu)建出的分類器中,得到分類結(jié)果;

      步驟501,使用weisfeiler-lehman最短路徑核方法,計算待分類的圖數(shù)據(jù)與訓(xùn)練圖集中各個圖之間的相似性,得到相似性向量[ksp(g1,g),ksp(g2,g),…,ksp(gn,g)];

      步驟502,采用kfda算法,根據(jù)公式對待分類圖的相似性向量進(jìn)行降維;

      步驟503,將降維后的數(shù)據(jù)輸入到步驟40構(gòu)建出的極限學(xué)習(xí)機(jī)分類器中,根據(jù)公式hβ=t得到類標(biāo)簽未知的圖的分類結(jié)果。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1