專利名稱:基于復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的層次重疊核心藥群發(fā)現(xiàn)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種構(gòu)建中藥方劑(TCMF)網(wǎng)絡(luò)的方法和一種適用TCMF網(wǎng)絡(luò)的層次重疊核心藥群發(fā)現(xiàn)方法。
背景技術(shù):
目前利用數(shù)據(jù)挖掘技術(shù)探討方劑配伍規(guī)律的研究主要有以下三種模式以分類為主的數(shù)據(jù)挖掘研究模式,以聚類為主的數(shù)據(jù)挖掘研究模式和以關(guān)聯(lián)規(guī)則挖掘為主的研究模式。這三種模式多集中在藥對、藥組或藥癥、癥證關(guān)聯(lián)等局部信息的分析上,在掲示中醫(yī)理論體系的“復(fù)雜性”與方劑配伍規(guī)律的“內(nèi)隱性”方面還有些不足之處,例如以聚類為主的數(shù)據(jù)挖掘研究模式很難解決藥物(或方劑)聚類的單分配問題,以關(guān)聯(lián)規(guī)則挖掘為主的數(shù)據(jù)挖掘研究模式很難發(fā)現(xiàn)低頻繁的核心藥群等。用網(wǎng)絡(luò)的觀點描述客觀世界起源于1736年德國數(shù)學(xué)家Eular解決哥尼斯堡七橋問題。Watts DJ和Barabasi AL分別向人們展示了復(fù)雜網(wǎng)絡(luò)的特征小世界和無標(biāo)度,同時他們還建立了對應(yīng)的數(shù)學(xué)模型來闡釋特征形成的原因。利用網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)來挖掘其功能模塊和組織結(jié)構(gòu)是社團結(jié)構(gòu)發(fā)現(xiàn)的主要目標(biāo),迄今為止有大量的研究者投入了很大的努力,學(xué)術(shù)界已提出了許多社團發(fā)現(xiàn)算法,F(xiàn)ortunato對這些算法提供了一個較為全面的總結(jié),給出了三個較為常見的社區(qū)結(jié)構(gòu)定義局部定義、全局定義和結(jié)點相似度定義,事實上還有邊相似度定義。算法優(yōu)劣的衡量大多是建立在對人工網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)劃分準(zhǔn)確性的基礎(chǔ)上,對于現(xiàn)實世界中的真實復(fù)雜網(wǎng)絡(luò)還需要與之相適應(yīng)的社區(qū)發(fā)現(xiàn)算法?,F(xiàn)實世界中有很多的真實復(fù)雜網(wǎng)絡(luò),如社會網(wǎng)絡(luò)、互聯(lián)網(wǎng)頁面間互相鏈接網(wǎng)絡(luò)、文獻(xiàn)引用網(wǎng)絡(luò)、生物學(xué)網(wǎng)絡(luò)(如蛋白質(zhì)相互作用網(wǎng)絡(luò))、論文合著網(wǎng)絡(luò)等等。不同的真實網(wǎng)絡(luò)結(jié)構(gòu)代表其研究方向的現(xiàn)實意義,如在蛋白質(zhì)相互作用網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)代表功能相近的蛋白質(zhì),而社交網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)代表因某種關(guān)系(如朋友,家人等)或興趣相近而形成的群體。為了進(jìn)一歩掲示中醫(yī)理論體系的“復(fù)雜性”與方劑配伍規(guī)律的“內(nèi)隱性”,我們從復(fù)雜網(wǎng)絡(luò)社團發(fā)現(xiàn)的角度出發(fā)用復(fù)雜網(wǎng)絡(luò)的模型來探索方劑配伍規(guī)律,提出一種新的真實復(fù)雜網(wǎng)絡(luò),中醫(yī)藥方劑(Traditional Chinese Medicine Formula,簡寫TCMF)網(wǎng)絡(luò),由于存在方劑“單方_>基本方_>復(fù)方”的衍變及存在加減方等因素,TCMF網(wǎng)絡(luò)是ー種區(qū)別于傳統(tǒng)復(fù)雜網(wǎng)絡(luò)的高重疊網(wǎng)絡(luò),不僅具有重疊結(jié)點,還具有重疊邊,傳統(tǒng)的重疊社區(qū)發(fā)現(xiàn)算法并不適用于TCMF網(wǎng)絡(luò),因此,我們又提出適用該網(wǎng)絡(luò)的重疊層次社區(qū)發(fā)現(xiàn)算法。
發(fā)明內(nèi)容
本發(fā)明目的是提出一種構(gòu)建TCMF網(wǎng)絡(luò)的方法和一種適用TCMF網(wǎng)絡(luò)的層次重疊核心藥群發(fā)現(xiàn)方法。本發(fā)明目的還在于提出ー種從另ー個角度(TCMF復(fù)雜網(wǎng)絡(luò))來描述中藥方劑配伍規(guī)律的方法,ー是提供一種構(gòu)建TCMF網(wǎng)絡(luò)的方法以更好的展現(xiàn)方劑配伍規(guī)律,ニ是提供一種適用TCMF網(wǎng)絡(luò)的重疊層次核心藥群發(fā)現(xiàn)方法以挖掘藥群潛在配伍關(guān)系。本發(fā)明技術(shù)方案為解決上述問題,本發(fā)明提出一種構(gòu)建TCMF網(wǎng)絡(luò)的方法和ー種適用于TCMF網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的層次重疊核心藥群發(fā)現(xiàn)方法,主要技術(shù)包括如下步驟步驟ー TCMF網(wǎng)絡(luò)的構(gòu)建方法a)對給定數(shù)量的方劑計算每味藥物的AC值(貢獻(xiàn)度,用量)并刪掉AC值小于一定閾值的藥物;b)計算ニ元組藥物的AC值做刪減,再計算三元組藥物的AC值做刪減;c)剩余三元組構(gòu)建TCMF網(wǎng)絡(luò);d)結(jié)束;步驟ニ TCMF網(wǎng)絡(luò)層次重疊核心藥群發(fā)現(xiàn)方法a)預(yù)處理步驟I得到的TCMF網(wǎng)絡(luò);b)對預(yù)處理后的TCMF網(wǎng)絡(luò)執(zhí)行MAIGA算法進(jìn)行藥群發(fā)現(xiàn);c)返回藥群劃分結(jié)果;d)結(jié)束;其中步驟一和步驟ニ所說的TCMF網(wǎng)絡(luò)為中醫(yī)藥方劑(Traditional Chinese MedicineFormula,簡寫 TCMF)網(wǎng)絡(luò)。步驟ー _a中所說的藥物在方劑中的AC值為出現(xiàn)貢獻(xiàn)度(Appear Contribution,簡寫AC),藥物X的出現(xiàn)貢獻(xiàn)度px,計算公式為Px=^-(I)式中R size為方劑F所包含藥物種類數(shù)(即方劑中藥物數(shù)量)。。步驟ー _b所述的ニ元組藥物組合xy的AC值pxy計算公式為Ρ^=γ—⑵步驟ー _b所述的三元組藥物組合xyz的AC值pxyz計算公式為Ρ^=γ—⑶步驟ー -C中所說的剩余三元組構(gòu)建TCMF網(wǎng)絡(luò)為對AC值pxyz大于給定閾值的三元組藥物組合構(gòu)建網(wǎng)絡(luò),其具體過程為初始TCMF網(wǎng)絡(luò)為空(沒有結(jié)點和邊),遍歷每個三元組藥物組合,把三元組中姆一味藥物作為結(jié)點,若TCMF網(wǎng)絡(luò)中不存在該藥物結(jié)點,則將該結(jié)點加入網(wǎng)絡(luò),然后將該三元組中的三個藥物結(jié)點每兩個組合為一條邊加入到TCMF網(wǎng)絡(luò)中,從而構(gòu)建得到TCMF網(wǎng)絡(luò)。步驟ニ _a中所說的預(yù)處理為對步驟Ι-c構(gòu)建的TCMF網(wǎng)絡(luò)設(shè)定停詞閾值(max_ac)去除高AC值但是低相關(guān)的藥物(如甘草)。步驟ニ _b中所說的MAIGA算法為極大團生長算法(MAx clique Growing Algorithm,簡寫MAIGA),包括兩部分極大團生長(MaxCliqueGrowing)和簇合并(ClusterMerging),其具體過程如下MAIGA算法極大團生長部分,具體步驟為步驟O為起始步驟;
步驟I為給定TCMF網(wǎng)絡(luò);步驟2為計算TCMF網(wǎng)絡(luò)結(jié)點度存于哈希表hmNodeDegree ;步驟3為判斷hmNodeDegree是否為空,若不為空,執(zhí)行步驟4,否則算法終止;步驟4為取hmNodeDegree中度最大的結(jié)點u構(gòu)建極大團C,構(gòu)建過程為尋■找結(jié)點u及其鄰結(jié)點集合N(u),若結(jié)點集N(U) U {u}不是完全圖,則重復(fù)執(zhí)行刪掉N(u)中結(jié)點X的工作直到N(U) U {u}是完全圖,其中結(jié)點X在子圖N(U) U {u}中的內(nèi)度 < 最??;步驟5為判斷是否極大團C的結(jié)點數(shù)C. size = 2,若是,執(zhí)行步驟6,否則執(zhí)行步驟7 ; 步驟6為輸出C并且hmNodeDegree. remove (U),執(zhí)行步驟3 ;步驟7為尋找C鄰結(jié)點集N。,這里N。一N(C,C) ;U。為C真子集,其中u為結(jié)點,Sc (Sc e Uc),Uc ({Sc e Uc | Sc. size > l&u e Sj);步驟8為判斷是否N。為空,若空,執(zhí)行步驟13,否則執(zhí)行步驟9 ;步驟9為任取N。中ー結(jié)點V ;步驟10為判斷結(jié)點V是否滿足dvC+Cin彡σ (C. size+1),若是執(zhí)行步驟12,否則執(zhí)行步驟11;步驟11為Nc = Nc- M ,然后執(zhí)行步驟8 ;步驟12為執(zhí)行算法Grow(C, v, C),然后執(zhí)行步驟11 ;步驟13 為求 C 真子集 U。,其中 Uc ({Sc e Uc | Sc. size > l&u e Sj);步驟14為取任一 S。e U。尋找其鄰接點集中dwS最大的結(jié)點W,執(zhí)行Grow(S。,w,C);步驟15為刪除結(jié)點u到C中其它結(jié)點的邊;步驟16為更新hmNodeDegree,然后執(zhí)行步驟3 ;步驟17為算法的終止;算法說明極大團為極大完全圖,它不會包含在比它更大的完全圖中,哈希表hmNodeDegr存放〈node, degree〉鍵值對,Cin為社團C所包含邊數(shù),N。一 N(C, Cx)為求社團極大團C的不包含在Cx中的鄰結(jié)點集合N。。σ (|C|)為衡量社団生長合適度的密度函數(shù)CT(|C|) = i|C|j Cfl(4)極大團生長算法中的Grow(C, V, Cx)是ー個遞歸的函數(shù),具體步驟如下步驟31 :C 一 C U {u}, canGrow 一 false ;步驟32 :尋找C的鄰結(jié)點集合N。一 N(C,Cx),對于N。中每ー個結(jié)點V,若dvC+Cm^ ο (C. size+1), canGrow — true,執(zhí)行 Grow(C, v, Cx);步驟33 :若 canGrow = false, R — R U {C}。實際上在算法中所尋找的極大團可以認(rèn)為是生長的種子,生長成的社團為高密度社団。I)簇合并算法在簇合并算法中,社団Ci, Cj的距離定義如下
權(quán)利要求
1.基于復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的層次重疊核心藥群發(fā)現(xiàn)方法,其特征是包括如下步驟 步驟ー TCMF網(wǎng)絡(luò)的構(gòu)建方法 a)對給定數(shù)量的方劑計算每味藥物的貢獻(xiàn)度和用量AC值并刪掉AC值小于一定閾值的藥物; b)計算ニ元組藥物的AC值做刪減,再計算三元組藥物的AC值做刪減; c)剩余三元組構(gòu)建TCMF網(wǎng)絡(luò); d)結(jié)束; 步驟ニ TCMF網(wǎng)絡(luò)層次重疊核心藥群發(fā)現(xiàn)方法 a)預(yù)處理步驟一得到的TCMF網(wǎng)絡(luò); b)對預(yù)處理后的TCMF網(wǎng)絡(luò)執(zhí)行MAIGA算法進(jìn)行藥群發(fā)現(xiàn); c)返回藥群劃分結(jié)果; d)結(jié)束; 其中 步驟ー和步驟ニ所述的TCMF網(wǎng)絡(luò)為中醫(yī)藥方劑網(wǎng)絡(luò); 步驟ー _a所述的藥物在方劑中的AC值,即將藥物X的出現(xiàn)貢獻(xiàn)度px,計算公式為PHe ⑴ 式中F. size為方劑F所包含的藥物種類數(shù)、即方劑中藥物數(shù)量; 步驟ー _b所述的ニ元組藥物組合xy的AC值pxy計算公式為 Pxy = Fsize⑵ 步驟ー _b所述的三元組藥物組合xyz的AC值pxyz計算公式為 Pxyz ~ F.size⑶ 步驟ー -C中所述的剩余三元組構(gòu)建TCMF網(wǎng)絡(luò)為對AC值pxyz大于給定閾值的三元組藥物組合構(gòu)建網(wǎng)絡(luò),其具體過程為 初始TCMF網(wǎng)絡(luò)為空、即沒有結(jié)點和邊,遍歷每個三元組藥物組合,把三元組中每一味藥物作為結(jié)點,若TCMF網(wǎng)絡(luò)中不存在該藥物結(jié)點,則將該結(jié)點加入網(wǎng)絡(luò),然后將該三元組中的三個藥物結(jié)點每兩個組合為一條邊加入到TCMF網(wǎng)絡(luò)中,從而構(gòu)建得到TCMF網(wǎng)絡(luò); 步驟ニ _a中所述的預(yù)處理為對步驟一 -C構(gòu)建的TCMF網(wǎng)絡(luò)設(shè)定停詞閾值(max_ac)去除高AC值但是低相關(guān)的藥物; 步驟ニ -b中所述的MAIGA算法為極大團生長算法(MAx clique GrowingAlgorithm,簡寫MAIGA),包括兩部分,極大團生長(MaxCliqueGrowing)算法和簇合并(ClusterMerging)算法,其具體過程如下 MAIGA算法極大團生長部分,具體步驟為 步驟O為起始步驟; 步驟I為給定TCMF網(wǎng)絡(luò); 步驟2為計算TCMF網(wǎng)絡(luò)結(jié)點度存于哈希表hmNodeDegree ; 步驟3為判斷hmNodeDegree是否為空,若不為空,執(zhí)行步驟4,否則算法終止; 步驟4為取hmNodeDegree中度最大的結(jié)點u構(gòu)建極大團C,構(gòu)建過程為尋■找結(jié)點u及其鄰結(jié)點集合N(u),若結(jié)點集N(u) U {u}不是完全圖,則重復(fù)執(zhí)行刪掉N(u)中結(jié)點X的エ作直到N(U) U {u}是完全圖,其中結(jié)點X在子圖N(U) U {u}中的內(nèi)度 < 最??; 步驟5為判斷是否極大團C的結(jié)點數(shù)C. size = 2,若是,執(zhí)行步驟6,否則執(zhí)行步驟7 ; 步驟6為輸出C并且hmNodeDegree. remove (U),執(zhí)行步驟3 ; 步驟7為尋找C鄰結(jié)點集N。,這里N。一 N(C, C) ;UC為C真子集,其中u為結(jié)點,Sc (Sc e Uc),Uc ({Sc e Uc | Sc. size > l&u e Sj); 步驟8為判斷是否N。為空,若空,執(zhí)行步驟13,否則執(zhí)行步驟9 ; 步驟9為任取N。中ー結(jié)點V ; 步驟10為判斷結(jié)點V是否滿足c^+Cin> σ (C.size+1),若是執(zhí)行步驟12,否則執(zhí)行步驟11 ; 步驟11為N。= N。-{v},然后執(zhí)行步驟8 ; 步驟12為執(zhí)行算法Grow (C,v, C),然后執(zhí)行步驟11 ;步驟 13 為求 C 真子集 Uc,其中 Uc ({Sc e Uc I Sc. size > l&u e Sj); 步驟14為取任一 S。e U。尋找其鄰接點集中dwS最大的結(jié)點w,執(zhí)行Grow (S。,w, C); 步驟15為刪除結(jié)點u到C中其它結(jié)點的邊; 步驟16為更新hmNodeDegree,然后執(zhí)行步驟3 ; 步驟17為算法的終止; 算法說明極大團為極大完全圖,它不會包含在比它更大的完全圖中,哈希表hmNodeDegr存放〈node, degree〉鍵值對,Cin為社團C所包含邊數(shù),N。一 N(C, Cx)為求極大團C的不包含在Cx中的鄰結(jié)點集合N。。σ (|C|)為衡量社団生長合適度的密度函數(shù) び(I C I) = O K1)(4)。
2.根據(jù)權(quán)利要求I所述的基于復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的層次重疊核心藥群發(fā)現(xiàn)方法,其特征是極大團生長算法中的Grow(C,v, Cx)是ー個遞歸的函數(shù),具體步驟如下步驟 31 :C — C U {u}, canGrow — false ; 步驟32 :尋■找C的鄰結(jié)點集合N。一N(C,CX),對于N。中每ー個結(jié)點V,若‘+CinS σ (C.size+1), canGrow — true,執(zhí)打 Grow(C, v, Cx);步驟 33 :若 canGrow = false, R — R U {C}; 在算法中所尋找的極大團是生長的種子,生長成的社團為高密度社団。
3.根據(jù)權(quán)利要求I所述的基于復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的層次重疊核心藥群發(fā)現(xiàn)方法,其特征是簇合并算法的具體步驟如下
全文摘要
基于復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的層次重疊核心藥群發(fā)現(xiàn)方法,包括如下步驟1)TCMF網(wǎng)絡(luò)的構(gòu)建a)對給定數(shù)量的方劑計算每味藥物的出現(xiàn)貢獻(xiàn)度并刪掉出現(xiàn)貢獻(xiàn)度小于一定閾值的藥物;b)計算二元組藥物的AC值做刪減,再計算三元組藥物的AC值做刪減;c)剩余三元組構(gòu)建TCMF網(wǎng)絡(luò);d)結(jié)束;2)TCMF網(wǎng)絡(luò)層次及重疊核心藥群發(fā)現(xiàn)a)預(yù)處理步驟1得到的TCMF網(wǎng)絡(luò);b)對預(yù)處理后的TCMF網(wǎng)絡(luò)執(zhí)行MAIGA算法進(jìn)行藥群發(fā)現(xiàn);c)返回藥群劃分結(jié)果;d)結(jié)束;本發(fā)明從復(fù)雜網(wǎng)絡(luò)的觀點出發(fā)來探索中藥方劑配伍規(guī)律,為中藥方劑挖掘的研究提供了新的模型,解決了傳統(tǒng)聚類單分配問題。
文檔編號G06F17/50GK102682162SQ20121012289
公開日2012年9月19日 申請日期2012年4月24日 優(yōu)先權(quán)日2012年4月24日
發(fā)明者吳駿, 孫道平, 王志堅, 許峰 申請人:河海大學(xué)