理說明了在對帶權(quán)圖像完全圖稀疏化處理的過程中,當稀疏因子不為1 時,則每個頂點都至少減少一條邊,不會造成有一個頂點一條邊也沒有減少的情況。如下為 定理的證明過程。
[0055] 證明:假設(shè)當稀疏因子e辛1時,存在這樣一個頂點V,即在經(jīng)稀疏化剪枝處理后 得到的圖G'中其一條邊都沒有減少,那么按照算法1則有該頂點與圖G'中的每個頂點均 有公共邊,也就是在根據(jù)丨dl:進行取邊的過程中,頂點V的邊全部被選取,即稀疏化因子e = 1,然而這與已知條件e辛1相矛盾。所以,假設(shè)不成立,原命題可證。
[0056] 定義2.給定一個簇,一個頂點V的熵e (V)是在頂點V的簇內(nèi)連接和簇外連接的 概率分布的基礎(chǔ)上定義的,e (V)的計算方法如下:
[0057] e (V) = -Pi (V) Iog2Pi (V) -p。(V) log2p。(V)
[0058] 其中,Pi(V)代表頂點V屬于該簇(即簇內(nèi)連接)的概率,計算方法為
上式的
代表頂點V和與它相連的簇內(nèi)頂點之間邊的權(quán)值倒數(shù)之和,此值越大說明頂 點V與簇內(nèi)頂點之間的聯(lián)系越緊密,
代表頂點V所有邊的權(quán)值倒數(shù)之和。頂點V簇內(nèi) 連接的概率Ρι (V)越大說明此點屬于這個簇的概率也大,反之則說明屬于這個簇的概率小, Pci(V)代表頂點V不屬于該簇的概率,計算方法為u
[0059] 定義3.給定一個簇,一個圖G (V,E,W)的熵e (G)被定義為在圖G中所有頂點的熵 之和,e (G)的計算方法如下:
[0060]
[0061] 圖1是對頂點熵和圖熵的計算方法的舉例,它為10張腦部CT圖像抽象 出的帶權(quán)無向圖G,其中頂點集V = Iv1, v2, v3, v4, v5, v6, v7, vs, v9, V1J,邊集E = IeljIl < i < 10, I < j < 10,且i e V,j G V},經(jīng)過圖像之間的相似度計算,它邊上的權(quán) 值集合為 W = {w12= 4. 0088, w 14= 3. 9554, w 15= 4. 2151,w 17= 3. 8840, w 2,10= 5. 1941,w 39 =4. 4938, w3,10= 4. 7696, w 45= 4. 4721,w 47= 3. 8554, w 48= 4. 6409, w 56= 4. 0188, w 57 = 3. 5017, W67= 4. 2604},對于頂點V i來說,它的所有鄰居節(jié)點均在簇G'內(nèi),所以根據(jù)之前的 計算公式有,Pi (V1) = Lpci(V1) =0,所以有該頂點的熵O(V1) =0。對于頂Av3來說,它所 有的鄰居節(jié)點均不在簇G'內(nèi),則Pi(V3) = 0, Pci(V3) = 1,且它的頂點熵e(v3)也同樣為0, 對于頂點V2,邊e21在簇G'內(nèi),邊e 2il。不在簇G'內(nèi),所以根據(jù)計算Pi (v2) = 0.5645,Pci(V2) =0. 4355,頂點V2的熵e (V2) = 0. 988,以此類推,可以算出其他頂點的熵,最后得到圖熵值 為 e (G) = 4. 3422。
[0062] 2.帶權(quán)無向完全圖稀疏化方法的步驟:
[0063] 將醫(yī)學圖像集抽象成一個帶權(quán)無向完全圖G之后,要對此圖G進行稀疏化剪枝處 理。對于有η個頂點的帶權(quán)無向完全圖G,它所含有邊的數(shù)量將此m條邊按升序 .一' 進行排列,對于每一個頂點V1,它均有d條邊,且d = n-1,為頂點V1創(chuàng)建權(quán)值隊列,頂點所 具有的邊信息按權(quán)值降序存入隊列中,將頂點V1的前[?Π條邊出隊放入集合S中。稀疏因子 e它的取值范圍是[0, 1],當e取〇時,丨,1的值為1,也就是說每個頂點\有一條邊被放入 集合S中。當e取1時,就是將每個頂點V1的所有邊全部放入集合S中,用哈希方法查找出 集合S中所有重復邊的信息,對這些重復邊去重之后存入集合S'中,也就是說此時集合S' 中存放的是所有頂點之間存在的公共邊,這些公共邊的含義為邊的兩個端點均認為對方與 之很相似,所以會對這條邊進行保留,若不是公共邊,只能說明該邊的一個端點認為與另一 端點相似,但是另一個端點卻不這樣認為,這樣的邊是不能很好的反應(yīng)兩個頂點的相似性。
[0064] 通過對原圖G進行稀疏化剪枝處理得到圖G',在這個過程中將圖G中的所有邊 按照升序進行快速排列,邊的數(shù)量為m,其時間復雜度為O(mlogm),之后為每一個頂點創(chuàng) 建隊列,按升序存儲其每條邊的權(quán)值并從中選取前M 1條邊放入集合S中的時間復雜度為 ,哈希法查找重復邊的時間復雜度為0(1),最后從圖G中刪除變得到最后的帶權(quán)圖 G'的時間復雜度為0(1),所以稀疏化剪枝過程總的時間復雜度為O(mlogm)。
[0065] 圖2(a) (b) (c) (d)所示為醫(yī)學圖像帶權(quán)無向完全圖稀疏化過程舉例,其中頂點集 V = (Vi, V2, V3, V4, V5, V6, V7, V8, V9, ViJ,邊集 E = Ieu 11 彡 i 彡 10, 1 彡 j 彡 10,且 i G V, j e V},經(jīng)過圖像之間的相似度計算,它們邊上的權(quán)值集合為W = Iw12= 4. 0088, w 13= 4. 8251,W14= 3. 9554, w 15= 4. 2151,w 16= 4. 5925, w 17= 3. 8840, w 18= 4. 8045, w 19 = 5. 4477, W110= 4. 6055, w 23= 6. 0454, w 24= 5. 6607, w 25= 5. 3834, w 26= 5. 5883, W27 = 5.327,w28= 5. 9271,W 29= 6. 5373, W210= 5. 1941,W 34= 5. 5293, w 35= 5. 3505, W36 = 5. 1468, W37= 5. 5658, w 38= 5. 2673, w 39= 4. 4938, w 3 10= 4. 7696, w 45= 4. 4721,w 46 = 4. 9582, W47= 3. 8554, w 48= 4. 6409, w 49= 6. 4504, w 4 10= 6. 1606, w 56= 4. 0188, w 57 = 3. 5017, W58= 4. 9082, W 59= 6. 2617, W 5 10= 5. 9724, W 67= 4. 2604, W 68= 5. 5589, W69 = 5. 9774, W610= 5. 7314, w 78= 4. 6685, w 79= 6. 0805, w 7 10= 5. 8429, w 89= 6. 3307, w 810 = 6. 3362, Weuq= 6. 0956},圖2(a)為10張醫(yī)學圖像抽象出的帶權(quán)無向完全圖。在這里,選 取的稀疏因子e以0. 6為例,則對于每個頂點它所保留邊的數(shù)量為[,1=4,如圖2 (b)所示, 其中實線表示兩個頂點均要保留的邊即公共邊,虛線表示只有一個端點要對其進行保留的 邊。進一步地,圖2(c)所示為留下圖2(b)中實線的邊,這些邊將可以充分的對圖像之間的 相似性進行描述。為了方便觀察圖的結(jié)構(gòu),得到圖2(c)的同構(gòu)圖,如圖2(d)所示。
[0066] 3.基于圖熵的帶權(quán)無向圖聚類方法的時間復雜度:
[0067] 在基于圖熵的帶權(quán)無向圖聚類方法中,若帶權(quán)無向圖G'有η個頂點,從種子頂點 候選集合S中每次選取一個種子頂點,將此種子頂點及其鄰居結(jié)點構(gòu)成簇C,計算在此簇C 時每個頂點熵和圖熵值的時間復雜度為〇(η),對簇C進行增加和減少頂點的過程中,它們 的時間復雜度均為〇 (η),將簇C中的頂點從集合S中移除的算法時間復雜度為0(1)。由于 以上過程最多循環(huán)η次,所以此算法時間復雜度最高為0 (η2)。
[0068] 本發(fā)明的關(guān)鍵在于,將醫(yī)學圖像集抽象成帶權(quán)無向完全圖,之后用稀疏化的方法 將此圖進行剪枝處理,從而利用基于圖熵的帶權(quán)無向圖聚類方法對醫(yī)學圖像進行聚類。該 方法較其他聚類方法相比優(yōu)勢在于:
[0069] 可以有效縮短聚類的時間。通過對醫(yī)學圖像帶權(quán)無向完全圖的稀疏化剪枝處理, 可以得到一個既能描述頂點之間的相似性關(guān)系,又可對原圖進行簡化的圖。通過對此圖進 行聚類可以縮短聚類時間。
[0070] 不用指定聚類的數(shù)目。通過使用基于圖熵的帶權(quán)無向圖聚類方法,不需要提前指 定聚類數(shù)目,可以根據(jù)圖中頂點之間固有的關(guān)系進行聚類,可達到良好的聚類效果。
[0071] 準確性高。采用平均f-score作為衡量聚類準確率的標準,采用此標準可以有效 對聚類效果進行評估。
[0072] 本發(fā)明充分考慮了醫(yī)學圖像間的相似性關(guān)系,通過對醫(yī)學圖像帶權(quán)無向完全圖進 行稀疏化剪枝處理,并對處理之后的圖進行聚類,可以更加快速的得到醫(yī)學圖像的聚類結(jié) 果,并且使聚類的效果也同樣表現(xiàn)良好。
【主權(quán)項】
1. 一種基于圖熵的醫(yī)學圖像聚類方法,其特征在于,包括如下步驟: (1) 待聚類圖像提出聚類請求:待聚類圖像為原始醫(yī)學圖像數(shù)據(jù); (2) 圖像預(yù)處理過程:對原始醫(yī)學圖像提取感興趣區(qū)域,計算圖像ROI區(qū)域的灰度直方 圖,得到圖像ROI區(qū)域的灰度直方圖的波谷列表,根據(jù)波谷列表對圖像分級提取紋理特征, 將得到的分級紋理圖像規(guī)范化到統(tǒng)一的大小,之后將此紋理圖像分區(qū)域,通過比較兩張紋 理圖像對應(yīng)區(qū)域的直方圖的差值之和,來衡量醫(yī)學圖像之間的相似程度; (3) 圖的稀疏化:將醫(yī)學圖像集抽象成帶權(quán)無向完全圖,之后對其進行稀疏化剪枝處 理; (4) 基于圖熵的帶權(quán)無向圖聚類:計算帶權(quán)無向圖中頂點熵和圖熵,并在此基礎(chǔ)上為 圖熵的帶權(quán)無向圖聚類; (5) 展示結(jié)果。2. 根據(jù)權(quán)利要求1所述的一種基于圖熵的醫(yī)學圖像聚類方法,其特征在于:所述的圖 的稀疏化過程為:首先將醫(yī)學圖像集抽象成圖,其中,每個頂點代表一張醫(yī)學圖像,醫(yī)學圖 像之間的相似度作為頂點之間所連邊上的權(quán)值,所夠成的圖是一個帶權(quán)無向完全圖;之后 根據(jù)稀疏因子e,e的取值范圍是[0, 1],每個頂點將會保留丨#1條邊,其中d為該頂點原有 邊的數(shù)量;當邊在稀疏化過程中被其兩個端點均保留時,則此邊將繼續(xù)保留在圖中,否則將 從圖中刪除;此時圖中所留下的邊為兩個頂點在剪枝過程中均要保留的公共邊。3. 根據(jù)權(quán)利要求1所述的一種基于圖熵的醫(yī)學圖像聚類方法,其特征在于:所述的基 于圖熵的帶權(quán)無向圖聚類:計算帶權(quán)無向圖中頂點熵和圖熵;在形成每個簇的過程中,通 過使在此簇的件下圖熵的值達到最小來優(yōu)化此簇的結(jié)果,迭代上述過程來形成聚類結(jié)果集 合 C1. ? ? Cn〇
【專利摘要】本發(fā)明屬于醫(yī)療信息技術(shù)領(lǐng)域,具體涉及一種基于圖熵的醫(yī)學圖像聚類方法。本發(fā)明包括:(1)待聚類圖像提出聚類請求;(2)圖像預(yù)處理過程;(3)圖的稀疏化;(4)基于圖熵的帶權(quán)無向圖聚類;(5)展示結(jié)果。本發(fā)明提出利用圖熵的方法對醫(yī)學圖像進行聚類,通過將醫(yī)學圖像集抽象成完全圖,之后對其進行稀疏化剪枝處理,所留下的邊說明兩張圖像均認為與對方很相似,最后提出帶權(quán)無向圖的聚類方法。通過以上過程對醫(yī)學圖像進行聚類,可以有效的降低聚類時間而且聚類的準確率也沒有明顯的降低,利用這種方法可以輔助醫(yī)生在日常工作中對病人的病情進行診斷。
【IPC分類】G06T7/40, G06F17/30
【公開號】CN105139430
【申請?zhí)枴緾N201510534713
【發(fā)明人】潘海為, 戰(zhàn)宇, 韓啟龍, 謝曉芹, 張志強, 吳枰
【申請人】哈爾濱工程大學
【公開日】2015年12月9日
【申請日】2015年8月27日