專利名稱:基于粒子群優(yōu)化的K-means聚類算法的基因芯片圖像分割法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種圖像的分割處理方法,具體涉及一種利用粒子群優(yōu)化的K-means 聚類算法對(duì)基因芯片圖像進(jìn)行自動(dòng)分割的方法。
背景技術(shù):
基因芯片(又稱DNA芯片或者生物芯片),是上世紀(jì)80年代中期發(fā)展起來(lái)的一種 新型實(shí)用的生物技術(shù),目前已成為國(guó)際生命科學(xué)研究的熱點(diǎn)之一。基因芯片技術(shù)基于雜交 原理,結(jié)合半導(dǎo)體工業(yè)的微型制造技術(shù)和分子生物學(xué)技術(shù),將數(shù)量巨大的寡核苷酸或cDNA 作為探針,通過(guò)高速機(jī)器人點(diǎn)樣的方式,以一定的順序或排列方式固定在一塊面積極小的 硅片、玻片或尼龍膜等基片上,經(jīng)熒光標(biāo)記的樣本與芯片上的DNA序列按堿基配對(duì)原理雜 交后,利用激光共聚焦熒光檢測(cè)系統(tǒng)得到熒光信號(hào),不同樣本中熒光信號(hào)的強(qiáng)度反應(yīng)了樣 本中mRNA的表達(dá)水平。通過(guò)處理和分析基因芯片雜交檢測(cè)圖像,可以對(duì)生物細(xì)胞或者組織 中大量的基因信息進(jìn)行分析。該技術(shù)具有高度的并行性、多樣性、微型性和自動(dòng)化等優(yōu)點(diǎn), 能夠在很短時(shí)間內(nèi)分析大量的生物分子,并快速準(zhǔn)確地獲取樣品中的生物信息,從而大大 提高了檢測(cè)效率?;蛐酒夹g(shù)已成為高效、快速、大規(guī)模獲取相關(guān)生物信息的重要手段。研究人員在對(duì)圖像的研究和應(yīng)用過(guò)程中,往往只對(duì)圖像中的某些部分感興趣(一 般對(duì)應(yīng)圖像中特定的、具有獨(dú)特性質(zhì)的區(qū)域),這部分區(qū)域通常稱之為目標(biāo)或前景,其它部 分稱之為背景。只有在圖像分割的基礎(chǔ)上才能對(duì)目標(biāo)進(jìn)行特征提取和參數(shù)測(cè)量,使得更高 層的圖像分析和理解成為可能?;蛐酒膱D像分割處理是基因芯片應(yīng)用過(guò)程中一個(gè)重要的步驟,基因芯片圖像 分割的過(guò)程就是確定目標(biāo)信號(hào)(靶點(diǎn))與背景信號(hào)的過(guò)程,也就是在背景中識(shí)別出靶點(diǎn)信 號(hào)的過(guò)程,其目的是要在圖像中提取靶點(diǎn)的亮度信息,以供研究人員進(jìn)一步的探索和研究。 該過(guò)程的分析結(jié)果將直接用于確定檢測(cè)的結(jié)果和后續(xù)的研究。目前,國(guó)內(nèi)外已經(jīng)出現(xiàn)了一 些專門用于處理和分析基因芯片圖像的軟件產(chǎn)品,但是大多需要人工參與,并且存在分析 精度達(dá)不到要求等缺點(diǎn)。聚類分析在模式識(shí)別和圖像處理領(lǐng)域中具有廣泛的應(yīng)用,其主要目的是按事物 間的相似性對(duì)給定事物進(jìn)行區(qū)分和分類,使每一類中的元素盡可能具有相同的特性,不同 聚合類之間的特性差別盡可能的大。圖像分割和對(duì)象提取是聚類分析的主要應(yīng)用方面。 K-means聚類算法(J. B. MacQueen,1967)作為聚類算法的中最簡(jiǎn)單,最快速的一種,有著大 量而廣泛的使用。在實(shí)際應(yīng)用中發(fā)現(xiàn),K-means聚類算法有著很明顯的特點(diǎn)。由于計(jì)算方法的特點(diǎn), K-means聚類算法在大數(shù)據(jù)量時(shí)的擴(kuò)展性和效率都較理想,適用于基因芯片的圖像分割處 理。但在類中心的初始化時(shí),若選擇不當(dāng),有可能會(huì)陷入局部最優(yōu)或者產(chǎn)生空類的情況。同 時(shí),對(duì)于不同的初始化可能會(huì)產(chǎn)生不同的聚類結(jié)果,不利于聚類結(jié)果的分析與使用。此外, K-means聚類算法受到噪聲和異常數(shù)的影響較大。
發(fā)明內(nèi)容
本發(fā)明目的是提供一種基于粒子群優(yōu)化的K-means聚類算法的基因芯片圖像分 割法,通過(guò)引入粒子群算法優(yōu)化,獲得一種設(shè)置參數(shù)少、受噪聲影響小的圖像分割方法,有 利于基因芯片的圖像分割處理。為達(dá)到上述目的,本發(fā)明首先根據(jù)K-means聚類算法基因芯片圖像的所有像素分 為K類,粒子群中的每個(gè)粒子根據(jù)適應(yīng)度函數(shù)搜尋局部最優(yōu)位置;然后粒子群中的粒子根 據(jù)其個(gè)體極值和最優(yōu)位置更新自己的速度和位置值。經(jīng)過(guò)多次迭代之后,全局最優(yōu)位置所 在子群所產(chǎn)生的即為聚類分類結(jié)果。該算法通過(guò)對(duì)粒子群的聚類,使粒子之間的信息得以 交換,并利用了更多粒子在迭代尋優(yōu)過(guò)程中包含的信息,算法的全局收斂性更強(qiáng)。具體采用的技術(shù)方案是一種基于粒子群優(yōu)化的K-means聚類算法的基因芯片圖 像分割法,包括下列步驟(1)輸入基因芯片圖像,并對(duì)基因芯片圖像進(jìn)行預(yù)處理;所述預(yù)處理包括,將基因芯片圖像轉(zhuǎn)化為單色灰度圖像,通過(guò)數(shù)學(xué)形態(tài)學(xué)的方法 對(duì)該單色灰度圖像進(jìn)行濾波處理,將連通部分少于η個(gè)像素的圖像部分濾去,其中,η取 15 50之間的整數(shù);(2)對(duì)步驟⑴處理后的圖像進(jìn)行網(wǎng)格定位,獲得多個(gè)基因芯片圖像靶區(qū),每一圖 像靶區(qū)由網(wǎng)格定位后的一個(gè)靶點(diǎn)及其背景區(qū)域構(gòu)成;(3)分別對(duì)每一圖像靶區(qū)進(jìn)行圖像分割處理,所述圖像分割處理為,一個(gè)像素由一 個(gè)數(shù)據(jù)矢量表示,數(shù)據(jù)矢量的橫坐標(biāo)與縱坐標(biāo)對(duì)應(yīng)像素點(diǎn)的橫坐標(biāo)與縱坐標(biāo),數(shù)據(jù)矢量值 對(duì)應(yīng)像素點(diǎn)的灰度值,對(duì)數(shù)據(jù)矢量的劃分采用基于粒子群優(yōu)化的K-means聚類算法進(jìn)行, 最終將所有像素劃分為目標(biāo)與背景兩類,實(shí)現(xiàn)基因芯片圖像的分割;所述基于粒子群優(yōu)化 的K-means聚類算法是,首先根據(jù)K-means聚類算法將基因芯片圖像的所有像素分為K類, K = 2,粒子群中的每個(gè)粒子根據(jù)適應(yīng)度函數(shù)搜尋局部最優(yōu)位置;然后粒子群中的粒子根據(jù) 其個(gè)體極值和最優(yōu)位置更新自己的速度和位置值;經(jīng)過(guò)多次迭代之后,全局最優(yōu)位置所在 的子群即為聚類分類結(jié)果。上述技術(shù)方案中,一個(gè)粒子i表示基因芯片圖像分割的一個(gè)潛在的解,解的優(yōu)劣 程度由適應(yīng)度函數(shù)來(lái)衡量。每個(gè)粒子i都包含如下的信息Xi(t)為粒子的當(dāng)前位置;Vi(t) 為粒子的當(dāng)前飛行速度,即粒子移動(dòng)的距離;Yi (t)為粒子的個(gè)體最優(yōu)位置。一個(gè)粒子的個(gè) 體最優(yōu)位置是粒子迄今為止搜索到的最優(yōu)位置,也就是能產(chǎn)生最大的適應(yīng)度值。所述的粒子群優(yōu)化的K-means聚類算法步驟如下1)初始化設(shè)定好粒子數(shù)N及最大迭代次數(shù)tmax,隨機(jī)生成每個(gè)粒子的位置向量 Xi (t)和速度向量Vi(t),隨機(jī)生成聚類中心mic;,i = 1,2,…,N,聚類數(shù)設(shè)置為K,所以C = 1,…,K;2)對(duì)每個(gè)粒子i,做下列運(yùn)算a)計(jì)算像素點(diǎn)zp (zp為待分割圖像的像素點(diǎn)灰度值矢量)到其聚類中心叫。的歐氏
距離
,按最小距離原則
將像素點(diǎn)重新分配至各個(gè)聚類Cij,j = 1,-,K;類Cij按照二+ Σ zP計(jì)算聚類中b)各個(gè)聚類Ci1按照m^ 二了 L· zP計(jì)算聚類中心叫。,…為屬于聚類Ci1的像素
Vzp eC"
點(diǎn)個(gè)數(shù);c)計(jì)算適應(yīng)度函數(shù)/(m,,,Z) = ^Jmax(Z5Iiiic) + ^(Zmax -dmm(mic));3)計(jì)算此時(shí)局部最優(yōu)位置yA + lhminfyA + lhVO和 全局最優(yōu)位置 yg(i + l) = min{y/(i + l),Vi},其中
⑴ if /(x,(i + i))>/(y,(0) y'(i + 1) = |x,(i + l) if/(x;.(i + l))</(y,.(0) 54)根據(jù) Vi (t+1) = ω Vi (t) +C^1 (t) (Yl (t) -Xi (t)) +c2r2 (t) (yg (t) -Xi (t))更新粒子 的速度,若 Vi(t+1) > Vma!^lJVi(t+l) =Vmax ;然后根據(jù) Xi (t+1) = Xi (t)+Vi (t+1)對(duì)更新粒 子的位置;步驟2)、3)、4)循環(huán)tmax次,全局最優(yōu)位置yg(t)所在子群所產(chǎn)生的聚類分類結(jié)果 即為最終結(jié)果。上述技術(shù)方案中,所述的每個(gè)粒子根據(jù)適應(yīng)度函數(shù)搜尋局部最優(yōu)位置,對(duì)每個(gè)粒 子的優(yōu)劣程度由如下適應(yīng)度函數(shù)確定/(m,c,Z) = ^y1Jmax (Z,mic) + (zmax - dmm (m;c))其中,Zfflax為圖像灰度值矢量中最大的像素灰度值;Z為顯示像素分 配情況的矩陣,如其中的某一元素Zijp表示像素點(diǎn)Zp是否屬于粒子i的Cij聚 類;Co1和《2為用戶給定的正常數(shù),不同的初始值可以導(dǎo)致不同的優(yōu)先搜索方
案;元ax (Z, mJ= max
7=1,-",K
Σ …y·
S
,為對(duì)應(yīng)粒子i聚類內(nèi)的最大
平均距離;d(zp,m{/) =擺(Zpk -mljkf,為像素點(diǎn)ρ至聚類均值的歐式距離; ^mmKc) = w min ^m m )|,為聚類間的最小距離;|C I為屬于聚類Cij的像素點(diǎn)個(gè)
hh 本Ji、 \”JJ數(shù)。通過(guò)不斷地搜索適應(yīng)度函數(shù)的最小值,最小化類內(nèi)距離及最大化類間距離,從而 搜尋出最優(yōu)的分類方案。由于上述技術(shù)方案運(yùn)用,本發(fā)明與現(xiàn)有技術(shù)相比具有下列優(yōu)點(diǎn)1.本發(fā)明通過(guò)引入粒子群算法優(yōu)化,使得K-means聚類算法不需要待分類數(shù)據(jù)的 先驗(yàn)分布知識(shí),也較少受初始解選擇的影響而得到次優(yōu)解,有利于基因芯片的圖像分割處 理;2.本發(fā)明對(duì)基因芯片圖像進(jìn)行分割時(shí),采用的算法過(guò)程簡(jiǎn)單清晰,易于實(shí)現(xiàn) ’聚 類中心隨機(jī)產(chǎn)生,不受人為因素干擾;有效避免陷入局部最優(yōu)或者產(chǎn)生空類的情形;收斂 速度快,搜索全局最優(yōu)能力強(qiáng);需要設(shè)置和調(diào)整的參數(shù)少。
圖1為本發(fā)明實(shí)施例中第一幅原始彩色基因芯片圖像。
圖2為圖1的灰度圖像。
圖3為圖2經(jīng)過(guò)預(yù)處理之后的基因芯片圖像。
圖4為圖3經(jīng)過(guò)網(wǎng)格定位后的圖像。
圖5為圖4經(jīng)過(guò)本發(fā)明所述的粒子群優(yōu)化的K-means聚類算法分割后的基因芯片
二值圖像。圖6為圖4經(jīng)過(guò)K-means聚類算法分割后的基因芯片二值圖像。圖7為圖1與圖5中目標(biāo)靶點(diǎn)邊緣疊加的結(jié)果。圖8為圖1利用本發(fā)明所述方法的最終分割所得結(jié)果。圖9為圖1利用K-means聚類方法的分割結(jié)果。圖10為第二幅原始彩色基因芯片圖像。圖11為圖10利用K-means聚類方法的分割結(jié)果。圖12為圖10利用本發(fā)明所述方法的最終分割所得結(jié)果。
具體實(shí)施例方式下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述實(shí)施例一種基于粒子群優(yōu)化的K-means聚類算法的基因芯片圖像分割法,包含以下步驟(1)基因芯片圖像的預(yù)處理。由于在基因芯片圖像的獲取技術(shù)過(guò)程中,容易受到基 片雜質(zhì)、激光光源以及掃描過(guò)程等的影響,圖像會(huì)出現(xiàn)各種各樣的噪聲,如圖1所示,直接 影響檢測(cè)的準(zhǔn)確性和實(shí)驗(yàn)的結(jié)果。因此在這一步驟中,首先將RGB格式的彩色熒光基因芯 片圖像轉(zhuǎn)化為單色灰度圖像,如圖2所示,大大簡(jiǎn)化了計(jì)算機(jī)的處理過(guò)程;然后通過(guò)數(shù)學(xué)形 態(tài)學(xué)(JeanSerra,1986)的方法對(duì)基因芯片圖像進(jìn)行濾波處理。圖3是首先利用半徑為10 個(gè)像素的VT。pHat算子對(duì)圖2進(jìn)行增強(qiáng),接著使用數(shù)學(xué)形態(tài)學(xué)面積開濾波將連通部分少于20 個(gè)像素的圖像部分濾去。(2)基因芯片圖像的網(wǎng)格定位。網(wǎng)格定位,就是在基因芯片的熒光圖像區(qū)域中, 確定每個(gè)靶區(qū)和靶點(diǎn)位置,并獲取相關(guān)芯片數(shù)據(jù)的過(guò)程。不需要人工參與、完全由計(jì)算機(jī) 進(jìn)行自動(dòng)劃格是基因芯片網(wǎng)格定位的目標(biāo),這樣既能加快計(jì)算機(jī)處理的速度,又能避免人 工參與帶來(lái)的誤差?;跀?shù)學(xué)形態(tài)學(xué)法的自動(dòng)劃分網(wǎng)格的方法(R. Hi rata, J. Barrera, R. F. Hash i mot ο, and D. 0. Dantas, 2001)利用圖像的水平和垂直投影信號(hào)對(duì)基因芯片圖 像進(jìn)行網(wǎng)格定位。圖4是圖3經(jīng)過(guò)網(wǎng)格定位后的圖像。(3)基因芯片圖像的分割。通過(guò)上述步驟的處理,可以得到單獨(dú)的基因芯片圖像靶 區(qū)(一個(gè)靶點(diǎn)與其背景區(qū)域)。在本步驟內(nèi),通過(guò)粒子群優(yōu)化的K-means聚類算法對(duì)圖像進(jìn) 行自動(dòng)分割。K-means聚類算法的目的是將一些數(shù)據(jù)矢量劃分至類別數(shù)目已知的聚類中。對(duì)于 圖像分類或者圖像分割來(lái)說(shuō),一個(gè)數(shù)據(jù)矢量代表圖像的一個(gè)像素。每個(gè)像素都被劃分至最 近的均值或者聚類中心;當(dāng)所有的像素都被分類好,每個(gè)聚類的均值按照重新劃分好的像 素進(jìn)行計(jì)算;直至每個(gè)聚類的均值沒有明顯改變?yōu)橹埂-means聚類算法可以概括為如下
a)隨機(jī)為每個(gè)聚類產(chǎn)生一個(gè)初始的聚類中心,K個(gè)聚類存在K個(gè)聚類中心;b)將每一個(gè)樣本按照最小距離原則分配到K個(gè)聚類中的某一個(gè);c)將每個(gè)聚類的所有樣本的均值作為新的聚類中心;d)如果聚類中心有變化則重復(fù)步驟b)、c)直到聚類中心不再發(fā)生顯著變化為止;所得到的K個(gè)聚類中心就是聚類的結(jié)果K-meanss聚類算法確定的K個(gè)劃分到達(dá) 平方誤差最小。當(dāng)聚類是密集且類與類之間區(qū)別明顯時(shí),效果較好。對(duì)于處理大數(shù)據(jù)集,這 個(gè)算法是相對(duì)可伸縮和高效的。但在算法中對(duì)初始聚類中心的選擇對(duì)聚類結(jié)果有較大的影 響,一旦初始值選擇不好,可能無(wú)法得到有效的聚類結(jié)果,這也成為K-means算法的一個(gè)主 要問題。另外由于算法本身“貪心”的原因,聚類結(jié)果可能會(huì)陷入局部最優(yōu)的情況。針對(duì)K-means聚類算法的缺點(diǎn),本發(fā)明引入粒子群優(yōu)化算法。在粒子群算法中,每 個(gè)個(gè)體稱為一個(gè)“粒子”,每個(gè)粒子代表優(yōu)化問題的一個(gè)潛在的解,解的優(yōu)劣程度由適應(yīng)度 函數(shù)來(lái)衡量。每個(gè)粒子i都包含如下的信息Xi(t)為粒子的當(dāng)前位置;Vi(t)為粒子的當(dāng)前飛 行速度,即粒子移動(dòng)的距離;yi(t)為粒子的個(gè)體最優(yōu)位置。。一個(gè)粒子的個(gè)體最優(yōu)位置是粒 子迄今為止搜索到的最優(yōu)位置,也就是能產(chǎn)生最大的適應(yīng)度值。在每次迭代中,粒子的個(gè)體 最優(yōu)位置根據(jù)以下式子更新
「圓1 Wi + 1、- y ‘⑴ if /(χ'+ D) ^ 瓜⑴)(!)y'{t + l)-U(t + l) if/(x,(i + l))</(y;(0)C1)對(duì)于此粒子而言,當(dāng)前的局部最優(yōu)位置為y/(i + l) = min{y.(i + l),Vi}(2)對(duì)于整個(gè)粒子群而言,當(dāng)前的全部最優(yōu)位置為yg(i + l) = min{y/(i + l),V4(3)而每個(gè)粒子根據(jù)以下式子更新速度和位置Vi (t+Ι) = ω Vi (t) +C^1 (t) (yx (t) -Xi (t)) c2r2 (t) (yg (t) -Xi (t)) (4)Xi(t+1) = xi(t)+vi(t+l)(5)其中,ω為慣性權(quán)重,起權(quán)衡局部最優(yōu)和全局最優(yōu)的作用;ri(t) ^r2 (t)為均勻 分布在(0,1)間的隨機(jī)數(shù),用來(lái)保持群體的多樣性;(^與C2為學(xué)習(xí)因子,使粒子能自我總結(jié) 并向群體中優(yōu)秀粒子學(xué)習(xí),從而能夠向局部最優(yōu)和全局最優(yōu)靠近,調(diào)節(jié)這兩個(gè)參數(shù)能夠跳 出局部最小值并且加快收斂速度;粒子的飛行速度的最大值Vmax必須加以控制,否則可能 會(huì)導(dǎo)致過(guò)早的收斂。在本發(fā)明中,每個(gè)粒子代表K個(gè)聚類中心。因此,粒子群表示候選的圖像分類結(jié)果 的集合。對(duì)分類方案進(jìn)行評(píng)價(jià)是應(yīng)用優(yōu)化算法進(jìn)行聚類的關(guān)鍵。本發(fā)明對(duì)每個(gè)粒子的優(yōu)劣 程度由如下適應(yīng)度函數(shù)確定/(m/c,Z)-Jmax(Z5Itiic) + (Zmax -^min(m,-c))(6)其中,Zfflax為圖像灰度值矢量中最大的像素灰度值;Z為顯示像素分 配情況的矩陣,如其中的某一元素Zijp表示像素點(diǎn)Zp是否屬于粒子i的Cij聚 類;Co1和《2為用戶給定的正常數(shù),不同的初始值可以導(dǎo)致不同的優(yōu)先搜索方案;Jmax(Z,m,e)= max ^ d{z^mljW ,為對(duì)應(yīng)粒子土聚類內(nèi)的最大 _/=ι,.··,κ ^^/ C,,
平均距離;pk -ml]kf,為像素點(diǎn)ρ至聚類均值的歐式距離;
《in(m,c) = w.min ^m m》,為聚類間的最小距離;|C |為屬于聚類Cij的像素點(diǎn)
個(gè)數(shù)。 通過(guò)不斷的搜索適應(yīng)度函數(shù)的最小值,可以最小化類內(nèi)距離以及最大化類間距 離,從而搜尋出最優(yōu)的分類方案。具體的分割方法如下1)初始化。設(shè)定好粒子數(shù)N,設(shè)定最大迭代次數(shù)tmax,隨機(jī)生成每個(gè)粒子的位置向 Sxi (t)和速度向量Vi(t),隨機(jī)生成聚類中心mie,i = 1,2,…,N,聚類數(shù)設(shè)置為K,所以c =1,…,K ;2)對(duì)每個(gè)粒子i,做下列運(yùn)算a)計(jì)算每個(gè)像素點(diǎn)到與聚類中心Hii。的歐氏距離d (zp,mie),按最小距離原則 J(zp,my) = minVc=1... K 口(%,111,』將像素點(diǎn)重新分配至各個(gè)聚類Cij, j = 1,…,K ; b)各個(gè)聚類Cij按照、計(jì)算聚類中心叫。,nj為屬于聚類Cij的像素
點(diǎn)個(gè)數(shù); c)按照公式(6)計(jì)算適應(yīng)度函數(shù)f(mie,Ζ);3)按照公式(2)和公式(3)分別計(jì)算此時(shí)局部最優(yōu)位置yi(t)和全局最優(yōu)位置 yg(t);4)按照公式⑷更新粒子的速度,若Vi (t+1) > Vfflax則Vi (t+1) = Vfflax ;然后根據(jù) 公式(5)更新粒子的位置。步驟2)、3)、4)循環(huán)tmax次。最終聚類分類結(jié)果為全局最優(yōu)位置yg(t)所在子群所 產(chǎn)生的聚類分類結(jié)果。
圖5為針對(duì)圖4利用本發(fā)明所述方法分割后的基因芯片的二值圖;圖6為針對(duì)圖 4利用K-means聚類方法分割后的基因芯片的二值圖;圖7為原始基因芯片圖像與圖5中 目標(biāo)靶點(diǎn)邊緣疊加的結(jié)果;圖8為利用本發(fā)明所述方法的最終分割所得結(jié)果(粒子數(shù)Nk取 30,迭代次數(shù)tmax取30,聚類數(shù)K取2即目標(biāo)與背景兩類,慣性權(quán)重與學(xué)習(xí)因子ω =C1 = C2 =0. 5,粒子的飛行速度的最大值Vmax = 2,GJ1 = ω2 = 0. 45);圖9為利用K-means聚類方 法的分割結(jié)果。通過(guò)圖5與圖6的對(duì)比可以明顯看出,利用K-means聚類方法分割后的基 因芯片的二值圖保留了很多噪聲,這些必將對(duì)最終的結(jié)果造成影響,圖9與圖8的對(duì)比就顯 示出了這一點(diǎn)。圖9明顯比圖8多了幾個(gè)噪聲點(diǎn),本發(fā)明所述方法相對(duì)于利用K-means聚 類方法有一定的優(yōu)勢(shì)。圖10為第二幅原始彩色基因芯片圖像;圖11為圖10利用K-means 聚類方法的分割結(jié)果;圖12為圖10利用本發(fā)明所述方法的最終分割所得結(jié)果。通過(guò)對(duì)比 可以看出,本發(fā)明所述方法相對(duì)于K-means聚類方法,在背景噪聲的去除、目標(biāo)內(nèi)部噪聲的 去除、模糊邊緣的光滑等方面具有不可比擬的優(yōu)勢(shì)。
本發(fā)明利用粒子群優(yōu)化K-means聚類算法對(duì)對(duì)基因芯片圖像進(jìn)行自動(dòng)分割,算法 過(guò)程簡(jiǎn)單清晰,不受人為因素干擾,有效避免K-means聚類算法中可能出現(xiàn)的陷入局部最 優(yōu)或者產(chǎn)生空類的情況,收斂速度快,搜索全局能力強(qiáng),同時(shí)保留K-means聚類算法在大數(shù) 據(jù)量時(shí)的擴(kuò)展性和效率。
權(quán)利要求
一種基于粒子群優(yōu)化的K means聚類算法的基因芯片圖像分割法,其特征在于,包括下列步驟(1)輸入基因芯片圖像,并對(duì)基因芯片圖像進(jìn)行預(yù)處理;(2)對(duì)步驟(1)處理后的圖像進(jìn)行網(wǎng)格定位,獲得多個(gè)基因芯片圖像靶區(qū),每一圖像靶區(qū)由網(wǎng)格定位后的一個(gè)靶點(diǎn)及其背景區(qū)域構(gòu)成;(3)分別對(duì)每一圖像靶區(qū)進(jìn)行圖像分割處理,所述圖像分割處理為,一個(gè)像素點(diǎn)由一個(gè)數(shù)據(jù)矢量表示,數(shù)據(jù)矢量的橫坐標(biāo)與縱坐標(biāo)對(duì)應(yīng)像素點(diǎn)的橫坐標(biāo)與縱坐標(biāo),數(shù)據(jù)矢量值對(duì)應(yīng)像素點(diǎn)的灰度值,對(duì)數(shù)據(jù)矢量的劃分采用基于粒子群優(yōu)化的K means聚類算法進(jìn)行,最終將所有像素劃分為目標(biāo)與背景兩類,實(shí)現(xiàn)基因芯片圖像的分割;所述基于粒子群優(yōu)化的K means聚類算法是,首先根據(jù)K means聚類算法將基因芯片圖像的所有像素分為K類,K=2,粒子群中的每個(gè)粒子根據(jù)適應(yīng)度函數(shù)搜尋局部最優(yōu)位置;然后粒子群中的粒子根據(jù)其個(gè)體極值和最優(yōu)位置更新自己的速度和位置值;經(jīng)過(guò)多次迭代之后,全局最優(yōu)位置所在的子群即為聚類分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于粒子群優(yōu)化的K-means聚類算法的基因芯片圖像分割 法,其特征在于步驟(1)中所述預(yù)處理包括,將基因芯片圖像轉(zhuǎn)化為單色灰度圖像,通過(guò) 數(shù)學(xué)形態(tài)學(xué)的方法對(duì)該單色灰度圖像進(jìn)行濾波處理,將連通部分少于η個(gè)像素的圖像部分 濾去,其中,η取15 50之間的整數(shù)。
3.根據(jù)權(quán)利要求1所述的基于粒子群優(yōu)化的K-means聚類算法的基因芯片圖像分割 法,其特征在于所述的粒子群優(yōu)化的K-means聚類算法步驟如下1)初始化設(shè)定好粒子數(shù)N及最大迭代次數(shù)tmax,隨機(jī)生成每個(gè)粒子的位置向量Xi(t) 和速度向量Vi(t),隨機(jī)生成聚類中心向量叫。,i = 1,2,…,N,聚類數(shù)設(shè)置為K,所以C = 1,…,K;2)對(duì)每個(gè)粒子i,做下列運(yùn)算a)計(jì)算像素點(diǎn)zp(zp為待分割圖像的像素點(diǎn)灰度值矢量)到其聚類中心叫。的歐氏距 離=m,c)2 ,按最小距離原則w 、 ./ ,, J將 像素點(diǎn)重新分配至各個(gè)聚類Cij,j = 1,-,K;b)各個(gè)聚類Cij按照Σ、計(jì)算聚類中心mic;,nj為屬于聚類Cij的像素點(diǎn)個(gè)nJ ^P^CijC)計(jì)算適應(yīng)度函數(shù)/(m,c,z) =岣Jmax(Z,m,,) +咚(Zmax -心m(m,,));其中,Zmax為圖像 灰度值矢量中最大的像素灰度值;Z為顯示像素分配情況的矩陣,如其中的某一元素Zijp表 示像素點(diǎn)Zp是否屬于粒子i的Cu聚類;ω工和ω2為用戶給定的正常數(shù),不同的初始值可以導(dǎo)致不同的優(yōu)先搜索方案;5"max(Z,ii^)= max <7=1,· ",K,為對(duì)應(yīng)粒子i聚!Vv類內(nèi)的最大平均距離;£/ ,ιηρ= Σ(ζΜ-Μ#)2,為像素點(diǎn)ρ至聚類均值的歐式距離;心n(m,c)= min |j(m m )},為聚類間的最小距離;| Cij |為屬于聚類Cij的像素點(diǎn)V/1,72 Jl K vnJJ個(gè)數(shù);3)計(jì)算此時(shí)局部最優(yōu)位置+=+和全局最優(yōu)位置苴由ν r/ + n-iy'(i) if f^ + ^^fiy^)). ygG +1) = min{y/(t + l),Vi} ’具甲y+ 丄)一 jX;(t + l) if /(x;(t + 1)) < /(y,(O),4)W Vi (t+l) = ω Vi (t)+Ciri (t) (yi(t)-Xi (t))+c2r2(t) (yg(t)-Xi (t))更新粒子的速 度,若 Vi (t+l) > Vmaj^jVi (t+l) =Vmax ;然后根據(jù) Xi (t+l) =Xi (t)+Vi (t+l)更新粒子的位 置;步驟2)、3)、4)循環(huán)tmax次,全局最優(yōu)位置yg(t)所在子群所產(chǎn)生的聚類分類結(jié)果即為 最終結(jié)果。
4.根據(jù)權(quán)利要求1所述的基于粒子群優(yōu)化的K-means聚類算法的基因芯片圖像分割 法,其特征在于所述的每個(gè)粒子根據(jù)適應(yīng)度函數(shù)搜尋局部最優(yōu)位置,對(duì)每個(gè)粒子的優(yōu)劣程 度由如下適應(yīng)度函數(shù)確定/(mZC, Z) = iyI^max (Z,m,C) + Omax 一 ^min (m;C ))其中,Zfflax為圖像灰度值矢量中最大的像素灰度值;Z為顯示像素分配 情況的矩陣,如其中的某一元素Zup表示像素點(diǎn)Zp是否屬于粒子i的Cij聚 類;Co1和《2為用戶給定的正常數(shù),不同的初始值可以導(dǎo)致不同的優(yōu)先搜索方案;乙(Z,m,)n] Σ 機(jī),m")ρ,IJ,為對(duì)應(yīng)粒子i聚類內(nèi)的最大;"(ν )=、Σ(2V k=\平均距離;d(zD,m”) =、II( ~mljkf ,為像素點(diǎn)P至聚類均值的歐式距離;dmin(m,c) = w.min . KnVmiZ2^為聚類間的最小距離;IcijI為屬于聚類Cij的像素點(diǎn) 個(gè)數(shù)。通過(guò)不斷地搜索適應(yīng)度函數(shù)的最小值,最小化類內(nèi)距離及最大化類間距離,從而搜尋 出最優(yōu)的分類方案。
全文摘要
本發(fā)明公開了一種基于粒子群優(yōu)化的K-means聚類算法的基因芯片圖像分割法,其特征為,首先根據(jù)K-means聚類算法基因芯片圖像的所有像素分為K類,粒子群中的每個(gè)粒子根據(jù)適應(yīng)度函數(shù)搜尋局部最優(yōu)位置;然后粒子群中的粒子根據(jù)其個(gè)體極值和最優(yōu)位置更新自己的速度和位置值。經(jīng)過(guò)多次迭代之后,全局最優(yōu)位置所在的子群即為聚類分類結(jié)果。本發(fā)明算法過(guò)程簡(jiǎn)單清晰,有效避免陷入局部最優(yōu)或者產(chǎn)生空類的情形,收斂速度快,搜索全局最優(yōu)能力強(qiáng),需要設(shè)置和調(diào)整的參數(shù)少,分類結(jié)果準(zhǔn)確而快速,不受人為因素干擾,適用于大規(guī)模的基因芯片圖像分割。
文檔編號(hào)G06N3/00GK101923712SQ20101024307
公開日2010年12月22日 申請(qǐng)日期2010年8月3日 優(yōu)先權(quán)日2010年8月3日
發(fā)明者翁桂榮, 胡益軍 申請(qǐng)人:蘇州大學(xué)