本發(fā)明涉及應(yīng)用計算方法對圖像進行處理的技術(shù),具體是一種針對砂巖顯微薄片中巖石顆粒的自動識別方法,該方法運用圖像處理技術(shù)和機器學(xué)習(xí)方法,通過對像素級別的分類處理,實現(xiàn)對砂巖顯微薄片中巖石顆粒成分的識別。
背景技術(shù):
砂巖是源區(qū)巖石經(jīng)風(fēng)化、剝蝕、搬運在盆地中堆積形成的沉積碎屑巖,由碎屑和填隙物兩部分構(gòu)成,主要巖石顆粒成分包括石英、長石和巖屑。砂巖不但是常見的建筑用石材,也是石油、天然氣的主要儲集層。砂巖顆粒識別和組分在礦物鑒別、油氣勘探等領(lǐng)域有著重要的意義。
現(xiàn)有的砂巖顯微薄片巖石顆粒識別經(jīng)常使用人工識別,這不但費時費力,而且可重復(fù)性差。另外,在砂巖顯微薄片中,部分巖石顆粒區(qū)域邊界交錯,一些區(qū)域與周邊區(qū)域相互浸潤,給巖石顆粒的相互區(qū)分和識別帶來了困難。最后,巖石顆粒內(nèi)常常含有雜質(zhì),這些雜質(zhì)與周圍區(qū)域的性質(zhì)差異較大,可能對巖石顆粒的識別結(jié)果產(chǎn)生影響。
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是提供一種砂巖顯微薄片中巖石顆粒的自動識別方法,該方法運用圖像處理技術(shù)和機器學(xué)習(xí)方法實現(xiàn)對砂巖顯微薄片中巖石顆粒成分的自動識別。
為達到上述目的,本方法采用如下的步驟:
1)讀取砂巖顯微薄片圖像,對其進行高斯平滑濾波預(yù)處理;對圖像中像素抽取顏色特征和紋理特征,組成像素相似度計算的特征向量;
2)分別以砂巖顯微薄片圖像中每個像素作為中心像素,采用圖遍歷算法和相似性度量方法,計算其鄰域n×n像素窗口中的鄰近像素群,其中n為像素個數(shù),優(yōu)選值為5×5;
3)計算鄰近像素群的統(tǒng)計特征,作為中心像素的分類特征向量;
4)基于石英、長石、巖屑顆粒樣本數(shù)據(jù)集,訓(xùn)練邏輯回歸分類器;
5)用訓(xùn)練好的分類器進行預(yù)測,得到像素屬于不同類別的概率,通過預(yù)設(shè)條件確定像素的類別,不滿足條件的像素視為噪聲點;
6)對噪聲點進行除噪,通過對噪聲點的鄰近像素群進行類別統(tǒng)計,確定其類別;最后基于每個像素的類別,確定巖石顆粒劃分和類別;
上述步驟1)中計算砂巖顯微薄片圖像中像素顏色和紋理特征向量的處理過程是:首先計算砂巖薄片圖像所有像素的顏色特征值RGB,以及所有像素的灰度值Gray。然后,計算圖像每個像素的紋理特征,即局部二值模式Lbp值。于是,每個像素的特征向量由RGB、Gray和Lbp值組成,維度為5(即包含5個元素)。Lbp的計算方法如下:
對于像素p,以其為中心獲取鄰域3×3像素窗口。像素p的Lbp值為:
其中,vp和vi分別是像素p和像素i的灰度值。S(x)是符號函數(shù),定義如下:
上述步驟2)中基于圖遍歷算法尋找像素的鄰近像素群的過程是:首先,對于像素pc,以其為中心獲取鄰域n×n像素窗口,n為像素個數(shù),優(yōu)選值為5,初始化鄰近像素群Sp={pc},pc標注為未處理;然后使用圖遍歷算法,選取Sp內(nèi)未被處理過的像素,尋找它的上、下、左、右四個鄰接像素,如果該像素與某鄰接像素特征向量的相似性小于臨界值D(建議值為11.56),且該鄰接像素不在Sp內(nèi),則把對應(yīng)的鄰接像素加入鄰近像素群Sp,并標注為未處理;重復(fù)以上過程,直到鄰域像素窗口內(nèi)的每個像素都被遍歷和處理過為止;最終得到中心像素pc的鄰近像素群Sp。
在上述過程中,使用歐式距離度量兩個鄰接像素的相似性。給定兩個特征向量f1=<f11,f12,…,f1n>和f2=<f21,f22,…,f2n>,其歐式距離的公式如下:
其中f1i和f2i是特征向量f1和f2的第i個分量,n是特征向量f1和f2的維數(shù)。
在上述步驟3)中計算鄰近像素群的統(tǒng)計特征過程如下:對于鄰近像素群Sp={pc,p1,p2,…,pm},其中每個像素的特征向量由RGB、Gray和Lbp值組成。對特征的每一維度,計算鄰近像素群Sp平均值A(chǔ)verage、中值Median、標準方差Standard Deviation、平均絕對偏差Mean Absolute Deviation四個統(tǒng)計特征。針對像素特征向量的某一維度X={x0,x1,x2,…,xm},其中x0對應(yīng)中心像素,m代表鄰近像素群Sp除中心像素外的像素數(shù)量,計算公式如下::
Median=mid(x0,x1,x2,...,xm),mid()是中值函數(shù)
通過上述計算公式,鄰近像素群可以得到5*4=20維的特征向量,作為中心像素的特征向量。
在上述步驟4)中訓(xùn)練可區(qū)分石英、長石、巖屑邏輯回歸分類器的過程是:首先,基于石英、長石、巖屑顆粒的樣本數(shù)據(jù)集;對于每一張巖石顆粒顯微圖像,隨機采樣50個像素點,基于每個像素點,按照步驟1)計算顏色和紋理特征向量;然后,按步驟2)尋找鄰近像素群,計算鄰近像素群的統(tǒng)計特征,作為該像素的特征向量,并按照圖像類別標注,構(gòu)建分類器的訓(xùn)練集;最后,基于該訓(xùn)練集,訓(xùn)練可區(qū)分石英、長石、巖屑的邏輯回歸分類器。
在上述步驟5)中對砂巖顯微薄片圖像中所有像素進行預(yù)測的過程是:使用訓(xùn)練好的邏輯回歸分類器分別對每個像素進行預(yù)測,輸出一個概率值,以像素為單位得到一個概率向量p=<p1,p2,p3>,分別是該像素屬于石英、長石和巖屑的概率;接著,設(shè)定預(yù)設(shè)條件對概率向量p進行處理:令p1,p2,p3中最大值是pmax,中間值是pmid。
當(dāng)pmax≥0.6,且pmax-pmid≥0.2,預(yù)測像素類別是pmax對應(yīng)的巖石顆粒種類;
當(dāng)pmax≤0.45,預(yù)測像素類別是雜質(zhì);
其它情況下,像素暫定為噪聲點。
在上述步驟6)中對類別是噪聲點的像素進行類別判定的過程是:對于每個噪聲點像素,統(tǒng)計它所在的鄰近像素群中所有像素的類別,采用多數(shù)表決方式確定它的類別。
當(dāng)鄰近像素群里少于50%的像素類別為噪聲點時,則選取像素類別數(shù)最大的類別作為噪聲點的類別,計算方法如下
其中,Sp是鄰近像素群,m是Sp中除中心像素外的像素個數(shù),yi是Sp中每個像素的預(yù)測類別,cj分別對應(yīng)石英、長石、巖屑和雜質(zhì);I(x)是指示函數(shù),當(dāng)yi=cj時I為1,否則I為0;
當(dāng)鄰近像素群中超過50%的像素類別為噪聲點時,則選取其它噪聲點進行處理;
重復(fù)上述過程,直到所有噪聲點都有類別為止。
本發(fā)明基于砂巖顯微薄片圖像,運用圖像處理技術(shù)和機器學(xué)習(xí)方法,利用砂巖顯微薄片中巖石顆粒顏色相異、紋理清晰的特點,提取巖石顆粒的顏色和紋理特征,應(yīng)用圖像處理技術(shù)和機器學(xué)習(xí)方法,實現(xiàn)巖石顆粒的自動識別;針對巖石顆粒邊界交錯清晰度不高和顆粒區(qū)域內(nèi)存有雜質(zhì)的問題,本發(fā)明以像素為基本單位,提出基于歐式距離尋找像素的鄰近像素群,計算統(tǒng)計特征作為像素分類特征,基于樣本數(shù)據(jù)集訓(xùn)練可以識別石英、長石、巖屑的邏輯回歸分類器,最后對預(yù)測產(chǎn)生的噪聲點進行除噪,從而達到理想的識別效果。本發(fā)明對不同種類巖石顆粒區(qū)域邊界的定位和巖石顆粒內(nèi)雜質(zhì)的識別有較高的準確性,可有效降低巖石顆粒識別的時間和成本,具有較好的擴展性;在礦物鑒別、油氣勘探中具有應(yīng)用價值。
附圖說明
圖1是砂巖顯微薄片中巖石顆粒自動識別的技術(shù)框架圖;
圖2是砂巖顯微薄片巖石顆粒區(qū)域浸潤示意圖;
圖3是砂巖顯微薄片中巖石顆粒區(qū)域雜質(zhì)示意圖;
圖4是給定像素獲取其鄰近像素群的處理流程圖。
具體實施方式
本發(fā)明的主要目的是自動識別砂巖顯微薄片中的巖石顆粒,運用圖像處理技術(shù)和機器學(xué)習(xí)方法,抽取像素的顏色和紋理特征組成特征向量,基于圖遍歷算法和相似度度量尋找鄰近像素群,計算鄰近像素群的統(tǒng)計特征作為像素分類的特征向量;訓(xùn)練區(qū)分石英、長石和巖屑的邏輯回歸分類器,并對預(yù)測結(jié)果進行噪聲處理;通過對像素類別的預(yù)測,實現(xiàn)對砂巖顯微薄片中巖石顆粒的自動識別。
圖1所示為砂巖顯微薄片中巖石顆粒自動識別的技術(shù)框架圖。輸入的是砂巖顯微薄片圖像,輸出是砂巖薄片中巖石顆粒的劃分和類別(石英、長石和巖屑)。為了保證方法的正確應(yīng)用,需要預(yù)先制備標注為石英砂巖、長石砂巖和巖屑砂巖的巖石顆粒顯微圖像,作為樣本數(shù)據(jù)集。技術(shù)框架分為6個步驟:對輸入的砂巖顯微薄片進行高斯平滑濾波預(yù)處理,提取像素顏色和紋理特征,組成像素相似度度量的特征向量;利用圖遍歷算法和相似性度量方法尋找每個像素的鄰近像素群;計算鄰近像素群的統(tǒng)計特征作為像素的特征向量;基于樣本數(shù)據(jù)集訓(xùn)練邏輯回歸分類器;預(yù)測每個像素屬于石英、長石、巖屑的概率,確定噪聲點;對噪聲點進行處理,確定巖石顆粒劃分和類別。
圖2和圖3所示為砂巖顯微薄片中巖石顆粒存在區(qū)域浸潤和雜質(zhì)的示意圖。從圖中可以看出,砂巖顯微薄片中巖石顆粒的形狀不規(guī)則,分布交錯參差,顆粒所在的區(qū)域基本都是封閉圖形;不同種類的巖石顆粒具有不同的顏色和紋理,適于通過顏色和紋理特征予以分類和識別;圖2巖石顆粒區(qū)域浸潤示意圖說明在砂巖顯微薄片中,巖石顆粒相互交錯,邊界較難確定,圖3巖石顆粒區(qū)域雜質(zhì)示意圖說明在砂巖顯微薄片中,一些巖石顆粒內(nèi)存在性質(zhì)差異較大的雜質(zhì),這些雜質(zhì)可能會對巖石顆粒的自動識別產(chǎn)生影響。
本發(fā)明提出基于歐式距離尋找像素鄰近像素群,計算統(tǒng)計特征作為像素分類特征,并訓(xùn)練可以區(qū)分石英、長石、巖屑的邏輯回歸分類器,最后對預(yù)測產(chǎn)生的噪聲點進行除噪,從而能夠更好地識別巖石顆粒。本發(fā)明采用的步驟如下:
1)讀取砂巖顯微薄片圖像,對其進行高斯平滑濾波預(yù)處理;對圖像中像素抽取顏色特征和紋理特征,組成像素相似度計算的特征向量;
2)分別以砂巖顯微薄片圖像中每個像素作為中心像素,采用圖遍歷算法和相似性度量方法,計算其鄰域n×n像素窗口中的鄰近像素群,其中n為像素個數(shù),優(yōu)選值為5;
3)計算鄰近像素群的統(tǒng)計特征,作為中心像素的分類特征向量;
4)基于石英、長石、巖屑顆粒樣本數(shù)據(jù)集,訓(xùn)練邏輯回歸分類器;
5)用訓(xùn)練好的分類器進行預(yù)測,得到像素屬于不同類別的概率,通過預(yù)設(shè)條件確定像素的類別,不滿足條件的像素視為噪聲點;
6)對噪聲點進行除噪,通過對噪聲點的鄰近像素群進行類別統(tǒng)計,確定其類別;最后基于每個像素的類別,確定巖石顆粒劃分和類別;
上述步驟1)中計算砂巖顯微薄片圖像中像素顏色和紋理特征向量的處理過程是:首先計算砂巖薄片圖像所有像素的顏色特征值RGB,以及所有像素的灰度值Gray。然后,計算圖像每個像素的紋理特征——局部二值模式Lbp值。于是,每個像素的特征向量由RGB、Gray和Lbp值組成,維度為5(即包含5個元素)。Lbp的計算方法如下:
對于像素p,以其為中心獲取鄰域3×3像素窗口。像素p的Lbp值為:
其中,vp和vi分別是像素p和像素i的灰度值。S(x)是符號函數(shù),定義如下:
上述步驟2)中基于圖遍歷算法尋找像素的鄰近像素群的過程是:首先,對于像素pc,以其為中心獲取鄰域n×n像素窗口,n為像素個數(shù),優(yōu)選值為5,初始化鄰近像素群Sp={pc},pc標注為未處理;然后使用圖遍歷算法,選取Sp內(nèi)未被處理過的像素,尋找它的上、下、左、右四個鄰接像素,如果該像素與某鄰接像素特征向量的相似性小于臨界值D(建議值為11.56),且該鄰接像素不在Sp內(nèi),則把對應(yīng)的鄰接像素加入鄰近像素群Sp,并標注為未處理;重復(fù)以上過程,直到鄰域像素窗口內(nèi)的每個像素都被遍歷和處理過為止;最終得到中心像素pc的鄰近像素群Sp。
在上述過程中,使用歐式距離度量兩個鄰接像素的相似性。給定兩個特征向量f1=<f11,f12,…,f1n>和f2=<f21,f22,…,f2n>,其歐式距離的公式如下:
其中f1i和f2i是特征向量f1和f2的第i個分量,n是特征向量f1和f2的維數(shù)。
在上述步驟3)中計算鄰近像素群的統(tǒng)計特征過程如下:對于鄰近像素群Sp={pc,p1,p2,…,pm},其中每個像素的特征向量由RGB、Gray和Lbp值組成。對特征的每一維度,計算鄰近像素群Sp平均值A(chǔ)verage、中值Median、標準方差Standard Deviation、平均絕對偏差Mean Absolute Deviation四個統(tǒng)計特征。針對像素特征向量的某一維度X={x0,x1,x2,…,xm},其中x0對應(yīng)中心像素,m代表鄰近像素群Sp除中心像素外的像素數(shù)量,計算公式如下::
Median=mid(x0,x1,x2,...,xm),mid(·)是中值函數(shù) (5)
通過上述計算公式,鄰近像素群可以得到5*4=20維的特征向量,作為中心像素的特征向量。
在上述步驟4)中訓(xùn)練可區(qū)分石英、長石、巖屑邏輯回歸分類器的過程是:首先,基于石英、長石、巖屑顆粒的樣本數(shù)據(jù)集;對于每一張巖石顆粒顯微圖像,隨機采樣50個像素點,基于每個像素點,按照步驟1)計算顏色和紋理特征向量;然后,按步驟2)尋找鄰近像素群,計算鄰近像素群的統(tǒng)計特征,作為該像素的特征向量,并按照圖像類別標注,構(gòu)建分類器的訓(xùn)練集;最后,基于該訓(xùn)練集,訓(xùn)練可區(qū)分石英、長石、巖屑的邏輯回歸分類器。
在上述步驟5)中對砂巖顯微薄片圖像中所有像素進行預(yù)測的過程是:使用訓(xùn)練好的邏輯回歸分類器分別對每個像素進行預(yù)測,輸出一個概率值,以像素為單位得到一個概率向量p=<p1,p2,p3>,分別是該像素屬于石英、長石和巖屑的概率;接著,設(shè)定預(yù)設(shè)條件對概率向量p進行處理:令p1,p2,p3中最大值是pmax,中間值是pmid。
當(dāng)pmax≥0.6,且pmax-pmid≥0.2,預(yù)測像素類別是pmax對應(yīng)的巖石顆粒種類;
當(dāng)pmax≤0.45,預(yù)測像素類別是雜質(zhì);
其它情況下,像素暫定為噪聲點。
在上述步驟6)中對類別是噪聲點的像素進行類別判定的過程是:對于每個噪聲點像素,統(tǒng)計它所在的鄰近像素群中所有像素的類別,采用多數(shù)表決方式確定它的類別。
當(dāng)鄰近像素群里少于50%的像素類別為噪聲點時,則選取像素類別數(shù)最大的類別作為噪聲點的類別,計算方法如下
其中,Sp是鄰近像素群,m是Sp中除中心像素外的像素個數(shù),yi是Sp中每個像素的預(yù)測類別,cj分別對應(yīng)石英、長石、巖屑和雜質(zhì);I(x)是指示函數(shù),當(dāng)yi=cj時I為1,否則I為0;
當(dāng)鄰近像素群中超過50%的像素類別為噪聲點時,則選取其它噪聲點進行處理;
重復(fù)上述過程,直到所有噪聲點都有類別為止。
本發(fā)明利用砂巖顯微薄片中巖石顆粒顏色相異、紋理清晰的特點,提取巖石顆粒的顏色和紋理特征,應(yīng)用圖像處理技術(shù)和機器學(xué)習(xí)方法,實現(xiàn)巖石顆粒的自動識別;針對巖石顆粒邊界交錯清晰度不高和顆粒區(qū)域內(nèi)存有雜質(zhì)的問題,本發(fā)明以像素為基本單位,提出基于歐式距離尋找像素的鄰近像素群,計算統(tǒng)計特征作為像素分類特征,基于樣本數(shù)據(jù)集訓(xùn)練可以識別石英、長石、巖屑的邏輯回歸分類器,最后對預(yù)測產(chǎn)生的噪聲點進行除噪,從而達到理想的識別效果。基于實地采集的砂巖顯微圖像數(shù)據(jù),采用本發(fā)明方法的實驗結(jié)果表明針對砂巖顯微薄片中的巖石顆粒具有較好的識別效果,對不同種類巖石顆粒區(qū)域邊界的定位和巖石顆粒內(nèi)雜質(zhì)的識別也有較高的準確性。另外,本發(fā)明方法可以應(yīng)用砂巖顯微圖像中其它像素特征和訓(xùn)練不同類型的分類器,具有較好的擴展性,有效降低巖石顆粒識別的時間和成本;在礦物鑒別、油氣勘探中具有應(yīng)用價值。
本發(fā)明方法的具體應(yīng)用途徑很多,以上所述僅是本發(fā)明的優(yōu)選實施方式。應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進,這些改進也應(yīng)視為本發(fā)明的保護范圍。本發(fā)明具體應(yīng)用途徑很多,以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以作出若干改進,這些改進也應(yīng)視為本發(fā)明的保護范圍。