本發(fā)明涉及腔內(nèi)圖像處理領(lǐng)域,特別涉及一種用GPU實(shí)現(xiàn)實(shí)時成像的腔內(nèi)掃描光聲系統(tǒng)及數(shù)據(jù)處理方法。
背景技術(shù):
光聲成像技術(shù)(Photoacoustic Imaging)是一種新型的無損成像技術(shù),由于其具有高分率、高穿透深度、高對比度、無損實(shí)時活體成像等優(yōu)點(diǎn),在最近20年里得到迅速發(fā)展;光聲成像技術(shù)是指受短脈沖光(脈寬<微秒)輻照的光吸收介質(zhì)在吸收光能量后快速升溫膨脹,由于輻照時間遠(yuǎn)小于受照介質(zhì)內(nèi)部的熱傳導(dǎo)時間,產(chǎn)生瞬時熱膨脹導(dǎo)致應(yīng)激出超聲信號(稱為光聲信號)。利用超聲傳感器接收應(yīng)介質(zhì)應(yīng)激出的光聲信號,并通過一定的演算算法進(jìn)行圖像重建,可以反演出組織內(nèi)部光吸收的分布情況,它是一種基于光學(xué)吸收差異特性反演組織生理病變的功能成像技術(shù)。
由于光聲成像的數(shù)據(jù)量很大,特別是進(jìn)行光聲、超聲雙模B模式成像時,光聲成像的投影數(shù)據(jù)和超聲成像的投影數(shù)據(jù)需要同時進(jìn)行算法處理,再將處理得到的數(shù)據(jù)進(jìn)行成像。如果采用CPU運(yùn)算,由于CPU的串行數(shù)據(jù)處理方式將大大消耗CPU的資源,占用系統(tǒng)通訊,降低光聲系統(tǒng)的成像速度。
如果采用DSP、FPGA等硬件處理系統(tǒng),由于數(shù)據(jù)采集卡采到的數(shù)據(jù)為浮點(diǎn)數(shù)據(jù),F(xiàn)PGA等硬件處理系統(tǒng)并不適合浮點(diǎn)計(jì)算,因此降低了硬件系統(tǒng)的數(shù)據(jù)處理速度,并且在硬件設(shè)計(jì)上也會很復(fù)雜。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種基于GPU的腔內(nèi)掃描光聲系統(tǒng)。
本發(fā)明的另一目的在于,提供一種基于GPU的腔內(nèi)掃描光聲系統(tǒng)的數(shù)據(jù)處理方法。
為了達(dá)到上述第一目的,本發(fā)明采用以下技術(shù)方案:
本發(fā)明基于GPU的腔內(nèi)掃描光聲系統(tǒng),包括激光光源、信號觸發(fā)器、光纖耦合器、延時器、超聲發(fā)射接收器、腔內(nèi)掃描頭、數(shù)據(jù)采集卡、計(jì)算機(jī)、圖像處理器GPU、以及圖像顯示器,所述信號觸發(fā)器、延時器、超聲發(fā)射接收器以及腔內(nèi)掃描頭順序連接,所述信號觸發(fā)器、激光光源、光纖耦合器以及腔內(nèi)掃描頭順序連接,所述數(shù)據(jù)采集卡分別與信號觸發(fā)器、超聲發(fā)射接收器以及計(jì)算機(jī)連接,所述圖像處理器GPU和圖像顯示器均與計(jì)算機(jī)連接;
所述的信號觸發(fā)器發(fā)出同步觸發(fā)信號觸發(fā)激光光源,激光光源發(fā)出的脈沖激光經(jīng)過光纖耦合器進(jìn)入光纖,經(jīng)過腔內(nèi)掃描頭旋轉(zhuǎn)掃描后輸出光聲信號;
所述的信號觸發(fā)器發(fā)出的同步觸發(fā)信號經(jīng)過延時器延時一段時間后觸發(fā)超聲發(fā)射接收器發(fā)射激勵電壓,激勵電壓驅(qū)動腔內(nèi)掃描頭發(fā)射超聲信號,腔內(nèi)掃描頭返回超聲信號;
所述的數(shù)據(jù)采集卡接收信號觸發(fā)器發(fā)出的同步觸發(fā)信號,觸發(fā)采集卡采集上述的光聲信號和超聲信號,并將A/D轉(zhuǎn)換后的光聲和超聲信號作為投影光聲圖像和超聲圖像的采樣數(shù)據(jù)存儲在計(jì)算機(jī)內(nèi)存中;
所述的計(jì)算機(jī)通過PCIE總線接口將采樣數(shù)據(jù)拷貝至GPU顯存,圖像處理器GPU進(jìn)行并行數(shù)據(jù)處理,并將處理好的結(jié)果數(shù)據(jù)傳回計(jì)算機(jī),計(jì)算機(jī)將數(shù)據(jù)進(jìn)行圖像顯示。
作為優(yōu)選的技術(shù)方案,所述圖像處理器GPU進(jìn)行并行數(shù)據(jù)處理的方法為:
啟動GPU的CUDA內(nèi)核時,CPU將圖像像素分配信息傳輸?shù)紾PU,GPU啟動并行計(jì)算時,GPU的任務(wù)分配單元將圖像像素分配信息分配到GPU芯片上,并分配相應(yīng)的二維線程數(shù),每一個線程在宏觀上同時讀取顯存數(shù)據(jù)進(jìn)行并行計(jì)算。
為了達(dá)到上述第二目的,本發(fā)明采用以下技術(shù)方案:
本發(fā)明基于GPU的腔內(nèi)掃描光聲系統(tǒng)的數(shù)據(jù)處理方法,首先規(guī)定一幅圖像代表一次B-scan,一次B-scan由θ個采樣深度為ρ的A-line組成;采樣數(shù)據(jù)f1n(ρ,θ)是由數(shù)據(jù)采集卡進(jìn)行A/D轉(zhuǎn)換后的光聲投影數(shù)據(jù),f2n(ρ,θ)是由數(shù)據(jù)采集卡進(jìn)行A/D轉(zhuǎn)換后的超聲投影數(shù)據(jù),其中橫坐標(biāo)ρ為采樣深度,縱坐標(biāo)為采樣角度θ,n為采樣角度θ的采樣次數(shù);該方法的具體步驟為:
S1、將采樣數(shù)據(jù)f1n(ρ,θ)、f2n(ρ,θ)存儲在計(jì)算機(jī)內(nèi)存中,為f1n(ρ,θ)、f2n(ρ,θ)分配內(nèi)存,內(nèi)存空間大小為n*ρ*θ;其中f1n(ρ,θ)表示第θ角度第n次采集到的深度為ρ的光聲信號,f2n(ρ,θ)表示第θ角度第n次采集到的深度為ρ的超聲信號;
S2、為f1n(ρ,θ)、f2n(ρ,θ)分配GPU端顯存空間,分配顯存空間大小為n*ρ*θ,將f1n(ρ,θ)、f2n(ρ,θ)從主機(jī)端內(nèi)存拷貝到GPU端顯存;
S3、為圖像顯示數(shù)組矩陣F1(x,y)、F2(x,y)分配顯存空間,分配空間大小為x*y,其x為圖像像素點(diǎn)橫坐標(biāo),y為圖像像素點(diǎn)縱坐標(biāo);
S4、并行將ρ個f1n(ρ,θ)、f2n(ρ,θ)分別進(jìn)行去噪運(yùn)算,得到f1’(ρ,θ)、f2’(ρ,θ);其中f1’(ρ,θ)表示第θ角度的采集到的n次光聲信號經(jīng)過運(yùn)算得到的一個光聲信號,f2’(ρ,θ)表示第θ角度的采集到的n次超聲信號經(jīng)過運(yùn)算得到的一個超聲信號;
S5、根據(jù)圖像矩陣F1(x,y)和F2(x,y),CPU將圖像矩陣像素分配信息傳輸?shù)紾PU,GPU啟動并行計(jì)算時,GPU的任務(wù)分配單元將圖像像素分配信息分配到GPU芯片上,每個線程的坐標(biāo)為(x,y);
S6、線程(x,y)對圖像F1(x,y),F(xiàn)2(x,y)進(jìn)行并行坐標(biāo)轉(zhuǎn)換,得到對應(yīng)的f1’(ρ,θ)、f2’(ρ,θ)上的數(shù)據(jù)點(diǎn);將f1’(ρ,θ)、f2’(ρ,θ)上的對應(yīng)點(diǎn)數(shù)據(jù)值賦值到圖像矩陣F1(x,y),F(xiàn)2(x,y)上,對未在f1’(ρ,θ)、f2’(ρ,θ)上的數(shù)據(jù)點(diǎn)進(jìn)行雙線性內(nèi)插后賦值到F1(x,y),F(xiàn)2(x,y)上;
S7、為圖像顯示數(shù)組矩陣F1(x,y)、F2(x,y)分配內(nèi)存空間,將F1(x,y)、F2(x,y)矩陣從GPU端顯存拷貝到主機(jī)端進(jìn)行顯示,釋放所有未釋放的內(nèi)存和顯存空間。
作為優(yōu)選的技術(shù)方案,步驟S4中所述的去噪運(yùn)算是指將每個θ采樣到的n個A-Line數(shù)據(jù)進(jìn)行中值濾波運(yùn)算,對應(yīng)位置的n個值進(jìn)行取中間值運(yùn)算,然后取中間值作為濾波后的該位置的數(shù)據(jù)值。
作為優(yōu)選的技術(shù)方案,步驟S6中所述的坐標(biāo)轉(zhuǎn)換公式為:
所述的雙線性內(nèi)插法為:ρ′=ρ+Δρ,θ′=θ+Δθ,其中ρ、θ為整數(shù)部分;Δρ,Δθ為小數(shù)部分,則
F1(x,y)=(1-Δρ)(1-Δθ)f1’(ρ,θ)+(1-Δρ)Δθf1’(ρ,θ+1)+Δρ(1-Δθ)f1’(ρ+1,θ)+ΔρΔθf1’(ρ+1,θ+1);
F2(x,y)=(1-Δρ)(1-Δθ)f2’(ρ,θ)+(1-Δρ)Δθf2’(ρ,θ+1)+Δρ(1-Δθ)f2’(ρ+1,θ)+ΔρΔθf2’(ρ+1,θ+1)。本發(fā)明的技術(shù)原理如下:
本發(fā)明的基于GPU平臺的腔內(nèi)掃描光聲系統(tǒng)及數(shù)據(jù)處理方法是基于CUDA(Compute Unified Device Architecture),CUDA是一種由NVIDIA公司推出的通用并行計(jì)算架構(gòu),在計(jì)算上已經(jīng)超越了通用的CPU,該架構(gòu)使GPU能夠解決復(fù)雜的計(jì)算問題。在CUDA架構(gòu)下,開發(fā)人員可以通過CUDA C語言(CUDA C語言是對標(biāo)準(zhǔn)C語言的一種簡單擴(kuò)展)對GPU編程運(yùn)算。
在CUDA的架構(gòu)中,一個系統(tǒng)分為兩個部份:Host端和Device端。Host端是指在CPU上執(zhí)行的系統(tǒng)部份,而Device端則是在顯示芯片(GPU)上執(zhí)行的系統(tǒng)部份。在同一個系統(tǒng)中可以有一個Host和多個Device。CPU主要負(fù)責(zé)進(jìn)行邏輯事件的處理和串行計(jì)算,GPU負(fù)責(zé)執(zhí)行高度線程化的并行數(shù)據(jù)處理任務(wù)。在CUDA程序中,將允許在GPU上的可以被并行執(zhí)行的步驟稱為Kernel(內(nèi)核函數(shù))。通過GPU并行計(jì)算,極大的提高了光聲成像速度。
本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點(diǎn)和有益效果:
1、本發(fā)明的基于GPU平臺的腔內(nèi)掃描光聲系統(tǒng)及數(shù)據(jù)處理方法,利用計(jì)算機(jī)通用顯卡GPU,并將基于GPU的統(tǒng)一技術(shù)設(shè)備構(gòu)架(CUDA)首次引入到光聲系統(tǒng)成像中數(shù)據(jù)處理和投影,借助GPU多線程并行數(shù)據(jù)處理能力和浮點(diǎn)計(jì)算能力,將光聲成像系統(tǒng)的成像速度較基于CPU平臺處理的成像速度提高了數(shù)十倍,達(dá)到了臨床2D實(shí)時成像的要求。
2、本發(fā)明由于采用CUDA并行數(shù)據(jù)處理方法,光聲成像的數(shù)據(jù)處理速度遠(yuǎn)遠(yuǎn)大于CPU方式的數(shù)據(jù)處理速度,因此可以使用更加復(fù)雜的光聲成像投影算法,在得到更加精確的光聲圖像的同時達(dá)到臨床2D的實(shí)時成像要求。
3、本發(fā)明由于采用基于CUDA的GPU并行數(shù)據(jù)處理方法,省去了專用的圖像處理系統(tǒng),因此降低了系統(tǒng)的成本。
附圖說明
圖1是本發(fā)明的系統(tǒng)構(gòu)成示意圖;
圖2是本發(fā)明的數(shù)據(jù)處理方法流程圖;
圖3是模擬樣品B掃描成像效果圖;其中:圖a為投影算法在CPU模式下系統(tǒng)成像圖像;圖b為投影算法在GPU模式下系統(tǒng)成像圖像;
附圖標(biāo)號說明:
1:激光光源;2:信號觸發(fā)器;
3:光纖耦合器;4:延時器;
5:超聲發(fā)射接收器;6:腔內(nèi)掃描頭;
7:數(shù)據(jù)采集卡;8:計(jì)算機(jī);
9:圖像處理器GPU;10:圖像顯示。
具體實(shí)施方式
下面結(jié)合實(shí)施例及附圖對本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí)施方式不限于此。
實(shí)施例
如圖1所示,本實(shí)施例基于GPU的腔內(nèi)掃描光聲系統(tǒng),包括激光光源1、信號觸發(fā)器2、光纖耦合器3、延時器4、超聲發(fā)射接收器5、腔內(nèi)掃描頭6、數(shù)據(jù)采集卡7、計(jì)算機(jī)8、圖像處理器GPU 9、以及圖像顯示器10,所述信號觸發(fā)器2、延時器4、超聲發(fā)射接收器5以及腔內(nèi)掃描頭6順序連接,所述信號觸發(fā)器2、激光光源1、光纖耦合器3以及腔內(nèi)掃描頭6順序連接,所述數(shù)據(jù)采集4卡分別與信號觸發(fā)器2、超聲發(fā)射接收器5以及計(jì)算機(jī)8連接,所述圖像處理器GPU 9和圖像顯示器10均與計(jì)算機(jī)8連接。
工作時,信號觸發(fā)器2發(fā)出同步觸發(fā)信號觸發(fā)激光光源1,激光光源1發(fā)出的脈沖激光經(jīng)過光纖耦合器3進(jìn)入光纖,并通過光纖進(jìn)入腔內(nèi)掃描頭6,腔內(nèi)掃描頭6經(jīng)過360°旋轉(zhuǎn)掃描后返回光聲信號;信號觸發(fā)器2發(fā)出的同步觸發(fā)信號經(jīng)過延時器4延時一段時間后觸發(fā)超聲發(fā)射接收器5發(fā)射激勵電壓,激勵電壓驅(qū)動腔內(nèi)掃描頭6發(fā)射超聲,腔內(nèi)掃描頭6返回超聲信號;信號觸發(fā)器2發(fā)出的同步觸發(fā)信號觸發(fā)數(shù)據(jù)采集卡7采集光聲信號和超聲信號,并將A/D轉(zhuǎn)換后的光聲和超聲信號作為投影光聲圖像和超聲圖像的采樣數(shù)據(jù)存儲在計(jì)算機(jī)8內(nèi)存中;計(jì)算機(jī)通過PCIE總線接口將采樣數(shù)據(jù)拷貝至GPU顯存,圖像處理器GPU9進(jìn)行并行數(shù)據(jù)處理,并將處理好的結(jié)果數(shù)據(jù)傳回計(jì)算機(jī)8,計(jì)算機(jī)將數(shù)據(jù)進(jìn)行圖像顯示10。
本實(shí)施例基于GPU的腔內(nèi)掃描光聲系統(tǒng)的數(shù)據(jù)處理方法,如圖2所示,包括下述步驟:
(a)將采樣數(shù)據(jù)f1n(ρ,θ)、f2n(ρ,θ)存儲在計(jì)算機(jī)內(nèi)存中,為f1n(ρ,θ)、f2n(ρ,θ)分配內(nèi)存,內(nèi)存空間大小為n*ρ*θ;
(b)為f1n(ρ,θ)、f2n(ρ,θ)分配GPU端顯存空間,分配顯存空間大小為n*ρ*θ,將f1n(ρ,θ)、f2n(ρ,θ)從主機(jī)端內(nèi)存拷貝到GPU端顯存;
(c)為圖像顯示數(shù)組矩陣F1(x,y)、F2(x,y)分配顯存空間,分配空間大小為x*y,其x為圖像像素點(diǎn)橫坐標(biāo),y為圖像像素點(diǎn)縱坐標(biāo);
(d)并行將ρ個f1n(ρ,θ)、f2n(ρ,θ)分別進(jìn)行去噪運(yùn)算,得到f1’(ρ,θ)、f2’(ρ,θ);
(e)為圖像矩陣F1(x,y),F(xiàn)2(x,y)分配x*y個并行線程,每個線程的坐標(biāo)為(x,y);
(f)線程(x,y)對圖像F1(x,y),F(xiàn)2(x,y)進(jìn)行并行坐標(biāo)轉(zhuǎn)換,得到對應(yīng)的f1’(ρ,θ)、f2’(ρ,θ)上的數(shù)據(jù)點(diǎn);將f1’(ρ,θ)、f2’(ρ,θ)上的對應(yīng)點(diǎn)數(shù)據(jù)值賦值到圖像矩陣F1(x,y),F(xiàn)2(x,y)上,對未在f1’(ρ,θ)、f2’(ρ,θ)上的數(shù)據(jù)點(diǎn)進(jìn)行雙線性內(nèi)插后賦值到F1(x,y),F(xiàn)2(x,y)上;
(g)為圖像顯示數(shù)組矩陣F1(x,y)、F2(x,y)分別內(nèi)存空間,將F1(x,y)、F2(x,y)矩陣從GPU端顯存拷貝到主機(jī)端進(jìn)行顯示,釋放所有未釋放的內(nèi)存和顯存空間。
步驟d中所述的去噪運(yùn)算是指將每個θ采樣到的n個A-Line數(shù)據(jù)進(jìn)行中值濾波運(yùn)算,對應(yīng)位置的n個值進(jìn)行取中間值運(yùn)算,然后取中間值作為濾波后的該位置的數(shù)據(jù)值。
步驟f中所述的坐標(biāo)轉(zhuǎn)換公式為:
所述的雙線性內(nèi)插法為:ρ′=ρ+Δρ,θ′=θ+Δθ,其中ρ、θ為整數(shù)部分;Δρ,Δθ為小數(shù)部分。則
F1(x,y)=(1-Δρ)(1-Δθ)f1’(ρ,θ)+(1-Δρ)Δθf1’(ρ,θ+1)+Δρ(1-Δθ)f1’(ρ+1,θ)+ΔρΔθf1’(ρ+1,θ+1)。
F2(x,y)=(1-Δρ)(1-Δθ)f2’(ρ,θ)+(1-Δρ)Δθf2’(ρ,θ+1)+Δρ(1-Δθ)f2’(ρ+1,θ)+ΔρΔθf2’(ρ+1,θ+1)。
例如:計(jì)算100幀B-scan圖像,像素大小為768*768。分別采用CPU端和GPU端計(jì)算圖像投影算法,并用CUDA提供的計(jì)時函數(shù)進(jìn)行計(jì)時,實(shí)驗(yàn)得到結(jié)果為CPU端執(zhí)行100幀B-scan需要約121秒,GPU端需要3秒,基于GPU的投影速度提高了40倍。如圖3(a)、圖3(b)所示,圖3(a)為采用雙線性內(nèi)插算法在CPU模式下的系統(tǒng)成像圖,圖3(b)為采用雙線性內(nèi)插算法在GPU模式下的系統(tǒng)成像圖。
本發(fā)明提供的基于GPU的腔內(nèi)掃描光聲系統(tǒng)及數(shù)據(jù)處理方法,通過GPU并行計(jì)算,極大的提高了光聲成像速度,同時也提供了一種低成本,高性能的光聲成像系統(tǒng)。
上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改變、修飾、替代、組合、簡化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。