使用卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字圖像處理的制作方法

文檔序號：10577397閱讀：240來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

使用卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字圖像處理的制作方法
【專利摘要】根據(jù)示例，可以通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)集合對數(shù)字圖像進(jìn)行處理，以對數(shù)字圖像中的對象進(jìn)行分類。對于每個(gè)CNN，可以選擇候選架構(gòu)和候選參數(shù)以構(gòu)建多個(gè)CNN。一旦確定每個(gè)對于所選擇的候選參數(shù)具有不同的值的預(yù)定數(shù)量的CNN滿足驗(yàn)證閾值，就可以從預(yù)定數(shù)量的CNN生成CNN集合。然后，可以聚集來自CNN集合的預(yù)測以準(zhǔn)確地對數(shù)字圖像中的對象進(jìn)行分類。
【專利說明】使用卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字圖像處理
【背景技術(shù)】
[0001] 數(shù)字圖像處理通常涉及處理數(shù)字圖像(例如，來自數(shù)字靜止圖像或數(shù)字視頻）以確知、檢測和/或分類圖像中的具體特征或?qū)ο??？梢栽趫D像處理期間應(yīng)用模式識別以檢測圖像中的具體對象。具有模式識別的數(shù)字圖像處理已經(jīng)在廣泛多種應(yīng)用(諸如面部識別、來自航空照片的土地特征的檢測、車輛牌照確定等）中使用。不同類型的常規(guī)機(jī)器學(xué)習(xí)功能可以用于模式識別，然而，許多常規(guī)機(jī)器學(xué)習(xí)功能不適合于或可能難以適合于數(shù)字圖像處理中的模式識別。
【附圖說明】
[0002] 通過示例的方式圖示本公開的特征，并且不局限于以下附圖，其中，類似的標(biāo)號指示類似的元件，其中：
[0003] 圖1示出了根據(jù)本公開的示例的圖像處理系統(tǒng)的系統(tǒng)圖；
[0004] 圖2示出了根據(jù)本公開的示例的指示對資產(chǎn)(property)損壞的程度的分類類別；
[0005] 圖3示出了根據(jù)本公開的示例的圖像處理服務(wù)器的數(shù)據(jù)存儲(data store);
[0006] 圖4示出了根據(jù)本公開的示例的用于使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對數(shù)字圖像中的對象進(jìn)行分類的計(jì)算設(shè)備的框圖；
[0007] 圖5示出了根據(jù)本公開的示例的使用CNN對數(shù)字圖像中的對象進(jìn)行分類的方法的流程圖；和
[0008] 圖6示出了根據(jù)本公開的示例的優(yōu)化CNN的流程圖。
【具體實(shí)施方式】
[0009] 出于簡化和說明目的，主要通過參照其示例對本公開進(jìn)行描述。在以下描述中，闡述了許多具體細(xì)節(jié)，以便提供對本公開的透徹理解。然而，顯而易見的是，在不局限于這些具體細(xì)節(jié)的情況下，也可以實(shí)踐本公開。在其它實(shí)例中，沒有對一些方法和結(jié)構(gòu)進(jìn)行詳細(xì)描述，以免不必要地模糊本公開。如本文中所使用的，術(shù)語"一"和"一個(gè)"旨在表示至少一個(gè)具體元素，術(shù)語"包括（includes)"意味著包括(includes)但不限于，術(shù)語"包括（including)" 意味著包括(including)但不限于，并且術(shù)語"基于"意味著至少部分基于。
[0010] 根據(jù)示例，圖像處理系統(tǒng)構(gòu)建并且訓(xùn)練深度學(xué)習(xí)模型（諸如卷積神經(jīng)網(wǎng)絡(luò)(CNN)) 集合(ensemble)，以精確地且自動地執(zhí)行圖像處理來檢測數(shù)字圖像中的對象的具體屬性，并且根據(jù)所檢測的屬性對對象進(jìn)行分類。然而，CNN包括許多功能部件，其使得它很難確定準(zhǔn)確執(zhí)行以檢測并分類對于手頭問題是相關(guān)的圖像的具體特征所必需的網(wǎng)絡(luò)架構(gòu)。更進(jìn)一步地，CNN的每個(gè)部件通常具有與它相關(guān)聯(lián)的大量參數(shù)。在沒有應(yīng)用任何魯棒的圖像處理系統(tǒng)的情況下，成功且準(zhǔn)確的圖像分類所必需的那些參數(shù)的特定值不是先驗(yàn)已知的。因此，圖像處理系統(tǒng)提供了一種用于構(gòu)建并且微調(diào)證明輸出圖像的準(zhǔn)確分類的CNN的方法。通過迭代過程，可以選擇用于CNN的候選架構(gòu)和候選參數(shù)來構(gòu)建、訓(xùn)練、并優(yōu)化CNN。例如，迭代過程可以包括:從多個(gè)候選架構(gòu)選擇候選架構(gòu)并且驗(yàn)證用于所選擇的候選架構(gòu)的候選參數(shù)集。候選架構(gòu)可以包括分類器類型以及若干個(gè)卷積層和子采樣（subsampling)層。候選參數(shù)可以包括學(xué)習(xí)率、批量大小、訓(xùn)練歷元(training epoch)的最大數(shù)量、輸入圖像大小、CNN每一層處的特征映射圖（feature map)數(shù)量、卷積濾波器大小、子采樣池大小、隱含層數(shù)量、每個(gè) 隱含層中的單元數(shù)量、所選擇的分類器算法、以及輸出種類的數(shù)量。另外，還可以選擇預(yù)處理協(xié)議，以增強(qiáng)用于所選擇的候選架構(gòu)和所選擇的候選參數(shù)的圖像中的具體內(nèi)容。
[0011] 迭代過程可以包括:使用訓(xùn)練集構(gòu)建中間CNN并且評價(jià)(evaluate)中間CNN在驗(yàn)證集上的性能。比如，該評價(jià)確定中間CNN是否滿足驗(yàn)證閾諸(諸如小于20%錯(cuò)誤率）。重復(fù)該迭代過程直到預(yù)定數(shù)量(例如，25個(gè))的中間CNN滿足驗(yàn)證閾值為止。根據(jù)示例，每個(gè)中間CNN 對于所選擇的候選參數(shù)具有不同的值。然后，從預(yù)定數(shù)量的中間CNN生成最準(zhǔn)確的中間CNN 集合。例如，該集合可能是前5個(gè)最準(zhǔn)確的中間CNN。下一步驟可以包括:選擇集合算法以聚集和/或組合該集合中的每個(gè)中間CNN的預(yù)測以形成集合預(yù)測。然后，該集合中的每個(gè)中間 CNN的預(yù)測可以用來對圖像或圖像中的對象進(jìn)行分類。
[0012] 所公開的示例的技術(shù)優(yōu)勢和優(yōu)點(diǎn)包括：提供了表現(xiàn)出優(yōu)良的分類準(zhǔn)確度以評估 (assess)資產(chǎn)損壞的先進(jìn)深度學(xué)習(xí)架構(gòu)和確定先進(jìn)深度學(xué)習(xí)架構(gòu)的迭代圖像處理系統(tǒng)。通過迭代過程由圖像處理系統(tǒng)生成的CNN比其它規(guī)則的前饋神經(jīng)網(wǎng)絡(luò)更容易訓(xùn)練，并且具有較少的估計(jì)參數(shù)，從而使其成為用來評估資產(chǎn)損壞的更有效的架構(gòu)。
[0013] 根據(jù)示例，由圖像處理系統(tǒng)生成的CNN可以用來對在數(shù)字圖像中捕獲的資產(chǎn)的損壞程度間分類。損壞可以是指損害資產(chǎn)外觀的任何類型的損傷或傷害。圖像或數(shù)字圖像可以包括靜止圖像和運(yùn)動圖像(例如，視頻）。資產(chǎn)可能是包括但不限于房子、家具、服裝、車輛設(shè)備、土地、計(jì)算設(shè)備、玩具等的任何有形對象。在其中投?？蛻舻挠行钨Y產(chǎn)意外受損的示例中，投保客戶可以通過用智能手機(jī)和/或相機(jī)拍攝數(shù)碼照片來記錄對受損資產(chǎn)的損壞。然后，受損資產(chǎn)的數(shù)字圖像可以被饋給到圖像處理系統(tǒng)。圖像處理系統(tǒng)可以自動基于從所接收的數(shù)字圖像的圖像處理確定的損壞量來對受損資產(chǎn)進(jìn)行分類。在本示例中，圖像處理系統(tǒng)提供了一種自動檢測對如在數(shù)字圖像中捕獲的資產(chǎn)的損壞程度的機(jī)器視覺方法和裝置。
[0014] 根據(jù)示例，圖像處理系統(tǒng)生成集合模型（例如，包括多個(gè)優(yōu)化CNN)，以在準(zhǔn)確度提高的情況下對圖像或者該圖像中的對象進(jìn)行分類。在示例中，使用集合模型的圖像處理系統(tǒng)對驗(yàn)證集中的圖像的準(zhǔn)確度接近90%。
[0015] 如上文所討論的，根據(jù)示例，圖像處理系統(tǒng)可以用于對在圖像中捕獲的資產(chǎn)損壞的程度進(jìn)行分類。然而，圖像處理系統(tǒng)可以基本上用于任何應(yīng)用以將數(shù)字圖像中的特征分類為預(yù)先定義的類別。
[0016] 參照圖1，示出了根據(jù)本公開的示例的圖像處理系統(tǒng)100的系統(tǒng)圖。應(yīng)當(dāng)理解，在不脫離該系統(tǒng)100的范圍的情況下，該系統(tǒng)100可以包括附加的部件，并且本文中所描述的部件的一個(gè)或多個(gè)部件可以被移除和/或修改。該系統(tǒng)100可以包括至少一個(gè)圖像捕獲設(shè)備 110、通信網(wǎng)絡(luò)120、圖像處理服務(wù)器130、以及數(shù)據(jù)存儲140。
[0017] 圖像捕獲設(shè)備110可以經(jīng)由通信網(wǎng)絡(luò)120與圖像處理服務(wù)器130通信。圖像捕獲設(shè) 備110可以是任何計(jì)算設(shè)備，其包括相機(jī)(諸如但不限于智能電話、計(jì)算平板電腦、膝上型計(jì) 算機(jī)、臺式計(jì)算機(jī)、或任何可穿戴計(jì)算設(shè)備）。根據(jù)示例，圖像捕獲設(shè)備110可以捕獲有形資產(chǎn)150的圖像并且將有形資產(chǎn)150的圖像發(fā)送到圖像處理服務(wù)器130以自動對有形資產(chǎn)150 的損壞程度進(jìn)行分類。
[0018] 通信網(wǎng)絡(luò)120可以包括局域網(wǎng)（LAN)和廣域網(wǎng)(WAN)(諸如因特網(wǎng)）。通信網(wǎng)絡(luò)120可以包括可以由軟件、應(yīng)用程序和/或邏輯控制的信號承載介質(zhì)。通信網(wǎng)絡(luò)120可以包括支持數(shù)據(jù)通信服務(wù)的網(wǎng)絡(luò)元件的組合。例如，通信網(wǎng)絡(luò)120可以通過使用物理連接(諸如銅電纜、同軸電纜和光纖電纜)或通過無線技術(shù)(諸如無線電、微波、或衛(wèi)星)將圖像捕獲設(shè)備110連接到圖像處理服務(wù)器130。
[0019] 例如，圖像處理服務(wù)器130可以在圖像預(yù)處理器105處從訓(xùn)練集接收數(shù)字圖像。圖像預(yù)處理器可以裁剪并增強(qiáng)來自訓(xùn)練集的圖像中的具體內(nèi)容以輸入到中間CNN構(gòu)建器 (builder)115。中間CNN構(gòu)建器115可以選擇各種架構(gòu)和參數(shù)來訓(xùn)練中間CNN125。然后，可以在由驗(yàn)證電路135生成的驗(yàn)證集上對中間CNNl 25進(jìn)行評估。驗(yàn)證電路135可以確定是否標(biāo)記滿足指定驗(yàn)證閾值的中間CNN125。如果中間CNN125不滿足驗(yàn)證閾值，則中間CNN不被標(biāo)記，并且繼續(xù)通過中間CNN構(gòu)建器115在來自訓(xùn)練集的數(shù)字圖像上進(jìn)行訓(xùn)練。然而，如果中間 CNNl25確實(shí)滿足驗(yàn)證閾值，則中間CNNl 25現(xiàn)在是標(biāo)記的中間CNN145。因此，標(biāo)記的中間 CNN145有資格被選擇作為由集合生成器155生成的優(yōu)化CNN集合的一部分。例如，集合生成器155可以創(chuàng)建優(yōu)化CNN集合165。從集合165聚集的預(yù)測可以用來準(zhǔn)確分類來自輸入數(shù)字圖像的對象175。下文在圖4、圖5和圖6中對圖像處理服務(wù)器130的處理功能進(jìn)一步詳細(xì)說明。
[0020] 根據(jù)示例，圖像處理服務(wù)器130可以接收有形資產(chǎn)150的圖像并且使用CNN對有形資產(chǎn)150的損壞程度自動分類，以識別并分類有形資產(chǎn)150的圖像中的損壞。根據(jù)示例，如圖 2所圖示的，圖像處理服務(wù)器130可以將有形資產(chǎn)150的損壞程度分類為各種預(yù)先確定的分類類別200(諸如但不限于未受損的、受損的、嚴(yán)重受損的或總計(jì)的）。
[0021] 如圖4中下文進(jìn)一步所詳述的，圖像處理服務(wù)器130可以被耦合到數(shù)據(jù)存儲140。如圖3所圖示的，數(shù)據(jù)存儲140可以通過圖像處理服務(wù)器130存儲對有形資產(chǎn)150的損壞程度分類所依賴的數(shù)據(jù)。例如，數(shù)據(jù)存儲140可以存儲訓(xùn)練集和包括資產(chǎn)310、受損資產(chǎn)320和總計(jì) 損壞的資產(chǎn)330的數(shù)字圖像的驗(yàn)證集。圖像處理服務(wù)器130依賴這些數(shù)字圖像以構(gòu)建準(zhǔn)確評估并分類對有形資產(chǎn)150的損壞程度的模型。
[0022] 參照圖4,示出了根據(jù)本公開的示例的用于使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行圖像處理的計(jì)算設(shè)備400的框圖。根據(jù)示例，計(jì)算設(shè)備400是圖像處理服務(wù)器130。應(yīng)當(dāng)理解，在不脫離計(jì)算設(shè)備400的范圍的情況下，計(jì)算設(shè)備400可以包括附加的部件，并且本文中所描述的部件的一個(gè)或多個(gè)部件可以被移除和/或修改。
[0023]計(jì)算設(shè)備400被描繪為包括處理器402、數(shù)據(jù)存儲140、輸入/輸出（I/O)接口406和圖像處理平臺410。作為示例，計(jì)算設(shè)備400的部件在單個(gè)計(jì)算機(jī)或服務(wù)器上示出，并且在其它示例中，部件可以存在于多個(gè)計(jì)算機(jī)或服務(wù)器上。計(jì)算設(shè)備400可以將數(shù)據(jù)存儲在數(shù)據(jù)存儲140中和/或可以管理比如通過I/O接口 406存儲在單獨(dú)的計(jì)算設(shè)備中的數(shù)據(jù)的存儲。數(shù)據(jù) 存儲140可以包括物理存儲器(諸如硬盤驅(qū)動器、光盤驅(qū)動器、閃存驅(qū)動器、驅(qū)動器陣列或它們的任意組合），并且可以包括易失性和/或非易失性數(shù)據(jù)存儲。
[0024]圖像處理平臺410被描繪為包括訓(xùn)練電路412、模型構(gòu)建器414、驗(yàn)證電路416和分類器418?？梢园ㄎ⑻幚砥?、微控制器、專用集成電路(ASIC)、圖形處理單元(GPU)等等的處理器402要在計(jì)算設(shè)備400中執(zhí)行各種處理功能。處理功能可以包括圖像處理平臺410的訓(xùn)練電路412、模型構(gòu)建器414、驗(yàn)證電路416和分類器418的功能。
[0025]例如，訓(xùn)練電路412可以從受損資產(chǎn)或?qū)ο蟮膱D像創(chuàng)建訓(xùn)練集。該訓(xùn)練集可以通過模型構(gòu)建器414用來構(gòu)建CNN模型。例如，模型構(gòu)建器414可以根據(jù)用于CNN模型的所選擇的候選架構(gòu)和候選參數(shù)在訓(xùn)練集上構(gòu)建CNN模型。例如，驗(yàn)證電路416可以評價(jià)由模型構(gòu)建器 414構(gòu)建的CNN模型在驗(yàn)證集上的性能，并且確定CNN模型是否滿足驗(yàn)證閾值。例如，分類器 418可以分類驗(yàn)證集中的每幅圖像中的對象的損壞程度。該分類器還可以聚集來自優(yōu)化CNN 模型集合的預(yù)測以更準(zhǔn)確地評估數(shù)字圖像中的受損對象。
[0026]在示例中，圖像處理平臺410包括存儲在非暫態(tài)計(jì)算機(jī)可讀介質(zhì)413上并且由處理器執(zhí)行的機(jī)器可讀指令。非暫態(tài)計(jì)算機(jī)可讀介質(zhì)的示例包括動態(tài)隨機(jī)存取存儲器(DRAM)、電可擦除可編程只讀存儲器(EEPROM)、磁阻隨機(jī)存取存儲器(MRAM)、憶阻器、閃存、硬盤驅(qū) 動器等。計(jì)算機(jī)可讀介質(zhì)413可以被包括在數(shù)據(jù)存儲140中或可以是單獨(dú)的存儲設(shè)備。在另一示例中，圖像處理平臺410包括硬件設(shè)備(諸如電路或布置在板上的多個(gè)電路）。在該示例中，訓(xùn)練電路412、模型構(gòu)建器414、驗(yàn)證電路416和分類器418包括電路部件或單獨(dú)電路(諸如嵌入式系統(tǒng)、ASIC或現(xiàn)場可編程門陣列(FPGA))。
[0027] 處理器402可以通過總線405被耦合到數(shù)據(jù)存儲140和I/O接口406,其中，總線405 可以是在計(jì)算設(shè)備400的各種部件之間傳送數(shù)據(jù)的通信系統(tǒng)。在示例中，總線405可以是外圍部件互連(pci)、工業(yè)標(biāo)準(zhǔn)架構(gòu)（iSA)、PCi-Express、HyperTransport?、NuBus、專用總線等等。
[0028] I/O接口 406包括硬件和/或軟件接口。I/O接口 406可以是通過網(wǎng)絡(luò)設(shè)備連接到網(wǎng) 絡(luò)的網(wǎng)絡(luò)接口，通過該網(wǎng)絡(luò)接口，圖像處理平臺410可以接收并且傳送信息（比如關(guān)于對資產(chǎn)的損壞程度的信息）。例如，輸入/輸出接口 406可以是無線局域網(wǎng)(WLAN)或網(wǎng)絡(luò)接口控制器(NIC) ILAN可以通過無線電信號將計(jì)算設(shè)備400鏈接到網(wǎng)絡(luò)設(shè)備。類似地，NIC可以通過物理連接(諸如電纜)將計(jì)算設(shè)備400鏈接到網(wǎng)絡(luò)設(shè)備。計(jì)算設(shè)備400還可以通過無線廣域網(wǎng) (ffff AN)鏈接到網(wǎng)絡(luò)設(shè)備，其使用移動數(shù)據(jù)信號與移動電話塔通信。處理器402可以將通過輸入/輸出接口 406接收的信息存儲在數(shù)據(jù)存儲140中，并且可以使用在實(shí)施圖像處理平臺410 的訓(xùn)練電路412、模型生成器414、驗(yàn)證電路416和分類器418中的信息。
[0029] 下文在圖5和圖6中所公開的方法描述了使用CNN進(jìn)行數(shù)字圖像處理例如以分類對在圖像中所捕獲的資產(chǎn)的損壞程度的方法的示例。對于本領(lǐng)域技術(shù)人員，應(yīng)該顯而易見的是，在不背離方法的范圍的情況下，這些方法表示廣義的圖示，并且其它序列可以被添加或者現(xiàn)有的序列可以被移除、修改或重新布置。
[0030] 圖5示出了根據(jù)本公開的示例的使用CNN進(jìn)行數(shù)字圖像處理的方法500的流程圖。 CNN可以用于推進(jìn)圖像中的對象的分類性能。因此，圖5中所圖示的方法500提供了一種用于訓(xùn)練并構(gòu)建CNN以輸出圖像中的對象的準(zhǔn)確分類的方法。例如，圖像處理服務(wù)器130的處理器402可以實(shí)施圖像處理平臺410以準(zhǔn)確評估圖像中的資產(chǎn)損壞。
[0031] 在框505中，訓(xùn)練電路412比如可以從受損資產(chǎn)或?qū)ο蟮膱D像創(chuàng)建訓(xùn)練集。根據(jù)示例，訓(xùn)練集數(shù)據(jù)可以包括新(未受損的)對象、受損對象和總計(jì)對象的圖像?？梢酝ㄟ^模型構(gòu) 建器414處理這個(gè)訓(xùn)練集，以發(fā)現(xiàn)預(yù)測性關(guān)系并且調(diào)整模型(諸如CNN)。
[0032] 在已經(jīng)創(chuàng)建訓(xùn)練集之后，方法500可以迭代地選擇候選架構(gòu)和候選參數(shù)以優(yōu)化CNN 的例如準(zhǔn)確分類對圖像中的對象的損壞程度的能力。該迭代過程可以包括方法500的框 510-545。
[0033] 在框510中，模型構(gòu)建器414比如可以從多個(gè)候選架構(gòu)中選擇候選架構(gòu)。根據(jù)示例，多個(gè)候選架構(gòu)可以包括分類器類型、以及若干個(gè)卷積層和子采樣層的不同組合。分類器類型可以包括多層感知器(MLP)、支持向量機(jī)(SVM)等等。
[0034] 在框515中，模型構(gòu)建器414比如可以選擇用于所選擇的候選架構(gòu)的候選參數(shù)。根據(jù)示例，候選參數(shù)可以包括學(xué)習(xí)率、批量大小、訓(xùn)練歷元的最大數(shù)量、卷積濾波器大小、CNN 每一層的特征映射圖數(shù)量、子采樣池大小、輸入圖像大小、隱含層數(shù)量、每個(gè)隱含層中的單元數(shù)量、所選擇的分類器算法、以及輸出種類數(shù)量。
[0035]學(xué)習(xí)參數(shù)的示例包括學(xué)習(xí)率、批量大小和訓(xùn)練歷元的最大數(shù)量。學(xué)習(xí)率參數(shù)是其中CNN從訓(xùn)練集學(xué)習(xí)最佳濾波系數(shù)的速率。理想情況下，學(xué)習(xí)率不是太高（其中，CNN超量學(xué) 習(xí)并且不太普及)或太低。根據(jù)示例，用于學(xué)習(xí)率參數(shù)的范圍包括但不限于0.05至0.10。批量大小參數(shù)是當(dāng)在最小化中計(jì)算梯度下降的估計(jì)時(shí)，一起被處理的圖像的數(shù)量(與一次使用一幅圖像相對）。在訓(xùn)練期間，將若干幅圖像聚束在批量中通過使用圖像(高度X寬度)的三維（3D)矩陣表示(批量大小X高度X寬度)而非兩維（2D)矩陣表示來加快計(jì)算。根據(jù)示例，批量大小參數(shù)的范圍包括但不限于每個(gè)批量2-128幅圖像。訓(xùn)練歷元的最大數(shù)量參數(shù)是整個(gè)訓(xùn)練集在更新最小化參數(shù)中重新使用的最大次數(shù)。訓(xùn)練圖像的數(shù)量除以批量大小是在一個(gè)歷元中的迭代總數(shù)。根據(jù)示例，訓(xùn)練歷元的最大數(shù)量參數(shù)的范圍介于100和200之間。 [0036]卷積和子采樣參數(shù)的示例包括卷積濾波器大小、CNN每一層的特征映射圖數(shù)量、以及子采樣池大小。卷積濾波器大小參數(shù)是卷積層中的濾波器大小。根據(jù)示例，用于卷積濾波器大小參數(shù)的范圍介于2 X 2個(gè)像素和114 X 114像素之間。特征映射圖數(shù)量參數(shù)是從每個(gè)卷積層中若干個(gè)濾波器或內(nèi)核輸出的特征映射圖數(shù)量。根據(jù)示例，用于特征映射圖數(shù)量參數(shù) 的范圍介于用于第一卷積層的60個(gè)特征映射圖和512個(gè)特征映射圖之間。子采樣池大小參數(shù)是圖像中的像素的正方形貼片(patch)的大小，該像素在經(jīng)由最大池化(pooling)的操作之后，被降采樣(down-sampled)成并且替代為一個(gè)像素，該最大池化設(shè)置所得像素的值作為像素的初始正方形貼片中的像素的最大值。根據(jù)示例，用于子采樣池大小參數(shù)的值的范圍包括但不限于介于2 X 2和4 X 4的范圍。根據(jù)示例，就最終卷積層的輸出而言，選擇卷積層的網(wǎng)絡(luò)的參數(shù)以將輸入圖像大小減少至I X 1像素值。
[0037]分類器參數(shù)的示例包括圖像輸入大小、隱含層數(shù)量、每一層中的單元數(shù)量、所選擇的分類器算法和輸出種類數(shù)量。圖像輸入大小是其中來自最終卷積層的數(shù)據(jù)將被分類的空間維數(shù)，并且因此，等于特征映射圖數(shù)量和最終卷積層的圖像大小的乘積。根據(jù)示例，輸入圖像大小是乘以I X 1的最終卷積層上的特征映射圖的數(shù)量。根據(jù)示例，隱含層是全連接MLP 層并且隱含層的數(shù)量包括2。隱含層的數(shù)量應(yīng)該至多限于三個(gè)隱含層。每個(gè)隱含層中的單元數(shù)量是使用在卷積和子采樣層中學(xué)習(xí)的信息以檢測損壞程度的隱含層中的單元數(shù)量。根據(jù) 示例，每個(gè)隱含層中的單元數(shù)量參數(shù)的范圍包括但不限于介于6個(gè)單元和1024個(gè)單元之間。所選擇的分類器算法可以包括但不限于多層感知器(MLP)、支持向量機(jī)(SVM)等等。輸出種類數(shù)量是輸入圖像被分成的類型的數(shù)量。根據(jù)示例，輸出種類數(shù)量可以包括但不限于3。 [0038] 然后，如框520所示，模型構(gòu)建器414比如可以選擇預(yù)處理協(xié)議，以針對所選擇的候選架構(gòu)和所選擇的候選參數(shù)增強(qiáng)受損對象的圖像中的信息內(nèi)容。預(yù)處理協(xié)議可以包括但不限于局部對比度歸一化或零相成分分析(ZCA)縮放、以及用于增白（whitening)的獨(dú)立成分分析(ICA)。
[0039] 在框525中，模型構(gòu)建器414比如可以訓(xùn)練并使用訓(xùn)練集構(gòu)建中間CNN。如框530所示，在訓(xùn)練并構(gòu)建中間CNN之后，驗(yàn)證電路416比如可以評價(jià)中間CNN在驗(yàn)證集上的性能。根據(jù)示例，驗(yàn)證集包括與來自訓(xùn)練集的圖像集分開并且不同的新的（未受損的）對象、受損對象和總計(jì)對象的圖像集。在這方面，驗(yàn)證集用來評估中間CNN相對于分類驗(yàn)證集的圖像的每幅圖像的損壞程度的準(zhǔn)確度。
[0040] 在框535中，驗(yàn)證電路416比如可以確定中間CNN是否滿足驗(yàn)證閾值。驗(yàn)證閾值可以是驗(yàn)證錯(cuò)誤率。根據(jù)該示例，如果其驗(yàn)證錯(cuò)誤率相對于分類預(yù)測小于20%，則中間CNN可能符合或滿足驗(yàn)證閾值。如果中間CNN不滿足驗(yàn)證閾值，則迭代過程在框510處重新開始。
[0041 ] 另一方面，如果中間CNN滿足驗(yàn)證閾值，則驗(yàn)證電路416可以標(biāo)記中間CNN以指示它已經(jīng)滿足了如框540中所示的驗(yàn)證閾值。在框545中，驗(yàn)證電路416可以確定當(dāng)滿足驗(yàn)證閾值時(shí)，預(yù)定數(shù)量的中間CNN是否已經(jīng)被標(biāo)記。預(yù)定數(shù)量的標(biāo)記的中間CNN例如可以是25個(gè)標(biāo)記的中間CNN。根據(jù)示例，使用用于所選擇的候選參數(shù)的不同值構(gòu)建標(biāo)記的中間CNN的每個(gè)中間CNN。如果標(biāo)記的中間CNN的數(shù)量還未達(dá)到預(yù)先確定數(shù)量(例如，25 )，則迭代過程再次在框 510處開始。
[0042] 可替代地，如框550所示，如果標(biāo)記的中間CNN的數(shù)量已經(jīng)達(dá)到預(yù)先確定數(shù)量（例如，2 5 )，則驗(yàn)證電路416可以從預(yù)先確定數(shù)量的中間CNN創(chuàng)建中間CNN集合。例如，5個(gè)最準(zhǔn)確的中間CNN可以被選擇作為集合。
[0043] 在框555中，分類器418比如可以對驗(yàn)證集中的每幅圖像中的對象的損壞程度進(jìn)行分類。根據(jù)示例，分類包括:聚集來自標(biāo)記的中間CNN集合的預(yù)測以在對驗(yàn)證集中的每幅圖像中的對象的損壞程度分類中實(shí)現(xiàn)更高的準(zhǔn)確度。現(xiàn)在描述用于聚集來自各個(gè)CNN的預(yù)測以形成集合預(yù)測的技術(shù)的示例。在示例中，所有的中間CNN同時(shí)被訓(xùn)練以確定用于CNN集合的系數(shù)或權(quán)重并且所訓(xùn)練的集合用于做出預(yù)測。在另一示例中，代數(shù)規(guī)則可以用來組合中間CNN的輸出。用于組合中間CNN的輸出的代數(shù)規(guī)則的示例可以包括最大、總和、平均和加權(quán) 平均。在另一示例中，中間CNN組合使用驗(yàn)證集合測試以確定哪些組合具有最高的預(yù)測準(zhǔn)確度。當(dāng)測試組合時(shí)，多數(shù)投票(vote)可以應(yīng)用于每個(gè)組合，以確定用于該類別的預(yù)測。執(zhí)行研究，并且確定采取來自10-24個(gè)標(biāo)記的中間CNN集合的多數(shù)投票的準(zhǔn)確度約為90%，其通常比準(zhǔn)確度通常約為80-85 %導(dǎo)致的單個(gè)CNN的性能更高。
[0044]圖6示出了根據(jù)本公開的示例的優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)(CNN)600的流程圖。CNN 600是根據(jù)上文所描述的方法500構(gòu)建的優(yōu)化CNN。用于該CNN600的架構(gòu)包括4個(gè)卷積和子采樣層、 2個(gè)隱含層和邏輯回歸分類器(諸如MLP)。在這方面，比如，該CNN600可以對在圖像中捕獲的資產(chǎn)的損壞程度進(jìn)行分類，準(zhǔn)確度約為88%。
[0045] 如上文所討論的，投?？蛻艨梢詫?quán)利要求中的資產(chǎn)的圖像提交給保險(xiǎn)公司。保險(xiǎn)公司可以使用所提交的圖像利用該CNN600自動地對資產(chǎn)的損壞程度進(jìn)行分類。例如，所提交的圖像可以被輸入到CNN600中。
[0046] 所提交的受損資產(chǎn)的圖像可以被預(yù)先處理610以增強(qiáng)圖像中的信息內(nèi)容以供 CNN600處理。在該示例中，所提交的圖像是480 X 640個(gè)像素。例如，預(yù)處理610可以將所提交的受損資產(chǎn)的圖像裁剪成96X96個(gè)像素并且從所提交的受損資產(chǎn)的圖像中提取3個(gè)RGB通道層以作為輸入圖像呈現(xiàn)給CNN600。
[0047] 在第一卷積層(Cl )620中，CNN600可以用每個(gè)大小為5 X 5的60個(gè)不同的第一層濾波器卷積輸入圖像，以產(chǎn)生大小為92 X 92的60個(gè)特征映射圖。卷積層的每個(gè)濾波器應(yīng)用降低輸入圖像的分辨率。如果輸入圖像的分辨率是NXN，則卷積濾波器的大小為MXM，那么由此產(chǎn)生的圖像的分辨率為N-M+l XN-M+1。然后，CNN600可以對特征映射圖執(zhí)行非線性子采樣形式的最大池化。將輸入圖像最大池化劃分成非重疊正方形貼片集，從而更換單個(gè)像素值等于初始正方形貼片中的所有像素的最大值的每個(gè)貼片。在示例中，CNN可以對Cl 620上的60個(gè)特征映射圖的2 X 2區(qū)域進(jìn)行最大池化。然后，進(jìn)一步對Cl 620中大小為46 X46的所得的60個(gè)特征映射圖進(jìn)行卷積并且在第二卷積層(C2)630中進(jìn)行最大池化。
[0048]在C2 630中，用每個(gè)大小為3 X 3的第二層卷積濾波器卷積來自Cl 620的大小為46 X 46的所得的60個(gè)特征映射圖，以產(chǎn)生大小為44 X 44的128個(gè)特征映射圖。然后，可以對128 個(gè)特征映射圖的4 X 4區(qū)域執(zhí)行最大池化。然后，進(jìn)一步對C2 630中大小為11 X 11的所得的 128個(gè)特征映射圖進(jìn)行卷積并且在第三卷積層(C3)640中進(jìn)行最大池化。
[0049]在C3 640中，用每個(gè)大小為4X4的第三層卷積濾波器卷積來自C2 630的大小為11 X 11的所得的128個(gè)特征映射圖，以產(chǎn)生大小為8 X 8的128個(gè)特征映射圖。然后，可以對128 個(gè)特征映射圖的2X2區(qū)域執(zhí)行最大池化。然后，進(jìn)一步對C3 640中大小為4X4的所得的128 個(gè)特征映射圖進(jìn)行卷積并且在第四卷積層(C4)650中進(jìn)行最大池化。
[0050]在C4 650中，用每個(gè)大小為3 X 3的第四層濾波器卷積來自C3640的大小為4 X 4的所得的128個(gè)特征映射圖，以產(chǎn)生大小為2 X 2的256個(gè)特征映射圖。然后，可以對256個(gè)特征映射圖的2X2區(qū)域進(jìn)行最大池化。然后，進(jìn)一步對C4 650中大小為I X 1的所得的256個(gè)特征映射圖被輸入到第一隱含層(Hl)660以開始分類過程。
[0051] 為了執(zhí)行分類，CNN600應(yīng)用卷積層后面的全連接神經(jīng)網(wǎng)絡(luò)層。在Hl 660的第一分類層，例如，512個(gè)單元的每個(gè)單元采用從C 4650產(chǎn)生的所有的256個(gè)特征映射圖的每個(gè)像素的值，將每個(gè)值乘以預(yù)先確定的權(quán)重，并且使總和去線性化。事實(shí)上，512個(gè)單元的每個(gè)單元的輸出例如表示關(guān)于受損資產(chǎn)e的原始提交的圖像的判斷。第二隱含層(H2)670被添加以從H2 670的第二分類層中的100個(gè)單元的每個(gè)單元的輸出中導(dǎo)出關(guān)于受損資產(chǎn)的所提交的圖像的更抽象的結(jié)論。因此，CNN 600的邏輯回歸分類器680然后可以根據(jù)第三分類層中的3 個(gè)單元的輸出準(zhǔn)確地分類對作為新的、受損的或總計(jì)的所提交的圖像中的資產(chǎn)的損壞程度。
[0052]本文所述和所圖示的是本公開的示例和一些變化。本文中所使用的術(shù)語、描述和附圖僅通過圖示的方式闡述，并且不意味著作為限制。許多變化都可能落入旨在通過所附權(quán)利要求-及其等價(jià)物-定義的本發(fā)明的精神和范圍之內(nèi)，其中，除非另外指明，所有的術(shù)語都被意指其最廣的合理意義。
【主權(quán)項(xiàng)】
1. 一種圖像處理方法，包括：從受損對象的圖像創(chuàng)建訓(xùn)練集；選擇用于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的候選架構(gòu)和候選參數(shù)以通過迭代過程對所述圖像中的所述對象的損壞程度進(jìn)行分類，其中，所述迭代過程包括：從多個(gè)候選架構(gòu)中選擇所述候選架構(gòu)；選擇用于所選擇的候選架構(gòu)的所述候選參數(shù)；針對所選擇的候選架構(gòu)和所選擇的候選參數(shù)選擇預(yù)處理協(xié)議以增強(qiáng)所述受損對象的所述圖像中的所述信息內(nèi)容；使用所述訓(xùn)練集構(gòu)建中間CNN; 評價(jià)所述中間CNN在驗(yàn)證集上的性能；確定所述中間CNN是否滿足驗(yàn)證閾值；以及重復(fù)所述迭代過程直到預(yù)先確定數(shù)量的中間CNN滿足所述驗(yàn)證閾值，其中，每個(gè)中間 CNN對于所選擇的候選參數(shù)具有不同的值；從所述預(yù)先確定數(shù)量的中間CNN創(chuàng)建中間CNN集合；以及對所述驗(yàn)證集中的每幅圖像中的所述對象的損壞程度進(jìn)行分類，其中，所述分類包括聚集來自所述中間CNN集合的預(yù)測。2. 根據(jù)權(quán)利要求1所述的方法，其中，所述候選架構(gòu)包括分類器類型以及若干個(gè)卷積層和子采樣層。3. 根據(jù)權(quán)利要求1所述的方法，其中，所述候選參數(shù)包括學(xué)習(xí)參數(shù)，其中，所述學(xué)習(xí)參數(shù) 包括以下各項(xiàng)中的至少一項(xiàng):學(xué)習(xí)率、批量大小、以及訓(xùn)練歷元的最大數(shù)量。4. 根據(jù)權(quán)利要求3所述的方法，其中，所述學(xué)習(xí)率介于0.05和0.1之間，所述批量大小介于2幅圖像和128幅圖像之間，并且所述訓(xùn)練歷元的最大數(shù)量介于100和200之間。5. 根據(jù)權(quán)利要求1所述的方法，其中，所述候選參數(shù)包括卷積和子采樣參數(shù)，其中，所述卷積和子采樣參數(shù)包括卷積濾波器大小、特征映射圖數(shù)量、以及子采樣池大小。6. 根據(jù)權(quán)利要求5所述的方法，其中，所述卷積濾波器大小介于2X2個(gè)像素和114X114 個(gè)像素之間，第一卷積層中的所述特征映射圖數(shù)量介于60和512之間，并且所述子采樣池大小介于2 X 2個(gè)像素和4 X 4像素之間。7. 根據(jù)權(quán)利要求1所述的方法，其中，所述候選參數(shù)包括分類器參數(shù)，其中，所述分類器參數(shù)包括圖像輸入大小、隱含層的數(shù)量、每個(gè)隱含層中的單元數(shù)量、分類器算法、以及輸出種類數(shù)量。8. 根據(jù)權(quán)利要求7所述的方法，其中，所述圖像輸入大小是等于特征映射圖數(shù)量和最終卷積層的圖像大小的乘積的數(shù)量，所述隱含層數(shù)量是2,所述每個(gè)隱含層中的單元數(shù)量介于 6個(gè)單元和1024個(gè)單元之間，分類器算法是多層感知器(MLP)算法，并且所述輸出種類數(shù)量是3。9. 根據(jù)權(quán)利要求1所述的方法，其中，確定所述中間CNN是否滿足所述驗(yàn)證閾值包括:確定所述中間CNN在所述驗(yàn)證集上的錯(cuò)誤率是否小于20%。10. 根據(jù)權(quán)利要求1所述的方法，其中，中間CNN的所述預(yù)先確定數(shù)量是25。11. 一種圖像處理服務(wù)器，包括：處理器；存儲機(jī)器可讀指令的存儲器，所述機(jī)器可讀指令使所述處理器：通過訓(xùn)練電路從受損對象的圖像創(chuàng)建訓(xùn)練集；選擇用于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的候選架構(gòu)和候選參數(shù)以通過迭代過程對所述圖像中的所述對象的損壞程度進(jìn)行分類，其中，所述迭代過程包括：通過模型構(gòu)建器從多個(gè)候選架構(gòu)中選擇所述候選架構(gòu)；通過所述模型構(gòu)建器選擇用于所選擇的候選架構(gòu)的所述候選參數(shù)；通過所述模型構(gòu)建器使用所述訓(xùn)練集構(gòu)建中間CNN; 通過所述驗(yàn)證電路評價(jià)所述中間CNN在驗(yàn)證集上的性能，以及重復(fù)所述迭代過程，直到確定預(yù)先確定數(shù)量的中間CNN滿足驗(yàn)證閾值，其中，每個(gè)中間 CNN對于所選擇的候選參數(shù)具有不同的值；通過所述驗(yàn)證電路從預(yù)先確定數(shù)量的中間CNN創(chuàng)建中間CNN集合，以及通過分類器對所述驗(yàn)證集中的每個(gè)圖像中的所述對象的損壞程度進(jìn)行分類，其中，分類是聚集來自所述中間CNN集合的預(yù)測。12. 根據(jù)權(quán)利要求11所述的圖像處理服務(wù)器，其中，所述機(jī)器可讀指令使所述處理器：選擇候選架構(gòu)，所述候選架構(gòu)包括分類器類型以及若干卷積層和子采樣層。13. 根據(jù)權(quán)利要求11所述的圖像處理服務(wù)器，其中，所述機(jī)器可讀指令使所述處理器選擇：候選參數(shù)，所述候選參數(shù)包括學(xué)習(xí)率、批量大小、訓(xùn)練歷元的最大數(shù)量、卷積濾波器大小、特征映射圖數(shù)量、子采樣池大小、圖像輸入大小、隱含層數(shù)量、每個(gè)隱含層中的單元數(shù) 量、分類器算法、以及輸出種類數(shù)量。14. 根據(jù)權(quán)利要求13所述的圖像處理服務(wù)器，其中，所述機(jī)器可讀指令使所述處理器：選擇介于0.05和0.1之間的所述學(xué)習(xí)率、介于2幅圖像和128幅圖像之間的所述批量大小、介于100和200之間的訓(xùn)練歷元的所述最大數(shù)量、介于2X2個(gè)像素和114X114個(gè)像素之間的所述卷積濾波器大小、介于60和512之間的第一卷積層中的所述特征映射圖數(shù)量、介于 2X2像素和4X4像素之間的所述子采樣池大小、為2的所述隱含層數(shù)量、介于6個(gè)單元和 1024個(gè)單元之間的每個(gè)隱含層中的所述單元數(shù)量、作為多層感知器(MLP)算法的分類器算法、以及為3的所述輸出種類數(shù)量。15. 根據(jù)權(quán)利要求11所述的圖像處理服務(wù)器，其中，為了確定所述中間CNN是否滿足所述驗(yàn)證閾值，所述機(jī)器可讀指令使所述處理器確定所述中間CNN在驗(yàn)證集上的誤差率是否小于20 %。16. 根據(jù)權(quán)利要求11所述的圖像處理服務(wù)器，其中，中間CNN的所述預(yù)先確定數(shù)量是25。17. -種處理數(shù)字圖像的非暫態(tài)計(jì)算機(jī)可讀介質(zhì)，其包括機(jī)器可讀指令，所述機(jī)器可讀指令可由處理器執(zhí)行以：選擇用于多個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)的候選架構(gòu)和候選參數(shù)以對所述圖像中的所述對象的損壞程度進(jìn)行分類；確定預(yù)先確定數(shù)量的CNN滿足驗(yàn)證閾值，其中，每個(gè)CNN對于所選擇的候選參數(shù)具有不同的值；從所述預(yù)先確定數(shù)量的CNN中選擇CNN集合；聚集來自所述CNN集合的預(yù)測；以及對所述圖像中的所述對象的損壞程度進(jìn)行分類。18. 根據(jù)權(quán)利要求17所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì)，其中，為了選擇候選架構(gòu)，所述機(jī) 器可讀指令能夠由所述處理器執(zhí)行以：選擇候選架構(gòu)，所述候選架構(gòu)包括若干個(gè)卷積層和子采樣層以及分類器類型。19. 根據(jù)權(quán)利要求17所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì)，其中，為了選擇候選參數(shù)，所述機(jī) 器可讀指令能夠由所述處理器執(zhí)行以：選擇候選參數(shù)，所述候選參數(shù)包括學(xué)習(xí)率、批量大小、訓(xùn)練歷元的最大數(shù)量、卷積濾波器大小、特征映射圖數(shù)量、子采樣池大小、圖像輸入大小、隱含層數(shù)量、每個(gè)隱含層中的單元數(shù)量、分類器算法、以及輸出種類數(shù)量。20. 根據(jù)權(quán)利要求19所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì)，其中，為了選擇候選參數(shù)，所述機(jī) 器可讀指令能夠由所述處理器執(zhí)行以：選擇介于0.05和0.1之間的所述學(xué)習(xí)率、介于2幅圖像和128幅圖像之間的所述批量大小、介于100和200之間的訓(xùn)練歷元的所述最大數(shù)量、介于2X2個(gè)像素和114X114個(gè)像素之間的所述卷積濾波器大小、介于60和512之間的第一卷積層中的所述特征映射圖數(shù)量、介于 2X2像素和4X4像素之間的所述子采樣池大小、為2的所述隱含層數(shù)量、介于6個(gè)單元和 1024個(gè)單元之間的每個(gè)隱含層中的所述單元數(shù)量、作為多層感知器(MLP)算法的分類器算法、以及為3的所述輸出種類數(shù)量。
【文檔編號】G06K9/62GK105938559SQ201610122298
【公開日】2016年9月14日
【申請日】2016年3月3日
【發(fā)明人】A·拉文德蘭, O·塞利克-汀馬茲, M·巴達(dá)維
【申請人】埃森哲環(huán)球服務(wù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：A·拉文德蘭;O·塞利克-汀馬茲;M·巴達(dá)維;
技術(shù)所有人：埃森哲環(huán)球服務(wù)有限公司;
我是此專利的發(fā)明人

上一篇：一種基于卷積神經(jīng)網(wǎng)絡(luò)的車型精細(xì)分類系統(tǒng)的制作方法
上一篇：學(xué)習(xí)方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

卷積神經(jīng)網(wǎng)絡(luò)圖像處理相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)圖像識別相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)圖像分類相關(guān)技術(shù)

卷積神經(jīng)網(wǎng)絡(luò)圖像分割相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

使用卷積神經(jīng)網(wǎng)絡(luò)的數(shù)字圖像處理的制作方法