一種基于svm的分布式圖像識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于圖像的計(jì)算機(jī)分析技術(shù)的應(yīng)用領(lǐng)域,具體涉及一種分布式環(huán)境下的圖 像識別方法。
【背景技術(shù)】
[0002] SVM是一種用來解決分類和回歸問題的數(shù)據(jù)挖掘技術(shù),由于SVM方法具有許多引 人注目的優(yōu)點(diǎn)和良好的實(shí)驗(yàn)性能,已成為機(jī)器學(xué)習(xí)研究領(lǐng)域的熱點(diǎn),并已取得了良好的效 果,如文本分類、手寫識別、圖像分類及識別等。
[0003] 在許多實(shí)際應(yīng)用中,數(shù)據(jù)本身是分布的,它們之間除了通過網(wǎng)絡(luò)傳遞信息外,其它 資源全部獨(dú)立,分布式圖像識別是分布式數(shù)據(jù)挖掘技術(shù)中的一個(gè)重要研究分支,它旨在通 過分布環(huán)境下的訓(xùn)練圖像樣本數(shù)據(jù)集來構(gòu)造分類函數(shù)或分類器,并利用該分類函數(shù)或分類 器來識別待測圖像的類別。為解決訓(xùn)練圖像樣本分布情況下的圖像識別問題,一個(gè)可行 的解決方案是將這些數(shù)據(jù)集集中到某一臺機(jī)器上,再利用算法SVM來構(gòu)造分類器,或利用 MapReduce編程模型來構(gòu)造分布環(huán)境下的分類器。一般情況下,此類思想至少存在兩個(gè)方面 的問題,一是需要設(shè)置一臺性能較(很)高的計(jì)算機(jī)來存儲并處理這些大容量的數(shù)據(jù),二是 在很多情況下,出于對數(shù)據(jù)安全性和隱私性的考慮,數(shù)據(jù)的集中是不可能的。對此,本發(fā)明 提出了一種基于SVM的分布式圖像識別方法,該方法通過發(fā)現(xiàn)分布環(huán)境下訓(xùn)練圖像樣本數(shù) 據(jù)集中所隱含的分類器,由此實(shí)現(xiàn)圖像的自動(dòng)識別。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是提供一種訓(xùn)練圖像樣本分布式情況下對圖像進(jìn)行識別的方法,該 方法可以快速地構(gòu)造線性分類器,實(shí)現(xiàn)準(zhǔn)確高效的圖像識別功能。
[0005] 本發(fā)明的技術(shù)方案是:一種基于SVM的分布式圖像識別方法,包括:內(nèi)積計(jì)算、最 優(yōu)問題求解和圖像識別步驟,其特征在于:所述內(nèi)積計(jì)算、最優(yōu)問題求解和圖像識別步驟包 括:
[0006] 步驟1圖像樣本數(shù)據(jù)集的準(zhǔn)備和預(yù)處理,各站點(diǎn)分別完成訓(xùn)練圖像樣本數(shù)據(jù)集的 準(zhǔn)備、格式轉(zhuǎn)換、尺度歸一化、去噪、增強(qiáng)工作;
[0007] 步驟2圖像分割,各站點(diǎn)采用基于密度聚類的圖像分割方法分別識別出每幅訓(xùn)練 圖像的待識別區(qū)域;
[0008] 步驟3特征提取,各站點(diǎn)分別提取每幅訓(xùn)練圖像中待識別區(qū)域的特征,構(gòu)造各站 點(diǎn)的訓(xùn)練圖像樣本數(shù)據(jù)集DBp i = 1,2,. . .,k。所述訓(xùn)練圖像樣本集DBi中各樣本的表示 為Oq,x2,……,x p,y),其中P為非類別屬性個(gè)數(shù),Xl,x2,……,xp為非類別屬性,y為 類別屬性,y的值為1或-1,分別表示兩類情況。
[0009] 步驟4最優(yōu)分類函數(shù)f(x)的構(gòu)造;
[0010] 步驟5圖像的識別。
[0011]所述步驟4最優(yōu)分類函數(shù)f(x)的構(gòu)造的具體步驟包括:
[0012] 步驟4. 1初始化,其包括:
[0013]步驟4. 1. 1選擇一臺獨(dú)立計(jì)算機(jī)作為主機(jī)(記為站點(diǎn)S),該機(jī)用來計(jì)算內(nèi)積以及 求解最優(yōu)化問題;
[0014] 步驟4. 1. 2設(shè)定主機(jī)兩個(gè)內(nèi)存塊的大小,分別用來接收兩個(gè)站點(diǎn)的數(shù)據(jù);
[0015] 步驟4. 2內(nèi)積計(jì)算,其包括:
[0016] 步驟4. 2. 1主機(jī)請求各站點(diǎn)發(fā)送訓(xùn)練圖像樣本;
[0017] 步驟4. 2. 2計(jì)算內(nèi)積;
[0018] 步驟4. 3最優(yōu)解的求解(主機(jī)完成),其包括:
[0019]步驟4. 3. 1求數(shù)學(xué)模型為(1)式的最優(yōu)解;
[0020]
【主權(quán)項(xiàng)】
1. 一種基于SVM的分布式圖像識別方法,包括:內(nèi)積計(jì)算、最優(yōu)問題求解和圖像識別步 驟,其特征在于:所述內(nèi)積計(jì)算、最優(yōu)問題求解和圖像識別步驟包括: 步驟1圖像樣本數(shù)據(jù)集的準(zhǔn)備和預(yù)處理,各站點(diǎn)分別完成訓(xùn)練圖像樣本數(shù)據(jù)集的準(zhǔn) 備、格式轉(zhuǎn)換、尺度歸一化、去噪、增強(qiáng)工作; 步驟2圖像分割,各站點(diǎn)采用基于密度聚類的圖像分割方法分別識別出每幅訓(xùn)練圖像 的待識別區(qū)域; 步驟3特征提取,各站點(diǎn)分別提取每幅訓(xùn)練圖像中待識別區(qū)域的特征,構(gòu)造各站點(diǎn)的 訓(xùn)練圖像樣本數(shù)據(jù)集DBi,i= 1,2,. ..,k。所述訓(xùn)練圖像樣本集DBi中各樣本的表示為(X1, x2,......,xp,y),其中P為非類別屬性個(gè)數(shù),Xl,x2,......,Xp為非類別屬性,y為類別屬 性,y的值為1或-1,分別表示兩類情況; 步驟4最優(yōu)分類函數(shù)f(X)的構(gòu)造; 步驟5圖像的識別。
2. 根據(jù)權(quán)利要求1所述的一種基于SVM的分布式圖像識別方法,其特征在于:所述步 驟4的具體步驟包括: 步驟4. 1初始化,其包括: 步驟4.I. 1選擇一臺獨(dú)立計(jì)算機(jī)作為主機(jī)(記為站點(diǎn)S),該機(jī)用來計(jì)算內(nèi)積以及求解 最優(yōu)化問題; 步驟4. 1. 2設(shè)定主機(jī)兩個(gè)內(nèi)存塊的大小,分別用來接收兩個(gè)站點(diǎn)的數(shù)據(jù); 步驟4. 2內(nèi)積計(jì)算,其包括: 步驟4. 2. 1主機(jī)請求各站點(diǎn)發(fā)送訓(xùn)練圖像樣本; 步驟4. 2. 2計(jì)算內(nèi)積; 步驟4. 3最優(yōu)解的求解(主機(jī)完成),其包括: 步驟4. 3. 1求數(shù)學(xué)模型為(1)式的最優(yōu)解;
s.t.Yi ((w.Xi)+b) ^ 1 步驟4. 3. 2將(1)式轉(zhuǎn)化為求式(2)Lagrange函數(shù)的鞍點(diǎn);
步驟4. 3. 6計(jì)算b,選擇不為O的af,代入af+6)-1) =O,得到b。
3. 根據(jù)權(quán)利要求1所述的一種基于SVM的分布式圖像識別方法,其特征在于:所述步 驟5的具體步驟包括: 步驟5. 1待識別圖像的準(zhǔn)備和預(yù)處理,包括格式轉(zhuǎn)換、尺度歸一化、去噪、增強(qiáng); 步驟5. 2主機(jī)采用基于密度聚類的圖像分割方法識別出待識別圖像的待識別區(qū)域; 步驟5. 3提取出待識別圖像的待識別區(qū)域特征; 步驟5. 4根據(jù)步驟5. 3所述的待識別區(qū)域特征xt = (xtl,xt2,......,xtp)計(jì)算f(xt); 步驟5. 5根據(jù)f(Xt)決定待識別圖像的類別。
【專利摘要】本發(fā)明公開了一種基于SVM的分布式圖像識別方法,該方法包括分布圖像樣本的預(yù)處理、圖像分割、特征提取、內(nèi)積計(jì)算、最優(yōu)問題求解和圖像識別;該方法可以識別出訓(xùn)練圖像樣本分布情況下待識別圖像的類別,并就識別過程中線性分類器的構(gòu)造給出了相應(yīng)的解決方案,提出了一種基于SVM的分布式圖像識別方法,該方法可確保各站點(diǎn)數(shù)據(jù)不在其他站點(diǎn)駐留,保證了數(shù)據(jù)的安全和隱私性,同時(shí)有著較高的識別準(zhǔn)確率。
【IPC分類】G06K9-62
【公開號】CN104715258
【申請?zhí)枴緾N201310687112
【發(fā)明人】朱玉全, 陳耿, 孫蕾, 耿霞, 彭曉冰
【申請人】鎮(zhèn)江金全軟件有限公司
【公開日】2015年6月17日
【申請日】2013年12月17日