標準背景灰度子圖像的梯度幅值特征/ € ,將 該特征拉直,該拉直后的梯度幅值特征為一個250維的列向量; (2. 2. 4)將所有反例樣本的特征記為: 其中/;表示第a個反例樣本的拉直梯度幅值特 征。8. 如權(quán)利要求7所述的方法,其中步驟(2. 3)具體為: (2. 3. 1)將所有正例樣本的標簽設(shè)置為1,反例樣本的標簽設(shè)置為0,訓(xùn)練一個二類線 性分類的支持向量機SVM,得到判別投影胃€ ; (2.3.2)設(shè)置得分函數(shù);T n sme(茗,)=* g,其中g(shù)表不任意10*25大小的 灰度圖像樣本經(jīng)過拉直后的梯度幅值特征,該拉直后的梯度幅值特征是一個250維的列向 量; (2. 3. 3)計算每個正例樣本的標準人體灰度子圖像的得分函數(shù)值,進行排序,設(shè)置檢測 閾值CT,使得該閾值大于99%的正例樣本的標準人體灰度子圖像的得分函數(shù)值。9. 如權(quán)利要求8所述的方法,其中步驟(3)具體為: (3. 1)將行人訓(xùn)練集I中的每幅圖像進行灰度處理,得到灰度圖像,對其進行高斯金字 塔處理,縮放比例為丨〇 < d < ΛΑ >〗,直到最小尺寸的灰度圖像的 寬大于10個像素且高大于25個像素; (3. 2)將上述D+1個尺度作為主尺度,計算每個主尺度灰幅圖像的梯度幅值特征圖像; (3. 3)通過雙三次Bi-Cubic插值在每兩個相鄰主尺度之間獲得中間尺度的梯度幅值 特征圖像; (3.4)在所有尺度的梯度幅值特征圖像上進行窗口掃描,窗口大小為10*25像素,水平 和垂直方向的步長都是1 ; (3. 5)對掃描得到的每個10*25像素大小的梯度幅值特征窗口,將其拉直為一個250維 的列向量,計算其得分函數(shù)值; (3.6)對得分函數(shù)值大于檢測閾值σ的窗口,以該窗口所在的比例為的梯度幅值 特征圖像的比例倒數(shù)縮放該圖像,并以該窗口在該尺度的梯度幅值特征圖像上的相對 位置進行還原,還原得到該窗口在行人訓(xùn)練集I中的對應(yīng)圖像的灰度圖像上的相對位置, 該灰度圖像的尺度為1,該位置為一個寬高比為10:25的矩形框; (3. 7)計算還原得到的每個矩形框與行人訓(xùn)練集I中對應(yīng)圖像上的所有人體矩形框之 間的重合度,重合度具體計算方法為:即這兩個矩形框.4, J2的面積重合 部分除以兩個矩形框的平均面積;(3. 8)將與對應(yīng)圖像上的所有人體矩形框之間的重合度都低于0. 5的矩形框作為反 例,將與所有人體矩形框中任意一個的重合度大于〇. 8的矩形框作為正例。10. 如權(quán)利要求9所述的方法,其中步驟(3. 3)具體為:在相鄰的兩個主尺度之間等間 隔的插入四個中間尺度,上述四個尺度由距離其最近的主尺度的梯度幅值特征圖像插值得 到。11. 如權(quán)利要求10所述的方法,其中在相鄰的兩個主尺度之間等間隔的插入四個中間 尺度具體為:在.1尺度圖像和k尺度圖像之間等間隔的插入四個中間尺度,則每個中間 尺度可以表示為:己度圖像和.........尺度圖 r) J -L 像之間第q個中間尺度的縮放比例。12. 如權(quán)利要求11所述的方法,其中步驟(4)具體為: (4. 1)對步驟3. 8中得到的正例矩形框和反例矩形框,統(tǒng)一縮放為10*25像素大小的灰 度圖像,組成精細行人檢測器的訓(xùn)練樣本集合,記為£二[r:. & ... I. 其中 正例矩形框有c個,反例矩形框有V個,r I, r :? I ; (4.2) 設(shè)置一個包含三個隱層的自動編碼機作為精細行人檢測器; (4.3) 逐層進行預(yù)訓(xùn)練Pre-Train; (4.4) 進行微調(diào)Fine-tune,將正例樣本的輸出設(shè)置為1,反例樣本的輸出設(shè)置為 〇,利用BP算法對層級編碼機三個隱層的參數(shù)Ir 1Wi, r?以及softmax層的參數(shù)R進行 Fine-tune,以此訓(xùn)練得到具有上述參數(shù)的自動編碼機作為精細行人檢測器。13. 如權(quán)利要求12所述的方法,其中步驟(4. 3)具體為: (4. 3. 1)基于去噪自動編碼機De-noising Auto Encoder以無監(jiān)督的方式訓(xùn)練神經(jīng)網(wǎng) 絡(luò)的第一層,將其輸出作為原始輸入的最小化重構(gòu)誤差; (4. 3. 2)將每個隱含層的輸出作為下一層神經(jīng)網(wǎng)絡(luò)的輸入,進行無監(jiān)督訓(xùn)練; (4. 3. 3)重復(fù)步驟4. 3. 2,直到完成所有隱含層的預(yù)訓(xùn)練為止,得到『η, Iri, r3的初始 值; (4. 3. 4)將最后一個隱含層的輸出作為softmax層的輸入,并且初始化softmax層的參 數(shù)『4。14. 如權(quán)利要求13所述的方法,其中步驟(5)具體為: (5. 1)對輸入圖形E進行灰度圖像轉(zhuǎn)換,得到輸入灰度圖像,對其進行高斯金字塔縮 放,縮放比例為3 < ο < Afi > I,直到最小的灰度圖像的寬大于10個 像素且高大于2b個僳系,興侍到U+1個主尺度,輸入圖像E的寬大于20像素,高大于50像 素; (5. 2)在這0+1個主尺度灰度圖像上分別計算其對應(yīng)的梯度幅值特征圖像; (5. 3)通過Bi-Cubic插值在這0+1個主尺度梯度幅值圖像的0個間隔中,以等間隔方 式在每個間隔中進行中間尺度插入,每個間隔插入四個中間尺度,共得到0*5+1個尺度的 梯度幅值特征圖像,上述四個中間尺度由距離其最近的主尺度的梯度幅值特征圖像插值得 到; (5.4)在每個尺度的梯度幅值特征圖像上進行快速窗口掃描,使用10*25大小的窗口 在每個梯度幅值特征圖像上掃描,對掃描得到的每個10*25像素大小的梯度幅值特征窗 口,將其拉直為一個250維的列向量,計算其得分函數(shù)值; (5. 5)輸出大于檢測閾值σ的窗口,以該窗口所在的比例為的梯度幅值特征圖像 的比例倒數(shù)縮放該圖像,并以該窗口在該尺度的梯度幅值特征圖像上的相對位置進行還 原,還原得到該窗口在輸入圖像E的灰度圖像上的相對位置,該灰度圖像的尺度為1,該位 置為一個寬高比為10:25的矩形框; (5.6)將還原得到的所有這些矩形框縮放為10*25像素大小的灰度窗口圖像,輸入到 訓(xùn)練得到的作為精細行人檢測器的自動編碼機進行分類; (5. 7)保留輸出層輸出的置信度大于0. 5的灰度窗口圖像,將其作為候選人體 框; (5. 8)為每個候選人體框標記一個五元組標簽(λ% _r, r, A, ecwf j,分別對應(yīng)該候選 人體框左上頂點的橫坐標,縱坐標,該候選人體框的寬度,高度以及置信度; (5.9)對這些候選人體框進行聚類,輸出人體檢測框。15.如權(quán)利要求14所述的方法,其中步驟(5. 9)具體為: (5.9. 1)將所有候選人體框按照置信度排序,每個框標記設(shè)置為0,形成候選人體框集 合H,設(shè)置集合R表示真實候選框集合,初始化R為空集; (5. 9. 2)在集合H中選擇置信度最大的候選人體框,記為& = U1,, Α:,,?:?Λ廠J, 將A從H中移除,加入集合R后將其標記設(shè)置為1 ; (5.9.3)計算H中所有候選人體框和&的重合度,重合度的計算方法為:,即這兩個矩形框4.4的面積重合部分除以兩個矩形框的平均面積; (5. 9. 4)將重合度大于0. 8的候選人體框從H中移除并加入到集合R中,且將這些候 選人體框的標記設(shè)置為1,此時集合R中的候選人體框可以記為:Λ? =丨為,.…尤,…辱i ,其中《丨.·ν-£/ 5·〔!; COi^f (5. 9. 5)計算R中每個候選人體框的權(quán)重,-彳,對這U+1個候選人體框進行加 權(quán)融合,輸出人體檢測框位置記為(5. 9. 6)判斷集合H中是否還有候選人體框,如果沒有,結(jié)束檢測;如果集合H中還有 候選人體框,將集合R清空,在集合H中重復(fù)步驟(5. 9. 2) - (5. 9. 5)。
【專利摘要】本發(fā)明公開了一種單幅圖像行人檢測方法,包括:采集一個真實場景下的行人數(shù)據(jù)集,標注行人位置,同時采集一個不包含行人的背景數(shù)據(jù)集,以此作為訓(xùn)練數(shù)據(jù),利用梯度幅值特征和線性支持向量機,訓(xùn)練一個“粗”的行人檢測器,快速過濾非行人窗口。利用該快速行人檢測器,在行人數(shù)據(jù)集上進行檢測,紀錄所有輸出窗口的位置,根據(jù)標注好的行人位置,分別保存為正例窗口和反例窗口。利用這些窗口樣本,基于層疊自動編碼機,訓(xùn)練一個深度網(wǎng)絡(luò),區(qū)分行人窗口和非行人窗口。輸出最終的由“粗”到“精”的行人檢測器,以此實現(xiàn)對輸入圖像的行人檢測。
【IPC分類】G06K9/00, G06K9/62
【公開號】CN104881662
【申請?zhí)枴緾N201510360321
【發(fā)明人】不公告發(fā)明人
【申請人】北京暢景立達軟件技術(shù)有限公司
【公開日】2015年9月2日
【申請日】2015年6月26日