本發(fā)明涉及智能視頻分析領(lǐng)域,尤其涉及一種行人檢索的方法及裝置。
背景技術(shù):
智能視頻分析技術(shù)是計算機根據(jù)檢索條件自動地分析視頻內(nèi)容,從海量的視頻中檢索出滿足檢索條件的圖像或視頻片段。行人檢索是智能視頻分析領(lǐng)域的“以圖搜圖”,具體來說,就是根據(jù)行人的全部或部分圖像在海量的圖像或視頻中檢索出所有包含該行人的圖像或視頻片段。
通常,行人檢索裝置包含特征提取模塊和高維索引模塊。特征提取模塊用于提取行人特征。高維索引模塊是行人檢索裝置實現(xiàn)實時檢索的關(guān)鍵,用于根據(jù)檢索條件對從海量的圖像或視頻中提取的行人的高維特征進行快速有效的檢索。而行人具有相似輪廓和結(jié)構(gòu),行人檢索裝置對高維特征的區(qū)分力要求較高,行人檢索裝置要求提取多種高維特征增加行人和行人之間的區(qū)分力,來區(qū)分行人和行人之間的差異。
在現(xiàn)有技術(shù)中,行人檢索裝置的輸入通常是一幅包含行人的樣例圖像,在檢索時,將樣例圖像的高維特征與海量的圖像的高維特征進行比對,根據(jù)樣例圖像的高維特征與海量的圖像的高維特征的相似度進行排序,從海量的圖像中獲取與樣例圖像相似的圖像。因此,現(xiàn)有的行人檢索裝置只能根據(jù)樣例圖像進行粗略的檢索,無法支持多種高維特征的聯(lián)合檢索,檢索精度較低。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種行人檢索的方法及裝置,能夠提取行人圖像的多種特征,根據(jù)行人的多種特征聯(lián)合檢索,有效提高檢索精度。
上述目標和其他目標將通過獨立權(quán)利要求中的特征來達成。進一步的實現(xiàn)方式在從屬權(quán)利要求、說明書和附圖中體現(xiàn)。
第一方面,提供一種行人檢索的方法,包括:
首先,從待分析的視頻幀中獲取行人圖像序列集合,該行人圖像序列 集合包括了多個行人的行人圖像序列,而行人圖像序列表示一個行人的多幅行人圖像,所述行人圖像包括行人的視頻幀圖像和用來表示行人位置的掩碼模板,即行人的圖像和行人所處的背景圖像;然后,針對每個行人圖像序列,根據(jù)多實例特征提取算法獲取多實例行人圖像,該多實例行人圖像為根據(jù)行人圖像序列包括的行人圖像的局部區(qū)塊特征獲取的行人圖像的集合;根據(jù)每個行人的多實例行人圖像獲取所述行人的低層特征和語義特征;根據(jù)每個所述行人的低層特征和語義特征構(gòu)建高維索引;根據(jù)第一行人的樣例圖像的低層特征和文字描述的語義特征中至少一個檢索高維索引,得到檢索結(jié)果。
上述第一方面提供的行人檢索的方法,首先,從待分析的視頻幀中獲取包括多個行人的行人圖像序列的行人圖像序列集合,然后,針對每個行人圖像序列,根據(jù)多實例特征提取算法獲取多實例行人圖像,而所述多實例行人圖像為根據(jù)行人圖像序列包括的行人圖像的局部區(qū)塊特征獲取的行人圖像的集合,根據(jù)每個行人的多實例行人圖像獲取所述行人的低層特征和語義特征來構(gòu)建高維索引,以便于從需要檢索的行人的樣例圖像獲取低層特征和文字描述獲取語義特征中至少一個檢索高維索引,得到檢索結(jié)果。從而能夠針對行人的多種特征建立高維索引,根據(jù)行人的多種特征聯(lián)合檢索,有效提高檢索精度。
在第一方面的第一種可實現(xiàn)方式中,所述針對每個行人圖像序列,根據(jù)多實例特征提取算法獲取多實例行人圖像包括:
多實例特征提取算法包括多實例特征生成算法和多實例特征提取算法,多實例特征生成算法步驟包括對行人圖像序列包括的每幅行人圖像中的行人的朝向進行估計;按照行人的朝向?qū)π腥藞D像序列包括的每幅行人圖像進行分類;對每類朝向的每個行人圖像提取局部區(qū)塊特征;根據(jù)自適應(yīng)聚類算法從每類朝向的行人圖像的局部區(qū)塊特征中獲取多實例行人圖像。
結(jié)合第一方面的第一種可實現(xiàn)方式,在第一方面的第二種可實現(xiàn)方式中,所述根據(jù)每個行人的多實例行人圖像獲取所述行人的低層特征和語義特征包括:
多實例特征提取算法步驟包括根據(jù)每類朝向的每個行人圖像的多實例行人圖像提取低層特征,所述低層特征用于描述行人的顏色、紋理以及空間分布的表觀特征;根據(jù)每類朝向的每個行人圖像的多實例行人圖像提 取的低層特征生成語義特征。
結(jié)合第一方面的第二種可實現(xiàn)方式中任一種可實現(xiàn)方式,在第三種可實現(xiàn)方式中,所述根據(jù)每個所述行人的低層特征和語義特征構(gòu)建高維索引包括:
將相似的低層特征劃分到相同的數(shù)據(jù)單元,以數(shù)據(jù)結(jié)構(gòu)的方式存儲數(shù)據(jù)單元;以表格的方式存儲語義特征。
結(jié)合第一方面、第一方面的第一種可實現(xiàn)方式至第一方面的第三種可實現(xiàn)方式中任一種可實現(xiàn)方式,在第四種可實現(xiàn)方式中,所述高維索引還包括感興趣區(qū)域的感興趣區(qū)域特征,所述感興趣區(qū)域為根據(jù)固定提取方式或隨機提取方式獲取的區(qū)域,其中,所述感興趣區(qū)域特征為低層特征或語義特征,即感興趣區(qū)域特征可以以低層特征表示或以語義特征表示。在高維索引中,感興趣區(qū)域特征以存儲低層特征的方式存儲或以存儲語義特征的方式存儲。
結(jié)合第一方面的第四種可實現(xiàn)方式,在第五種可實現(xiàn)方式中,所述方法還包括:
根據(jù)第一行人的樣例圖像的低層特征、文字描述的語義特征和感興趣區(qū)域的感興趣區(qū)域特征中至少一個檢索高維索引,得到檢索結(jié)果。即可以根據(jù)第一行人的樣例圖像的低層特征、文字描述的語義特征和感興趣區(qū)域的感興趣區(qū)域特征的任意的組合檢索高維索引,得到檢索結(jié)果。
第二方面,提供一種行人檢索裝置,包括:
行人圖像序列獲取模塊,用于從待分析的視頻幀中獲取行人圖像序列集合,所述行人圖像序列集合包括多個行人的行人圖像序列,所述行人圖像序列表示一個行人的多幅行人圖像,所述行人圖像包括行人的視頻幀圖像和用來表示行人位置的掩碼模板;多實例特征提取模塊,用于針對每個行人圖像序列,根據(jù)多實例特征提取算法獲取多實例行人圖像,所述多實例行人圖像為根據(jù)行人圖像序列包括的行人圖像的局部區(qū)塊特征獲取的行人圖像的集合;所述多實例特征提取模塊,還用于根據(jù)每個行人的多實例行人圖像獲取所述行人的低層特征、語義特征和感興趣區(qū)域特征;高維索引模塊,用于根據(jù)每個所述行人的低層特征、語義特征和感興趣區(qū)域特征構(gòu)建高維索引;所述高維索引模塊,還用于根據(jù)第一行人的樣例圖像的低層特征、文字描述的語義特征和感興趣區(qū)域的感興趣區(qū)域特征中至少一個檢索高維索引,得到檢索結(jié)果。
上述第二方面提供的行人檢索裝置,首先,從待分析的視頻幀中獲取包括多個行人的行人圖像序列的行人圖像序列集合,然后,針對每個行人圖像序列,根據(jù)多實例特征提取算法獲取多實例行人圖像,而所述多實例行人圖像為根據(jù)行人圖像序列包括的行人圖像的局部區(qū)塊特征獲取的行人圖像的集合,根據(jù)每個行人的多實例行人圖像獲取所述行人的低層特征和語義特征來構(gòu)建高維索引,以便于從需要檢索的行人的樣例圖像獲取低層特征和文字描述獲取語義特征中至少一個檢索高維索引,得到檢索結(jié)果。從而能夠針對行人的多種特征建立高維索引,根據(jù)行人的多種特征聯(lián)合檢索,有效提高檢索精度。
具體的實現(xiàn)方式可以參考第一方面提供的行人檢索的方法中行人檢索裝置的行為的功能。
需要說明的是,上述第二方面所述功能模塊可以通過硬件實現(xiàn),也可以通過硬件執(zhí)行相應(yīng)的軟件實現(xiàn)。所述硬件或軟件包括一個或多個與上述功能相對應(yīng)的模塊。例如,處理器,用于完成行人圖像序列獲取模塊、多實例特征提取模塊和高維索引模塊的功能,存儲器,用于存儲高維索引。處理器和存儲器通過總線連接并完成相互間的通信。具體的,可以參考第一方面提供的行人檢索的方法中行人檢索裝置的行為的功能。
本發(fā)明中,行人檢索裝置的名字對設(shè)備本身不構(gòu)成限定,在實際實現(xiàn)中,這些設(shè)備可以以其他名稱出現(xiàn)。只要各個設(shè)備的功能和本發(fā)明類似,屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi)。
本發(fā)明的這些方面或其他方面在以下實施例的描述中會更加簡明易懂。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實施例提供的一種計算機設(shè)備結(jié)構(gòu)示意圖;
圖2為本發(fā)明實施例提供的一種行人檢索的方法流程圖;
圖3為本發(fā)明實施例提供的另一種行人檢索的方法流程圖;
圖4為本發(fā)明實施例提供的又一種行人檢索的方法流程圖;
圖5為本發(fā)明實施例提供的一種高維索引結(jié)構(gòu)示意圖;
圖6為本發(fā)明實施例提供的一種行人檢索裝置結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚地描述。
本發(fā)明的基本原理在于:相對于現(xiàn)有的行人檢索裝置只能根據(jù)樣例圖像進行粗略的檢索,本發(fā)明所述的行人檢索裝置首先,從待分析的視頻幀中獲取包括多個行人的行人圖像序列的行人圖像序列集合,然后,針對每個行人圖像序列,根據(jù)多實例特征提取算法獲取多實例行人圖像,而所述多實例行人圖像為根據(jù)行人圖像序列包括的行人圖像的局部區(qū)塊特征獲取的行人圖像的集合,根據(jù)每個行人的多實例行人圖像獲取所述行人的低層特征和語義特征來構(gòu)建高維索引,以便于從需要檢索的行人的樣例圖像獲取低層特征和文字描述獲取語義特征中至少一個檢索高維索引,得到檢索結(jié)果。從而能夠針對行人的多種特征建立高維索引,根據(jù)行人的多種特征聯(lián)合檢索,有效提高檢索精度。
下面將參考附圖詳細描述本發(fā)明的實施方式。
實施例1
本發(fā)明實施例提供一種計算機設(shè)備(或系統(tǒng))100,如圖1所示,以圖1所示的計算機設(shè)備(或系統(tǒng))來實現(xiàn)行人檢索裝置,包括至少一個處理器101,通信總線102,存儲器103以及至少一個通信接口104。
處理器101可以是一個處理器,也可以是多個處理元件的統(tǒng)稱。例如,處理器101可以是一個通用中央處理器(英文全稱:centralprocessingunit,英文簡稱:cpu),也可以是特定應(yīng)用集成電路(英文全稱:application-specificintegratedcircuit,英文簡稱:asic),或一個或多個用于控制本發(fā)明方案程序執(zhí)行的集成電路,例如:一個或多個微處理器(英文全稱:digitalsignalprocessor,英文簡稱:dsp),或,一個或者多個現(xiàn)場可編程門陣列(英文全稱:fieldprogrammablegatearray,英文簡稱:fpga)。
在具體實現(xiàn)中,作為一種實施例,處理器101可以包括一個或多個cpu,例如圖1中的cpu0和cpu1。
在具體實現(xiàn)中,作為一種實施例,計算機設(shè)備100可以包括多個處理器,例如圖1中的處理器101和處理器105。這些處理器中的每一個可以 是一個單核(single-cpu)處理器,也可以是一個多核(multi-cpu)處理器。這里的處理器可以指一個或多個設(shè)備、電路、和/或用于處理數(shù)據(jù)(例如計算機程序指令)的處理核。
通信總線102可以是工業(yè)標準體系結(jié)構(gòu)(英文全稱:industrystandardarchitecture,英文簡稱:isa)總線、外部設(shè)備互連(英文全稱:peripheralcomponent,英文簡稱:pci)總線或擴展工業(yè)標準體系結(jié)構(gòu)(英文全稱:extendedindustrystandardarchitecture,英文簡稱:eisa)總線等。該總線可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于表示,圖1中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。
存儲器103可以是只讀存儲器(英文全稱:read-onlymemory,英文簡稱:rom)或可存儲靜態(tài)信息和指令的其他類型的靜態(tài)存儲設(shè)備,隨機存取存儲器(英文全稱:randomaccessmemory,英文簡稱:ram)或者可存儲信息和指令的其他類型的動態(tài)存儲設(shè)備,也可以是電可擦可編程只讀存儲器(英文全稱:electricallyerasableprogrammableread-onlymemory,英文簡稱:eeprom)、只讀光盤(英文全稱:compactdiscread-onlymemory,英文簡稱:cd-rom)或其他光盤存儲、光碟存儲(包括壓縮光碟、激光碟、光碟、數(shù)字通用光碟、藍光光碟等)、磁盤存儲介質(zhì)或者其他磁存儲設(shè)備、或者能夠用于攜帶或存儲具有指令或數(shù)據(jù)結(jié)構(gòu)形式的期望的程序代碼并能夠由計算機存取的任何其他介質(zhì),但不限于此。存儲器可以是獨立存在,通過總線與處理器相連接。存儲器也可以和處理器集成在一起。
其中,所述存儲器103用于存儲執(zhí)行本發(fā)明方案的應(yīng)用程序代碼,并由處理器101來控制執(zhí)行。所述處理器101用于執(zhí)行所述存儲器103中存儲的應(yīng)用程序代碼。
所述通信接口104,使用任何收發(fā)器一類的裝置,用于與其他設(shè)備或通信網(wǎng)絡(luò)通信,如以太網(wǎng),無線接入網(wǎng)(ran),無線局域網(wǎng)(英文全稱:wirelesslocalareanetworks,英文簡稱:wlan)等。通信接口104可以包括接收單元實現(xiàn)接收功能,以及發(fā)送單元實現(xiàn)發(fā)送功能。
在具體實現(xiàn)中,作為一種實施例,處理器101,用于從待分析的視頻幀中獲取行人圖像序列集合;
處理器101,還用于針對每個行人圖像序列,根據(jù)多實例特征提取算法獲取多實例行人圖像;
處理器101,還用于根據(jù)每個行人的多實例行人圖像獲取所述行人的低層特征、語義特征和感興趣區(qū)域特征;
處理器101,還用于根據(jù)每個所述行人的低層特征、語義特征和感興趣區(qū)域特征構(gòu)建高維索引;
處理器101,還用于根據(jù)第一行人的樣例圖像的低層特征、文字描述的語義特征和感興趣區(qū)域的感興趣區(qū)域特征中至少一個檢索高維索引,得到檢索結(jié)果。
存儲器103,用于存儲高維索引。
通信接口104,用于獲取第一行人的樣例圖像、文字描述和感興趣區(qū)域中至少一個。
實施例2
本發(fā)明實施例提供一種行人檢索的方法,應(yīng)用于行人檢索裝置,如圖2所示,所述方法包括:
步驟201、從待分析的視頻幀中獲取行人圖像序列集合。
行人檢索裝置根據(jù)現(xiàn)有的行人檢測跟蹤算法從待分析的視頻幀中獲取行人圖像序列,具體如何獲取可以參考現(xiàn)有技術(shù)的具體方法,本發(fā)明在此不再贅述。通過多個行人的行人圖像序列構(gòu)成行人圖像序列集合,所述行人圖像序列表示一個行人的多幅行人圖像,所述行人圖像包括根據(jù)行人檢測跟蹤算法輸出的檢測框?qū)?yīng)的行人的視頻幀圖像和用來表示行人位置的掩碼模板。
步驟202、針對每個行人圖像序列,根據(jù)多實例特征提取算法獲取多實例行人圖像。
多實例行人圖像為根據(jù)行人圖像序列包括的行人圖像的局部區(qū)塊特征獲取的行人圖像的集合。
具體的,可以根據(jù)行人的朝向以及從行人的表觀提取行人的局部區(qū)塊特征,對行人圖像序列進行分析,生成表觀特征互補的多實例行人圖像,從而表征視角、光照、行人姿態(tài)等變化引起的表觀變化。表觀特征也是用來描述行人的顏色、紋理以及空間分布等的低層特征。
步驟203、根據(jù)每個行人的多實例行人圖像獲取所述行人的低層特征和語義特征。
對于行人的低層特征,可以對每個行人的每幅多實例行人圖像提取表觀特征,所述表觀特征是用來描述行人的顏色、紋理以及空間分布等的低 層特征。
示例的,對于顏色特征,本發(fā)明實施例以hsv顏色空間下的直方圖為例:(1)將多實例行人圖像在水平方向等分為7個條帶;(2)將h、s、v分別量化為8、8、8個單元,然后對每個條帶統(tǒng)計像素點的h、s、v直方圖;(3)將h、s、v直方圖進行拼接,最后將7個條帶的直方圖進行拼接,得到整個多實例行人圖像的顏色直方圖。
對于紋理特征,本發(fā)明實施例以梯度直方圖特征為例:(1)將多實例行人圖像在水平方向等分為7個條帶;(2)對每個條帶中的像素計算梯度方向(0~360°),將梯度方向均勻量化到8個單元中;(3)對每個像素點的梯度方向用周圍鄰域像素的平均值進行平滑;(4)統(tǒng)計每個條帶的梯度直方圖,并將直方圖歸一化使得直方圖像素值的和為1,最后將每個條帶的直方圖拼接成一個。
對于行人的語義特性,可以利用對多實例行人圖像提取的低層特征來生成行人的語義特征描述,例如可以對衣著的顏色、紋理或款式的語義特征描述。那么。以衣服的顏色為例,對提取的顏色直方圖低層特征進行特性分析,統(tǒng)計直方圖元素的最大值,最大值對應(yīng)的hsv值作為得到衣著的主顏色,從而實現(xiàn)查詢基于主顏色文字描述的行人檢索。
步驟204、根據(jù)每個所述行人的低層特征和語義特征構(gòu)建高維索引。
高維索引可以按分層的結(jié)構(gòu)進行存儲,第一層按照行人的朝向進行劃分,第二層存儲低層特征和語義特征。
步驟205、根據(jù)第一行人的樣例圖像的低層特征和文字描述的語義特征中至少一個檢索高維索引,得到檢索結(jié)果。
對于根據(jù)第一行人的樣例圖像的低層特征進行檢索時,根據(jù)第一行人的樣例圖像的低層特征,在高維索引中查找到低層特征所屬的數(shù)據(jù)子空間,定位劃分單元,取出高維索引中劃分單元中的數(shù)據(jù)作為候選集合。以局部敏感哈希為例,首先將查詢數(shù)據(jù)輸入到級聯(lián)函數(shù)中,計算查詢數(shù)據(jù)的哈希值。訪問哈希表中所述哈希值對應(yīng)表項的數(shù)據(jù)集合,將該集合作為候選數(shù)據(jù)點。計算查詢數(shù)據(jù)和候選點的距離并排序,輸出排序后的結(jié)果。
對候選集合進行融合。融合的策略,比如可對每個索引的候選集合求交集,然后根據(jù)到查詢數(shù)據(jù)的距離排序。再如,可對每個索引的候選集合根據(jù)到查詢數(shù)據(jù)的距離排序,計算加權(quán)后的分數(shù)并再次排序。
需要說明的是,樣例圖像可以是用戶提供的樣例圖像或者從待查詢視 頻幀圖像序列中獲取的行人圖像。樣例圖像可以是行人圖像的一部分,即行人的頭肩、上半身、左半身或右半身等,本發(fā)明在此不作限定。
對于第一行人的文字描述的語義特征進行檢索時,根據(jù)第一行人的語義特征,采用查表的方式搜索每個表格單元中語義特征的數(shù)值描述部分,當所述語義特征匹配時,取出對應(yīng)的行人標識集合并輸出。
需要說明的是,文字描述可以是用戶對行人的文字描述。
上述圖2所示的方法步驟具體的可以由圖1所示的計算機設(shè)備實現(xiàn)。示例的,步驟201所述的從待分析的視頻幀中獲取行人圖像序列集合,以及其他202等方法步驟可以由處理器101來實現(xiàn)。
具體的,如圖3所示,步驟202所述的針對每個行人圖像序列,根據(jù)多實例特征提取算法獲取多實例行人圖像還可以包括以下詳細步驟:
步驟2021、對行人圖像序列包括的每幅行人圖像中的行人的朝向進行估計。
具體的,可以根據(jù)朝向估計算法對行人圖像序列中的每幅行人圖像中的行人的朝向進行估計,行人的朝向可以是將360度均勻劃分成的n段。n=1時,表示不劃分行人的朝向,n=2時,表示將行人的朝向劃分為正面和背面,n=4時,表示將行人的朝向劃分為正面、左側(cè)面、右側(cè)面和背面,n=8時,表示將行人的朝向劃分為東、南、西、北、東北、東南、西北和西南。本發(fā)明實施例假設(shè)n=4。
朝向估計算法對行人圖像提取梯度直方圖特征:
(1)將行人圖像的尺寸歸一化為高128*寬64,然后,將行人圖像劃分為8行4列,即32個高16*寬16的局部區(qū)塊;
(2)對每塊局部區(qū)塊中的每個像素計算梯度方向(0~360°),將梯度方向均勻量化到8個單元中,以統(tǒng)計每塊局部區(qū)塊的梯度方向直方圖;
(3)對每個像素點的梯度方向用周圍鄰域像素的平均值進行平滑;
(4)統(tǒng)計每塊局部區(qū)塊的梯度直方圖,并將梯度直方圖歸一化,使得梯度直方圖像素值的和為1;
(5)將每塊局部區(qū)塊的梯度直方圖拼接成一個8*4*8的直方圖,該直方圖即梯度直方圖特征。
朝向估計算法對提取的梯度直方圖特征進行朝向的分類:
(6)將梯度直方圖特征作為訓(xùn)練數(shù)據(jù)集,對訓(xùn)練數(shù)據(jù)集標記四種朝向,用梯度直方圖特征特征和朝向訓(xùn)練支持向量機(英文全稱:support vectormachine,英文簡稱:svm),生成分類器;
(7)對待估計的行人圖像提取梯度直方圖特征,并輸入到分類器中,分類器輸出朝向和置信度。當行人朝向估計結(jié)果的置信度較低時,將行人同時分配到次優(yōu)的朝向。
步驟2022、按照行人的朝向?qū)π腥藞D像序列包括的每幅行人圖像進行分類。
按照行人的朝向?qū)⑿腥藞D像序列包括的每幅行人圖像分為n類,每類朝向的每個行人圖像對應(yīng)一個朝向。
步驟2023、對每類朝向的每個行人圖像提取局部區(qū)塊特征。
將一個行人圖像劃分為m*n的局部區(qū)塊,對每個局部區(qū)塊提取梯度直方圖特征,然后將所有的局部區(qū)塊的梯度直方圖特征聯(lián)在一起構(gòu)成局部區(qū)塊特征。具體的可以采用朝向估計算法對行人圖像提取梯度直方圖特征的方法提取局部區(qū)塊特征。
步驟2024、根據(jù)自適應(yīng)聚類算法從每類朝向的行人圖像的局部區(qū)塊特征中獲取多實例行人圖像。
自適應(yīng)聚類算法指的是可以自適應(yīng)地確定聚類數(shù)目的算法。本發(fā)明實施例以譜聚類為例。譜聚類的輸入為特征之間的相似度矩陣m,m的第i行第j列的元素
進一步的,如圖4所示,基于步驟204構(gòu)建高維索引時,步驟204a還可以包括感興趣區(qū)域的感興趣區(qū)域特征,所述感興趣區(qū)域為根據(jù)固定提取方式或隨機提取方式獲取的區(qū)域,其中,所述感興趣區(qū)域特征為低層特征或語義特征。
對于行人的感興趣區(qū)域特征,感興趣區(qū)域可采用固定提取方式或者隨機提取方式得到。采用固定提取方式即對行人圖像劃分網(wǎng)格,每個網(wǎng)格即為一個感興趣區(qū)域。在檢索時,可以由用戶指定網(wǎng)格位置進行檢索。采用隨機提取方式生成感興趣區(qū)域的方法,首先對包含感興趣區(qū)域的行人圖像進行標注,然后提取感興趣區(qū)域的低層特征作為訓(xùn)練的正樣本數(shù)據(jù)。隨機選擇不包含感興趣區(qū)域的圖像作為負樣本數(shù)據(jù),正樣本和負樣本數(shù)據(jù)用來訓(xùn)練生成檢測器。對待分析的行人圖像用檢測器進行滑動窗口檢測,輸出 即為感興趣區(qū)域。獲取感興趣區(qū)域后,對感興趣區(qū)域提取低層特征或者語義特征作為高維索引的輸入。
如圖5所示,朝向1的索引下存儲了所有朝向為1的行人的低層特征、語義特征和感興趣區(qū)域特征,低層特征、語義特征和感興趣區(qū)域特征分別根據(jù)特征的種類建立索引,例如,有n種低層特征就建立n個低層特征索引,其他朝向可類比。
需要說明的是,對于構(gòu)建低層特征的索引,可以對低層特征劃分數(shù)據(jù)空間,劃分方法可采用聚類、局部敏感哈希算法等,相似的特征被劃分在相同的單元下。
本發(fā)明實施例以局部敏感哈希算法為例,說明數(shù)據(jù)空間的劃分方法。令x特征表示元素取實數(shù)的d維向量,局部敏感哈希函數(shù)定義如下:
其中ai是一個隨機向量,w是劃分寬度,bi是隨機變量。
局部敏感哈希算法將多個參數(shù)不同的h函數(shù)級聯(lián)起來,形成級聯(lián)函數(shù)g:
g(p)=(h1(p),...,ht(p))
每個數(shù)據(jù)點p按照gj(p),1≤j≤l的值存儲在各哈希表中,從而實現(xiàn)相似的數(shù)據(jù)存儲在同一哈希表項中,不同的數(shù)據(jù)存儲在不同的表項中。
對劃分結(jié)果進行存儲,可以選用倒排文檔、局部敏感哈希表等數(shù)據(jù)結(jié)構(gòu)進行存儲。
本發(fā)明實施例以局部敏感哈希表為例進行說明。局部敏感哈?;诩壜?lián)函數(shù)來構(gòu)造哈希表,并生成多個級聯(lián)函數(shù)來建立多個哈希表。每個數(shù)據(jù)點p按照g(p)的值存儲在各哈希表中,l越大則真正最近鄰被訪問到的概率越高,從而保證了查詢精度。
對于構(gòu)建語義特征的索引,建立表格,每個表格單元包含語義特征的數(shù)值描述和行人標識集合兩部分。
對于構(gòu)建感興趣區(qū)域的索引,感興趣區(qū)域特征可以為低層特征或者語義特征,可以參考構(gòu)建低層特征的索引或構(gòu)建語義特征的索引的方法構(gòu)建感興趣區(qū)域的索引。
進一步的,基于步驟205,步驟205a還可以根據(jù)第一行人的樣例圖像的低層特征、文字描述的語義特征和感興趣區(qū)域的感興趣區(qū)域特征中至 少一個檢索高維索引,得到檢索結(jié)果。
對于第一行人的感興趣區(qū)域的感興趣區(qū)域特征進行檢索時,當感興趣區(qū)域特征是以低層特征表示時,可以參考根據(jù)檢索低層特征的方式進行檢索;當感興趣區(qū)域特征是以語義特征表示時,可以參考根據(jù)檢索語義特征的方式進行檢索。
可選的,還可將查詢輸入的感興趣區(qū)域特征與對行人圖像序列提取的感興趣區(qū)域特征進行順序比對,并按相似度從高到低排序。所述行人圖像序列可以是所有庫圖像也可以是由其他查詢方式得到的檢索結(jié)果子集。
進一步的,在根據(jù)第一行人的樣例圖像的低層特征、文字描述的語義特征和感興趣區(qū)域的感興趣區(qū)域特征中至少一個檢索高維索引,得到檢索結(jié)果,如步驟205a之前,所述方法還包括步驟206-208:
步驟206、從第一行人的樣例圖像中提取低層特征。
具體的可以參考步驟203中提取低層特征的方法所述,在此不再贅述。
步驟207、從第一行人的文字描述中提取語義特征。
以用戶對行人衣服的主顏色描述為例,通過事先定義好的主顏色文字描述與語義特征數(shù)值描述之間的對應(yīng)關(guān)系,將文字描述轉(zhuǎn)換為語義特征,從而實現(xiàn)基于主顏色文字描述的行人檢索。
步驟208、從第一行人的感興趣區(qū)域中提取感興趣區(qū)域特征。
具體的可以參考構(gòu)建高維索引時提取感興趣區(qū)域特征的方法所述,在此不再贅述。
這樣一來,首先,從待分析的視頻幀中獲取包括多個行人的行人圖像序列的行人圖像序列集合,然后,針對每個行人圖像序列,根據(jù)多實例特征提取算法獲取多實例行人圖像,而所述多實例行人圖像為根據(jù)行人圖像序列包括的行人圖像的局部區(qū)塊特征獲取的行人圖像的集合,根據(jù)每個行人的多實例行人圖像獲取所述行人的低層特征、語義特征和感興趣區(qū)域特征來構(gòu)建高維索引,以便于從需要檢索的行人的樣例圖像獲取低層特征、文字描述獲取語義特征和感興趣區(qū)域獲取感興趣區(qū)域特征中至少一個檢索高維索引,得到檢索結(jié)果。從而能夠針對行人的多種特征建立高維索引,根據(jù)行人的多種特征聯(lián)合檢索,有效提高檢索精度。
實施例3
本發(fā)明實施例提供一種行人檢索裝置30,如圖6所示,包括:
行人圖像序列獲取模塊301,用于從待分析的視頻幀中獲取行人圖像序列集合,所述行人圖像序列集合包括多個行人的行人圖像序列,所述行人圖像序列表示一個行人的多幅行人圖像,所述行人圖像包括行人的視頻幀圖像和用來表示行人位置的掩碼模板;
多實例特征提取模塊302,用于針對每個行人圖像序列,根據(jù)多實例特征提取算法獲取多實例行人圖像,所述多實例行人圖像為根據(jù)行人圖像序列包括的行人圖像的局部區(qū)塊特征獲取的行人圖像的集合;
所述多實例特征提取模塊302,還用于根據(jù)每個行人的多實例行人圖像獲取所述行人的低層特征和語義特征;
高維索引模塊303,用于根據(jù)每個所述行人的低層特征和語義特征構(gòu)建高維索引;
所述高維索引模塊303,還用于根據(jù)第一行人的樣例圖像的低層特征和文字描述的語義特征中至少一個檢索高維索引,得到檢索結(jié)果。
進一步的,所述行人檢索裝置30還包括低層特征提取模塊304,用于從第一行人的樣例圖像中提取低層特征、語義特征提取模塊305,用于從第一行人的文字描述中提取語義特征和感興趣區(qū)域特征提取模塊306,用于從第一行人的感興趣區(qū)域中提取感興趣區(qū)域特征。
這樣一來,首先,從待分析的視頻幀中獲取包括多個行人的行人圖像序列的行人圖像序列集合,然后,針對每個行人圖像序列,根據(jù)多實例特征提取算法獲取多實例行人圖像,而所述多實例行人圖像為根據(jù)行人圖像序列包括的行人圖像的局部區(qū)塊特征獲取的行人圖像的集合,根據(jù)每個行人的多實例行人圖像獲取所述行人的低層特征、語義特征和感興趣區(qū)域特征來構(gòu)建高維索引,以便于從需要檢索的行人的樣例圖像獲取低層特征、文字描述獲取語義特征和感興趣區(qū)域獲取感興趣區(qū)域特征中至少一個檢索高維索引,得到檢索結(jié)果。從而能夠針對行人的多種特征建立高維索引,根據(jù)行人的多種特征聯(lián)合檢索,有效提高檢索精度。
在本實施例中,行人檢索裝置30是以功能模塊的形式來呈現(xiàn)。這里的“模塊”可以指特定應(yīng)用集成電路(英文全稱:application-specificintegratedcircuit,英文簡稱:asic),電路,執(zhí)行一個或多個軟件或固件程序的處理器和存儲器,集成邏輯電路,和/或其他可以提供上述功能的器件。在一個簡單的實施例中,本領(lǐng)域的技術(shù)人員可以想到行人檢索裝置30可以采用圖6所示的形式。行人圖像序列獲取模塊301,多實例特征提 取模塊302和高維索引模塊303可以通過圖1的計算機設(shè)備來實現(xiàn),具體的,行人圖像序列獲取模塊301,多實例特征提取模塊302和高維索引模塊303可以由處理器101實現(xiàn)。
本發(fā)明實施例還提供了一種計算機存儲介質(zhì),用于儲存為上述圖6所示的行人檢索裝置所用的計算機軟件指令,其包含用于執(zhí)行上述方法實施例所設(shè)計的程序。通過執(zhí)行存儲的程序,可以實現(xiàn)行人的檢索。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的裝置和單元的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理包括,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用硬件加軟件功能單元的形式實現(xiàn)。
本領(lǐng)域普通技術(shù)人員可以理解:實現(xiàn)上述方法實施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質(zhì)包括:只讀存儲器(read-onlymemory,rom)、隨機存取存儲器(random-accessmemory,ram)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)以所述權(quán)利要求的保護范圍為準。