本發(fā)明涉及數(shù)字智能化領(lǐng)域,具體而言,涉及一種視頻檢索方法、裝置、存儲介質(zhì)及處理器。
背景技術(shù):
隨著平安城市、智慧社區(qū)等項目的構(gòu)建和普及,視頻安防監(jiān)控設(shè)備已逐步架設(shè)到城市的各個角落,并且可以7x24小時晝夜不間斷的錄制采集視頻圖像數(shù)據(jù)。對于規(guī)模龐大、數(shù)量繁多的交通、社區(qū)監(jiān)控視頻系統(tǒng),新興的基于計算機視覺技術(shù)的智慧視頻分析使得海量視頻的自動分析及目標識別成為了可能。眾所周知,監(jiān)控視頻主要用于社區(qū)及公共安全的維護,通過實時取證及事后檢索,對保障社會治安起著至關(guān)重要的作用。然而,視頻圖像作為非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)量龐大,有效信息少,在格式化存儲方面仍存在很多問題。此外,視頻數(shù)據(jù)的實時快速檢索也面臨諸多挑戰(zhàn),而人為檢索由于工作量大、檢索目標眾多、容易遺漏、效率低下等種種限制因素而不符合實際應(yīng)用?;谏鲜?,現(xiàn)有技術(shù)中的視頻檢索技術(shù)主要包括以下兩種方式:
方式一,基于語義的視頻檢索。該種檢索方式以關(guān)鍵字為基礎(chǔ),通過對視頻人為添加或自動生成語義描述數(shù)據(jù)進行基于關(guān)鍵字的檢索匹配,關(guān)鍵字可以是標題、主題、人物、視頻事件等。然而,在安防監(jiān)控應(yīng)用中,基于語義的視頻檢索技術(shù)的精度依賴于大量的語義描述信息,且對單個特定目標的描述信息較少,檢索效果十分受限。例如,在海量的公共安防視頻中尋找某個目標人物,其描述信息僅有如“穿藍色上衣黑色褲子的人”,而無法具體描述該人物的深層特征信息,檢索的針對性差,搜索到的結(jié)果將會十分龐雜。
方法二、基于內(nèi)容的視頻檢索。該種檢索方式通常采用傳統(tǒng)圖像處理方法,通過提取視頻圖像的顏色、紋理、邊緣、特征點等底層信息,以分析視頻之間的相似度作為檢索的依據(jù)。相較于語義檢索,基于內(nèi)容的視頻檢索有效利用了圖像視頻中的底層特征,檢索效率有所提升。然而,目前大多數(shù)基于內(nèi)容的圖像檢索技術(shù)需采用傳統(tǒng)圖像特征,描述能力仍存在一定限制,且用于檢索的特征向量維度高,計算相似性時耗時很長,難以做到真正的實時檢索。
綜上,目前的視頻檢索技術(shù)存在檢索針對性、檢索精度和檢索效率較低,檢索實時性較差的技術(shù)問題,因此,現(xiàn)有技術(shù)中存在視頻檢索精度和檢索效率較低的技術(shù)問題。
針對上述的問題,目前尚未提出有效的解決方案。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供了一種視頻檢索方法、裝置、存儲介質(zhì)及處理器,以至少解決現(xiàn)有技術(shù)中存在的視頻檢索精度和檢索效率較低的技術(shù)問題。
根據(jù)本發(fā)明實施例的一個方面,提供了一種視頻檢索方法,該方法包括:獲取目標檢索圖片和多個視頻圖像;對上述多個視頻圖像進行預(yù)處理,得到至少一個第一目標視頻圖像;根據(jù)第一預(yù)設(shè)模型對上述至少一個第一目標視頻圖像進行目標檢測處理和目標跟蹤處理,得到上述至少一個第一目標視頻圖像中的每個上述第一目標視頻圖像的全部目標圖像序列;根據(jù)第二預(yù)設(shè)模型對上述每個上述第一目標視頻圖像的全部目標圖像序列進行特征提取處理,得到上述每個上述第一目標視頻圖像的第一特征和第二特征,其中,上述第一特征為上述第一目標視頻圖像的二值化哈希特征,上述第二特征為上述第一目標視頻圖像的原始特征;根據(jù)預(yù)設(shè)近似最鄰近算法對上述第一特征和上述第二特征進行聚類處理,得到檢索模型;對上述目標檢索圖像進行摳圖處理,得到目標區(qū)域圖像;根據(jù)上述檢索模型對上述目標區(qū)域圖像進行檢索,得到檢索結(jié)果。
進一步地,上述根據(jù)上述檢索模型對上述目標區(qū)域圖像進行檢索,得到檢索結(jié)果包括:獲取上述目標區(qū)域圖像的第三特征和第四特征,其中,上述第三特征為上述目標區(qū)域圖像的二值化哈希特征,上述第四特征為上述目標區(qū)域圖像的原始特征;計算上述第三特征與上述每個上述第一目標視頻圖像的上述第一特征之間的漢明距離,得到至少一個第二目標視頻圖像;計算上述第四特征與上述至少一個第二目標視頻圖像中的每個上述第二目標視頻圖像的上述第二特征的歐式距離,得到目標圖像幀,其中,上述目標圖像幀與上述目標檢索圖像的相似度大于預(yù)設(shè)相似度閾值;獲取上述目標圖像幀的幀id;在上述多個視頻圖像中查找與上述幀id對應(yīng)的上述視頻圖像,得到上述檢索結(jié)果。
進一步地,在根據(jù)第二預(yù)設(shè)模型對上述每個上述第一目標視頻圖像的全部目標圖像序列進行特征提取處理之后,上述方法還包括:將上述至少一個第一目標視頻圖像、上述目標圖像序列、上述第一特征和上述第二特征結(jié)構(gòu)化存儲至數(shù)據(jù)庫中。
進一步地,上述預(yù)設(shè)近似最鄰近算法為局部敏感度哈希算法。
進一步地,上述對上述多個視頻圖像進行預(yù)處理,得到至少一個第一目標視頻圖像包括:對上述多個視頻圖像中的每個上述視頻圖像依次進行長度歸一化處理和解碼處理,得到上述第一目標視頻圖像。
進一步地,上述方法還包括:根據(jù)隨機梯度下降算法對上述第一預(yù)設(shè)模型和上述第二預(yù)設(shè)模型進行訓(xùn)練,直至上述第一預(yù)設(shè)模型和上述第二預(yù)設(shè)模型達到收斂狀態(tài)。
根據(jù)本發(fā)明實施例的另一方面,還提供了一種視頻檢索裝置,該裝置包括:獲取單元,用于獲取目標檢索圖片和多個視頻圖像;第一處理單元,用于對上述多個視頻圖像進行預(yù)處理,得到至少一個第一目標視頻圖像;第二處理單元,用于根據(jù)第一預(yù)設(shè)模型對上述至少一個第一目標視頻圖像進行目標檢測處理和目標跟蹤處理,得到上述至少一個第一目標視頻圖像中的每個上述第一目標視頻圖像的全部目標圖像序列;第三處理單元,用于根據(jù)第二預(yù)設(shè)模型對上述每個上述第一目標視頻圖像的全部目標圖像序列進行特征提取處理,得到上述每個上述第一目標視頻圖像的第一特征和第二特征,其中,上述第一特征為上述第一目標視頻圖像的二值化哈希特征,上述第二特征為上述第一目標視頻圖像的原始特征;第四處理單元,用于根據(jù)預(yù)設(shè)近似最鄰近算法對上述第一特征和上述第二特征進行聚類處理,得到檢索模型;第五處理單元,用于對上述目標檢索圖像進行摳圖處理,得到目標區(qū)域圖像;檢索單元,用于根據(jù)上述檢索模型對上述目標區(qū)域圖像進行檢索,得到檢索結(jié)果。
進一步地,上述檢索單元包括:第一獲取子單元,用于獲取上述目標區(qū)域圖像的第三特征和第四特征,其中,上述第三特征為上述目標區(qū)域圖像的二值化哈希特征,上述第四特征為上述目標區(qū)域圖像的原始特征;第一計算子單元,用于計算上述第三特征與上述每個上述第一目標視頻圖像的上述第一特征之間的漢明距離,得到至少一個第二目標視頻圖像;第二計算子單元,用于計算上述第四特征與上述至少一個第二目標視頻圖像中的每個上述第二目標視頻圖像的上述第二特征的歐式距離,得到目標圖像幀,其中,上述目標圖像幀與上述目標檢索圖像的相似度大于預(yù)設(shè)相似度閾值;第二獲取子單元,用于獲取上述目標圖像幀的幀id;檢索子單元,用于在上述多個視頻圖像中檢索與上述幀id對應(yīng)的上述視頻圖像,得到上述檢索結(jié)果。
根據(jù)本發(fā)明實施例的又一方面,還提供了一種存儲介質(zhì),上述存儲介質(zhì)包括存儲的程序,其中,在上述程序運行時控制上述存儲介質(zhì)所在設(shè)備執(zhí)行上述的視頻檢索方法。
根據(jù)本發(fā)明實施例的又一方面,還提供了一種處理器,上述處理器用于運行程序,其中,上述程序運行時執(zhí)行上述的視頻檢索方法。
在本發(fā)明實施例中,采用下述方式:獲取目標檢索圖片和多個視頻圖像;對多個視頻圖像進行預(yù)處理,得到至少一個第一目標視頻圖像;根據(jù)第一預(yù)設(shè)模型對至少一個第一目標視頻圖像進行目標檢測處理和目標跟蹤處理,得到至少一個第一目標視頻圖像中的每個第一目標視頻圖像的全部目標圖像序列;根據(jù)第二預(yù)設(shè)模型對每個第一目標視頻圖像的全部目標圖像序列進行特征提取處理,得到每個第一目標視頻圖像的第一特征和第二特征,其中,第一特征為第一目標視頻圖像的二值化哈希特征,第二特征為第一目標視頻圖像的原始特征;根據(jù)預(yù)設(shè)近似最鄰近算法對第一特征和第二特征進行聚類處理,得到檢索模型;通過對目標檢索圖像進行摳圖處理得到目標區(qū)域圖像;達到了根據(jù)檢索模型對目標區(qū)域圖像進行檢索得到檢索結(jié)果的目的,從而實現(xiàn)了提升視頻的檢索精度和檢索效率、降低檢索的時間成本和人力成本的技術(shù)效果,進而解決了現(xiàn)有技術(shù)中存在的視頻檢索精度和檢索效率較低的技術(shù)問題。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當限定。在附圖中:
圖1是根據(jù)本發(fā)明實施例的一種可選的視頻檢索方法的流程示意圖;
圖2是根據(jù)本發(fā)明實施例的另一種可選的視頻檢索方法的流程示意圖;
圖3是根據(jù)本發(fā)明實施例的一種可選的視頻檢索裝置的結(jié)構(gòu)示意圖;
圖4是根據(jù)本發(fā)明實施例的另一種可選的視頻檢索裝置的結(jié)構(gòu)示意圖。
具體實施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分的實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當屬于本發(fā)明保護的范圍。
需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當情況下可以互換,以便這里描述的本發(fā)明的實施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
實施例1
根據(jù)本發(fā)明實施例,提供了一種視頻檢索方法的實施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
圖1是根據(jù)本發(fā)明實施例的一種可選的視頻檢索方法的流程示意圖,如圖1所示,該方法包括如下步驟:
步驟s102,獲取目標檢索圖片和多個視頻圖像;
步驟s104,對多個視頻圖像進行預(yù)處理,得到至少一個第一目標視頻圖像;
步驟s106,根據(jù)第一預(yù)設(shè)模型對至少一個第一目標視頻圖像進行目標檢測處理和目標跟蹤處理,得到至少一個第一目標視頻圖像中的每個第一目標視頻圖像的全部目標圖像序列;
步驟s108,根據(jù)第二預(yù)設(shè)模型對每個第一目標視頻圖像的全部目標圖像序列進行特征提取處理,得到每個第一目標視頻圖像的第一特征和第二特征,其中,第一特征為第一目標視頻圖像的二值化哈希特征,第二特征為第一目標視頻圖像的原始特征;
步驟s110,根據(jù)預(yù)設(shè)近似最鄰近算法對第一特征和第二特征進行聚類處理,得到檢索模型;
步驟s112,對目標檢索圖像進行摳圖處理,得到目標區(qū)域圖像;
步驟s114,根據(jù)檢索模型對目標區(qū)域圖像進行檢索,得到檢索結(jié)果。
在本發(fā)明實施例中,采用下述方式:獲取目標檢索圖片和多個視頻圖像;對多個視頻圖像進行預(yù)處理,得到至少一個第一目標視頻圖像;根據(jù)第一預(yù)設(shè)模型對至少一個第一目標視頻圖像進行目標檢測處理和目標跟蹤處理,得到至少一個第一目標視頻圖像中的每個第一目標視頻圖像的全部目標圖像序列;根據(jù)第二預(yù)設(shè)模型對每個第一目標視頻圖像的全部目標圖像序列進行特征提取處理,得到每個第一目標視頻圖像的第一特征和第二特征,其中,第一特征為第一目標視頻圖像的二值化哈希特征,第二特征為第一目標視頻圖像的原始特征;根據(jù)預(yù)設(shè)近似最鄰近算法對第一特征和第二特征進行聚類處理,得到檢索模型;通過對目標檢索圖像進行摳圖處理得到目標區(qū)域圖像;達到了根據(jù)檢索模型對目標區(qū)域圖像進行檢索得到檢索結(jié)果的目的,從而實現(xiàn)了提升視頻的檢索精度和檢索效率、降低檢索的時間成本和人力成本的技術(shù)效果,進而解決了現(xiàn)有技術(shù)中存在的視頻檢索精度和檢索效率較低的技術(shù)問題。
可選地,多個視頻圖像可以理解為海量的視頻圖像,目標檢索圖片由用戶輸入,需要說明的是,該目標檢索圖片可能包含于多個視頻圖像中,也可能并不包含于多個視頻圖像中。
可選地,執(zhí)行本申請上述步驟s102至步驟s110,可以先對海量的視頻圖像進行處理,提取每個視頻圖像的特征(包括目標檢測、目標跟蹤、特征提取),該特征包括原始特征(維度較長)和二值化哈希特征(維度較短,只有0或1兩個數(shù)字),進而對上述視頻圖像的原始特征和二值化哈希特征進行保存及聚類,從而構(gòu)建檢索服務(wù)模型。
可選地,在用戶輸入單張圖片作為目標檢索圖片的情況下,執(zhí)行步驟s112可以對用戶輸入的單張圖片進行預(yù)處理,去掉圖片中與目標區(qū)域圖像無關(guān)的信息,把目標區(qū)域圖像單獨摳出。
可選地,第一預(yù)設(shè)模型中可以包含兩個子模型,分別為基于深度學習的目標檢測子模型和基于深度學習的目標跟蹤子模型;第二預(yù)設(shè)模型可以為基于深度學習的目標特征提取模型。
可選地,圖2是根據(jù)本發(fā)明實施例的另一種可選的視頻檢索方法的流程示意圖,如圖2所示,步驟s114,根據(jù)檢索模型對目標區(qū)域圖像進行檢索,得到檢索結(jié)果包括:
步驟s202,獲取目標區(qū)域圖像的第三特征和第四特征,其中,第三特征為目標區(qū)域圖像的二值化哈希特征,第四特征為目標區(qū)域圖像的原始特征;
步驟s204,計算第三特征與每個第一目標視頻圖像的第一特征之間的漢明距離,得到至少一個第二目標視頻圖像;
步驟s206,計算第四特征與至少一個第二目標視頻圖像中的每個第二目標視頻圖像的第二特征的歐式距離,得到目標圖像幀,其中,目標圖像幀與目標檢索圖像的相似度大于預(yù)設(shè)相似度閾值;
步驟s208,獲取目標圖像幀的幀id;
步驟s210,在多個視頻圖像中查找與幀id對應(yīng)的視頻圖像,得到檢索結(jié)果。
可選地,執(zhí)行步驟s202,可以得到目標區(qū)域圖像中維度較長的原始特征和維度較短的二值化哈希特征。
可選地,執(zhí)行步驟s204,可以計算用戶輸入圖像的二值化特征與海量視頻數(shù)據(jù)的二值化特征的漢明距離,從而縮小檢索范圍,得到范圍縮小后的海量視頻數(shù)據(jù)特征。其中,漢明距離可以表征上述特征之間的相似度,漢明距離越大則相似度越低。例如,計算漢明距離可以縮小檢索范圍,例如海量數(shù)據(jù)庫中有十萬個視頻圖像,用戶輸入一張哈士奇的圖片,可能計算漢明距離之后還剩一萬個視頻圖像,這一萬個視頻圖像中可能都是包含狗的。
可選地,執(zhí)行步驟s206至步驟s210,可以計算用戶輸入圖像的原始特征與范圍縮小后的海量視頻數(shù)據(jù)的原始特征之間的歐式距離,從而得到海量視頻數(shù)據(jù)中前n條與用戶輸入圖像相似度高的圖像幀,進而根據(jù)圖像幀id在海量視頻數(shù)據(jù)中查找對應(yīng)的視頻標識、圖像所在幀號等相關(guān)信息,最終獲得視頻檢索結(jié)果。例如,計算歐式距離,即可在上述舉例中的一萬個包含狗的視頻圖像中,得到僅包含哈士奇的一千張視頻圖像。因此,依次計算漢明距離和計算歐式距離,可以將檢索的范圍進一步縮小。
可選地,基于上述,首先按照目標檢索圖片的二值化哈希特征通過標準正太分布圖標獲取對應(yīng)分桶的位置,根據(jù)分桶標記從redis中獲取相對應(yīng)的二值向量集合,通過漢明距離比較、排序,獲取對應(yīng)相似度高的二值化哈希特征,完成初步檢索。進而按照目標檢索圖片的原始特征,通過計算歐式距離可以進行進一步的精確檢索。最終,經(jīng)過比較和排序,獲取前n條相似度高的圖像幀,根據(jù)圖像幀id查找對應(yīng)的視頻標識、圖像所在幀號等相關(guān)信息,從而獲得視頻檢索結(jié)果。其中,n設(shè)置為10,即搜索返回前10個相似度最高的視頻序列。
可選地,在執(zhí)行完成步驟s108之后,即在根據(jù)第二預(yù)設(shè)模型對每個第一目標視頻圖像的全部目標圖像序列進行特征提取處理之后,該方法還可以包括:
步驟s10,將至少一個第一目標視頻圖像、目標圖像序列、第一特征和第二特征結(jié)構(gòu)化存儲至數(shù)據(jù)庫中。該數(shù)據(jù)庫可以為mongodb數(shù)據(jù)庫或poseidon數(shù)據(jù)庫,上述數(shù)據(jù)庫可以作為檢索數(shù)據(jù)庫,在進行視頻圖像檢索時,均需要將目標特征與該數(shù)據(jù)庫中的數(shù)據(jù)進行比對,得到檢索結(jié)果。
可選地,該預(yù)設(shè)近似最鄰近算法為局部敏感度哈希算法。具體地,基于ann(approximatenearestneighbor)近似最近鄰算法對視頻文件的結(jié)構(gòu)化信息進行聚類?;跇藴收植级倒_M行分桶,并將分桶后的二值向量數(shù)據(jù)存儲到內(nèi)存數(shù)據(jù)redis中,從而構(gòu)建檢索服務(wù)。
可選地,執(zhí)行步驟s104,即對多個視頻圖像進行預(yù)處理,得到至少一個第一目標視頻圖像包括:
步驟s20,對多個視頻圖像中的每個視頻圖像依次進行長度歸一化處理和解碼處理,得到第一目標視頻圖像。
具體地,對視頻圖像進行長度歸一化處理,可以將連續(xù)的視頻流截取為長度固定的視頻流串,從而便于后期分析與保存;在對視頻圖像解碼處理時,可以通過opencv對視頻文件進行解碼,并對每幀圖像進行尺寸縮放歸一化操作。其中,尺寸縮放采用雙線性差值算法,縮放的尺寸為1920*1080。
可選地,該方法還可以包括:步驟s30,根據(jù)隨機梯度下降算法對第一預(yù)設(shè)模型和第二預(yù)設(shè)模型進行訓(xùn)練,直至第一預(yù)設(shè)模型和第二預(yù)設(shè)模型達到收斂狀態(tài)。
具體地,可以采用上述方式訓(xùn)練第一預(yù)設(shè)模型:首先可以將圖像數(shù)據(jù)集及其對應(yīng)的類別標簽信息分別對應(yīng)分成兩部分,一部分作為訓(xùn)練樣本集,另一部分作為測試樣本集,其中,訓(xùn)練樣本集和測試樣本集中每個樣本均包括一張圖像及對應(yīng)的類別標簽。進而可以構(gòu)建第一預(yù)設(shè)模型中的兩個子模型:基于深度學習的目標檢測子模型和基于深度學習的目標跟蹤子模型,其中,目標檢測子模型采用經(jīng)典的yolo架構(gòu),目標跟蹤子模型采用rnn架構(gòu)。最終,可以利用訓(xùn)練樣本集,按照sgd隨機梯度下降法對目標檢測子模型和目標跟蹤子模型進行訓(xùn)練。其中,訓(xùn)練的學習率步長設(shè)置為0.01。
具體地,可以采用上述方式訓(xùn)練第二預(yù)設(shè)模型:首先將圖像數(shù)據(jù)集及其對應(yīng)的類別標簽信息分別對應(yīng)分成兩部分,一部分作為訓(xùn)練樣本集,另一部分作為測試樣本集,其中,訓(xùn)練樣本集和測試樣本集中每個樣本均包括一張圖像及對應(yīng)的類別標簽。進而,構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)包含卷積子網(wǎng)絡(luò)、哈希層、損失層,卷積子網(wǎng)絡(luò)用于學習圖像的原始特征,哈希層用于對原始特征進行特征壓縮降維,轉(zhuǎn)換為二進制編碼,獲得輸入圖像的二值化哈希特征,損失層用于衡量softmax分類誤差;其中,卷積子網(wǎng)絡(luò)采用vgg架構(gòu)。原始特征維度為4096維。二值化哈希特征維度為128維。最終,利用訓(xùn)練樣本集,依據(jù)深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),按照sgd隨機梯度下降法對第二預(yù)設(shè)模型進行訓(xùn)練,得到基于深度學習的目標特征提取模型。其中,訓(xùn)練的學習率步長設(shè)置為0.01。
在本發(fā)明實施例中,采用下述方式:獲取目標檢索圖片和多個視頻圖像;對多個視頻圖像進行預(yù)處理,得到至少一個第一目標視頻圖像;根據(jù)第一預(yù)設(shè)模型對至少一個第一目標視頻圖像進行目標檢測處理和目標跟蹤處理,得到至少一個第一目標視頻圖像中的每個第一目標視頻圖像的全部目標圖像序列;根據(jù)第二預(yù)設(shè)模型對每個第一目標視頻圖像的全部目標圖像序列進行特征提取處理,得到每個第一目標視頻圖像的第一特征和第二特征,其中,第一特征為第一目標視頻圖像的二值化哈希特征,第二特征為第一目標視頻圖像的原始特征;根據(jù)預(yù)設(shè)近似最鄰近算法對第一特征和第二特征進行聚類處理,得到檢索模型;通過對目標檢索圖像進行摳圖處理得到目標區(qū)域圖像;達到了根據(jù)檢索模型對目標區(qū)域圖像進行檢索得到檢索結(jié)果的目的,從而實現(xiàn)了提升視頻的檢索精度和檢索效率、降低檢索的時間成本和人力成本的技術(shù)效果,進而解決了現(xiàn)有技術(shù)中存在的視頻檢索精度和檢索效率較低的技術(shù)問題。
實施例2
根據(jù)本發(fā)明實施例的另一個方面,還提供了一種視頻檢索裝置,如圖3所示,該裝置包括:獲取單元301、第一處理單元303、第二處理單元305、第三處理單元307、第四處理單元309、第五處理單元311以及檢索單元313。
其中,獲取單元301,用于獲取目標檢索圖片和多個視頻圖像;第一處理單元303,用于對多個視頻圖像進行預(yù)處理,得到至少一個第一目標視頻圖像;第二處理單元305,用于根據(jù)第一預(yù)設(shè)模型對至少一個第一目標視頻圖像進行目標檢測處理和目標跟蹤處理,得到至少一個第一目標視頻圖像中的每個第一目標視頻圖像的全部目標圖像序列;第三處理單元307,用于根據(jù)第二預(yù)設(shè)模型對每個第一目標視頻圖像的全部目標圖像序列進行特征提取處理,得到每個第一目標視頻圖像的第一特征和第二特征,其中,第一特征為第一目標視頻圖像的二值化哈希特征,第二特征為第一目標視頻圖像的原始特征;第四處理單元309,用于根據(jù)預(yù)設(shè)近似最鄰近算法對第一特征和第二特征進行聚類處理,得到檢索模型;第五處理單元311,用于對目標檢索圖像進行摳圖處理,得到目標區(qū)域圖像;檢索單元313,用于根據(jù)檢索模型對目標區(qū)域圖像進行檢索,得到檢索結(jié)果。
可選地,如圖4所示,檢索單元313可以包括:第一獲取子單元401、第一計算子單元403、第二計算子單元405、第二獲取子單元407以及檢索子單元409。
其中,第一獲取子單元401,用于獲取目標區(qū)域圖像的第三特征和第四特征,其中,第三特征為目標區(qū)域圖像的二值化哈希特征,第四特征為目標區(qū)域圖像的原始特征;第一計算子單元403,用于計算第三特征與每個第一目標視頻圖像的第一特征之間的漢明距離,得到至少一個第二目標視頻圖像;第二計算子單元405,用于計算第四特征與至少一個第二目標視頻圖像中的每個第二目標視頻圖像的第二特征的歐式距離,得到目標圖像幀,其中,目標圖像幀與目標檢索圖像的相似度大于預(yù)設(shè)相似度閾值;第二獲取子單元407,用于獲取目標圖像幀的幀id;檢索子單元409,用于在多個視頻圖像中檢索與幀id對應(yīng)的視頻圖像,得到檢索結(jié)果。
在本發(fā)明實施例中,采用下述方式:獲取目標檢索圖片和多個視頻圖像;對多個視頻圖像進行預(yù)處理,得到至少一個第一目標視頻圖像;根據(jù)第一預(yù)設(shè)模型對至少一個第一目標視頻圖像進行目標檢測處理和目標跟蹤處理,得到至少一個第一目標視頻圖像中的每個第一目標視頻圖像的全部目標圖像序列;根據(jù)第二預(yù)設(shè)模型對每個第一目標視頻圖像的全部目標圖像序列進行特征提取處理,得到每個第一目標視頻圖像的第一特征和第二特征,其中,第一特征為第一目標視頻圖像的二值化哈希特征,第二特征為第一目標視頻圖像的原始特征;根據(jù)預(yù)設(shè)近似最鄰近算法對第一特征和第二特征進行聚類處理,得到檢索模型;通過對目標檢索圖像進行摳圖處理得到目標區(qū)域圖像;達到了根據(jù)檢索模型對目標區(qū)域圖像進行檢索得到檢索結(jié)果的目的,從而實現(xiàn)了提升視頻的檢索精度和檢索效率、降低檢索的時間成本和人力成本的技術(shù)效果,進而解決了現(xiàn)有技術(shù)中存在的視頻檢索精度和檢索效率較低的技術(shù)問題。
實施例3
根據(jù)本發(fā)明實施例的又一個方面,還提供了一種存儲介質(zhì),上述存儲介質(zhì)包括存儲的程序,其中,在上述程序運行時控制上述存儲介質(zhì)所在設(shè)備執(zhí)行本申請實施例1中的上述視頻檢索方法。
根據(jù)本發(fā)明實施例的又一方面,還提供了一種處理器,上述處理器用于運行程序,其中,上述程序運行時執(zhí)行本申請實施例1中的上述視頻檢索方法。
在本發(fā)明實施例中,采用下述方式:獲取目標檢索圖片和多個視頻圖像;對多個視頻圖像進行預(yù)處理,得到至少一個第一目標視頻圖像;根據(jù)第一預(yù)設(shè)模型對至少一個第一目標視頻圖像進行目標檢測處理和目標跟蹤處理,得到至少一個第一目標視頻圖像中的每個第一目標視頻圖像的全部目標圖像序列;根據(jù)第二預(yù)設(shè)模型對每個第一目標視頻圖像的全部目標圖像序列進行特征提取處理,得到每個第一目標視頻圖像的第一特征和第二特征,其中,第一特征為第一目標視頻圖像的二值化哈希特征,第二特征為第一目標視頻圖像的原始特征;根據(jù)預(yù)設(shè)近似最鄰近算法對第一特征和第二特征進行聚類處理,得到檢索模型;通過對目標檢索圖像進行摳圖處理得到目標區(qū)域圖像;達到了根據(jù)檢索模型對目標區(qū)域圖像進行檢索得到檢索結(jié)果的目的,從而實現(xiàn)了提升視頻的檢索精度和檢索效率、降低檢索的時間成本和人力成本的技術(shù)效果,進而解決了現(xiàn)有技術(shù)中存在的視頻檢索精度和檢索效率較低的技術(shù)問題。
上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
在本發(fā)明的上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關(guān)描述。
在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的技術(shù)內(nèi)容,可通過其它的方式實現(xiàn)。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個單元上。可以根據(jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可為個人計算機、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:u盤、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。