国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種垃圾圖片識(shí)別方法和裝置的制作方法

      文檔序號(hào):6370371閱讀:254來(lái)源:國(guó)知局
      專利名稱:一種垃圾圖片識(shí)別方法和裝置的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及圖片處理技術(shù)領(lǐng)域,特別是涉及一種垃圾圖片識(shí)別方法和裝置。
      背景技術(shù)
      隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,博客、微博、貼吧、SNS(Social Network Site,社交網(wǎng)站)得到了快速的發(fā)展,為人們傳播、交流各種信息提高了廣泛的平臺(tái)。互聯(lián)網(wǎng)為信息的傳播和獲取帶來(lái)了便利,但隨之而來(lái)的是垃圾信息的泛濫。垃圾信息傳播快速,且形式多樣,內(nèi)容多以中獎(jiǎng)、詐騙、廣告、色情信息為主,其存在嚴(yán)重影響了用戶體驗(yàn)。隨著服務(wù)運(yùn)營(yíng)商對(duì)反垃圾領(lǐng)域的持續(xù)投入,部分垃圾信息從傳統(tǒng)的文本信息轉(zhuǎn)換為圖片信息,給服務(wù)運(yùn)營(yíng)商識(shí)別垃圾信息帶來(lái)了一定的難度。如何快速、準(zhǔn)確地識(shí)別出垃圾圖片已經(jīng)成為一個(gè)重要的技術(shù)問(wèn)題。 現(xiàn)有技術(shù)中存在幾種識(shí)別垃圾圖片的方法。其中一種是通過(guò)計(jì)算待識(shí)別圖片MD5(Message Digest Algorithm MD5,中文名稱為消息摘要算法第五版,一種散列函數(shù))值,將待識(shí)別圖片的MD5值與相應(yīng)的垃圾圖片庫(kù)中的MD5值進(jìn)行匹配的方式來(lái)識(shí)別垃圾圖片。這種方式在垃圾圖片庫(kù)足夠大的情況下,可以快速、準(zhǔn)確地對(duì)垃圾圖片進(jìn)行識(shí)別。但是這種方法對(duì)圖片變動(dòng)的適應(yīng)性非常差,垃圾圖片制造者只需要對(duì)圖片做一些小的變化,獲取的待識(shí)別圖片MD5值就會(huì)不同,則無(wú)法對(duì)垃圾圖片進(jìn)行有效的識(shí)別?,F(xiàn)有技術(shù)還存在另外一些方法,這些方法首先提取各類圖片特征,例如幾何矩、復(fù)數(shù)矩、顏色直方圖等,然后利用獲取的圖片特征到已經(jīng)訓(xùn)練完成的模型里進(jìn)行分類操作來(lái)判斷該圖片是否為垃圾圖片。這些方法的缺點(diǎn)是大部分計(jì)算量較大,并且識(shí)別的準(zhǔn)確率較低。另一方面,這些方法對(duì)垃圾圖片變動(dòng)的適應(yīng)性也普遍比較差,比如兩張圖片里面的垃圾信息基本保持不變,但是圖片的背景顏色、圖片中的文字大小等發(fā)生變化,如果一張圖片已經(jīng)在訓(xùn)練庫(kù)中,另外一張圖片是待識(shí)別的圖片,則還是較難獲取準(zhǔn)確的識(shí)別結(jié)果,因此這些方法也不是理想的垃圾圖片識(shí)別方法。

      發(fā)明內(nèi)容
      為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供了一種垃圾圖片識(shí)別方法和裝置,可以快速、準(zhǔn)確、有效地識(shí)別出垃圾圖片。技術(shù)方案如下—方面,本發(fā)明實(shí)施例公開(kāi)了一種垃圾圖片識(shí)別方法,所述方法包括獲取待識(shí)別圖片的圖片特征;對(duì)所述圖片特征進(jìn)行切分,生成圖片特征序列;將所述待識(shí)別圖片的圖片特征序列中連續(xù)兩個(gè)圖片特征作為特征組合,將所述特征組合與預(yù)存的垃圾圖片特征庫(kù)中的特征組合倒排索引進(jìn)行比對(duì),獲取包含所述圖片特征組合的垃圾圖片集合;所述垃圾圖片特征庫(kù)包含有垃圾圖片庫(kù)中的所有垃圾圖片的圖片特征;
      分別計(jì)算待識(shí)別圖片與所述垃圾圖片集合中的各垃圾圖片的相似度值,當(dāng)有任意一張垃圾圖片與待識(shí)別圖片的相似度值大于設(shè)定閾值時(shí),則判斷所述待識(shí)別圖片為垃圾圖片。優(yōu)選地,在獲取待識(shí)別圖片的圖片特征之前,所述方法還包括對(duì)待識(shí)別圖片進(jìn)行預(yù)處理,將所述待識(shí)別圖片進(jìn)行灰度化以及二值化處理,并將其轉(zhuǎn)換為預(yù)設(shè)的格式。優(yōu)選地,所述獲取待識(shí)別圖片的圖片特征包括對(duì)待識(shí)別圖片進(jìn)行圖像布局分析,獲取文本元素區(qū)域輪廓;對(duì)待識(shí)別圖片進(jìn)行膨脹腐蝕處理,獲取文本元素的連續(xù)區(qū)域;對(duì)待識(shí)別圖片進(jìn)行濾波處理,獲取所述文本元素的連續(xù)區(qū)域中的文本形狀特征;利用所述文本形狀特征對(duì)待識(shí)別圖片中的文字進(jìn)行識(shí)別,獲取文本形狀特征碼,將所述文本形狀特征碼作為待識(shí)別圖片的圖片特征。優(yōu)選地,所述方法還包括獲取垃圾圖片庫(kù)中的所有圖片的圖片特征,建立垃圾圖片特征庫(kù)。優(yōu)選地,所述方法還包括為所述垃圾圖片特征庫(kù)建立倒排索引,所述倒排索引由哈希表組成,所述哈希表以連續(xù)兩個(gè)圖片特征組成的特征組合為鍵、以包含所述特征組合的垃圾圖片的圖片標(biāo)識(shí)以及特征組合在圖片特征序列中的出現(xiàn)次數(shù)兩項(xiàng)信息的鏈表為值;其中,所述圖片標(biāo)識(shí)為垃圾圖片在垃圾圖片特征庫(kù)的唯一標(biāo)識(shí)。
      優(yōu)選地,所述將所述待識(shí)別圖片的圖片特征序列中連續(xù)兩個(gè)圖片特征作為特征組合,將所述特征組合與預(yù)存在垃圾圖片特征庫(kù)中的特征組合倒排索引進(jìn)行比對(duì),獲取包含所述圖片特征組合的垃圾圖片集合包括獲取圖片特征序列中任意連續(xù)兩個(gè)圖片特征作為當(dāng)前特征組合;將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對(duì);判斷所述倒排索引中是否存在所述特征組合;如果不存在,進(jìn)入獲取待識(shí)別圖片的圖片特征序列中未處理的連續(xù)兩個(gè)圖片特征的步驟;如果存在,獲取與所述特征組合對(duì)應(yīng)的所有垃圾圖片標(biāo)識(shí);獲取待識(shí)別圖片的圖片特征序列中未處理的連續(xù)兩個(gè)圖片特征,將其作為當(dāng)前特征組合,進(jìn)入將所述特征組合與倒排索引中的特征組合進(jìn)行比對(duì)的步驟,直到處理完待識(shí)別圖片的圖片特征序列中的所有特征組合;根據(jù)獲取的所有垃圾圖片的圖片標(biāo)識(shí)確定垃圾圖片集合。優(yōu)選地,所述將所述待識(shí)別圖片的圖片特征序列中連續(xù)兩個(gè)圖片特征作為特征組合,將所述特征組合與預(yù)存在垃圾圖片特征庫(kù)中的特征組合倒排索引進(jìn)行比對(duì),獲取包含所述圖片特征組合的垃圾圖片集合包括獲取圖片特征序列中任意連續(xù)兩個(gè)圖片特征作為當(dāng)前特征組合,將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行比對(duì),判斷所述倒排索引中是否存在所述特征組合;如果存在,獲取與所述特征組合對(duì)應(yīng)的所有垃圾圖片標(biāo)識(shí),確定垃圾圖片集合,并進(jìn)入計(jì)算待識(shí)別圖片與所述垃圾圖片集合中的各垃圾圖片的相似度值的步驟;
      如果不存在,獲取待識(shí)別圖片的圖片特征序列未處理的連續(xù)兩個(gè)圖片特征,將其作為當(dāng)前特征組合,進(jìn)入將所述當(dāng)前特征組合與倒排索引中的特征組合進(jìn)行比對(duì)的步驟。優(yōu)選地,所述方法還包括當(dāng)判斷所述相似度值都小于設(shè)定閾值時(shí),獲取待識(shí)別圖片的圖片特征序列中未處理的連續(xù)兩個(gè)圖片特征序列作為特征組合,進(jìn)行迭代處理,直到任意一條相似度值大于設(shè)定閾值,停止迭代處理。優(yōu)選地,所述待識(shí)別圖片與所述垃圾圖片集合中的其中一張垃圾圖片的相似度值通過(guò)以下方法得到 獲取待識(shí)別圖片與所述垃圾圖片具有的共同特征組合的個(gè)數(shù);獲取待識(shí)別圖片與所述垃圾圖片的特征組合總數(shù)與共同特征組合數(shù)之間的差值;將所述共同特征組合數(shù)與所述差值的比值作為待識(shí)別圖片與所述垃圾圖片的相似度值。另一方面,本發(fā)明實(shí)施例還公開(kāi)了一種垃圾圖片識(shí)別裝置,所述裝置包括圖片特征獲取單元,用于獲取待識(shí)別圖片的圖片特征;特征序列生成單元,用于對(duì)所述圖片特征進(jìn)行切分,生成圖片特征序列;特征比對(duì)單元,用于將所述待識(shí)別圖片的圖片特征序列中連續(xù)兩個(gè)圖片特征作為特征組合,將所述特征組合與預(yù)存的垃圾圖片特征庫(kù)中的特征組合倒排索引進(jìn)行比對(duì),獲取包含所述圖片特征組合的垃圾圖片集合;所述垃圾圖片特征庫(kù)包含有垃圾圖片庫(kù)中的所有垃圾圖片的圖片特征;第一判斷單元,用于分別計(jì)算待識(shí)別圖片與所述垃圾圖片集合中各垃圾圖片的相似度值,當(dāng)有任意一張垃圾圖片與待識(shí)別圖片的相似度值大于設(shè)定閾值時(shí),則判斷所述待識(shí)別圖片為垃圾圖片。優(yōu)選地,所述裝置還包括預(yù)處理單元,用于對(duì)待識(shí)別圖片進(jìn)行預(yù)處理,將所述待識(shí)別圖片進(jìn)行灰度化以及二值化處理,并將其轉(zhuǎn)換為預(yù)設(shè)的格式。優(yōu)選地,所述圖片特征獲取單元包括布局分析單元,用于對(duì)待識(shí)別圖片進(jìn)行圖像布局分析,獲取文本元素區(qū)域輪廓;膨脹腐蝕處理單元,用于對(duì)待識(shí)別圖片進(jìn)行膨脹腐蝕處理,獲取文本元素的連續(xù)區(qū)域;濾波處理單元,用于對(duì)待識(shí)別圖片進(jìn)行濾波處理,獲取所述文本元素的連續(xù)區(qū)域中的文本形狀特征;識(shí)別單元,用于利用所述文本形狀特征對(duì)待識(shí)別圖片中的文字進(jìn)行識(shí)別,獲取文本形狀特征碼,將所述文本形狀特征碼作為待識(shí)別圖片的圖片特征。優(yōu)選地,所述裝置還包括垃圾圖片特征庫(kù)建立單元,用于獲取垃圾圖片庫(kù)中的所有圖片的圖片特征,建立垃圾圖片特征庫(kù)。優(yōu)選地,所述裝置還包括索引建立單元,用于為所述垃圾圖片特征庫(kù)建立倒排索引,所述倒排索引由哈希表組成,所述哈希表以連續(xù)兩個(gè)圖片特征組成的特征組合為鍵、以包含所述特征組合的垃圾圖片的圖片標(biāo)識(shí)以及特征組合在圖片特征序列中的出現(xiàn)次數(shù)兩項(xiàng)信息的鏈表為值;其中,所述圖片標(biāo)識(shí)為垃圾圖片在垃圾圖片特征庫(kù)的唯一標(biāo)識(shí)。優(yōu)選地,所述特征比對(duì)單元包括第一獲取單元,用于獲取圖片特征序列中任意連續(xù)兩個(gè)圖片特征作為當(dāng)前特征組合;第一查找單元將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對(duì);第二判斷單元,用于判斷所述倒排索引中是否存在所述特征組合;如果所述判斷結(jié)果表明不存在所述特征組合,進(jìn)入第三獲取單元;如果所述判斷結(jié)果表明存在所述特征組合,進(jìn)入第二獲取單元; 第二獲取單元,用于獲取與所述特征組合對(duì)應(yīng)的所有垃圾圖片標(biāo)識(shí),進(jìn)入第三獲取單元;第三獲取單元,用于獲取待識(shí)別圖片的圖片特征序列中未處理的連續(xù)兩個(gè)圖片特征,將其作為當(dāng)前特征組合,進(jìn)入第一查找單元,直到處理完待識(shí)別圖片的圖片特征序列中的所有特征組合;確定單元,用于根據(jù)獲取的所有垃圾圖片的標(biāo)識(shí)確定垃圾圖片集合。優(yōu)選地,所述特征比對(duì)單元包括第四獲取單元,用于獲取圖片特征序列中任意連續(xù)兩個(gè)圖片特征作為當(dāng)前特征組合;第二查找單元,用于將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對(duì);第三判斷單元,用于判斷所述倒排索引中是否存在所述特征組合;當(dāng)所述判斷結(jié)果表明存在所述特征組合,進(jìn)入第五獲取單元;當(dāng)所述判斷結(jié)果表明不存在所述特征組合,進(jìn)入第六獲取單元;第五獲取單元,用于獲取與所述特征組合對(duì)應(yīng)的所有垃圾圖片標(biāo)識(shí),進(jìn)入第一判斷單元;第六獲取單元,用于當(dāng)所述判斷結(jié)果表明不存在所述特征組合,獲取待識(shí)別圖片的圖片特征序列未處理的連續(xù)兩個(gè)圖片特征,將其作為當(dāng)前特征組合,進(jìn)入第二查找單元。優(yōu)選地,所述裝置還包括迭代處理單元,用于當(dāng)?shù)谝慌袛鄦卧呐袛嘟Y(jié)果表明所述相似度值都小于設(shè)定閾值時(shí),獲取待識(shí)別圖片的圖片特征序列中未處理的連續(xù)兩個(gè)圖片特征序列作為特征組合,進(jìn)行迭代處理,直到任意一條相似度值大于設(shè)定閾值,停止迭代處理。本發(fā)明實(shí)施例能夠達(dá)到的有益效果為本發(fā)明實(shí)施例提供的方法,通過(guò)提取待識(shí)別圖片的圖片特征,將圖片特征進(jìn)行切分,生成圖片特征序列,并將圖片特征序列中連續(xù)兩個(gè)圖片特征作為特征組合與預(yù)存的垃圾圖片特征庫(kù)中的特征組合倒排索引進(jìn)行比對(duì),獲取包含所述圖片特征組合的垃圾圖片集合;然后計(jì)算待識(shí)別圖片與所述垃圾圖片集合中各張垃圾圖片的相似度值,當(dāng)有任意一張垃圾圖片與待識(shí)別圖片的相似度值大于設(shè)定閾值時(shí),則判斷待識(shí)別圖片為垃圾圖片。本發(fā)明提供的方法由于對(duì)圖片特征組合創(chuàng)建了倒排索引及采用了基于圖片特征組合的方式進(jìn)行比對(duì),可以提高垃圾圖片的識(shí)別效率。另一方面,由于提取了圖片的文本形狀特征碼作為圖片特征并采用了基于特征組合的比對(duì)方式,因此對(duì)垃圾圖片變化的適應(yīng)性強(qiáng),提高了識(shí)別的效果和準(zhǔn)確率。


      為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。 圖I為本發(fā)明提供的垃圾圖片識(shí)別方法第一實(shí)施例流程圖;圖2為本發(fā)明提供的垃圾圖片識(shí)別方法第二實(shí)施例流程圖;圖3是對(duì)垃圾圖片特征庫(kù)中圖片A的圖片特征(“feature^feature;^feature/’)建立的第一圖片特征表hashmapa的結(jié)構(gòu)示意圖;圖4是對(duì)垃圾圖片特征庫(kù)中圖片A的圖片特征(“feature^feature;^feature/’)建立的倒排索引的結(jié)構(gòu)示意圖;圖5是對(duì)待識(shí)別的圖片B的圖片特征(“feature^feature;^feature/’)建立的第二圖片特征表hashmapb的結(jié)構(gòu)示意圖;圖6是垃圾圖片特征庫(kù)中圖片A的圖片特征(“feature” feature2、feature/’)與待識(shí)別的圖片B的圖片特征(“feature^feature;^feature/’)包含共同圖片特征組合項(xiàng)的第三圖片特征表hashmap。的結(jié)構(gòu)示意圖;圖7為本發(fā)明提供的垃圾圖片識(shí)別方法第三實(shí)施例流程圖;圖8為本發(fā)明實(shí)施例提供的垃圾圖片識(shí)別裝置示意圖。
      具體實(shí)施例方式本發(fā)明實(shí)施例提供了一種垃圾圖片識(shí)別方法和裝置,可以快速、準(zhǔn)確地識(shí)別出垃圾圖片。為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明中的技術(shù)方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。參見(jiàn)圖1,為本發(fā)明提供的垃圾圖片識(shí)別方法第一實(shí)施例流程圖。所述方法包括SIOI,獲取待識(shí)別圖片的圖片特征。在本發(fā)明第一具體實(shí)施例中,步驟SlOl通過(guò)以下步驟實(shí)現(xiàn)S101A,對(duì)待識(shí)別圖片進(jìn)行圖像布局分析,獲取文本元素區(qū)域輪廓。S101B,對(duì)待識(shí)別圖片進(jìn)行膨脹腐蝕處理,獲取文本元素的連續(xù)區(qū)域。S101C,對(duì)待識(shí)別圖片通過(guò)特定的濾波器進(jìn)行濾波處理,獲取所述文本元素的連續(xù)區(qū)域中的文本形狀特征。
      S101D,利用所述文本形狀特征對(duì)待識(shí)別圖片中的文字進(jìn)行識(shí)別,獲取文本形狀特征碼,將所述文本形狀特征碼作為待識(shí)別圖片的圖片特征。具體的,獲取文本形狀特征碼,其中對(duì)于英文和數(shù)字,因其總體包含的字符形狀個(gè)數(shù)有限,由文本字符形狀轉(zhuǎn)換成具體字符的開(kāi)銷很小,這類字符的文本形狀特征碼為具體的字符本身,對(duì)于中文及其它字符,特別是中文,對(duì)單個(gè)中文通過(guò)水平或者垂直方向上的形狀拆分處理,分成一個(gè)或者多個(gè)小的子形狀,對(duì)各個(gè)子形 狀識(shí)別出相關(guān)的文本形狀特征碼,最終組成該中文總的文本形狀特征碼,因子形狀識(shí)別為文本形狀特征碼的過(guò)程在很小的字符形狀集中進(jìn)行,因此對(duì)中文的文本形狀特征碼提取過(guò)程明顯加快,且能比較準(zhǔn)確地提取到文本字符形狀特征。S102,對(duì)所述圖片特征進(jìn)行切分,生成圖片特征序列。待識(shí)別圖片可以包括多個(gè)圖片特征,這多個(gè)圖片特征未切分前是連在一起的,通過(guò)切分把這些連續(xù)的圖片特征,切分成一個(gè)個(gè)小的圖片特征,然后生成圖片特征序列。S103,將所述待識(shí)別圖片的圖片特征序列中連續(xù)兩個(gè)圖片特征作為特征組合,將所述特征組合與預(yù)存的垃圾圖片特征庫(kù)中的特征組合倒排索引進(jìn)行比對(duì),獲取包含所述圖片特征組合的垃圾圖片集合。具體的,可以預(yù)先建立一個(gè)垃圾圖片庫(kù),里面存放有所有的垃圾圖片。獲取垃圾圖片庫(kù)中的垃圾圖片的圖片特征,建立垃圾圖片特征庫(kù)和倒排索引。所述垃圾圖片特征庫(kù)包含有垃圾圖片庫(kù)中的所有垃圾圖片的圖片特征。其中,倒排索引由哈希表組成,所述哈希表以連續(xù)兩個(gè)圖片特征組成的特征組合為鍵、以包含所述特征組合的垃圾圖片的圖片標(biāo)識(shí)以及特征組合在圖片特征序列中的出現(xiàn)次數(shù)兩項(xiàng)信息的鏈表為值;其中,所述圖片標(biāo)識(shí)為垃圾圖片在垃圾圖片特征庫(kù)的唯一標(biāo)識(shí)。在這一步驟中,將待識(shí)別圖片的圖片特征序列中連續(xù)兩個(gè)圖片特征組合在一起形成特征組合,將特征組合與垃圾圖片特征庫(kù)中的特征組合倒排索引進(jìn)行比對(duì),當(dāng)比對(duì)結(jié)果表明垃圾圖片特征庫(kù)中存在與所述待識(shí)別圖片的特征組合相同的特征組合時(shí),獲取與所述特征組合對(duì)應(yīng)的垃圾圖片集合。其中,垃圾圖片集合可以包含一張圖片,也可以包含多張圖片。S104,計(jì)算待識(shí)別圖片與所述垃圾圖片集合中各垃圾圖片的相似度值,當(dāng)有任意一張垃圾圖片與待識(shí)別圖片的相似度值大于設(shè)定閾值時(shí),則判斷所述待識(shí)別圖片為垃圾圖片。本發(fā)明第一實(shí)施例提供的方法對(duì)圖片特征組合創(chuàng)建了倒排索引及采用了基于圖片特征組合的方式進(jìn)行比對(duì),一方面可以提高垃圾圖片的識(shí)別效率;另一方面,由于提取了圖片的文本形狀特征碼作為圖片特征及采用了基于特征組合的比對(duì)方式,因此對(duì)垃圾圖片變化的適應(yīng)性強(qiáng),提高了識(shí)別的效果和準(zhǔn)確率。參見(jiàn)圖2,為本發(fā)明提供的垃圾圖片識(shí)別方法第二實(shí)施例流程圖。S201,建立垃圾圖片特征庫(kù)。在本發(fā)明第二實(shí)施例中,預(yù)先建立了垃圾圖片特征庫(kù),所述垃圾圖片特征庫(kù)包含有垃圾圖片庫(kù)中的所有垃圾圖片的圖片特征。首先提取垃圾圖片庫(kù)中的所有垃圾圖片的圖片特征。提取垃圾圖片的圖片特征的步驟與提取待識(shí)別圖片的圖片特征的步驟相同。下面以提取垃圾圖片的文本形狀特征為例進(jìn)行說(shuō)明。S201A,對(duì)垃圾圖片進(jìn)行圖像布局分析,獲取文本元素區(qū)域輪廓。S201B,對(duì)垃圾圖片進(jìn)行膨脹腐蝕處理,獲取文本元素的連續(xù)區(qū)域。S201C,對(duì)垃圾圖片通過(guò)特定的濾波器進(jìn)行濾波處理,獲取所述文本元素的連續(xù)區(qū)域中的文本形狀特征。S201D,利用所述文本形狀特征對(duì)垃圾圖片中的文字進(jìn)行識(shí)別,獲取文本形狀特征碼,將所述文本形狀特征碼作為垃圾圖片的圖片特征。具體的,獲取文本形狀特征碼,其中對(duì)于英文和數(shù)字,因其總體包含的字符形狀個(gè)數(shù)有限,由文本字符形狀轉(zhuǎn)換成具體字符的開(kāi)銷很小,這類字符的文本形狀特征碼為具體的字符本身,對(duì)于中文及其它字符,特別是中文,對(duì)單個(gè)中文通過(guò)水平或者垂直方向上的形狀拆分處理,分成一個(gè)或者多個(gè)小的子形狀,對(duì)各個(gè)子形狀識(shí)別出相關(guān)的文本形狀特征碼, 最終組成該中文總的文本形狀特征碼,因子形狀識(shí)別為文本形狀特征碼的過(guò)程在很小的字符形狀集中進(jìn)行,因此對(duì)中文的文本形狀特征碼提取過(guò)程明顯加快,且能比較準(zhǔn)確地提取到文本字符形狀特征。其次,將所述垃圾圖片的圖片特征保存在垃圾圖片特征庫(kù)中。為每一張垃圾圖片賦予一個(gè)唯一的圖片標(biāo)識(shí),用于唯一標(biāo)識(shí)垃圾圖片。S202,將垃圾圖片的圖片特征讀出后,生成圖片特征序列。具體的,從垃圾圖片特征庫(kù)中把各行圖片特征讀出然后放入隊(duì)列中,隊(duì)列中的每個(gè)元素除包含一張圖片的特征外,還保存了標(biāo)識(shí)圖片特征唯一信息的圖片特征庫(kù)ID值。將隊(duì)列中個(gè)各條圖片特征讀出,對(duì)它們進(jìn)行圖片特征切分,生成相應(yīng)的圖片特征序列。例如,垃圾圖片特征庫(kù)中有一條圖片特征,為圖片A的圖片特征。其中,圖片A的圖片特征為“feature^ feature2、feature/’,它唯一的圖片特征庫(kù)ID值為I,表示圖片A是垃圾圖片。則經(jīng)過(guò)特征切分模塊分解以后得到圖片A的圖片特征序列為〈“feature/’,“feature/’,“feature/,>。S203,建立第一圖片特征表。其中,第一圖片特征表具體為垃圾圖片特征表,我們將其稱為hashmapa。所述第一圖片特征表以垃圾圖片的圖片特征庫(kù)ID為鍵,包含的特征組合項(xiàng)總計(jì)數(shù)為值的哈希表hashmap,標(biāo)記為hashmapa。以圖3所示進(jìn)行說(shuō)明,例如圖片A對(duì)應(yīng)的圖片特征序列< “feature/’,“feature/’,“feature/’〉進(jìn)行上述操作,圖片A在垃圾圖片特征庫(kù)中的圖片標(biāo)識(shí)為I,其包含的特征組合項(xiàng)計(jì)數(shù)為2,故生成的hashmapa如圖3所示。S204,建立倒排索引。對(duì)步驟S202生成的每個(gè)圖片特征序列,創(chuàng)建按連續(xù)兩個(gè)圖片特征組合在一起的“圖片特征圖片特征”為鍵,包含該兩個(gè)圖片特征組合的圖片特征庫(kù)ID和該圖片特征組合在圖片特征序列中的出現(xiàn)次數(shù)兩項(xiàng)信息的鏈表為值的倒排索引inverted index。參見(jiàn)圖
      4,為本發(fā)明實(shí)施例倒排索引示意圖。仍以垃圾圖片A為例,其具有“feature” feature2、feature3”圖片特征,圖片特征序列為〈“feature/’, “feature/’, “feature/’>。從圖片特征序列中選取連續(xù)兩個(gè)特征作為特征組合,例如特征組合Ufeature1 : feature/’,其對(duì)應(yīng)的圖片在圖片特征庫(kù)的ID為I,特征組合Ufeature1 feature/’在圖片A中的出現(xiàn)次數(shù)為1,因此其在倒排索引中對(duì)應(yīng)的值就為I : I ;特征組合“feature2 feature/,其對(duì)應(yīng)的圖片在圖片特征庫(kù)的ID為I,特征組合“feature2 feature/’在圖片A中的出現(xiàn)次數(shù)為1,因此其在倒排索引中對(duì)應(yīng)的值也為I : I。S205,獲取待識(shí)別圖片的圖片特征。假設(shè)待識(shí)別的圖片為圖片B,按照與提取垃圾圖片的圖片特征相同的方法獲取待識(shí)別圖片的圖片特征,得到特征“feature^ feature2、feature/’。S206,對(duì)所述圖片特征進(jìn)行切分,生成圖片特征序列。生成圖片特征序列〈“feature/’,“feature/’, “feature/,>。S207,獲取圖片特征序列中連續(xù)兩個(gè)圖片特征作為特征組合,創(chuàng)建第二圖片特征表。具體的,第二圖片特征表為待識(shí)別圖片特征表,我們以哈希表舉例進(jìn)行說(shuō)明。創(chuàng)建 按連續(xù)兩個(gè)圖片特征組合在一起的“圖片特征圖片特征”為鍵,以該兩個(gè)圖片特征組合在待識(shí)別圖片的圖片特征序列中出現(xiàn)次數(shù)為值的哈希表hashmap,標(biāo)記為hashmapb。例如待識(shí)別的圖片B的圖片特征為“feature^ feature2、feature/’,則經(jīng)過(guò)特征切分模塊分解以后得到圖片B的圖片特征序列為〈“featUrei”,“featUre2”,“feature/’〉,那么最后建立的hashmapb如圖5所不。S208,獲取圖片特征序列中任意連續(xù)兩個(gè)圖片特征作為當(dāng)前特征組合。具體的,獲取第二圖片特征表hashmapb中任意一項(xiàng)的鍵即連續(xù)兩個(gè)圖片特征組合在一起的“圖片特征圖片特征”作為當(dāng)前特征組合。S209,將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對(duì)。具體的,將當(dāng)前特征組合到步驟S204生成的倒排索引inverted index中快速查找是否存在該特征組合。S210,判斷所述倒排索引中是否存在所述特征組合;如果不存在,進(jìn)入S212 ;如果存在,進(jìn)入S211。S211,如果存在,獲取與所述特征組合對(duì)應(yīng)的所有圖片標(biāo)識(shí),建立第三圖片特征表。若存在,貝U從倒排索引inverted index中取出包含該圖片特征組合的垃圾圖片特征庫(kù)ID和該圖片特征組合在垃圾圖片特征序列中的出現(xiàn)次數(shù)兩項(xiàng)信息的鏈表,對(duì)鏈表中每一個(gè)圖片特征庫(kù)ID,比較該特征組合在垃圾圖片中出現(xiàn)次數(shù)對(duì)應(yīng)的計(jì)數(shù)和該特征組合在步驟S207生成的hashmapb中的值,取二者中最小值z(mì),把特征庫(kù)ID和最小值z(mì)插入到一個(gè)新的哈希表hashmap中,標(biāo)記為hashmap。,若特征庫(kù)ID已經(jīng)在新的hashmap。中存在,則把最小值z(mì)累加到特征庫(kù)ID對(duì)應(yīng)的計(jì)數(shù)上。這個(gè)新的hashmap。的鍵為垃圾圖片特征庫(kù)ID,值為待檢測(cè)圖片的圖片特征序列與垃圾圖片特征庫(kù)ID包含的圖片特征序列中共同出現(xiàn)的圖片特征組合項(xiàng)計(jì)數(shù)。S212,判斷待識(shí)別圖片特征序列中是否存在未處理特征組合。如果存在,進(jìn)入步驟S213,如果不存在,進(jìn)入S214。具體的,就是判斷第二圖片特征表hashmapb中是否存在未處理的項(xiàng),如果存在,進(jìn)入步驟S213,如果不存在,進(jìn)入S214。S213,獲取待識(shí)別圖片的圖片特征序列中未處理的連續(xù)兩個(gè)圖片特征,將其作為當(dāng)前特征組合,進(jìn)入S209 ;直到迭代處理完待識(shí)別圖片的圖片特征序列中的所有特征組合。具體的,就是獲取第二圖片特征表hashmap,中未處理的項(xiàng),將未處理項(xiàng)的鍵即連續(xù)兩個(gè)圖片特征組合在一起的“圖片特征圖片特征”作為當(dāng)前特征組合,進(jìn)入S209 ;直到迭代處理完第二圖片特征表hashmapb中的所有項(xiàng)。處理完第二圖片特征表hashmapb,最后生成的hashmap。如圖6所不。S214,根據(jù)第三圖片特征表,獲取待識(shí)別圖片與各垃圾圖片的相似度。分別獲取待識(shí)別圖片與垃圾圖片集合中的各垃圾圖片的相似度值。其中,待識(shí)別圖片與所述垃圾圖片集合中的其中一張垃圾圖片的相似度值通過(guò)以下方法得到A,獲取待識(shí)別圖片與所述垃圾圖片具有的共同特征組合的個(gè)數(shù)。B,獲取待識(shí)別圖片與所述垃圾圖片的特征組合總數(shù)與共同特征組合數(shù)之間的差值。C,將所述共同特征組合數(shù)與所述差值的比值作為待識(shí)別圖片與所述垃圾圖片這兩張圖片的相似度值。下面以一個(gè)具體的實(shí)例進(jìn)行說(shuō)明。掃描步驟S211生成的hashmap。,計(jì)算圖片之間的相似度,設(shè)兩張圖片 ACfeature1, . . . , feature^ . . . , featurem> 和 EKfeature1,...,feature^... , featuren>,其中Featurei為圖片包含的特征項(xiàng),A為垃圾圖片特征庫(kù)中與待檢測(cè)的圖片有共同特征組合項(xiàng)的任意一張圖片,B為待檢測(cè)的圖片,則定義A、B之間的相似度sim(A,B)為公式(I)所示sim(A, B) = (A~B)/(A+B)(I)其中~表示集合交集,+表示集合并集,(A~B)的值也就是A和B在生成的hashmap。中共同出現(xiàn)的次數(shù),也就是圖片A和圖片B共同具有的特征組合的數(shù)目,可以從步驟S211生成的hashmap。中取得,A+B為A包含的特征組合項(xiàng)的個(gè)數(shù)加上B包含的特征組合項(xiàng)個(gè)數(shù)總和減去A和B在生成的hashmap。中共同出現(xiàn)的次數(shù),A包含的特征組合項(xiàng)的個(gè)數(shù)可以從步驟S203生成的hashmapa中獲得、B包含的特征組合項(xiàng)的個(gè)數(shù)可以從步驟S207生成的hashmapb中獲得。例如,對(duì)于垃圾圖片特征庫(kù)中圖片A(ID為I)和待檢測(cè)的圖片B,計(jì)算它們的相似度sim(A,B),根據(jù)sim(A,B)的定義,需要計(jì)算(A~B)和A+B值,其中(A~B)即圖片A、B中在hashmap。中共同出現(xiàn)的次數(shù),圖片A和B共同出現(xiàn)的特征組合項(xiàng)為(^feature1 : feature/’),從步驟 S211 生成的 hashmap。中可以得到(A'B)的值為 I, A+B為A包含的特征組合項(xiàng)的個(gè)數(shù)加上B包含的特征組合項(xiàng)個(gè)數(shù)總和減去A和B在步驟S211生成的hashmap。中共同出現(xiàn)的次數(shù),A包含的特征組合項(xiàng)的個(gè)數(shù)可以從步驟S203生成的hashmapa中獲得其值為2、B包含的特征組合項(xiàng)的個(gè)數(shù)可以從步驟S207生成的hashmapb中獲得,其值為2,則A+B= (2+2) -1=3,而得到圖片A和圖片B的相似度sim(A, B) = (A~B) /(A+B)=1/3 οS215,當(dāng)有任意一條相似度值大于設(shè)定閾值時(shí),則判斷所述待識(shí)別圖片為垃圾圖片。在計(jì)算完A、B之間的相似度sim(A,B)后,如果大于設(shè)定的相似度閾值,認(rèn)為待檢測(cè)的圖片B是垃圾圖片,否則迭代取得hashmap。中下一個(gè)元素,直到取完hashmap。中的所有元素。
      以上面的實(shí)例進(jìn)行說(shuō)明,通過(guò)計(jì)算得到圖片A和圖片B的相似度為1/3。假設(shè)用戶設(shè)定的相似度閾值為1/4,則1/4〈1/3,認(rèn)為圖片B與圖片A相似,是垃圾圖片,假設(shè)用戶設(shè)定的相似度閾值為1/2,則1/2>1/3,認(rèn)為圖片B與圖片A相似度較低,不是垃圾圖片。在本發(fā)明第二實(shí)施例中,由于為垃圾圖片特征庫(kù)建立了倒排索引,提高了查找比對(duì)的速度,在垃圾圖片特征庫(kù)規(guī)模較大的情況下,也能夠給保持非??斓淖R(shí)別速度,因此可以快速、準(zhǔn)確地識(shí)別出垃圾圖片。參見(jiàn)圖7,為本發(fā)明提供的垃圾圖片識(shí)別方法第三實(shí)施例流程圖。S701,建立垃圾圖片特征庫(kù)。S702,將垃圾圖片的圖片特征讀出后,生成圖片特征序列。S703,建立第一圖片特征表。 其中,第一圖片特征表具體為垃圾圖片特征表,我們將其稱為hashmapa。所述第一圖片特征表以垃圾圖片的圖片特征庫(kù)ID為鍵,包含的特征組合項(xiàng)總計(jì)數(shù)為值的哈希表hashmap,標(biāo)記為 hashmapa。S704,建立倒排索引。對(duì)步驟S702生成的每個(gè)圖片特征序列,倉(cāng)Il建按連續(xù)兩個(gè)圖片特征組合在一起的“圖片特征圖片特征”為鍵,包含該兩個(gè)圖片特征組合的圖片特征庫(kù)ID和該圖片特征組合在圖片特征序列中的出現(xiàn)次數(shù)兩項(xiàng)信息的鏈表為值的倒排索引inverted index。S705,獲取待識(shí)別圖片的圖片特征。S706,對(duì)所述圖片特征進(jìn)行切分,生成圖片特征序列。S707,創(chuàng)建第二圖片特征表。S708,獲取圖片特征序列中任意連續(xù)兩個(gè)圖片特征作為當(dāng)前特征組合。S709,將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對(duì)。S710,判斷所述倒排索引中是否存在所述特征組合;如果不存在,進(jìn)入S715 ;如果存在,進(jìn)入S711。S711,獲取與所述特征組合對(duì)應(yīng)的所有圖片標(biāo)識(shí)。S712,計(jì)算待識(shí)別圖片與所述各圖片標(biāo)識(shí)對(duì)應(yīng)的垃圾圖片的相似度。S713,判斷是否有任意一條相似度值大于設(shè)定閾值。如果是,進(jìn)入S714,如果判斷沒(méi)有一條相似度值大于設(shè)定閾值,進(jìn)入S715。S714,當(dāng)判斷有任意一條相似度大于設(shè)定閾值時(shí),判斷所述待識(shí)別圖片屬于垃圾圖片。S715,獲取待識(shí)別圖片的圖片特征序列未處理的連續(xù)兩個(gè)圖片特征,將其作為當(dāng)前特征組合,進(jìn)入S709。在本發(fā)明第三實(shí)施例中,與第二實(shí)施例不同的是,是先通過(guò)待識(shí)別圖片的一組特征組合與垃圾圖片特征庫(kù)中的特征組合倒排索引進(jìn)行比對(duì),如果經(jīng)過(guò)比對(duì)存在包含所述特征組合的垃圾圖片,則通過(guò)計(jì)算待識(shí)別圖片與各垃圾圖片的相似度來(lái)判斷待識(shí)別圖片是否為垃圾圖片。如果經(jīng)過(guò)判斷,相似度都小于設(shè)定閾值,則重新獲取待識(shí)別圖片未處理的一組特征組合,再到垃圾圖片特征庫(kù)中的特征組合倒排索引中進(jìn)行查找,進(jìn)行迭代處理,直到有一條相似度值大于設(shè)定閾值,停止迭代處理,則判斷待識(shí)別圖片屬于垃圾圖片。這種方法在精度要求不高的情況下,可以達(dá)到較快的識(shí)別速度,提高了處理效率。
      參見(jiàn)圖8,為本發(fā)明垃圾圖片識(shí)別裝置示意圖。一種垃圾圖片識(shí)別裝置,所述裝置包括圖片特征獲取單元801,用于獲取待識(shí)別圖片的圖片特征。特征序列生成單元802,用于對(duì)所述圖片特征進(jìn)行切分,生成圖片特征序列。特征比對(duì)單元803,用于將所述待識(shí)別圖片的圖片特征序列中連續(xù)兩個(gè)圖片特征作為特征組合,將所述特征組合與預(yù)存的垃圾圖片特征庫(kù)中的特征組合倒排索引進(jìn)行比對(duì),獲取包含所述圖片特征組合的垃圾圖片集合;所述垃圾圖片特征庫(kù)包含有垃圾圖片庫(kù)中的所有垃圾圖片的圖片特征。第一判斷單元804,用于分別計(jì)算待識(shí)別圖片與所述垃圾圖片集合中各垃圾圖片的相似度值,當(dāng)有任意一張垃圾圖片與待識(shí)別圖片的相似度值大于設(shè)定閾值時(shí),則判斷所 述待識(shí)別圖片為垃圾圖片。優(yōu)選地,所述裝置還包括預(yù)處理單元,用于對(duì)待識(shí)別圖片進(jìn)行預(yù)處理,將所述待識(shí)別圖片進(jìn)行灰度化以及二值化處理,并將其轉(zhuǎn)換為預(yù)設(shè)的格式。優(yōu)選地,所述圖片特征獲取單元包括布局分析單元,用于對(duì)待識(shí)別圖片進(jìn)行圖像布局分析,獲取文本元素區(qū)域輪廓;膨脹腐蝕處理單元,用于對(duì)待識(shí)別圖片進(jìn)行膨脹腐蝕處理,獲取文本元素的連續(xù)區(qū)域;濾波處理單元,用于對(duì)待識(shí)別圖片進(jìn)行濾波處理,獲取所述文本元素的連續(xù)區(qū)域中的文本形狀特征;識(shí)別單元,用于利用所述文本形狀特征對(duì)待識(shí)別圖片中的文字進(jìn)行識(shí)別,獲取文本形狀特征碼,將所述文本形狀特征碼作為待識(shí)別圖片的圖片特征。優(yōu)選地,所述裝置還包括垃圾圖片特征庫(kù)建立單元,用于獲取垃圾圖片庫(kù)中的所有圖片的圖片特征,建立垃圾圖片特征庫(kù)。優(yōu)選地,所述裝置還包括索引建立單元,用于為所述垃圾圖片特征庫(kù)建立倒排索引,所述倒排索引由哈希表組成,所述哈希表以連續(xù)兩個(gè)圖片特征組成的特征組合為鍵、以包含所述特征組合的垃圾圖片的圖片標(biāo)識(shí)以及特征組合在圖片特征序列中的出現(xiàn)次數(shù)兩項(xiàng)信息的鏈表為值;其中,所述圖片標(biāo)識(shí)為垃圾圖片在垃圾圖片特征庫(kù)的唯一標(biāo)識(shí)。優(yōu)選地,所述特征比對(duì)單元包括第一獲取單元,用于獲取圖片特征序列中任意連續(xù)兩個(gè)圖片特征作為當(dāng)前特征組合;第一查找單元將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對(duì);第二判斷單元,用于判斷所述倒排索引中是否存在所述特征組合;如果所述判斷結(jié)果表明不存在所述特征組合,進(jìn)入第三獲取單元;如果所述判斷結(jié)果表明存在所述特征組合,進(jìn)入第二獲取單元;第二獲取單元,用于獲取與所述特征組合對(duì)應(yīng)的所有垃圾圖片標(biāo)識(shí),進(jìn)入第三獲取單元;第三獲取單元,用于獲取待識(shí)別圖片的圖片特征序列中未處理的連續(xù)兩個(gè)圖片特征,將其作為當(dāng)前特征組合,進(jìn)入第一查找單元,直到處理完待識(shí)別圖片的圖片特征序列中的所有特征組合。確定單元,用于根據(jù)獲取的所有垃圾圖片的標(biāo)識(shí)確定垃圾圖片集合。優(yōu)選地,所述特征比對(duì)單元包括第四獲取單元,用于獲取圖片特征序列中任意連續(xù)兩個(gè)圖片特征作為當(dāng)前特征組合;第二查找單元,用于將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對(duì);
      第三判斷單元,用于判斷所述倒排索引中是否存在所述特征組合;當(dāng)所述判斷結(jié)果表明存在所述特征組合,進(jìn)入第五獲取單元;當(dāng)所述判斷結(jié)果表明不存在所述特征組合,進(jìn)入第六獲取單元;第五獲取單元,用于獲取與所述特征組合對(duì)應(yīng)的所有垃圾圖片標(biāo)識(shí),進(jìn)入第一判斷單元;第六獲取單元,用于當(dāng)所述判斷結(jié)果表明不存在所述特征組合,獲取待識(shí)別圖片的圖片特征序列未處理的連續(xù)兩個(gè)圖片特征,將其作為當(dāng)前特征組合,進(jìn)入第二查找單元。優(yōu)選地,所述裝置還包括迭代處理單元,用于當(dāng)?shù)谝慌袛鄦卧呐袛嘟Y(jié)果表明所述相似度值都小于設(shè)定閾值時(shí),獲取待識(shí)別圖片的圖片特征序列中未處理的連續(xù)兩個(gè)圖片特征序列作為特征組合,進(jìn)行迭代處理,直到任意一條相似度值大于設(shè)定閾值,停止迭代處理。需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。本發(fā)明可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本發(fā)明,在這些分布式計(jì)算環(huán)境中,由通過(guò)通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來(lái)執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。以上所述僅是本發(fā)明的具體實(shí)施方式
      ,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
      權(quán)利要求
      1.一種垃圾圖片識(shí)別方法,其特征在于,所述方法包括 獲取待識(shí)別圖片的圖片特征; 對(duì)所述圖片特征進(jìn)行切分,生成圖片特征序列;將所述待識(shí)別圖片的圖片特征序列中連續(xù)兩個(gè)圖片特征作為特征組合,將所述特征組合與預(yù)存的垃圾圖片特征庫(kù)中的特征組合倒排索引進(jìn)行比對(duì),獲取包含所述圖片特征組合的垃圾圖片集合;所述垃圾圖片特征庫(kù)包含有垃圾圖片庫(kù)中的所有垃圾圖片的圖片特征;分別計(jì)算待識(shí)別圖片與所述垃圾圖片集合中各垃圾圖片的相似度值,當(dāng)有任意一張垃圾圖片與待識(shí)別圖片的相似度值大于設(shè)定閾值時(shí),則判斷所述待識(shí)別圖片為垃圾圖片。
      2.根據(jù)權(quán)利要求I所述的方法,其特征在于,在獲取待識(shí)別圖片的圖片特征之前,所述方法還包括 對(duì)待識(shí)別圖片進(jìn)行預(yù)處理,將所述待識(shí)別圖片進(jìn)行灰度化以及二值化處理,并將其轉(zhuǎn)換為預(yù)設(shè)的格式。
      3.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述獲取待識(shí)別圖片的圖片特征包括 對(duì)待識(shí)別圖片進(jìn)行圖像布局分析,獲取文本元素區(qū)域輪廓; 對(duì)待識(shí)別圖片進(jìn)行膨脹腐蝕處理,獲取文本元素的連續(xù)區(qū)域; 對(duì)待識(shí)別圖片進(jìn)行濾波處理,獲取所述文本元素的連續(xù)區(qū)域中的文本形狀特征;利用所述文本形狀特征對(duì)待識(shí)別圖片中的文字進(jìn)行識(shí)別,獲取文本形狀特征碼,將所述文本形狀特征碼作為待識(shí)別圖片的圖片特征。
      4.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述方法還包括 獲取垃圾圖片庫(kù)中的所有圖片的圖片特征,建立垃圾圖片特征庫(kù)。
      5.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述方法還包括 為所述垃圾圖片特征庫(kù)建立倒排索引,所述倒排索引由哈希表組成,所述哈希表以連續(xù)兩個(gè)圖片特征組成的特征組合為鍵、以包含所述特征組合的垃圾圖片的圖片標(biāo)識(shí)以及特征組合在圖片特征序列中的出現(xiàn)次數(shù)兩項(xiàng)信息的鏈表為值;其中,所述圖片標(biāo)識(shí)為垃圾圖片在垃圾圖片特征庫(kù)的唯一標(biāo)識(shí)。
      6.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述將所述待識(shí)別圖片的圖片特征序列中連續(xù)兩個(gè)圖片特征作為特征組合,將所述特征組合與預(yù)存在垃圾圖片特征庫(kù)中的特征組合倒排索引進(jìn)行比對(duì),獲取包含所述圖片特征組合的垃圾圖片集合包括 獲取圖片特征序列中任意連續(xù)兩個(gè)圖片特征作為當(dāng)前特征組合; 將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對(duì); 判斷所述倒排索引中是否存在所述特征組合;如果不存在,進(jìn)入獲取待識(shí)別圖片的圖片特征序列中未處理的連續(xù)兩個(gè)圖片特征的步驟; 如果存在,獲取與所述特征組合對(duì)應(yīng)的所有垃圾圖片標(biāo)識(shí); 獲取待識(shí)別圖片的圖片特征序列中未處理的連續(xù)兩個(gè)圖片特征,將其作為當(dāng)前特征組合,進(jìn)入將所述特征組合與倒排索引中的特征組合進(jìn)行比對(duì)的步驟,直到處理完待識(shí)別圖片的圖片特征序列中的所有特征組合; 根據(jù)獲取的所有垃圾圖片的圖片標(biāo)識(shí)確定垃圾圖片集合。
      7.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述將所述待識(shí)別圖片的圖片特征序列中連續(xù)兩個(gè)圖片特征作為特征組合,將所述特征組合與預(yù)存在垃圾圖片特征庫(kù)中的特征組合倒排索引進(jìn)行比對(duì),獲取包含所述圖片特征組合的垃圾圖片集合包括 獲取圖片特征序列中任意連續(xù)兩個(gè)圖片特征作為當(dāng)前特征組合,將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行比對(duì),判斷所述倒排索引中是否存在所述特征組合; 如果存在,獲取與所述特征組合對(duì)應(yīng)的所有垃圾圖片標(biāo)識(shí),確定垃圾圖片集合,并進(jìn)入計(jì)算待識(shí)別圖片與所述垃圾圖片集合中的各垃圾圖片的相似度值的步驟; 如果不存在,獲取待識(shí)別圖片的圖片特征序列未處理的連續(xù)兩個(gè)圖片特征,將其作為當(dāng)前特征組合,進(jìn)入將所述當(dāng)前特征組合與倒排索引中的特征組合進(jìn)行比對(duì)的步驟。
      8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述方法還包括 當(dāng)判斷所述相似度值都小于設(shè)定閾值時(shí),獲取待識(shí)別圖片的圖片特征序列中未處理的連續(xù)兩個(gè)圖片特征序列作為特征組合,進(jìn)行迭代處理,直到任意一條相似度值大于設(shè)定閾值,停止迭代處理。
      9.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述待識(shí)別圖片與所述垃圾圖片集合中的其中一張垃圾圖片的相似度值通過(guò)以下方法得到 獲取待識(shí)別圖片與所述垃圾圖片具有的共同特征組合的個(gè)數(shù); 獲取待識(shí)別圖片與所述垃圾圖片的特征組合總數(shù)與共同特征組合數(shù)之間的差值; 將所述共同特征組合數(shù)與所述差值的比值作為待識(shí)別圖片與所述垃圾圖片的相似度值。
      10.一種垃圾圖片識(shí)別裝置,其特征在于,所述裝置包括 圖片特征獲取單元,用于獲取待識(shí)別圖片的圖片特征; 特征序列生成單元,用于對(duì)所述圖片特征進(jìn)行切分,生成圖片特征序列; 特征比對(duì)單元,用于將所述待識(shí)別圖片的圖片特征序列中連續(xù)兩個(gè)圖片特征作為特征組合,將所述特征組合與預(yù)存的垃圾圖片特征庫(kù)中的特征組合倒排索引進(jìn)行比對(duì),獲取包含所述圖片特征組合的垃圾圖片集合;所述垃圾圖片特征庫(kù)包含有垃圾圖片庫(kù)中的所有垃圾圖片的圖片特征; 第一判斷單元,用于分別計(jì)算待識(shí)別圖片與所述垃圾圖片集合中各垃圾圖片的相似度值,當(dāng)有任意一張垃圾圖片與待識(shí)別圖片的相似度值大于設(shè)定閾值時(shí),則判斷所述待識(shí)別圖片為垃圾圖片。
      11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述裝置還包括 預(yù)處理單元,用于對(duì)待識(shí)別圖片進(jìn)行預(yù)處理,將所述待識(shí)別圖片進(jìn)行灰度化以及二值化處理,并將其轉(zhuǎn)換為預(yù)設(shè)的格式。
      12.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述圖片特征獲取單元包括 布局分析單元,用于對(duì)待識(shí)別圖片進(jìn)行圖像布局分析,獲取文本元素區(qū)域輪廓; 膨脹腐蝕處理單元,用于對(duì)待識(shí)別圖片進(jìn)行膨脹腐蝕處理,獲取文本元素的連續(xù)區(qū)域; 濾波處理單元,用于對(duì)待識(shí)別圖片進(jìn)行濾波處理,獲取所述文本元素的連續(xù)區(qū)域中的文本形狀特征; 識(shí)別單元,用于利用所述文本形狀特征對(duì)待識(shí)別圖片中的文字進(jìn)行識(shí)別,獲取文本形狀特征碼,將所述文本形狀特征碼作為待識(shí)別圖片的圖片特征。
      13.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述裝置還包括垃圾圖片特征庫(kù)建立單元,用于獲取垃圾圖片庫(kù)中的所有圖片的圖片特征,建立垃圾圖片特征庫(kù)。
      14.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述裝置還包括 索引建立單元,用于為所述垃圾圖片特征庫(kù)建立倒排索引,所述倒排索引由哈希表組成,所述哈希表以連續(xù)兩個(gè)圖片特征組成的特征組合為鍵、以包含所述特征組合的垃圾圖片的圖片標(biāo)識(shí)以及特征組合在圖片特征序列中的出現(xiàn)次數(shù)兩項(xiàng)信息的鏈表為值;其中,所述圖片標(biāo)識(shí)為垃圾圖片在垃圾圖片特征庫(kù)的唯一標(biāo)識(shí)。
      15.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述特征比對(duì)單元包括第一獲取單元,用于獲取圖片特征序列中任意連續(xù)兩個(gè)圖片特征作為當(dāng)前特征組合;第一查找單元將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對(duì);第二判斷單元,用于判斷所述倒排索引中是否存在所述特征組合;如果所述判斷結(jié)果表明不存在所述特征組合,進(jìn)入第三獲取單元;如果所述判斷結(jié)果表明存在所述特征組合,進(jìn)入第二獲取單元; 第二獲取單元,用于獲取與所述特征組合對(duì)應(yīng)的所有垃圾圖片標(biāo)識(shí),進(jìn)入第三獲取單元; 第三獲取單元,用于獲取待識(shí)別圖片的圖片特征序列中未處理的連續(xù)兩個(gè)圖片特征,將其作為當(dāng)前特征組合,進(jìn)入第一查找單元,直到處理完待識(shí)別圖片的圖片特征序列中的所有特征組合; 確定單元,用于根據(jù)獲取的所有垃圾圖片的標(biāo)識(shí)確定垃圾圖片集合。
      16.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述特征比對(duì)單元包括 第四獲取單元,用于獲取圖片特征序列中任意連續(xù)兩個(gè)圖片特征作為當(dāng)前特征組合; 第二查找單元,用于將所述當(dāng)前特征組合與所述倒排索引中的特征組合進(jìn)行查找比對(duì); 第三判斷單元,用于判斷所述倒排索引中是否存在所述特征組合;當(dāng)所述判斷結(jié)果表明存在所述特征組合,進(jìn)入第五獲取單元;當(dāng)所述判斷結(jié)果表明不存在所述特征組合,進(jìn)入第六獲取單元; 第五獲取單元,用于獲取與所述特征組合對(duì)應(yīng)的所有垃圾圖片標(biāo)識(shí),進(jìn)入第一判斷單元; 第六獲取單元,用于當(dāng)所述判斷結(jié)果表明不存在所述特征組合,獲取待識(shí)別圖片的圖片特征序列未處理的連續(xù)兩個(gè)圖片特征,將其作為當(dāng)前特征組合,進(jìn)入第二查找單元。
      17.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述裝置還包括 迭代處理單元,用于當(dāng)?shù)谝慌袛鄦卧呐袛嘟Y(jié)果表明所述相似度值都小于設(shè)定閾值時(shí),獲取待識(shí)別圖片的圖片特征序列中未處理的連續(xù)兩個(gè)圖片特征序列作為特征組合,進(jìn)行迭代處理,直到任意一條相似度值大于設(shè)定閾值,停止迭代處理。
      全文摘要
      本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,特別是涉及一種垃圾圖片識(shí)別方法和裝置,所述方法包括:獲取待識(shí)別圖片的圖片特征;對(duì)所述圖片特征進(jìn)行切分,生成圖片特征序列;將所述圖片特征序列中連續(xù)兩個(gè)圖片特征作為特征組合,將所述特征組合與預(yù)存的垃圾圖片特征庫(kù)中的特征組合倒排索引進(jìn)行快速比對(duì),獲取包含所述圖片特征組合的垃圾圖片集合;計(jì)算待識(shí)別圖片與所述垃圾圖片集合中各垃圾圖片的相似度值,當(dāng)有任意一張垃圾圖片與待識(shí)別圖片的相似度值大于設(shè)定閾值時(shí),則判斷所述待識(shí)別圖片為垃圾圖片。本發(fā)明提供的方法一方面可以提高垃圾圖片的識(shí)別效率;另一方面,對(duì)垃圾圖片變化的適應(yīng)性強(qiáng),提高了識(shí)別效果。
      文檔編號(hào)G06K9/46GK102722709SQ201210169939
      公開(kāi)日2012年10月10日 申請(qǐng)日期2012年5月23日 優(yōu)先權(quán)日2012年5月23日
      發(fā)明者但紅衛(wèi), 周森, 朱經(jīng)緯, 潘照明 申請(qǐng)人:杭州朗和科技有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1