本發(fā)明涉及視頻幀識別識別領(lǐng)域,尤其涉及一種基于計(jì)算機(jī)視覺識別處理短劇內(nèi)容的識別方法及系統(tǒng)。
背景技術(shù):
1、視頻剪輯是對視頻源進(jìn)行非線性編輯,加入的圖片、背景音樂、特效、場景等素材與視頻進(jìn)行重混合,或者對視頻源的部分內(nèi)容進(jìn)行提取,或者對視頻源進(jìn)行切割、合并,通過二次編碼,生成具有不同表現(xiàn)力的新視頻。
2、在視頻編輯(尤其是短劇視頻中也會有大量的文字獨(dú)白)過程中,就牽扯到了視頻畫面或者視頻幀中的文字提取。
3、視頻編輯的軟件系統(tǒng),在使用過程中常規(guī)操作是,打開軟件系統(tǒng)→點(diǎn)擊“開始創(chuàng)作”→導(dǎo)入視頻→點(diǎn)擊下方的“文字”→點(diǎn)擊“識別視頻幀中的背景畫面關(guān)鍵詞”;或者點(diǎn)擊“識別視頻幀中的字幕關(guān)鍵詞”,然后軟件系統(tǒng)根據(jù)用戶的需要設(shè)置一下,?點(diǎn)擊“開始匹配”,然后就可以自動識別字幕關(guān)鍵詞或者背景畫面中的關(guān)鍵詞。
4、字幕關(guān)鍵詞比如包括人名,語氣用詞等,背景畫面關(guān)鍵詞包括背景畫面中的廣告牌、招牌、手機(jī)編輯內(nèi)容畫面等文本類的關(guān)鍵詞;
5、研究發(fā)現(xiàn),由于漢字大約近十萬個(gè),日常所使用的漢字只有幾千字,是我們每天生活中必不可少的一部分,但是有些漢字基本上會特別的相似,如“田”、“甲”、“由”,這些文字非常的相近似,在進(jìn)行機(jī)器識別時(shí),會造成很大識別錯(cuò)誤。
6、而常用的基于視頻幀的圖像處理的語義識別模型等方式,雖然能夠文字進(jìn)行尋找到關(guān)聯(lián)詞進(jìn)行語義識別,但是也會存在識別錯(cuò)誤的情況,因此說現(xiàn)有技術(shù)中圖像上的顯示文本語義識別模型相對比單純的文本語義識別模型識別難度要大;尤其面對相近似的文字,尤其是圖像上手書書寫的相近似的文字(或稱文本)識別難度尤其更大;另外,因?yàn)闈h字的數(shù)量過于龐大,在進(jìn)行圖像中的近似基于計(jì)算機(jī)視覺識別處理短劇內(nèi)容的識別系統(tǒng)中,會造成關(guān)聯(lián)詞識別的速度緩慢,而影響檢測速度。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供基于計(jì)算機(jī)視覺識別處理短劇內(nèi)容的識別方法及系統(tǒng),解決了現(xiàn)有技術(shù)中指出的上述技術(shù)問題。
2、具體而言,本技術(shù)提出一種基于計(jì)算機(jī)視覺識別處理短劇內(nèi)容的識別方法,利用九宮格分割方式進(jìn)行對應(yīng)的區(qū)域以解決文字準(zhǔn)確性低和識別速度慢的問題。
3、本發(fā)明提供了一種基于計(jì)算機(jī)視覺識別處理短劇內(nèi)容的識別方法,包括以下操作步驟:
4、獲取待檢測文字圖像,對所述待檢測文字圖像進(jìn)行初步的掃描,獲取得到多個(gè)相似特征文字圖像;
5、對所述多個(gè)相似特征文字圖像與所述待檢測文字圖像進(jìn)行劃分網(wǎng)格圖像,得到多個(gè)相似特征網(wǎng)格圖像與待檢測網(wǎng)格圖像;對所述多個(gè)相似特征網(wǎng)格圖像與所述待檢測網(wǎng)格圖像進(jìn)行對應(yīng)網(wǎng)格的對比,得到待檢測文字圖像的目標(biāo)文字;
6、所述目標(biāo)文字確定為待檢測文字圖像的最終文字。
7、較佳地,對所述多個(gè)相似特征文字圖像與所述待檢測文字圖像進(jìn)行劃分網(wǎng)格圖像,得到多個(gè)相似特征網(wǎng)格圖像與待檢測網(wǎng)格圖像;對所述多個(gè)相似特征網(wǎng)格圖像與所述待檢測網(wǎng)格圖像進(jìn)行對應(yīng)網(wǎng)格的對比,得到待檢測文字圖像的目標(biāo)文字,具體操作步驟如下:
8、對待檢測文字圖像進(jìn)行劃分網(wǎng)格圖像:將所述待檢測網(wǎng)格圖像劃分為3*3的待檢測子區(qū)域,然后再對每個(gè)待檢測子區(qū)域進(jìn)行再次劃分網(wǎng)格得到若干個(gè)網(wǎng)格,將上述再次劃分后的當(dāng)前待檢測子區(qū)域記作為待檢測生長區(qū)域;
9、遍歷所述待檢測生長區(qū)域通過區(qū)域生長算法進(jìn)行文字線條的區(qū)域生長;計(jì)算待檢測生長區(qū)域內(nèi)每個(gè)網(wǎng)格的像素點(diǎn)的灰度值,計(jì)算待檢測生長區(qū)域兩個(gè)網(wǎng)格的像素點(diǎn)的最大灰度值與像素點(diǎn)的最小灰度值的灰度差值;
10、對所述每個(gè)網(wǎng)格的像素點(diǎn)的灰度值與所述灰度差值進(jìn)行對比,判斷找出最接近灰度差值的像素點(diǎn);預(yù)設(shè)對比閾值e,判斷最接近灰度差值的像素點(diǎn)的灰度值是否大于對比閾值e;若否,則初步判定該待檢測子區(qū)域內(nèi)無文字線條;若是,則判定該待檢測子區(qū)域存在文字線條,并對所述最接近灰度差值的像素點(diǎn)作為待檢測種子點(diǎn);
11、若所述最接近灰度差值的像素點(diǎn)存在多個(gè)時(shí),同時(shí)在檢測發(fā)現(xiàn)多個(gè)最接近灰度差值的像素點(diǎn)的灰度值大于對比閾值e時(shí),將所述多個(gè)最接近灰度差值的像素點(diǎn)全部作為待檢測種子點(diǎn);
12、對所述待檢測種子點(diǎn)進(jìn)行鄰域的生長,判斷待檢測種子點(diǎn)的灰度值是否大于或等于鄰域的像素點(diǎn)的灰度值;若否,則對所述待檢測種子點(diǎn)進(jìn)行停止生長,確定該待檢測生長區(qū)域的待檢測子區(qū)域最終不存在文字線條;
13、若是,則對所述待檢測種子點(diǎn)進(jìn)行生長,當(dāng)所述待檢測種子點(diǎn)生長接觸至待檢測生長區(qū)域的邊緣時(shí),所述待檢測種子點(diǎn)停止生長,形成文字線條;
14、若多個(gè)待檢測種子點(diǎn)全部完成生長,則形成多條文字線條;
15、相似特征網(wǎng)格圖像通過3*3的相似子區(qū)域組成,對每個(gè)相似子區(qū)域組成進(jìn)行再次劃分網(wǎng)格,得到相似生長區(qū)域;
16、遍歷每個(gè)相似特征文字圖像的相似生長區(qū)域通過區(qū)域生長算法進(jìn)行文字線條的區(qū)域生長;計(jì)算相似生長區(qū)域內(nèi)每個(gè)網(wǎng)格的像素點(diǎn)的灰度值,計(jì)算像素點(diǎn)的平均灰度值;選取等于平均灰度值的灰度值的像素點(diǎn),將該等于像素點(diǎn)作為相似種子點(diǎn);
17、判斷鄰域像素點(diǎn)的灰度值是否大于或等于相似種子點(diǎn)的灰度值;若是,則判定則對所述相似種子點(diǎn)進(jìn)行生長,當(dāng)所述相似種子點(diǎn)生長接觸至相似生長區(qū)域的邊緣時(shí),所述相似種子點(diǎn)停止生長,生成一條文字線條;若否,則相似種子點(diǎn)停止生長,并判定相似子區(qū)域不存在文字線條;
18、若所述存在多個(gè)等于平均灰度值的灰度值的像素點(diǎn),則全部作為相似種子點(diǎn)進(jìn)行完成生長,得到多條文字線條;
19、通過所述待檢測網(wǎng)格圖像的每個(gè)待檢測子區(qū)域與對應(yīng)的多個(gè)相似特征文字圖像的每個(gè)相似子區(qū)域進(jìn)行判斷文字線條,從而判斷出待檢測文字圖像的目標(biāo)文字。
20、較佳地,通過所述待檢測網(wǎng)格圖像的每個(gè)待檢測子區(qū)域與對應(yīng)的多個(gè)相似特征文字圖像的每個(gè)相似子區(qū)域進(jìn)行判斷文字線條,從而判斷出待檢測文字圖像的目標(biāo)文字,具體操作步驟如下:
21、對所述每個(gè)待檢測子區(qū)域與對應(yīng)的多個(gè)相似特征文字圖像的每個(gè)相似子區(qū)域進(jìn)行對比;
22、判斷對應(yīng)的相似子區(qū)域是否存在文字線條;
23、若否,則剔除該對應(yīng)的相似子區(qū)域的相似特征文字圖像;
24、若是,則判斷所述對應(yīng)的相似子區(qū)域的文字線條數(shù)量是否相同;
25、若否,則對不符合文字線條數(shù)量的對應(yīng)的相似子區(qū)域的相似特征文字圖像進(jìn)行剔除;
26、若是,則對所述待檢測子區(qū)域與所述相似子區(qū)域內(nèi)部的文字線條的位置是否相互對應(yīng);
27、若否,則對所述待檢測子區(qū)域不相互對應(yīng)的文字線條的所述相似子區(qū)域的相似特征文字圖像進(jìn)行剔除;
28、若是,則對所述待檢測子區(qū)域重新合并為待檢測網(wǎng)格圖像,文字線條進(jìn)行相互連接,形成待檢測筆畫;
29、將多個(gè)所述相似子區(qū)域重新合并為相似特征網(wǎng)格圖像,文字線條進(jìn)行相互連接,形成相似筆畫;
30、對所述待檢測筆畫與所述相似筆畫進(jìn)行對比,判斷所述待檢測筆畫與所述相似筆畫對比度最高的相似特征文字圖像,作為待檢測文字圖像的目標(biāo)文字。
31、較佳地,對所述待檢測子區(qū)域與所述相似子區(qū)域內(nèi)部的文字線條的位置是否相互對應(yīng),具體操作步驟如下:
32、對所述待檢測子區(qū)域執(zhí)行投影處理生成待檢測投影的直方圖;
33、通過待檢測投影的直方圖,得到當(dāng)前待檢測投影的直方圖中的像素點(diǎn)亮度的分布,通過所述像素點(diǎn)亮度的分布得到像素點(diǎn)亮度在待檢測投影直方圖的待檢測波峰;通過所述待檢測投影直方圖的待檢測波峰計(jì)算待檢測最高波峰值與待檢測最低波峰值;
34、若所述待檢測子區(qū)域內(nèi)部存在多條文字線條,則對生成的待檢測投影直方圖進(jìn)行切割,將所述文字線條進(jìn)行分離,生成多個(gè)待檢測子投影直方圖,并進(jìn)行上述步驟得到待檢測投影直方圖的待檢測最高波峰值與待檢測最低波峰值;
35、對所述相似子區(qū)域通過上述步驟進(jìn)行投影分析方法建立相似投影直方圖,并判斷所述相似投影直方圖的相似最高波峰值與相似最低波峰值;
36、判斷所述相似最高波峰值與所述待檢測最高波峰值的差值,通過所述差值判斷待檢測子區(qū)域的文字線條與所述相似子區(qū)域的文字線條的位置是否接近;通過預(yù)設(shè)最高波峰值閾值g,判斷所述相似最高波峰值與所述待檢測最高波峰值的差值是否小于預(yù)設(shè)最高波峰值閾值g;
37、若否,判定待檢測子區(qū)域的文字線條與所述相似子區(qū)域的文字線條的位置不相同,剔除相似子區(qū)域的相似特征文字圖像;
38、若是,則判定所述待檢測子區(qū)域的文字線條與所述相似子區(qū)域的文字線條的位置接近;并預(yù)設(shè)最低波峰值閾值h,繼續(xù)判斷所述相似最低波峰值與所述待檢測最低波峰值的差值是否小于預(yù)設(shè)最低波峰值閾值h;
39、若否,則判定待檢測子區(qū)域的文字線條與所述相似子區(qū)域的文字線條的位置不相同,剔除相似子區(qū)域的相似特征文字圖像;
40、若是,所述待檢測子區(qū)域的文字線條與所述相似子區(qū)域的文字線條的位置相同;
41、若所述相似最高波峰值與所述待檢測最高波峰值的差值、所述相似最低波峰值與所述待檢測最低波峰值的差值,全部符合波峰值閾值判斷時(shí),則判定所述待檢測子區(qū)域的文字線條與所述相似子區(qū)域的文字線條的位置相同;
42、若其中一個(gè)不符合閾值判斷時(shí),則判定待檢測子區(qū)域的文字線條與所述相似子區(qū)域的文字線條的位置不相同。
43、較佳地,計(jì)算所述待檢測最高波峰值的公式為:;
44、式中,a1為待檢測網(wǎng)格圖像的第1個(gè)待檢測子區(qū)域內(nèi)部的待檢測最高波峰值,為待檢測投影直方圖y軸的縱方向坐標(biāo)的像素點(diǎn)數(shù)量的第n個(gè)像素點(diǎn),為待檢測投影直方圖x軸的橫向坐標(biāo)的像素點(diǎn)灰度值的平均值,為待檢測投影直方圖的像素點(diǎn)亮度分布,v為待檢測投影直方圖的待檢測波峰的最高點(diǎn);qn為待檢測投影直方圖第n個(gè)像素點(diǎn)周圍的亮度閾值;sigmoid{}為直方圖函數(shù)。
45、較佳地,計(jì)算所述待檢測最低波峰值的公式為:;
46、式中,b1為待檢測網(wǎng)格圖像的第1個(gè)待檢測子區(qū)域內(nèi)部的待檢測最低波峰值,為待檢測投影直方圖y軸的縱方向坐標(biāo)的像素點(diǎn)數(shù)量的第m個(gè)像素點(diǎn),為待檢測投影直方圖x軸的橫向坐標(biāo)的像素點(diǎn)灰度值的平均值,為待檢測投影直方圖的像素點(diǎn)亮度分布,v為待檢測投影直方圖的待檢測波峰的最低點(diǎn)的波谷,qm為待檢測投影直方圖第m個(gè)像素點(diǎn)周圍的陰影閾值;sigmoid{}為直方圖函數(shù)。
47、相應(yīng)地,本發(fā)明還提供了一種基于計(jì)算機(jī)視覺識別處理短劇內(nèi)容的識別系統(tǒng),包括:獲取圖像模塊、圖像對比模塊、最終確定模塊;
48、獲取圖像模塊用于獲取待檢測文字圖像,對所述待檢測文字圖像進(jìn)行初步的掃描,獲取得到多個(gè)相似特征文字圖像;
49、圖像對比模塊用于對所述多個(gè)相似特征文字圖像與所述待檢測文字圖像進(jìn)行劃分網(wǎng)格圖像,得到多個(gè)相似特征網(wǎng)格圖像與待檢測網(wǎng)格圖像;對所述多個(gè)相似特征網(wǎng)格圖像與所述待檢測網(wǎng)格圖像進(jìn)行對應(yīng)網(wǎng)格的對比,得到待檢測文字圖像的目標(biāo)文字;
50、最終確定模塊用于所述目標(biāo)文字確定為待檢測文字圖像的最終文字。
51、相應(yīng)的,本技術(shù)還涉及一種存儲介質(zhì),所述存儲介質(zhì)內(nèi)存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)一種基于計(jì)算機(jī)視覺識別處理短劇內(nèi)容的識別方法。
52、與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例至少存在如下方面的技術(shù)優(yōu)勢:
53、分析本發(fā)明提供的上述一種基于計(jì)算機(jī)視覺識別處理短劇內(nèi)容的識別方法可知,在具體應(yīng)用時(shí)通過待檢測文字圖像進(jìn)行初步的掃描,能夠得到與待檢測文字圖像近似的多個(gè)相似特征文字圖像,減少了大范圍檢查文字的速度;
54、進(jìn)一步的,通過對多個(gè)相似特征文字圖像與待檢測文字圖像進(jìn)行劃分網(wǎng)格圖像,形成一個(gè)個(gè)相似子區(qū)域和待檢測子區(qū)域;對通過待檢測子區(qū)域內(nèi)部的像素點(diǎn)的最大灰度值和最小灰度值的灰度差值進(jìn)行確定待檢測子區(qū)域內(nèi)部的像素點(diǎn)的變化,通過像素點(diǎn)的變化初步的確定內(nèi)部有沒有文字線條;并進(jìn)一步的確定待檢測種子點(diǎn)進(jìn)行區(qū)域生長,當(dāng)待檢測種子點(diǎn)進(jìn)行生長時(shí),則能夠進(jìn)一步判斷出待檢測子區(qū)域內(nèi)部是否存在文字線條;對相似子區(qū)域同樣進(jìn)行篩選,相同的選取出具有文字線條的相似子區(qū)域的相似特征文字圖像;
55、進(jìn)一步的,對待檢測子區(qū)域和相似子區(qū)域進(jìn)行對比判斷是否存在文字線條;當(dāng)所有相似子區(qū)域具有文字線條時(shí),則繼續(xù)判斷相似子區(qū)域內(nèi)部的文字線條的數(shù)量與待檢測子區(qū)域內(nèi)部的文字線條是否相同;當(dāng)文字線條相同時(shí),則判斷相似子區(qū)域的文字線條與相似子區(qū)域的文字線條的位置是否相同,若文字線條的位置也相同,則進(jìn)行相似子區(qū)域和待檢測子區(qū)域的重新合并,使文字線條重新連接,形成筆畫,判斷最后的筆畫的相似度,通過最后筆畫的最高相似度的相似特征文字圖像作為待檢測文字圖像的最終文字;
56、通過是否存在文字線條、文字線條的數(shù)量、文字線條的位置和最后的筆畫的相似度對比進(jìn)行一步步的篩選、確認(rèn),選取出最高的相似度的相似特征文字圖像,能夠不斷的增加待檢測文字圖像的識別精準(zhǔn)度;同時(shí),通過九宮格的相似子區(qū)域和待檢測子區(qū)域的單獨(dú)對比,更夠減少識別數(shù)據(jù)過大的壓力,增加檢測速度。