專利名稱:視頻流可分類符號分離的方法與系統(tǒng)的制作方法
相關(guān)申請的交叉引用本發(fā)明與共同轉(zhuǎn)讓給本發(fā)明的受讓人的名為“利用視頻幀中檢測到的正文分析視頻內(nèi)容的系統(tǒng)與方法”的1999年8月9日提交的美國專利申請序號09/370,931中所描述的發(fā)明相關(guān),現(xiàn)通過引用將其全文結(jié)合在此如同在這里全面陳述的一般。本發(fā)明還與名為“檢測與定位視頻中的正文的方法與裝置”的共同轉(zhuǎn)讓給本發(fā)明的受讓人的1999年1月28日提交的美國臨時(shí)專利申請?zhí)?0/117,658中所公開的發(fā)明相關(guān)。這里為一切目的將該相關(guān)臨時(shí)專利申請的公開通過引用結(jié)合在此,如同在這里全面陳述的一般。本發(fā)明還與共同轉(zhuǎn)讓給本發(fā)明的受讓人的名為“用作用在神經(jīng)網(wǎng)絡(luò)上的形狀特征的符號分類”的與本發(fā)明同時(shí)提交的申請中所公開的發(fā)明相關(guān)。通過引用為一切目的將該相關(guān)臨時(shí)專利申請的公開結(jié)合在此,如同在這里全面陳述的一般。
背景本發(fā)明涉及識別數(shù)字化圖象中的模式的系統(tǒng),而更具體地涉及分離視頻數(shù)據(jù)流中諸如正文字符等符號的這些系統(tǒng)。
實(shí)時(shí)廣播、模擬磁帶及數(shù)字視頻對教育、娛樂及許多多媒體應(yīng)用是重要的。隨著視頻收集量的規(guī)模以百萬小時(shí)計(jì),需要插入視頻數(shù)據(jù)的技術(shù)以便能更高效地使用與訪問這一資料。已提出了各式各樣的這種增強(qiáng)的使用。例如,正文與聲音識別的使用能導(dǎo)向原始視頻的摘要的建立及索引視頻內(nèi)容的關(guān)鍵的自動(dòng)生成。另一應(yīng)用范圍有賴于廣播(或多道播放等)視頻數(shù)據(jù)流中正文與/或其它符號的快速實(shí)時(shí)分類。例如,正文識別可用于諸如視頻內(nèi)容索引等任何適當(dāng)目的。
已利用各種正文識別技術(shù)來識別數(shù)字化模式。最普通的實(shí)例是文件光學(xué)字符識別(OCR)。所有這些技術(shù)的通用模型為從圖象中導(dǎo)出輸入矢量,該輸入矢量刻劃原始模式的特征。將該矢量映射到固定數(shù)目或范圍的符號類別之一上來“識別”該圖象。例如,位象的象素值可用作輸入矢量而對應(yīng)分類集可以是諸如英文字母表等字母表。沒有特定的模式識別技術(shù)已達(dá)到普適的統(tǒng)治地位。各識別問題具有其本身的難點(diǎn)集合分類集的大小、輸入矢量的大小、要求的速度與精度、及其它問題。同時(shí),可靠性是呼喚幾乎每一應(yīng)用領(lǐng)域中的改進(jìn)的領(lǐng)域。
作為上述不足的后果,模式識別是不斷積極研究的領(lǐng)域,各種應(yīng)用根據(jù)它們各自的諸如實(shí)用性與可行性標(biāo)準(zhǔn)受到不同程度的關(guān)注。也許這些技術(shù)中最成熟的是對正文字符的模式識別的應(yīng)用,即光學(xué)字符識別(OCR)。這一技術(shù)由于將印刷品轉(zhuǎn)換成計(jì)算機(jī)可讀的字符的客觀需要與實(shí)用性而得到開發(fā)。從實(shí)用觀點(diǎn)上,印刷文件提供相對清楚與堅(jiān)實(shí)的數(shù)據(jù)源。這些文件通常以對均勻的背景高對比度模式集合為特征并可用高分辨率存儲(chǔ)。例如,印刷文件可在任意分辨率上掃描以形成印刷字符的二進(jìn)制圖象。同時(shí),存在著對模式識別的這一應(yīng)用的明顯需求,由于從文件到基于計(jì)算機(jī)的文本免除了鍵盤打字的勞動(dòng),實(shí)現(xiàn)經(jīng)濟(jì)的數(shù)據(jù)存儲(chǔ),允許搜索文件,等。
由于隨著執(zhí)行符號或字符分類而來的困難,一些應(yīng)用領(lǐng)域受到的關(guān)注不夠。例如,至少由于下述因素而視頻流中的模式識別是困難的領(lǐng)域。視頻流中的字符趨向于在空間上不均勻(有時(shí)在時(shí)間上變化的)背景上顯出、帶有低分辨率、及低對比度。因此識別視頻流中的字符是困難的并且沒有已知的可靠方法。此外,對于某些應(yīng)用,如至少在上述相關(guān)申請中所公開的,高度希望快速識別速度。
在許多出版物中已描述了索引與分類視頻的系統(tǒng)與方法,其中包含M.Abdel-Mattaleb等人的“CONIVAS基于內(nèi)容的圖象與視頻訪問系統(tǒng)”,ACM多媒體學(xué)報(bào),427-428頁,Boston(1996);S-F.Chang等人的“Video Q使用視覺提示的自動(dòng)化的基于內(nèi)容的視頻搜索系統(tǒng)”,ACM多媒體學(xué)報(bào)313-324頁,Seattle(1994);M.Christel等人的“信息媒體數(shù)字視頻庫”,ACM通訊,卷38,第4期57-58頁(1995);N.Dimitrova等人的“消費(fèi)者設(shè)備中的視頻內(nèi)容管理”,IEEE知識與數(shù)據(jù)工程會(huì)報(bào)(1998年11月);U.Gargi等人的“數(shù)字視頻數(shù)據(jù)庫中索引正文事件”,模式識別國際會(huì)議,Brisbane,916-918頁(1998年8月);M.K.Mandal等人的“使用矩與小波的圖象索引”,IEEE消費(fèi)者電子設(shè)備會(huì)報(bào),卷42,第三期(1996年8月);以及S.Pfeiffer等人的“自動(dòng)提取數(shù)字運(yùn)動(dòng)”,視覺通信與圖象表示期刊,卷7,第4期,345-353頁(1996)。
在Ohya等人的“在場景圖象中識別字符”IEEE模式分析與機(jī)器智能會(huì)報(bào),卷16,214-224頁(1994年2月),中描述了用局部閾值法抽取字符及用估算鄰接區(qū)之間的灰度級差檢測包含字符的圖象區(qū)。Ohya等人進(jìn)一步公開了檢測到的具有緊密接近性與類似灰度級的區(qū)的合并,以便生成字符模式候選。
在A.Haubtmann等人的“用于視頻分段的正文、語音與視覺信息媒體項(xiàng)目”,AAAI綜合語言與視覺的計(jì)算模型1995年秋季討論會(huì),中描述了使用視頻正文的空間上下文與高對比度特征合并帶有互相緊密靠近的水平與垂直邊的區(qū)以便檢測正文。在“用于視頻索引的自動(dòng)正文識別”,SPIE圖象與視頻處理會(huì)議(1996年1月),中R.Lienhart與F.Suber討論了用于減少視頻圖象中的彩色數(shù)目的非線性彩色系統(tǒng)。該對比文件描述了產(chǎn)生具有類似顏色的同類段的分裂與合并過程。Lienhart與Suber使用各種試探法來檢測同類區(qū)中的字符,其中包含前景字符、單色或剛接字符、大小受限制的字符、及與周圍區(qū)相比具有高對比度的字符。
在A.K.Jain與B.Yu的“圖象與視頻幀中的自動(dòng)正文定位”,IEEE模式識別學(xué)報(bào),2055-2076,卷31(1998年11月12日),中描述了用于定位正文及將圖象分成多個(gè)實(shí)前景與背景圖象的多值圖象分解的使用。在“用于基于內(nèi)容的注釋與檢索的從視頻自動(dòng)抽取正文”,模式識別國際會(huì)議會(huì)報(bào),618-620頁(1998),中J-C.Shim等人描述了使用廣義區(qū)域標(biāo)記算法來找同類區(qū)及分段與抽取正文。為了確定正文的顏色與位置,聚集了識別出的前景圖象。
K.V.Mardia等人在“圖象分段的空間閾值方法”,IEEE模式分析與機(jī)器智能會(huì)報(bào),卷10,919-927頁(1988)及A.Perez等人在“圖象分段的迭代閾值方法”,IEEE模式分析與機(jī)器智能會(huì)報(bào),卷9,742-751頁(1987)中描述了其它有用的圖象分段算法。
在數(shù)字化位圖中定位正文的各種技術(shù)是已知的。用于二進(jìn)制化字符數(shù)據(jù)來形成能以白底黑色為特征的圖象及用于在位象上執(zhí)行字符識別的技術(shù)也是已知的。視頻流中的正文與其它模式從容易分類的可預(yù)測的、大的、與清楚的延伸到即使在原則上也只包含沒有來自輔助文字?jǐn)?shù)據(jù)的協(xié)助來分類的不充分信息的粗糙的、短暫的、不可預(yù)測地朝向與定位的。還正在進(jìn)行研究來提高識別速度以及精度。因此,本技術(shù)的當(dāng)前狀態(tài)中存在著改進(jìn)空間,尤其是當(dāng)諸如視頻流數(shù)據(jù)等應(yīng)用將當(dāng)前技術(shù)使用到最大限度時(shí)。
發(fā)明概述簡言之,用于分類符號的圖象處理設(shè)備與方法依賴用于隔離符號區(qū)的連接部分技術(shù)。本設(shè)備與方法從應(yīng)用程序邊沿檢測過濾器導(dǎo)出的圖象構(gòu)成連接的部分。從經(jīng)過過濾的圖象構(gòu)成連接的部分定義字符形狀的邊沿。連接的部分是根據(jù)諸如面積、高度、寬度、高寬比等閾值標(biāo)準(zhǔn)過濾的。結(jié)果,充分地減少了定義各連接部分必須連接的象素?cái)?shù)目并從而提高了處理速度。本方法的應(yīng)用主要是相對于視頻流中的正文討論的。
視頻流中正文的字符分類器采用向后傳播神經(jīng)網(wǎng)絡(luò)(BPNN),其特征空間是從尺寸、平移、與旋轉(zhuǎn)不變的與形狀相關(guān)的特征導(dǎo)出的。用上述技術(shù)精確隔離字符區(qū)能使這些特征空間可以實(shí)現(xiàn)。這些特征空間的實(shí)例包含正則與不變矩及從細(xì)的閾值字符的Delaunay三角剖分導(dǎo)出的角直方圖。由于視頻流中的字符的低劣分辨率,這些特征空間提供對作為分類器的BPNN的良好匹配。
檢測與分類出現(xiàn)在視頻流中的正文的能力具有許多用途。例如,可根據(jù)從這一正文中導(dǎo)出的分類特征化與索引視頻序列及其部分。這能導(dǎo)向索引、增強(qiáng)的搜索能力、注釋特征、等。此外,視頻流中的正文識別允許提出上下文敏感的特征,例如到達(dá)響應(yīng)廣播視頻流中網(wǎng)址的出現(xiàn)所生成的網(wǎng)站的可調(diào)用的鏈路。
視頻中的正文提出來自發(fā)展得很好但仍在成熟中的技術(shù)的文件OCR的非常不同的問題集合。文件中的正文趨向于單色而高質(zhì)量的。視頻中,縮小的場景圖象可包含噪聲與不受控制的亮度。出現(xiàn)在視頻中的字符可具有不同顏色、尺寸、字體、朝向、粗細(xì),背景可以是復(fù)雜而隨時(shí)變化的等。并且,視頻符號識別的許多應(yīng)用要求高速度。
本發(fā)明所采用的用于分類視頻正文的技術(shù)采用符號隔離的精確高速技術(shù)。然后利用符號位圖生成作用在BPNN上的與形狀相關(guān)的特征矢量。該特征矢量提供對于整體圖象形狀的較大強(qiáng)調(diào)而對于上面提出的可變性問題相對地不敏感。在隔離字符區(qū)的技術(shù)中,根據(jù)檢測到的邊沿定義連接部分結(jié)構(gòu)。由于邊沿檢測產(chǎn)生比二進(jìn)制化符號所占用的整個(gè)區(qū)總體上少得多的象素,生成連接部分的過程能夠快得多。特征空間的選擇也增進(jìn)識別速度。利用模擬的BPNN,輸入矢量的大小能嚴(yán)重影響吞吐量。對于來自選擇的特征空間的所使用的部分的選擇性是非常重要的。當(dāng)然,通過組合諸如矩與線段特征等不同特征的混合物,可構(gòu)成復(fù)雜的特征空間。并且,當(dāng)所選擇的特征共用計(jì)算步驟時(shí)可實(shí)現(xiàn)計(jì)算經(jīng)濟(jì)性。
將要參照下面的示例性附圖結(jié)合某些較佳實(shí)施例描述本發(fā)明,以便更全面地理解它。對于附圖的參照,強(qiáng)調(diào)所示出的細(xì)節(jié)是用示例方式的并且只是為了本發(fā)明的較佳實(shí)施例的示例性討論的目的,并且是為了提供認(rèn)為是本發(fā)明的原理與概念方面的最有用與容易理解的描述而提出的。因此,并未試圖展示比基本理解本發(fā)明所必需的更詳細(xì)的發(fā)明的結(jié)構(gòu)細(xì)節(jié),利用附圖所作的描述使熟悉本技術(shù)的人員明白在實(shí)踐中可以如何實(shí)施本發(fā)明的多種形式。
圖1為展示可用于實(shí)現(xiàn)本發(fā)明的設(shè)備的圖。
圖2為展示按照本發(fā)明的實(shí)施例的字符分類方法的流程圖。
圖3A與3B示出包含可按照本發(fā)明的實(shí)施例分類的信息的視頻屏幕中的正文區(qū)。
圖4A示出來自視頻幀的捕捉到的數(shù)字圖象的正文段的外觀。
圖4B示出邊沿檢測過濾后的正文段。
圖4C示出在邊沿檢測中或之前的若干級過濾的效果,注意這些不是實(shí)際顯示中間結(jié)果而是為了說明與本發(fā)明相關(guān)的概念的目的示出的。
圖5A與5B示出按照本發(fā)明的實(shí)施例的邊沿過濾的效果。
圖5C示出能用在本發(fā)明中的缺口閉合算法的實(shí)例。
圖6A-6D示出按照本發(fā)明的實(shí)施例的正文線分段的技術(shù)。
圖7A與7B為展示按照本發(fā)明的實(shí)施例的過濾過程建立與管理連接的部分的技術(shù)的流程圖。
圖8為展示按照本發(fā)明的實(shí)施例的字符分類方法的流程圖。
圖9A-9D示出過濾分段字符來導(dǎo)出特征矢量前體。
圖10A與10B示出在按照本發(fā)明的實(shí)施例的字符分類過程中的圖象過濾步驟中的Delaunay三角剖分與Voronoy圖階段。
圖11A與11B示出按照本發(fā)明的實(shí)施例的角直方圖型特征空間。
最佳實(shí)施例詳述參見圖1,圖象正文分析系統(tǒng)100采用視頻處理設(shè)備110、視頻源180、及有可能監(jiān)視器185來接收視頻輸入并生成與存儲(chǔ)嵌入其中的字符信息。視頻處理設(shè)備110接收視頻圖象,分析幀,隔離正文區(qū)與字符區(qū),并按照下面詳細(xì)討論的過程分類正文與/或字符區(qū)。視頻是從視頻源180施加的。視頻源180可以是任何視頻數(shù)據(jù)源,其中包括帶模-數(shù)轉(zhuǎn)換器(ADC)的VCR、帶數(shù)字化視頻的盤、帶ADC的有線盒、DVD或CD-ROM驅(qū)動(dòng)器、數(shù)字視頻家用系統(tǒng)(DVHS)、數(shù)字錄像機(jī)(DVR)、硬盤驅(qū)動(dòng)器(HDD)等。視頻源180能提供少量短剪輯或多個(gè)剪輯,其中包括較長長度的數(shù)字化視頻圖象。視頻源180可提供諸如MPEG-2、MJPEG等任何模擬或數(shù)字格式的視頻數(shù)據(jù)。
視頻處理設(shè)備110可包含圖象處理器120、RAM 130、存儲(chǔ)器140、用戶I/O卡150、視頻卡160、I/O緩沖器170、及處理器總線175。處理器總線175在視頻處理設(shè)備110的各元件之間傳輸數(shù)據(jù)。RAM 130進(jìn)一步包括圖象正文工作空間132及正文分析控制器134。圖象處理器120提供對視頻處理設(shè)備110的總體控制并執(zhí)行圖象正文分析系統(tǒng)100所需的圖象處理,其中包含根據(jù)系統(tǒng)選擇的與用戶選擇的屬性的視頻幀中的正文分析。它還包含實(shí)現(xiàn)編輯過程,處理供在監(jiān)視器185上顯示與/或存儲(chǔ)在存儲(chǔ)器140中的數(shù)字化視頻圖象,并在圖象正文分析系統(tǒng)100的各種元件之間傳輸數(shù)據(jù)。對圖象處理器120的要求與能力是本技術(shù)中眾所周知的,除了本發(fā)明所需要的以外,無須詳盡描述。
RAM 130提供隨機(jī)存取存儲(chǔ)器供臨時(shí)存儲(chǔ)視頻處理設(shè)備110生成的數(shù)據(jù),這些數(shù)據(jù)不是系統(tǒng)中的部件提供的。RAM 130包含用于圖象正文工作空間130及正文分析控制器134的存儲(chǔ)器,以及圖象處理器120與相關(guān)設(shè)備所需的其它存儲(chǔ)器。圖象正文工作空間132表示在正文分析進(jìn)程中在其中臨時(shí)存儲(chǔ)與特定視頻剪輯相關(guān)的視頻圖象的RAM130部分。圖象正文工作空間130允許修改幀的拷貝而不影響原始數(shù)據(jù),從而稍后可以恢復(fù)原始數(shù)據(jù)。
在本發(fā)明的一個(gè)實(shí)施例中,正文分析控制器134表示專用于存儲(chǔ)在系統(tǒng)或用戶定義的正文屬性的基礎(chǔ)上執(zhí)行視頻圖象分析的圖象處理器120所執(zhí)行的應(yīng)用程序的RAM 130的部分。正文分析控制器134可執(zhí)行眾所周知的編輯技術(shù),諸如場景之間的逐漸改變與邊界檢測,以及與本發(fā)明關(guān)聯(lián)的視頻正文識別的新穎技術(shù)。正文分析控制器134也可體現(xiàn)為CD-ROM、計(jì)算機(jī)軟盤、或可加載到存儲(chǔ)器140中的可拆卸的盤端口或諸如視頻源180中的任何地方的其它存儲(chǔ)介質(zhì)上的程序。
存儲(chǔ)器140包括一或多個(gè)盤系統(tǒng),其中包括可拆卸的(磁或光)盤,用于永久性存儲(chǔ)包含需要的視頻與音頻數(shù)據(jù)在內(nèi)的程序及其它數(shù)據(jù)。取決于系統(tǒng)要求,可將存儲(chǔ)器140配置成與向和自視頻源180以及系統(tǒng)的其余部分傳輸視頻與音頻數(shù)據(jù)的一或多條雙向總線接口。必要時(shí),存儲(chǔ)器140能在視頻速率上傳輸數(shù)據(jù)。將存儲(chǔ)器140的大小定為為了包含正文屬性分析在內(nèi)的編輯目的對若干分鐘視頻提供足夠的存儲(chǔ)器。取決于特定應(yīng)用及圖象處理器120的能力,可將存儲(chǔ)器140配置成提供存儲(chǔ)大量視頻剪輯的容量。
用戶I/O卡150可將各種用戶設(shè)備(未示出)接口到圖象正文分析系統(tǒng)100的其余部分上。用戶I/O卡150將從用戶設(shè)備接收的數(shù)據(jù)轉(zhuǎn)換成接口總線175的格式供傳輸?shù)綀D象處理器120或RAM 130供圖象處理器120以后訪問。用戶I/O卡150還傳輸數(shù)據(jù)給諸如打印機(jī)(未示出)等用戶輸出設(shè)備。視頻卡160提供監(jiān)視器185與視頻處理設(shè)備110的其余部分之間通過數(shù)據(jù)總線175的接口。
I/O緩沖器170通過總線175連接在視頻源180與圖象正文分析系統(tǒng)100的其余部分之間。如上面討論的,視頻源180至少具有一條雙向總線來與I/O緩沖器170接口。I/O緩沖器170在要求的視頻圖象傳輸速率上向/自視頻源180傳輸數(shù)據(jù)。在視頻處理設(shè)備110內(nèi),I/O緩沖器170將從視頻源180接收的數(shù)據(jù)根據(jù)要求傳輸給存儲(chǔ)器140、圖象處理器120、或RAM 130。同時(shí)傳輸視頻數(shù)據(jù)給圖象處理器120提供了在接收它們時(shí)便顯示視頻圖象的手段。
現(xiàn)在參見圖2、3A與3B,視頻處理設(shè)備110或任何其它適當(dāng)設(shè)備能在諸如圖3A與3B中所示的包含正文的視頻序列上執(zhí)行正文抽取與識別操作(如圖2中概述的)100。將單個(gè)幀305提交給圖2中概述的過程而得出諸如310、315、360、365、370、及375等單個(gè)正文區(qū)的隔離。注意可將該過程作用在綜合的多個(gè)幀的整體上以減少背景的復(fù)雜性及提高正文的清楚性。這便是,當(dāng)若干后面的幀包含相同的正文區(qū)時(shí)(而當(dāng)正文區(qū)包含諸如類似的頻譜密度函數(shù)等相同的信號特征時(shí)便能識別這一點(diǎn)),便能將多個(gè)接連的幀綜合(如加以平均)。這趨向于使正文區(qū)更清楚并導(dǎo)致正文更好地與背景隔開。當(dāng)背景是移動(dòng)圖象時(shí),必須用這一過程減少背景的復(fù)雜性。注意當(dāng)如在現(xiàn)代電視中為移動(dòng)畫面增強(qiáng)進(jìn)行了時(shí)間積分時(shí),也可從源獲得這一信號平均的某些好處。從而,對于下面的討論,在“單個(gè)”幀上的操作的概念并不限于單個(gè)“幀抓取”而在其上面進(jìn)行圖象分析的“幀”可能是一或多個(gè)接連的視頻幀的組合。
起初,圖象處理器120可分離視頻圖象的一或多幀的彩色及存儲(chǔ)減少彩色的圖象供在抽取正文中使用。在本發(fā)明的一個(gè)實(shí)施例中,圖象處理器120使用紅綠藍(lán)(RGB)彩色空間模型來隔離象素的紅色分量。圖4A中示出幀中正文部分的可能外觀的實(shí)例。紅色分量通常是用于檢測視頻正文中占統(tǒng)治地位的白、黃、與黑色最有用的。這便是,對于覆蓋(重疊)正文,隔離出的紅色幀提供公共正文彩色的鮮明的高對比度邊沿。當(dāng)前的方法也可用于抽取不是覆蓋在視頻上而是諸如停留在廣告牌或路牌上的膜片序列等作為其實(shí)際部分的正文。在這一情況中,紅色幀可能不是最好用的。在這些情況中,灰度(alpha信道)可提供最佳起點(diǎn)。注意在本發(fā)明的其它實(shí)施例中,圖象處理器120可使用各種彩色模型,諸如灰度圖象或YIQ視頻幀的Y分量、等。
將隔離的幀圖象存儲(chǔ)在圖象正文工作空間132中。然后在步驟S210中,在執(zhí)行進(jìn)一步的處理之前,可使捕捉到的圖象銳化。例如,可采用下述3×3屏蔽-1-1-1-1 8-1-1-1-1其中各象素是其本身的8倍加上其各相鄰象素的負(fù)值之和。上面的位圖過濾器(或“屏蔽”)的矩陣表示是本技術(shù)中的普通符號。存在著許多本技術(shù)中已知的這種派生的過濾器。本發(fā)明設(shè)想采用各式各樣的不同技術(shù)中任何一種用于隔離正文區(qū)。上面只是一個(gè)非常簡單的例子。過濾步驟可包含多遍,例如沿一個(gè)維度的梯度檢測后隨沿另一維度的梯度檢測(同時(shí)在各自的正交方向上加以平順)隨后將兩種過濾結(jié)果相加。在步驟S210中,可采用例如R.C.Gonzalez與R.E.Woods在“數(shù)字圖象處理”,Addison-Wesley出版公司(1992),中所描述的中值濾波器減少隨機(jī)噪聲。
邊沿檢測可采用另一邊沿過濾器。通過這一過濾器,可以(及最好)放大銳化(紅色,灰度、等)圖象中的邊沿并利用例如下述邊沿屏蔽衰減非邊沿-1-1-1-112-1-1-1-1其中各象素再一次是作用在其本身及相鄰象素上的上述各自的系數(shù)(權(quán)重)之和。圖4C中,示出前面的過濾步驟的結(jié)果。邊沿過濾原始圖象163得出差分圖象164,然后邊沿增強(qiáng)該圖象得出最終圖象165,將其提交給下面的過濾。
在步驟S215中,應(yīng)用閾值邊沿過濾器或“邊沿檢測器”。如果Edgem,n表示M×N邊沿圖象的m,n象素,而Fm,n為從步驟S210得出的增強(qiáng)圖象,下面的等式可用于邊沿檢測式1Edgem,n=Σi=-11Σj=-11wi,jFm+i,n+j<Ledge]]>其中0<m<M及0<n<N,并且Ledge為一可以是也可不是常量的閾值。值Wi,j為來自邊沿屏蔽的權(quán)重。在邊沿檢測進(jìn)程中可忽略不計(jì)最外面的象素。注意,在這一閾值運(yùn)算中也可蘊(yùn)含應(yīng)用銳化過濾器。
邊沿閾值Ledge為預(yù)定的閾值,它可以是固定值或變量值。使用固定閾值可導(dǎo)致過度的花白噪聲并導(dǎo)致正文周圍的固定邊沿中的不連續(xù)性。已知的開放(如腐蝕后再膨脹)方法導(dǎo)致丟失部分正文。帶有可變閾值的自適應(yīng)邊沿過濾器改善這些趨勢并且是在采用靜態(tài)閾值上的極大改進(jìn)。
在步驟S220中,在調(diào)節(jié)邊沿檢測閾值的一種模式中,在用邊沿檢測器作用第一固定閾值之后,降低在固定閾值步驟中識別出的邊沿象素的任何鄰接(在規(guī)定的容差內(nèi))象素的局部閾值,并重新作用過濾器。在另一模式中,通過將平順函數(shù)(假定結(jié)果是以大于2的象素深度存儲(chǔ)的)作用在閾值步驟的結(jié)果上然后再一次與閾值比較便可容易地完成后一操作。這會(huì)導(dǎo)致標(biāo)記為非邊沿的象素變成標(biāo)記為邊沿的。象素的閾值降低程度最好取決于標(biāo)記為邊沿的相鄰象素的數(shù)目。它后面的原理是當(dāng)相鄰的象素為邊沿時(shí),當(dāng)前象素較為可能是邊沿。從降低它們的局部閾值得出的邊沿象素不用于計(jì)算相鄰象素的降低的閾值。
作為替代,可與低通加權(quán)函數(shù)一起使用固定閾值以保證將被強(qiáng)邊沿象素(具有高梯度的象素)包圍的單個(gè)或少數(shù)非邊沿象素標(biāo)記為邊沿象素。事實(shí)上,上面描述的所有步驟S210-S220可用式1形式的單一數(shù)值運(yùn)算來描述,但在求和上具有較寬的范圍。將它們分成獨(dú)立的步驟不應(yīng)認(rèn)為是必要的或限制性的,并可依賴于計(jì)算設(shè)備與軟件的特點(diǎn)以及其它考慮。
一旦檢測出了字符邊沿,圖象處理器120便執(zhí)行初級邊沿過濾以消除不包含正文或在其中不能可靠地檢測到正文的圖象區(qū)。例如,帶有極少量邊、非常低的邊沿密度(單位面積中邊沿象素?cái)?shù))、或邊沿象素低聚集度(即它們并不構(gòu)成長距離結(jié)構(gòu),如噪聲)的幀可從進(jìn)一步處理中排除。
圖象處理器120可在不同的級上執(zhí)行邊沿過濾。例如可在幀級或亞幀級上執(zhí)行邊沿過濾。在幀級上,如果一幀的合理的一部分以上呈現(xiàn)為由邊沿組成,圖象處理器120可忽略該幀。作為替代,能應(yīng)用諸如頻譜分析等過濾函數(shù)來確定該幀是否可能具有太多的邊沿。這可從該幀的強(qiáng)邊沿對象的高密度得出。前提是過度復(fù)雜的幀包含高比例的非字符細(xì)節(jié)并且通過字符分類來過濾它是不相稱地繁重的。
當(dāng)采用幀級過濾時(shí),圖象處理器120維護(hù)邊沿計(jì)數(shù)器來確定該圖象幀中的邊沿象素?cái)?shù)目。然而,這可能導(dǎo)致跳過或忽略包含清晰的正文的幀,諸如帶有噪聲部分以及帶有清晰的正文部分的幀。為了避免排除這些圖象幀或亞幀,圖象處理器120可在亞幀級上執(zhí)行邊沿過濾。為了這樣做,圖象處理器120可將幀分成較小的區(qū)。為了做到這一點(diǎn),例如,圖象處理器120可將幀分成三組象素列及三組象素行。
接著,圖象處理器120確定各亞幀中的邊沿?cái)?shù)目并相應(yīng)地設(shè)定其相關(guān)計(jì)數(shù)器。如果一個(gè)亞幀具有比預(yù)定數(shù)目多的邊,處理器可舍棄該亞幀??筛鶕?jù)處理圖象區(qū)所需的時(shí)間量或它們相對于象素密度的大小會(huì)使識別精度低于要求的最小值的概率來設(shè)定每一區(qū)的預(yù)定最大邊沿計(jì)數(shù)??衫幂^大數(shù)目的亞幀來保證不丟失被識別為不能判讀的區(qū)包圍的較小的清楚正文區(qū)。
接著在步驟S225中,圖象處理器120在前一步驟中生成的邊沿上執(zhí)行連接部分(CC)分析。這一分析在規(guī)定的容差范圍內(nèi)組合所有連接的邊沿象素。這便是,將鄰接另一邊沿象素或在其一定距離以內(nèi)的每一個(gè)邊沿象素與該象素合并在一起。最終,這一合并過程定義結(jié)構(gòu)或各具有連接或接近連接的邊沿象素集的連接部分。這一點(diǎn)的動(dòng)機(jī)在于假定各正文字符區(qū)對應(yīng)于單一CC。取決于圖象捕捉的分辨率、向上抽樣(在原始圖象上用內(nèi)插加上的象素的比例)或向下抽樣(從原始圖象消除的象素的比例)的程度,可將容差范圍設(shè)定為任何適當(dāng)?shù)闹怠?br>
參見圖4B,對應(yīng)于連接的字符的CC之間的偶然的間隙或斷裂可作為帶有固定閾值的邊沿檢測的后果出現(xiàn)。例如,能發(fā)生在171或172上所示的斷裂。上述邊沿檢測方案的使用有助于保證這些斷裂的CC部分的合并。從圖5A與5B左方字符中的斷裂開始,CC合并法得出將斷裂174、175與176中的點(diǎn)識別為邊沿點(diǎn)并將其分別合并到181與182處的單一連接的部分結(jié)構(gòu)中。除了上面描述的特定方法以外,可用各種機(jī)制完成連接區(qū)中的“不良”斷裂的閉合。例如,可在腐蝕或變細(xì)之后應(yīng)用膨脹。為了避免增加邊沿象素的總面積的后果,在檢測連接部分之前膨脹后可隨即變細(xì)。并且,可增加從式1的應(yīng)用得出的二進(jìn)制化閾值圖象的灰度深度,然后可作用平順函數(shù)及再一次執(zhí)行閾值法(式1)。存在著許多能用來完成所要求的閉合效果的圖象處理技術(shù)。又另一替代方法是諸如在圖5C中所示當(dāng)象素基本上被連接的系列中的邊沿象素包圍時(shí)便將其標(biāo)記為邊沿。這便是,所示的24種情況中的每一種是帶有8個(gè)相鄰象素的一個(gè)象素。在這些情況的每一種中,鄰接象素具有連接的系列中的5個(gè)或以上邊沿象素。當(dāng)然,連接的系列中的數(shù)目可以改變或在該組上增加特殊情況。此外,矩陣的大小可以增加。有利于被諸如對圖5C定義的算法標(biāo)記為邊沿的象素類型是認(rèn)為較少可能是連續(xù)的斷裂部分的那些象素。通過閉合(膨脹然后腐蝕)或通過在屏蔽中使用較少的銳化或?qū)﹂撝?應(yīng)用式1)進(jìn)行預(yù)處理能得到類似結(jié)果。
CC為確定為構(gòu)成沒有非邊沿象素將其分成兩部分的連接的系列的象素集合。構(gòu)成各CC的一張表,它包含該結(jié)構(gòu)中最左、最右、最上、及最下象素的坐標(biāo),連同諸如結(jié)構(gòu)中心的坐標(biāo)等該結(jié)構(gòu)的位置的指示。同時(shí)存儲(chǔ)的能有構(gòu)成連接部分結(jié)構(gòu)的象素的數(shù)目。注意象素計(jì)數(shù)表示特定連接部分結(jié)構(gòu)的面積??衫妙A(yù)定的系統(tǒng)與/或用戶閾值來定義連接部分結(jié)構(gòu)的面積、高度與寬度的最大與最小極限以便確定將哪些連接部分結(jié)構(gòu)向前傳遞到下一處理階段。最后的步驟為過濾器確定CC是否有資格作為字符。可利用其它直觀推斷來組合太小的CC來使它們本身符合直觀推斷或分裂太大的CC。
在步驟S230中,圖象處理器120根據(jù)左下方象素的位置按升序排序滿足前一步驟中的標(biāo)準(zhǔn)的連接部分。圖象處理器120根據(jù)象素坐標(biāo)排序。通過連接部分的排序的表來確定哪些CC構(gòu)成正文塊(“框”)。
圖象處理器120將第一CC分配給第一個(gè)框并作為初始或當(dāng)前分析的框。圖象處理器120測試各后續(xù)的CC來判明其最下方象素是否位于與第一CC的對應(yīng)象素相同的水平線(或靠近的水平線)上。即如果其垂直位置靠近當(dāng)前CC的垂直位置則將其加到當(dāng)前正文框上。如果是,便假定屬于同一正文行。垂直坐標(biāo)差閾值可以是固定的或可變的。最好,第二CC的水平坐標(biāo)的接近度是CC的高度的函數(shù)。還測試候選新增加者到當(dāng)前正文框的水平距離來判明它是否位于可接受的范圍內(nèi)。
如果CC不符合與當(dāng)前正文框合并的標(biāo)準(zhǔn),生成帶有將失敗的CC標(biāo)記為其第一元素的新的正文框。這一過程可對圖象中的單行正文得出多個(gè)正文框。當(dāng)系列中的下一個(gè)連接部分具有實(shí)質(zhì)上不同的垂直坐標(biāo)或低于最后的CC的水平坐標(biāo)時(shí),可在水平橫截線的端點(diǎn)上閉合當(dāng)前正文框并開始一新框。
對于各框,這時(shí)圖象處理器120對初始字符合并過程所建立的各正文框執(zhí)行第二級合并。這將可能已錯(cuò)誤地解釋為分開的正文的行并因而放置在分開的框中的正文框合并。這可能由嚴(yán)格的連接部分合并標(biāo)準(zhǔn)或由于低劣的邊沿檢測導(dǎo)致,從而使同一字符得出多個(gè)CC。
圖象處理器120將各框與它后面的正文框用一組條件對比。兩個(gè)正文框的多個(gè)測試條件為a)一個(gè)框的底部在另一個(gè)的規(guī)定的垂直間隔之內(nèi),該間隔對應(yīng)于預(yù)期的行間隔。并且,兩個(gè)框之間的水平間隔小于基于第一框中的字符平均寬度的可變閾值。
b)框之一的中心位于另一正文框的區(qū)域內(nèi),或c)第一框的頂部與第二正文框的底部重疊且一個(gè)框的左或右邊分別在另一框的左或右邊的少數(shù)象素之內(nèi)。
如果滿足上述條件中任何一項(xiàng),圖象處理器120從正文框表中刪除第二框并將其合并到第一框中。圖象處理器120重復(fù)這一過程直到互相相對測試了所有正文框并盡可能組合了為止。
在步驟S235中,如果框符合規(guī)定的面積、寬度與高度的制約,圖象處理器120接受從步驟235得出的正文框作為正文行。對于各該正文框,圖象處理器120抽取對應(yīng)于來自原始圖象的正文框的子圖象。然后,圖象處理器120二進(jìn)制化子圖象準(zhǔn)備字符識別。這便是,將彩色深度降低到2,將閾值設(shè)定為保證將字符與背景適當(dāng)?shù)馗綦x的值。這是難題,它可包含若干步驟,諸如綜合多幀來簡化復(fù)雜背景。
用于二進(jìn)制化圖象的閾值可確定如下。圖象處理器120通過計(jì)算正文框中的象素的平均灰度值(AvgFG)來修正正文框圖象。將其用作二進(jìn)制化圖象的閾值。同時(shí)計(jì)算的有正文框周圍的區(qū)(例如5個(gè)象素)的平均灰度值(AvgBG)。通過將AvgFG以上的任何象素標(biāo)記為白并將AvgFG以下的任何象素標(biāo)記為黑來二進(jìn)制化子圖象。計(jì)算標(biāo)記為白的象素的平均值A(chǔ)vg1,以及標(biāo)記為黑的象素的平均值A(chǔ)vg2。
一旦將正文框轉(zhuǎn)換成黑白(二進(jìn)制)圖象,圖象處理器120將Avg1及Avg2對AvgBG進(jìn)行比較。將具有接近AvgBG的平均值分配為背景而將另一區(qū)分配為前景(或正文)。例如,如果黑區(qū)平均值更接近AvgBG,便將黑區(qū)轉(zhuǎn)換成白色并將白區(qū)轉(zhuǎn)換成黑色。這保證正文永遠(yuǎn)是一致的值供輸入到OCR程序中。隨后圖象處理器120將抽取的幀正文存儲(chǔ)在圖象正文工作空間132中并且進(jìn)程在進(jìn)程步驟205在下一幀上繼續(xù)進(jìn)行。注意在用局部閾值法之前,可執(zhí)行超分辨步驟來增強(qiáng)正文分辨率。
下面,在能進(jìn)行分類以前必須隔離單個(gè)字符區(qū)。為了隔離正文行中的單個(gè)字符區(qū),可用各種直觀推斷,例如字符高寬比、高度與寬度的上限與閾值等。這些直觀推斷通常落入各種維度特征的容許值的預(yù)測類別中。
由于原始正文中缺乏清楚性,連接部分有可能不能與字符對應(yīng)。參見圖6A-6D,如果CC劃分失敗,可利用另一工具沿水平線劃分字符。一個(gè)實(shí)例是作為水平坐標(biāo)的函數(shù)并且其值是與當(dāng)前正文框內(nèi)所包含的并與該X坐標(biāo)重合的垂直列中的前景象素的數(shù)目(也有可能如示出的灰度值)成比例的垂直投影425。這便是,在其上面累計(jì)象素的垂直列不超過正文框的大小,因此只用這一方法測定字符的當(dāng)前行。也可用窗口函數(shù)425加權(quán)這一“灰度”垂直投影425,窗口的寬度與序列中下一字符的預(yù)期寬度成正比。420上示出用窗口函數(shù)425加權(quán)的結(jié)果??捎米钚⊥队爸祦矶x字符的左與右邊。
參見圖7A,用于隔離字符區(qū)的方法從第一CC開始并順序進(jìn)行通過正文框。在步驟S310上開始,選擇第一或下一CC。在步驟S312上對照維度直觀推斷測試所選擇的CC來判定該CC是否符合它們。CC上的直觀推斷測試可能指示該CC不大可能是整個(gè)字符或者它太大而有可能包含一個(gè)以上字符。如果在步驟314中發(fā)現(xiàn)該CC太大,在步驟S316中應(yīng)用劃分字符的替代方法,例如上述灰度投影。如果在步驟S322中發(fā)現(xiàn)該CC太小,則在步驟S318中對照直觀推斷測試下一CC。如果在步驟S320中這顯示后面的CC也太小,則在步驟S326中將當(dāng)前與后面的CC合并而流程返回到步驟S310直到隔離了所有字符區(qū)為止。如果后面的CC并不太小,則在步驟S324中丟棄當(dāng)前CC而流程進(jìn)行到步驟S310。
參見圖7B,另一劃分字符的方法保留直觀推斷失敗的選擇字符區(qū)并試圖分類這些選擇對象。在分類時(shí),選擇達(dá)到最高置信度級的選擇對象。然后相應(yīng)地對待其它字符區(qū)。例如如果用高置信度測定分類對應(yīng)于兩個(gè)合并的CC的圖象,不再將對應(yīng)于用來與第一CC合并的字段作為獨(dú)立的字符字段對待。在步驟S330中,選擇第一或下一CC。在步驟S332上,對照維度直觀推斷測試選擇的CC來判定該CC是否符合它們。如果在步驟S334中發(fā)現(xiàn)該CC太大,在步驟S336中應(yīng)用劃分字符的替代方法。如果在步驟S338中發(fā)現(xiàn)該CC太小,保留當(dāng)前CC及與下一CC組合的當(dāng)前CC兩者作為供兩者擇一的字符字段。當(dāng)將這些字符字段提交給下述分類時(shí),利用置信度測定來選擇兩者之一。然后流程返回到步驟S310直到隔離了所有字符區(qū)為止。如果步驟S336的分裂操作產(chǎn)生低置信度測定,則保留超大的與斷裂的字段供在分類中用作選擇對象,并用分類結(jié)果在選擇對象之間進(jìn)行選擇。
注意不一定非將與字符重合的區(qū)定義為用直線組成的。它們可以是橡膠帶類型的邊界區(qū)(任意邊數(shù)的凸多邊形)或正交凸直線多邊形(直線組成的多邊形其中連接內(nèi)部兩點(diǎn)的每一條水平或垂直線段全部位于內(nèi)部)或基本上封閉預(yù)期的符號或字符的所關(guān)心的特征的任何其它適當(dāng)?shù)男螤睢?br>
還注意可完全省略正文框的形成而直接用連接部分來識別候選字符區(qū)。然而,在這一情況中,預(yù)期會(huì)有較大數(shù)目的連接部分將超出將它們映射(分類)到其中的特定符號集合。還注意從上面的描述中很清楚可將上面的技術(shù)一般性地應(yīng)用在符號分類上而不限于文字字符分類。
參見圖8,一旦隔離了所有字符區(qū)(用步驟S405概括),便可順序分類字符。下面在步驟S410中,選擇第一或順序的字符區(qū)。在步驟S415中,將原始圖象的一部分(或其紅色部分)提交給一些適當(dāng)?shù)膱D象分析來為特征分析作準(zhǔn)備。例如,可將圖象二進(jìn)制化(用閾值),得出灰度圖象,二進(jìn)制化與變細(xì),等。預(yù)處理根據(jù)所使用的特征空間變化。
參見圖9A-9D,例如,特征空間可利用某些特征點(diǎn)(如下面描述的)。特征點(diǎn)是可用構(gòu)架字符識別的并從正規(guī)的視頻字符(圖9A)導(dǎo)出它們,可將圖象二進(jìn)制化(圖9B)然后變細(xì)(圖9C)。然后可作為變細(xì)后的字符460、470的角點(diǎn)465、彎點(diǎn)466、交叉點(diǎn)467及端點(diǎn)468導(dǎo)出特征點(diǎn)(圖9D,465-468)。這種圖象處理很適用于下述角直方圖特征空間??赡苄枰^低級的圖象處理來計(jì)算大小不變矩。注意同樣可用其它特征點(diǎn)定義系統(tǒng)。
再參見圖8,可將原始字符提交給各種不同分析來定義可作用在適當(dāng)?shù)赜?xùn)練的向后傳播神經(jīng)網(wǎng)絡(luò)(BPNN)的輸入上的特征矢量。對于采用大小不變矩的技術(shù),可使用不變細(xì)或變細(xì)的字符。在步驟S420中,用適當(dāng)?shù)膱D象分析生成選擇的特征矢量??墒褂酶魇礁鳂拥膱D象分析。已為與本專利相關(guān)的應(yīng)用定義了若干不同特征空間。下面詳細(xì)描述的定義的特征空間是大小與旋轉(zhuǎn)不變的并認(rèn)為特別適用于使用BPNN分類器的視頻字符分類。
從變細(xì)后的字符的特征點(diǎn)導(dǎo)出第一特征空間,如圖9A-9D所示。參見圖10A與10B,首先從特征點(diǎn)12導(dǎo)出Delaunay三角剖分(圖10A)或Voronoy圖(圖10B)。圖象處理器120執(zhí)行三角剖分,然后為各三角形1-6生成內(nèi)角的清單。然后它利用這一清單生成角的直方圖,如圖11A中所示。該直方圖簡單地表示由三角剖分定義的三角形1-6的集合中給定大小范圍的角A、B與C的頻率。注意其它三角剖分法或多邊形生成法也能使用。例如,參見圖10B,可利用Voronoy多邊形17與18定義一組角A’、B’、與C’,各與Voronoy圖的頂點(diǎn)14關(guān)聯(lián)。得出的角直方圖起到從其導(dǎo)出特征點(diǎn)的特定字符的特征矢量的作用。
可在上面的特征空間上加上其它大小與旋轉(zhuǎn)不變特征,例如水平線的數(shù)目、交叉點(diǎn)的數(shù)目、端點(diǎn)的數(shù)目、孔、拐點(diǎn)、中點(diǎn)、等。角直方圖的另一變型為只使用各三角形的兩個(gè)最大(或最小)內(nèi)角。角直方圖的又另一變型為使用二維角直方圖而不是一維角直方圖。例如,參見圖11B,各三角形的最大(或最小)角對定義Delaunay三角剖分(或Voronoy圖的各頂點(diǎn))中各三角形的有序的對(用大小排序)。各有序?qū)Φ牡谝辉赜糜诰仃嚨牡谝痪S而第二元素用于矩陣的第二維。以這一方式,保存角之間的相關(guān)性作為利用BPNN分類器訓(xùn)練與分類的信息。
認(rèn)為特別適用于視頻字符BPNN分類器的又另一特征空間是大小不變矩的陣列。這些矩用下面的等式定義。雖然在各種情況中可使用大量單獨(dú)的矩,本申請中選擇了特定的少數(shù)幾種。象素位置與質(zhì)心重合的象數(shù)下標(biāo)i,j用下式給出i-=Σi=1nΣj=1miB[i][j]A]]>j-=Σi=1nΣj=1mjB[i][j]A]]>其中當(dāng)閾值圖象的第i,j象素為前景象素時(shí)B[i][j]為1,而否則為0,而A是由下式給出的前景象素的聚集區(qū)A=Σi=1nΣj=1mB[i][j].]]>平移不變矩由下式給出ηp,q=Mp,qM0,0.γ]]>其中Mp,q為由下式給出的字符圖象的第p,q個(gè)原始矩Mk,j=Σi=1nΣj=1m(i-i-)k(j-j-)lB[i][j]]]>和γ=1+p+q2,]]>為輸入到BPNN選擇的不變矩為
φ1=η2,0+η0,2;φ2=4η1,12+(η2,0-η0,2)2;φ3=(3η3,0-η1,2)2+(3η2,1-η0,3)2;φ4=(η3,0-η1,2)2+(η2,1-η0,3)2;φ5=(3η2,1-η0,3)(η2,1-η0,3)[3(η3,0-η1,2)2-3(η2,1-η0,3)2]+(η3,0-3η1,2)(η3,0-η1,2)[(η3,0-η1,2)2-3(η2,1-η0,3)2]和φ6=(η2,0-η0,2)[(η3,0-3η1,2)2-(η2,1-η0,3)2]+4η1,1(η3,0+η1,2)(η2,1-η0,3)再參見圖8,在步驟S2425中,將各特征矢量作用在輸出各種候選類并取決于輸入有希望輸出非常強(qiáng)的候選者的受過訓(xùn)練的BPNN上。如果存在多個(gè)候選字符,通過將BPNN輸出的概率與推測的語言與上下文的使用頻率數(shù)據(jù)組合,可在步驟S430中作出最佳猜測。這一數(shù)據(jù)可從不同類型的資料搜集,例如,電視廣告轉(zhuǎn)錄文本、印刷資料、從因特網(wǎng)流送或下載的文件。一種組合方式是用與使用頻率統(tǒng)計(jì)關(guān)聯(lián)的對應(yīng)概率來加權(quán)BPNN輸出的概率。
對于熟悉本技術(shù)者顯而易見本發(fā)明不限于上面的示例性實(shí)施例的細(xì)節(jié),而可以以其它特定形式實(shí)施本發(fā)明而不脫離其精神或主要屬性。例如,上面提出的正文分析描述了對水平對齊的正文的偏愛。很明顯相同方法可應(yīng)用在諸如垂直對齊的正文、沿曲線的正文等其它對齊方式。
因此在所有方面都認(rèn)為這些實(shí)施例是示例性而非限制性的,發(fā)明精神是由所附權(quán)利要求而非上面的描述指明的,因此旨在將凡是進(jìn)入權(quán)利要求的意義與等效范圍內(nèi)的所有改變都包括在此。
權(quán)利要求
1.一種用于分類包含符號的圖象數(shù)據(jù)流中的符號的設(shè)備,包括帶有連接捕捉來自所述圖象數(shù)據(jù)流(170)的輸入及輸出(175)的圖象數(shù)據(jù)存儲(chǔ)單元(140);圖象處理器(120),連接至所述圖象數(shù)據(jù)存儲(chǔ)單元輸出,編程為檢測存儲(chǔ)在所述圖象數(shù)據(jù)存儲(chǔ)單元中的捕捉到的圖象數(shù)據(jù)部分中的邊沿并對其作出響應(yīng)形成邊沿圖象,從而所述邊沿圖象包含邊沿象素與非邊沿象素;所述圖象處理器編程為從所述邊沿象素定義至少一個(gè)連接部分,所述連接部分實(shí)質(zhì)上是只包含邊沿象素的連接的區(qū);所述圖象處理器編程為定義所述部分中的子圖象,其高度與寬度基本上與所述至少一個(gè)連接部分的最大高度與寬度相同;以及所述圖象處理器編程為分類所述子圖象,借此識別符號集與所述子圖象之間的最佳匹配。
2.權(quán)利要求1中的設(shè)備,其中所述圖象處理器進(jìn)一步編程為這樣的,即定義所述至少一個(gè)連接部分的邊沿象素的連接是不完善的。
3.權(quán)利要求1中的設(shè)備,其中所述圖象處理器進(jìn)一步編程為將其鄰域中包含規(guī)定數(shù)目以上的邊沿象素的非邊沿象素標(biāo)記為邊沿象素,借此閉合只包含邊沿象素的分開的連續(xù)區(qū)之間的小空隙。
4.一種用于分類包含符號的圖象數(shù)據(jù)流中的符號的設(shè)備,包括帶有連接成捕捉來自所述圖象數(shù)據(jù)流(170)的輸入及輸出(175)的圖象數(shù)據(jù)存儲(chǔ)單元(140);圖象處理器(120),連接在所述圖象數(shù)據(jù)存儲(chǔ)單元輸出上,編程為在存儲(chǔ)在所述圖象數(shù)據(jù)存儲(chǔ)單元中的所述視頻數(shù)據(jù)的至少一部分上作用差分過濾器;所述差分過濾器為諸如區(qū)分限定至少一個(gè)非邊界象素集合的連續(xù)的邊界象素集合;所述圖象處理器進(jìn)一步編程為找出包圍所述連續(xù)的邊界象素集合的最小包絡(luò);所述圖象處理器進(jìn)一步編程為在對應(yīng)于包絡(luò)的所述部分中定義子圖象;以及所述圖象處理器進(jìn)一步編程為分類所述子圖象,借此識別符號集與所述子圖象之間的最佳匹配。
5.權(quán)利要求4中的設(shè)備,其中所述圖象處理器進(jìn)一步編程為根據(jù)非邊界象素的規(guī)定鄰域中的邊界象素的數(shù)目將非邊界點(diǎn)標(biāo)記為邊界象素,使得分開的只包含邊界象素的連續(xù)區(qū)之間的空隙閉合。
6.一種分類包含符號的圖象數(shù)據(jù)流中的符號的方法,包括下述步驟通過下述步驟識別被至少一個(gè)符號占用的一部分圖象區(qū)在所述圖象上應(yīng)用差分過濾器來生成差分圖象;將所述差分圖象中其值大于預(yù)定值的象素標(biāo)記為第一象素;識別基本上連續(xù)的第一象素,使得沒有所述第一象素的連續(xù)集合與所述第一象素的另一連續(xù)集合分開大于規(guī)定的象素?cái)?shù)目;定義與包圍用所述識別步驟識別出的第一象素的橡皮帶型邊界重合的子區(qū);以及將基本上與所述子區(qū)重合的一部分所述圖象區(qū)作用在符號分類器上。
7.一種分類包含符號的圖象數(shù)據(jù)流中的符號的方法,包括下述步驟在圖象上作用邊沿檢測過濾器來識別所述圖象中的邊沿象素;從所述邊沿象素中構(gòu)成連接部分;定義各包含所述連接部分中對應(yīng)的一個(gè)的符號范圍區(qū);以及分類各與所述符號范圍區(qū)中相應(yīng)的一個(gè)重合的所述圖象的子圖象。
8.一種分類包含符號的圖象數(shù)據(jù)流中的正文的方法,包括下述步驟在圖象上作用邊沿檢測過濾器來識別所述圖象中的邊沿象素;從邊沿象素中構(gòu)成連接部分;根據(jù)所述構(gòu)成步驟的結(jié)果定義正文區(qū),使得各所述正文區(qū)聯(lián)合多個(gè)所述連接部分;根據(jù)所述連接部分之間的間隔劃分所述正文區(qū),從而識別所述圖象的單個(gè)字符區(qū);以及分類所述圖象中各與所述單個(gè)字符區(qū)中相應(yīng)的一個(gè)重合的子圖象。
9.一種用于分類包含符號的圖象數(shù)據(jù)流中的符號的設(shè)備,包括可連接在所述圖象數(shù)據(jù)流(180)上以從其抽取圖象并編程為在所述圖象上作用邊沿檢測過濾器以識別所述圖象中的邊沿象素的圖象處理器(120);所述圖象處理器進(jìn)一步編程為從所述邊沿象素中構(gòu)成連接部分;所述圖象處理器進(jìn)一步編程為定義各包含所述連接部分之一的符號區(qū);所述圖象處理器進(jìn)一步編程為分類各與所述符號區(qū)中相應(yīng)的一個(gè)重合的所述圖象的子圖象。
10.一種用于分類包含符號的圖象數(shù)據(jù)流中的正文的圖象處理器,包括可連接在圖象數(shù)據(jù)流(180)上以抽取圖象并編程為在所述圖象上作用邊沿檢測過濾器以識別所述圖象中的邊沿象素的圖象處理計(jì)算機(jī)(120);所述圖象處理計(jì)算機(jī)進(jìn)一步編程為從所述邊沿檢測過濾器的應(yīng)用中得出的邊沿象素中構(gòu)成連接部分;所述圖象處理計(jì)算機(jī)進(jìn)一步編程為根據(jù)所述構(gòu)成步驟的結(jié)果定義正文區(qū)使得各所述正文區(qū)聯(lián)結(jié)多個(gè)所述連接部分;所述圖象處理計(jì)算機(jī)進(jìn)一步編程為根據(jù)所述連接部分之間的間隙劃分所述正文區(qū),從而識別所述圖象的單個(gè)字符區(qū);以及所述圖象處理計(jì)算機(jī)進(jìn)一步編程為分類各與所述單個(gè)字符區(qū)中相應(yīng)的一個(gè)重合的所述圖象的子圖象。
11.權(quán)利要求10中的圖象處理器,其中所述圖象處理計(jì)算機(jī)編程為生成所述子圖象的投影及根據(jù)所述投影劃分所述正文區(qū)。
全文摘要
一種用于分類符號的圖象處理設(shè)備與方法依賴于隔離符號區(qū)的連接部分技術(shù)。該設(shè)備與方法從邊沿檢測過濾器的作用所導(dǎo)出的圖象中構(gòu)成連接部分。來自過濾后的圖象的連接部分的構(gòu)成定義字符形狀的邊沿。作為結(jié)果,實(shí)質(zhì)上減少了定義各連接部分所必須連接的象素?cái)?shù)目并從而提高了處理速度。主要對視頻流中的正文討論了本方法的應(yīng)用。
文檔編號G06F17/30GK1343339SQ00805011
公開日2002年4月3日 申請日期2000年10月27日 優(yōu)先權(quán)日1999年11月17日
發(fā)明者L·阿尼霍特里, N·迪米特羅瓦, J·H·埃倫巴爾斯 申請人:皇家菲利浦電子有限公司