本公開涉及信息處理領(lǐng)域,具體地涉及識別并處理視頻內(nèi)嵌字幕并基于視頻內(nèi)嵌字幕來在視頻中嵌入廣告的方法以及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)與多媒體技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)上出現(xiàn)了海量的視頻內(nèi)容,并且有越來越多的用戶通過終端設(shè)備來觀看視頻內(nèi)容。為了獲得豐厚的廣告收入,服務(wù)提供商在播放視頻時,通常會在視頻中插入各種各樣的廣告,或者在播放視頻的界面上顯示各種各樣靜態(tài)的或動態(tài)的廣告窗口。然而,存在的問題是,如何針對所播放的視頻來選擇適宜的廣告,以向用戶進行個性化的廣告投放,從而實現(xiàn)最優(yōu)的廣告效果以及最大化地提高廣告投放商的經(jīng)濟收益。
當前的廣告嵌入方法大都基于事先已經(jīng)存在的視頻描述文字。根據(jù)已經(jīng)存在的視頻簡介或者視頻標簽來選擇匹配的廣告以在播放視頻時嵌入該廣告。這類方法有明顯的局限性,因為絕大多數(shù)視頻都沒有簡介性的文字描述,更不可能有更加細致的描述視頻特定時間點標簽的文字。這就很難選擇與視頻內(nèi)容匹配的廣告。
技術(shù)實現(xiàn)要素:
為了解決現(xiàn)有技術(shù)中的至少一些問題,本發(fā)明提供了一種基于視頻內(nèi)嵌字幕來嵌入廣告的方法及裝置。
根據(jù)本發(fā)明的一方面,提供了一種基于視頻內(nèi)嵌字幕的廣告嵌入方法,包括:對視頻中的多條字幕執(zhí)行字幕聚類操作以確定最終字幕和最終字幕在視頻中呈現(xiàn)的時間;在預(yù)定的廣告列表中確定與最終字幕中的文字相匹配的廣告;以及使經(jīng)確定的匹配的廣告與最終字幕在視頻中呈現(xiàn)的時間相關(guān)聯(lián),從而使得在播放視頻時,在最終字幕在視頻中呈現(xiàn)的時間處播放匹配的廣告。
根據(jù)本發(fā)明的一個實施方式,對視頻中的多條字幕執(zhí)行字幕聚類操作以確定最終字幕和最終字幕在視頻中呈現(xiàn)的時間包括:在多條字幕中檢測出屬于同一段字幕的至少兩條字幕;以及從至少兩條字幕中確定最終字幕和最終字幕在視頻中呈現(xiàn)的時間。
根據(jù)本發(fā)明的一個實施方式,在多條字幕中檢測出屬于同一段字幕的至少兩條字幕包括:對多條字幕中的每條字幕進行切詞得到詞列表;以及如果多條字幕中的一條字幕的詞列表與其前一條字幕的詞列表的Jaccard距離小于一定閾值,則確定該條字幕與其前一條字幕屬于同一段字幕。
根據(jù)本發(fā)明的一個實施方式,從至少兩條字幕中確定最終字幕包括:計算至少兩條字幕中的每條字幕為正確字幕的概率;以及將概率最大的字幕確定為最終字幕。
根據(jù)本發(fā)明的一個實施方式,計算至少兩條字幕中的每條字幕為正確字幕的概率包括:基于語料庫和用于計算正確字幕概率的算法來計算至少兩條字幕中的每條字幕為正確字幕的概率。
根據(jù)本發(fā)明的一個實施方式,計算至少兩條字幕中的每條字幕為正確字幕的概率包括:確定至少兩條字幕中的每條字幕中是否包含有與廣告列表中的廣告相關(guān)的信息,如果是,則將該條字幕直接賦予最大字幕概率值。
廣告列表中的廣告包括廣告名稱、廣告關(guān)鍵字、圖片和網(wǎng)頁鏈接。
根據(jù)本發(fā)明的一個實施方式,在預(yù)定的廣告列表中確定與最終字幕中的文字相匹配的廣告包括:確定最終字幕中的文字與廣告列表中的廣告的廣告名稱或廣告關(guān)鍵字是否匹配,如果是,則將廣告確定為與最終字幕匹配的廣告。
根據(jù)本發(fā)明的一個實施方式,還包括提取視頻中的多條字幕的步驟。
根據(jù)本發(fā)明的一個實施方式,提取視頻中的多條字幕的步驟包括:在預(yù)定時間內(nèi)以預(yù)定時間間隔對視頻進行采樣以得到多個視頻截圖;獲取多個視頻截圖中的多個字幕區(qū)域圖像;將多個字幕區(qū)域圖像轉(zhuǎn)換為灰度圖像并進行二值化處理;對經(jīng)過二值化處理的多個字幕區(qū)域圖像進行OCR文字識別,以獲取多條字幕;以及對多條字幕進行過濾,以去除多條字幕中的非文字符號。
根據(jù)本發(fā)明的一個實施方式,獲取多個視頻截圖中的多個字幕區(qū)域圖像包括:將多個視頻截圖中的每個視頻截圖分割為上、下、左、右四個區(qū)域;對每個視頻截圖的上、下、左、右四個區(qū)域分別進行OCR文字識別以提取文本;基于所提取的文本,確定四個區(qū)域中出現(xiàn)文本次數(shù)最多的區(qū)域;以及針對多個視頻截圖中的每個視頻截圖,對出現(xiàn)文本次數(shù)最多的區(qū)域進行截取以獲得多個字幕區(qū)域圖像。
根據(jù)本發(fā)明的一方面,提供了一種基于視頻內(nèi)嵌字幕來嵌入廣告的裝置,包括:字幕處理單元,被配置為對視頻中的多條字幕執(zhí)行字幕聚類操作以確定最終字幕和最終字幕在視頻中呈現(xiàn)的時間;確定單元,被配置為在預(yù)定的廣告列表中確定與最終字幕中的文字相匹配的廣告;廣告處理單元,被配置為使經(jīng)確定的匹配的廣告與最終字幕在視頻中呈現(xiàn)的時間相關(guān)聯(lián),從而使得在播放視頻時,在最終字幕在視頻中呈現(xiàn)的時間處播放匹配的廣告。
根據(jù)本發(fā)明的一個實施方式,字幕處理單元進一步被配置為:在多條字幕中檢測出屬于同一段字幕的至少兩條字幕;以及從至少兩條字幕中確定最終字幕和最終字幕在視頻中呈現(xiàn)的時間。
根據(jù)本發(fā)明的一個實施方式,字幕處理單元進一步被配置為:對多條字幕中的每條字幕進行切詞得到詞列表;以及如果多條字幕中的一條字幕的詞列表與其前一條字幕的詞列表的Jaccard距離小于一定閾值,則確定該條字幕與其前一條字幕屬于同一段字幕。
根據(jù)本發(fā)明的一個實施方式,字幕處理單元進一步被配置為:計算至少兩條字幕中的每條字幕為正確字幕的概率;以及將概率最大的字幕確定為最終字幕。
根據(jù)本發(fā)明的一個實施方式,字幕處理單元進一步被配置為:基于語料庫和用于計算正確字幕概率的算法來計算至少兩條字幕中的每條字幕為正確字幕的概率。
根據(jù)本發(fā)明的一個實施方式,字幕處理單元進一步被配置為:確定至少兩條字幕中的每條字幕中是否包含有與廣告列表中的廣告相關(guān)的信息,如果是,則將該條字幕直接賦予最大字幕概率值。
廣告列表中的廣告包括廣告名稱、廣告關(guān)鍵字、圖片和網(wǎng)頁鏈接。
根據(jù)本發(fā)明的一個實施方式,確定單元進一步被配置為:確定最終字幕中的文字與廣告列表中的廣告的廣告名稱或廣告關(guān)鍵字是否匹配,如果是,則將廣告確定為與最終字幕匹配的廣告。
根據(jù)本發(fā)明的一個實施方式,所述裝置還包括提取單元,被配置為:在預(yù)定時間內(nèi)以預(yù)定時間間隔對視頻進行采樣以得到多個視頻截圖;獲取多個視頻截圖中的多個字幕區(qū)域圖像;將多個字幕區(qū)域圖像轉(zhuǎn)換為灰度圖像并進行二值化處理;對經(jīng)過二值化處理的多個字幕區(qū)域圖像進行OCR文字識別,以獲取多條字幕;以及對多條字幕進行過濾,以去除多條字幕中的非文字符號。
根據(jù)本發(fā)明的一個實施方式,提取單元進一步被配置為:將多個視頻截圖中的每個視頻截圖分割為上、下、左、右四個區(qū)域;對每個視頻截圖的上、下、左、右四個區(qū)域分別進行OCR文字識別以提取文本;基于所提取的文本,確定四個區(qū)域中出現(xiàn)文本次數(shù)最多的區(qū)域;以及針對多個視頻截圖中的每個視頻截圖,對出現(xiàn)文本次數(shù)最多的區(qū)域進行截取以獲得多個字幕區(qū)域圖像。
根據(jù)本發(fā)明的一方面,提供了一種基于視頻內(nèi)嵌字幕來嵌入廣告的裝置,包括:存儲器,存儲有計算機可執(zhí)行的指令;以及處理器,執(zhí)行所述指令以,對視頻中的多條字幕執(zhí)行字幕聚類操作以確定最終字幕和最終字幕在視頻中呈現(xiàn)的時間;在預(yù)定的廣告列表中確定與最終字幕中的文字相匹配的廣告;以及使經(jīng)確定的匹配的廣告與最終字幕在視頻中呈現(xiàn)的時間相關(guān)聯(lián),從而使得在播放視頻時,在最終字幕在視頻中呈現(xiàn)的時間處播放匹配的廣告。
附圖說明
結(jié)合附圖,通過以下非限制性實施方式的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將變得更明顯。在附圖中:
圖1示出根據(jù)本申請實施方式的基于視頻內(nèi)嵌字幕的廣告嵌入方法的流程圖;
圖2a示出在執(zhí)行圖1中的步驟S101之前的多條字幕的示例;
圖2b至圖2d示出根據(jù)本申請實施方式的經(jīng)OCR識別、字幕過濾和字幕聚類過程中的字幕的示例;
圖3示出對圖1所示實施方式中步驟S101的細化流程圖;
圖4示出根據(jù)本申請實施方式的提取視頻中的多條字幕的流程圖;
圖5示出根據(jù)本申請實施方式的基于視頻內(nèi)嵌字幕來嵌入廣告的裝置的結(jié)構(gòu)的框圖;
圖6示出根據(jù)本申請實施方式的基于視頻內(nèi)嵌字幕來嵌入廣告的裝置的結(jié)構(gòu)的框圖;以及
圖7是適于用來實現(xiàn)根據(jù)本申請實施方式的基于視頻內(nèi)嵌字幕的廣告嵌入方法的計算機系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
下文中,將參考附圖詳細描述本發(fā)明的示例性實施方式,以使本領(lǐng)域技術(shù)人員可容易地實現(xiàn)它們。此外,為了清楚起見,在附圖中省略了與描述示例性實施方式無關(guān)的部分。
在本公開中,應(yīng)理解,諸如‘包括’或‘具有’等的術(shù)語旨在指示本說明書中所公開的特征、數(shù)字、步驟、行為、部件、部分或其組合的存在,并且不欲排除一個或多個其他特征、數(shù)字、步驟、行為、部件、部分或其組合存在或被添加的可能性。
圖1示出根據(jù)本申請實施方式的基于視頻內(nèi)嵌字幕的廣告嵌入方法100的流程圖。
在步驟S101中,對視頻中的多條字幕執(zhí)行字幕聚類操作以確定最終字幕和最終字幕在視頻中呈現(xiàn)的時間。在步驟S102中,在預(yù)定的廣告列表中確定與最終字幕中的文字相匹配的廣告。在步驟S103中,使經(jīng)確定的匹配的廣告與最終字幕在視頻中呈現(xiàn)的時間相關(guān)聯(lián),從而使得在播放視頻時,在最終字幕在視頻中呈現(xiàn)的時間處播放匹配的廣告。在下文中將對步驟S101、S102和S103分別做進一步的描述。
步驟S101
在視頻播放過程中,同一段字幕會持續(xù)一段時間,所以同一段字幕會被多次識別,導致出現(xiàn)實際上屬于同一段字幕的多條字幕。又因為隨著字幕背景的變換可能出現(xiàn)針對上述多條字幕的多次OCR識別結(jié)果不一致的情況,也就是說,被識別出的實際上屬于同一段字幕的多條字幕可能并不完全一致。因此需要對通過OCR識別出的多條字幕進行聚類分析以確定最終字幕。將最終字幕對應(yīng)幀號轉(zhuǎn)換為字幕出現(xiàn)的時間,從而確定最終字幕在視頻中呈現(xiàn)的時間。
舉例來說,如圖2a所示,由于字幕在視頻中有一定的停留時間,視頻中的字幕“那時候一件Prada衣服拿到我們這里改”的OCR識別結(jié)果出現(xiàn)多條(在該示例中,約為6-8條),即,“那時候一件Prada衣月眸至我1”、“那時候一件Pra腮衣服拿到我們這里改”等等。因此,需要對所有多條識別結(jié)果進行聚類分析,以獲得最終字幕。最終字幕是被認為與視頻中出現(xiàn)的原始字幕最接近或相似度最高的字幕。在如圖2所示的示例中,聚類分析之后,“那時候一件Prada衣月眸至我1”被確定為最終字幕。下文參照圖3將對字幕聚類操作的方法做出詳細的描述。
如圖3所示,在步驟S101a中,在多條字幕中檢測出屬于同一段字幕的至少兩條字幕。如上文所描述的,對于視頻中的一條字幕,由于該條字幕可能會在視頻播放期間停留一定時間,因此通過對該條字幕進行OCR識別可能會生成兩條或更多條字幕識別結(jié)果。這些字幕識別結(jié)果實際上是屬于視頻中的同一段字幕的。因此,需要將多次識別出的同一段字幕聚類到一組中以用于后續(xù)處理。根據(jù)一個實施方式,可對識別出的多條字幕中的每條字幕進行切詞得到詞列表,計算該詞列表與前一條字幕詞列表的Jaccard距離,當Jaccard距離小于一定閾值時(諸如:小于0.8),則將該條字幕與其前一條字幕聚類為一組。
接著在步驟S101b中,從至少兩條字幕中確定最終字幕和最終字幕在視頻中呈現(xiàn)的時間??蓮臋z測到的屬于同一段字幕的至少兩條字幕中選出最有可能的一條字幕。根據(jù)一個實施方式,可使用諸如百度百科文本作為語料庫進行統(tǒng)計,采用NLP unigram算法、bigram算法或trigram算法來計算每條字幕為正確字幕的字幕概率。在其它實施方式中,也可使用其它百科文本作為語料庫。根據(jù)一個實施方式,如果字幕中包含有廣告的廣告名稱或廣告關(guān)鍵字,則直接將該條字幕為正確字幕的字幕概率賦最大值。之后,選取字幕概率最大的字幕作為聚類后每個組的最終字幕
舉例來說,如圖2b所示,視頻中的字幕經(jīng)初始OCR識別之后存在以下情況,即,同一段字幕被多次識別從而出現(xiàn)針對同一段字幕的多條識別出的字幕,以及識別出的字幕中存在各種各樣的非文字符號(諸如各種標點符號、空格等),這都將對后續(xù)與廣告列表中的廣告進行匹配產(chǎn)生不利影響。因此,需要對經(jīng)初始OCR識別出的字幕進行進一步優(yōu)化處理。如圖2c所示,是對圖2b中示出的識別出的字幕進行過濾之后的結(jié)果。經(jīng)過濾處理之后,濾除掉了不期望的與廣告匹配無關(guān)的無效字符。如圖2d所示,是對圖2c中示出的過濾后的字幕進行聚類操作之后的結(jié)果。聚類操作可以從屬于同一段字幕的多條字幕中選擇出最有可能的一條字幕。這能夠?qū)⒆R別出的重復字幕去重復,提高視頻中的字幕與廣告列表中的廣告的匹配效率。從圖2d中可明顯地看出,經(jīng)過聚類操作之后,僅最有可能的字幕被保留下來且這些字幕之間無重復。
步驟S102
預(yù)定的廣告列表中包括多條廣告。根據(jù)本申請的一個實施方式,可以由視頻提供商來確定預(yù)定的廣告列表中所包含的廣告,也可以由視頻網(wǎng)站的運營商來確定預(yù)定的廣告列表中所包含的廣告。根據(jù)一個實施方式,廣告可包含廣告名稱、廣告關(guān)鍵字、圖片和網(wǎng)頁鏈接等內(nèi)容。根據(jù)一個實施方式,廣告可以是靜態(tài)圖片或者動態(tài)圖片。
根據(jù)本申請的一個實施方式,對預(yù)定的廣告列表進行搜索,如果最終字幕中的文字與預(yù)定的廣告列表中的某條廣告的廣告名稱相匹配,則將該條廣告確定為與最終字幕匹配的廣告??商鎿Q地,如果最終字幕中的文字與預(yù)定的廣告列表中的某條廣告的廣告關(guān)鍵字相匹配,則將該條廣告確定為與最終字幕匹配的廣告??商鎿Q地,還可采用其它匹配方式來確定與最終字幕匹配的廣告。
步驟S103
如上所述,在步驟S103中,使經(jīng)確定的匹配的廣告與最終字幕在視頻中呈現(xiàn)的時間相關(guān)聯(lián),從而使得在播放視頻時,在最終字幕在視頻中呈現(xiàn)的時間處播放匹配的廣告。根據(jù)本申請的一個實施方式,為了在適宜的時間播放匹配的廣告,可以為每個匹配的廣告設(shè)定一個播放時間點。具體地,可以將每個匹配的廣告的播放時間點設(shè)定為與其匹配的最終字幕在視頻中的呈現(xiàn)時間。
在播放視頻時,檢測視頻播放當前時間點,如果視頻播放當前時間點與廣告的播放時間點一致,則將廣告呈現(xiàn)在特定區(qū)域。在一個實施方式中,可以使用圖層方式將廣告圖片以淡入、靜止、淡出視頻的形式呈現(xiàn)在特定區(qū)域。如果顯示過程中觀看者點擊圖片,則跳轉(zhuǎn)到廣告網(wǎng)頁鏈接地址上。
此外,根據(jù)本申請的一個實施方式,基于視頻內(nèi)嵌字幕的廣告嵌入方法100還可包括提取視頻中的多條字幕的步驟。下文將參照圖4詳細描述提取視頻中的多條字幕的步驟400。
在圖4中,在步驟S401中,在預(yù)定時間內(nèi)以預(yù)定時間間隔對視頻進行采樣以得到多個視頻截圖。
根據(jù)一個實施方式,可以以1秒為間隔對視頻進行采樣,提取視頻前1分鐘內(nèi)容,獲得60張視頻截圖。
在步驟S402中,獲取多個視頻截圖中的多個字幕區(qū)域圖像。
基于先驗知識,絕大部分視頻字幕出現(xiàn)在上1/3、下1/3、左1/3、右1/3四種位置,分別定義為TOP、BOTTOM、LEFT、RIGHT區(qū)域。因此可以通過對所得60張視頻截圖分別進行OCR分析來確定字幕位于上述四個區(qū)域中的哪個區(qū)域。根據(jù)一個實施方式,可以通過對所得60張視頻截圖分別進行OCR分析,分別提取60張視頻截圖的TOP、BOTTOM、LEFT、RIGHT 4個區(qū)域中的文本并累加文本數(shù)量,將累加結(jié)果最大值的區(qū)域確定為字幕區(qū)域。
根據(jù)一個實施方式,在確定了視頻的字幕區(qū)域之后,可將完整視頻進行幀分,每秒取3幀圖像,對每幀圖像進行修剪,僅保留字幕區(qū)域圖像。
在步驟S403中,將多個字幕區(qū)域圖像轉(zhuǎn)換為灰度圖像并進行二值化處理。
在一個實施方式中,可對字幕區(qū)域圖像進行RGB->GRAY轉(zhuǎn)為灰度圖像,使用閾值進行二值化(諸如,使用閾值200)。
在步驟S404中,對經(jīng)過二值化處理的多個字幕區(qū)域圖像進行OCR文字識別,以獲取多條字幕。
在一個實施方式中,使用OCR識別工具,加載字幕區(qū)域圖像數(shù)據(jù),對預(yù)處理后的字幕區(qū)域圖像進行文字識別。
在步驟S405中,對多條字幕進行過濾,以去除多條字幕中的非文字符號。
在一個實施方式中,對OCR識別后的字符進行過濾,僅保留中文、字母、數(shù)字等字符。
圖5示出根據(jù)本申請實施方式的基于視頻內(nèi)嵌字幕來嵌入廣告的裝置的結(jié)構(gòu)的框圖。
根據(jù)圖5,基于視頻內(nèi)嵌字幕來嵌入廣告的裝置500可包括字幕處理單元501、確定單元502和廣告處理單元503。裝置500可以是任何具有數(shù)據(jù)處理功能的裝置,例如,可以是各種類型的計算機裝置。在一個實施例中,裝置500可以是由視頻服務(wù)提供商提供的服務(wù)器裝置。在一個實施方式中,裝置500可經(jīng)由纜線連接至因特網(wǎng)或外部裝置,且裝置500可從因特網(wǎng)或外部裝置接收視頻內(nèi)容以進一步從所接收的視頻中提取字幕以及基于所提取的字幕來嵌入廣告。
字幕處理單元501可以對裝置500接收的視頻內(nèi)容中的字幕進行處理,以獲得用于與預(yù)定廣告列表中的廣告進行匹配的最終字幕。根據(jù)一個實施方式,字幕處理單元501可對視頻內(nèi)容播放期間出現(xiàn)的多條字幕(例如,字幕A、A’、B和B’)進行處理以獲得最終字幕。具體地,字幕處理單元501可對多條字幕A、A’、B和B’進行切詞得到相應(yīng)字幕的詞列表:A的詞列表、A’的詞列表、B的詞列表和B’的詞列表。字幕處理單元501可根據(jù)算法確定各詞列表之間的Jaccard距離,如果A的詞列表和A’的詞列表之間的Jaccard距離小于一定閾值,則確定A字幕與A’字幕屬于同一段字幕。假設(shè)采用上述方法計算的A和A’為同一段字幕,B和B’為同一段字幕,且A和B不為同一段字幕。隨后,字幕處理單元501可基于語料庫和用于計算正確字幕概率的算法來計算確定A和A’中哪一條為正確字幕。用于計算正確字幕概率的算法例如是NLP unigram算法、bigram算法或trigram算法。根據(jù)一個實施方式,字幕處理單元501可判斷字幕A和A’中是否包含有與廣告列表中的廣告相關(guān)的信息,如果是,則將該條字幕直接賦予最大正確字幕概率值。根據(jù)一個實施方式,字幕處理單元501可將概率最大的字幕確定為最終字幕。字幕處理單元501可將最終字幕對應(yīng)幀號轉(zhuǎn)換為字幕出現(xiàn)的時間,從而確定最終字幕在視頻中呈現(xiàn)的時間。
根據(jù)一個實施方式,確定單元502可確定最終字幕中的文字與預(yù)定廣告列表中的廣告的廣告名稱或廣告關(guān)鍵字是否匹配,如果是,則將廣告確定為與最終字幕匹配的廣告。
根據(jù)一個實施方式,廣告處理單元503使經(jīng)確定的匹配的廣告與最終字幕在視頻中呈現(xiàn)的時間相關(guān)聯(lián),從而使得在播放視頻時,在最終字幕在視頻中呈現(xiàn)的時間處播放匹配的廣告。
圖6示出根據(jù)本申請實施方式的基于視頻內(nèi)嵌字幕來嵌入廣告的裝置的結(jié)構(gòu)的框圖。
在圖6中,基于視頻內(nèi)嵌字幕來嵌入廣告的裝置600包括提取單元601、字幕處理單元602、確定單元603和廣告處理單元604。
提取單元601可在預(yù)定時間內(nèi)以預(yù)定時間間隔對視頻進行采樣以得到多個視頻截圖。在一個實施方式中,提取單元601可以以1秒為間隔對視頻進行采樣,提取視頻前1分鐘內(nèi)容,從而共獲取到60張截圖。提取單元601可分別將60張截圖分割為上、下、左、右四個區(qū)域,并對每張截圖的上、下、左、右四個區(qū)域分別進行OCR文字識別以提取文本。根據(jù)一個實施方式,提取單元601可分別將60張截圖分割為任意期望的區(qū)域,并對所分割的區(qū)域分別進行OCR文字識別以提取文本。在上述實施例中,判斷60張截圖的上、下、左、右四個區(qū)域中哪個區(qū)域出現(xiàn)的文本次數(shù)最多,將出現(xiàn)文本次數(shù)最多的區(qū)域確定為字幕區(qū)域。為了更有利于對字幕區(qū)域進行OCR識別,可將字幕區(qū)域的圖像轉(zhuǎn)換為灰度圖像并進行二值化處理。隨后,對經(jīng)過二值化處理的字幕區(qū)域圖像進行OCR文字識別,以獲取字幕。在一個實施方式中,提取單元601可對字幕進行過濾,以去除字幕中的非文字符號,諸如空格、省略號、制表符等。
圖6中的字幕處理單元602、確定單元603和廣告處理單元604與圖5中的字幕處理單元501、確定單元502和廣告處理單元503功能相似,此處省略對其的描述。
圖7是適于用來實現(xiàn)根據(jù)本申請實施方式的基于視頻內(nèi)嵌字幕的廣告嵌入方法的計算機系統(tǒng)的結(jié)構(gòu)示意圖。
如圖7所示,計算機系統(tǒng)700包括中央處理單元(CPU)701,其可以根據(jù)存儲在只讀存儲器(ROM)702中的程序或者從存儲部分708加載到隨機訪問存儲器(RAM)703中的程序而執(zhí)行上述圖1所示的實施方式中的各種處理。在RAM 703中,還存儲有系統(tǒng)700操作所需的各種程序和數(shù)據(jù)。CPU 701、ROM 702以及RAM 703通過總線704彼此相連。輸入/輸出(I/O)接口705也連接至總線704。
以下部件連接至I/O接口705:包括鍵盤、鼠標等的輸入部分706;包括諸如陰極射線管(CRT)、液晶顯示器(LCD)等以及揚聲器等的輸出部分705;包括硬盤等的存儲部分708;以及包括諸如LAN卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分709。通信部分709經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器710也根據(jù)需要連接至I/O接口705。可拆卸介質(zhì)711,諸如磁盤、光盤、磁光盤、半導體存儲器等等,根據(jù)需要安裝在驅(qū)動器710上,以便于從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分708。
特別地,根據(jù)本公開的實施方式,上文參考圖1描述的方法可以被實現(xiàn)為計算機軟件程序。例如,本公開的實施方式包括一種計算機程序產(chǎn)品,其包括有形地包含在機器可讀介質(zhì)上的計算機程序,所述計算機程序包含用于執(zhí)行圖1的方法的程序代碼。在這樣的實施方式中,該計算機程序可以通過通信部分709從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)711被安裝。
附圖中的流程圖和框圖,圖示了按照本發(fā)明各種實施方式的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當注意,在有些作為替換的實現(xiàn)中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
描述于本申請實施方式中所涉及到的單元或模塊可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的單元或模塊也可以設(shè)置在處理器中,這些單元或模塊的名稱在某種情況下并不構(gòu)成對該單元或模塊本身的限定。
作為另一方面,本申請還提供了一種計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)可以是上述實施方式中所述裝置中所包含的計算機可讀存儲介質(zhì);也可以是單獨存在,未裝配入設(shè)備中的計算機可讀存儲介質(zhì)。計算機可讀存儲介質(zhì)存儲有一個或者一個以上程序,所述程序被一個或者一個以上的處理器用來執(zhí)行描述于本申請的方法。
以上描述僅為本申請的較佳實施方式以及對所運用技術(shù)原理的說明。本領(lǐng)域技術(shù)人員應(yīng)當理解,本申請中所涉及的發(fā)明范圍,并不限于上述技術(shù)特征的特定組合而成的技術(shù)方案,同時也應(yīng)涵蓋在不脫離所述發(fā)明構(gòu)思的情況下,由上述技術(shù)特征或其等同特征進行任意組合而形成的其它技術(shù)方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術(shù)特征進行互相替換而形成的技術(shù)方案。