本發(fā)明涉及廣播電視技術(shù)領(lǐng)域,具體而言,涉及一種字幕疊加方法及裝置。
背景技術(shù):
隨著科學(xué)技術(shù)的發(fā)展和人們生活水平的提高,視頻已經(jīng)成為人們工作、學(xué)習(xí)、社交以及休閑娛樂不可替代的重要方式,并且人們對(duì)于視頻的要求也越來越高。目前,在視頻編輯系統(tǒng)中,對(duì)于數(shù)據(jù)流視頻文件的字幕的設(shè)定及生成的方式各不相同。但是,目前常用的解碼器顯示的字幕一般都是電視臺(tái)通過采編系統(tǒng)直接在視頻上進(jìn)行編輯,編輯完成以后給編碼器壓縮編碼再進(jìn)行傳輸。所以,接收機(jī)解出來的字幕只能是電視臺(tái)預(yù)先編輯好的字幕。如此,部分無字幕的電視節(jié)目將不利于聽力障礙人群收看。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提供一種字幕疊加方法及裝置,以解決上述問題。
本發(fā)明實(shí)施例提供一種字幕疊加方法,應(yīng)用于字幕疊加終端,所述字幕疊加終端包括多個(gè)輸入接口,所述方法包括:
接收分別從所述多個(gè)輸入接口輸入的ts流信號(hào),將所述ts流信號(hào)的模式轉(zhuǎn)換為指定模式;
對(duì)轉(zhuǎn)換后的ts流信號(hào)進(jìn)行解碼,獲得音頻流和視頻流;
對(duì)獲得的所述音頻流進(jìn)行濾波處理,獲得語音信息;
通過語音識(shí)別將所述語音信息轉(zhuǎn)換為文本信息,并根據(jù)所述文本信息生成對(duì)應(yīng)的字幕圖片;
將所述視頻流和所述字幕圖片進(jìn)行疊加處理,生成包括字幕的數(shù)據(jù)流視頻文件。
進(jìn)一步地,所述轉(zhuǎn)換后的ts流信號(hào)包括多套節(jié)目的ts流信號(hào),所述方法還包括:
接收輸入的疊加請(qǐng)求指令以及輸入的節(jié)目信息;
根據(jù)接收到的所述節(jié)目信息將包含多套節(jié)目的ts流信號(hào)轉(zhuǎn)換為與所述節(jié)目信息對(duì)應(yīng)的ts流信號(hào)。
進(jìn)一步地,所述方法還包括:
檢測解碼后的與所述節(jié)目信息對(duì)應(yīng)的視頻流中是否包含文本信息,若不包含文本信息,則執(zhí)行所述對(duì)獲得的所述音頻流進(jìn)行濾波處理的步驟。
進(jìn)一步地,所述通過語音識(shí)別將所述語音信息轉(zhuǎn)換為文本信息的步驟,包括:
對(duì)所述語音信息進(jìn)行分幀處理,獲得多段語音幀;
將各幀語音幀進(jìn)行轉(zhuǎn)換,獲得對(duì)應(yīng)的多維向量,其中各所述多維向量分別包含各所述語音幀的內(nèi)容信息;
根據(jù)獲得的多個(gè)所述多維向量,獲得所述語音信息對(duì)應(yīng)的文本信息。
進(jìn)一步地,所述方法還包括:
設(shè)定一線性遞增的參考時(shí)鐘;
根據(jù)所述參考時(shí)鐘將獲得的所述音頻流中的每個(gè)音頻數(shù)據(jù)塊和所述視頻流中的每個(gè)視頻數(shù)據(jù)塊打上時(shí)間戳;
讀取所述音頻流中的各所述音頻數(shù)據(jù)塊和所述視頻流中的各所述視頻數(shù)據(jù)塊上的時(shí)間戳,并參考當(dāng)前參考時(shí)鐘上的時(shí)間來進(jìn)行音頻輸出和視頻輸出,以使音視頻達(dá)到同步。
本發(fā)明另一較佳實(shí)施例提供一種字幕疊加裝置,應(yīng)用于字幕疊加終端,所述字幕疊加終端包括多個(gè)輸入接口,所述字幕疊加裝置包括接收模塊、解碼模塊、濾波處理模塊、第一轉(zhuǎn)換模塊及疊加處理模塊;
所述接收模塊用于接收分別從所述多個(gè)輸入接口輸入的ts流信號(hào),將所述ts流信號(hào)的模式轉(zhuǎn)換為指定模式;
所述解碼模塊用于對(duì)轉(zhuǎn)換后的ts流信號(hào)進(jìn)行解碼,獲得音頻流和視頻流;
所述濾波處理模塊用于對(duì)獲得的所述音頻流進(jìn)行濾波處理,獲得語音信息;
所述第一轉(zhuǎn)換模塊用于通過語音識(shí)別將所述語音信息轉(zhuǎn)換為文本信息,并根據(jù)所述文本信息生成對(duì)應(yīng)的字幕圖片;
所述疊加處理模塊用于將所述視頻流和所述字幕圖片進(jìn)行疊加處理,生成包括字幕的數(shù)據(jù)流視頻文件。
進(jìn)一步地,所述轉(zhuǎn)換后的ts流信號(hào)包括多套節(jié)目的ts流信號(hào),所述字幕疊加裝置還包括指令接收模塊及第二轉(zhuǎn)換模塊;
所述指令接收模塊用于接收輸入的疊加請(qǐng)求指令以及輸入的節(jié)目信息;
所述第二轉(zhuǎn)換模塊用于根據(jù)接收到的所述節(jié)目信息將包含多套節(jié)目的ts流信號(hào)轉(zhuǎn)換為與所述節(jié)目信息對(duì)應(yīng)的ts流信號(hào)。
進(jìn)一步地,所述字幕疊加裝置還包括檢測模塊;
所述檢測模塊用于檢測解碼后的與所述節(jié)目信息對(duì)應(yīng)的視頻流中是否包含文本信息,若不包含文本信息,則執(zhí)行所述濾波處理模塊所執(zhí)行的對(duì)獲得的所述音頻流進(jìn)行濾波處理的步驟。
進(jìn)一步地,所述第一轉(zhuǎn)換模塊包括分幀單元、轉(zhuǎn)換單元以及獲取單元;
所述分幀單元用于對(duì)所述語音信息進(jìn)行分幀處理,獲得多段語音幀;
所述轉(zhuǎn)換單元用于將各幀語音幀進(jìn)行轉(zhuǎn)換,獲得對(duì)應(yīng)的多維向量,其中各所述多維向量分別包含各所述語音幀的內(nèi)容信息;
所述獲取單元用于根據(jù)獲得的多個(gè)所述多維向量,獲得所述語音信息對(duì)應(yīng)的文本信息。
進(jìn)一步地,所述字幕疊加裝置還包括設(shè)定模塊、時(shí)間戳設(shè)置模塊以及讀取模塊;
所述設(shè)定模塊用于設(shè)定一線性遞增的參考時(shí)鐘;
所述時(shí)間戳設(shè)置模塊用于根據(jù)所述參考時(shí)鐘將獲得的所述音頻流中的每個(gè)音頻數(shù)據(jù)塊和所述視頻流中的每個(gè)視頻數(shù)據(jù)塊打上時(shí)間戳;
所述讀取模塊用于讀取所述音頻流中的各所述音頻數(shù)據(jù)塊和所述視頻流中的各所述視頻數(shù)據(jù)塊上的時(shí)間戳,并參考當(dāng)前參考時(shí)鐘上的時(shí)間來進(jìn)行音頻輸出和視頻輸出,以使音視頻達(dá)到同步。
本發(fā)明實(shí)施例提供的字幕疊加方法及裝置,通過對(duì)接收到的ts流信號(hào)進(jìn)行解碼以獲得音頻流和視頻流,對(duì)獲得的音頻流進(jìn)行自動(dòng)語音識(shí)別以獲得文本信息,再將文本信息轉(zhuǎn)換為字幕圖片,將生成的字幕圖片與解碼獲得的視頻流進(jìn)行疊加以最終生成包含字幕的數(shù)據(jù)流視頻文件。該字幕疊加方案可直接對(duì)無字幕的電視節(jié)目進(jìn)行自動(dòng)語音識(shí)別,以生成文本信息,并將文本信息轉(zhuǎn)換為字幕圖片以與視頻流進(jìn)行疊加生成包含字幕的數(shù)據(jù)流視頻文件,以方便聽力障礙人群收看電視節(jié)目。
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本發(fā)明的某些實(shí)施例,因此不應(yīng)被看作是對(duì)范圍的限定,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
圖1為本發(fā)明較佳實(shí)施例提供的一種字幕疊加終端的示意性結(jié)構(gòu)框圖。
圖2為本發(fā)明較佳實(shí)施例提供的一種字幕疊加方法的流程圖。
圖3為圖2中步驟s104的子步驟的流程圖。
圖4為本發(fā)明較佳實(shí)施例提供的字幕疊加方法的另一流程圖。
圖5為本發(fā)明較佳實(shí)施例提供的字幕疊加方法的另一流程圖。
圖6為本發(fā)明較佳實(shí)施例提供的字幕疊加裝置的功能模塊框圖。
圖7為本發(fā)明較佳實(shí)施例提供的第一轉(zhuǎn)換模塊的功能模塊框圖。
圖8為本發(fā)明較佳實(shí)施例提供的字幕疊加裝置的另一功能模塊框圖。
圖標(biāo):100-字幕疊加終端;110-字幕疊加裝置;111-接收模塊;112-解碼模塊;113-濾波處理模塊;114-第一轉(zhuǎn)換模塊;1141-分幀單元;1142-轉(zhuǎn)換單元;1143-獲取單元;115-疊加處理模塊;116-指令接收模塊;117-第二轉(zhuǎn)換模塊;118-檢測模塊;119-設(shè)定模塊;1110-時(shí)間戳設(shè)置模塊;1111-讀取模塊;120-處理器;130-存儲(chǔ)器。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。通常在此處附圖中描述和示出的本發(fā)明實(shí)施例的組件可以以各種不同的配置來布置和設(shè)計(jì)。因此,以下對(duì)在附圖中提供的本發(fā)明的實(shí)施例的詳細(xì)描述并非旨在限制要求保護(hù)的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實(shí)施例?;诒景l(fā)明的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
應(yīng)注意到:相似的標(biāo)號(hào)和字母在下面的附圖中表示類似項(xiàng),因此,一旦某一項(xiàng)在一個(gè)附圖中被定義,則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步定義和解釋。同時(shí),在本發(fā)明的描述中,除非另有明確的規(guī)定和限定,術(shù)語“安裝”、“設(shè)置”、“連接”應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個(gè)元件內(nèi)部的連通。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語在本發(fā)明中的具體含義。
請(qǐng)參閱圖1,為本發(fā)明較佳實(shí)施例提供的一種字幕疊加終端100的示意性結(jié)構(gòu)框圖。所述字幕疊加終端100包括字幕疊加裝置110、處理器120及存儲(chǔ)器130。其中,所述存儲(chǔ)器130與處理器120之間直接或間接地電性連接,以實(shí)現(xiàn)數(shù)據(jù)的傳輸或交互。所述字幕疊加裝置110包括至少一個(gè)可以軟件或固件的形式存儲(chǔ)于所述存儲(chǔ)器130中或固化在所述字幕疊加裝置110的操作系統(tǒng)中的軟件功能模塊。所述處理器120用于執(zhí)行存儲(chǔ)器130中存儲(chǔ)的可執(zhí)行模塊,例如所述字幕疊加裝置110包括的軟件功能模塊或計(jì)算機(jī)程序,以對(duì)無字幕的電視節(jié)目進(jìn)行語音識(shí)別及字幕疊加。在本實(shí)施例中,可選地,所述處理器120可以為fpga芯片。
在本實(shí)施例中,所述字幕疊加裝置110可以是獨(dú)立的具有數(shù)據(jù)處理能力的終端設(shè)備。
如圖2所示,是本發(fā)明實(shí)施例提供的一種應(yīng)用于圖1所示的字幕疊加終端100的字幕疊加方法的示意性流程圖。所應(yīng)說明是,本實(shí)施例提供的方法不以圖2及以下所述的順序?yàn)橄拗?。下面將?duì)圖2所示的具體流程進(jìn)行詳細(xì)的闡述。
步驟s101,接收分別從所述多個(gè)輸入接口輸入的ts流信號(hào),將所述ts流信號(hào)的模式轉(zhuǎn)換為指定模式。
步驟s102,對(duì)轉(zhuǎn)換后的ts流信號(hào)進(jìn)行解碼,獲得音頻流和視頻流。
步驟s103,對(duì)獲得的所述音頻流進(jìn)行濾波處理,獲得語音信息。
可選地,在本實(shí)施例中,所述字幕疊加終端100包括多個(gè)輸入接口,從不同輸入接口所輸入的ts流信號(hào)的模式各異,需要將從不同輸入接口所輸入的ts流信號(hào)的模式轉(zhuǎn)換為所述字幕疊加終端100所需的統(tǒng)一的指定模式。
由于在數(shù)據(jù)傳輸過程中,為了將一個(gè)或更多的音頻、視頻或者其他的基本數(shù)據(jù)流合成單個(gè)或多個(gè)數(shù)據(jù)流,以適應(yīng)于存儲(chǔ)和傳送,在傳輸之前需要對(duì)其進(jìn)行壓縮,即需要通過一定的編碼,才能用最小的容量來存儲(chǔ)質(zhì)量更高的音頻視頻數(shù)據(jù)。那么,在需要對(duì)數(shù)據(jù)進(jìn)行播放時(shí)則首先需要進(jìn)行解碼過程??蛇x地,從所述ts流信號(hào)中獲取到pat(節(jié)目關(guān)聯(lián)表),從pat中獲取到ts流中所有節(jié)目映射表。從節(jié)目映射表中獲取到pmt,解析pmt得到每個(gè)節(jié)目數(shù)據(jù)(包括視頻流和音頻流)的pid(包標(biāo)識(shí)符)。最后,根據(jù)傳輸過來的數(shù)據(jù)pid對(duì)對(duì)應(yīng)的視頻流數(shù)據(jù)和音頻流數(shù)據(jù)進(jìn)行系統(tǒng)層的復(fù)用及解碼,最終,得到視頻流數(shù)據(jù)和音頻流數(shù)據(jù)。
由于最終獲得的音頻流除了包含人的語音信息之外,還包括諸多背景音頻,例如背景音樂、背景雜音等等。因此,為了降低對(duì)后續(xù)語音識(shí)別的干擾,需要對(duì)獲得的音頻流進(jìn)行濾波處理,以獲得待識(shí)別的語音信息。
步驟s104,通過語音識(shí)別將所述語音信息轉(zhuǎn)換為文本信息,并根據(jù)所述文本信息生成對(duì)應(yīng)的字幕圖片。
可選地,請(qǐng)參閱圖3,在本實(shí)施例中,步驟s104可以包括步驟s1041、步驟s1042和步驟s1043三個(gè)子步驟。
步驟s1041,對(duì)所述語音信息進(jìn)行分幀處理,獲得多段語音幀。
步驟s1042,將各幀語音幀進(jìn)行轉(zhuǎn)換,獲得對(duì)應(yīng)的多維向量,其中各所述多維向量分別包含各所述語音幀的內(nèi)容信息。
步驟s1043,根據(jù)獲得的多個(gè)所述多維向量,獲得所述語音信息對(duì)應(yīng)的文本信息。
可選地,首先需要對(duì)語音進(jìn)行分幀處理以獲得多段的語音幀。分幀后的語音波形在時(shí)域上是沒有描述能力的,因此需要將波形進(jìn)行變換。例如,將每一幀的波形變成一個(gè)多維向量,該多維向量則包含了這幀語音的內(nèi)容信息。一般性地,人的聲音中,單詞的發(fā)音由音素構(gòu)成,而一個(gè)音素又由多個(gè)狀態(tài)構(gòu)成,即比音素更為細(xì)致的語音單位。
其中,若干幀語音可對(duì)應(yīng)一個(gè)狀態(tài),而多個(gè)狀態(tài)可組合成一個(gè)音素,若干個(gè)音素可組合成一個(gè)單詞。即,需要將每個(gè)語音幀和狀態(tài)對(duì)應(yīng)起來,那么就可獲得與語音信息對(duì)應(yīng)的文本信息。將獲得的文本信息生成相應(yīng)的字幕圖片,以便后續(xù)將其與視頻流中的圖層進(jìn)行疊加。
步驟s105,將所述視頻流和所述字幕圖片進(jìn)行疊加處理,生成包括字幕的數(shù)據(jù)流視頻文件。
應(yīng)當(dāng)理解,轉(zhuǎn)換后的ts流信號(hào)往往包括多道節(jié)目信號(hào),每道節(jié)目由一個(gè)或多個(gè)原始流和一些其他流復(fù)合在一起,包括視頻流、音頻流及節(jié)目特殊信息流等。可選地,請(qǐng)參閱圖4,在本實(shí)施例中,所述字幕疊加方法還包括以下步驟:
步驟s201,接收輸入的疊加請(qǐng)求指令以及輸入的節(jié)目信息。
步驟s202,根據(jù)接收到的所述節(jié)目信息將包含多套節(jié)目的ts流信號(hào)轉(zhuǎn)換為與所述節(jié)目信息對(duì)應(yīng)的ts流信號(hào)。
為了滿足用戶的實(shí)際需求,可選地,用戶可以根據(jù)自身需求發(fā)起字幕疊加請(qǐng)求的指令,例如可以是通過輸入按鍵發(fā)起請(qǐng)求,也可以是通過與所述字幕疊加終端100通信連接的其他終端發(fā)起字幕疊加的請(qǐng)求,對(duì)此在本實(shí)施例中并不作具體限制。并且,用戶還可根據(jù)自身需求輸入想要進(jìn)行字幕疊加的節(jié)目信息。所述字幕疊加終端100在接收到該疊加請(qǐng)求指令以及用戶輸入的節(jié)目信息之后,將所接收到的包含多套節(jié)目的ts流信號(hào)轉(zhuǎn)換為與所述節(jié)目信息對(duì)應(yīng)的ts流信號(hào),以此,更加貼合于用戶的需求,可提高用戶的操作體驗(yàn)性。
應(yīng)當(dāng)理解,在具體實(shí)施時(shí),不排除可能會(huì)出現(xiàn)所述字幕疊加終端100根據(jù)用戶需求所轉(zhuǎn)換后的ts流信號(hào)中已包含文本信息的情況,因此為了避免在這種情況下,進(jìn)行重復(fù)語音識(shí)別及文本轉(zhuǎn)換工作,而造成的資源浪費(fèi),可選地,在本實(shí)施例中,所述字幕疊加方法還可以包括以下步驟:
檢測解碼后的與所述節(jié)目信息對(duì)應(yīng)的視頻流中是否包含文本信息,若不包含文本信息,則執(zhí)行所述對(duì)獲得的所述音頻流進(jìn)行濾波處理的步驟。
可選地,在進(jìn)行ts流信號(hào)解碼之后,可檢測解碼后的視頻流中是否包含文本信息。若已包含文本信息,則可不進(jìn)行音頻流濾波、語音識(shí)別及文本轉(zhuǎn)換等工作,只需將解碼后的視頻流和音頻流同步輸出即可。若解碼后的視頻流中不包含文本信息,則再進(jìn)行音頻流濾波、語音識(shí)別、文本轉(zhuǎn)換疊加等工作。如此設(shè)置,在進(jìn)行語音識(shí)別之前,首先檢測是否存在文本信息,可避免出現(xiàn)重復(fù)不必要的工作,可節(jié)省大量資源及時(shí)間。
在本實(shí)施例中,為了避免在最后數(shù)據(jù)流視頻文件輸出時(shí),音視頻出現(xiàn)延時(shí)現(xiàn)象,可選地,請(qǐng)參閱圖5,所述字幕疊加方法還可以包括以下步驟:
步驟s301,設(shè)定一線性遞增的參考時(shí)鐘。
步驟s302,根據(jù)所述參考時(shí)鐘將獲得的所述音頻流中的每個(gè)音頻數(shù)據(jù)塊和所述視頻流中的每個(gè)視頻數(shù)據(jù)塊打上時(shí)間戳。
步驟s303,讀取所述音頻流中的各所述音頻數(shù)據(jù)塊和所述視頻流中的各所述視頻數(shù)據(jù)塊上的時(shí)間戳,并參考當(dāng)前參考時(shí)鐘上的時(shí)間來進(jìn)行音頻輸出和視頻輸出,以使音視頻達(dá)到同步。
可選地,在本實(shí)施例中,為了保證最終所輸出的包含字幕的數(shù)據(jù)流視頻文件不出現(xiàn)延時(shí)現(xiàn)象,可對(duì)音視頻進(jìn)行同步處理??蛇x地,可首先選擇一個(gè)參考時(shí)鐘,一般性地,要求該參考時(shí)鐘上的時(shí)間是線性遞增的。在對(duì)ts流信號(hào)進(jìn)行解碼生成音頻流和視頻流時(shí),依據(jù)所述參考時(shí)鐘上的時(shí)間給所述音頻流中的每個(gè)音頻數(shù)據(jù)塊和所述視頻流中的每個(gè)視頻數(shù)據(jù)塊打上時(shí)間戳,一般包括開始時(shí)間和結(jié)束時(shí)間。
在輸出時(shí),讀取所述音頻流中的各所述音頻數(shù)據(jù)塊和所述視頻流中的各所述視頻數(shù)據(jù)塊上的時(shí)間戳來進(jìn)行輸出并播放。例如某數(shù)據(jù)塊上的開始時(shí)間大于當(dāng)前參考時(shí)鐘上的時(shí)間,則不急于播放該數(shù)據(jù)塊,直到參考時(shí)鐘達(dá)到該數(shù)據(jù)塊的開始時(shí)間。若某數(shù)據(jù)塊的開始時(shí)間小于當(dāng)前參考時(shí)鐘上的時(shí)間,則需要及時(shí)安排輸出并播放該數(shù)據(jù)塊,或者是將該數(shù)據(jù)塊進(jìn)行丟棄處理,以使當(dāng)前的輸出播放進(jìn)度與參考時(shí)鐘同步。
請(qǐng)參閱圖6,為本發(fā)明另一較佳實(shí)施例提供的字幕疊加裝置110的功能模塊框圖。所述字幕疊加裝置110包括接收模塊111、解碼模塊112、濾波處理模塊113、第一轉(zhuǎn)換模塊114及疊加處理模塊115。
所述接收模塊111用于接收分別從所述多個(gè)輸入接口輸入的ts流信號(hào),將所述ts流信號(hào)的模式轉(zhuǎn)換為指定模式。具體地,該接收模塊111可用于執(zhí)行圖2中所示的步驟s101,具體的操作方法可參考步驟s101的詳細(xì)描述。
所述解碼模塊112用于對(duì)轉(zhuǎn)換后的ts流信號(hào)進(jìn)行解碼,獲得音頻流和視頻流。具體地,該解碼模塊112可用于執(zhí)行圖2中所示的步驟s102,具體的操作方法可參考步驟s102的詳細(xì)描述。
所述濾波處理模塊113用于對(duì)獲得的所述音頻流進(jìn)行濾波處理,獲得語音信息。具體地,該濾波處理模塊113可用于執(zhí)行圖2中所示的步驟s103,具體的操作方法可參考步驟s103的詳細(xì)描述。
所述第一轉(zhuǎn)換模塊114用于通過語音識(shí)別將所述語音信息轉(zhuǎn)換為文本信息,并根據(jù)所述文本信息生成對(duì)應(yīng)的字幕圖片。具體地,該第一轉(zhuǎn)換模塊114可用于執(zhí)行圖2中所示的步驟s104,具體的操作方法可參考步驟s104的詳細(xì)描述。
請(qǐng)參閱圖7,在本實(shí)施例中,所述第一轉(zhuǎn)換模塊114包括分幀單元1141、轉(zhuǎn)換單元1142以及獲取單元1143。
所述分幀單元1141用于對(duì)所述語音信息進(jìn)行分幀處理,獲得多段語音幀。具體地,該分幀單元1141可用于執(zhí)行圖3中所示的步驟s1041,具體的操作方法可參考步驟s1041的詳細(xì)描述。
所述轉(zhuǎn)換單元1142用于將各幀語音幀進(jìn)行轉(zhuǎn)換,獲得對(duì)應(yīng)的多維向量,其中各所述多維向量分別包含各所述語音幀的內(nèi)容信息。具體地,該轉(zhuǎn)換單元1142可用于執(zhí)行圖3中所示的步驟s1042,具體的操作方法可參考步驟s1042的詳細(xì)描述。
所述獲取單元1143用于根據(jù)獲得的多個(gè)所述多維向量,獲得所述語音信息對(duì)應(yīng)的文本信息。具體地,該獲取單元1143可用于執(zhí)行圖3中所示的步驟s1043,具體的操作方法可參考步驟s1043的詳細(xì)描述。
所述疊加處理模塊115用于將所述視頻流和所述字幕圖片進(jìn)行疊加處理,生成包括字幕的數(shù)據(jù)流視頻文件。具體地,該疊加處理模塊115可用于執(zhí)行圖2中所示的步驟s105,具體的操作方法可參考步驟s105的詳細(xì)描述。
在本實(shí)施例中,所述轉(zhuǎn)換后的ts流信號(hào)包括多套節(jié)目的ts流信號(hào),可選地,請(qǐng)參閱圖8,所述字幕疊加裝置110還包括指令接收模塊116及第二轉(zhuǎn)換模塊117。
所述指令接收模塊116用于接收輸入的疊加請(qǐng)求指令以及輸入的節(jié)目信息。具體地,該指令接收模塊116可用于執(zhí)行圖4中所示的步驟s201,具體的操作方法可參考步驟s201的詳細(xì)描述。
所述第二轉(zhuǎn)換模塊117用于根據(jù)接收到的所述節(jié)目信息將包含多套節(jié)目的ts流信號(hào)轉(zhuǎn)換為與所述節(jié)目信息對(duì)應(yīng)的ts流信號(hào)。具體地,該第二轉(zhuǎn)換模塊117可用于執(zhí)行圖4中所示的步驟s202,具體的操作方法可參考步驟s202的詳細(xì)描述。
所述字幕疊加裝置110還包括檢測模塊118,所述檢測模塊118用于檢測解碼后的與所述節(jié)目信息對(duì)應(yīng)的視頻流中是否包含文本信息,若不包含文本信息,則執(zhí)行所述濾波處理模塊113所執(zhí)行的對(duì)獲得的所述音頻流進(jìn)行濾波處理的步驟。
可選地,在本實(shí)施例中,所述字幕疊加裝置110還包括設(shè)定模塊119、時(shí)間戳設(shè)置模塊1110以及讀取模塊1111。
所述設(shè)定模塊119用于設(shè)定一線性遞增的參考時(shí)鐘。具體地,該設(shè)定模塊119可用于執(zhí)行圖5中所示的步驟s301,具體的操作方法可參考步驟s301的詳細(xì)描述。
所述時(shí)間戳設(shè)置模塊1110用于根據(jù)所述參考時(shí)鐘將獲得的所述音頻流中的每個(gè)音頻數(shù)據(jù)塊和所述視頻流中的每個(gè)視頻數(shù)據(jù)塊打上時(shí)間戳。具體地,該時(shí)間戳設(shè)置模塊1110可用于執(zhí)行圖5中所示的步驟s302,具體的操作方法可參考步驟s302的詳細(xì)描述。
所述讀取模塊1111用于讀取所述音頻流中的各所述音頻數(shù)據(jù)塊和所述視頻流中的各所述視頻數(shù)據(jù)塊上的時(shí)間戳,并參考當(dāng)前參考時(shí)鐘上的時(shí)間來進(jìn)行音頻輸出和視頻輸出,以使音視頻達(dá)到同步。具體地,該讀取模塊1111可用于執(zhí)行圖5中所示的步驟s303,具體的操作方法可參考步驟s303的詳細(xì)描述。
綜上所述,本發(fā)明實(shí)施例提供的字幕疊加方法及裝置,通過對(duì)接收到的ts流信號(hào)進(jìn)行解碼以獲得音頻流和視頻流,對(duì)獲得的音頻流進(jìn)行自動(dòng)語音識(shí)別以獲得文本信息,再將文本信息轉(zhuǎn)換為字幕圖片,將生成的字幕圖片與解碼獲得的視頻流進(jìn)行疊加以最終生成包含字幕的數(shù)據(jù)流視頻文件。該字幕疊加方案可直接對(duì)無字幕的電視節(jié)目進(jìn)行自動(dòng)語音識(shí)別,以生成文本信息,并將文本信息轉(zhuǎn)換為字幕圖片以與視頻流進(jìn)行疊加生成包含字幕的數(shù)據(jù)流視頻文件,以方便聽力障礙人群收看電視節(jié)目。
在本申請(qǐng)所提供的實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法,也可以通過其它的方式實(shí)現(xiàn)。以上所描述的裝置實(shí)施例僅僅是示意性的,例如,附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的實(shí)施例的裝置、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)方式中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或動(dòng)作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。
需要說明的是,在本文中,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。應(yīng)注意到:相似的標(biāo)號(hào)和字母在下面的附圖中表示類似項(xiàng),因此,一旦某一項(xiàng)在一個(gè)附圖中被定義,則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步定義和解釋。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。