一種字幕疊加方法及裝置與流程

文檔序號(hào)：11207328閱讀：735來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及廣播電視技術(shù)領(lǐng)域，具體而言，涉及一種字幕疊加方法及裝置。

背景技術(shù)：

隨著科學(xué)技術(shù)的發(fā)展和人們生活水平的提高，視頻已經(jīng)成為人們工作、學(xué)習(xí)、社交以及休閑娛樂不可替代的重要方式，并且人們對(duì)于視頻的要求也越來越高。目前，在視頻編輯系統(tǒng)中，對(duì)于數(shù)據(jù)流視頻文件的字幕的設(shè)定及生成的方式各不相同。但是，目前常用的解碼器顯示的字幕一般都是電視臺(tái)通過采編系統(tǒng)直接在視頻上進(jìn)行編輯，編輯完成以后給編碼器壓縮編碼再進(jìn)行傳輸。所以，接收機(jī)解出來的字幕只能是電視臺(tái)預(yù)先編輯好的字幕。如此，部分無字幕的電視節(jié)目將不利于聽力障礙人群收看。

技術(shù)實(shí)現(xiàn)要素：

有鑒于此，本發(fā)明的目的在于提供一種字幕疊加方法及裝置，以解決上述問題。

本發(fā)明實(shí)施例提供一種字幕疊加方法，應(yīng)用于字幕疊加終端，所述字幕疊加終端包括多個(gè)輸入接口，所述方法包括：

接收分別從所述多個(gè)輸入接口輸入的ts流信號(hào)，將所述ts流信號(hào)的模式轉(zhuǎn)換為指定模式；

對(duì)轉(zhuǎn)換后的ts流信號(hào)進(jìn)行解碼，獲得音頻流和視頻流；

對(duì)獲得的所述音頻流進(jìn)行濾波處理，獲得語音信息；

通過語音識(shí)別將所述語音信息轉(zhuǎn)換為文本信息，并根據(jù)所述文本信息生成對(duì)應(yīng)的字幕圖片；

將所述視頻流和所述字幕圖片進(jìn)行疊加處理，生成包括字幕的數(shù)據(jù)流視頻文件。

進(jìn)一步地，所述轉(zhuǎn)換后的ts流信號(hào)包括多套節(jié)目的ts流信號(hào)，所述方法還包括：

接收輸入的疊加請(qǐng)求指令以及輸入的節(jié)目信息；

根據(jù)接收到的所述節(jié)目信息將包含多套節(jié)目的ts流信號(hào)轉(zhuǎn)換為與所述節(jié)目信息對(duì)應(yīng)的ts流信號(hào)。

進(jìn)一步地，所述方法還包括：

檢測解碼后的與所述節(jié)目信息對(duì)應(yīng)的視頻流中是否包含文本信息，若不包含文本信息，則執(zhí)行所述對(duì)獲得的所述音頻流進(jìn)行濾波處理的步驟。

進(jìn)一步地，所述通過語音識(shí)別將所述語音信息轉(zhuǎn)換為文本信息的步驟，包括：

對(duì)所述語音信息進(jìn)行分幀處理，獲得多段語音幀；

將各幀語音幀進(jìn)行轉(zhuǎn)換，獲得對(duì)應(yīng)的多維向量，其中各所述多維向量分別包含各所述語音幀的內(nèi)容信息；

根據(jù)獲得的多個(gè)所述多維向量，獲得所述語音信息對(duì)應(yīng)的文本信息。

進(jìn)一步地，所述方法還包括：

設(shè)定一線性遞增的參考時(shí)鐘；

根據(jù)所述參考時(shí)鐘將獲得的所述音頻流中的每個(gè)音頻數(shù)據(jù)塊和所述視頻流中的每個(gè)視頻數(shù)據(jù)塊打上時(shí)間戳；

讀取所述音頻流中的各所述音頻數(shù)據(jù)塊和所述視頻流中的各所述視頻數(shù)據(jù)塊上的時(shí)間戳，并參考當(dāng)前參考時(shí)鐘上的時(shí)間來進(jìn)行音頻輸出和視頻輸出，以使音視頻達(dá)到同步。

本發(fā)明另一較佳實(shí)施例提供一種字幕疊加裝置，應(yīng)用于字幕疊加終端，所述字幕疊加終端包括多個(gè)輸入接口，所述字幕疊加裝置包括接收模塊、解碼模塊、濾波處理模塊、第一轉(zhuǎn)換模塊及疊加處理模塊；

所述接收模塊用于接收分別從所述多個(gè)輸入接口輸入的ts流信號(hào)，將所述ts流信號(hào)的模式轉(zhuǎn)換為指定模式；

所述解碼模塊用于對(duì)轉(zhuǎn)換后的ts流信號(hào)進(jìn)行解碼，獲得音頻流和視頻流；

所述濾波處理模塊用于對(duì)獲得的所述音頻流進(jìn)行濾波處理，獲得語音信息；

所述第一轉(zhuǎn)換模塊用于通過語音識(shí)別將所述語音信息轉(zhuǎn)換為文本信息，并根據(jù)所述文本信息生成對(duì)應(yīng)的字幕圖片；

所述疊加處理模塊用于將所述視頻流和所述字幕圖片進(jìn)行疊加處理，生成包括字幕的數(shù)據(jù)流視頻文件。

進(jìn)一步地，所述轉(zhuǎn)換后的ts流信號(hào)包括多套節(jié)目的ts流信號(hào)，所述字幕疊加裝置還包括指令接收模塊及第二轉(zhuǎn)換模塊；

所述指令接收模塊用于接收輸入的疊加請(qǐng)求指令以及輸入的節(jié)目信息；

所述第二轉(zhuǎn)換模塊用于根據(jù)接收到的所述節(jié)目信息將包含多套節(jié)目的ts流信號(hào)轉(zhuǎn)換為與所述節(jié)目信息對(duì)應(yīng)的ts流信號(hào)。

進(jìn)一步地，所述字幕疊加裝置還包括檢測模塊；

所述檢測模塊用于檢測解碼后的與所述節(jié)目信息對(duì)應(yīng)的視頻流中是否包含文本信息，若不包含文本信息，則執(zhí)行所述濾波處理模塊所執(zhí)行的對(duì)獲得的所述音頻流進(jìn)行濾波處理的步驟。

進(jìn)一步地，所述第一轉(zhuǎn)換模塊包括分幀單元、轉(zhuǎn)換單元以及獲取單元；

所述分幀單元用于對(duì)所述語音信息進(jìn)行分幀處理，獲得多段語音幀；

所述轉(zhuǎn)換單元用于將各幀語音幀進(jìn)行轉(zhuǎn)換，獲得對(duì)應(yīng)的多維向量，其中各所述多維向量分別包含各所述語音幀的內(nèi)容信息；

所述獲取單元用于根據(jù)獲得的多個(gè)所述多維向量，獲得所述語音信息對(duì)應(yīng)的文本信息。

進(jìn)一步地，所述字幕疊加裝置還包括設(shè)定模塊、時(shí)間戳設(shè)置模塊以及讀取模塊；

所述設(shè)定模塊用于設(shè)定一線性遞增的參考時(shí)鐘；

所述時(shí)間戳設(shè)置模塊用于根據(jù)所述參考時(shí)鐘將獲得的所述音頻流中的每個(gè)音頻數(shù)據(jù)塊和所述視頻流中的每個(gè)視頻數(shù)據(jù)塊打上時(shí)間戳；

所述讀取模塊用于讀取所述音頻流中的各所述音頻數(shù)據(jù)塊和所述視頻流中的各所述視頻數(shù)據(jù)塊上的時(shí)間戳，并參考當(dāng)前參考時(shí)鐘上的時(shí)間來進(jìn)行音頻輸出和視頻輸出，以使音視頻達(dá)到同步。

本發(fā)明實(shí)施例提供的字幕疊加方法及裝置，通過對(duì)接收到的ts流信號(hào)進(jìn)行解碼以獲得音頻流和視頻流，對(duì)獲得的音頻流進(jìn)行自動(dòng)語音識(shí)別以獲得文本信息，再將文本信息轉(zhuǎn)換為字幕圖片，將生成的字幕圖片與解碼獲得的視頻流進(jìn)行疊加以最終生成包含字幕的數(shù)據(jù)流視頻文件。該字幕疊加方案可直接對(duì)無字幕的電視節(jié)目進(jìn)行自動(dòng)語音識(shí)別，以生成文本信息，并將文本信息轉(zhuǎn)換為字幕圖片以與視頻流進(jìn)行疊加生成包含字幕的數(shù)據(jù)流視頻文件，以方便聽力障礙人群收看電視節(jié)目。

為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂，下文特舉較佳實(shí)施例，并配合所附附圖，作詳細(xì)說明如下。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案，下面將對(duì)實(shí)施例中所需要使用的附圖作簡單地介紹，應(yīng)當(dāng)理解，以下附圖僅示出了本發(fā)明的某些實(shí)施例，因此不應(yīng)被看作是對(duì)范圍的限定，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。

圖1為本發(fā)明較佳實(shí)施例提供的一種字幕疊加終端的示意性結(jié)構(gòu)框圖。

圖2為本發(fā)明較佳實(shí)施例提供的一種字幕疊加方法的流程圖。

圖3為圖2中步驟s104的子步驟的流程圖。

圖4為本發(fā)明較佳實(shí)施例提供的字幕疊加方法的另一流程圖。

圖5為本發(fā)明較佳實(shí)施例提供的字幕疊加方法的另一流程圖。

圖6為本發(fā)明較佳實(shí)施例提供的字幕疊加裝置的功能模塊框圖。

圖7為本發(fā)明較佳實(shí)施例提供的第一轉(zhuǎn)換模塊的功能模塊框圖。

圖8為本發(fā)明較佳實(shí)施例提供的字幕疊加裝置的另一功能模塊框圖。

圖標(biāo)：100-字幕疊加終端；110-字幕疊加裝置；111-接收模塊；112-解碼模塊；113-濾波處理模塊；114-第一轉(zhuǎn)換模塊；1141-分幀單元；1142-轉(zhuǎn)換單元；1143-獲取單元；115-疊加處理模塊；116-指令接收模塊；117-第二轉(zhuǎn)換模塊；118-檢測模塊；119-設(shè)定模塊；1110-時(shí)間戳設(shè)置模塊；1111-讀取模塊；120-處理器；130-存儲(chǔ)器。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例。通常在此處附圖中描述和示出的本發(fā)明實(shí)施例的組件可以以各種不同的配置來布置和設(shè)計(jì)。因此，以下對(duì)在附圖中提供的本發(fā)明的實(shí)施例的詳細(xì)描述并非旨在限制要求保護(hù)的本發(fā)明的范圍，而是僅僅表示本發(fā)明的選定實(shí)施例?；诒景l(fā)明的實(shí)施例，本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。

應(yīng)注意到：相似的標(biāo)號(hào)和字母在下面的附圖中表示類似項(xiàng)，因此，一旦某一項(xiàng)在一個(gè)附圖中被定義，則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步定義和解釋。同時(shí)，在本發(fā)明的描述中，除非另有明確的規(guī)定和限定，術(shù)語“安裝”、“設(shè)置”、“連接”應(yīng)做廣義理解，例如，可以是固定連接，也可以是可拆卸連接，或一體地連接；可以是機(jī)械連接，也可以是電連接；可以是直接相連，也可以通過中間媒介間接相連，可以是兩個(gè)元件內(nèi)部的連通。對(duì)于本領(lǐng)域的普通技術(shù)人員而言，可以具體情況理解上述術(shù)語在本發(fā)明中的具體含義。

請(qǐng)參閱圖1，為本發(fā)明較佳實(shí)施例提供的一種字幕疊加終端100的示意性結(jié)構(gòu)框圖。所述字幕疊加終端100包括字幕疊加裝置110、處理器120及存儲(chǔ)器130。其中，所述存儲(chǔ)器130與處理器120之間直接或間接地電性連接，以實(shí)現(xiàn)數(shù)據(jù)的傳輸或交互。所述字幕疊加裝置110包括至少一個(gè)可以軟件或固件的形式存儲(chǔ)于所述存儲(chǔ)器130中或固化在所述字幕疊加裝置110的操作系統(tǒng)中的軟件功能模塊。所述處理器120用于執(zhí)行存儲(chǔ)器130中存儲(chǔ)的可執(zhí)行模塊，例如所述字幕疊加裝置110包括的軟件功能模塊或計(jì)算機(jī)程序，以對(duì)無字幕的電視節(jié)目進(jìn)行語音識(shí)別及字幕疊加。在本實(shí)施例中，可選地，所述處理器120可以為fpga芯片。

在本實(shí)施例中，所述字幕疊加裝置110可以是獨(dú)立的具有數(shù)據(jù)處理能力的終端設(shè)備。

如圖2所示，是本發(fā)明實(shí)施例提供的一種應(yīng)用于圖1所示的字幕疊加終端100的字幕疊加方法的示意性流程圖。所應(yīng)說明是，本實(shí)施例提供的方法不以圖2及以下所述的順序?yàn)橄拗?。下面將?duì)圖2所示的具體流程進(jìn)行詳細(xì)的闡述。

步驟s101，接收分別從所述多個(gè)輸入接口輸入的ts流信號(hào)，將所述ts流信號(hào)的模式轉(zhuǎn)換為指定模式。

步驟s102，對(duì)轉(zhuǎn)換后的ts流信號(hào)進(jìn)行解碼，獲得音頻流和視頻流。

步驟s103，對(duì)獲得的所述音頻流進(jìn)行濾波處理，獲得語音信息。

可選地，在本實(shí)施例中，所述字幕疊加終端100包括多個(gè)輸入接口，從不同輸入接口所輸入的ts流信號(hào)的模式各異，需要將從不同輸入接口所輸入的ts流信號(hào)的模式轉(zhuǎn)換為所述字幕疊加終端100所需的統(tǒng)一的指定模式。

由于在數(shù)據(jù)傳輸過程中，為了將一個(gè)或更多的音頻、視頻或者其他的基本數(shù)據(jù)流合成單個(gè)或多個(gè)數(shù)據(jù)流，以適應(yīng)于存儲(chǔ)和傳送，在傳輸之前需要對(duì)其進(jìn)行壓縮，即需要通過一定的編碼，才能用最小的容量來存儲(chǔ)質(zhì)量更高的音頻視頻數(shù)據(jù)。那么，在需要對(duì)數(shù)據(jù)進(jìn)行播放時(shí)則首先需要進(jìn)行解碼過程?？蛇x地，從所述ts流信號(hào)中獲取到pat(節(jié)目關(guān)聯(lián)表)，從pat中獲取到ts流中所有節(jié)目映射表。從節(jié)目映射表中獲取到pmt，解析pmt得到每個(gè)節(jié)目數(shù)據(jù)(包括視頻流和音頻流)的pid(包標(biāo)識(shí)符)。最后，根據(jù)傳輸過來的數(shù)據(jù)pid對(duì)對(duì)應(yīng)的視頻流數(shù)據(jù)和音頻流數(shù)據(jù)進(jìn)行系統(tǒng)層的復(fù)用及解碼，最終，得到視頻流數(shù)據(jù)和音頻流數(shù)據(jù)。

由于最終獲得的音頻流除了包含人的語音信息之外，還包括諸多背景音頻，例如背景音樂、背景雜音等等。因此，為了降低對(duì)后續(xù)語音識(shí)別的干擾，需要對(duì)獲得的音頻流進(jìn)行濾波處理，以獲得待識(shí)別的語音信息。

步驟s104，通過語音識(shí)別將所述語音信息轉(zhuǎn)換為文本信息，并根據(jù)所述文本信息生成對(duì)應(yīng)的字幕圖片。

可選地，請(qǐng)參閱圖3，在本實(shí)施例中，步驟s104可以包括步驟s1041、步驟s1042和步驟s1043三個(gè)子步驟。

步驟s1041，對(duì)所述語音信息進(jìn)行分幀處理，獲得多段語音幀。

步驟s1042，將各幀語音幀進(jìn)行轉(zhuǎn)換，獲得對(duì)應(yīng)的多維向量，其中各所述多維向量分別包含各所述語音幀的內(nèi)容信息。

步驟s1043，根據(jù)獲得的多個(gè)所述多維向量，獲得所述語音信息對(duì)應(yīng)的文本信息。

可選地，首先需要對(duì)語音進(jìn)行分幀處理以獲得多段的語音幀。分幀后的語音波形在時(shí)域上是沒有描述能力的，因此需要將波形進(jìn)行變換。例如，將每一幀的波形變成一個(gè)多維向量，該多維向量則包含了這幀語音的內(nèi)容信息。一般性地，人的聲音中，單詞的發(fā)音由音素構(gòu)成，而一個(gè)音素又由多個(gè)狀態(tài)構(gòu)成，即比音素更為細(xì)致的語音單位。

其中，若干幀語音可對(duì)應(yīng)一個(gè)狀態(tài)，而多個(gè)狀態(tài)可組合成一個(gè)音素，若干個(gè)音素可組合成一個(gè)單詞。即，需要將每個(gè)語音幀和狀態(tài)對(duì)應(yīng)起來，那么就可獲得與語音信息對(duì)應(yīng)的文本信息。將獲得的文本信息生成相應(yīng)的字幕圖片，以便后續(xù)將其與視頻流中的圖層進(jìn)行疊加。

步驟s105，將所述視頻流和所述字幕圖片進(jìn)行疊加處理，生成包括字幕的數(shù)據(jù)流視頻文件。

應(yīng)當(dāng)理解，轉(zhuǎn)換后的ts流信號(hào)往往包括多道節(jié)目信號(hào)，每道節(jié)目由一個(gè)或多個(gè)原始流和一些其他流復(fù)合在一起，包括視頻流、音頻流及節(jié)目特殊信息流等。可選地，請(qǐng)參閱圖4，在本實(shí)施例中，所述字幕疊加方法還包括以下步驟：

步驟s201，接收輸入的疊加請(qǐng)求指令以及輸入的節(jié)目信息。

步驟s202，根據(jù)接收到的所述節(jié)目信息將包含多套節(jié)目的ts流信號(hào)轉(zhuǎn)換為與所述節(jié)目信息對(duì)應(yīng)的ts流信號(hào)。

為了滿足用戶的實(shí)際需求，可選地，用戶可以根據(jù)自身需求發(fā)起字幕疊加請(qǐng)求的指令，例如可以是通過輸入按鍵發(fā)起請(qǐng)求，也可以是通過與所述字幕疊加終端100通信連接的其他終端發(fā)起字幕疊加的請(qǐng)求，對(duì)此在本實(shí)施例中并不作具體限制。并且，用戶還可根據(jù)自身需求輸入想要進(jìn)行字幕疊加的節(jié)目信息。所述字幕疊加終端100在接收到該疊加請(qǐng)求指令以及用戶輸入的節(jié)目信息之后，將所接收到的包含多套節(jié)目的ts流信號(hào)轉(zhuǎn)換為與所述節(jié)目信息對(duì)應(yīng)的ts流信號(hào)，以此，更加貼合于用戶的需求，可提高用戶的操作體驗(yàn)性。

應(yīng)當(dāng)理解，在具體實(shí)施時(shí)，不排除可能會(huì)出現(xiàn)所述字幕疊加終端100根據(jù)用戶需求所轉(zhuǎn)換后的ts流信號(hào)中已包含文本信息的情況，因此為了避免在這種情況下，進(jìn)行重復(fù)語音識(shí)別及文本轉(zhuǎn)換工作，而造成的資源浪費(fèi)，可選地，在本實(shí)施例中，所述字幕疊加方法還可以包括以下步驟：

可選地，在進(jìn)行ts流信號(hào)解碼之后，可檢測解碼后的視頻流中是否包含文本信息。若已包含文本信息，則可不進(jìn)行音頻流濾波、語音識(shí)別及文本轉(zhuǎn)換等工作，只需將解碼后的視頻流和音頻流同步輸出即可。若解碼后的視頻流中不包含文本信息，則再進(jìn)行音頻流濾波、語音識(shí)別、文本轉(zhuǎn)換疊加等工作。如此設(shè)置，在進(jìn)行語音識(shí)別之前，首先檢測是否存在文本信息，可避免出現(xiàn)重復(fù)不必要的工作，可節(jié)省大量資源及時(shí)間。

在本實(shí)施例中，為了避免在最后數(shù)據(jù)流視頻文件輸出時(shí)，音視頻出現(xiàn)延時(shí)現(xiàn)象，可選地，請(qǐng)參閱圖5，所述字幕疊加方法還可以包括以下步驟：

步驟s301，設(shè)定一線性遞增的參考時(shí)鐘。

步驟s302，根據(jù)所述參考時(shí)鐘將獲得的所述音頻流中的每個(gè)音頻數(shù)據(jù)塊和所述視頻流中的每個(gè)視頻數(shù)據(jù)塊打上時(shí)間戳。

步驟s303，讀取所述音頻流中的各所述音頻數(shù)據(jù)塊和所述視頻流中的各所述視頻數(shù)據(jù)塊上的時(shí)間戳，并參考當(dāng)前參考時(shí)鐘上的時(shí)間來進(jìn)行音頻輸出和視頻輸出，以使音視頻達(dá)到同步。

可選地，在本實(shí)施例中，為了保證最終所輸出的包含字幕的數(shù)據(jù)流視頻文件不出現(xiàn)延時(shí)現(xiàn)象，可對(duì)音視頻進(jìn)行同步處理?？蛇x地，可首先選擇一個(gè)參考時(shí)鐘，一般性地，要求該參考時(shí)鐘上的時(shí)間是線性遞增的。在對(duì)ts流信號(hào)進(jìn)行解碼生成音頻流和視頻流時(shí)，依據(jù)所述參考時(shí)鐘上的時(shí)間給所述音頻流中的每個(gè)音頻數(shù)據(jù)塊和所述視頻流中的每個(gè)視頻數(shù)據(jù)塊打上時(shí)間戳，一般包括開始時(shí)間和結(jié)束時(shí)間。

在輸出時(shí)，讀取所述音頻流中的各所述音頻數(shù)據(jù)塊和所述視頻流中的各所述視頻數(shù)據(jù)塊上的時(shí)間戳來進(jìn)行輸出并播放。例如某數(shù)據(jù)塊上的開始時(shí)間大于當(dāng)前參考時(shí)鐘上的時(shí)間，則不急于播放該數(shù)據(jù)塊，直到參考時(shí)鐘達(dá)到該數(shù)據(jù)塊的開始時(shí)間。若某數(shù)據(jù)塊的開始時(shí)間小于當(dāng)前參考時(shí)鐘上的時(shí)間，則需要及時(shí)安排輸出并播放該數(shù)據(jù)塊，或者是將該數(shù)據(jù)塊進(jìn)行丟棄處理，以使當(dāng)前的輸出播放進(jìn)度與參考時(shí)鐘同步。

請(qǐng)參閱圖6，為本發(fā)明另一較佳實(shí)施例提供的字幕疊加裝置110的功能模塊框圖。所述字幕疊加裝置110包括接收模塊111、解碼模塊112、濾波處理模塊113、第一轉(zhuǎn)換模塊114及疊加處理模塊115。

所述接收模塊111用于接收分別從所述多個(gè)輸入接口輸入的ts流信號(hào)，將所述ts流信號(hào)的模式轉(zhuǎn)換為指定模式。具體地，該接收模塊111可用于執(zhí)行圖2中所示的步驟s101，具體的操作方法可參考步驟s101的詳細(xì)描述。

所述解碼模塊112用于對(duì)轉(zhuǎn)換后的ts流信號(hào)進(jìn)行解碼，獲得音頻流和視頻流。具體地，該解碼模塊112可用于執(zhí)行圖2中所示的步驟s102，具體的操作方法可參考步驟s102的詳細(xì)描述。

所述濾波處理模塊113用于對(duì)獲得的所述音頻流進(jìn)行濾波處理，獲得語音信息。具體地，該濾波處理模塊113可用于執(zhí)行圖2中所示的步驟s103，具體的操作方法可參考步驟s103的詳細(xì)描述。

所述第一轉(zhuǎn)換模塊114用于通過語音識(shí)別將所述語音信息轉(zhuǎn)換為文本信息，并根據(jù)所述文本信息生成對(duì)應(yīng)的字幕圖片。具體地，該第一轉(zhuǎn)換模塊114可用于執(zhí)行圖2中所示的步驟s104，具體的操作方法可參考步驟s104的詳細(xì)描述。

請(qǐng)參閱圖7，在本實(shí)施例中，所述第一轉(zhuǎn)換模塊114包括分幀單元1141、轉(zhuǎn)換單元1142以及獲取單元1143。

所述分幀單元1141用于對(duì)所述語音信息進(jìn)行分幀處理，獲得多段語音幀。具體地，該分幀單元1141可用于執(zhí)行圖3中所示的步驟s1041，具體的操作方法可參考步驟s1041的詳細(xì)描述。

所述轉(zhuǎn)換單元1142用于將各幀語音幀進(jìn)行轉(zhuǎn)換，獲得對(duì)應(yīng)的多維向量，其中各所述多維向量分別包含各所述語音幀的內(nèi)容信息。具體地，該轉(zhuǎn)換單元1142可用于執(zhí)行圖3中所示的步驟s1042，具體的操作方法可參考步驟s1042的詳細(xì)描述。

所述獲取單元1143用于根據(jù)獲得的多個(gè)所述多維向量，獲得所述語音信息對(duì)應(yīng)的文本信息。具體地，該獲取單元1143可用于執(zhí)行圖3中所示的步驟s1043，具體的操作方法可參考步驟s1043的詳細(xì)描述。

所述疊加處理模塊115用于將所述視頻流和所述字幕圖片進(jìn)行疊加處理，生成包括字幕的數(shù)據(jù)流視頻文件。具體地，該疊加處理模塊115可用于執(zhí)行圖2中所示的步驟s105，具體的操作方法可參考步驟s105的詳細(xì)描述。

在本實(shí)施例中，所述轉(zhuǎn)換后的ts流信號(hào)包括多套節(jié)目的ts流信號(hào)，可選地，請(qǐng)參閱圖8，所述字幕疊加裝置110還包括指令接收模塊116及第二轉(zhuǎn)換模塊117。

所述指令接收模塊116用于接收輸入的疊加請(qǐng)求指令以及輸入的節(jié)目信息。具體地，該指令接收模塊116可用于執(zhí)行圖4中所示的步驟s201，具體的操作方法可參考步驟s201的詳細(xì)描述。

所述第二轉(zhuǎn)換模塊117用于根據(jù)接收到的所述節(jié)目信息將包含多套節(jié)目的ts流信號(hào)轉(zhuǎn)換為與所述節(jié)目信息對(duì)應(yīng)的ts流信號(hào)。具體地，該第二轉(zhuǎn)換模塊117可用于執(zhí)行圖4中所示的步驟s202，具體的操作方法可參考步驟s202的詳細(xì)描述。

所述字幕疊加裝置110還包括檢測模塊118，所述檢測模塊118用于檢測解碼后的與所述節(jié)目信息對(duì)應(yīng)的視頻流中是否包含文本信息，若不包含文本信息，則執(zhí)行所述濾波處理模塊113所執(zhí)行的對(duì)獲得的所述音頻流進(jìn)行濾波處理的步驟。

可選地，在本實(shí)施例中，所述字幕疊加裝置110還包括設(shè)定模塊119、時(shí)間戳設(shè)置模塊1110以及讀取模塊1111。

所述設(shè)定模塊119用于設(shè)定一線性遞增的參考時(shí)鐘。具體地，該設(shè)定模塊119可用于執(zhí)行圖5中所示的步驟s301，具體的操作方法可參考步驟s301的詳細(xì)描述。

所述時(shí)間戳設(shè)置模塊1110用于根據(jù)所述參考時(shí)鐘將獲得的所述音頻流中的每個(gè)音頻數(shù)據(jù)塊和所述視頻流中的每個(gè)視頻數(shù)據(jù)塊打上時(shí)間戳。具體地，該時(shí)間戳設(shè)置模塊1110可用于執(zhí)行圖5中所示的步驟s302，具體的操作方法可參考步驟s302的詳細(xì)描述。

所述讀取模塊1111用于讀取所述音頻流中的各所述音頻數(shù)據(jù)塊和所述視頻流中的各所述視頻數(shù)據(jù)塊上的時(shí)間戳，并參考當(dāng)前參考時(shí)鐘上的時(shí)間來進(jìn)行音頻輸出和視頻輸出，以使音視頻達(dá)到同步。具體地，該讀取模塊1111可用于執(zhí)行圖5中所示的步驟s303，具體的操作方法可參考步驟s303的詳細(xì)描述。

綜上所述，本發(fā)明實(shí)施例提供的字幕疊加方法及裝置，通過對(duì)接收到的ts流信號(hào)進(jìn)行解碼以獲得音頻流和視頻流，對(duì)獲得的音頻流進(jìn)行自動(dòng)語音識(shí)別以獲得文本信息，再將文本信息轉(zhuǎn)換為字幕圖片，將生成的字幕圖片與解碼獲得的視頻流進(jìn)行疊加以最終生成包含字幕的數(shù)據(jù)流視頻文件。該字幕疊加方案可直接對(duì)無字幕的電視節(jié)目進(jìn)行自動(dòng)語音識(shí)別，以生成文本信息，并將文本信息轉(zhuǎn)換為字幕圖片以與視頻流進(jìn)行疊加生成包含字幕的數(shù)據(jù)流視頻文件，以方便聽力障礙人群收看電視節(jié)目。

在本申請(qǐng)所提供的實(shí)施例中，應(yīng)該理解到，所揭露的裝置和方法，也可以通過其它的方式實(shí)現(xiàn)。以上所描述的裝置實(shí)施例僅僅是示意性的，例如，附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的實(shí)施例的裝置、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上，流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段或代碼的一部分，所述模塊、程序段或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意，在有些作為替換的實(shí)現(xiàn)方式中，方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如，兩個(gè)連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行，它們有時(shí)也可以按相反的順序執(zhí)行，這依所涉及的功能而定。也要注意的是，框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合，可以用執(zhí)行規(guī)定的功能或動(dòng)作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn)，或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。

需要說明的是，在本文中，術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下，由語句“包括一個(gè)……”限定的要素，并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已，并不用于限制本發(fā)明，對(duì)于本領(lǐng)域的技術(shù)人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。應(yīng)注意到：相似的標(biāo)號(hào)和字母在下面的附圖中表示類似項(xiàng)，因此，一旦某一項(xiàng)在一個(gè)附圖中被定義，則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步定義和解釋。

以上所述，僅為本發(fā)明的具體實(shí)施方式，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，可輕易想到變化或替換，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此，本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：牛偉;李俊
技術(shù)所有人：成都德芯數(shù)字科技股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

截圖疊加字幕剪在一起相關(guān)技術(shù)

美圖秀秀怎樣字幕疊加相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種字幕疊加方法及裝置與流程