一種聲音與文本全自動(dòng)匹配對(duì)齊的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實(shí)例涉及一種聲音與文本全自動(dòng)匹配對(duì)齊的方法,特別是涉及一種音視頻內(nèi)的聲音與講稿、聲音與字幕等文本內(nèi)容全自動(dòng)匹配及時(shí)間軸對(duì)齊的方法。
【背景技術(shù)】
[0002]音視頻內(nèi)的聲音與文本匹配對(duì)齊的目的主要是用于相關(guān)字幕文件制作。
[0003]目前制作字幕文件的方法主要是經(jīng)相關(guān)專業(yè)技術(shù)培訓(xùn)的人員通過(guò)操作相關(guān)制作軟件或工具、純手工方式、逐行逐句地完成所有文本校對(duì)與時(shí)間軸對(duì)齊的工作。
[0004]這種傳統(tǒng)字幕文件制作的方法具有操作復(fù)雜、浪費(fèi)人力、耗時(shí)巨大、輸出結(jié)果編碼不規(guī)范等弊端。
【發(fā)明內(nèi)容】
[0005]針對(duì)上述問(wèn)題,本發(fā)明實(shí)例提供了一種能全自動(dòng)、標(biāo)準(zhǔn)化、無(wú)需人工干預(yù)的聲音與文本匹配對(duì)齊的方法。技術(shù)方案如下:系統(tǒng)接收到用戶提交的音文匹配對(duì)齊請(qǐng)求,所述請(qǐng)求中必須包括音視頻文件和對(duì)應(yīng)講稿文本文件。
[0006]系統(tǒng)自動(dòng)判斷音視頻文件格式,并自動(dòng)剝離出16bit音軌信號(hào)。
[0007]系統(tǒng)自動(dòng)根據(jù)音軌采樣頻率和發(fā)音停頓點(diǎn)邏輯切割完整音軌為多個(gè)短時(shí)音軌。
[0008]系統(tǒng)內(nèi)語(yǔ)料庫(kù)自動(dòng)將多個(gè)邏輯短時(shí)音軌按順序逐一識(shí)別為待匹配文本,并為每一個(gè)待匹配文本字符添加毫秒級(jí)時(shí)間軸碼。
[0009]系統(tǒng)自動(dòng)將已識(shí)別的待匹配文本逐字地和講稿文本文件內(nèi)的字符匹配,從而篩選出正確的匹配文本字符并再次確認(rèn)已添加的毫秒級(jí)時(shí)間軸碼,如果篩選不成功,系統(tǒng)自動(dòng)將未篩選成功字符標(biāo)紅并跳過(guò)。
[0010]系統(tǒng)自動(dòng)將已正確匹配文本字符和添加毫秒級(jí)時(shí)間軸碼的所有短時(shí)音軌文本(包括未篩選成功標(biāo)紅的字符)重新組合成完整音軌文本。
[0011]系統(tǒng)自動(dòng)根據(jù)完整音軌文本內(nèi)標(biāo)點(diǎn)符號(hào)斷句、計(jì)算每一個(gè)斷句的起止時(shí)間軸碼、為每一個(gè)斷句添加毫秒級(jí)時(shí)間軸碼。
[0012]系統(tǒng)自動(dòng)將已添加毫秒級(jí)時(shí)間軸碼的完整音軌文本內(nèi)容以xml格式輸出結(jié)果給用戶,并同時(shí)生成srt、ass等標(biāo)準(zhǔn)格式字幕文件供用戶選擇。
[0013]本發(fā)明實(shí)例采用音軌自動(dòng)剝離、音軌邏輯分割和大語(yǔ)音識(shí)別領(lǐng)域等技術(shù),在確保不破壞原始音視頻內(nèi)容的情況下,可高效、智能、準(zhǔn)確地幫助用戶批量實(shí)現(xiàn)音視頻內(nèi)容的實(shí)時(shí)音文匹配對(duì)齊并根據(jù)用戶需求輸出多種格式的時(shí)間軸碼文件。
[0014]說(shuō)明書附圖
為了更清楚地說(shuō)明本發(fā)明實(shí)例,在說(shuō)明書附圖頁(yè)將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單的介紹,顯而易見(jiàn),在說(shuō)明書附圖頁(yè)描述中的附圖僅僅是本發(fā)明的一個(gè)實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0015]說(shuō)明書附圖頁(yè)內(nèi)的圖1為本發(fā)明實(shí)施例中一種聲音與文本全自動(dòng)匹配對(duì)齊的方法的實(shí)施流程圖。
【主權(quán)項(xiàng)】
1.一種聲音與文本全自動(dòng)匹配對(duì)齊的方法,其特征在于,所述方法主要包括:音軌自動(dòng)采樣模塊、音軌語(yǔ)音自動(dòng)識(shí)別模塊、文本字符批量自動(dòng)匹配模塊以及音軌文本自動(dòng)合成豐旲塊。2.音軌自動(dòng)采樣模塊:所述音軌自動(dòng)采樣模塊用于用戶提供的音視頻音軌自動(dòng)識(shí)別、采樣、剝離以及邏輯切割生成多個(gè)短時(shí)音軌。3.音軌語(yǔ)音自動(dòng)識(shí)別模塊:所述音軌語(yǔ)音識(shí)別模塊用于音軌自動(dòng)采樣模塊邏輯生成的多個(gè)短時(shí)音軌的語(yǔ)音轉(zhuǎn)文本字符并為每個(gè)文本字符添加對(duì)應(yīng)的起止時(shí)間軸碼。4.文本字符批量自動(dòng)匹配模塊:所述文本字符批量自動(dòng)匹配模塊用于將音軌語(yǔ)音自動(dòng)識(shí)別模塊所識(shí)別出的多個(gè)文本字符批量自動(dòng)與用戶提供的標(biāo)準(zhǔn)文本字符對(duì)應(yīng)匹配正確。5.音軌文本自動(dòng)合成模塊:所述音軌文本自動(dòng)合成模塊用于將所有文本字符批量自動(dòng)匹配模塊所匹配成功的文本字符按序合成為一個(gè)完整的音軌文本。6.根據(jù)權(quán)利要求2所述的一種聲音與文本全自動(dòng)匹配對(duì)齊的方法,其特征在于,音軌自動(dòng)采樣模塊根據(jù)音軌內(nèi)聲音的發(fā)音停頓點(diǎn)全自動(dòng)以邏輯的方式切割完整音軌為多個(gè)短時(shí)長(zhǎng)音軌并記錄在系統(tǒng)緩存。7.根據(jù)權(quán)利要求3所述的一種聲音與文本全自動(dòng)匹配對(duì)齊的方法,其特征在于,音軌語(yǔ)音自動(dòng)識(shí)別模塊讀取系統(tǒng)緩存內(nèi)記錄的多個(gè)邏輯短時(shí)長(zhǎng)音軌,以多并發(fā)模式通過(guò)語(yǔ)音識(shí)別將所有邏輯短時(shí)長(zhǎng)音軌內(nèi)語(yǔ)音轉(zhuǎn)化為文本字符,并自動(dòng)為每一個(gè)文本字符添加對(duì)應(yīng)的起止時(shí)間軸碼。8.根據(jù)權(quán)利要求4所述的一種聲音與文本全自動(dòng)匹配對(duì)齊的方法,其特征在于,文本字符批量自動(dòng)匹配模塊將所有語(yǔ)音識(shí)別轉(zhuǎn)換而來(lái)的文本字符全自動(dòng)與用戶提交的標(biāo)準(zhǔn)文本字符批量按序--對(duì)應(yīng)匹配并做一致性對(duì)比和正確性判斷。9.根據(jù)權(quán)利要求5所述的一種聲音與文本全自動(dòng)匹配對(duì)齊的方法,其特征在于,音軌文本自動(dòng)合成模塊將所有已與用戶提交的標(biāo)準(zhǔn)文本字符做完一致性對(duì)比和正確性判斷的全部短時(shí)長(zhǎng)音軌文本字符以全自動(dòng)的方式重新按序合成為一個(gè)完整的音軌文本,并同時(shí)根據(jù)文本內(nèi)的標(biāo)點(diǎn)符號(hào)全自動(dòng)斷句和為每一個(gè)斷句添加所對(duì)應(yīng)的起止時(shí)間軸碼,最后系統(tǒng)還將全自動(dòng)將已斷句并添加完對(duì)應(yīng)起止時(shí)間軸碼的完整音軌文本內(nèi)容以XML方式輸出結(jié)果給用戶,同時(shí)還自動(dòng)為用戶生成SRT、ASS等標(biāo)準(zhǔn)字幕文件格式的文件以供備選。
【專利摘要】本發(fā)明實(shí)例涉及一種聲音與文本全自動(dòng)匹配對(duì)齊的方法,特別是涉及一種音視頻內(nèi)的聲音與講稿、聲音與字幕等文本內(nèi)容全自動(dòng)匹配及時(shí)間軸對(duì)齊的方法。本發(fā)明實(shí)例提供了一種能全自動(dòng)、標(biāo)準(zhǔn)化、無(wú)需人工干預(yù)的聲音與文本匹配對(duì)齊的方法。本發(fā)明實(shí)例采用音軌自動(dòng)剝離、音軌邏輯分割和大語(yǔ)音識(shí)別領(lǐng)域等技術(shù),在確保不破壞原始音視頻內(nèi)容的情況下,可高效、智能、準(zhǔn)確地幫助用戶批量實(shí)現(xiàn)音視頻內(nèi)容的實(shí)時(shí)音文匹配對(duì)齊并根據(jù)用戶需求輸出多種格式的時(shí)間軸碼文件。
【IPC分類】G10L25/48, G10L15/26
【公開(kāi)號(hào)】CN104900233
【申請(qǐng)?zhí)枴緾N201510238262
【發(fā)明人】常鍇, 羅振坤
【申請(qǐng)人】深圳市東方泰明科技有限公司, 常鍇
【公開(kāi)日】2015年9月9日
【申請(qǐng)日】2015年5月12日