用于控制音頻信號的播放的方法和裝置的制作方法

文檔序號：7608664閱讀：234來源：國知局

專利名稱：用于控制音頻信號的播放的方法和裝置的制作方法
技術領域：
本發(fā)明一般涉及播放和音頻/視頻展示(presentation)，尤其是涉及一種過濾音頻信號中不良文字的方法和裝置。
背景技術：
直播和錄制的電視及廣播節(jié)目、電影和各種音頻展示時常包含有褻瀆、誹謗，以及其他被特定的人認為是不良的單詞或短語。在一些場合里，人們會因不良語言的出現(xiàn)而主動回避展示。此外，家長們也經(jīng)常試圖讓他們的孩子免受這類語言的影響。
現(xiàn)已存在對包括不良單詞的整個短語進行靜音的產(chǎn)品?？墒牵瑢φ麄€短語靜音經(jīng)常會產(chǎn)生大量的不完整語言片斷——導致觀眾難以理解和增加觀眾的挫折感。總的后果通常是降低音頻展示的質量。
一般的電視機、機頂盒或類似物都包括有各種處理元件，以接收包括音頻分量和視頻分量的電視信號，并播放該音頻分量和顯示該視頻分量。然而，該處理元件是專用于音頻/視頻信號的處理，很少有多余的帶寬去執(zhí)行其他的操作。
本發(fā)明的一個方案是針對技術背景而構思形成。本發(fā)明涉及一種用于控制音頻信號的播放的裝置和方法，無論該音頻信號是獨立的還是形成音頻/視頻信號的一部分。根據(jù)本發(fā)明的具體實施例經(jīng)配置后可僅僅靜音音頻流中的不良單詞。稍微改進現(xiàn)有物理平臺或無需改進，本發(fā)明的另一個實施例可適于在諸如電視處理器、機頂盒及類似物的傳統(tǒng)音頻/視頻處理設備上運行，若有特殊應用的需要，也適于實時運行。本發(fā)明具體實施例的細節(jié)將在下面作詳細討論。

發(fā)明內容
本發(fā)明的一個方案涉及一種控制音頻信號的播放的方法，其包括接收閉路字幕信號和分析閉路字幕信號是否含指定文本。在鑒別該指定文本的基礎上，分析音頻信號，作為從閉路字幕信號中鑒別指定文本的一功能。然后控制該指定文本所對應的音頻信號的重播。
控制重播的操作可包括(1)減弱與所述閉路字幕信號中指定文本所對應的音頻信號部分；(2)完全刪除與所述閉路字幕信號中指定文本所對應的音頻信號部分；(3)發(fā)出至少一條用于使與所述閉路字幕信號中指定文本所對應的音頻信號部分減弱的命令；(4)以及，在音頻信號中插入至少一個控制碼，用于使閉路字幕信號中指定文本所對應的音頻信號部分減弱。
本方法進一步包括將指定文本轉換成該指定文本的語音表示的操作；進一步地，本方法可包括時間延長所述指定文本的語音表示來定義指定文本的時間延長語音表示。對于該語音表示，確定至少一個能量值以定義該指定文本的可比較形式。同樣地，本方法可包括確定至少一個音頻信號的能量值來定義音頻信號的可比較形式。
分析音頻信號的操作進一步包括將指定文本的可比較形式和音頻信號的可比較形式進行比較的操作。由此，本方法進一步包括鑒別與指定文本所對應音頻信號部分的操作。
該指定文本可為空格、字母、單詞、短語、句子、控制碼和符號。進一步地，該指定文本可由用戶選出。最后，該指定文本可從被認為是不良的文本中選出。
在一些具體的實例中，鑒別指定文本的操作進一步包括鑒別在先文本的操作，所述在先文本在時間上位于指定文本之前。因而作為鑒別閉路字幕信號中指定文本的一功能的分析音頻信號的操作進一步包括作為鑒別閉路字幕信號中在先文本的一功能的分析音頻信號。進一步，所述控制指定文本所對應音頻信號的重播操作進一步包括控制與在先文本所對應的音頻信號的重播。
本發(fā)明的另外一個方案涉及控制音頻信號的播放的方法，其包括將閉路字幕文本信號的指定部分轉換成指定部分的音頻等效(equivalent)；將閉路字幕文本信號指定部分的音頻等效與音頻信號進行比較以鑒別該閉路字幕信號的指定部分所對應的音頻信號部分；以及控制該閉路字幕信號的指定部分所對應音頻信號部分的重播。
該控制重播的操作進一步包括(1)減弱閉路字幕信號指定部分所對應的音頻信號部分；(2)完全刪除閉路字幕信號指定部分所對應的音頻信號部分；(3)發(fā)出至少一個用于使閉路字幕信號指定部分所對應的音頻信號部分減弱的命令；(4)以及，在音頻信號中插入至少一個控制碼，該控制碼適用于使閉路字幕信號指定部分所對應的音頻信號減弱。
第二種方法可以包括將閉路字幕信號指定部分轉換成閉路字幕信號指定部分語音表示的操作。另外，該方法包括時間延長所述閉路字幕信號指定文本的語音表示來描述一個時間延長語音表示的操作。對于語音表示，包括時間延長版本，本方法可以包括確定至少一個語音表示的能量值來定義閉路字幕信號指定部分的可比較形式。
為了比較，第二種方法可包括確定至少一個音頻信號的能量值以定義音頻信號的可比較形式。同樣地，該比較操作可進一步包括將閉路字幕信號指定部分的可比較形式與音頻信號的可比較形式進行比較的操作。而且，該比較操作可進一步包括鑒別閉路字幕信號指定部分所對應的音頻信號部分。
關于在此所討論的任何一種方法，一種包括若干計算機可執(zhí)行指令的處理器可以被配置以實現(xiàn)所述各種方法。
本發(fā)明的第三個方案涉及控制音頻信號的重播的方法，其包括有接收至少一個不良單詞的指示；鑒別閉路字幕信號中至少一個不良單詞；以及鑒別音頻信號中至少一個不良單詞，作為鑒別閉路字幕信號中至少一個不良單詞的一個功能。
通過第三種方法，或其他方法，能控制音頻信號的音頻表示，作為鑒別操作的一個功能。
第三種方法進一步包括靜音(muting)至少一個不良單詞所對應的音頻信號部分的音頻表示。另外，該第三種方法涉及鑒別位于不良單詞之前的閉路字幕信號部分。所述在先部分可從包括空格、字母、單詞、短語、符號和閉路字幕控制信號的集合中選出。
第三種方法可以包括鑒別音頻信號中至少一個不良單詞，作為鑒別閉路字幕信號中的至少一個不良單詞的操作，以及鑒別位于該不良單詞之前的閉路字幕信號部分的操作的一功能?？刂撇僮髯鳛殍b別位于不良單詞之前的閉路字幕信號部分的一功能。本方法還另外地包括使音頻表示靜音的操作，作為鑒別音頻流中位于不良單詞之前的閉路字幕信號部分的一功能。此外，本方法還包括結束靜音，作為鑒別音頻信號中至少一個不良單詞的一功能。
本發(fā)明的第四個方案涉及控制音頻表示的重播的方法，其包括接收至少一個不良單詞的指示；接收音頻信號；在存儲器中存儲該音頻信號；處理該存儲的音頻信號以確定在音頻信號中是否存在至少一個不良單詞；以及控制音頻信號的音頻表示，作為處理操作的一功能。該控制的操作可以包括(1)減弱與至少一個不良單詞所對應的音頻信號部分；(2)完全刪除與該至少一個不良單詞所對應的音頻信號部分；(3)在音頻信號中插入至少一個控制碼，該控制碼用于使與至少一個不良單詞所對應的音頻信號減弱。另外，該處理操作可以包括分析至少一個聲道的音頻信號。

圖1是描述根據(jù)本發(fā)明的一種處理裝置的框圖；圖2是描述一種根據(jù)本發(fā)明通過監(jiān)控對應閉路字幕信號中是否含有指定文本，然后鑒別出指定文本所對應的音頻信號部分來控制音頻信號重播的方法的流程圖；圖3是描述一種根據(jù)本發(fā)明的用于監(jiān)控閉路字幕信號來確定閉路字幕信號是否包含指定文本的方法的流程圖；圖4是描述一種根據(jù)本發(fā)明的對閉路字幕流文本應用字符-發(fā)音算法來定義文本的語音表示的方法的流程圖；圖5是描述一種根據(jù)本發(fā)明的分析音頻信號時間片段以賦予能量值的方法的流程圖；圖6是描述一種根據(jù)本發(fā)明的比較該閉路字幕信號文本的可比較形式與音頻信號的可比較形式以控制音頻信號的重播，如通過靜音音頻信號的某些部分的方法的流程圖；圖7是描述一種根據(jù)本發(fā)明的比較閉路字幕信號文本的可比較形式與音頻信號的可比較形式的方法的流程圖；以及圖8是根據(jù)本發(fā)明的用于對準以及比較閉路字幕信號文本的可比較形式與音頻信號可比較形式的時間對準和計分程序的示意圖。
具體實施例方式
本發(fā)明的方案涉及電視接收機、有線或衛(wèi)星電視機頂盒、錄像機、DVD播放器，或其他諸如經(jīng)配置可接收或處理音頻流的音頻信號處理裝置。在一個特定的實施中，音頻信號處理裝置經(jīng)配置可靜音音頻流中的某些單詞，例如被特定的聽眾/觀眾認為是不良的單詞。根據(jù)本發(fā)明的裝置或方法可以提供一種機制，由此用戶可指出各種被認為是不良的單詞。根據(jù)本發(fā)明的一個具體實施例分析閉路字幕流以檢測不良的單詞或短語，將閉路字幕單詞轉換成音頻表示，然后比較該閉路字幕的音頻表示和音頻流以鑒別音頻流中的不良單詞。當鑒別出不良單詞時，本發(fā)明的具體實施例靜音不良單詞的音頻表示。
圖1-8以及后續(xù)的討論的目的在于簡短全面地描述一種適于本發(fā)明具體實施例實施的計算或信號處理環(huán)境。盡管并不必需，但本發(fā)明具體實施例是在計算機可執(zhí)行指令的一般場合進行描述的，例如由一個或多個諸如電視處理器的處理元件執(zhí)行的程序模塊。通常，程序模塊包括執(zhí)行特定任務或實現(xiàn)特定抽象數(shù)據(jù)類型的例行程序、程序、對象、分量和數(shù)據(jù)結構等。計算機可執(zhí)行指令、關聯(lián)數(shù)據(jù)結構和程序模塊表示用于執(zhí)行此處公開的方法步驟的程序代碼方法(means)的實例。如此可執(zhí)行指令或關聯(lián)數(shù)據(jù)結構的特定次序表示用于實現(xiàn)如此步驟中所描述操作的對應動作的實例。此外，由處理單元執(zhí)行的程序代碼方法(means)提供一種處理器技術方案的實例。
圖1是描述一種根據(jù)本發(fā)明的處理器平臺10的詳細實施方式的框圖。本處理器平臺實現(xiàn)閉路字幕分析器12和音頻流分析器14。閉路字幕分析器經(jīng)配置可接收和處理來自傳統(tǒng)音頻/視頻電視信號的閉路字幕流。此處所使用的“閉路字幕”指描述音頻信號的文本表示的信號。該音頻信號可為模擬或數(shù)字，可被編碼，以及可伴隨視頻信號。閉路字幕可包括字母、空格、單詞、短語以及符號。在數(shù)字環(huán)境下，閉路字幕可進一步包括數(shù)據(jù)包、網(wǎng)絡命令和鏈接，以及其他數(shù)據(jù)。在一個特定的實例中，閉路字幕指符合EIA-608或EIA-708B字幕標準，或有關閉路字幕標準的信號。閉路字幕可在模擬或數(shù)字電視廣播傳輸、有線電視、衛(wèi)星中提供，也可由諸如DVD以及類似物的存儲媒體源傳輸，配合所存儲的音頻信號。通常，對于模擬電視信號，閉路字幕流存在于電視信號的場消隱期(VBI)中的第21行數(shù)據(jù)區(qū)。處理器平臺10包括傳統(tǒng)的閉路字幕解碼器。所述閉路字幕分析器經(jīng)配置可接收已解碼的閉路字幕信號。然而，閉路字幕分析器也可配置有解碼器。對于數(shù)字電視信號，由于數(shù)字電視信號沒有VBI，所以閉路字幕不能從VBI中得到。相反地，該閉路字幕信號與編碼的數(shù)字電視信號多路復用。對于數(shù)字電視信號，該閉路字幕可由數(shù)字電視接收平臺來選取。
閉路字幕分析器可被配置為接收一列由特定用戶所確定的不良單詞。該用戶可以通過在屏(onscreen)選擇過程挑選出不良單詞，借助這種過程用戶可以從一列所有可能的不良單詞中挑選出多種不良單詞。在基于電視的具體實施例中，通過根據(jù)本發(fā)明配置的電視機、機頂盒和接收器等的遙控器，用戶對提供有不良單詞列表的在屏菜單進行操作，并且挑選出特定的不良單詞。作為選擇地，用戶也可通過鍵盤或其他一些諸如遙控器上的箭頭鍵的文本輸入設備，結合字母表的屏幕顯示，直接輸入不良單詞。
除“不良單詞”外，本發(fā)明的具體實施例經(jīng)配置可檢測和控制任何文本的重播。閉路字幕分析器12將閉路字幕流中的每個單詞與用戶所確定的不良單詞列表進行比較。在對閉路字幕流單詞和不良單詞之間的比較鑒別后，將不良單詞列表傳送至音頻流分析器14。
取決于本發(fā)明特定實施的不良單詞列表可僅僅包括已確定的不良文本，不良文本和在先文本，或包括對不良文本和在先文本設有標記的全部閉路字幕流。在此使用的術語“文本”指閉路字幕流的任何一種分量，如字母、單詞、空格、短語、符號和控制碼。單詞列表被發(fā)送至閉路字幕單詞音頻器16，該閉路字幕單詞音頻器進一步處理該文本以產(chǎn)生一種能與音頻信號比較的文本形式或音頻信號的比較形式，也指如下討論的如音頻等效的某些形式。對于其他處理元件，音頻器可為獨立的處理元件，電視處理器，閉路字幕分析器或音頻流分析器的功能部分。單獨顯示該部分能更好地描述本發(fā)明的圖1具體實施例的功能元件。
音頻流分析器14經(jīng)配置可接收音頻流，如模擬或數(shù)字電視信號的音頻部分。音頻流分析器14包括模擬-數(shù)字轉換元件，以便若音頻流不是數(shù)字化格式時，對音頻流數(shù)字化。音頻流分析器經(jīng)配置可處理各種算法，如下將詳細討論，用于比較數(shù)字化音頻流和由閉路字幕分析器確定的不良單詞列表，以及控制音頻流中不良單詞的重播。在一些實施中，控制重播包括靜音不良單詞。通過定義一種修正的音頻流，其中不良單詞所對應的音頻信號已刪除或其振幅或大小或其它方面已削弱；借助嵌入在音頻展示中的靜音命令來鑒別不良單詞，使后續(xù)處理元件讀取該音頻流并且由此靜音不良音頻；以及發(fā)出與音頻展示同步的靜音命令，使得該音頻展示中不包含不良單詞的可聽見形式，從而實現(xiàn)靜音。以下討論描述了各種與音頻信號不良單詞的重播有關的閉路字幕分析器和音頻流分析器的運行方式。閉路字幕分析器12和音頻流分析器可能在同一個處理器中編碼，或在各自的處理器中編碼，或由不同的硬件結構所確定。
圖2是描述一種根據(jù)本發(fā)明的音頻展示(如靜音不良單詞)播放控制的方法的流程圖。如上所述，該閉路字幕分析器接收來自音頻展示(操作200)中的閉路字幕流，該音頻展示可為包括有在場消隱期第21行加上閉路字幕的標準模擬電視信號。在本發(fā)明的一個具體實施例中，在相關音頻流之前或同一時刻接收閉路字幕流。接著，該閉路字幕分析器搜索閉路字幕流用于不良單詞的列表(操作210)。不良單詞由用戶/觀眾確定并存儲在與閉路字幕分析器相互通訊的存儲器中。在確定閉路字幕文本中的不良單詞后，閉路字幕分析器將不良單詞和位于不良單詞之前的單詞發(fā)送至音頻流分析器。例如，在電影“飄”(“Gone WithThe Wind”)中，克拉克·蓋博(Clark Gable)對維維安·利(VivianLeigh)說“Frankly Scarlett，I don′t give a damn.”，如果用戶指出“damn”是不良單詞，那么單詞“damn”將被存儲在不良單詞列表中。當接收該引用對白的閉路字幕信號時，閉路字幕分析器將鑒別出單詞“damn”已被當前用戶所反對，并且將該單詞“damn”和在先單詞“a”發(fā)送給音頻流分析器。
為了正確比較不良單詞(最初是文本形式)和音頻流，不良文本和在先文本被轉換成可與音頻信號進行比較的形式(操作220)。在一個實施中，在音頻器內，利用將文本轉換成語音表示的字母-語音算法對在先文本和不良文本進行處理。其次，語音表示具有的特點是文本的平均或典型的持續(xù)時間，以及單詞的標準總能量和在不同頻帶中特定能量的表示，從而可提供文本的音頻等效。在處理閉路字幕文本的同時，或最好在處理閉路字幕文本之后，將音頻流處理成可比較的形式(操作230)。如下討論的一個實例中，該音頻流經(jīng)處理以確定音頻流在離散時間間隔的總能量和在特定頻帶的特定能量。該閉路字幕文本處理和音頻流處理提供具有可比較形式的閉路字幕文本和音頻流。
一旦以相同格式表示不良文本、在先文本和音頻流，就可鑒別音頻流中的不良文本(操作240)。同樣地，不良文本可與音頻流中的特定音頻片段相匹配。當鑒別出不良文本和在先文本之間與音頻流相互匹配時，靜音命令或其他靜音處理發(fā)生作用以使音頻流和關聯(lián)的電視處理器靜音不良音頻(操作250)。因此，如圖2所描述的方法，允許電視或其他音頻或音頻/視頻設備播放通常已靜音的不良單詞、短語或音頻的音頻片段。此處使用的術語“靜音”意在指音頻片斷的音量已降低，但沒必要降低到零的狀態(tài)。在本發(fā)明的一些具體實施例中，音頻片斷中已靜音的單詞或短語是聽得到的，但是已靜音單詞的音量要小于相鄰單詞的音量。
圖3是描述一種用于分析閉路字幕文本來確定是否包括有被用戶確定為不良單詞或短語的特定方法的流程圖。在本發(fā)明的一個特定實施中，在不良單詞選擇過程中，用戶可選擇要從音頻展示中去除的特定單詞，和要從音頻展示中去除的詞根。將不良詞根存儲在詞根過濾列表中?！霸~根”通常指某些不良單詞，如“damn”，這些不良單詞可能是許多不良單詞和短語的詞根，如“damnit”和“***damnit”。通過該詞根過濾列表，可過濾和去除展示的音頻部分中所包括所述詞根的任何單詞。完整的不良單詞將存儲于排除單詞列表中。
用戶可通過各種機制選擇不良單詞。在一個實施中，在例如電視監(jiān)控器的屏幕上顯示屏幕選擇菜單。該菜單包括眾多潛在的不良單詞和短語，用戶使用可與屏幕菜單相通訊的遙控器單獨地或組合地挑選出這些不良單詞和短語。菜單也可包括不良單詞的分組和分級。
參見圖3，閉路字幕分析器將閉路字幕文本流與詞根進行比較(操作300)。當接收每個單詞時，逐詞依次地進行比較。該比較也可以按閉路字幕流逐段地執(zhí)行。該閉路字幕文本的開始和結束都包括有指示顯示閉路字幕片段時間的標記。本發(fā)明的具體實施例經(jīng)配置可分析在標記之間出現(xiàn)的文本片段。如果閉路字幕流中的文本包括一個不良詞根，那么包括該詞根的文本與在先單詞一同被標識為不良。接著，將閉路字幕流與排除單詞過濾列表相比較(操作310)。任何不良文本和在先文本都被做上標記。下面將會更為詳細地討論，先于不良文本的文本用于鑒別靜音的開始(也就是，先于不良單詞的單詞音頻片段的結束是靜音的開始)。除了做標記外，也可能加載在先單詞，然后再加載不良單詞至先進先出(FIFO)緩存器。然后按FIFO中的順序將在先單詞和不良單詞依次處理成一種比較形式。當出現(xiàn)與在先文本相匹配的音頻時，丟棄該音頻。接著，當出現(xiàn)與不良文本相匹配的音頻時，刪除該音頻。于是，由于閉路字幕和相關音頻之間存在時序關系，因此，從閉路字幕中單詞的鑒別到音頻的靜音的操作可按照FIFO中的順序執(zhí)行。
在一些實施中，進一步分析不良文本，不管其來自詞根列表還是排除單詞列表，依靠其使用場合來確定該不良文本實際上是可接受的單詞還是不良的單詞(操作330)。例如，如果使用在有關“dog”(“狗”)的討論場合中，而不是其他場合，單詞“bitch”是可允許的。為了確定單詞是否允許，在一個實施中，比較閉路字幕短語中的所有其他單詞以試圖確定單詞使用的上下文關系。那么，例如，如果單詞“dog”在相同的短語中被提及，那么這個單詞是可接受的而不能被鑒別為不良單詞。其他方法已在2004年10月23日提交的名稱為“基于與媒體內容相關聯(lián)的信息的家長控制過濾設置(Parental Control FilterSettings Based on Information Associated with the MediaContent)”的美國臨時專利申請No.60/481,548中提出且描述，特此通過引用合并于此。
如果存在不匹配，那么處理器確定是否檢測到閉路字幕流的結束(步驟340)。如上所述，閉路字幕流通常包括指示閉路字幕片段開始和閉路字幕片段結束的指示器。在上闡述的例子中，一個閉路字幕片段包括短語“Frankly Scarlett，I don′t give a damn”。關于該音頻片段的閉路字幕文本將包括在單詞“Frankly”之前的指示器和緊跟單詞“damn”的指示器。如果檢測到短語的結束，倘若不良單詞來自音頻展示，那么將清空文本緩沖器和流靜音分析器。在逐詞操作的FIFO裝置中，不需要執(zhí)行操作340。如果沒有檢測到短語的結束，那么將對照如上引用的詞根列表和排除單詞列表分析隨后的單詞。
圖4是描述本發(fā)明的一種實施的流程圖，在該實施中，將不良的閉路字幕文本和在先文本逐字母地轉換成作為音頻等效的語音表示，并將其作為提供不良文本過程的一部分。在圖4所示流程圖的特定例子中，采用字母到聲音算法將在先文本和不良文本的文本表示轉換成語音表示?，F(xiàn)有眾多的字母到聲音算法。在一個實例中，語音表示可分成五種基本類別，包括空格類；元音、雙元音和半元音類；停頓類；鼻音類，以及摩擦音、耳語和塞擦音類。
在第一操作步驟中，分析文本以確定其是否包括空格(操作400)?？崭窨捎沙掷m(xù)的沉默或缺少有關語音的特性而得以確定。如果字母到聲音算法確定該文本包括一個空格，那么賦予該文本一個“-”(操作405)。下一步，分析文本以確定其是否包括一個元音、雙元音或半元音(操作410)。一般地，元音、雙元音和半元音具有低頻時呈現(xiàn)高電平的特性。一個實例包括元音a，e，i，o，u，和這些字母的組合，如″ou，″″ow，″″oi，″，以及半元音w，l，r，和y。而且，元音、雙元音和半元音可分成高頻元音，如在單詞″beet″中出現(xiàn)的″ee″，以及如在單詞″boot″中出現(xiàn)的″oo″的低頻元音。如果字母到聲音的算法確定一個單詞的字母中包括一個元音，那么賦予該單詞一個″V″(操作415)。下一步，分析在先文本或不良文本以確定其是否包括停頓(操作420)。停頓具有的特征為在一陣聲音后嘴巴完全閉上一小段時間。在一個實例中，諸如p，t和k的無聲停頓與諸如b，d和g的有聲停頓存在明顯區(qū)別。如果字母到聲音算法確定單詞的字母中包括有停頓，那么賦予該單詞一個S(操作425)。下一步，分析在先文本或不良文本以確定是否包括鼻音(操作430)。鼻音的典型特征為來自鼻腔而不是嘴巴的較低頻率的聲音，如m，n和ng的發(fā)音。如果字母到聲音算法確定文本包括一個鼻音，那么賦予該文本一個″N″(操作435)。最后，分析在先文本或不良文本以確定是否包括摩擦音、耳語或塞擦音。摩擦音、耳語和塞擦音的特點為能量集中在較高頻率，以及通過狹窄的通道對呼出氣體的擠壓，如與字母v，ph，z，zh(如在″azure″中)，f，s，sh，j，ch，和h相關聯(lián)的發(fā)音。如果字母到聲音算法確定文本包括一個摩擦音、耳語或塞擦音，那么賦予該文本一個″F″(操作445)。每個單詞都被完全特性化；因此，在操作450中，算法確定該單詞是否完整。如果不完整，將從第一操作400開始繼續(xù)分析。
通過字母到聲音算法對在先文本和不良文本的分析給短語或單詞賦予一個上述標識，也就是，--，V，S，N，和F。就這樣，短語″FranklyScarlett，I don′t give a damn″被轉化成一串符號。在先單詞″a″包括緊跟空格標識之后的標識″V ″，然后單詞damn由符號S，V，和N所標識，其中，S代表字母″d″的停頓，V代表元音″a″，以及N代表鼻音字母″mn″。
圖5是描述一種分析或處理音頻信號方法的流程圖，為音頻信號與閉路字幕信號中已確定為不良文本的可比較形式進行比較做準備。首先，音頻流分析器接收數(shù)字化的音頻信號，并分割該音頻信號成一連串20毫秒的部分(操作500)。每個20毫秒的模擬或數(shù)字化時間信號在下文被稱為“語音片段”。音頻流分析器計算每個語音片段的總能量(操作510)。在一個實例中，時間片段的總能量是振幅的平方和，該振幅被可用于平均信號強度歸一化的長期能量平均所歸一化。另外，進一步確定語音片段在不同頻段的能量(操作520至540)。在一個實例中，音頻分析器確定在150-1500Hz頻段(操作520)，在1500-3000Hz頻段(操作530)，在3000Hz以上頻段(操作540)中語音片段的能量。在一個實例中，每個能帶的測量被歸一化為總能量的百分比。通過數(shù)字濾波后求和以確定頻帶，如采用快速傅立葉變換，完成這樣的能量測定。作為選擇地，也可采用cepstral系數(shù)方法，而不采用頻帶能量。
總能量和頻帶能量的測定規(guī)定了可收集充分信息來判別描述關于閉路字幕文本的語音類別(也就是--，V，S，N和F)的四個顯著特征。人們可以知道，語音不是單個4位數(shù)的能量表示，而是在包含聲音的一個時間間隔內的關于每個時間片斷的一連串4位數(shù)的能量表示。
圖6是描述一種比較在先文本和不良文本的可比較形式與音頻流的可比較形式以確定何時發(fā)生靜音的方法的流程圖。為了正確地比較文本和音頻信號，可進一步處理文本，以延長文本的語音符號表示至聲音類型的平均持續(xù)時間，并進一步使其與合適的聲音能量特征相關聯(lián)。如上所述，音頻信號被分解成20毫秒的時間片段，而每個20毫秒的時間片段的特征在于總能量和三個特殊頻段的能量。同樣地，音頻信號的主要特點也在于時間和能量。因此，在先文本和不良文本的語音表示具有的進一步特點是為了比較音頻信號的時間和能量的目的。
首先，時間延長在先文本和不良文本的語音表示，使之與聲音類型的平均持續(xù)時間相關聯(lián)(步驟600)。每種類型的聲音平均持續(xù)時間可由試驗來確定。比如，如果元音聲音平均持續(xù)160毫秒，那么它將在8個20毫秒的時間片段上重復。在時間延長的操作中，每個符號都進行在該符號的平均持續(xù)時間上的延長。同樣地，一個元音被延長至160毫秒。因而，例如，在″damn″中的語音表示為″V″的″a″將被延長至160毫秒。
除了每個語音表示的時間長度外，每個語音表示還與總能量值，以及與音頻信號(也就是，150-1500Hz，1500-3000Hz，和3000Hz以上)相同頻帶中的能量值相關聯(lián)(操作610)。在一個實例中，對于每個語音符號，在每個給定的時間間隔上給出一個典型的能量值的矩陣。因此，例如，對于平均時間為160毫秒的元音聲音，針對在160毫秒的范圍內的能量值給出一個能量矩陣。對于每個語音符號，可通過對在該語音符號中出現(xiàn)的各種符號和字母的不同發(fā)音的試驗產(chǎn)生該矩陣或“模板”。同樣地，該矩陣可包括關于每個語音符號的許多不同的語音表示。矩陣化技術公開并描述在Meisel發(fā)表的“群集分析和無監(jiān)督學習(ClusterAnalysis and Unsupervised Learning)”中，面向計算機的模式識別方法，學院出版社，1972，特此通過引用合并于此。
當閉路字幕文本具有可比較形式時，它將與音頻流的可比較形式進行比較(使用能量值)(操作620)。如果相匹配(操作630)，那么將消音碼或命令設置于跟隨在先文本結尾的音頻流中(步驟630)。本發(fā)明的三種不同配置均可實現(xiàn)已匹配的在先文本指示之后的靜音。在一種配置中，在檢測到在先文本結尾的同時，音頻分析器發(fā)出靜音命令。靜音命令使得音頻即刻靜音。如果命令與音頻流相比存在一定的延時，那么采用各種延時方法以充分延遲命令，以使之能與音頻流的實際播放同步。在另一種配置中，調整音頻流以致刪除或減弱在先語音結束之后的音頻數(shù)據(jù)。直到檢測到不良文本的結尾時才停止刪除或減弱。最后，在第三種可選擇配置中，數(shù)字命令被嵌入至在先文本與不良文本之間的音頻流中。在檢測到音頻流中的靜音命令后，根據(jù)嵌入至數(shù)字化的音頻流中的命令代碼即刻靜音該音頻。
當在先文本比較后，將來自不良文本的音頻比較形式與來自音頻流的比較形式進行比較(操作650)。當檢測到相匹配之后(操作660)，在不良語言的結尾處發(fā)出第二個靜音碼或命令(操作670)。在發(fā)出靜音音頻命令的一個具體實施例中，在不良語言的結尾處，發(fā)出再一次以正常的音量播放音頻的命令，也就是，使靜音無效。在減弱或刪除數(shù)字化音頻流的一個具體實施例中，當檢測到不良單詞的結尾后，刪除或減弱將中止，并且不再修改音頻流。最后，在數(shù)字化音頻流中采用綜合命令的具體實施例中，在音頻流中跟隨不良單詞的結尾處嵌入隨后非靜音的命令。
圖7是描述一種將無論是在先文本還是不良文本的可比較形式與音頻流的可比較形式進行比較的方法的流程圖。第一步操作涉及文本(預測信號)的可比較形式與音頻信號(檢測信號)的可比較形式之間的時間對準(操作700)。在一個特定的實施中，可借助通常被稱為動態(tài)時間扭曲算法的得到廣泛認可的模板匹配語音識別系統(tǒng)來完成時間對準。
圖8描述了一種在檢測(observed)的信號與預測信號之間基于動態(tài)時間扭曲算法的時間對準實例。該預測信號根據(jù)此處圖4、圖6中的操作600和610所描述的方法產(chǎn)生。該檢測的信號根據(jù)此處有關圖5所描述的方法產(chǎn)生。如上討論，該檢測信號是涉及總能量和150-1500Hz頻帶、1500-3000Hz頻帶和3000Hz頻帶以上的能量的一組四維矢量。而且，每個四維矢量都包括20毫秒片段。在圖8的實例中，存在14個20毫秒時間片段和相關聯(lián)的四維矢量(x1-x14)。動態(tài)時間扭曲算法通過使用“計分”來測量在預測值與檢測值之間的匹配從而得出預測信號的序列(-FFFVVVVVVVNN)對檢測信號的最佳匹配，利用總分值可確定最佳匹配方法。該動態(tài)時間扭曲算法也考慮到并不希望將一個預測值“擴展”到太多的實際值，或反之亦然。結果可能是一個與所預測的如上所述的時間間隔實際值相匹配的最佳分配。如果是這樣的話，算法預測正在匹配的短語，例如，在先短語，結束于檢測信號片段X14處，而且當匹配到在先文本時，在該時間片段后應當開始靜音。因此，在處理期間，當檢測到在先文本的結尾時，借助于在此討論的任何一種方法開始靜音。如果音頻不能和語音適當匹配，例如由于錯誤、草率的操錄或過強的背景噪聲，那么該分值將指示不良匹配，以及根據(jù)該分值將不采取操作。
作為時間對準的一部分，通過比較單個檢測時間片段(具有四個特征值)和預測時間片段的匹配來產(chǎn)生分值，預測時間的特點在于它是五種語音類別中的一種，如vowel(V)。如在前章節(jié)中所記錄的將文本轉換成音頻等效，一種選擇是采用每個特征的標準值，例如，通過在設計階段對類別的標準實例取平均。然后，分值是標準值對檢測值的最佳匹配。該匹配通過簡單的“距離”測量值進行測量，每個特征的差值的平方和用矢量符號，‖xoberved-xtarget‖2，給出距離的平方。如果匹配準確，分值應為0。最佳匹配由最低總分值進行分類。對特征不同地加權存在差異，例如，對總能量的加權要大于對每個頻段的能量加權，若這樣能夠改善性能的話。如先前建議，如果對語音的每個類別存在一個以上的標準實例(模板)，分值應為這類別所有模板的最小量Mini[‖xoberved-xtarget-i‖2]總之，通過選擇計分操作和諸如可采用計分操作的動態(tài)時間扭曲算法，指定出測定短語結尾時間的算法。
本發(fā)明的一個可選具體實施例并不涉及閉路字幕信號的分析。相反地，接收音頻信號，并將其儲存在存儲器中。然后將儲存的音頻信號采用語音識別算法進行處理。該語音識別算法可考慮到振幅、頻率、波長和許多分析音頻信號時的其他因素。每一個已通過語音識別算法鑒別的單詞、短語與由用戶指定的不良單詞，和/或由用戶指定的不良詞根進行比較。通過對存儲的信號片段進行操作，或在存儲信號中嵌入靜音碼，直接削弱在存儲器中已匹配的音頻片斷。
如果音頻信號包括有語音單詞和其他聲音，如背景噪聲、音樂、環(huán)境噪聲等，那么可采用各種過濾技術將語音單詞與其他聲音相分離。另外，對于多通道音頻信號，如，中間聲道，前聲道，后聲道等，那么可單獨分析各個音頻通道。通常，在多聲道音頻信號中中間聲道包括有大量或全部的語音單詞。同樣地，可僅對中間通道進行充分的分析。
本發(fā)明的具體實施例可包括專用或通用計算機，該計算機包括各種計算機硬件、電視系統(tǒng)、音頻系統(tǒng)、和/或前述的組合。這些具體實施例如上所詳細討論。然而，無論如何，所描述的具體實施例都應當認為是本發(fā)明的示例而不作為本發(fā)明范圍的限制。
落入本發(fā)明范圍的具體實施例也包括計算機可讀媒體，該計算機可讀媒體可裝載或持有計算機可執(zhí)行指令，或其上可存儲數(shù)據(jù)結構。這種計算機可讀媒體為任何一種可被通用或專用計算機，如電視機、機頂盒等的處理元件，訪問的現(xiàn)有媒體。舉例來說，但并不限制其范圍，這種計算機可讀媒體包括RAM、ROM、EEPROM、CD-ROM、DVD、或其他光盤存儲器、磁盤存儲器或其他磁盤存儲設備、或其他任何用于裝載或存儲形如計算機可執(zhí)行指令或數(shù)據(jù)結構的所需程序代碼方法的媒介，該媒介可被通用或專用計算機訪問。當在連接著計算機的網(wǎng)絡或其他通信鏈路或連接(硬布線、無線、或硬布線和無線的組合)上傳遞或提供信息時，計算機完全可以把該連接看作計算機可讀媒介。因此，任何這樣的連接都可被嚴格地稱為計算機可讀媒介。上述的組合也應當被包括在計算機可讀媒介的范圍內。例如，計算機可執(zhí)行指令包括使得通用計算機、專用計算機、或專用處理裝置處理一定操作或一組操作的指令或數(shù)據(jù)。
圖1和相關討論的目的在于提供簡明扼要地描述一種實現(xiàn)本發(fā)明的合適的計算環(huán)境。雖然并不必需，但本發(fā)明是在計算機可執(zhí)行指令的一般場合中進行描述的，該計算機可執(zhí)行指令如由一個或多個諸如電視機處理器的處理元件所執(zhí)行的程序模塊。通常，程序模塊包括執(zhí)行特定任務或實現(xiàn)特定抽象數(shù)據(jù)類型的例行程序、程序、對象、組件、數(shù)據(jù)結構等。計算機可執(zhí)行指令、相關數(shù)據(jù)結構和程序模塊表示用于執(zhí)行此處所公開方法的各個步驟的程序代碼方法的實例。這種可執(zhí)行指令或相關數(shù)據(jù)結構的特定次序表示用于執(zhí)行如此步驟中所描述操作的對應動作的實例。而且，由處理單元執(zhí)行的程序代碼方法提供一個處理器方法的實例。
權利要求
1.一種用于控制音頻信號播放的方法，包括有接收閉路字幕信號；分析該閉路字幕信號是否含指定文本；鑒別該指定文本；分析音頻信號作為鑒別來自閉路字幕信號中指定文本的一功能；以及控制該指定文本所對應的音頻信號的重播。
2.根據(jù)權利要求1所述的方法，其中所述控制重播的操作進一步包括減弱與閉路字幕信號中的指定文本對應的音頻信號部分。
3.根據(jù)權利要求1所述的方法，其中所述控制重播的操作進一步包括基本刪除與所述閉路字幕信號中的指定文本對應的音頻信號部分。
4.根據(jù)權利要求1所述的方法，其中所述控制重播的操作進一步包括發(fā)出至少一條適用于使與所述閉路字幕信號中的指定文本對應的音頻信號部分減弱的命令。
5.根據(jù)權利要求1所述的方法，其中所述控制重播的操作進一步包括在音頻信號中插入至少一個控制碼，該控制碼適用于使與閉路字幕信號中的指定文本對應的音頻信號部分減弱。
6.根據(jù)權利要求1所述的方法，進一步包括將所述指定文本轉換成該指定文本的語音表示的操作。
7.根據(jù)權利要求6所述的方法，進一步包括時間延長所述指定文本語音表示來定義該指定文本的時間延長語音表示。
8.根據(jù)權利要求7所述的方法，進一步包括確定至少一個指定文本的時間延長語音表示的能量值來定義該指定文本的可比較形式。
9.根據(jù)權利要求8所述的方法，進一步包括確定至少一個音頻信號的能量值來定義音頻信號的可比較形式。
10.根據(jù)權利要求9所述的方法，其中分析音頻信號的操作進一步包括將指定文本的可比較形式和音頻信號的可比較形式進行比較的操作。
11.根據(jù)權利要求10所述的方法，其中所述比較操作進一步包括鑒別與指定文本所對應的音頻信號部分。
12.根據(jù)權利要求1所述的方法，其中所述指定文本從包括空格、字母、單詞、短語、句子、控制碼和符號的組中選出。
13.根據(jù)權利要求1所述的方法，其中指定文本由用戶選擇。
14.根據(jù)權利要求1所述的方法，其中所述指定文本從被認為是不良的文本中選擇。
15.根據(jù)權利要求1所述的方法，其中鑒別指定文本的操作進一步包括鑒別在先文本的操作，該在先文本在時間上位于指定文本之前。
16.根據(jù)權利要求15所述的方法，其中所述分析音頻信號作為鑒別來自閉路字幕信號中的指定文本的一個函數(shù)的操作進一步包括分析音頻信號，作為來自鑒別閉路字幕信號中的在先文本一個函數(shù)。
17.根據(jù)權利要求16所述的方法，其中所述與控制指定文本所對應的音頻信號的重播操作進一步包括控制與在先文本所對應的音頻信號的重播。
18.根據(jù)權利要求6所述的方法，其中所述將指定文本轉換成指定文本的語音表示的操作包括對指定文本運用字符-發(fā)音算法。
19.根據(jù)權利要求1所述的方法，其中分析音頻信號作為鑒別來自閉路字幕信號中指定文本的一功能包括采用動態(tài)時間扭曲算法。
20.一種包括多個計算機可執(zhí)行指令被配置為能執(zhí)行權利要求1所述方法的處理器。
21.根據(jù)權利要求6所述的方法，進一步包括確定至少一個指定文本的語音表示的能量值來定義指定文本的可比較形式。
22.根據(jù)權利要求21所述的方法，進一步包括確定至少一個音頻信號的能量值來定義音頻信號的可比較形式。
23.根據(jù)權利要求22所述的方法，其中分析音頻信號的操作進一步包括將指定文本的可比較形式與音頻信號的可比較形式進行比較的操作。
24.根據(jù)權利要求23所述的方法，其中所述比較操作進一步包括鑒別與指定文本對應的音頻信號部分。
25.一種用于控制音頻信號播放的方法，其包括將閉路字幕文本信號的指定部分轉換成該指定部分的音頻等效；將該閉路字幕文本信號的指定部分的音頻等效與音頻信號進行比較，以鑒別與該閉路字幕信號的指定部分所對應的音頻信號部分；以及控制與該閉路字幕信號的指定部分對應的音頻信號部分的重播。
26.根據(jù)權利要求25所述的方法，其中該控制重播的操作進一步包括減弱與閉路字幕信號的指定部分對應的音頻信號部分。
27.根據(jù)權利要求25所述的方法，其中該控制重播的操作進一步包括基本上刪除與閉路字幕信號的指定部分對應的音頻信號部分。
28.根據(jù)權利要求25所述的方法，其中該控制重播的操作進一步包括發(fā)出至少一個用于使與閉路字幕信號指定部分對應的音頻信號部分減弱的命令。
29.根據(jù)權利要求25所述的方法，其中該控制重播的操作進一步包括在音頻信號中插入至少一個控制碼，該控制碼適用于使與閉路字幕信號的指定部分對應的音頻信號部分減弱。
30.根據(jù)權利要求25所述的方法，其中將閉路字幕文本信號的指定部分轉換成指定部分的音頻等效的操作進一步包括將閉路字幕信號的指定部分轉換成閉路字幕信號的指定部分的語音表示的操作。
31.根據(jù)權利要求30所述的方法，進一步包括時間延長閉路字幕信號指定部分的語音表示以定義時間延長語音表示。
32.根據(jù)權利要求31所述的方法，進一步包括確定至少一個時間延長語音表示的能量值以定義閉路字幕信號指定部分的可比較形式。
33.根據(jù)權利要求32所述的方法，進一步包括確定至少一個音頻信號的能量值以定義該音頻信號的可比較形式。
34.根據(jù)權利要求33所述的方法，其中該比較的操作進一步包括將閉路字幕信號指定部分的可比較形式與音頻信號的可比較形式進行比較的操作。
35.根據(jù)權利要求34所述的方法，其中該比較的操作進一步包括鑒別出與閉路字幕信號指定部分對應的音頻信號部分。
36.一種包括多個計算機可執(zhí)行指令經(jīng)配置后實現(xiàn)權利要求25所述方法的處理器。
37.一種控制音頻信號重播的方法，其包括接收至少一個不良單詞的指示；鑒別閉路字幕信號中的至少一個不良單詞；以及鑒別音頻信號中至少一個不良單詞，作為鑒別閉路字幕信號中至少一個不良單詞的操作的一功能。
38.根據(jù)權利要求37所述的方法，進一步包括控制音頻信號的音頻表示，作為鑒別操作的一功能。
39.根據(jù)權利要求38所述的方法，進一步包括靜音與至少一個不良單詞所對應的音頻信號部分的音頻表示。
40.根據(jù)權利要求38所述的方法，進一步包括鑒別位于不良單詞之前的閉路字幕信號部分。
41.根據(jù)權利要求40所述的方法，其中該在先部分可從包括空格、字母、單詞、短語、符號、和閉路字幕控制信號的組中選出。
42.根據(jù)權利要求40所述的方法，進一步包括鑒別音頻信號中至少一個不良單詞作為鑒別閉路字幕信號中至少一個不良單詞的操作，和鑒別先于不良單詞的閉路字幕信號部分的操作的一功能。
43.根據(jù)權利要求42所述的方法，其中控制操作作為鑒別先于不良單詞的閉路字幕信號部分的一功能。
44.根據(jù)權利要求43所述的方法，進一步包括使音頻表示靜音，作為鑒別音頻流中先于不良單詞的閉路字幕信號部分的一功能。
45.根據(jù)權利要求44所述的方法，進一步包括結束靜音，作為鑒別音頻流中至少一個不良單詞的功能。
46.一種包括多個計算機可執(zhí)行指令的經(jīng)配置后實現(xiàn)權利要求37所述方法的處理器。
47.一種控制音頻表示重播的方法，其包括接收至少一個不良單詞的指示；接收音頻信號；在存儲器中存儲該音頻信號；處理已儲存的音頻信號以確定音頻信號中是否存在至少一個不良單詞；以及控制音頻信號的音頻表示，作為處理操作的一功能。
48.根據(jù)權利要求47所述的方法，其中控制操作進一步包括減弱與至少一個不良單詞對應的音頻信號部分。
49.根據(jù)權利要求47所述的方法，其中控制操作進一步包括基本上刪除與至少一個不良單詞對應的音頻信號部分。
50.根據(jù)權利要求47所述的方法，其中控制操作進一步包括在音頻信號中插入至少一個控制碼，該控制碼用于使與至少一個不良單詞所對應的音頻信號減弱。
51.根據(jù)權利要求46所述的方法，其中該處理操作進一步包括分析至少一個聲道的音頻信號。
52.一種包括多個計算機可執(zhí)行指令的經(jīng)配置后實現(xiàn)權利要求47所述方法的處理器。
全文摘要
根據(jù)本發(fā)明的裝置和方法包括一種通過對相關的閉路字幕信號和相關的音頻信號的共同分析來控制音頻信號重播的方法。通過對照用戶所確認的不良文本，鑒別閉路字幕信號中的不良文本或其它指定文本。在鑒別所述不良文本之后，分析音頻信號以鑒別該不良文本所對應的音頻部分。在鑒別出該音頻部分后，控制該音頻信號以靜音原本可聽見的不良文本。
文檔編號H04N5/445GK1871856SQ200480031040
公開日2006年11月29日申請日期2004年8月26日優(yōu)先權日2003年8月26日
發(fā)明者馬修·托馬斯·加曼, 威廉姆·S·梅瑟爾申請人:克里爾普雷有限公司

完整全部詳細技術資料下載