專利名稱:信息處理設(shè)備及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種信息處理設(shè)備,更具體地說,涉及一種基于語音識別結(jié)果的信息處理設(shè)備以輸出語言信息、及其信息處理方法。
背景技術(shù):
近年來有關(guān)使用通過語音信號的語音識別結(jié)果所獲得的語言信息的元數(shù)據(jù)生成的研究非常盛行。將所生成的元數(shù)據(jù)應(yīng)用到語音信號中對于數(shù)據(jù)管理或搜索非常有用。
例如,日本專利申請公開第8-249343號提供了一種通過從音頻數(shù)據(jù)的語音識別結(jié)果所獲得的語言文本中提取特定表達(dá)和關(guān)鍵字、并將其編入索引以建立音頻數(shù)據(jù)庫來實(shí)現(xiàn)期望的音頻數(shù)據(jù)的搜索的技術(shù)。
已經(jīng)存在一種技術(shù),將通過語音識別結(jié)果獲得的語言文本用作數(shù)據(jù)管理或搜索的元數(shù)據(jù)。但是,還沒有動(dòng)態(tài)地顯示語音識別結(jié)果的語言文本以便使用戶能夠容易地理解語音內(nèi)容和相應(yīng)于所述語音的視頻內(nèi)容、并執(zhí)行重放控制的技術(shù)。
本發(fā)明的目的是提供一種通過語音識別能夠生成語言文本并動(dòng)態(tài)地顯示所述語言文本的信息處理設(shè)備及其方法。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個(gè)方面,提供一種使用視頻-音頻信號的信息處理設(shè)備,包括語音重放單元,用于從視頻-音頻信號重放語音信號;語音識別單元,用于對語音信號進(jìn)行語音識別;文本生成器,通過使用語音識別單元的語音識別結(jié)果,用于生成具有語言要素和用于與語音信號的重放同步的時(shí)間信息的語言文本;呈現(xiàn)單元,用于有選擇地與語音重放單元重放的語音信號同步呈現(xiàn)語言要素和時(shí)間信息。
根據(jù)本發(fā)明的另一方面,提供一種信息處理方法,包括對語音信號進(jìn)行語音識別以獲取語音識別結(jié)果;根據(jù)語音識別結(jié)果生成包括語言要素和用于與語音信號的重放同步的時(shí)間信息的語言文本;重放語音信號;以及有選擇地與重放語音信號同步顯示語言要素和時(shí)間信息。
圖1是說明與本發(fā)明的第一實(shí)施例相關(guān)的電視接收機(jī)的示意結(jié)構(gòu)的方框圖。
圖2示出語言信息輸出單元執(zhí)行的詳細(xì)處理過程的流程圖。
圖3示出基于語音識別結(jié)果的語言信息輸出的示例。
圖4示出用于設(shè)置呈現(xiàn)方法的處理過程示例的流程圖。
圖5是說明關(guān)鍵字封閉字幕顯示示例的圖。
圖6是與本發(fā)明的第二實(shí)施例相關(guān)的家庭服務(wù)器的示意結(jié)構(gòu)的方框圖。
圖7是說明家庭服務(wù)器提供的搜索屏幕的示例的圖。
圖8是說明基于關(guān)鍵字滾動(dòng)顯示的內(nèi)容選擇狀態(tài)的圖。
具體實(shí)施例方式
下面將參照附圖描述根據(jù)本發(fā)明的實(shí)施例。
(第一實(shí)施例)圖1是說明與本發(fā)明的第一實(shí)施例相關(guān)的電視接收機(jī)的示意結(jié)構(gòu)的方框圖。該電視接收機(jī)包括調(diào)諧器10,連接到無線天線以接收廣播的視頻-音頻信號;以及數(shù)據(jù)分離器11,用于將調(diào)諧器10接收的視頻-音頻信號(AV(音頻視頻)信息)輸出到AV信息延遲單元12。另外,該數(shù)據(jù)分離器從視頻-音頻信號中分離語音信號,將其輸出到語音識別單元13。該電視接收機(jī)還包括語音識別單元13,用于對數(shù)據(jù)分離器11輸出的語音信號進(jìn)行語音識別;以及語言信息輸出單元14,根據(jù)語音識別單元13的語音識別結(jié)果,生成具有包括語言要素例如單詞的語言文本和用于與語音信號的重放同步的時(shí)間信息的語言信息。
AV信息延遲單元(存儲器)12臨時(shí)存儲數(shù)據(jù)分離器11輸出的AV信息。延遲該AV信息一直到該AV信息由語音識別單元13進(jìn)行語音識別為止。語言信息根據(jù)語音識別結(jié)果來生成。當(dāng)生成的語言信息從語言信息輸出單元14輸出時(shí),該AV信息從AV信息延遲單元12輸出。語音識別單元13從語音信號中獲取包括所有可識別單詞的部分語音信息的信息作為語言信息。
從AV信息延遲單元12輸出的延遲AV信息和從語言信息輸出單元14輸出的語言信息供應(yīng)到同步處理器15。同步處理器15重放延遲的AV信息。此外,同步處理器15將包括在語言信息中的語言文本轉(zhuǎn)換成視頻信號,并將其與AV信息的重放同步地輸出到顯示控制器16。同步處理器15重放的AV信息的語音信號通過音頻電路21輸入到揚(yáng)聲器22,并且視頻重放信號提供給顯示控制器16。
顯示控制器16同步語言文本的視頻信號和AV信息的圖像信號,并將其提供給顯示器17進(jìn)行顯示。從語言信息輸出單元14輸出的語言信息可以存儲在諸如HDD的記錄器18或諸如DVD 19的記錄介質(zhì)中。
圖2示出語言信息輸出單元14執(zhí)行的詳細(xì)處理過程的流程圖。
首先,在步驟S1,語言信息輸出單元14從語音識別單元13獲取語音識別結(jié)果。語言信息的呈現(xiàn)方法與語音識別一起設(shè)定或者事先設(shè)定(步驟S2)。用于設(shè)定呈現(xiàn)方法的信息的獲取將在下文中描述。
在步驟S3,分析包括在語音識別單元13所獲得的語音識別結(jié)果中的語言文本。該分析可以采用公知的詞素分析技術(shù)。執(zhí)行各種自然語言處理,比如從語言文本的分析結(jié)果中提取關(guān)鍵字和重要句子。例如,可以根據(jù)包括在語音識別結(jié)果中的語言文本的詞素分析結(jié)果生成概要信息,并用作將要呈現(xiàn)的對象的語言信息。應(yīng)該注意的是,用于與語音信號的重放進(jìn)行同步的時(shí)間信息對于基于該概要信息的語言信息是必要的。
在步驟S4,對呈現(xiàn)語言信息進(jìn)行選擇。具體地說,根據(jù)諸如選擇基礎(chǔ)、呈現(xiàn)量之類的設(shè)定信息,選擇關(guān)于單詞和短語的信息或者關(guān)于句子的信息。在步驟S5,確定在步驟S4中選擇的呈現(xiàn)語言信息的輸出(呈現(xiàn))單元。在步驟S6,根據(jù)語音開始時(shí)間信息設(shè)置每個(gè)輸出單元的呈現(xiàn)時(shí)間。在步驟S7,為每一個(gè)輸出單元確定呈現(xiàn)延續(xù)的時(shí)間長度。
在步驟S8,輸出代表呈現(xiàn)符號、呈現(xiàn)開始時(shí)間、以及呈現(xiàn)延續(xù)時(shí)間長度的語言信息。圖3示出基于語音識別結(jié)果的語言信息的示例。語音識別結(jié)果30包括至少一個(gè)代表語言文本的語言元素的字符串300、以及與字符串300相對應(yīng)的語音信號的語音開始時(shí)間301。該語音開始時(shí)間301對應(yīng)于與語音信號的重放同步顯示語言信息時(shí)參照的時(shí)間信息。語言信息輸出31代表語言信息輸出單元14根據(jù)設(shè)置的呈現(xiàn)方法執(zhí)行處理所獲得的結(jié)果。該語言信息輸出31包括呈現(xiàn)符號310、呈現(xiàn)開始時(shí)間311、以及呈現(xiàn)延續(xù)時(shí)間長度(秒)312。從圖3中可以看出,呈現(xiàn)符號310是選作關(guān)鍵字例如一個(gè)名詞的語言要素。日語的小品詞排除在呈現(xiàn)符號310之外。例如,在“5秒”的連續(xù)時(shí)間內(nèi),呈現(xiàn)符號“TOKYO”從呈現(xiàn)開始時(shí)間“10:03:08”開始顯示。該語言信息輸出31可以與圖像一起輸出作為所謂的封閉字幕(closed caption)或僅與語音同步的語言信息。
圖4示出用于設(shè)置呈現(xiàn)方法的處理過程示例的流程圖。例如,該用于設(shè)置呈現(xiàn)方法的處理過程使用例如GUI(圖形用戶接口)技術(shù)通過對話屏幕等來執(zhí)行。
首先,在步驟S10,判斷是否呈現(xiàn)關(guān)鍵字(重要單詞或短語)。當(dāng)呈現(xiàn)關(guān)鍵字時(shí),處理前進(jìn)到步驟S11。否則,處理前進(jìn)到步驟S12。當(dāng)呈現(xiàn)關(guān)鍵字時(shí),以句子為單元選擇語言信息并呈現(xiàn)。
在用于設(shè)置呈現(xiàn)單詞或短語的生成以及選擇基準(zhǔn)的步驟S11,用戶設(shè)置部分語音規(guī)范、重要單詞或短語呈現(xiàn)、優(yōu)先呈現(xiàn)單詞或短語、呈現(xiàn)數(shù)量。在用于設(shè)置呈現(xiàn)句子生成以及選擇基準(zhǔn)的步驟S12,用戶設(shè)置包括指定單詞或短語、概要比等的句子代表。當(dāng)通過步驟S11或步驟S12進(jìn)行設(shè)置時(shí),處理前進(jìn)到步驟S13。在步驟S13,判斷是否應(yīng)該動(dòng)態(tài)呈現(xiàn)語言信息。當(dāng)用戶指令動(dòng)態(tài)呈現(xiàn)時(shí),在步驟S14設(shè)置動(dòng)態(tài)呈現(xiàn)的速度和方向。具體地說,設(shè)置滾動(dòng)方向和代表符號的滾動(dòng)速度。
在步驟S15,指定呈現(xiàn)單元和開始時(shí)間。呈現(xiàn)單元為“句子”、“從句”、或者“單詞和短語”,句首語音開始時(shí)間、從句語音開始時(shí)間、單詞和短語語音開始時(shí)間設(shè)置為開始時(shí)間。在步驟S16,以呈現(xiàn)單元指定呈現(xiàn)持續(xù)時(shí)間。在此,對于呈現(xiàn)持續(xù)時(shí)間可以指定“直到下一個(gè)單詞或短語的語音開始”、“秒數(shù)”、或者“直到句子結(jié)束”。在步驟S17,設(shè)置呈現(xiàn)模式。呈現(xiàn)模式包括例如呈現(xiàn)單元的位置、字符框(stile)(字體)、大小等。最好為所有的單詞和短語或者每一個(gè)指定的單詞或短語設(shè)置呈現(xiàn)模式。
圖5是說明關(guān)鍵字封閉字幕顯示示例的圖。圖5所示的顯示屏幕50顯示在本實(shí)施例的電視接收機(jī)的顯示器17上。在該顯示屏幕50上顯示基于所接收的廣播信號的AV信息的圖像53。圓圈51代表與圖像同步的語音的內(nèi)容。該語音內(nèi)容51通過揚(yáng)聲器輸出。與圖像53一起顯示在顯示屏幕50上的關(guān)鍵字封閉標(biāo)題52相應(yīng)于從語音內(nèi)容51中提取的關(guān)鍵字。該關(guān)鍵字與揚(yáng)聲器的語音內(nèi)容同步滾動(dòng)。
電視觀看者能夠根據(jù)該關(guān)鍵字封閉標(biāo)題的動(dòng)態(tài)顯示(呈現(xiàn))與圖像53同步地從視覺上理解語音內(nèi)容51。重放輸出語音內(nèi)容51幫助理解內(nèi)容諸如確認(rèn)漏聽的內(nèi)容、或者提醒理解較寬的內(nèi)容。語音識別單元13、語言信息輸出單元14、同步處理器、顯示控制器16等等可以通過計(jì)算機(jī)軟件執(zhí)行。
(第二實(shí)施例)圖6是與本發(fā)明的第二實(shí)施例相關(guān)的家庭服務(wù)器的示意結(jié)構(gòu)的方框圖。如圖6所示,該實(shí)施例的家庭服務(wù)器60包括存儲AV信息的AV信息存儲單元61、以及對存儲在AV信息存儲單元61中的AV信息所包括的多個(gè)語音信號進(jìn)行語音識別的語音識別單元62。家庭服務(wù)器60還包括連接到語音識別單元62的語言信息處理器63,用于根據(jù)語音識別單元62的語音識別結(jié)果生成語言文本并執(zhí)行提取關(guān)鍵字的語言處理。語言信息處理器63的輸出部分連接到存儲語言信息處理器63的語言處理結(jié)果的語言信息存儲器64。在語言信息處理器63的語言處理中,使用在第一實(shí)施例中描述的呈現(xiàn)方法設(shè)定信息部分。
家庭服務(wù)器60還包括搜索處理器600,提供搜索屏幕,用于搜索存儲在AV信息存儲單元61中的AV信息,通過網(wǎng)絡(luò)67從通信I/F(接口)單元66給用戶終端68和網(wǎng)絡(luò)電子家庭器具和電子設(shè)備(AV電視)69。
圖7是說明家庭服務(wù)器提供的搜索屏幕的示例的圖。由搜索處理器600提供的搜索屏幕80顯示在用戶終端68或網(wǎng)絡(luò)電子家庭器具和電子設(shè)備(AV電視)69上。在該搜索屏幕80中的指示81a和81b相應(yīng)于存儲在AV信息存儲單元61中的AV信息(稱作“內(nèi)容”)。通過劃分內(nèi)容81a(在此為“新聞A”)的描述所獲得的部分內(nèi)容的代表圖像(縮減靜止圖像)或者部分內(nèi)容的縮減視頻顯示在區(qū)域82a中。假定10:00為開始時(shí)間的代表部分內(nèi)容的語音內(nèi)容的語言信息滾動(dòng)顯示在區(qū)域83a中。換句話說,語言信息從語言信息處理器63提供,并且相應(yīng)于從語音識別結(jié)果獲得的語言文本中提取的關(guān)鍵字。類似地,假定10:06為開始時(shí)間的代表部分內(nèi)容的語音描述的語言信息滾動(dòng)顯示在區(qū)域85a中。
通過劃分內(nèi)容81b(在此為“新聞B”)所獲得的部分內(nèi)容的代表圖像(縮減靜止圖像)或者部分內(nèi)容的縮減視頻顯示在區(qū)域82b中。假定11:30為開始時(shí)間的代表部分內(nèi)容的語音內(nèi)容的語言信息滾動(dòng)顯示在區(qū)域83b中。假定11:35為開始時(shí)間的代表部分內(nèi)容的語音內(nèi)容的語言信息滾動(dòng)顯示在區(qū)域85b中。
部分內(nèi)容的語音內(nèi)容的關(guān)鍵字按照每部分內(nèi)容如上所述列表顯示在搜索處理器600所提供的搜索屏幕80上。如果在每一滾動(dòng)顯示中語音內(nèi)容達(dá)到其末尾,則再次回到其開頭并重復(fù)顯示。在通過影片顯示來顯示區(qū)域82a、84a、82b、84b的情況下,影片顯示和滾動(dòng)顯示可以在內(nèi)容上保持同步。在這種情況下,可以考慮第一實(shí)施例。當(dāng)對語言文本進(jìn)行語音識別時(shí),用于同步的時(shí)間信息可以從要被識別的內(nèi)容(的語音信號)中導(dǎo)出。
當(dāng)用戶通過例如鼠標(biāo)M在圖8所示的搜索屏幕80上指定關(guān)鍵字86b時(shí),例如相應(yīng)的內(nèi)容被選擇。在該具體示例中,選擇的是“新聞B”的內(nèi)容81b中假定11:30為開始時(shí)間的部分內(nèi)容。該部分內(nèi)容從AV信息存儲器61中讀出,并且通信I/F單元66將該部分內(nèi)容通過網(wǎng)絡(luò)67發(fā)送到用戶終端68(或AV電視69)。在這種情況下,在“新聞B”的部分內(nèi)容中,期望從相應(yīng)于用戶指定的關(guān)鍵字“交通事故”86b的位置開始重放。家庭服務(wù)器60可以獲取關(guān)鍵字“交通事故”86b之后的內(nèi)容數(shù)據(jù)并發(fā)送。
根據(jù)第二實(shí)施例,通過動(dòng)態(tài)滾動(dòng)顯示根據(jù)語音識別結(jié)果生成的關(guān)鍵字,電視觀看者能夠從視覺上理解內(nèi)容的語音內(nèi)容。此外,可以充分地從基于語音內(nèi)容的視覺理解列出的內(nèi)容中選出期望的內(nèi)容,從而能夠?qū)崿F(xiàn)高效搜索AV信息。根據(jù)如上所述的本發(fā)明,可以提供根據(jù)語音識別生成語言文本并動(dòng)態(tài)地顯示該語言文本的信息處理設(shè)備及其方法。
本領(lǐng)域的技術(shù)人員能夠容易地得出其它優(yōu)點(diǎn)和修改。因此,本發(fā)明不僅限于在此示出和描述的具體細(xì)節(jié)和代表性實(shí)施例。相應(yīng)地,在不脫離所附權(quán)利要求及其等價(jià)物限定的本發(fā)明一般概念的精神和范圍的情況下,可以對其進(jìn)行各種其他變更和修改。
權(quán)利要求
1.一種使用視頻-音頻信號的信息處理設(shè)備,包括語音重放單元,用于從視頻-音頻信號重放語音信號;語音識別單元,用于對語音信號進(jìn)行語音識別;文本生成器,用于通過使用語音識別單元的語音識別結(jié)果,生成具有語言要素和用于與語音信號的重放同步的時(shí)間信息的語言文本;呈現(xiàn)單元,用于有選擇地與語音重放單元重放的語音信號同步呈現(xiàn)語言要素和時(shí)間信息。
2.根據(jù)權(quán)利要求1所述的設(shè)備,還包括接收單元,用于接收包括語音信號的視頻-音頻信號;以及延遲單元,用于臨時(shí)存儲接收單元接收的視頻-音頻信號,并且延遲輸出所述視頻-音頻信號一直到文本生成器生成語言文本。
3.根據(jù)權(quán)利要求1所述的設(shè)備,還包括視頻播放器,用于與語音信號同步重放視頻-音頻信號的視頻信號;以及呈現(xiàn)單元還包括顯示設(shè)備,用于與視頻播放器重放的視頻信號一起顯示語言文本。
4.根據(jù)權(quán)利要求3所述的設(shè)備,還包括接收單元,用于接收包括語音信號的視頻-音頻信號;以及延遲單元,用于臨時(shí)存儲接收單元接收的視頻-音頻信號,并且延遲輸出所述視頻-音頻信號一直到文本生成器生成語言文本。
5.根據(jù)權(quán)利要求1所述并適用記錄介質(zhì)的設(shè)備,還包括合成單元,用于合成代表語言文本的圖像信號和重放的視頻信號;以及輸出單元,用于將合成單元的合成結(jié)果輸出到記錄介質(zhì)。
6.根據(jù)權(quán)利要求5所述的設(shè)備,還包括接收單元,用于接收包括語音信號的視頻-音頻信號;以及延遲單元,用于臨時(shí)存儲接收單元接收的視頻-音頻信號,并且延遲輸出所述視頻-音頻信號一直到文本生成器生成語言文本。
7.根據(jù)權(quán)利要求1所述的設(shè)備,其中語言要素包括單詞。
8.一種信息處理設(shè)備,包括存儲器,用于存儲多個(gè)語音信號;文本生成器,用于通過對語音信號進(jìn)行語音識別,生成多個(gè)語言文本;關(guān)鍵字提取器,用于從語言文本中提取多個(gè)關(guān)鍵字;以及顯示設(shè)備,用于動(dòng)態(tài)地顯示關(guān)鍵字。
9.根據(jù)權(quán)利要求8所述的設(shè)備,其中顯示設(shè)備針對每一個(gè)語言文本動(dòng)態(tài)地顯示多個(gè)關(guān)鍵字。
10.根據(jù)權(quán)利要求8所述的設(shè)備,還包括選擇器,用于從存儲器的語音信號中選擇與多個(gè)關(guān)鍵字中用戶所指定的關(guān)鍵字相對應(yīng)的語音信號;以及語音再現(xiàn)單元,用于再現(xiàn)選擇器所選擇的語音信號。
11.根據(jù)權(quán)利要求10所述的設(shè)備,其中顯示設(shè)備針對每一個(gè)語言文本動(dòng)態(tài)地顯示多個(gè)關(guān)鍵字。
12.根據(jù)權(quán)利要求10所述并適用用戶終端的設(shè)備,還包括發(fā)送器,用于通過網(wǎng)絡(luò)將語音信號或視頻-音頻信號發(fā)送到用戶終端。
13.根據(jù)權(quán)利要求8所述的設(shè)備,其中,存儲器存儲包括語音信號的視頻-音頻信號;并且還包括選擇器,用于從存儲器的視頻-音頻信號中選擇與多個(gè)關(guān)鍵字中用戶所指定的關(guān)鍵字相對應(yīng)的視頻-音頻信號;以及視頻-音頻再現(xiàn)單元,用于再現(xiàn)選擇器所選擇的視頻-音頻信號。
14.根據(jù)權(quán)利要求13所述的設(shè)備,其中顯示設(shè)備針對每一個(gè)語言文本動(dòng)態(tài)地顯示多個(gè)關(guān)鍵字。
15.根據(jù)權(quán)利要求13所述并適用用戶終端的設(shè)備,還包括發(fā)送器,用于通過網(wǎng)絡(luò)將語音信號或視頻-音頻信號發(fā)送到用戶終端。
16.根據(jù)權(quán)利要求8所述的設(shè)備,其中關(guān)鍵字每一個(gè)都代表語音信號的部分語音內(nèi)容。
17.一種信息處理方法,包括對語音信號進(jìn)行語音識別以獲取語音識別結(jié)果;根據(jù)語音識別結(jié)果生成包括語言要素和用于與語音信號的重放同步的時(shí)間信息的語言文本;重放語音信號;以及有選擇地與重放語音信號同步顯示語言要素和時(shí)間信息。
18.一種信息處理方法,包括存儲多個(gè)語音信號;對語音信號進(jìn)行語音識別以生成多個(gè)語言文本;從語言文本中提取多個(gè)關(guān)鍵字;以及動(dòng)態(tài)顯示關(guān)鍵字。
全文摘要
一種使用視頻-音頻信號的信息處理設(shè)備,包括語音量放單元,用于從視頻-音頻信號重放語音信號;語音識別單元,用于對語音信號進(jìn)行語音識別;文本生成器,用于通過使用語音識別單元的語音識別結(jié)果,生成具有語言要素和用于與語音信號的重放同步的時(shí)間信息的語言文本;呈現(xiàn)單元,用于有選擇地與語音重放單元重放的語音信號同步呈現(xiàn)語言要素和時(shí)間信息。
文檔編號H04N5/445GK1581951SQ20041005749
公開日2005年2月16日 申請日期2004年8月13日 優(yōu)先權(quán)日2003年8月15日
發(fā)明者阿部一彥, 河村聰?shù)? 正井康之, 矢島真人, 桃崎浩平, 笹島宗彥, 山本幸一 申請人:株式會(huì)社東芝