專利名稱:文本映射到音頻并動畫文本的設(shè)備及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音頻分析領(lǐng)域,特別是諸如演講等包含文本說明的音頻。更具體地講,涉及創(chuàng)建文本到音頻映射的設(shè)備及相應(yīng)處理過程,以及與播放音頻信息同步的文字動畫設(shè)備。與音頻同步的文本動畫方式來表示文本到音頻的映射,所傳達(dá)的信息量遠(yuǎn)遠(yuǎn)多于音頻或者文本自身所表達(dá)出來的信息量,也多于音頻和靜態(tài)文字合在一起所表達(dá)出來的信息量。
以本發(fā)明首套實施方案為依據(jù),我們提供一臺設(shè)備(“聲文映射器10”)以及一套文本到音頻映射的創(chuàng)建方法。
以本發(fā)明第二套實施方案為依據(jù),我們提供了一臺帶有音頻播放的文本動畫設(shè)備(“聲文播放器50”)。
本發(fā)明映射器10和播放器50,克服了過去技術(shù)上存在的缺陷。以前的技術(shù)阻礙了語音和文本表示的同步實現(xiàn)。通過克服這些不足之處,映射器10和播放器50為更好和更新穎地應(yīng)用語音加文本表示形式,開辟了一條新的途徑。
背景技術(shù):
在基于語言方面的第一次技術(shù)進(jìn)步是簡單發(fā)聲法的開發(fā),當(dāng)時這些發(fā)聲法只能在時間上孤立地進(jìn)行意思傳達(dá)。后來,人們按時間相位和相繼次序?qū)@些最初的發(fā)聲法進(jìn)行組合,形成了語音流(streams of speech)。再后來,人們發(fā)明了在洞壁或其他合適表面上繪制簡單符號或圖像,但它們只是在空間上孤立進(jìn)行意思傳達(dá)。后人及時將這些符號或圖像與口語聯(lián)系了起來。后來,人們把這些獨立的與語言有關(guān)的圖形在空間相位上按相繼次序組合形成了書面語言或“文本”。具體地說,我們具有創(chuàng)新精神的祖先,開始對象形、表意或者有音素特征的字符進(jìn)行順序空間排序,這些字符對應(yīng)并且部分表示實際言語中按時間順序排列、用來傳達(dá)意思的發(fā)聲序列。這些二維空間字符既傳達(dá)意思又與發(fā)聲有關(guān),用這些字符表示的相繼次序是一項非常關(guān)鍵的創(chuàng)新,它使得我們能夠?qū)⑺矔r動態(tài)語音流的部分表示“凝固”成靜態(tài)可儲存文本。
模擬語音處理的發(fā)明,進(jìn)一步提高了人們通過說話和文本進(jìn)行交流的能力。這項技術(shù)發(fā)明使得我們能夠凝固并存儲動態(tài)語音流的聲音,而不在滿足于把語音部分等效存儲為文本。近年來,通過以下方式,人們通過語言進(jìn)行交流的能力得到了進(jìn)一步延伸一是通過對語音和文字進(jìn)行數(shù)字編碼,存儲,處理,然后對其進(jìn)行解碼處理;二是電腦化文本搜索技術(shù)的開發(fā);三是通過交互式文本包括交互式文本注釋和超文本的開發(fā)。最后,因特網(wǎng)分布語音錄音和文本技術(shù)的開發(fā),使得人們通過語言進(jìn)行交流的能力大大提高。這項技術(shù)是通過因特網(wǎng),將語音錄音和文本分布到越來越盛行的可編程或?qū)S脭?shù)字計算裝置上。
概括地說,兩個相繼次序的出現(xiàn),使得口語和書面語言的交流成為可能一是用來傳達(dá)意思的說話發(fā)聲的時間相繼次序,二是表示說話發(fā)聲的象形、表意或者有音素特征的字符的空間相繼次序。雖然上述兩個相繼次序都分別是一種有力的語言溝通形式,但是,語音和文本的局部等同,使得我們利用其中一個來表示或替代另一個成為可能。已經(jīng)有多種途徑證明這個局部等同非常有用,這些途徑包括人們對兩種妨礙人際交流的殘疾—耳聾和失明的征服。具體地說,聽不見口語但可以看見并學(xué)過閱讀的人,通過讀出抄寫的口語單詞,至少可以理解講話的部分意思。其次,那些看不見書面語言的人,可以通過傾聽把書寫下來的文字轉(zhuǎn)換成的發(fā)聲,或者通過聆聽原始講話錄音,理解書面上寫的是什么。
對于具有視力和聽力者,在同時進(jìn)行語音和文本表示時,語音和文本表示的配合可以創(chuàng)造出一種有力的混合式語言交流形式。具體地說,語音和文本的同時傳達(dá),使得聽/讀者在同一時間內(nèi)同時通過兩條語言交流途徑,即聽和看,來得到信息。語音加文本表示中的講話部分,會支持并強化書面信息,而語音加文本表示中的文本部分,則支持并強化講話信息。簡而言之,語言加文本表示的效果,好于其各部分表示的總和。
例如,在熟悉的國歌響起時,看到同步顯示“星條旗”歌詞,可能會讓人在一個全新角度上油然而生感激之情。同樣,在聆聽馬丁路德金演講錄音的同時,閱讀他著名的“我有一個夢想”的原文,會讓人沉浸在語言加文本的全新體驗中,這種體驗,性質(zhì)上決不同于簡單的閱讀原文或聆聽講演。
語音加文本表示,在教育領(lǐng)域也有廣闊的應(yīng)用。例如,學(xué)習(xí)閱讀某個人的本國語言,涉及到書寫字符與相應(yīng)口語單詞的聯(lián)想。通過語音加文本的同步表示,可以使得這種聯(lián)想學(xué)習(xí)法變得更加容易。
語音加文本表示在教育領(lǐng)域的另一項應(yīng)用,是外語或“第二”語言的學(xué)習(xí)—也就是學(xué)習(xí)至少在開始以口頭或書寫形式不能理解的語言。例如,一位學(xué)習(xí)德語的學(xué)生,可以玩語音加文本版的卡夫卡的“變形”,在閱讀文本的同時,可以聆聽口語版的故事。在這種第二語言學(xué)習(xí)應(yīng)用中,諸如書面譯文等文本注釋可以幫助學(xué)生以口語和書面語兩種形式理解第二語言,并幫助學(xué)生獲得口語和書面表達(dá)能力??谡Z翻譯形式的文本注釋可以增強外語資料的語音加文本表示效果,這些文本注釋可以是清晰的發(fā)音,或是個別單詞的讀音,也可以是彈出式測驗題。
這種語音加文本表示在工業(yè)教育領(lǐng)域的一項應(yīng)用,是增加書面技術(shù)資料的音頻版本。音像版企業(yè)培訓(xùn)手冊或者航空機師指南,可以這樣制作在文本顯示的同時播放音頻,以便讓人們更透徹地理解其中的術(shù)語。
有多種原因?qū)е码y以理解一篇講話,除了外語之外,還有例如,講話錄音中語音部分因本底噪聲影響而模糊不清,講話帶有陌生口音,因與音樂伴奏混雜或節(jié)奏變化而導(dǎo)致的歌曲歌詞難以聽懂,或者在聲樂中常見的因歌詞或音節(jié)持續(xù)時間變化而導(dǎo)致的歌曲歌詞難以聽懂。所有這些問題,都可以通過將語音成分用書面和發(fā)聲兩種方式結(jié)合表示來解決。
對現(xiàn)存在的一些講話以語音加文本形式進(jìn)行記錄,在保護瀕危語言并存檔保存這些語言方面,也可以起到建設(shè)性的作用。
一般地說,語音加文本的混合表示方式,借助于基于機器的文本搜索技術(shù),機器搜索這些表示中的語音成分的再現(xiàn)成為了可能。
我們首先提出從前的技術(shù)相對于本發(fā)明映射器10的不足之處,然后提出其相對于播放器50的不足之處。
現(xiàn)行的音頻分析或者聲音編輯程序,可以用來在用戶選定位置錄音時設(shè)置標(biāo)記。然后可以輸出這些標(biāo)記,創(chuàng)建一個時間編碼表。成對的時間編碼可以按時間間隔譯碼。然而,用這樣的方式創(chuàng)建的時間編碼或時間編碼間隔,并沒有映射到文本信息中。該方法在錄音和諸如講話等可以以錄音形式存在的文本表示之間形成一個映射。這就是以前的技術(shù)達(dá)不到本發(fā)明中映射器10的功能的原因。
現(xiàn)在,我們看看涉及到本發(fā)明播放器50以前的舊技術(shù)。在播放錄音講話的同時呈現(xiàn)該講話的書面記錄(或者在呈現(xiàn)文本的同時播放其發(fā)聲轉(zhuǎn)換版本)時,正在聆聽的讀者(或者是正在閱讀的聽眾)會遇到幾個問題第一個問題是,對應(yīng)于正在講述的內(nèi)容,怎樣掌握文本中的文字進(jìn)展到了何處?以前的技術(shù)有兩種方法應(yīng)對這個問題,在下文中我們會分析其不足之處。第二個問題是,在語音加文本表示中,組成文本的書寫單詞個體可以做成機器可搜索、可注釋和交互式的,而音頻部分的口語單詞個體則不能。從前的技術(shù)盡管知道文本和音頻之間的對應(yīng)關(guān)系,但是未能使包含語音的音頻做到機器可搜索、可注釋和交互式。第三個問題是,音頻成分的交互式傳輸需要制定一個流協(xié)議。從前的技術(shù)并沒有涉及使用音頻成分傳送流協(xié)議的而引起的限制問題。
從前的技術(shù)曾試圖以兩種方法解決上述第一個問題,即“如何掌握文本中的文字進(jìn)展”。
第一個方法是使語音加文本的分段保持簡短。如果一段講話比較簡短,其相應(yīng)的文本因此也會較短,因此播放的音頻和顯示的文本之間的關(guān)系可能會相對清晰—條件是正在聆聽的讀者明白語音加文本表示的語音和書面成分。同時顯示的文本越長,受眾理解講話或書面文字(或二者)的難度越大,因此也越有可能不知道講話在文本上進(jìn)展到了何處??墒牵H艘话闶且砸粋€“行進(jìn)流”來講話,并不局限于孤立的單詞或者短語。此外,我們習(xí)慣閱讀的文本是正常的連續(xù)文本,并不是那些為了方便顯示而被分割成像單詞或者短語那么長的一段段的文本。正常人的語音,包括聲樂中的語音成分,如果其錄音記錄每次以單個單詞或短語顯示,然后快速變化以便跟上語音流,會顯得很不自然?,F(xiàn)有的伴讀系統(tǒng)使用大塊的文本或歌詞,使得書面錄音記錄的表示更加自然,但同時也加大了受眾在文本中搞不清講話或歌詞進(jìn)展的可能性。
從前的技術(shù)曾試圖用第二種方法,即與文本相關(guān)的動畫法來解決跟上進(jìn)展的問題。使用這種方法的實例有伴唱輔助系統(tǒng),如一些較老的動畫片中的“彈球”(bouncing ball),或者卡拉OK系統(tǒng)中的彈球或者其它的位置指示動畫。畫面上的球隨著音樂從一個詞移動到另一個詞,隨著音樂的繼續(xù)提示歌詞唱到了何處,或者是要唱的歌詞。利用彈球或者等效物的移動,與文本有關(guān)的動畫也增加了人們對其他靜態(tài)文本的直觀興趣。
與語音同步的文本動畫,顯然有潛力以一種徹底、有效和令人喜愛的方法來將語音與其文本相聯(lián)系?,F(xiàn)有的技術(shù)實現(xiàn)了以視頻記錄或者電影的方式制作文本動畫。但是以這種方式實現(xiàn)文本動畫有很多弊病1、這種影像的創(chuàng)作耗時較長,并且要求相關(guān)人員具有較高的技能。
2、即使僅顯示文本、播放音頻,這種影像的創(chuàng)作也會形成大容量數(shù)據(jù)文件。
這些大容量文件相應(yīng)地占用大量帶寬和數(shù)據(jù)存儲空間,并因此對那些可以將語音加文本表示下載到可編程數(shù)字計算裝置或者專用數(shù)字計算裝置上的設(shè)備施加了很多限制。
3、動畫是固定式的。
4、通常動畫低于單詞級粒度。
5、除非作為視頻的一部分,否則不能播放音頻。
6、與音頻之間的交互僅限于控制放像機。
7、音頻不是機器可搜索或可注釋的。
8、一旦制成視頻,文本便無法更新或者改進(jìn)。
9、文本不是機器可搜索或可注釋的。
10、與文本自身不能交互。
發(fā)明內(nèi)容
本發(fā)明在文本和音頻之間建立連接,假定文本是錄音語音的書面記錄,或者語音是文本經(jīng)發(fā)聲轉(zhuǎn)換而成的口語或歌唱形式。本發(fā)明(a)定義了該種連接或者映射的創(chuàng)建過程;(b)提供了一套設(shè)備,以計算機程序的形式來幫助映射;(c)提供了另一個相關(guān)設(shè)備,也以計算機程序的形式,充分有效地證明了音頻播放時文本和音頻之間的連接。與音頻播放同步的文本動畫,說明了該連接的存在。
本發(fā)明采用的技術(shù)方案為文本映射到音頻的設(shè)備及方法,其中,包括至少一臺計算機可讀取多媒體,該多媒體包含著創(chuàng)建文本到音頻記錄時序映射的計算機程序指令,所述計算機程序指令執(zhí)行饋送步驟,作為文本到音頻的映射設(shè)備及方法的輸入,包括至少一臺計算機,文本為計算機可讀取格式的文本,相應(yīng)音頻記錄為計算機可讀取格式的音頻記錄;賦值步驟,將起始和終止時間賦值給對應(yīng)此音頻記錄的文本單元,所述文本單元可以為文本粒度。
在優(yōu)選技術(shù)方案中,所述文本粒度包括固定時間段音頻、字母、音素、音節(jié)、單詞、短語、句子和段落。
在進(jìn)一步的優(yōu)選技術(shù)方案中,包括生成多個音頻記錄的步驟,通過對輸入的音頻記錄在起始和終止時間邊界上的差分,使得音頻記錄同對應(yīng)的文本單元保持粒度上的一致。
在進(jìn)一步的優(yōu)選技術(shù)方案中,包括以下步驟在不用基礎(chǔ)流協(xié)議的情況下,利用所述多個音頻記錄實現(xiàn)音頻流。
在進(jìn)一步的優(yōu)選技術(shù)方案中,上述文本的格式是以下格式之一美國標(biāo)準(zhǔn)信息碼ASCII、統(tǒng)一碼Unicode、數(shù)字化樂器接口MIDI及在數(shù)字計算裝置或者電子設(shè)備之間或之中發(fā)送數(shù)字編碼音樂信息的格式。
在進(jìn)一步的優(yōu)選技術(shù)方案中,包括將注釋賦值到上述單元的賦值步驟,其中注釋的格式來自于一個格式組,該格式組包括文本、音頻、圖像、影像剪輯、統(tǒng)一資源定位器URL的格式和媒體格式;注釋可以是內(nèi)容組中的內(nèi)容,所述內(nèi)容組由定義、翻譯、腳注實例、參考、讀音和用戶對相應(yīng)內(nèi)容測驗組成。
在進(jìn)一步的優(yōu)選技術(shù)方案中,包括將所述開始和結(jié)束時間以及所述單元以計算機可讀取格式保存的步驟。
在進(jìn)一步的優(yōu)選技術(shù)方案中,上述方法包括如下步驟
饋送步驟,作為計算機實現(xiàn)映射模板的輸入,文本為計算機可讀取格式的文本,相應(yīng)音頻記錄為計算機可讀取格式的音頻記錄;賦值步驟,將起始和終止時間賦值給對應(yīng)此音頻記錄的文本單元,所述文本單元可以為文本粒度;生成結(jié)構(gòu)文本步驟,基于單元并進(jìn)一步基于單元的開始和結(jié)束時間生成結(jié)構(gòu)文本。
在進(jìn)一步的優(yōu)選技術(shù)方案中,其中的結(jié)構(gòu)文本來自于超文本標(biāo)記語言HTML、可擴展標(biāo)記語言XML和簡單分界符文本;并且結(jié)構(gòu)文本指出的結(jié)構(gòu)包括至少一個單元邊界、不同粒度的單元層次、以及單元與單元的起始和終止時間之間的對應(yīng)關(guān)系。
在進(jìn)一步的優(yōu)選技術(shù)方案中,所述設(shè)備包括計算機上的映射模塊,該模塊將計算機可讀取格式的文本以及對應(yīng)于該文本的計算機可讀取格式的音頻記錄作為輸入;賦值方法,將起始和終止時間賦值給對應(yīng)此音頻記錄的文本單元,上述文本單元可以為文本粒度;及交互選擇方法,選擇至少一個單元以及單元的顆粒值。
在進(jìn)一步的優(yōu)選技術(shù)方案中,選擇方法允許交互性改變、擴大和/或縮小顆粒值。
在進(jìn)一步的優(yōu)選技術(shù)方案中,所述設(shè)備包括
計算機實現(xiàn)的播放器模塊,該模塊將文本、對應(yīng)于所述文本的音頻記錄以及文本與音頻記錄之間的時序映射作為輸入,其中所述播放器模塊動畫文本,顯示文本,并在音頻記錄播放時,同步顯示文本;所述動畫使得被顯示的文本隨音頻記錄的播放而同步變化;并且,所述動畫和同步是在構(gòu)成文本的字母、音素或者音節(jié)級別上的動畫和同步,從而達(dá)到了與相應(yīng)音頻記錄的同步播放。
在進(jìn)一步的優(yōu)選技術(shù)方案中,所述文本是書面文本,并且所述音頻記錄是單詞發(fā)聲記錄。
在進(jìn)一步的優(yōu)選技術(shù)方案中,所述方法包括如下步驟饋送步驟,將文本、對應(yīng)于所述文本的音頻記錄以及文本與音頻記錄之間的時序映射作為計算機實現(xiàn)的播放器模塊的輸入,其中所述播放器模塊動畫文本、顯示文本,并在音頻記錄播放時,同步顯示文本;所述動畫使得顯示的文本隨音頻記錄的播放而同步變化;所述動畫和同步是在構(gòu)成文本的字母、音素或者音節(jié)級別上的動畫和同步,從而達(dá)到了與相應(yīng)音頻記錄的同步播放。
在進(jìn)一步的優(yōu)選技術(shù)方案中,還包括賦值給文本單元的注釋的顯示步驟,其中顯示注釋由用戶依據(jù)文本單元基礎(chǔ)交互觸發(fā)或自動觸發(fā)。
在進(jìn)一步的優(yōu)選技術(shù)方案中,注釋由用戶依據(jù)文本單元基礎(chǔ)交互觸發(fā);并且該基礎(chǔ)是用戶采用指示器或者輸入設(shè)備來選擇的字母、音素、音節(jié)、單詞、短語、句子或者段落。
在進(jìn)一步的優(yōu)選技術(shù)方案中,包括動畫文本并與音頻記錄同步顯示所述動畫文本的計算機程序指令,所述計算機程序指令完成下述步驟饋送,將文本、對應(yīng)于上述文本的音頻記錄以及文本與音頻記錄之間的時序映射作為文本動畫輸出設(shè)備及方法的輸入,其中所述文本動畫輸出設(shè)備及方法完成動畫文本及顯示文本,并在音頻記錄播放時,同步顯示文本;所述動畫使得顯示的文本隨音頻記錄的播放而同步變化;并且所述動畫和同步是在構(gòu)成文本的字母、音素或者音節(jié)級別上的動畫和同步,從而達(dá)到了與相應(yīng)音頻記錄的同步播放。
在進(jìn)一步的優(yōu)選技術(shù)方案中,至少兩個所述播放器模塊、所述文本、所述音頻記錄和所述映射被集成在了一個可執(zhí)行數(shù)字文件中。
在進(jìn)一步的優(yōu)選技術(shù)方案中,包括通過網(wǎng)絡(luò)連接的傳輸步驟、至少一個所述播放器模塊、所述文本、所述音頻記錄和所述映射。
在進(jìn)一步的優(yōu)選技術(shù)方案中,包括顯示賦值給文本單元注釋的步驟,其中,顯示的注釋由用戶依據(jù)文本單元基礎(chǔ)交互觸發(fā)或自動觸發(fā)。
在進(jìn)一步的優(yōu)選技術(shù)方案中,注釋由用戶依據(jù)文本單元基礎(chǔ)交互觸發(fā);并且該基礎(chǔ)是用戶采用指示器或者輸入設(shè)備來選擇的字母、音素、音節(jié)、單詞、短語、句子或者段落。
在進(jìn)一步的優(yōu)選技術(shù)方案中,所述方法包括下述步驟客戶端計算機請求服務(wù)器計算機向其發(fā)送較長音頻記錄中的音頻段,所述音頻段具有一定時長的時間間隔;作為對所述客戶端計算機所述請求的響應(yīng),所述服務(wù)器計算機給所述客戶端計算機發(fā)送所述音頻段。
在進(jìn)一步的優(yōu)選技術(shù)方案中,音頻段的呈現(xiàn)形式為一組計算機文件;并且所述服務(wù)器計算機利用文件傳送協(xié)議向所述客戶端計算機發(fā)送所述音頻段。
在進(jìn)一步的優(yōu)選技術(shù)方案中,較長的音頻記錄包含講話;并且音頻段由被指定的音節(jié)、單個單詞和/或一系列單詞的開始和結(jié)束點設(shè)定。
在進(jìn)一步的優(yōu)選技術(shù)方案中,包括在不使用基礎(chǔ)流協(xié)議的情況下,利用所述傳輸?shù)囊纛l段來實現(xiàn)音頻流的特性的步驟。
本發(fā)明具有如下特性1、語音加文本表示的動畫,能夠充分有效地證明口語單詞及其文本表示之間的暫時關(guān)系。
2、創(chuàng)建語音加文本表示形式的效率較高,此技術(shù)無需具有專門技能,無需專門培訓(xùn)。
3、表示語音加文本的數(shù)據(jù)存儲文件較小,所需數(shù)據(jù)傳輸帶寬較小,因此適于快速下載到便攜式計算設(shè)備上。
4、動畫呈現(xiàn)形式易于修改。
5、可全部或部分地播放音頻而不依賴于動畫或者文本的顯示。
6、與語音加文本表示形式的交互,不局限于傳統(tǒng)上對音頻與視頻播放器的各種控制(即“播放”、“倒帶”、“快速進(jìn)帶”和“重放”),包括適于該技術(shù)的各種控制(如“隨機存取”、“重復(fù)上個短語”以及“翻譯當(dāng)前單詞”)。
7、本發(fā)明使得語音加文本表示能夠做到可機器搜索、可注釋和交互式實施。
8、本發(fā)明允許播放音頻注釋,也允許顯示文本注釋。
9、本發(fā)明允許在表示被創(chuàng)建后對文本中的成分進(jìn)行糾正或改變。
10、本發(fā)明允許交互式隨機讀取音頻,而不使用基礎(chǔ)流協(xié)議。
11、本發(fā)明提供了一個靈活的文本動畫和創(chuàng)作工具,該工具可用于創(chuàng)作栩栩如生的語音加文本表示來滿足各種特殊應(yīng)用需要,如文化培訓(xùn)、第二語言學(xué)習(xí)、語言翻譯以及教育、培訓(xùn)、娛樂和營銷等。
在下文說明書中,還會更詳盡地描述這些說明以及本發(fā)明其他更詳細(xì)具體的實物和特征。請參看附圖,圖中以各種角度放大顯示了本發(fā)明,以方便理解。
圖1是適于本發(fā)明的數(shù)字計算裝置100的方框圖;圖2是本發(fā)明的聲文映射器(“Mapper”)10的方框圖以及相關(guān)裝置和數(shù)據(jù);圖3是本發(fā)明的聲文播放器(“Player”)50的方框圖以及相關(guān)裝置和數(shù)據(jù)。
具體實施例方式
本發(fā)明可以各種不同的形式來具體化。因此,此處公布的細(xì)節(jié)與其說是限制,不如說是作為樣本教導(dǎo)擅長該技術(shù)的人員在任何適當(dāng)?shù)南到y(tǒng)或者結(jié)構(gòu)上,或者以任何方式去使用本發(fā)明。
圖1顯示了本發(fā)明的數(shù)字計算裝置100。數(shù)字計算裝置100的組成如下1.輸入處理器,2.通用處理器,3.內(nèi)存,4.非易失性數(shù)字存儲器,5.音頻處理器,6.視頻處理器,7.網(wǎng)絡(luò)適配器,上述部件均通過總線結(jié)構(gòu)8連接在一起。數(shù)字計算裝置100可以裝在標(biāo)準(zhǔn)個人電腦、手機、靈巧電話、掌上電腦、筆記本電腦、個人數(shù)字助理等裝備有適當(dāng)?shù)妮斎搿⒁曨l顯示器以及音頻硬件的設(shè)備內(nèi)。也可用專用硬件和軟件來實現(xiàn)。它們可以集成到消費電器和裝置中。
在使用時,網(wǎng)絡(luò)適配器7可以接到通信網(wǎng)絡(luò)9上,如局域網(wǎng)、廣域網(wǎng)、無線通信網(wǎng)、因特網(wǎng)等等。外部計算機31可通過網(wǎng)絡(luò)9與數(shù)字計算裝置100通信。
圖2所示是聲文映射器(“Mapper”)10,該裝置用于創(chuàng)建文本與音頻錄音之間的時序映射。圖3所示是聲文播放器(“Player”)50,該裝置用來使文本以栩栩如生的方式顯示,并且使這些文本動畫與音頻播放同步。
在此描述的本發(fā)明的所有組件和模塊可以用任何硬件、軟件、和(或)固件的組合來實現(xiàn)。用軟件實現(xiàn)時,上述組件和模塊可以嵌入在計算機可讀取介質(zhì)或者媒體上,如一個或多個硬盤、軟盤、CD、DVD等。
映射器10(在處理器2上執(zhí)行)從內(nèi)存3、非易失性數(shù)字存儲器4和(或)通過網(wǎng)絡(luò)適配器7從網(wǎng)絡(luò)9接收輸入數(shù)據(jù)。輸入數(shù)據(jù)有兩個組成部分,音頻記錄11和文本12,它們通常作為分立文件實現(xiàn)。
音頻記錄11是任意長度聲音的數(shù)字表示,該數(shù)字表示用MP3、OOG或者WAV格式編碼。音頻記錄11通常包括口語講話。
文本12是書面文本或者字形的數(shù)字表示,該數(shù)字表示用ASCII或者Unicode格式進(jìn)行編碼。文本12還可以是樂器數(shù)字接口MIDI(Music InstrumentDigital Interface)表示或者任何其他在數(shù)字計算裝置或者電子裝置之間發(fā)送音樂數(shù)字編碼信息的格式。文本12通常由自然語言的書面文字組成。
音頻記錄11和文本12有一個內(nèi)在的對應(yīng)。示例之一是一段講話的音頻記錄11與該段講話文字稿的文本12。另一個示例是一首歌曲的音頻記錄11與該首歌曲歌詞的文本12。還有一個示例是多個鳥語的音頻記錄11以及這些鳥的種類的文本名稱12。一個按時序?qū)?yīng)的映射(項(jana)明細(xì)表16)反映了這種內(nèi)在對應(yīng)。
標(biāo)記(Marko)表14定義為開始和結(jié)束時間對(標(biāo)記開(mark-on)、標(biāo)記關(guān)(mark-off)),其單位是秒或其他時間單位。舉例來說,數(shù)字對2.000:4.500定義了音頻記錄11中的音頻數(shù)據(jù),該音頻記錄開始于2.000秒,結(jié)束于4.500秒。
對標(biāo)記(Marko)14的限制包括數(shù)字對中的第二個數(shù)始終大于第一個數(shù),并且標(biāo)記(Marko)14不重疊。
令牌表15是對應(yīng)標(biāo)記(Marko)14的文本或者符號表示表。
成對出現(xiàn)的標(biāo)記(Marko)14和對應(yīng)此標(biāo)記(Marko)14的文本或符號表示15稱作項(jana)16(jana發(fā)音為yaw-na)。舉例來說,單詞“hello”的音頻在音頻記錄11中開始于2.000秒,結(jié)束于4.500秒,該單詞的音頻由Marko2.000:4.500來規(guī)定。Marko2.000:4.500和令牌“hello”確定一個具體的項(jana)16。注意項(jana)16只是數(shù)字和令牌15的對14,項(jana)16并未包含實際音頻數(shù)據(jù)11。
項(jana)表16是標(biāo)記(Marko)表14和令牌表15的組合。項(jana)表16定義音頻記錄11和文本12之間的時序映射。
Mishcode(mishmash code混雜編碼)定義為令牌15是符號而不是文本的項(jana)16??赡鼙硎緸閙ishcode的音頻段實例是寂靜、歡呼、咳嗽、僅有樂器聲的音樂或者任何選定為不由文本表示的其他聲音。例如,在音頻記錄11中的歡呼聲開始于5.200秒并終止于6.950秒音,該記錄由marko5.200:6.950,與之成對的是令牌“<mishcode>”,在此“<mishcode>”指的是一個具體的mishcode。注意一個mishcode是一類項(jana)16。
帶有文本表示的mishcode不再是mishcode。例如,歡呼聲可能通過文本“掌聲”、“歡呼”或者“觀眾突然歡呼”來表示。用該文本置換“<mishcode>”令牌后,它不再是一個混雜編碼,但仍是項(jana)16。同理,用令牌“<mishcode>”來取代文本表示后,帶有文本表示的項(jana)16轉(zhuǎn)換成一個mishcode。
各項(jana)表示的音頻,可以另存為獨立的音頻記錄17,通常計算機文件稱為分離文件(split files)。表14-16和文件17可以存儲在非易失性數(shù)字存儲器4上。
顯示器20連接在視頻處理器6上,該顯示器為用戶提供數(shù)字計算裝置100的視覺反饋。與音頻處理器5連接的揚聲器30,為用戶提供聲頻反饋。利用連接在輸入處理器1和映射器10的用戶輸入40,比如鼠標(biāo)和(或)鍵盤,用戶可以控制映射器10。
在一套實施方案中,映射器10在顯示器20上顯示以下四個窗口標(biāo)記(Marko)窗格21、令牌窗格22、控制器窗格23和音量圖窗格24。在其他實施方案中,映射器的功能可以分散在不同數(shù)量的窗格中,該數(shù)量或多于、或少于4個。
標(biāo)記(Marko)窗格21顯示標(biāo)記(Marko)14,每行顯示一個。窗格21是可滾動的,該項可選。窗格21還可有交互控制功能。
令牌窗格22顯示令牌15,每行顯示一個。窗格22也是可滾動的,該項可選。窗格22也可以有交互控制功能。
控制器窗格23顯示編輯、播放、保存、加載和程序控制的控制器。
音量圖窗格24顯示音頻記錄11的某一段的音量圖。窗格24也可以有交互控制功能。
圖2所示系統(tǒng)的操作描述如下
音頻記錄11通過映射器10接收,映射器生成一個初始標(biāo)記(Marko)表14,并在標(biāo)記(Marko)窗格21中顯示標(biāo)記(Marko)表14。初始標(biāo)記(Marko)表14的創(chuàng)建方法有兩種,一是利用音頻記錄11的聲學(xué)分析由映射器10來創(chuàng)建;二是由映射器10把音頻記錄11劃分為任意預(yù)選持續(xù)時間段的固定間隔。
可以根據(jù)預(yù)先選定的時間長度的音頻11的音量是高于還是低于預(yù)先選定的音量閾值來進(jìn)行聲學(xué)分析。
在聲學(xué)分析掃描中考慮三種情況(1)等于或長于持續(xù)時間D1內(nèi)小于音量閾值V1的音頻記錄的音頻段為“平靜”(lull)類;(2)等于或長于持續(xù)時間D2內(nèi)開始和結(jié)束音量大于閾值V2且不包含平靜(lull)的音頻段11,為“聲音”(sound)類;(3)未包括在上述兩類中的音頻11為“模棱兩可”(ambiguous)類。
參數(shù)V1和V2規(guī)定音量,或者更準(zhǔn)確地講,規(guī)定聲功率水平,比如以瓦或者分貝為單位測得的聲功率水平值。參數(shù)D1和D2規(guī)定時間間隔,其測定單位為秒或者其它時間單位。四個參數(shù)(V1、V2、D1和D2)都是用戶可選參數(shù)。
利用映射器10,把模棱兩可類的音頻分解成接近的聲音類或者平靜類。這一點可由映射器10在聲學(xué)分析完成后利用邏輯法則自動進(jìn)行,也可由用戶在控制器窗格23中人工干預(yù)進(jìn)行。該步結(jié)束后,會形成一個標(biāo)記(Marko)14表,該表定義音頻記錄11中的各個聲音;該表在標(biāo)記(Marko)窗格21中顯示。
利用任意持續(xù)時間的固定間隔創(chuàng)建初始標(biāo)記(Marko)表14,要求用戶在控制器窗格23中選擇一個時間間隔。標(biāo)記(Marko)14是選定的重復(fù)時間間隔,以覆蓋音頻記錄11的整個持續(xù)時間。表中的最后一個標(biāo)記(Marko)14,可以比選定的時間間隔短。
文本12由映射器10接收,初始令牌表15則由映射器10生成并在令牌窗格22內(nèi)顯示。在標(biāo)點、文字或者諸如HTML標(biāo)簽等中間數(shù)據(jù)的基礎(chǔ)上,通過將文本12分離成單元(令牌),可以創(chuàng)建出初始令牌表15。
下一步是一個交互式過程,通過此過程,用戶可以創(chuàng)建標(biāo)記(Marko)14和令牌15個體之間的對應(yīng)。
用戶可以從標(biāo)記(Marko)窗格21中選擇一個標(biāo)記(Marko)14個體,并利用控制器窗格23從音頻記錄11播放對應(yīng)的音頻。從揚聲器30中可以聽到聲音,并且聲音的音量圖顯示在音量圖窗格24內(nèi)。標(biāo)記(Marko)窗格21和令牌窗格22則顯示標(biāo)記(Marko)14和令牌15之間的大致對應(yīng)。通過下述操作,用戶可以交互式地“提純”這種對應(yīng)。
標(biāo)記(Marko)操作包括“拆分”、“結(jié)合”、“刪除”、“裁剪”和“播放”。令牌操作包括“拆分”、“結(jié)合”、“刪除”和“剪輯”。符號令牌的唯一規(guī)定操作是“刪除”。根據(jù)具體的實施方案不同,可以通過標(biāo)記(Marko)、控制器和音量圖窗格(分別為窗格21、23和24)的組合來執(zhí)行標(biāo)記(Marko)操作,或者通過其他的用戶輸入40來執(zhí)行標(biāo)記(Marko)操作。根據(jù)具體的實施方案不同,可以通過令牌窗格22和控制器窗格23的組合來執(zhí)行令牌操作,或者通過其他的用戶輸入40來執(zhí)行令牌操作。
標(biāo)記(Marko)拆分是將標(biāo)記(Marko)窗格21中的標(biāo)記(Marko)轉(zhuǎn)換成兩個有順序的marko X和marko Y,其中拆分點可以是原標(biāo)記(Marko)14開始和結(jié)束之間的任何一個點。Marko X始于原標(biāo)記(Marko)的開始點,Marko Y終于原標(biāo)記(Marko)的終點,且Marko X的終點與marko Y的始點相同。該點就是拆分點。用戶可以參考音量圖窗格24來幫助確定出合適的拆分點。音量圖窗格24顯示與當(dāng)前的項(jana)16對應(yīng)的音頻記錄11部分的音量圖。
標(biāo)記(Marko)結(jié)合是將標(biāo)記(Marko)窗格21中的兩個有順序的標(biāo)記(Marko),即marko X和marko Y轉(zhuǎn)換成一個單個標(biāo)記(Marko)14,其開始點是marko X的始點,終點是marko Y的終點。
標(biāo)記(Marko)刪除是從顯示在標(biāo)記(Marko)窗格21中的標(biāo)記(Marko)表14中去掉一個標(biāo)記(Marko)。
標(biāo)記(Marko)裁剪是從標(biāo)記(Marko)14的始點或終點去除額外的信息。這相當(dāng)于將標(biāo)記(Marko)14拆分成兩個標(biāo)記(Marko)14,并廢棄表示額外信息的那個標(biāo)記(Marko)14。
標(biāo)記(Marko)播放是播放與標(biāo)記(Marko)14對應(yīng)的音頻記錄11部分。播放時,該部分音頻記錄11在揚聲器30上產(chǎn)生,音量圖在音量圖窗格24上顯示,而對應(yīng)于播放標(biāo)記(Marko)14的令牌15則在令牌窗格22上突出顯示。在這種情況下“突出顯示”指的是任何一種直觀強調(diào)方式。
標(biāo)記(Marko)操作還定義為標(biāo)記(Marko)組操作一個標(biāo)記(Marko)14可以拆分為多個標(biāo)記(Marko),多個標(biāo)記(Marko)14可以按相同的量來剪裁,而多個標(biāo)記(Marko)14可以被結(jié)合、刪除或播放。
“令牌拆分”是將令牌窗格22內(nèi)顯示的令牌15轉(zhuǎn)換成兩個有順序的令牌,即令牌X和令牌Y,在此拆分點是字母、字符或象形字對之間的一個點。
“令牌結(jié)合”是將令牌窗格22內(nèi)顯示的兩個順序排列的令牌,即令牌X和令牌Y,轉(zhuǎn)換成一個單一令牌15。轉(zhuǎn)換的方式是將令牌Y以文本附加的方式附加到令牌X上。
“令牌編輯”指的是修改令牌15的文本,例如糾正拼寫錯誤。
“令牌刪除”是從令牌窗格22中顯示的令牌表15中去除一個令牌。
交互過程完成后,各個標(biāo)記(Marko)14都有一個與之對應(yīng)的令牌15;這個標(biāo)記(Marko)、令牌對被稱為項(jana)16,項(jana)16的類集則被稱為項(jana)表16。
用戶可以利用控制器自動生成在音頻記錄11中所有時間間隔的mishcode,這些時間間隔未包括在音頻記錄11的項(jana)表16的任何一個標(biāo)記(Marko)14中。
項(jana)表16可以由映射器10保存,保存格式是計算機可讀取格式,通常是一個或多個計算機文件。在一套實施方案中,項(jana)表16另存為兩個分離文件,即標(biāo)記(Marko)表14和令牌表15。在另一個實施方案中,二者都保存在一個單一的項(jana)表16內(nèi)。
標(biāo)記(Marko)表14和令牌表15合并成一個單一項(jana)文件16包括如下方法(1)表14、15單元的成對拼接(concatenation);(2)一個表15在另一個表14終點的拼接;(3)為標(biāo)記(Marko)14和令牌15單元定義XML或者其他的中間數(shù)據(jù)標(biāo)簽。
映射器10的一個可選功能是創(chuàng)建各個項(jana)16的分離音頻記錄17。這些記錄通常存儲為計算機文件集,這些文件集通稱為拆分文件17。在不使用基礎(chǔ)流協(xié)議的情況下,拆分文件實現(xiàn)了流的仿真。
為了解釋其工作原理,下面對流作一個簡要論述。在音頻內(nèi)容較多的常見流中,服務(wù)器和客戶之間必須有一個通用的流協(xié)議??蛻魪姆?wù)器請求具體的內(nèi)容片斷。服務(wù)器開始利用達(dá)成一致的協(xié)議傳輸內(nèi)容。服務(wù)器傳送完一定量的內(nèi)容后,通常是傳送的量足以填滿客戶端的緩存器時,客戶端開始播放該內(nèi)容。用戶快進(jìn)該內(nèi)容,由客戶端向服務(wù)器發(fā)送一個請求來啟動,該請求包括一個時間編碼。然后,服務(wù)器中斷流的傳輸,重新開始某一位置傳輸,這一位置由從客戶端接收的時間編碼規(guī)定。在這個點是,客戶端緩存器開始重新填充。
流的本質(zhì)是(1)客戶端向服務(wù)器發(fā)送一個請求;(2)服務(wù)器開始向客戶端傳輸;(3)客戶端緩存器充填;(4)客戶端開始播放。
下面論述本發(fā)明如何對流進(jìn)行仿真??蛻?在此是外部計算機31)請求從服務(wù)器(在此為處理器2)傳輸一個內(nèi)容片斷的項(jana)表16。服務(wù)器2利用任何一種文件傳送協(xié)議按文本文件傳輸項(jana)表16??蛻舳?1向服務(wù)器2發(fā)送連續(xù)請求,請求傳輸有序的拆分文件17個體。服務(wù)器2利用任何一種文件傳送協(xié)議將請求的文件17傳輸?shù)娇蛻舳?1。請求的發(fā)送和對應(yīng)拆分文件17的接收可以同時且非同步進(jìn)行。通常,首個拆分文件17完成下載后,客戶端31可以開始播放內(nèi)容。
本發(fā)明可以實現(xiàn)音頻流的正常要求。該流仿真方法的本質(zhì)是(1)客戶端31向服務(wù)器2發(fā)送一個請求;(2)服務(wù)器2開始向客戶端31傳輸;(3)客戶端31至少接收一個單一的拆分文件17;(4)客戶端31開始播放拆分文件17。
該音頻傳輸方法有利于流的傳輸,具體優(yōu)點有以下四點(1)本發(fā)明使內(nèi)容供應(yīng)商不必再購買或者使用專門的流服務(wù)器軟件,其原因是所有的內(nèi)容傳輸均由文件傳送協(xié)議而不是流協(xié)議來處理。網(wǎng)絡(luò)服務(wù)器通常包括文件傳遞手段。因此,本發(fā)明適用于多數(shù)甚至全部網(wǎng)絡(luò)服務(wù)器,不再需要任何流協(xié)議。
(2)本發(fā)明允許以項(jana)16或者其中多個項(jana)16的顆粒度來播放不同范圍的音頻。注意項(jana)16通常較小,時間跨度僅有幾秒。流協(xié)議不能分離播放一塊或者一個范圍的音頻,它們從某個給定點開始向前播放,所以,一旦客戶端已經(jīng)接收了用戶期望的內(nèi)容范圍,客戶端必須單獨請求服務(wù)器停止傳送。
(3)在本發(fā)明中,快進(jìn)和隨機訪問是設(shè)計的內(nèi)在要素。服務(wù)器2不需要內(nèi)容的內(nèi)部結(jié)構(gòu)知識來實現(xiàn)這些功能性單元,這一點與常見的流協(xié)議不同,那些協(xié)議要求服務(wù)器具有內(nèi)部結(jié)構(gòu)的詳細(xì)知識。在本發(fā)明中,客戶31通過發(fā)送有順序的拆分文件17請求來實現(xiàn)快進(jìn)和隨機訪問,其開始點是與音頻中重放的開始點相對應(yīng)的拆分文件17。通過參考項(jana)表16來確定該點,具體地講,就是(先前傳遞到客戶端31的)項(jana)表16中的標(biāo)記(Marko)14。執(zhí)行文件傳輸?shù)乃蟹?wù)器2,都可以實現(xiàn)本發(fā)明。
(4)客戶端31和服務(wù)器2之間的數(shù)據(jù)傳輸速度不足以跟上客戶端31的音頻重放時,講話錄音重放中會有跳動現(xiàn)象,本發(fā)明改進(jìn)了講話錄音重放中的這種跳動現(xiàn)象。在流協(xié)議中,音頻重放會在音頻流中某個不可預(yù)知的點上暫停,以充填客戶端緩存器。從統(tǒng)計學(xué)意義上看,在流型講話(streaming speech)中,這類點可能發(fā)生在單詞內(nèi)。而在本發(fā)明中,這類點僅在項(jana)16邊界上出現(xiàn)。至于講話,項(jana)16符合自然講話界限,這些邊界通常定義音節(jié)、單詞或者短的單詞序列的開始和結(jié)束點。
播放器50(在處理器2上執(zhí)行)從內(nèi)存3、非易失性數(shù)字存儲器4和(或)通過網(wǎng)絡(luò)適配器7從網(wǎng)絡(luò)9接收輸入數(shù)據(jù)。輸入數(shù)據(jù)至少有兩個成分,通常作為文件,即項(jana)表16和一組拆分文件17實現(xiàn)。輸入數(shù)據(jù)可以選擇性地包括一組注釋文件和索引56。
項(jana)表16是如上所述的時序映射。拆分文件17則是如上所述的音頻記錄。表16和文件17也許已經(jīng)由圖2所示裝置產(chǎn)生,也許尚未由其產(chǎn)生。
注釋文件集和索引56是由注釋加一個索引組成的中間數(shù)據(jù)。注釋格式可以是任意一個媒體格式,包括文本、音頻、圖像、影像剪輯(video clip)和(或)URL;可以有任意內(nèi)容,包括定義、翻譯、腳注、示例、參考、清晰注明的發(fā)音、交替的發(fā)音和測驗(其中用戶接受內(nèi)容測驗)。令牌15、令牌組、文本單元或者各注釋個體所屬的時間編碼14等在索引中規(guī)定。在一套實施方案中,注釋自身也可以有注釋。
顯示器20連接在視頻處理器6上,該顯示器為用戶提供視覺反饋。與音頻處理器5連接的揚聲器30,為用戶提供聲頻反饋。用戶輸入40,比如鼠標(biāo)和(或)小鍵盤,連接在輸入處理器1上,提供用戶控制器。
播放器50在顯示器20上顯示窗口窗格。在一套實施方案中,窗口窗格有三個組成部分,即文本區(qū)61、控制器62和可選滾動條63。在其他實施方案中,播放器的功能可以擴展到多個數(shù)量不等的視覺組成部件中。
文本區(qū)61顯示令牌15,令牌15的格式符合用戶選定的標(biāo)準(zhǔn),包括文本單元的顆粒度,顆粒度可以為單詞,短語,句子,或者段落。格式類型實例包括每行一個令牌15、每行一個單詞、按歌曲或詩歌的詩句或者按書本的段落。組成部分61也可以有交互式控制器。
控制器組件62顯示各種控制器,比如音頻播放、停止、回倒、快進(jìn)、加載、動畫類型、顯示格式和注釋彈出。
如果認(rèn)為有必要或者希望滾動文本區(qū)61,可以利用可選式滾動條63。
圖3所示系統(tǒng)的操作描述如下播放器50請求項(jana)表16的具體內(nèi)容片斷、相關(guān)注釋文件以及索引56(如果有)。項(jana)表16由播放器50接收,并且顯示文本區(qū)61和控制器62。對應(yīng)的令牌表15顯示在文本區(qū)61內(nèi)。
播放器50可以配置成在啟動時自動開始重放,也可以配置成等待用戶啟動重放。兩種情況下,播放器50都播放一個或一組項(jana)16。短語“項(jana)組”包括如下幾種情況整個項(jana)表16(從始到終);從某個特定的項(jana)16到最后一個項(jana)16(當(dāng)前位置到終點);任意兩個項(jana)16之間。
可用以下方式啟動重放,播放對應(yīng)的項(jana)16或者一組項(jana)16(1)由用戶啟動播放整個項(jana)表16的起始控制器;(2)啟動播放當(dāng)前項(jana)16到終點的起始控制器;(3)利用鼠標(biāo)、小鍵盤或者其他的輸入設(shè)備40,在文本區(qū)61內(nèi)選擇任意一個令牌15或者一組令牌播放。
項(jana)16的播放,通過播放相對應(yīng)的拆分文件17實現(xiàn)。播放器50從以下三個地方得到所需的拆分文件17正在運行的播放器50的處理器2;另一臺計算機;內(nèi)存3,條件是先前已經(jīng)得到了拆分文件17并緩存在內(nèi)存中。
如果需要多個拆分文件17,并且那些文件17未在超高速緩存器3,則播放器50開始連續(xù)請求必需的拆分文件17。
重放的啟動,會同時啟動一個(連接在播放器上的)實時時鐘,該實時時鐘已經(jīng)根據(jù)被播放的項(jana)16內(nèi)的標(biāo)記(Marko)14的開始時間進(jìn)行了初始化。
實時時鐘被設(shè)定到了與音頻重放同步。例如,如果音頻重放停止,實時時鐘也同步停止;如果音頻重放速度放慢、加快或跳躍播放,實時時鐘也隨之調(diào)整。
動畫文本按實時時鐘進(jìn)行。具體地說,當(dāng)時實時時鐘在項(jana)的標(biāo)記(Marko)時間間隔內(nèi),播放此項(jana)16的令牌15的動畫。另外,如果文本區(qū)61內(nèi)正在播放項(jana)16的文本是不可視的,文本區(qū)61會自動滾動,以便使文本可見。
文本動畫包括各種情況,其中文本變化的直觀表示與音頻重放同步。動畫和同步可以在單詞、短語、句子或段落水平上實現(xiàn),也可以在構(gòu)成文本的字母、語音或音節(jié)水平上實現(xiàn),以便與相應(yīng)音頻記錄的重放達(dá)到平滑、精密的同步。
文本動畫包括文本或者背景的運動幻影和(或)顏色、字體、透明度和(或)可見度的變化。運動幻影可以是逐字式(即一個字跟一個字),比如卡拉OK中的“彈球”,彈出式,或升離基準(zhǔn)線式。運動幻影也可連續(xù)發(fā)生,比如顯示條隨文本移動,或“彩帶”效應(yīng)。可單獨或組合采用不同的動畫方法。
如果當(dāng)前項(jana)表16已有注釋文件和索引56,那么便可以顯示、播放或者彈出有關(guān)注釋。包括文本、音頻、圖像、影像剪輯(video clip)、URL等的注釋文件和索引56,是根據(jù)需要進(jìn)行請求的。
注釋的顯示、播放或者彈出,要么由用戶啟動,要么自動操作。
用戶觸發(fā)的注釋顯示通過用戶與令牌15上的文本區(qū)61或文本單元基礎(chǔ)的交互來實現(xiàn)。舉例來說,用戶觸發(fā)的注釋,其調(diào)用方法包括采用鼠標(biāo)、小鍵盤或者其它輸入設(shè)備40來選擇單詞、短語或者句子。
如果激活了自動注釋,則可以利用間隔定時器,由實時時鐘從外部激勵源或者隨機激活。自動注釋實例包括幻燈、文本區(qū)背景或者音頻、視頻或文本注解。
三個具體的注釋實例是(1)在文本區(qū)61中單詞“埃佛勒斯峰”上單擊鼠標(biāo)右鍵,彈出一個埃佛勒斯峰圖像;(2)在文本區(qū)61中,當(dāng)單詞“你好”突出顯示時,按下翻譯按鈕則顯示法語翻譯“bonjour”;(3)在播放歌曲“老麥克唐納”時,會適時自動出現(xiàn)農(nóng)家院家畜的插圖。
在一套實施方案中,播放器50、項(jana)表16、拆分文件17和(或)注釋文件和索引56等都綜合在一個單一可執(zhí)行數(shù)字文件內(nèi)。上述文件可以通過網(wǎng)絡(luò)適配器7傳輸?shù)窖b置100之外。
最后應(yīng)當(dāng)說明的是以上實施例僅用以說明本發(fā)明的技術(shù)方案而非對其限制,盡管參照上述實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解依然可以對本發(fā)明的具體實施方式
進(jìn)行修改或者等同替換,而未脫離本發(fā)明精神和范圍的任何修改或者等同替換,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
1.文本映射到音頻的設(shè)備及方法,其中,包括至少一臺計算機可讀取多媒體,該多媒體包含著創(chuàng)建文本到音頻記錄時序映射的計算機程序指令,所述計算機程序指令執(zhí)行饋送步驟,作為文本到音頻的映射設(shè)備及方法的輸入,包括至少一臺計算機,文本為計算機可讀取格式的文本,相應(yīng)音頻記錄為計算機可讀取格式的音頻記錄;賦值步驟,將起始和終止時間賦值給對應(yīng)此音頻記錄的文本單元,所述文本單元可以為文本粒度。
2.根據(jù)權(quán)利要求1所述的至少一臺文本映射到音頻的多媒體,其特征在于,所述文本粒度包括固定時間段音頻、字母、音素、音節(jié)、單詞、短語、句子和段落。
3.根據(jù)權(quán)利要求1中所述的至少一臺文本映射到音頻的多媒體,其特征在于,包括生成多個音頻記錄的步驟,通過對輸入的音頻記錄在起始和終止時間邊界上的差分,使得音頻記錄同對應(yīng)的文本單元保持粒度上的一致。
4.根據(jù)權(quán)利要求3所述的至少一臺文本映射到音頻的多媒體,其特征在于,包括以下步驟在不用基礎(chǔ)流協(xié)議的情況下,利用所述多個音頻記錄實現(xiàn)音頻流。
5.根據(jù)權(quán)利要求1所述的至少一臺文本映射到音頻的多媒體,其特征在于,上述文本的格式是以下格式之一美國標(biāo)準(zhǔn)信息碼ASCII、統(tǒng)一碼Unicode、數(shù)字化樂器接口MIDI及在數(shù)字計算裝置或者電子設(shè)備之間或之中發(fā)送數(shù)字編碼音樂信息的格式。
6.根據(jù)權(quán)利要求1所述的至少一臺文本映射到音頻的多媒體,其特征在于,包括將注釋賦值到上述單元的賦值步驟,其中注釋的格式來自于一個格式組,該格式組包括文本、音頻、圖像、影像剪輯、統(tǒng)一資源定位器URL的格式和媒體格式;注釋可以是內(nèi)容組中的內(nèi)容,所述內(nèi)容組由定義、翻譯、腳注實例、參考、讀音和用戶對相應(yīng)內(nèi)容測驗組成。
7.根據(jù)權(quán)利要求1所述的至少一臺文本映射到音頻的多媒體,其特征在于,包括將所述開始和結(jié)束時間以及所述單元以計算機可讀取格式保存的步驟。
8.一種計算機實現(xiàn)的創(chuàng)建從文本到音頻記錄的時序映射方法,其特征在于,上述方法包括如下步驟饋送步驟,作為計算機實現(xiàn)映射模板的輸入,文本為計算機可讀取格式的文本,相應(yīng)音頻記錄為計算機可讀取格式的音頻記錄;賦值步驟,將起始和終止時間賦值給對應(yīng)此音頻記錄的文本單元,所述文本單元可以為文本粒度;生成結(jié)構(gòu)文本步驟,基于單元并進(jìn)一步基于單元的開始和結(jié)束時間生成結(jié)構(gòu)文本。
9.根據(jù)權(quán)利要求8所述的計算機實現(xiàn)的方法,其特征在于,其中的結(jié)構(gòu)文本來自于超文本標(biāo)記語言HTML、可擴展標(biāo)記語言XML和簡單分界符文本;并且結(jié)構(gòu)文本指出的結(jié)構(gòu)包括至少一個單元邊界、不同粒度的單元層次、以及單元與單元的起始和終止時間之間的對應(yīng)關(guān)系。
10.創(chuàng)建從文本同步映射到音頻記錄的設(shè)備,其特征在于,所述設(shè)備包括計算機上的映射模塊,該模塊將計算機可讀取格式的文本以及對應(yīng)于該文本的計算機可讀取格式的音頻記錄作為輸入;賦值方法,將起始和終止時間賦值給對應(yīng)此音頻記錄的文本單元,上述文本單元可以為文本粒度;及交互選擇方法,選擇至少一個單元以及單元的顆粒值。
11.根據(jù)權(quán)利要求10所述的設(shè)備,其中,選擇方法允許交互性改變、擴大和/或縮小顆粒值。
12.與音頻記錄同步動畫animating文本并顯示所述動畫文本的設(shè)備,所述設(shè)備包括計算機實現(xiàn)的播放器模塊,該模塊將文本、對應(yīng)于所述文本的音頻記錄以及文本與音頻記錄之間的時序映射作為輸入,其中所述播放器模塊動畫文本,顯示文本,并在音頻記錄播放時,同步顯示文本;所述動畫使得被顯示的文本隨音頻記錄的播放而同步變化;并且,所述動畫和同步是在構(gòu)成文本的字母、音素或者音節(jié)級別上的動畫和同步,從而達(dá)到了與相應(yīng)音頻記錄的同步播放。
13.根據(jù)權(quán)利要求12所述的設(shè)備,其中,所述文本是書面文本,并且所述音頻記錄是單詞發(fā)聲記錄。
14.計算機實現(xiàn)的動畫文本并與音頻記錄同步顯示所述動畫文本的方法,所述方法包括如下步驟饋送步驟,將文本、對應(yīng)于所述文本的音頻記錄以及文本與音頻記錄之間的時序映射作為計算機實現(xiàn)的播放器模塊的輸入,其中所述播放器模塊動畫文本、顯示文本,并在音頻記錄播放時,同步顯示文本;所述動畫使得顯示的文本隨音頻記錄的播放而同步變化;所述動畫和同步是在構(gòu)成文本的字母、音素或者音節(jié)級別上的動畫和同步,從而達(dá)到了與相應(yīng)音頻記錄的同步播放。
15.根據(jù)權(quán)利要求14所述的計算機實現(xiàn)的方法,其特征在于,還包括賦值給文本單元的注釋的顯示步驟,其中顯示注釋由用戶依據(jù)文本單元基礎(chǔ)交互觸發(fā)或自動觸發(fā)。
16.根據(jù)權(quán)利要求15所述的計算機實現(xiàn)的方法,其中注釋由用戶依據(jù)文本單元基礎(chǔ)交互觸發(fā);并且該基礎(chǔ)是用戶采用指示器或者輸入設(shè)備來選擇的字母、音素、音節(jié)、單詞、短語、句子或者段落。
17.至少一臺計算機可讀取多媒體,包括動畫文本并與音頻記錄同步顯示所述動畫文本的計算機程序指令,所述計算機程序指令完成下述步驟饋送,將文本、對應(yīng)于所述文本的音頻記錄以及文本與音頻記錄之間的時序映射作為文本動畫輸出設(shè)備及方法的輸入,其中所述文本動畫輸出設(shè)備及方法完成動畫文本及顯示文本,并在音頻記錄播放時,同步顯示文本;所述動畫使得顯示的文本隨音頻記錄的播放而同步變化;并且所述動畫和同步是在構(gòu)成文本的字母、音素或者音節(jié)級別上的動畫和同步,從而達(dá)到了與相應(yīng)音頻記錄的同步播放。
18.根據(jù)權(quán)利要求17所述的至少一臺計算機可讀取多媒體,其中,至少兩個所述播放器模塊、所述文本、所述音頻記錄和所述映射被集成在了一個可執(zhí)行數(shù)字文件中。
19.根據(jù)權(quán)利要求17所述的至少一臺計算機可讀取多媒體,其特征在于,包括通過網(wǎng)絡(luò)連接的傳輸步驟、至少一個所述播放器模塊、所述文本、所述音頻記錄和所述映射。
20.根據(jù)權(quán)利要求17所述的至少一臺計算機可讀取多媒體,包括顯示賦值給文本單元注釋的步驟,其中,顯示的注釋由用戶依據(jù)文本單元基礎(chǔ)交互觸發(fā)或自動觸發(fā)。
21.根據(jù)權(quán)利要求20所述的至少一臺計算機可讀取多媒體,其中注釋由用戶依據(jù)文本單元基礎(chǔ)交互觸發(fā);并且該基礎(chǔ)是用戶采用指示器或者輸入設(shè)備來選擇的字母、音素、音節(jié)、單詞、短語、句子或者段落。
22.計算機實現(xiàn)的音頻記錄傳輸方法,其特征在于,所述方法包括下述步驟客戶端計算機請求服務(wù)器計算機向其發(fā)送較長音頻記錄中的音頻段,所述音頻段具有一定時長的時間間隔;作為對所述客戶端計算機所述請求的響應(yīng),所述服務(wù)器計算機給所述客戶端計算機發(fā)送所述音頻段。
23.根據(jù)權(quán)利要求22所述的計算機實現(xiàn)的方法,其中音頻段的呈現(xiàn)形式為一組計算機文件;并且所述服務(wù)器計算機利用文件傳送協(xié)議向所述客戶端計算機發(fā)送所述音頻段。
24.根據(jù)權(quán)利要求22所述的計算機實現(xiàn)的方法,其中較長的音頻記錄包含講話;并且音頻段由被指定的音節(jié)、單個單詞和/或一系列單詞的開始和結(jié)束點設(shè)定。
25.根據(jù)權(quán)利要求22所述的計算機實現(xiàn)的方法,其特征在于,包括在不使用基礎(chǔ)流協(xié)議的情況下,利用所述傳輸?shù)囊纛l段來實現(xiàn)音頻流的特性的步驟。
全文摘要
本發(fā)明介紹了創(chuàng)建文本到音頻時序映射的裝置、方法和計算機可讀取媒體。本發(fā)明還介紹了音頻文本動畫播放的裝置、方法和計算機可讀取媒體。映射器(10)將文本(12)以及與之對應(yīng)的音頻記錄(11)作為輸入,在用戶幫助下將開始和結(jié)束時間(14)賦值到文本單元(15)中。播放器(50)將文本(15)、音頻(17)和映射(16)作為輸入,隨著音頻(17)的播放,同步制作文本動畫(animate)并顯示文本(15)。本發(fā)明可以用于在音頻記錄播放過程中給文本賦予生氣;代替?zhèn)鹘y(tǒng)的重放控制器來控制音頻播放;播放并顯示語音記錄的注釋;在不用基礎(chǔ)流協(xié)議的情況下實現(xiàn)流動音頻的特征。
文檔編號G11B27/10GK101079301SQ20071008653
公開日2007年11月28日 申請日期2007年3月13日 優(yōu)先權(quán)日2006年7月28日
發(fā)明者埃里克·路易斯·漢森 申請人:埃里克·路易斯·漢森