本公開涉及捕獲和呈現(xiàn)音頻,并更具體地說,涉及在第一裝置處捕獲音頻中表達(dá)的情緒和意圖,并在第二裝置處自動(dòng)再現(xiàn)帶有情緒和意圖的音頻。
背景技術(shù):
1、通過互聯(lián)網(wǎng)進(jìn)行通信已經(jīng)成為主流。隨著可用的交互式應(yīng)用量以及用戶當(dāng)中以及用戶與交互式應(yīng)用之間交換的交互式數(shù)據(jù)量的增加,內(nèi)容質(zhì)量(例如音頻質(zhì)量)變得至關(guān)重要。特別是,當(dāng)用戶從不同的地理位置訪問交互式應(yīng)用或通過網(wǎng)絡(luò)(諸如互聯(lián)網(wǎng))與其他用戶通信時(shí),內(nèi)容質(zhì)量可取決于遠(yuǎn)程通信設(shè)施(計(jì)算機(jī)、wi-fi連接等)的狀態(tài)而有很大差異。例如,根據(jù)用戶使用的通信設(shè)施的狀態(tài),話音質(zhì)量可有很大差異。從聽起來像在水下的話音到過于尖銳和響亮的話音,很難找到適當(dāng)?shù)钠胶鈦碓诰€聽到其他人的話音。
2、為了減輕這種扭曲,采用語音轉(zhuǎn)文本引擎將用戶說出的語音轉(zhuǎn)錄為文本。然而,現(xiàn)有的語音轉(zhuǎn)文本引擎可重新創(chuàng)建某人可以說的詞語,但卻未得到用戶所說的詞語背后的情緒和意圖。像諷刺或興奮等微妙的暗示很難傳達(dá)。此外,語音轉(zhuǎn)文本引擎有時(shí)無法解讀所有文本,由于說出詞語的速度或由于語言障礙或由于不同口音。
3、正是在此背景下提出了本公開的實(shí)施方案。
技術(shù)實(shí)現(xiàn)思路
1、本公開的實(shí)現(xiàn)方式涉及在第一裝置本地捕獲音頻、將音頻轉(zhuǎn)換為文本、分析音頻以確定音頻的一個(gè)或多個(gè)特性、將音頻的一個(gè)或多個(gè)特性作為元數(shù)據(jù)與文本一起存儲(chǔ)、將文本和元數(shù)據(jù)壓縮成數(shù)據(jù)包并通過網(wǎng)絡(luò)(諸如互聯(lián)網(wǎng))將數(shù)據(jù)包傳輸?shù)降诙b置的系統(tǒng)和方法。從音頻確定的一個(gè)或多個(gè)特性可包括用戶的音調(diào)、音量、節(jié)奏、間距、語調(diào)等。這些特性可用于確定生成音頻的用戶的情緒和意圖。傳輸?shù)降诙b置的數(shù)據(jù)包被解壓縮,并且數(shù)據(jù)包中包含的文本和元數(shù)據(jù)用于重新創(chuàng)建音頻以便在第二裝置處呈現(xiàn)。重新創(chuàng)建的音頻不僅提供音頻的文本,而且還基本上模仿了在第一裝置處捕獲的用戶的情緒和意圖。
2、第一裝置處產(chǎn)生的音頻是模擬信號(hào),其轉(zhuǎn)換成數(shù)字格式并傳輸?shù)降诙b置。表示音頻的文本的一個(gè)或多個(gè)特性的元數(shù)據(jù)在大小上與文本相似,這遠(yuǎn)小于模擬信號(hào)。因此,表示音頻的數(shù)字格式的數(shù)據(jù)包的大小要小得多,從而大大減少了通過網(wǎng)絡(luò)傳輸?shù)降诙b置的文件大小。這些特性有助于在第二裝置處重新創(chuàng)建音頻。在第二裝置處呈現(xiàn)的重新創(chuàng)建的音頻更準(zhǔn)確地表示了在第一裝置處生成的音頻中表達(dá)的用戶的情緒和意圖。
3、在一個(gè)實(shí)現(xiàn)方式中,公開一種用于重新創(chuàng)建音頻的方法。該方法包括記錄用戶在第一裝置處產(chǎn)生的音頻。對用戶的音頻進(jìn)行處理,將語音轉(zhuǎn)換為文本,并標(biāo)識(shí)捕獲用戶的情緒和口頭表達(dá)(即意圖)的一個(gè)或多個(gè)特性。一個(gè)或多個(gè)特性定義音頻的元數(shù)據(jù)。文本和元數(shù)據(jù)被打包成數(shù)據(jù)包,通過網(wǎng)絡(luò)傳輸?shù)降诙b置進(jìn)行呈現(xiàn)。第二裝置遠(yuǎn)離第一裝置定位。數(shù)據(jù)包中包括的文本和元數(shù)據(jù)用于在第二裝置處重新創(chuàng)建音頻。重新創(chuàng)建的音頻復(fù)制了用戶在第一裝置處表達(dá)的情緒和口頭表達(dá)。
4、在一個(gè)實(shí)現(xiàn)方式中,公開一種用于重新創(chuàng)建音頻的系統(tǒng)。該系統(tǒng)包括用于捕獲用戶說出的音頻的第一裝置。第一裝置耦合至第一編解碼器。第一編解碼器被配置為記錄用戶在第一裝置處說出的音頻,處理音頻以將語音轉(zhuǎn)換為文本,并標(biāo)識(shí)捕獲音頻中捕獲的用戶的情緒和口頭表達(dá)的一個(gè)或多個(gè)特性。一個(gè)或多個(gè)特性定義音頻的元數(shù)據(jù)。第一編解碼器還被配置為使用針對音頻標(biāo)識(shí)的文本和元數(shù)據(jù)來生成數(shù)據(jù)包。通過壓縮音頻的文本和元數(shù)據(jù)生成數(shù)據(jù)包,以便傳輸?shù)降诙b置進(jìn)行呈現(xiàn)。第二裝置遠(yuǎn)離第一裝置定位。第二裝置耦合至第二編解碼器。第二編解碼器被配置為解壓縮數(shù)據(jù)包以提取其中包括的文本和元數(shù)據(jù)。文本和元數(shù)據(jù)用于重新創(chuàng)建用戶的音頻,以便在第二裝置處呈現(xiàn)。重新創(chuàng)建的音頻復(fù)制了在第一裝置處生成的用戶表達(dá)的情緒和口頭表達(dá)。
5、通過以下結(jié)合附圖進(jìn)行的以舉例方式說明本公開原理的詳細(xì)描述,本公開的其他方面和優(yōu)點(diǎn)將變得顯而易見。
1.一種用于重新創(chuàng)建音頻的方法,其包括:
2.如權(quán)利要求1所述的方法,其中處理所述音頻包括,
3.如權(quán)利要求1所述的方法,其中處理所述音頻還包括,
4.如權(quán)利要求1所述的方法,其中所述一個(gè)或多個(gè)特性中的每個(gè)都是可調(diào)的以定義所述用戶的個(gè)人偏好,所述個(gè)人偏好被定義為特定于所述用戶、特定于所述音頻中使用的語言、或特定于交互式應(yīng)用。
5.如權(quán)利要求4所述的方法,其中處理所述音頻還包括,
6.如權(quán)利要求1所述的方法,其中定義所述元數(shù)據(jù)的所述一個(gè)或多個(gè)特性包括語音的語調(diào)、音調(diào)、說出的詞語的間距和音量中的任何一個(gè)或組合,定義話音指紋的所述一個(gè)或多個(gè)特性捕獲所述用戶的所述情緒和所述口頭表達(dá)。
7.如權(quán)利要求1所述的方法,其中所述第一裝置是第一筆記本計(jì)算裝置或第一移動(dòng)計(jì)算裝置,并且其中所述第二裝置是服務(wù)器計(jì)算裝置或云服務(wù)器計(jì)算裝置或游戲控制臺(tái)或第二筆記本計(jì)算裝置或第二移動(dòng)計(jì)算裝置。
8.如權(quán)利要求1所述的方法,其中通過將所述音頻的語音轉(zhuǎn)換為文本并標(biāo)識(shí)定義所述音頻的指紋的所述一個(gè)或多個(gè)特性來處理所述音頻以將模擬信號(hào)轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù),并且其中帶有所述音頻的所述文本和所述元數(shù)據(jù)的所述數(shù)據(jù)包以數(shù)字格式傳輸?shù)剿龅诙b置。
9.一種用于重新創(chuàng)建音頻的系統(tǒng),其包括:
10.如權(quán)利要求9所述的系統(tǒng),其中所述第一編解碼器集成在所述第一裝置內(nèi),并且所述第二編解碼器集成在所述第二裝置內(nèi)。
11.如權(quán)利要求9所述的系統(tǒng),其中所述第一編解碼器通信耦合到并且獨(dú)立于所述第一裝置,并且所述第二編解碼器通信耦合到并且獨(dú)立于所述第二裝置。
12.如權(quán)利要求9所述的系統(tǒng),其中所述第一裝置是第一筆記本計(jì)算裝置或第一臺(tái)式計(jì)算裝置或第一移動(dòng)計(jì)算裝置,并且
13.如權(quán)利要求9所述的系統(tǒng),其中所述第一編解碼器包括語言解譯器,所述語言解譯器被配置為根據(jù)所述音頻中所說的語言來解譯在所述第一裝置處捕獲的所述音頻,以標(biāo)識(shí)所述音頻的所述一個(gè)或多個(gè)特性,所述一個(gè)或多個(gè)特性捕獲所述用戶用所述語言表達(dá)的所述情緒和所述口頭表達(dá)。
14.如權(quán)利要求9所述的系統(tǒng),其中所述第一裝置耦合到圖像捕獲裝置并且配置為接收在所述用戶生成所述音頻時(shí)所述圖像捕獲裝置捕獲的所述用戶的圖像,所述用戶的所述圖像與所述音頻的對應(yīng)部分相關(guān)聯(lián),所述第一裝置將所述用戶的所述圖像轉(zhuǎn)發(fā)到所述第一編解碼器以相對針對所述音頻的所述對應(yīng)部分標(biāo)識(shí)的所述情緒和所述口頭表達(dá)來驗(yàn)證所述用戶的面部表情。
15.如權(quán)利要求9所述的系統(tǒng),其中所述第一編解碼器包括一個(gè)或多個(gè)可調(diào)數(shù)字旋鈕,用于調(diào)節(jié)所述音頻的一個(gè)或多個(gè)特性以定義所述用戶的個(gè)人偏好,其中所述第一編解碼器被配置為根據(jù)所述用戶的所述個(gè)人偏好處理所述音頻。
16.如權(quán)利要求15所述的系統(tǒng),其中所述一個(gè)或多個(gè)可調(diào)數(shù)字旋鈕被配置為由用戶、由交互式應(yīng)用控制、或者針對所述音頻中使用的語言進(jìn)行調(diào)節(jié)。