專利名稱:消費(fèi)類電子設(shè)備的音控方法和音控裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及消費(fèi)類電子設(shè)備的音控方法和音控裝置。
為此,最初將用戶說(shuō)出的操作控制命令作為聲音信號(hào)進(jìn)行檢測(cè)、轉(zhuǎn)換為電信號(hào)然后進(jìn)行數(shù)字化。之后,將數(shù)字化音頻信號(hào)饋送到語(yǔ)音識(shí)別系統(tǒng)。在此,語(yǔ)音識(shí)別過(guò)程基于聲音模型和語(yǔ)音模型。聲音模型使用大量語(yǔ)音模式,語(yǔ)音模式利用指出與口語(yǔ)字在聲音上最匹配的字的數(shù)學(xué)算法。而語(yǔ)音模型是基于一種分析方法,這種分析方法是根據(jù)在此上下文中的大量文件采樣和通常特定字使用多么頻繁建立的。
當(dāng)前系統(tǒng)提供對(duì)著集成在遙控裝置上的麥克風(fēng)說(shuō)操作控制命令。利用直接放在用戶口的前方的遙控裝置可以避免由背景噪聲的干擾引起的識(shí)別速率降低。然而,與在傳統(tǒng)遙控裝置情況下相同,仍要求用戶必須拿著遙控裝置。對(duì)于語(yǔ)音輸入,如果在消費(fèi)類電子設(shè)備內(nèi)設(shè)置一個(gè)或多個(gè)麥克風(fēng),可以提高使用的方便性,因此,用戶可以在房間內(nèi)要求的任何位置實(shí)現(xiàn)操作控制,而無(wú)需拿著遙控裝置。在這種情況下,通過(guò)使用專用麥克風(fēng)陣列和諸如“統(tǒng)計(jì)聚束”或“盲源分離”的方法可以消除背景干擾。然而,所控制的設(shè)備不能確定當(dāng)前用戶在進(jìn)行哪個(gè)語(yǔ)音輸入。因此,不能僅對(duì)這些操作命令進(jìn)行響應(yīng)而忽略其它人的發(fā)音。
改善用戶使用方便性的進(jìn)一步方式是將電視節(jié)目自動(dòng)緩沖存儲(chǔ)到集成在電視機(jī)或機(jī)頂盒內(nèi)的硬盤上。在對(duì)收視習(xí)慣分析之后,在這種情況下,自動(dòng)記錄用戶先前有規(guī)律選擇的節(jié)目或節(jié)目類型。然后,如果用戶隨時(shí)接通其電視機(jī),用戶可以以某個(gè)概率度觀看其喜歡的節(jié)目。然而,在有多個(gè)用戶情況下,由于不能識(shí)別在哪個(gè)時(shí)間是哪個(gè)用戶操作了電視機(jī),所以會(huì)降低分析質(zhì)量。
原則上,消費(fèi)類電子設(shè)備的音控方法包括將用戶語(yǔ)音輸入轉(zhuǎn)換為數(shù)字音頻信號(hào)。從數(shù)字音頻信號(hào)內(nèi)提取第一特性,第一特性表示語(yǔ)音的獨(dú)立聲音特征并可以識(shí)別口音。此外,從數(shù)字音頻信號(hào)內(nèi)提取第二特性,第二特性表示各用戶的語(yǔ)音特征并對(duì)不同用戶的語(yǔ)音輸入進(jìn)行識(shí)別。在第一用戶說(shuō)過(guò)語(yǔ)音命令之后,通過(guò)檢驗(yàn)表示特征語(yǔ)音特性的更多的語(yǔ)音輸入,僅可以從此第一用戶接收更多的語(yǔ)音命令,并且,如果根據(jù)這些特性可以將它們指定到同一個(gè)發(fā)音者,則只接收它們。
然后,就可以保證在給定周期內(nèi),只有多個(gè)同時(shí)用戶中的一個(gè)用戶可以操作音控方法所涉及的設(shè)備,這與多個(gè)用戶中只有一個(gè)用戶具有匹配的遙控裝置的情況相同。
具體地說(shuō),其優(yōu)勢(shì)在于,從任何一個(gè)第一用戶接收用于接通設(shè)備的語(yǔ)音命令,此后,只從被接受的第一用戶輸入語(yǔ)音命令。
最好僅從第一用戶接收用于斷開該設(shè)備的語(yǔ)音命令,斷開此設(shè)備后,可以再?gòu)钠渌脩艚邮照Z(yǔ)音命令。
然而,對(duì)于特定應(yīng)用,其優(yōu)勢(shì)在于,可以從任何用戶接收斷開該設(shè)備的語(yǔ)音命令。
同樣,優(yōu)勢(shì)在于,在第一用戶輸入操作控制命令后,提供允許從第二用戶接收語(yǔ)音命令的操作控制命令。這樣在將遙控裝置從第一用戶傳遞到第二用戶時(shí),就可以將操作控制特權(quán)從第一用戶傳遞到第二用戶。
其顯著優(yōu)勢(shì)在于,為了對(duì)收視習(xí)慣進(jìn)行分析并根據(jù)此分析建立各種用戶的用戶描述,可以識(shí)別出現(xiàn)的各種用戶。
以這種方式獲得的用戶描述最好用于電視節(jié)目的緩沖存儲(chǔ),以使不同用戶的優(yōu)選節(jié)目具有獨(dú)立緩沖存儲(chǔ)。
同樣,用戶描述可以用于對(duì)將收視的、適于各種用戶收視習(xí)慣的節(jié)目提供建議。
首先,在第一方法步驟1,將聲音信號(hào)轉(zhuǎn)換為電信號(hào)以產(chǎn)生模擬音頻信號(hào),然后將音頻信號(hào)轉(zhuǎn)換為數(shù)字音頻信號(hào)。
其次,在下一方法步驟2,第一特征從數(shù)字化的聲信號(hào)獲得,該第一特征盡可能地與語(yǔ)音中各別聲音一樣典型,并相對(duì)于發(fā)音中的干擾和變化較魯棒。同樣,在方法步驟3,從數(shù)字聲信號(hào)中提取第二特性,第二特性表示各用戶的語(yǔ)音特征并對(duì)各種用戶的語(yǔ)音輸入進(jìn)行區(qū)別。在此典型實(shí)施例中,可以對(duì)語(yǔ)音識(shí)別裝置和發(fā)音者識(shí)別裝置單獨(dú)產(chǎn)生此提取特性,也可以對(duì)語(yǔ)音識(shí)別裝置和發(fā)音者識(shí)別裝置共同產(chǎn)生此提取特性。
根據(jù)第一特性,在方法步驟4實(shí)際進(jìn)行語(yǔ)音識(shí)別。在方法步驟5,為了對(duì)該時(shí)間說(shuō)話的用戶進(jìn)行識(shí)別,利用第二特性進(jìn)行發(fā)音者識(shí)別。然而,同樣只可以存儲(chǔ)第二特性以區(qū)別于其它用戶,而無(wú)需對(duì)出現(xiàn)的各用戶進(jìn)行識(shí)別。
在方法步驟6,檢查電視機(jī)是否早已接通。如果電視機(jī)已被接通,則執(zhí)行方法步驟7和方法步驟8,否則就執(zhí)行方法步驟9和方法步驟10。如果電視機(jī)還未被接通,則在方法步驟9對(duì)是否發(fā)出接通命令,例如“接通”或“接通電視機(jī)”進(jìn)行檢驗(yàn)。如果發(fā)出了接通命令,則在方法步驟10接通電視機(jī)并通知發(fā)出此命令的用戶。如果不進(jìn)行識(shí)別,而僅在不同用戶之間存在區(qū)別,則相應(yīng)地存儲(chǔ)表示當(dāng)前用戶特征的第二特性。隨后,與在方法步驟9未發(fā)出接通命令的情況相同的方式,返回方法步驟1。
如果已經(jīng)接通電視機(jī),則方法步驟6之后執(zhí)行方法步驟7。在方法步驟7,對(duì)在方法步驟10是否事先已經(jīng)通知用戶進(jìn)行了語(yǔ)音輸入進(jìn)行檢驗(yàn)。如果已經(jīng)通知用戶,則在方法步驟8使用輸入命令用于控制音控系統(tǒng),例如,進(jìn)行菜單控制或?qū)Ш健H缓?,以與在方法步驟7建立用戶之間差別的情況中的相同方式返回方法步驟1。
可以設(shè)想此示范實(shí)施例的各種變換。例如,可以從任何用戶接收斷開設(shè)備的語(yǔ)音輸入。同樣,提供操作控制命令,當(dāng)其被第一用戶輸入時(shí)允許接受第二用戶或更多用戶的語(yǔ)音輸入。
圖2示意示出第二示范實(shí)施例順序的流程圖。在這種情況下,對(duì)音控電視機(jī)的各種用戶進(jìn)行識(shí)別,以便從這個(gè)識(shí)別建立這些用戶的用戶描述。
方法步驟1至5與
圖1所示的典型實(shí)施例相同,盡管在方法步驟5,它基本上識(shí)別在這時(shí)說(shuō)話的用戶。另一方面,現(xiàn)在不需要方法步驟6、7和9。在方法步驟8執(zhí)行與語(yǔ)音輸入對(duì)應(yīng)的操作控制命令。此外,在方法步驟11,將發(fā)出語(yǔ)音輸入的被識(shí)別用戶與關(guān)于當(dāng)前時(shí)間和電視頻道的明細(xì)或關(guān)于此時(shí)播出的節(jié)目明細(xì)存儲(chǔ)在一起。尤其在垂直消隱期間的模擬電視信號(hào)情況下,要么在電視機(jī)中使用這些明細(xì),要么將這些明細(xì)作為附加明細(xì)與電視信號(hào)一起發(fā)送。例如,要么利用內(nèi)部時(shí)鐘產(chǎn)生的時(shí)間,要么計(jì)算在電視文字廣播中發(fā)送的時(shí)間信號(hào)。同樣,要么根據(jù)此時(shí)選擇的電視機(jī)節(jié)目地址,要么在電視圖文廣播內(nèi)或VPS信號(hào)12內(nèi)的相應(yīng)明細(xì)直接確定電視頻道。最后,從電視機(jī)中的EPG中或從相應(yīng)發(fā)送的數(shù)據(jù)中取出此時(shí)廣播的節(jié)目明細(xì),即標(biāo)題或類型,例如娛樂(lè)節(jié)目、體育節(jié)目等。
將利用語(yǔ)音識(shí)別確定的用戶描述存儲(chǔ)到硬盤上的TV節(jié)目緩沖存儲(chǔ)區(qū)或存儲(chǔ)到在電視機(jī)或機(jī)頂盒內(nèi)設(shè)置的類似存儲(chǔ)介質(zhì)內(nèi)。在這種情況下,通過(guò)識(shí)別各用戶,可以顯著提高對(duì)收視習(xí)慣進(jìn)行分析的準(zhǔn)確性。例如以小孩在電視機(jī)前花費(fèi)的時(shí)間明顯比父母在電視機(jī)前長(zhǎng)的家庭為例,因此硬盤內(nèi)不再僅存儲(chǔ)兒童節(jié)目。相反,其它發(fā)音者識(shí)別過(guò)程允許分別對(duì)多個(gè)家庭成員建立收視習(xí)慣分析。然后,可以根據(jù)特定鍵在各用戶之間對(duì)硬盤的有限緩沖存儲(chǔ)空間進(jìn)行劃分,這樣對(duì)各用戶提供其預(yù)定的緩沖存儲(chǔ)的電視節(jié)目的份額。
同樣,利用語(yǔ)音識(shí)別確定的用戶描述還可以用于記錄無(wú)線電廣播節(jié)目或發(fā)送的其它數(shù)據(jù)。
為了檢測(cè)音頻信號(hào),可以設(shè)置一個(gè)麥克風(fēng)或包括兩個(gè)或多個(gè)麥克風(fēng)的麥克風(fēng)陣列。例如,可以將麥克風(fēng)陣列集成到電視接收機(jī)內(nèi)。麥克風(fēng)將檢測(cè)到的聲信號(hào)轉(zhuǎn)換為電信號(hào),放大器對(duì)電信號(hào)進(jìn)行放大,利用AD轉(zhuǎn)換器將放大的信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),然后饋送到信號(hào)處理裝置。利用檢測(cè)聲信號(hào)的不同換算過(guò)程和處理過(guò)程,信號(hào)處理裝置可以考慮用戶所處的位置。此外,還可以根據(jù)揚(yáng)聲器發(fā)出的聲信號(hào)對(duì)麥克風(fēng)信號(hào)進(jìn)行校正。然后,將以這種方式調(diào)節(jié)的信號(hào)饋送到語(yǔ)音識(shí)別裝置和發(fā)音者識(shí)別裝置,這樣就可以對(duì)算法裝置或硬件裝置單獨(dú)進(jìn)行配置,或?qū)⑺惴ㄑb置和硬件裝置共同進(jìn)行配置。最后,將確定的命令和相同用戶饋送到控制系統(tǒng)的系統(tǒng)管理員。
本發(fā)明可以廣泛用于消費(fèi)類電子設(shè)備的語(yǔ)音遙控,例如電視機(jī)、錄像機(jī)、DVD播放機(jī)、衛(wèi)星接收機(jī)、組合電視視頻系統(tǒng)、聲頻設(shè)備或成套聲頻系統(tǒng)。
權(quán)利要求
1.一種消費(fèi)類電子設(shè)備的音控方法,在該方法中,將用戶的語(yǔ)音輸入轉(zhuǎn)換為數(shù)字音頻信號(hào),從數(shù)字音頻信號(hào)內(nèi)提取第一特征,第一特征表示語(yǔ)音的獨(dú)立聲音的特征并可以識(shí)別口音,從數(shù)字音頻信號(hào)內(nèi)提取表示各用戶的語(yǔ)音特征并用于識(shí)別不同用戶的語(yǔ)音輸入的第二特性,其特征在于,在第一用戶發(fā)出語(yǔ)音命令之后,通過(guò)檢驗(yàn)特征語(yǔ)音特性的語(yǔ)音輸入,僅從第一用戶接受進(jìn)一步的語(yǔ)音命令,并且如果可以根據(jù)這些特性將它們指定到相同的發(fā)音者,則僅接收它們。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,從任何第一用戶接收接通設(shè)備的語(yǔ)音命令,此后,僅臨時(shí)接收第一用戶發(fā)出的語(yǔ)音命令。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,僅從第一用戶接收斷開設(shè)備的語(yǔ)音命令,斷開此設(shè)備后,再?gòu)钠渌脩艚邮照Z(yǔ)音命令。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,從任意用戶接收斷開設(shè)備的語(yǔ)音命令。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,在第一用戶輸入操作控制命令后,提供允許從第二用戶接收語(yǔ)音命令的操作控制命令。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)存在的各種用戶進(jìn)行識(shí)別并對(duì)所識(shí)別用戶的收視習(xí)慣進(jìn)行分析,以便從這個(gè)分析建立各種用戶的用戶描述。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,將用戶描述存儲(chǔ)到電視節(jié)目緩沖存儲(chǔ)區(qū),以使不同用戶具有優(yōu)選節(jié)目的獨(dú)立緩沖存儲(chǔ)區(qū)。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,用戶描述可以用于對(duì)識(shí)別的用戶建議待收視的節(jié)目。
9.用于實(shí)現(xiàn)根據(jù)上述權(quán)利要求之一所述的方法的裝置。
全文摘要
在消費(fèi)類電子設(shè)備音控方法中,將用戶的語(yǔ)音輸入轉(zhuǎn)換為數(shù)字音頻信號(hào)。從此數(shù)字音頻信號(hào)內(nèi)提取表示語(yǔ)音的獨(dú)立聲音的特征的第一特性。此外,從此數(shù)字音頻信號(hào)內(nèi)提取表示各用戶的語(yǔ)音特征并用于識(shí)別不同用戶的語(yǔ)音輸入的第二特性。這樣就可以控制此設(shè)備以在當(dāng)表示操作控制命令的前用戶的語(yǔ)音輸入與其它人發(fā)音之間進(jìn)行識(shí)別,并且僅對(duì)當(dāng)前用戶的操作控制命令進(jìn)行響應(yīng)。不僅如此,通過(guò)在用戶之間進(jìn)行識(shí)別可以改善對(duì)不同用戶收視習(xí)慣的分析質(zhì)量。
文檔編號(hào)G10L17/00GK1345029SQ0113128
公開日2002年4月17日 申請(qǐng)日期2001年9月5日 優(yōu)先權(quán)日2000年9月19日
發(fā)明者恩斯特·F·施羅德, 漢斯-約阿希姆·普拉特 申請(qǐng)人:湯姆森許可貿(mào)易公司