專利名稱:用于把文本數(shù)據(jù)轉(zhuǎn)換為語音輸出的系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種按照權(quán)利要求1的前序部分所述的、具有借助網(wǎng)絡(luò)來互聯(lián)的應(yīng)用的系統(tǒng),其中來自至少一個應(yīng)用的文本數(shù)據(jù)可以作為語音數(shù)據(jù)被輸出。
已知以文本或數(shù)字值形式提供的信息為了作為語音輸出而需要被轉(zhuǎn)換為聲信號。比如,如果沒有可視裝置、也即沒有屏幕或顯示器來輸出數(shù)據(jù),而只有揚聲器或簡單的電話,那么這就是必須的。數(shù)字值的語音輸出比如被應(yīng)用于電話詢問中,以告知用戶所期望的電話號碼。要輸出的信息為此首先被劃分為盡可能小的信息單元。借助一種表格或一種算法,每個信息單元被轉(zhuǎn)換為一個音節(jié)或一串音節(jié)。被組合的音節(jié)串通過一個輸出設(shè)備被轉(zhuǎn)換為聲音信號。在電話詢問的例子中,所產(chǎn)生的語音信號通過電話網(wǎng)被傳輸給呼叫者。
另一個把文本轉(zhuǎn)換為語音的已知的例子是“E-Mail-To-Speech(電子郵件至語音)”功能,該功能常常被配置于電子郵件分發(fā)業(yè)務(wù),即所謂的E-Mail系統(tǒng)。在此,通過由用戶呼叫E-Mail服務(wù)器的一個特殊端口,E-Mail可以從一個任意的電話端口被“讀出”。在證實之后,在E-Mail系統(tǒng)中所提供的業(yè)務(wù)把E-Mail的文本轉(zhuǎn)換為語音,由用戶“讀出”該E-Mail的內(nèi)容。如果該轉(zhuǎn)換包括語法分析-在此也稱為語法解析-,那么用于建立音節(jié)串的所述業(yè)務(wù)也被稱為“分析器”。與在電話詢問中所使用的業(yè)務(wù)不同,在所述E-Mail系統(tǒng)中所使用的分析器具有較高的復(fù)雜性,原因在于被轉(zhuǎn)換的不僅是單個的數(shù)字而且還有自然語言的完整詞組,并且往往還具有句子音調(diào)。所述的分析器在此往往在不同的自然語言之間進(jìn)行區(qū)別,也即具有德語、英語、法語等不同的發(fā)音,并且此外往往甚至能夠有選擇地使用男性的、女性的或者甚至由用戶自己預(yù)先發(fā)出的語音樣本。為了進(jìn)行語音輸出,這通常也稱為語音“合成”,一般采用設(shè)置有特殊編程的DSP(DSP=DigitalSignal Processor,數(shù)字信號處理器)或者其他為此特別制造的元件的設(shè)備。
在美國專利US 6,263,051 B1“System And Method For VoiceService Bureau(用于語音業(yè)務(wù)處的系統(tǒng)和方法)”中公開了一種中央業(yè)務(wù)來用于在通信網(wǎng)絡(luò)中自動處理電話通話。在此所述的中央業(yè)務(wù)通過諸如XML接口的數(shù)據(jù)接口來接收所有的用于實施電話通話的重要數(shù)據(jù)。之后該中央業(yè)務(wù)通過一種通信設(shè)備構(gòu)建一個至電話用戶的連接,并且借助一種語音輸出裝置(“T-T-S=Text To Speech Engine,文本-語音引擎”)來處理與所述電話用戶的交互通信。所述的中央業(yè)務(wù)在此按所選擇的呼叫號碼抵達(dá)有線電話或移動電話(從而包括自然的通信伙伴)或者甚至語音-郵件系統(tǒng)、呼叫應(yīng)答器或者類似的可以連接到電話線上的機(jī)器。在此在所公開的方法中,所述的語音輸出一直作為聲音信號通過電話線來進(jìn)行。所述的中央業(yè)務(wù)可以通過不同的路徑,因而通過不同的數(shù)據(jù)接口來提供最近呼叫所必需的數(shù)據(jù)。在此所公開的配置即所謂的“虛擬呼叫中心”,該“虛擬呼叫中心”為了諸如電話銀行的一個特定的應(yīng)用目的而呼叫一個客戶,其中該客戶通過語音輸出而被提供信息,并且其鍵盤輸入被存儲在電話上。
在用語音輸出基于文本的信息的常用系統(tǒng)中具有以下缺點,每一種設(shè)備或每一種業(yè)務(wù)作為特殊的應(yīng)用來用語音輸出基于文本的信息必需分別設(shè)置獨有的裝置,也即元件和硬件,以便用于合成和輸出語音數(shù)據(jù)。
從而本發(fā)明所基于的任務(wù)在于,改善用于語音輸出基于文本的信息的系統(tǒng),使之可以更廣泛地被應(yīng)用。
此任務(wù)通過權(quán)利要求1所給出的特征而得到解決。通過從屬權(quán)利要求的特征使該系統(tǒng)以有利的方式進(jìn)一步擴(kuò)展。
該任務(wù)的解決方案規(guī)定,所述的語音輸出由所述的應(yīng)用(1、1c)來進(jìn)行控制,而且作為語音數(shù)據(jù)的形式返回給所述的應(yīng)用。
文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù)可以在網(wǎng)絡(luò)中的任意位置來進(jìn)行,其中至少有一個應(yīng)用是通訊裝置,并且所述的語音數(shù)據(jù)可以在語音設(shè)備上讀出或者可以作為數(shù)據(jù)包被繼續(xù)傳輸。
如果關(guān)于業(yè)務(wù)功能的信息可以在管理服務(wù)器上被調(diào)用,那么采用用于把文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù)的業(yè)務(wù)的其他應(yīng)用就可以尤其簡單地補充到網(wǎng)絡(luò)中。
如果所述的信息可以借助協(xié)議來調(diào)用,那么所述的關(guān)于業(yè)務(wù)功能的信息的調(diào)用是尤其簡單和可靠的。
如果所述的信息包含所述業(yè)務(wù)的地址和/或關(guān)于其使用的種類和方式的說明,那么就減少了由應(yīng)用和業(yè)務(wù)構(gòu)成的網(wǎng)絡(luò)的管理耗費。
如果在所述管理服務(wù)器上提供程序部件來使用所述的業(yè)務(wù),那么為了訪問所述的業(yè)務(wù)而進(jìn)行的應(yīng)用的匹配就變得簡單了。
如果在網(wǎng)絡(luò)中新開始一種業(yè)務(wù),那么通過所述業(yè)務(wù)形成至所述應(yīng)用的連接并且傳輸關(guān)于其功能的信息,使得所述業(yè)務(wù)可以由所述應(yīng)用來使用而不需要在所述應(yīng)用中進(jìn)行干預(yù)或重新啟動所述的應(yīng)用。
如果所述的業(yè)務(wù)被用來把網(wǎng)絡(luò)中的錯誤報告給網(wǎng)絡(luò)管理員,那么也可以在網(wǎng)絡(luò)管理員不在的情況下很快地再次形成網(wǎng)絡(luò)的作用能力。
下文中借助附圖對本系統(tǒng)的實施例進(jìn)行描述。所述的唯一的附圖在此示出了兩個網(wǎng)絡(luò),這兩個網(wǎng)絡(luò)具有其上安裝了用于把文本轉(zhuǎn)換為語音數(shù)據(jù)的業(yè)務(wù)的服務(wù)器。
在附
圖1中輸出了一個PC 1a,其上安裝了一種應(yīng)用(應(yīng)用程序)1。
所述的應(yīng)用1比如應(yīng)當(dāng)給出通過語音輸出的E-Mail。為此它通過網(wǎng)絡(luò)LAN構(gòu)造一個至業(yè)務(wù)服務(wù)器2的連接,其中在該服務(wù)器上安裝有文本-語音業(yè)務(wù)3。借助一種特殊的協(xié)議,所述的應(yīng)用1把要輸出的文本以及一組控制指令傳輸給所述的文本-語音業(yè)務(wù)3。
所述的控制指令包括以下說明所述輸出應(yīng)當(dāng)?shù)侥睦锖秃螘r實施,在不成功的情況下應(yīng)當(dāng)如何動作,以及該輸出應(yīng)當(dāng)用哪種聲音來實施。作為輸出目標(biāo),可以選擇在已存在的或要新構(gòu)建的連接的B信道中的比如作為語音數(shù)據(jù)包的回復(fù)或者作為語音信號的輸出。
在本實施例中所述的輸出應(yīng)當(dāng)借助在PC 1a上連接的揚聲器來進(jìn)行,如此使得在所述控制指令中選擇語音數(shù)據(jù)包來作為回復(fù)。作為輸出時間點選擇選項“立即”,也即在轉(zhuǎn)換之后緊接著進(jìn)行。對于較晚的輸出,所述的協(xié)議把傳輸設(shè)定為任意的時間點。
在不成功的情況下應(yīng)當(dāng)如何來動作的指令尤其在通過新構(gòu)建的電話連接的B信道來輸出的情況下是很重要的??赡艽嬖谒鶕芙械挠脩舨唤邮芩龅摹巴ㄔ挕被蛘叨丝谡季€。對于這些情況,所述的協(xié)議可提供可能性以輸入重復(fù)輸出的次數(shù)和時間間隔。
用于選擇聲音的指令允許在“男性”、“女性”或“根據(jù)單獨的語音樣本”之間來選擇。另外還可以選擇不同的國家語言,比如德語、英語、法語等。在本實施例中所述的應(yīng)用1,也即在所述PC 1a上安裝的E-Mail程序,利用在E-Mail系統(tǒng)的地址索引中所包含的E-Mail作者的信息來調(diào)節(jié)語音輸出的性別和語種,比如男性和德語。
所述的文本-語音業(yè)務(wù)3收到所述的文本數(shù)據(jù)和對于轉(zhuǎn)換所必需的所有信息之后,把通過所述的文本接口3a所接收的文本借助所述的文本分析器3b轉(zhuǎn)換為音節(jié)串,并且在語音發(fā)生器3c中借助預(yù)先存儲的語音樣本形成具有聲音信息的語音數(shù)據(jù)組。該語音數(shù)據(jù)組通過一個媒體處理器3d被變換為由所述控制指令所預(yù)先定義的格式,并借助輸出功能媒體輸出3c通過網(wǎng)絡(luò)LAN的連接傳輸給PC 1a。在那里所述的語音數(shù)據(jù)由所述的應(yīng)用1來中間存儲,并且然后通過PC 1a的揚聲器來輸出。
為了能夠以前述的方式利用所述的文本-語音業(yè)務(wù)3,所述的應(yīng)用1獲得關(guān)于業(yè)務(wù)3的地址以及該業(yè)務(wù)3的能力的信息,也即在協(xié)議中可供利用的控制指令。為此,所述的文本-語音業(yè)務(wù)3在其啟動時把它的功能特征寄存在網(wǎng)絡(luò)中為之所設(shè)置的位置,即所謂的“查詢業(yè)務(wù)”。這比如由JINI(Java Intelligent Network Infrastructure,Java智能網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu))和UPnP(Microsoft Universal Plug and Play,微軟通用即插即用)已公開;這里比如利用了一種專用的解決方案。在所述查詢業(yè)務(wù)中所提供的信息包括以下方面信息,即設(shè)置有文本-語音業(yè)務(wù)3來用于自動把被傳輸?shù)奈谋巨D(zhuǎn)換為語音輸出,還包括關(guān)于有多少資源可供使用的資料、所支持的語言的資料、在網(wǎng)絡(luò)LAN、ISDN中的地址信息以及所述的文本-語音業(yè)務(wù)3可利用哪條路徑的信息,還包括輔助功能的資料以及最后的關(guān)于如何使用所述的文本-語音業(yè)務(wù)3的信息。比如所述的要被轉(zhuǎn)換的文本以XML格式(=extended markuplanguage,擴(kuò)展標(biāo)記語言)傳輸,原因在于這里所被選擇的字符組(從而也有語種)和結(jié)構(gòu)信息被一同提供。當(dāng)然也可以提供其他的文本格式。
為了替代在“查詢業(yè)務(wù)”中的上述寄存,所述的文本-語音業(yè)務(wù)3也可以在其啟動之后或者在給定的時間間隔內(nèi)有效地在網(wǎng)絡(luò)LAN中查閱能夠使用這種業(yè)務(wù)3的應(yīng)用,并且可以在所述應(yīng)用1中有效地注冊。
另外該附圖還示出了與通信裝置4相連接的終端設(shè)備4a、4b、4c。所述的通信裝置4是一種線路交換的ISDN交換系統(tǒng),但是也可以是VoIP通信裝置(通過數(shù)據(jù)網(wǎng)傳輸語音的通信裝置;VoIP=IP上的語音;IP=因特網(wǎng)協(xié)議)中的通信應(yīng)用。
根據(jù)所述的應(yīng)用1,此時從終端設(shè)備4a發(fā)送一個基于文本的短消息(SMS-短消息)至終端設(shè)備4b。所述的通信裝置4(該裝置這里在一般意義上被看作在技術(shù)上與應(yīng)用1不同的另一種應(yīng)用)把基于文本的短消息僅僅繼續(xù)傳輸至這些終端設(shè)備4a、4c,其中這些終端設(shè)備4a、4c在通信裝置的用戶表格中被稱為“有文本能力”型的終端設(shè)備。因為所述的終端設(shè)備4b沒有字母數(shù)字的顯示裝置來輸出文本信息,所以需要語音輸出。所述的通信裝置4以與所述應(yīng)用1、1c相同的方式與安裝在管理服務(wù)器5上的查詢業(yè)務(wù)建立連接,并且查詢所提供的文本-語音業(yè)務(wù)3的地址和能力以把文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù)。在本例子中,所述的業(yè)務(wù)服務(wù)器2同時用作管理服務(wù)器5。所述的文本-語音業(yè)務(wù)3如所期望的那樣能提供短消息(SMS)的語音輸出。根據(jù)由查詢業(yè)務(wù)所獲得的信息,所述的通信裝置4此時生成一個包含待轉(zhuǎn)換文本的請求,該請求對于被所述的文本-語音業(yè)務(wù)3用來接收作業(yè)的協(xié)議來說是足夠的。帶有短消息的請求則被傳輸至業(yè)務(wù)服務(wù)器2,在那里由業(yè)務(wù)3的中間存儲器3a來接收,然后繼續(xù)傳輸至所述的分析器3b,由該分析器轉(zhuǎn)換為與文本的語法相對應(yīng)的音節(jié)串,并且由所述的語音發(fā)生器3c轉(zhuǎn)換為語音數(shù)據(jù)串。所述的媒體處理器3d以被用于通過電話連接的B信道來進(jìn)行輸出的格式來輸出語音數(shù)據(jù)。所述的輸出模塊3e則構(gòu)建一個至通信設(shè)備4的電話連接,并且在此直接選擇所述的用戶4b。在終端設(shè)備4b上接收到所述通話之后,所述的語音數(shù)據(jù)則被播放。
一種相應(yīng)設(shè)計的終端設(shè)備4a、4c也可以替代所述的通信設(shè)備4而直接把文本信息傳輸給業(yè)務(wù)3以進(jìn)行語音輸出,而通信設(shè)備4不用必需能夠與所述的管理服務(wù)器5和業(yè)務(wù)服務(wù)器2進(jìn)行通信。
權(quán)利要求
1.具有應(yīng)用(1、1c)的系統(tǒng),其中這些應(yīng)用通過網(wǎng)絡(luò)(LAN、ISDN)相互連接,該系統(tǒng)具有一種設(shè)定的業(yè)務(wù)(3)來把文本數(shù)據(jù)轉(zhuǎn)換為語音輸出,所述的業(yè)務(wù)(3)可以由至少兩個應(yīng)用(1、1c)來使用,所述的語音輸出可以至少作為聲音信號的傳輸而通過電話連接來進(jìn)行,其特征在于,所述的語音輸出由所述的應(yīng)用(1、1c)來控制并且以語音數(shù)據(jù)傳輸?shù)男问椒祷亟o所述的應(yīng)用。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其特征在于至少有一個應(yīng)用是通信設(shè)備(4),并且所述的語音數(shù)據(jù)可以在語音終端設(shè)備(4a、4b)上輸出或者可以作為數(shù)據(jù)包被繼續(xù)傳輸。
3.根據(jù)權(quán)利要求1或2所述的系統(tǒng),其特征在于關(guān)于所述業(yè)務(wù)(3)的功能的信息可以在管理服務(wù)器(5)上被調(diào)用。
4.根據(jù)權(quán)利要求3所述的系統(tǒng),其特征在于所述的信息可以借助一種協(xié)議來被調(diào)用。
5.根據(jù)權(quán)利要求3或4所述的系統(tǒng),其特征在于所述的信息包括所述業(yè)務(wù)(3)的地址和/或關(guān)于其使用的種類和方式的說明。
6.根據(jù)權(quán)利要求3至5之一所述的系統(tǒng),其特征在于在所述管理服務(wù)器(5)上提供有程序部件(比如DLL)來使用所述的業(yè)務(wù)(3)。
7.根據(jù)權(quán)利要求1至6之一所述的系統(tǒng),其特征在于所述的業(yè)務(wù)(3)建立至所述應(yīng)用(1、1c)的連接,并且傳輸關(guān)于其功能的信息。
8.根據(jù)權(quán)利要求1至7之一所述的系統(tǒng),其特征在于利用所述的業(yè)務(wù)(3)來把網(wǎng)絡(luò)(LAN、ISDN)中的錯誤報告給網(wǎng)絡(luò)管理員。
9.根據(jù)權(quán)利要求1至8之一所述的系統(tǒng),其特征在于所述的至少兩個應(yīng)用(1、1c)是不同的應(yīng)用(1、1c)。
全文摘要
本發(fā)明涉及一種系統(tǒng),其中應(yīng)用(1、1c)通過網(wǎng)絡(luò)來連接。文本數(shù)據(jù)可以通過至少一個應(yīng)用(1、1c)來作為語音數(shù)據(jù)來輸出。一種用于把文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù)的業(yè)務(wù)(3)可以被至少兩個應(yīng)用(1、1c)來使用。
文檔編號G10L13/04GK1602608SQ02824869
公開日2005年3月30日 申請日期2002年11月18日 優(yōu)先權(quán)日2001年12月11日
發(fā)明者R·紐豪斯 申請人:西門子公司