專利名稱:用于在會議環(huán)境中翻譯參與者之間的通信的系統(tǒng)和方法
技術領域:
本發(fā)明一般地涉及通信領域,并且更具體地,涉及在會議環(huán)境中翻譯參與者之間的通信。
背景技術:
視頻服務在今天的社會中變得越加重要。在某些體系架構(gòu)中,服務提供商會力圖為他們的端用戶提供復雜的視頻會議服務。視頻會議體系架構(gòu)可以在網(wǎng)絡上提供“親身”(in-person)會面體驗。視頻會議體系架構(gòu)可以使用先進的視覺、音頻和協(xié)作技術來傳遞人與人之間的實時的面對面的交互。在視頻會議情景中,當在視頻會議期間端用戶之間需要翻譯時,出現(xiàn)了一些問題。視頻會議期間的語言翻譯向開發(fā)者和設計者提出了重大的挑戰(zhàn),這些開發(fā)者和設計者試圖提供真實的模仿共用共同語言的個人之間的現(xiàn)實會面的視頻會議解決方案。
為了提供對本公開及其特征和優(yōu)點的更全面的理解,結(jié)合附圖來參考以下描述, 其中類似的標號表示類似的部分,在附圖中圖1是根據(jù)一個實施例的用于在會議環(huán)境中翻譯通信的通信系統(tǒng)的簡化示意圖;圖2是圖示出與根據(jù)一個實施例的通信系統(tǒng)的示例基礎設施有關的附加細節(jié)的簡化框圖;以及圖3是圖示出與該通信系統(tǒng)相關聯(lián)的一系列示例步驟的簡化流程圖。
具體實施例方式概要在一個示例實施例中提供了一種方法,該方法包括從視頻會議接收音頻數(shù)據(jù)并將音頻數(shù)據(jù)從第一語言翻譯成第二語言,其中已翻譯的音頻數(shù)據(jù)在該視頻會議期間被播放。該方法還包括抑制另外的音頻數(shù)據(jù)直到已翻譯的音頻數(shù)據(jù)已經(jīng)在視頻會議期間被播放完畢。在更具體的實施例中,視頻會議至少包括第一端用戶、第二端用戶和第三端用戶。 在其它實施例中,該方法可以包括向第一端用戶和第三端用戶通知音頻數(shù)據(jù)的翻譯。該通知可以包括為第一端用戶和第二端用戶看得見的顯示器生成圖標,或在被配置為接收來自第一端用戶和第二端用戶的音頻數(shù)據(jù)的各個端用戶設備上使用光信號。圖1是圖示出根據(jù)一個示例實施例的用于執(zhí)行視頻會議的通信系統(tǒng)10的簡化示意圖。圖1包括與視頻會議的各個參與者相關聯(lián)的多個端點12a-f。在此示例中,端點Ih-C 位于加利福尼亞州圣弗朗西斯科(San Jose, California),而端點12d、12e和12f分別位于北卡羅來納州羅利(Raleigh,North Carolina)、伊利諾斯州芝加哥(Chicago,Illinois) 和法國巴黎(Paris,F(xiàn)rance)。圖1包括與管理器元件20耦接的多個端點12a_c。注意,指派給端點的數(shù)字和字母標號并不意味著任何類型的層次結(jié)構(gòu);該指派是任意的并且僅被用于教導目的。這些指派不應以任何方式理解為限制它們在可能受益于通信系統(tǒng)10的特征的潛在環(huán)境中的應用、能力或功能。在該示例中,每個端點lh-f被沿著桌子小心安裝并且與其相關聯(lián)的參與者最近。這樣的端點可以被設置在任何其它適當?shù)奈恢茫驗閳D1僅僅是提供在此展示的概念的多種可能實現(xiàn)方式中的一種。在一種示例實現(xiàn)方式中,端點是視頻會議端點,其可以輔助視頻數(shù)據(jù)和音頻數(shù)據(jù)的接收和傳送。其它類型的端點當然在所概述的概念的廣義范圍之內(nèi),并且這些示例端點中的一些在以下被進一步描述。每個端點lh-f被配置為與各自的管理器元件相接口,管理器元件幫助協(xié)調(diào)和處理被參與者發(fā)送的信息。以下提供與每個端點的可能的內(nèi)部組件有關的細節(jié)并且以下參考圖2來提供與管理器元件20及其潛在操作有關的細節(jié)。如圖1中所示,多個相機Ha-Hc和屏幕被提供用于該會議。這些屏幕呈現(xiàn)會議參與者看得見的圖像。注意,在本說明書中,在此使用的術語“屏幕”意圖意味著能夠在視頻會議期間呈現(xiàn)圖像的任意元件。這必然包含任意面板、等離子元件、電視、監(jiān)視器、顯示器或能夠進行這樣的呈現(xiàn)的任意其它適合的元件。注意,在轉(zhuǎn)到本公開的示例實施例的示例流程和基礎設施之前,為觀眾提供對視頻會議體系架構(gòu)的簡要概述。當視頻會議會話中涉及講多種語言的兩個以上的個人時,需要翻譯服務。翻譯服務可以由精通口語的人提供或者由計算機化的翻譯設備提供。當發(fā)生翻譯時,當語言被傳送給目標接收者時存在一定延遲。翻譯服務在一對一的環(huán)境中或當在一個人發(fā)言一組人收聽的演講模式中運作時很好使。當在這樣的情景中僅涉及兩個端用戶時,存在在談話中發(fā)生的一定步調(diào),并且該步調(diào)在某種程度上是直觀的。例如,當針對對方發(fā)生翻譯時,第一端用戶能自然地預見到適當?shù)难舆t。因此,作為粗略的估計,第一端用戶能預見長的語句會有一定延遲,這樣他在講另外的語句之前,可能應該等待直到翻譯已經(jīng)完畢(并且可能給對方進行響應的選擇)為止。當在多點視頻會議環(huán)境中提供翻譯服務時,該自然的步調(diào)變得緊張。例如,如果兩個端用戶在講英語并且第三個端用戶在講德語,當?shù)谝欢擞脩糁v了英語短語時并且翻譯服務開始為德國個人翻譯該短語時,第二個講英語的端用戶可能不經(jīng)意地響應于之前所講的英語短語而開始發(fā)言。這就充滿問題了。例如,起碼,當?shù)谌铰浜笤撜勗捜舾烧Z句的同時,在共用母語的兩個人之間發(fā)生該玩笑是不禮貌的。其次,這也妨礙了如今的商業(yè)環(huán)境中所發(fā)生的許多視頻會議情景的整體協(xié)作屬性,因為第三方的參與可能被減少至僅收聽 (listen only)模式。第三,這可能存在一些文化差異或逾越,因為可能以兩個人支配或獨占給定談話而告終。在示例實施例中,系統(tǒng)10可以有效地去除與這些傳統(tǒng)的視頻會議配置相關聯(lián)的限制,并且還利用翻譯服務來執(zhí)行有效的多點多語言協(xié)作。系統(tǒng)10可以創(chuàng)建確保參與者具有均等的貢獻和協(xié)作機會的會議環(huán)境。以下情景圖示出與多點視頻會議系統(tǒng)(例如多點網(wǎng)真(Telepresence)系統(tǒng))。假定采用三個單屏幕遠程站點的視頻會議系統(tǒng)。約翰(John)講英語并且從站點A加入視頻會議,鮑比(Bob)也講英語并且從站點B加入視頻會議。貝努瓦(Benoit)講法語并且從站點C加入視頻會議。盡管約翰和鮑比可以自由談話而不需要翻譯(機器的或人工的),但是貝努瓦在此視頻會議期間需要英語/法語翻譯。
當會議開始時,鮑比坦率地問“現(xiàn)在幾點? ”。約翰立即回答“上午10點”。該情景突出了兩個用戶的體驗的問題。首先,現(xiàn)有視頻會議系統(tǒng)通?;谡Z音活動性檢測(VAD) 來執(zhí)行視頻切換。只要鮑比結(jié)束了其問題,自動翻譯機器拿出等同的法語短語并將其播放給貝努瓦。正在已翻譯的短語被播放時,約翰迅速答復“上午10點”。因為視頻會議被規(guī)劃為基于語音活動性檢測來切換屏幕,因此,貝努瓦在他聽到法語短語“現(xiàn)在幾點?,,的同時看見約翰的臉。在該場景中存在一些不對稱,因為貝努瓦自然以為是約翰在詢問時間,而實際上是約翰在回答鮑比的問題?,F(xiàn)有的視頻電話會議系統(tǒng)造成該不一致是因為它們使用傳統(tǒng)的嘴唇同步(和其它裝備不良的協(xié)議)來通過系統(tǒng)匹配語音和視頻處理時間。VAD協(xié)議由于在切換來自發(fā)言者A的圖像的同時不一致地提供來自發(fā)言者B的已翻譯的語音而頻繁地引入混淆。如以上在利用了翻譯的視頻電話會議系統(tǒng)中所示,需要提高可用性來確保觀眾知道說了什么以及將該這歸于正確的發(fā)言者。所提供的示例實施例可以改進切換算法以便防止由基于VAD的協(xié)議引起的混淆。 轉(zhuǎn)到該示例流程,對于跨文化協(xié)作,約翰可以在貝努瓦獲得收聽到已翻譯的問題之前回答該問題的事實將貝努瓦置于不利位置。等到在貝努瓦嘗試回答鮑比的問題時,鮑比和約翰之間的談話可能已經(jīng)進行到另一個話題,這使得貝努瓦的輸入變得不相關。當來自不同文化的人們能夠平等協(xié)作而不給任何群組優(yōu)先對待時,需要更加平衡的系統(tǒng)。在此展示的示例實施例可以抑制來自用戶(除第一發(fā)言者以外的其它發(fā)言者)的語音輸入,同時呈現(xiàn)已翻譯版本(例如給貝努瓦)。這樣的解決方案還可以向其它用戶(語音輸入已被抑制的用戶)通知翻譯正在進行的事實。這將確保所有參與者尊重更高優(yōu)先級的自動翻譯語音并且還禁止直接越過翻譯而交談。通知提供了延遲(減慢)會議進度從而使得翻譯發(fā)生的工具,其中圖像被智能地與其消息正被翻譯的原始發(fā)言者的圖像一起被呈現(xiàn)。在轉(zhuǎn)到該體系架構(gòu)的附加操作中的一些操作之前,關于圖1的體系架構(gòu)中的一些來提供簡要論述。端點1 是通信系統(tǒng)10中希望參與視頻會議的客戶或用戶。術語“端點”可以包括用來發(fā)起通信的設備(諸如交換機、控制臺、專有端點、電話、相機、麥克風、撥號盤、橋接器、計算機、個人數(shù)字助理(PDA)、膝上型筆記本或電子筆記本)或能夠在通信系統(tǒng)10發(fā)起語言、音頻或數(shù)據(jù)交換的任意其它設備、組件、元件或物體。術語“端用戶服務”可以包括用來發(fā)起通信的設備(諸如IP電話、I-phone、電話、蜂窩電話、計算機、PDA、軟件撥號盤或硬件撥號盤、鍵盤、遙控器、膝上型筆記本或電子筆記本)或能夠在通信系統(tǒng)10內(nèi)發(fā)起語言、音頻或數(shù)據(jù)交換的任意其它設備、組件、元件或物體。端點12a也可以包括與人類用戶的適當接口,諸如麥克風、相機、顯示器或鍵盤之類或其它終端設備。端點1 還可以包括試圖代表另一實體或元件來發(fā)起通信的任意設備,諸如能夠在通信系統(tǒng)10內(nèi)發(fā)起語音或數(shù)據(jù)交換的程序、數(shù)據(jù)庫或任意其它組件、設備、 元件或物體。本文檔中使用的術語“數(shù)據(jù)”是指任意類型的視頻數(shù)據(jù)、數(shù)字數(shù)據(jù)、語音數(shù)據(jù)或腳本數(shù)據(jù),或者任意類型的源代碼或目標代碼,或者可以從一個點被傳送到另一點的任意適當格式的任意其它合適的信息。在該示例中,如圖2中所示,圣弗朗西斯科的端點被配置為與管理器元件20相接口,管理器元件20被耦接到網(wǎng)絡38。請注意,端點也可以經(jīng)由網(wǎng)絡38被耦接到管理器元件。根據(jù)類似的基本原理,在法國巴黎的端點被配置為與管理器元件50相接口,管理器元件50被類似地耦接至網(wǎng)絡38。為了簡化的目的,端點1 被描述并且其內(nèi)部結(jié)構(gòu)可以復制到其它端點中。端點1 可以被配置為與管理器元件20通信,管理器元件20被配置為輔助與網(wǎng)絡38的網(wǎng)絡通信。端點1 可以包括接收模塊、發(fā)送模塊、處理器、存儲器、網(wǎng)絡接口、一個或多個麥克風、一個或多個相機、呼叫發(fā)起和接受設施(諸如撥號盤)、一個或多個揚聲器和一個或多個顯示器。這些項目中的一個或多個可以被全部整合或消除,或者被極大地改變,并且這些修改可以是基于特定通信需要而做出的。在操作中,端點lh-f可以使用結(jié)合專門應用和硬件的技術來創(chuàng)建可以借助網(wǎng)絡的視頻會議。系統(tǒng)10可以使用公司中部署的標準IP技術并且可以在綜合的語音、視頻和數(shù)據(jù)網(wǎng)絡上運行。該系統(tǒng)還可以使用寬帶連接來支持與分公司的高質(zhì)量的實時語音和視頻通信。還可以提供用于確??捎糜谥T如視頻之類的高帶寬應用的高可用性、服務質(zhì)量tooS)、 安全性、可靠性的能力。還可以為所有參與者提供電力或以太網(wǎng)連接。參與者可以使用它們的膝上型筆記本來訪問會議數(shù)據(jù),加入會議場所協(xié)議或Web會話,或者在整個會議期間保持與其它應用的連接。圖2是圖示出與通信系統(tǒng)10的示例體系架構(gòu)有關的附加細節(jié)的簡化框圖。圖2圖示出被耦接到網(wǎng)絡38的管理器元件20,網(wǎng)絡38還被耦接到服務于在法國巴黎的服務端點 12f的管理器元件50。管理器元件20和50可以分別包括控制模塊60a和60b。每個管理器元件20和50還可以被耦接到各自的服務器30和40。為了簡化的目的,與服務器30有關的細節(jié)被說明,其中這樣的內(nèi)部組件可以被復制到服務器40中以便實現(xiàn)在此概述的活動。 在一種示例實現(xiàn)方式中,服務器30包括語音轉(zhuǎn)文本模塊70a、文本翻譯模塊72a、文本轉(zhuǎn)語音模塊74a、揚聲器ID模塊76a和數(shù)據(jù)庫78a??傮w而言,該描述提供了三階段處理語音轉(zhuǎn)文本識別、文本翻譯和文本轉(zhuǎn)語音談話。應當注意,雖然服務器30和40被描述為兩個分離的服務器,但是可替換地,該系統(tǒng)可以被配置有執(zhí)行這兩個服務器的功能的單個服務器。 類似地,在此展示的概念覆蓋這兩個示例的任意混合布置;即,服務器30和40的一些組件被整合到單個服務器中并且在站點之間被共享而其它組件被分布在兩個服務器之間。根據(jù)一個實施例,需要翻譯服務的參與者可以接收已延遲的視頻流。示例配置的一個方面涉及多方會議環(huán)境中的視頻切換算法。根據(jù)一個示例,不是將參與者的語音活動性檢測用于視頻切換,而是該系統(tǒng)向機器翻譯出的語音給與最高優(yōu)先級。系統(tǒng)還可以將最后的發(fā)言者的圖像與機器翻譯出的語音相關聯(lián)。這確保了所有觀眾都看見原始發(fā)言者的圖像,因為其消息正被以不同的語言呈現(xiàn)給其它收聽者。因此,已延遲的視頻可以利用圖標或廣告條來示出最后的發(fā)言者的圖像,圖標或廣告條告知正在觀看的參與者他們正在收聽的語音實際上是最后的發(fā)言者的被機器翻譯出的語音。因此,已延遲的視頻流可以被播放給需要翻譯服務的用戶以使得他/她可以看到發(fā)了言的人。這樣的活動可以提供確保觀眾將陳述歸于具體的視頻會議參與者(即,端用戶可以清楚地分辨誰講了什么)的用戶接口。另外,該配置可以警告不需要翻譯的參與者其它參與者還沒有聽到相同的消息。 可以向?qū)⒈痪婧螘r所有其它用戶已經(jīng)分享了由參與者做出的最后的陳述提供視覺指示符。在具體實施例中,該體系架構(gòu)使已經(jīng)聽到了陳述的用戶消音并防止他們答復該陳述直到每個人都聽到了相同的消息為止。在某些示例中,該系統(tǒng)經(jīng)由它們的視頻屏幕上的圖標 (或經(jīng)由它們的麥克風上的LED或經(jīng)由任何其它音頻的或視覺的手段)向用戶通知他們被消音了。添加智能延遲可以有效地平滑或調(diào)節(jié)會議以使得所有參與者可以在視頻會議期間作為一個組的平等成員相互交互。一個示例配置涉及識別翻譯給定短語或語句所需要的必需延遲的服務器30和40。這可以使得語音識別活動大略實時地發(fā)生。在另一種示例實現(xiàn)方式中,服務器30和40 (例如經(jīng)由控制模塊60a-60b)可以有效地計算和提供該智能延遲。在一種示例實現(xiàn)方式中,管理器元件20是執(zhí)行如這里所說明的智能延遲活動中的一些的交換機。在其它示例中,服務器30和40執(zhí)行在此概述的智能延遲活動。在其它情景中,這些元件可以組合它們的努力或以其他方式相互協(xié)作來執(zhí)行與所述視頻會議操作相關聯(lián)的只能延遲活動。在其它情景中,管理器元件20和50以及服務器30和40實質(zhì)上可以用能夠輔助視頻和/或音頻數(shù)據(jù)的交換或協(xié)作的任何網(wǎng)絡元件、專用設備或事物(包括在此所概述的延遲操作)來替換。在本說明書中,在此所用的術語“管理器元件”意圖包括交換機、服務器、 路由器、網(wǎng)關、橋接器、負載平衡器或可操作來交換或處理視頻會議環(huán)境中的信息的任意其它合適的設備、網(wǎng)絡器具、組件、元件或物體。此外,管理器元件20和50以及服務器30和 40可以包括輔助其操作的任意適當?shù)挠布?、軟件、組件、模塊、接口或物體。這可以包括允許數(shù)據(jù)或信息的有效遞送和協(xié)作的適當算法和通信協(xié)議。管理器元件20和50以及服務器30和40可以配備有適當?shù)能浖韴?zhí)行本公開的示例實施例中所描述的延遲操作。(輔助這些概述的操作的)處理器和存儲器元件可以被包括在這些元件中或者被外部地提供給這些元件,或者被以任何合適的方式整合。處理器可以容易地執(zhí)行用于完成所描述的活動的代碼(軟件)。管理器元件20和50以及服務器 30和40可以是能夠執(zhí)行一個或多個端用戶之間的談話或呼叫的多點設備,這一個或多個端用戶可以位于各種其它站點和位置。管理器元件20和50以及服務器30和40還可以協(xié)調(diào)和處理涉及端點12的各種策略。管理器元件20和50以及服務器30和40可以包括確定多少信號如何被路由至各個端點12的組件。管理器元件20和50以及服務器30和40 還可以確定各個端用戶如何被視頻會議中所涉及的其它端用戶看見。此外,管理器元件20 和50以及服務器30和40還可以包括可以拷貝信息或數(shù)據(jù)的媒體層,這些信息或數(shù)據(jù)可以隨后被重傳或被簡單地一起轉(zhuǎn)發(fā)給一個或多個端點12。上述存儲器元件可以存儲將被管理器元件20和50以及服務器30和40參考的信息。在本文檔中,在此使用的術語“存儲器元件”包括能夠維護與管理器元件20和50以及服務器30和40的寫作和/或處理操作有關的信息的任意合適的數(shù)據(jù)庫或存儲介質(zhì)(被以任意適當格式提供)。例如,存儲器元件可以將這樣的信息存儲在電子寄存器、圖表、記錄、 索引、列表或隊列中??商鎿Q地,存儲器元件可以在適當時并基于特定需要,將這樣的信息保持在任意適當?shù)碾S機存取存儲器(RAM)、只讀存儲器(ROM)、可擦除可編程ROM(EPROM)、 電可擦除PROM(EEPROM)、專用集成電路(ASIC)、軟件、硬件或存儲在任意其它適當?shù)慕M件、 設備、元件或物體中。如前所述,在一種示例實現(xiàn)方式中,管理器元件20和50包括用于實現(xiàn)在本文檔中概述的擴展操作的軟件。另外,服務器30和40可以包括用于幫助協(xié)調(diào)在此說明的視頻會議活動的一些軟件(例如,復制軟件或輔助延遲、圖標協(xié)調(diào)、消音活動等的軟件)。在其它實施例中,該處理和/或協(xié)調(diào)特征可以被設置在這些設備(管理器元件20以及服務器30和 40)的外部或被包括在一些其它設備中來實現(xiàn)該意圖的功能??商鎿Q地,管理器元件20和 50以及服務器30和40兩者都包括可以協(xié)調(diào)和/或處理數(shù)據(jù)以便實現(xiàn)在此概述的操作的軟件(或復制軟件)。網(wǎng)絡38表示用于接收和發(fā)送通過通信系統(tǒng)10傳播的信息的分組的互連通信路徑的一系列點或節(jié)點。網(wǎng)絡38提供站點(和/或端點)之間的通信接口并且可以是任意 LAN、WLAN、MAN、WAN或輔助網(wǎng)絡環(huán)境中的通信的任意其它適當體系架構(gòu)或系統(tǒng)。網(wǎng)絡38在本公開的特定實施例中實現(xiàn)TCP/IP通信語言協(xié)議;然而網(wǎng)絡38可以可替換地實現(xiàn)用于在通信系統(tǒng)10內(nèi)發(fā)送和接收數(shù)據(jù)分組的任意其它適當?shù)耐ㄐ艆f(xié)議。還要注意網(wǎng)絡38可以容納任意數(shù)目的輔助活動,這些輔助活動可以與視頻會議相伴隨。例如,該網(wǎng)絡連接性可以輔助所有信息交換(例如,筆記、虛擬白板、幻燈片展示、電子郵件、字處理應用等)。轉(zhuǎn)到圖3,圖3圖示出涉及以上突出的示例中的一些示例的示例流程。該流程開始于步驟100,視頻會議開始并且鮑比(講英語)問現(xiàn)在幾點?。在步驟102,系統(tǒng)10延遲其中鮑比問“現(xiàn)在幾點? ”的視頻并將其連同已翻譯的法語短語一起呈現(xiàn)給貝努瓦(講法語)。在該示例中,嘴唇同步在此時是不相關的,因為顯然是翻譯者(機器或人)而不是鮑比在發(fā)出該法語短語。通過插入適當延遲,系統(tǒng)10呈現(xiàn)其短語正被(以任意語言)播放的人的臉。例如,鮑比講的英語短語可以經(jīng)由語音轉(zhuǎn)文本模塊70a被翻譯成文本。該文本可以經(jīng)由文本翻譯模塊7 被轉(zhuǎn)變成第二語言(在該示例中為法語)。該已翻譯的文本隨后可以經(jīng)由文本轉(zhuǎn)語音模塊7 被轉(zhuǎn)變?yōu)檎Z音(法語)。因此,服務器或管理器元件可以評估時間延遲,并且隨后插入該延遲。該延遲可以有效地具有兩個部分第一部分評估實際的翻譯將花多長時間,而第二部分評估將花多長時間來播完該短語。第二部分將為接收者模擬更為正常自然的語言流。這兩個部分可以被加到一起以便確定將在此特定結(jié)合處被插入到視頻會議中的最終延遲。在一個示例中,這些活動可以由并行處理器完成以便使得被插入的延遲最小??商鎿Q地,這樣的活動可以簡單地在不同服務器上發(fā)生來完成類似的延遲最小化。在其它情景中,存在設置在管理器元件20和50中或在服務器30和40中的處理器,以使得每種語言具有其自己的處理器。這也可以減輕相關聯(lián)的延遲。一旦該延遲已經(jīng)被估計出并且隨后被插入,則該體系架構(gòu)的另一組件操作來占據(jù)沒有在接收已翻譯的短語或語句的端用戶。根據(jù)該系統(tǒng)的一個方面,在鮑比完成其問題并且該系統(tǒng)將法語翻譯播放給貝努瓦之后,約翰(講英語)看到圖標,該圖標告訴他正在進行翻譯。這將向約翰表明他在再發(fā)言之前應當?shù)却枰g的其它參與者。這由步驟104示出。間接地,該圖標告訴不需要翻譯的所有參與者他們將不能夠在該討論中插入更多的陳述,直到已翻譯的信息已經(jīng)被適當?shù)亟邮盏綖橹?。在一個實施例中,給約翰的指示是經(jīng)由被顯示在約翰的屏幕上的圖標(文本或符合)來提供的。在另一示例實施例中,系統(tǒng)10播放鮑比的問題的低音量法語版本,警告約翰鮑比的問題正被傳播給其它參與者并且約翰應當?shù)却浯饛椭钡矫總€人都有機會聽到該問題為止。當已翻譯的版本被播放給貝努瓦時,系統(tǒng)10在該示例中使來自所有參與者的音頻消音。這在步驟106中被示出。為了用信號傳送該消音,用戶可以經(jīng)由屏幕上的圖標被通知,或者端用戶的端點可以被涉及(例如,揚聲器的紅色LED可以指示他們的麥克風已經(jīng)被消音直到已翻譯的短語被播放完畢為止)。通過使其它參與者消音,系統(tǒng)10有效地防止參與者在等待翻譯的端用戶已經(jīng)聽到之前的語句或短語之前向前進行,或在一邊談話。注意,某些視頻會議體系架構(gòu)包括選擇哪些發(fā)言者可在給定時刻被聽到的算法。 例如,一些體系架構(gòu)包括前三圖表(top-three paradigm),其中僅那些發(fā)言者被允許將它們的音頻流發(fā)送到會議的論壇中。其它協(xié)議在選擇接下來應該誰發(fā)言之前,評估最大聲的發(fā)言者。在此展示的示例實施例可以借助該技術以便防止一邊談話發(fā)生。例如,通過借助這樣的技術,可以防止音頻通信直到翻譯已經(jīng)完成為止。更具體地,在此提供的示例可以開發(fā)在視頻會議的具體區(qū)間期間將被準許的媒體流的子集,其中其它的媒體流在會議論壇中將不被準許。在一種示例實現(xiàn)方式中,當翻譯者正在講翻譯的文本時,其它端用戶收聽該翻譯(即使這不是他們的母語)。這由步驟108示出。雖然這些其它端用戶不一定理解正在說的是什么,但是他們尊重翻譯者的語音并且他們尊重由于該活動帶來的延遲??商鎿Q地,其它端用戶聽不到該翻譯,但是其他端用戶可以接收某種類型的通知(諸如“正在進行翻譯”)或被系統(tǒng)消音。在一種示例實現(xiàn)方式中,該配置將已被自動翻譯的語音視為媒體流,其它用戶不能越過或搶先該媒體流。另外,系統(tǒng)10同時假定收聽者看見的圖像是來自其被翻譯的消息正被他們收聽的那個人的圖像。轉(zhuǎn)到圖3的流程,一旦該翻譯對于貝努瓦已被完成,則該圖標被移除(例如,這些端點將禁用消音功能以使得他們又能夠接收音頻數(shù)據(jù))。參與者又自由發(fā)言并且談話繼續(xù)。這在步驟110中示出。在其中視頻會議期間講三種以上語言的情形中,該系統(tǒng)可以通過估計翻譯活動中將招致的最長延遲來進行響應,其中不在接收已翻譯的信息的所有端用戶可以被防止繼續(xù)該談話直到最后的翻譯被完成為止。例如,如果一個參與者用戶問道“該特定產(chǎn)品的預期運送日期是哪天? ”,針對該語句的德語翻譯可以是6秒,而針對該語句的法語翻譯可以是 11秒。在此實例中,在其它端用戶將被允許繼續(xù)該會議并插入新的陳述之前,延遲將至少為11秒。其它定時參數(shù)或定時標準當然也可以被采用并且任何這樣的置換顯然在所展示的概念的范圍內(nèi)。在示例實施例中,通信系統(tǒng)10可以實現(xiàn)許多不同的優(yōu)點其中一些本質(zhì)上是無形的。例如,與將某些參與者降低為被動收聽者的角色相對,存在減慢討論并確保每個人都可以貢獻的益處。自由流暢的討論在全部參與者講相同語言的國內(nèi)環(huán)境中是具有其優(yōu)點。當參與者不是講相同語言時,必需確保整個組在討論繼續(xù)發(fā)展之前具有相同的信息。在不必 (通過延遲會議的進展來確保每個人共享相同的共同信息)而強制實施共同信息監(jiān)測點的情況下,組可以被分成兩個子組。一個子組將參與例如講英語的參與者之間的第一語言的第一交換,而另一參與者子組例如將法語的成員被降低為收聽模式,因為他們對發(fā)展的討論的理解總是滯后自由流動的英語談話。通過施加延遲并減慢談話,所有會議參與者都具有完全參與和貢獻的機會。注意,利用上述示例,以及在此提供的許多其它示例,鑒于兩個或三個元素描述了交互。然而,這已經(jīng)僅為了清楚和示例的目的被完成了。在某些情況下,通過僅參考有限數(shù)目的網(wǎng)絡元件來描述個頂流集合的功能中的一個或多個功能可以更容易。應當明白,通信系統(tǒng)10 (及其教導)是容易擴展的并且可以容納更多數(shù)目的端點以及更多復雜的布置和配置。相應地,所提供的示例不應當限制范圍或禁止有可能被應用于無數(shù)其它體系架構(gòu)的通信系統(tǒng)10的廣泛教導。另外,重要的是注意參考圖1-3討論的步驟僅圖示出可以由通信系統(tǒng)10或在通信系統(tǒng)10內(nèi)執(zhí)行的可能情景中的一些。這些步驟中的一些步驟可以在適當時被刪除或被移除,或者這些步驟可以在不偏離本公開的范圍的前提下被顯著地修改或改變。另外,這些操作中的許多已經(jīng)被描述為與一個或多個附加的操作并發(fā)地或并列地執(zhí)行。然而,這些操作的定時可以被顯著地更改。例如,一旦延遲機制被啟動,則消音和圖表供應可以同時相關地發(fā)生。前述操作流已經(jīng)被提供以用于示例和討論目的。由通信系統(tǒng)10提供的實質(zhì)靈活性在于在不偏離本公開的教導的情況下,可以提供任意適當?shù)牟贾?、時間順序、配置和定時機制。盡管已經(jīng)參考具體實施例詳細描述了本公開,但是應當理解,在不偏離本公開的精神和范圍的情況下,可以對其作出各種其它改變、替換和更改。例如,雖然本公開已經(jīng)被描述為在視頻會議環(huán)境或布置中操作,但是本公開可以用在可以從這樣的技術中受益的任何通信環(huán)境中。實質(zhì)上力圖智能地翻譯數(shù)據(jù)的任何配置都可以受益于本公開。此外,該體系架構(gòu)可以在為一個或多個端點提供翻譯的任意系統(tǒng)中被實現(xiàn)。另外,盡管之前的示例中的一些示例已經(jīng)涉及與網(wǎng)真平臺有關的特定術語,但是該思想/方案可以移植到寬得多的領域不論其是否是其它視頻會議產(chǎn)品、智能電話設備等等。此外,盡管已經(jīng)參考輔助通信處理的具體元件和操作描述了通信系統(tǒng)10,但是這些元素和操作可以用時限通信系統(tǒng)10 的意圖功能的任意適當?shù)捏w系架構(gòu)或處理來替換。對于本領域技術人員而言可以確認許多其它的改變、替換、變形、更改和修改,并且意圖本公開包括落在權利要求的范圍內(nèi)的所有這樣的改變、替換、變形、更改和修改。為了輔助美國專利商標局(USPTO)以及基于此審查發(fā)布的任何專利的任何讀者解釋權利要求書,申請人希望表明申請人(a)不意圖申請日存在的所附任何權利要求援引35U. S. CSection 112a的第(6)段,除非在特定權利要求中具體使用了單詞“用于……的裝置” 或“用于……的步驟”;以及(b)不意圖通過說明書中的任何陳述來以權利要求書中未反映的任何方式限制本公開。
權利要求
1.一種方法,包括從音頻會議接收音頻數(shù)據(jù);將所述音頻數(shù)據(jù)從第一語言翻譯成第二語言,其中已翻譯的音頻數(shù)據(jù)在所述視頻會議期間被播放;以及抑制另外的音頻數(shù)據(jù)直到所述已翻譯的音頻數(shù)據(jù)在所述視頻會議期間已經(jīng)被播放完畢為止。
2.如權利要求1所述的方法,其中,所述視頻會議至少包括第一端用戶、第二端用戶和第三端用戶。
3.如權利要求2所述的方法,還包括向第一端用戶和第三端用戶通知所述音頻數(shù)據(jù)的翻譯,并且其中,所述通知包括為第一端用戶和第三端用戶的顯示器生成圖標或者所述通知包括在被配置為接收來自第一端用戶和第三端用戶的音頻數(shù)據(jù)的各自的端用戶設備上使用光信號。
4.如權利要求2所述的方法,其中,在所述音頻數(shù)據(jù)的翻譯期間,與第一端用戶相關聯(lián)的視頻圖像被顯示給第二端用戶和第三端用戶并且用于第二端用戶和第三端用戶的視頻流被延遲。
5.如權利要求2所述的方法,其中,在所述視頻會議期間用于所述端用戶的視頻切換包括向與所述已翻譯的音頻數(shù)據(jù)相關聯(lián)的機器翻譯出的語音數(shù)據(jù)指派最高優(yōu)先級。
6.如權利要求2所述的方法,其中,對所述音頻數(shù)據(jù)的抑制包括使由第一端用戶和第三端用戶操作的端用戶設備消音。
7.如權利要求2所述的方法,其中,對所述音頻數(shù)據(jù)的抑制包括在準許第一端用戶和第三端用戶使他們的后續(xù)音頻數(shù)據(jù)被接收到所述視頻會議中之前插入延遲,并且其中,所述延遲包括用于翻譯第一端用戶的音頻數(shù)據(jù)的處理時間段和用于將已翻譯的音頻數(shù)據(jù)向第二端用戶播放完畢的時間段。
8.一種裝置,包括管理器元件,所述管理器元件被配置為從視頻會議接收音頻數(shù)據(jù),其中,所述音頻數(shù)據(jù)被從第一語言翻譯成第二語言并且在所述視頻會議期間被播放,所述管理器元件包括控制模塊,所述控制模塊被配置為抑制另外的音頻數(shù)據(jù)直到已翻譯的音頻數(shù)據(jù)在所述視頻會議期間已被播放完畢為止。
9.如權利要求8所述的裝置,其中所述視頻會議至少包括第一端用戶、第二端用戶和第三端用戶。
10.如權利要求9所述的裝置,其中,在所述音頻數(shù)據(jù)的翻譯期間,與第一端用戶相關聯(lián)的視頻圖像被顯示給第二端用戶和第三端用戶并且用于第二端用戶和第三端用戶的視頻流被延遲。
11.如權利要求9所述的裝置,其中,所述管理器元件被配置為在所述視頻會議期間執(zhí)行用于所述端用戶的視頻切換并且所述切換包括向與所述已翻譯的音頻數(shù)據(jù)相關聯(lián)的機器翻譯出的語音數(shù)據(jù)指派最高優(yōu)先級。
12.如權利要求9所述的裝置,其中,所述管理器元件被配置為使由第一端用戶和第三端用戶操作的端用戶設備消音。
13.如權利要求9所述的裝置,其中,所述管理器元件被配置為在準許第一端用戶和第三端用戶使他們的后續(xù)音頻數(shù)據(jù)被接收到所述視頻會議中之前插入延遲,并且其中,所述延遲包括用于翻譯第一端用戶的音頻數(shù)據(jù)的處理時間段和用于將已翻譯的音頻數(shù)據(jù)向第二端用戶播放完畢的時間段。
14.如權利要求9所述的裝置,其中,所述管理器元件被配置為向第一端用戶和第三端用戶提供所述已翻譯的音頻數(shù)據(jù),所述已翻譯的音頻數(shù)據(jù)以降低的音量被向第二端用戶播放。
15.一種被編碼在一個或多個有形媒體中以用于執(zhí)行的邏輯,所述邏輯在被處理器執(zhí)行時可操作來從音頻會議接收音頻數(shù)據(jù);將所述音頻數(shù)據(jù)從第一語言翻譯成第二語言,其中已翻譯的音頻數(shù)據(jù)在所述視頻會議期間被播放;以及抑制另外的音頻數(shù)據(jù)直到所述已翻譯的音頻數(shù)據(jù)在所述視頻會議期間已經(jīng)被播放完畢為止。
16.如權利要求15所述的邏輯,其中,所述視頻會議至少包括第一端用戶、第二端用戶和第三端用戶。
17.如權利要求16所述的邏輯,其中,在所述音頻數(shù)據(jù)的翻譯期間,與第一端用戶相關聯(lián)的視頻圖像被顯示給第二端用戶和第三端用戶并且用于第二端用戶和第三端用戶的視頻流被延遲。
18.如權利要求16所述的邏輯,在所述視頻會議期間用于所述端用戶的視頻切換包括向與所述已翻譯的音頻數(shù)據(jù)相關聯(lián)的機器翻譯出的語音數(shù)據(jù)指派最高優(yōu)先級。
19.如權利要求16所述的邏輯,對所述音頻數(shù)據(jù)的抑制包括使由第一端用戶和第三端用戶操作的端用戶設備消音。
20.如權利要求16所述的邏輯,其中,對所述音頻數(shù)據(jù)的抑制包括在準許第一端用戶和第三端用戶使他們的后續(xù)音頻數(shù)據(jù)被接收到所述視頻會議中之前插入延遲,并且其中, 所述延遲包括用于翻譯第一端用戶的音頻數(shù)據(jù)的處理時間段和用于將已翻譯的音頻數(shù)據(jù)向第二端用戶播放完畢的時間段。
21.—種系統(tǒng),包括用于從音頻會議接收音頻數(shù)據(jù)的裝置;用于將所述音頻數(shù)據(jù)從第一語言翻譯成第二語言的裝置,其中已翻譯的音頻數(shù)據(jù)在所述視頻會議期間被播放;以及用于抑制另外的音頻數(shù)據(jù)直到所述已翻譯的音頻數(shù)據(jù)在所述視頻會議期間已經(jīng)被播放完畢為止的裝置。
22.如權利要求21所述的系統(tǒng),其中,所述視頻會議至少包括第一端用戶、第二端用戶和第三端用戶。
23.如權利要求21所述的系統(tǒng),其中,在所述音頻數(shù)據(jù)的翻譯期間,與第一端用戶相關聯(lián)的視頻圖像被顯示給第二端用戶和第三端用戶并且用于第二端用戶和第三端用戶的視頻流被延遲。
24.如權利要求22所述的系統(tǒng),其中,在所述視頻會議期間用于所述端用戶的視頻切換包括向與所述已翻譯的音頻數(shù)據(jù)相關聯(lián)的機器翻譯出的語音數(shù)據(jù)指派最高優(yōu)先級。
25.如權利要求22所述的系統(tǒng),其中,用于抑制所述音頻數(shù)據(jù)的裝置包括在準許第一端用戶和第三端用戶使他們的后續(xù)音頻數(shù)據(jù)被接收到所述視頻會議中之前插入延遲,并且其中,所述延遲包括用于翻譯第一端用戶的音頻數(shù)據(jù)的處理時間段和用于將已翻譯的音頻數(shù)據(jù)向第二端用戶播放完畢的時間段。
全文摘要
在一個示例實施例中提供一種方法,該方法包括從音頻會議接收音頻數(shù)據(jù)并將音頻數(shù)據(jù)從第一語言翻譯成第二語言,其中已翻譯的音頻數(shù)據(jù)在所述視頻會議期間被播放。該方法還包括抑制另外的音頻數(shù)據(jù)直到所述已翻譯的音頻數(shù)據(jù)在所述視頻會議期間已經(jīng)被播放完畢為止。在更具體的實施例中,該視頻會議至少包括第一端用戶、第二端用戶和第三端用戶。在其它實施例中,該方法可以包括向第一端用戶和第三端用戶通知音頻數(shù)據(jù)的翻譯。該通知可以包括為第一端用戶和第三端用戶的顯示器生成圖標或者在被配置為接收來自第一端用戶和第三端用戶的音頻數(shù)據(jù)的各自的端用戶設備上使用光信號。
文檔編號G06F17/28GK102422639SQ201080020670
公開日2012年4月18日 申請日期2010年5月6日 優(yōu)先權日2009年5月11日
發(fā)明者什穆埃爾·謝弗, 比爾 馬丁厄斯·F·德 申請人:思科技術公司