国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種便攜式同傳設備的制作方法

      文檔序號:12924073閱讀:232來源:國知局
      本實用新型屬于同傳翻譯
      技術領域
      :,特別是一種便攜式同傳設備。
      背景技術
      ::隨著國人的生活標準和經(jīng)濟能力的提高,常規(guī)跟團游已滿足不了出國旅行人群希望深度體驗當?shù)仫L土人情,美食購物等個性化需求,各大旅行社如攜程、途牛、同程,驢媽媽相繼推出半自由行、定制游、特色游,自由行等產(chǎn)品。2015年中國出境游人次達到1.28億人次,在線自助游份額首次超過跟團游,達51.4%。語言不通和文化差異是影響旅途體驗和成交率主要因素之一,在海關過境,問路,找洗手間,當?shù)卮蜍嚕蛷d點菜,商場購物,入駐酒店或遇到護照丟失等緊急狀況等各種情況帶來種種不便,也限制著跟當?shù)厝说幕咏涣骱透惺墚悋幕捏w驗。近年來,市場上出現(xiàn)了各種翻譯工具,如以機器翻譯為主的百度翻譯、谷歌翻譯、有道翻譯官和以真人傳譯為主的小尾巴翻譯官,思兔寶等應用程序(APP),都希望通過互聯(lián)網(wǎng)共享經(jīng)濟模式和技術,讓出境游不再因為語言問題而困擾。然而,這些工具成本高,一般只有涉外商旅人群能夠接受,無法滿足休閑和探親等旅游市場的需求。為了滿足大眾化消費者對境外翻譯的需求,需要同時解決準確度,規(guī)?;杀镜认嗷ブ萍s因素帶來的限制。技術實現(xiàn)要素:本實用新型實施方式提出一種便攜式同傳設備,從而降低成本。本實用新型的技術方案包括:一種便攜式同傳設備,包括:語言設置單元,用于設置源語言類型和目標語言類型;語音采集單元,用于采集待翻譯的源語言語音數(shù)據(jù);通信單元,用于將所述待翻譯的源語言語音數(shù)據(jù)和所述目標語言類型傳輸?shù)皆贫耍乃鲈贫私邮栈谒龃g的源語言語音數(shù)據(jù)被翻譯成符合所述目標語言類型的云端文本翻譯數(shù)據(jù),或從所述云端接收基于所述待翻譯的源語言語音數(shù)據(jù)被翻譯成符合所述目標語言類型的云端語音翻譯數(shù)據(jù);呈現(xiàn)單元,用于展示所述云端文本翻譯數(shù)據(jù),或播放所述云端語音翻譯數(shù)據(jù)。在一個實施方式中,還包括:本地翻譯單元,用于當判定通信單元與云端之間無通信連接時,將所述待翻譯的源語言語音數(shù)據(jù)識別為文本,將所述文本翻譯成符合目標語言類型的本地端文本翻譯數(shù)據(jù),并將所述本地端文本翻譯數(shù)據(jù)語音合成為本地端語音翻譯數(shù)據(jù);其中所述呈現(xiàn)單元,還用于展示所述本地端文本翻譯數(shù)據(jù),或播放所述本地端語音翻譯數(shù)據(jù)。在一個實施方式中,還包括:緩存,用于保存所述云端文本翻譯數(shù)據(jù)、所述待翻譯的源語言語音數(shù)據(jù)、所述云端語音翻譯數(shù)據(jù)、所述本地端文本翻譯數(shù)據(jù)、所述本地端語音翻譯數(shù)據(jù)和符合所述目標語言類型的常用語音數(shù)據(jù)。在一個實施方式中,還包括:顯示屏,用于顯示下列信息中的至少一個:目標語言類型;網(wǎng)絡狀態(tài);電源剩余電量。在一個實施方式中,還包括:無線網(wǎng)絡接入單元,用于提供無線網(wǎng)絡接入業(yè)務。在一個實施方式中,通信單元,還用于從其他的便攜式同傳設備接收語音通知數(shù)據(jù)或文本通知數(shù)據(jù);呈現(xiàn)單元,還用于展示所述文本通知數(shù)據(jù),或播放所述語音通知數(shù)據(jù)。在一個實施方式中,還包括:地理位置信息獲取單元,用于獲取所述便攜式同傳設備的地理位置信息;其中所述呈現(xiàn)單元,還用于當所述便攜式同傳設備的地理位置信息符合預定的報警條件時,播放預存儲的語音報警數(shù)據(jù)。在一個實施方式中,通信單元,還用于將所述便攜式同傳設備的地理位置信息上傳到云端;所述便攜式同傳設備還包括:人工連線單元,用于在被觸發(fā)后向云端發(fā)出語音呼叫,并與云端基于所述地理位置信息分配的人工座席建立語音通信。在一個實施方式中,所述語音播放單元,還用于當所述便攜式同傳設備的地理位置信息符合預定的內(nèi)容播放條件時,播放預存儲的文本或語音內(nèi)容數(shù)據(jù)。在一個實施方式中,便攜式同傳設備為便攜式麥克風。從上述技術方案可以看出,語言設置單元,用于設置源語言類型和目標語言類型;語音采集單元,用于采集待翻譯的源語言語音數(shù)據(jù);通信單元,用于將所述待翻譯的源語言語音數(shù)據(jù)和所述目標語言類型傳輸?shù)皆贫?,并從所述云端接收基于所述待翻譯的源語言語音數(shù)據(jù)被翻譯成符合所述目標語言類型的云端文本翻譯數(shù)據(jù),或從所述云端接收基于所述待翻譯的源語言語音數(shù)據(jù)被翻譯成符合所述目標語言類型的云端語音翻譯數(shù)據(jù);呈現(xiàn)單元,用于展示所述云端文本翻譯數(shù)據(jù),或播放所述云端語音翻譯數(shù)據(jù)。因此,通過便攜式的同傳設備可以實現(xiàn)語音翻譯,可以顯著降低成本。而且,便攜式同傳設備中還可以包含無線網(wǎng)絡接入單元,便于用戶上網(wǎng)。而且,便攜式同傳設備還可以接收各種信息,并且可以監(jiān)控位置。在不能聯(lián)網(wǎng)的情況下,便攜式同傳設備仍然可以提供預存的常用語音數(shù)據(jù),從而便于用戶使用。附圖說明圖1為根據(jù)本實用新型便攜式同傳設備的功能模塊圖。圖2為根據(jù)本實用新型的便攜式同傳設備的結構圖。圖3為本實用新型的便攜式同傳系統(tǒng)結構圖。具體實施方式為使本實用新型的目的、技術方案和優(yōu)點更加清楚,下面結合附圖對本實用新型作進一步的詳細描述。為了描述上的簡潔和直觀,下文通過描述若干代表性的實施方式來對本實用新型的方案進行闡述。實施方式中大量的細節(jié)僅用于幫助理解本實用新型的方案。但是很明顯,本實用新型的技術方案實現(xiàn)時可以不局限于這些細節(jié)。為了避免不必要地模糊了本實用新型的方案,一些實施方式?jīng)]有進行細致地描述,而是僅給出了框架。下文中,“包括”是指“包括但不限于”,“根據(jù)......”是指“至少根據(jù)......,但不限于僅根據(jù)......”。由于漢語的語言習慣,下文中沒有特別指出一個成分的數(shù)量時,意味著該成分可以是一個也可以是多個,或可理解為至少一個。圖1為根據(jù)本實用新型便攜式同傳(同聲傳譯)設備的功能模塊圖。同傳設備即具有同聲傳譯功能的設備。如圖1所示,便攜式同傳設備包括:語言設置單元,用于設置源語言類型和目標語言類型;語音采集單元,用于采集待翻譯的語音數(shù)據(jù);通信單元,用于將所述待翻譯的源語言語音數(shù)據(jù)和所述目標語言類型傳輸?shù)皆贫耍乃鲈贫私邮栈谒龃g的源語言語音數(shù)據(jù)被翻譯成符合所述目標語言類型的云端文本翻譯數(shù)據(jù),或從所述云端接收基于所述待翻譯的源語言語音數(shù)據(jù)被翻譯成符合所述目標語言類型的云端語音翻譯數(shù)據(jù);呈現(xiàn)單元,用于展示所述云端文本翻譯數(shù)據(jù),或播放所述云端語音翻譯數(shù)據(jù)。比如,用戶通過語言設置單元設置源語言類型為中文,而且目標語言類型為英文。語音采集單元采集用戶發(fā)出的待翻譯的語音數(shù)據(jù)(中文),通信單元將待翻譯的語音數(shù)據(jù)和目標語言類型(即英文)傳輸?shù)皆贫?,并從云端接收基于待翻譯的語音數(shù)據(jù)被翻譯成符合目標語言類型的語音翻譯數(shù)據(jù),和/或從云端接收基于待翻譯的語音數(shù)據(jù)被翻譯成符合目標語言類型的文本翻譯數(shù)據(jù)。語音翻譯數(shù)據(jù)是英文的語音,而且是針對待翻譯的語音數(shù)據(jù)(中文)的中到英翻譯。文本翻譯數(shù)據(jù)是英文的文本,而且是針對待翻譯的語音數(shù)據(jù)(中文)的中到英翻譯。其中,目標語言類型還可以為多個。比如,用戶通過語言設置單元設置目標語言類型為英文和意大利文。而且,語音采集單元采集用戶發(fā)出的待翻譯的語音數(shù)據(jù)(中文),通信單元將待翻譯的語音數(shù)據(jù)和目標語言類型(即英文和意大利文)傳輸?shù)皆贫?,并從云端接收基于待翻譯的語音數(shù)據(jù)被翻譯成符合目標語言類型的語音翻譯數(shù)據(jù)和(或)文本翻譯數(shù)據(jù)。語音翻譯數(shù)據(jù)包括英文語音和意大利語音,而且分別是針對待翻譯的語音數(shù)據(jù)(中文)的中到英和中到意的相應翻譯。文本翻譯數(shù)據(jù)包括英文文本和意大利文本,而且分別是針對待翻譯的語音數(shù)據(jù)(中文)的中到英和中到意的相應翻譯。便攜式同傳設備具體可以實施為麥克風,比如頭戴式麥克風,手持麥克風,耳夾式麥克風,等等。便攜式同傳設備還可以實施為與手機相適配的麥克風。類似的,便攜式同傳設備還可以實施為手機、手環(huán)、胸卡等任意的便攜式設備。通信單元具體可以實施為藍牙通信模塊,紅外通信模塊或無線移動通信模塊。在一個實施方式中,便攜式同傳設備還包括:電源,用于為所述語言設置單元、語音采集單元、通信單元和呈現(xiàn)單元提供電功率。具體地,電源可以實施為各種鋰電池(比如,鋰金屬電池或鋰離子電池)。在一個實施方式中,便攜式同傳設備還包括:電源開關,用于接通或關閉所述電源。在一個實施方式中,便攜式同傳設備還包括:本地翻譯單元,用于當判定通信單元與云端之間無通信連接時,將所述待翻譯的源語言語音數(shù)據(jù)識別為文本,將所述文本翻譯成符合目標語言類型的本地端文本翻譯數(shù)據(jù),并將所述本地端文本翻譯數(shù)據(jù)語音合成為本地端語音翻譯數(shù)據(jù);呈現(xiàn)單元,還用于展示所述本地端文本翻譯數(shù)據(jù),或播放所述本地端語音翻譯數(shù)據(jù)。在這里,在本地通過嵌入式語音識別軟件、翻譯引擎、語音合成軟件聯(lián)合處理數(shù)據(jù)。考慮到有時候便攜式同傳設備無法聯(lián)網(wǎng),因此優(yōu)選設置一個小翻譯引擎,在終端而非云端實現(xiàn)語音辨識(ASRAutomaticSpeechRecognition),翻譯和語音合成播放(TTStext-to-speech)。在一個實施方式中,便攜式同傳設備還包括:緩存,用于保存所述云端文本翻譯數(shù)據(jù)、所述待翻譯的源語言語音數(shù)據(jù)、所述云端語音翻譯數(shù)據(jù)、所述本地端文本翻譯數(shù)據(jù)、所述本地端語音翻譯數(shù)據(jù)和符合所述目標語言類型的常用語音數(shù)據(jù)。在緩存中存儲符合目標語言類型的常用語音數(shù)據(jù)之后,即使通信單元暫時不能與云端建立通信連接,語音播放單元仍然可以從緩存中獲取并播放符合目標語言類型的常用語音數(shù)據(jù),從而滿足用戶的基本需求。比如,常用語音數(shù)據(jù)可以包含關鍵信息,比如用戶酒店地址、用戶國籍、用戶血型等等。在一個實施方式中,便攜式同傳設備還包括:顯示屏,用于顯示下列信息中的至少一個:目標語言類型;網(wǎng)絡狀態(tài);電源剩余電量。在一個實施方式中,便攜式同傳設備還包括:無線網(wǎng)絡接入單元,用于提供無線網(wǎng)絡接入業(yè)務。因此,便攜式同傳設備還可以提供基于無線網(wǎng)絡接入單元提供移動WIFI服務,非常適于各種出國旅游人士。便攜式同傳設備的通信單元可以接入該無線網(wǎng)絡接入單元提供的無線網(wǎng)絡,從而與云端建立互聯(lián)網(wǎng)連接。在一個實施方式中,通信單元,還用于從其他的便攜式同傳設備接收語音通知數(shù)據(jù)或文本通知數(shù)據(jù);呈現(xiàn)單元,還用于展示所述文本通知數(shù)據(jù),或播放所述語音通知數(shù)據(jù)。比如,其他的便攜式同傳設備可以為導游攜帶的麥克風,通過從導游接收并播放語音通知數(shù)據(jù),可以及時獲取導游提供的各種信息,比如景點介紹,緊急集合地點和時間,等等。在一個實施方式中,便攜式同傳設備還包括:地理位置信息獲取單元,用于獲取所述便攜式同傳設備的地理位置信息;其中所述呈現(xiàn)單元,還用于當所述便攜式同傳設備的地理位置信息符合預定的報警條件時,播放預存儲的語音報警數(shù)據(jù)。比如,當?shù)乩砦恢眯畔⑴卸ㄟh離導游的距離超過三百米的時候,語音播放單元自動播放預存儲的語音報警數(shù)據(jù)。在一個實施方式中,通信單元,還用于將所述便攜式同傳設備的地理位置信息上傳到云端;所述便攜式同傳設備還包括:人工連線單元,用于在被觸發(fā)后向所述云端發(fā)出語音呼叫,并與云端基于所述地理位置信息被分配的人工座席建立語音通信?;谕瑐髟O備的地理位置信息,人工連線的翻譯人員系統(tǒng)自動分配熟悉場景和商家需求的在線人工座席,例如化妝品店,手表,保健品,嬰兒用品店,高爾夫店,米其林餐廳等當?shù)厣碳?。在一個實施方式中,呈現(xiàn)單元,還用于當所述便攜式同傳設備的地理位置信息符合預定的內(nèi)容播放條件時,播放預存儲的文本或語音內(nèi)容數(shù)據(jù)。該功能為了方便游客在適當?shù)牡胤阶詣邮章爩в蝺?nèi)容,而無需導游說話。如:景點介紹,提示和廣告內(nèi)容等。在一個實施方式中,便攜式同傳設備進一步具有藍牙模塊,通過藍牙模塊和手機建立藍牙連接,從而便攜式同傳設備基于該藍牙連接與手機上的app聯(lián)合工作,以實現(xiàn)跨語言對話。圖2為根據(jù)本實用新型的便攜式同傳設備的結構圖。在圖2中,以麥克風為便攜式設備的具體實施方式。在圖2中,標號11和12分別為左右揚聲器;標號2為麥克風;標號3為小顯示屏;標號4為電源開關;標號15和16為翻譯語言切換開關,其中標號15標識的開關用于設置對方語言,標號15標識的開關用于設置己方語言;標號6為按住說話按鈕;標號7為音量開關;標號8為重新播放按鈕;標號9為人工連線按鈕。用戶首先打開電源開關,便攜式同傳設備自動聯(lián)網(wǎng)。用戶按下相應按鈕選擇需要翻譯語言語種(比如:中、英翻譯),并放到說話者近前。當用戶說話完成,松開“按住說話”按鈕,語音數(shù)據(jù)傳回云端。云端把語音轉換為文字,并把語言翻譯成對方語言。從云端傳回翻譯后的語音到便攜式同傳設備,并通過揚聲器自動播放(延時<1s)。切換翻譯語言,完成無障礙雙語對話。如果需要可以按“人工連線”按鈕,通過客服人員的專業(yè)手機人工服務并在10秒內(nèi)反饋正確解釋。后臺自動存儲該筆數(shù)據(jù)。其中,“翻譯語言切換開關”和“按住說話開關”以靠近大多數(shù)人手指為準,便于操作;其他不常操作的按鈕,可以放在設備上部適當位置。便攜式同傳設備的寬度建議在4~5cm,以輕松單手握持為準,伸展后長度18cm以上,折疊后長度在10cm內(nèi),便于攜帶??膳浜现悄苁謾C,將便攜式同傳設備做成手機套形式?;蛘咴谄渌麍鼍白龀蓹C器人或者臺式機的模式(如餐廳、酒店、購物場所等),外觀設計可多樣化。而且,通過人工按鈕衍生出問答和遞交旅游各個典型場景服務的全方位智能機,為用戶實現(xiàn)境外打的、交通、購物、住宿等全方位線下服務。總之,打開電源開關動連網(wǎng);選擇語言按住說話,放到說話者近前;說話完成,松開“按住說話”按鈕;設備把自動翻譯成對方語言并播放;如果用戶需要,可按“人工連線”進行智能三方通話。后臺自動存儲該筆數(shù)據(jù)。針對美國市場,地下按鈕中文和英語語音可以實現(xiàn)切換,消費者在吵雜環(huán)境可以文字輸入同傳翻譯出語音和文字。如果翻譯不準確,消費者按人工糾錯按鈕。專業(yè)同傳翻譯后,將把正確的重新發(fā)布。系統(tǒng)紀錄人工信息并學習。消費者可把自己想去的店輸入系統(tǒng)。下面描述云端如何實現(xiàn)具體翻譯。本實用新型中,基于計算機語意識別能力的核心技術,云端能夠幫助計算機更加智能地識別信息背后的準確含義。通過將信息進行深層、多層次分析,不但了解了其代碼,還識別了信息所要表達的意圖,使計算機更智能、更人性化地與人類溝通。優(yōu)選地,云端主要運用了分析語言線性結構+關鍵詞(即語塊)的技術手段,從語言的線性結構和關鍵詞中精確地提煉出信息的真正意圖。一個待分析的語句包括線性結構和關鍵詞(即語塊)。其中,語意識別的關鍵在于識別出語句的線性結構。語言的意義隱藏在語句的線性結構當中,語句的線性結構相當于語言的常量。語意乃至意義和思維都隱藏在語句的線性結構中的,通過分析語句的線性結構,可達到識別意圖的目的。關鍵詞相當于語言的變量。通過替換相應部分(即變量),其語意基本均可保留,能得到較為準確的檢索或翻譯結果。而且,雙語、單語均可利用結構分析來精確識別語意。通過對浩如煙海的文獻資料逐句進行線性結構+關鍵詞分析,我們可以獲得充分的語句線性結構和關鍵詞(即語塊)。舉例說明:1、鄉(xiāng)村旅游作為中國旅游業(yè)的重要組成部分和促進旅游業(yè)發(fā)展的重要支撐。(示例1)2、中國經(jīng)濟作為世界經(jīng)濟的重要組成部分和促進全球金融穩(wěn)定的重要支撐。(示例2)通過分析上面兩個例子,可以發(fā)現(xiàn):“鄉(xiāng)村旅游”、“中國旅游業(yè)”和“旅游業(yè)發(fā)展”相當于示例1的變量,因為通過替換相應部分(即變量),其語意基本均可保留。而“x作為x的重要組成部分和促進x的重要支撐”(其中x表示空白)相當于示例1的線性結構,也就是語言的常量,因為語言的意義隱藏在該線性結構當中。類似地,“中國經(jīng)濟”、“世界經(jīng)濟”、“全球金融穩(wěn)定”相當于示例2的變量,因為通過替換相應部分(即變量),其語意基本均可保留。而“x作為x的重要組成部分和促進x的重要支撐”(其中x表示空白)相當于示例2的線性結構,也就是語言的常量,因為語言的意義隱藏在該線性結構當中??梢园l(fā)現(xiàn),這兩個示例的線性結構完全相同,區(qū)別僅僅在于變量不同。可以將“x作為x的重要組成部分和促進x的重要支撐”(其中x表示空白)定義為一種線性結構,而“鄉(xiāng)村旅游”、“中國旅游業(yè)”、“旅游業(yè)發(fā)展”、“中國經(jīng)濟”、“世界經(jīng)濟”和“全球金融穩(wěn)定”定義為關鍵詞(即語塊)。其中,我們可以將一些常用的固有名詞和/或動名詞確定為常量,但是變量并不局限于固有名詞和/或動名詞。在某些情況下,變量也可以是一種常用的短語,甚至比較長的句子。另外,在確定常量和線性結構時,劃分方式可能并不是唯一的。對于變量最少的劃分方式,其所對應的線性結構稱為最小線性結構。一般地,變量越少,可以認為所對應的線性結構所表達的信息越充分,則對應搜索的信息越精確。再舉例說明:1、阿凡達熱潮席卷中國。(示例3)2、炒股熱潮席卷世界。(示例4)通過分析上面兩個例子,可以發(fā)現(xiàn),“阿凡達”和“中國”相當于示例3的變量,因為通過替換相應部分(即變量),其語意基本均可保留。而“x熱潮席卷x”(其中x表示空白)相當于示例3的線性結構,也就是語言的常量,因為語言的意義隱藏在該線性結構當中。類似地,“炒股”和“世界”相當于示例4的變量,因為通過替換相應部分(即變量),其語意基本均可保留。而“x熱潮席卷x”(其中x表示空白)相當于示例4的線性結構,也就是語言的常量,因為語言的意義隱藏在該線性結構當中。可以發(fā)現(xiàn),這兩個示例的線性結構相同,區(qū)別僅僅在于變量不同??梢詫ⅰ皒熱潮席卷x”(其中x表示空白)定義為一種線性結構,而“阿凡達”、“中國”、“炒股”和“世界”定義為關鍵詞(即語塊)。再次舉例說明:1、他們呼吁歐委會客觀、公正地對待中國企業(yè)的市場經(jīng)濟待遇申請。(示例5)2、國際足聯(lián)呼吁愛爾蘭客觀、公正地對待世界杯預選賽與法國隊的比賽結果。(示例6)3、國際社會呼吁六方會談客觀、公正地對待朝鮮問題。(示例7)4、中國呼吁日本政府客觀、公正地對待二戰(zhàn)歷史問題。(示例8)通過分析上面四個例子,可以發(fā)現(xiàn):“他們”、“歐委會”和“中國企業(yè)的市場經(jīng)濟待遇申請”相當于示例5的變量,因為通過替換相應部分(即變量),其語意基本均可保留。而“x呼吁x客觀、公正地對待x”(其中x表示空白)相當于示例5的線性結構,也就是語言的常量,因為語言的意義隱藏在該線性結構當中。類似地,“國際足聯(lián)”、“愛爾蘭”和“世界杯預選賽與法國隊的比賽結果”相當于示例6的變量,因為通過替換相應部分(即變量),其語意基本均可保留。而“x呼吁x客觀、公正地對待x”(其中x表示空白)相當于示例6的線性結構,也就是語言的常量,因為語言的意義隱藏在該線性結構當中。類似地,“國際社會”、“六方會談”和“朝鮮問題”相當于示例6的變量,因為通過替換相應部分(即變量),其語意基本均可保留。而“x呼吁x客觀、公正地對待x”(其中x表示空白)相當于示例6的線性結構,也就是語言的常量,因為語言的意義隱藏在該線性結構當中。類似地,“中國”、“日本政府”和“二戰(zhàn)歷史問題”相當于示例7的變量,因為通過替換相應部分(即變量),其語意基本均可保留。而“x呼吁x客觀、公正地對待x”(其中x表示空白)相當于示例7的線性結構,也就是語言的常量,因為語言的意義隱藏在該線性結構當中??梢园l(fā)現(xiàn),這四個示例的線性結構相同,區(qū)別僅僅在于變量不同??梢詫ⅰ皒呼吁x客觀、公正地對待x”(其中x表示空白)”定義為一種線性結構,而“他們”、“歐委會”、“中國企業(yè)的市場經(jīng)濟待遇申請”、“國際足聯(lián)”、“愛爾蘭”、“世界杯預選賽與法國隊的比賽結果”、“國際社會”、“六方會談”、“朝鮮問題”、“中國”、“日本政府”和“二戰(zhàn)歷史問題”定義為關鍵詞(即語塊)?;谏鲜龇治?,通過對大量文獻(包括網(wǎng)絡文章、博客、教科書、各種電子文檔等)進行上述切分,我們就可以得到充分的線性結構庫和關鍵詞(即語塊)庫。下面再詳細描述云端基于語意識別的翻譯方法。首先:將篇章級的詞語利用符號切分為字符串,并從切出的字符串中提取出語言線性結構和語塊。在這里,首先將篇章級的詞語(比如,一篇文章或者一篇社論)利用符號切分為若干個字符串,并從切出的字符串中依次提取出語言線性結構和語塊(具體的提取步驟可以參照前述示例分析)。此處“篇章級”并不意味著對詞語的數(shù)目有任何特定的限定。實質(zhì)上,只要有一些詞匯,并且這些詞匯之間所組成的語句具有意義,就可以認為這些詞匯構成了“篇章級”。更具體地,可以根據(jù)句號、問號、嘆號、逗號、頓號、分號、冒號、引號、括號、破折號、省略號、著重號、連接號、間隔號、書名號、專名號、注釋號、隱諱號、虛缺號、斜線號、標識號、代替號、連珠號和/或箭頭號等標點符號,將篇章級的詞語切分為字符串。比如,可以將任意的兩個標點符號之間的文字提取為字符串(對于文章的起始,只需要一個標點符號)。在確定關鍵字(語塊)時,我們可以使用一個基于篇章的局部子串統(tǒng)計表(hashtable)作為臨時輔助詞典。也就是說,如果出現(xiàn)在臨時輔助詞典中,我們就可以將其確定為語塊。不過,某些沒有出現(xiàn)在局部子串統(tǒng)計表中的,也可以將其確定為語塊。還可以用基于多路徑規(guī)劃的切分路徑樹作為切分模型,首先將英文(ASCII)、簡體中文(GBK/GB18030)、繁體中文(臺灣BIG5、香港BIG5-HKSCS)等字符編碼統(tǒng)一轉換為UTF-8編碼格式之后再進行切分,并在多個正確切分結果的基礎上提取語塊。提取完語塊之后,剩余的部分就是線性結構。然后:分別對提取出的語言線性結構以及語塊進行倒排。在這里,倒排具體包括:對于每個合格的語塊,將該語塊所在的文檔號、段落號、句子號、詞序號、以及HTML信息等壓縮為一個結構,放入該語塊所在的動態(tài)文件中;其中語塊可以為任意的字符串,主要包括如下類別:詞典詞條、專名、專名的內(nèi)部詞匯、各類詞組/搭配關系、n-grams、連續(xù)的stopwords、詞+數(shù)字、任意的ASCII串、郵編與電話號碼等。而對于每個合格的語言線性結構,可以將該語言線性結構所在的文檔號、段落號、句子號、詞序號、以及HTML信息等壓縮為一個結構,放入該語塊所在的動態(tài)文件中。接著:創(chuàng)建語言線性結構子索引以及語塊子索引,并將語言線性結構子索引和語塊子索引予以合并,以形成整體索引。在這里,將內(nèi)存中的全部語塊索引項(indexterms)寫入語塊詞匯表(vocabulary)文件,將invertedhits合并后寫入inv_lists文件,并將二者之間的關聯(lián)信息寫入詞典(dictionary)文件。這三個文件構成一個完整、獨立的索引段(indexrun),即語塊子索引。而且,將內(nèi)存中的全部線性結構索引項(indexterms)寫入線性結構詞匯表(vocabulary)文件,將invertedhits合并后寫入inv_lists文件,并將二者之間的關聯(lián)信息寫入線性結構詞典(dictionary)文件。這三個文件構成一個完整、獨立的索引段(indexrun),即線性結構子索引。最后,將語言線性結構子索引和語塊子索引予以合并,以形成整體索引。最后:從用戶的檢索輸入字符串中提取出語言線性結構和語塊,并根據(jù)所述的整體索引向用戶反饋與從用戶的檢索輸入中提取出的語言線性結構和語塊相匹配的信息。在這里,首先從用戶的檢索輸入字符串中提取出線性結構和語塊。比如,假如用戶輸入“我很喜歡吃煙臺產(chǎn)的大蘋果?!眲t提取出語塊“我”、“煙臺產(chǎn)的大蘋果”,以及線性結構x很喜歡吃x(其中x為空白),然后在整體索引中檢索出匹配線性結構“x很喜歡吃x”,以及語塊“我”、“煙臺產(chǎn)的大蘋果”的信息,并且按照匹配程度由高到低的順序向用戶呈現(xiàn)。在一個實施方式中,當從所述用戶的檢索輸入中提取出的語言線性結構與整體索引中的語言線性結構的重復字數(shù)越多時,可以認為這種匹配程度越高。在一個實施方式中,還可以預先設置語言線性結構重復權重和語塊重復權重;基于所述語言線性結構重復權重計算從所述用戶的檢索輸入中提取出的語言線性結構與整體索引中的語言線性結構的第一重疊指數(shù),并基于語塊重復權重計算從所述用戶的檢索輸入中提取出的語塊與整體索引中的語塊的第二重疊指數(shù);當所述第一重疊指數(shù)與第二重疊指數(shù)的和越高,所述匹配程度越高。其中,向用戶反饋與從用戶的檢索輸入中提取出的語言線性結構和語塊相匹配的信息具體可以包括:在所述整體索引中分別檢索該輸入字符串的語言線性結構和語塊,以確定整體索引中與該輸入字符串的語言線性結構相對應的語言線性結構,以及確定整體索引中與該輸入字符串的語塊相對應的語塊;向用戶反饋整體索引中該相對應的語言線性結構和該相對應的語塊所涉及的信息??梢詫⒈景l(fā)明的流程應用于多種具體的實際應用中,比如信息檢索以及多語言翻譯。當應用于多語言翻譯時,假設用戶的檢索輸入字符串為用第一語言表述的檢索輸入字符串。此時,從用戶的檢索輸入字符串中提取出該輸入字符串用第一語言表述的語言線性結構和語塊;然后再確定與該用第一語言表述的語言線性結構和語塊相對應的用第二語言表述的語言線性結構和語塊;根據(jù)所述的整體索引向用戶反饋與用第二語言表述的語言線性結構和語塊相匹配且同樣用第二語言表述的信息。其中,第一語言可以為中文,第二語言為英文、日文、韓文、阿拉伯文、西班牙文、葡萄牙文、法文或俄羅斯文,等等。可選的,第一語言為英文、日文、韓文、阿拉伯文、西班牙文、葡萄牙文、法文或俄羅斯文,第二語言為中文等。舉例:用戶期望將中文“我要去上?!狈g成英文。此時,用戶輸入的檢索輸入字符串為“我要去上?!保⒂弥形谋硎?。首先,從用戶的檢索輸入字符串中提取出該輸入字符串用中文表述的語言線性結構(即:x要去x,其中x為空白)和中文表述的語塊(我,上海);然后再確定與該用中文表述的語言線性結構相對應的用英語表述的語言線性結構(即xwanttogoto),以及確定與該用中文表述的語塊相對應的用英語表述的語塊(即I,Shanghai)。最后,將語塊和線性結構組合成翻譯的語句IwanttogotoShanghai,并呈現(xiàn)給用戶。進一步地,還可以再根據(jù)整體索引向用戶反饋與線性結構(xwanttogoto)語塊(I,Shanghai)相匹配且用第二語言表述的信息,從而便于用戶檢索與IwanttogotoShanghai相關的英文信息。在上述過程中,示范性地應用了一種高性能的單遍內(nèi)存倒排算法,而不生成任何臨時磁盤文件。因此,在導出內(nèi)存內(nèi)容之前,除了MAP數(shù)據(jù),系統(tǒng)沒有任何文件I/O開銷。同時,它也不需要對indexterms編號,并且不對indexterm(編號或者內(nèi)存字符串指針)做任何排序運算。另外,該方法使用所有可用的空閑物理內(nèi)存進行倒排。這些性質(zhì)保證了這個倒排方法可具有非凡的時空效率,可支持一系列高效的動態(tài)索引合并和索引更新的方法。同時,具備該特性的倒排索引還完全適用于分布式處理。在上述過程中,另一個關鍵特征是其查找數(shù)據(jù)結構具備caching功能,這個特性可支持幾乎任意大的索引詞表(即vocabulary文件)。vocabulary文件本身是放在磁盤上,能夠保存的索引項的數(shù)目不受限制(在64-bit文件系統(tǒng)上),可多達數(shù)億條。通過caching功能,該算法可以在4~6GB內(nèi)存的x64服務器上達到與包括多臺同等或更高配置的服務器的集群查詢系統(tǒng)相近的索引詞表查詢性能。而且,indexterms可以為任意的字符串,主要包括如下類別(termcategories):詞典詞條、專名、專名的內(nèi)部詞匯、各類詞組/搭配關系、n-grams、連續(xù)的stopwords、詞+數(shù)字、任意的ASCII串、郵編與電話號碼等?;谏鲜鲈敿氄f明,本發(fā)明實施方式還提出了一種基于語意識別的自然語言處理系統(tǒng)。圖3為本實用新型的便攜式同傳系統(tǒng)結構圖。如圖3所示,該系統(tǒng)包括信息收集裝置301、資料存儲裝置302、自然語言處理裝置303、索引存儲裝置304和檢索服務裝置305。其中:信息收集裝置301,用于對互聯(lián)網(wǎng)進行掃描檢測,爬取互聯(lián)網(wǎng)上的信息;資料存儲裝置302,用于存儲由信息收集裝置爬取到的互聯(lián)網(wǎng)信息,并優(yōu)選提供互聯(lián)網(wǎng)信息的快速定位查找;自然語言處理裝置303,用于利用符號對存儲于資料存儲裝置302中的篇章級的詞語,切分為字符串,并從切出的字符串中提取出語言線性結構和語塊;并分別對提取出的語言線性結構以及語塊進行倒排;以及用于創(chuàng)建語言線性結構子索引以及語塊子索引,并將語言線性結構子索引和語塊子索引予以合并,以形成整體索引;索引存儲裝置304,用于存儲由自然語言處理裝置303生成的整體索引;檢索服務裝置305,用于將如圖1所示的麥克風提供的待翻譯的語音數(shù)據(jù)轉換為檢索輸入字符串,并從檢索輸入字符串中提取出語言線性結構和語塊,并根據(jù)索引存儲裝置存儲的所述的整體索引向用戶反饋與從用戶的檢索輸入中提取出的語言線性結構和語塊相匹配的信息。其中,信息收集裝置301進一步可以接受報刊、廣電和各個媒體會員等所提供的上傳信息(比如新聞資源)服務。而且,檢索服務裝置305可以針對普通用戶免費查詢新聞,以及針對專業(yè)用戶注冊并付費之后開通高端服務。優(yōu)選地,自然語言處理裝置303,用于根據(jù)句號、問號、嘆號、逗號、頓號、分號、冒號、引號、括號、破折號、省略號、著重號、連接號、間隔號、書名號、專名號、注釋號、隱諱號、虛缺號、斜線號、標識號、代替號、連珠號和箭頭號,將所述篇章級的詞語切分為字符串。優(yōu)選地,自然語言處理裝置303,用于使用基于篇章的局部子串統(tǒng)計表作為臨時輔助詞典,用基于多路徑規(guī)劃的切分路徑樹作為切分模型,將所述篇章級的詞的等字符編碼統(tǒng)一轉換為UTF-8編碼格式;并對轉換為UTF-8編碼格式后的篇章級的詞語利用符號切分為字符串。而且,檢索服務裝置305,可以用于依據(jù)匹配程度由高到低的順序,向用戶反饋與從用戶的檢索輸入中提取出的語言線性結構和語塊相匹配的信息。在一個實施方式中,檢索服務裝置305,用于依據(jù)語言線性結構和語塊的匹配程度由高到低的順序,向用戶反饋與從用戶的檢索輸入中提取出的語言線性結構和語塊相匹配的信息。其中,優(yōu)選地,當從所述用戶的檢索輸入中提取出的語言線性結構與整體索引中的語言線性結構的重復字數(shù)越多時,所述匹配程度越高。在一個實施方式中,檢索服務裝置305,進一步用于預先設置語言線性結構重復權重和語塊重復權重;并基于所述語言線性結構重復權重計算從所述用戶的檢索輸入中提取出的語言線性結構與整體索引中的語言線性結構的第一重疊指數(shù),并基于語塊重復權重計算從所述用戶的檢索輸入中提取出的語塊與整體索引中的語塊的第二重疊指數(shù);其中當所述第一重疊指數(shù)與第二重疊指數(shù)的和越高,所述匹配程度越高。在一個實施方式中,檢索服務裝置305,用于在所述整體索引中分別檢索該輸入字符串的語言線性結構和語塊,以確定整體索引中與該輸入字符串的語言線性結構相對應的語言線性結構,以及確定整體索引中與該輸入字符串的語塊相對應的語塊;向用戶反饋整體索引中該相對應的語言線性結構和該相對應的語塊所涉及的信息。在一個實施方式中,檢索服務裝置305,用于從用戶的檢索輸入字符串中提取出該輸入字符串用第一語言表述的語言線性結構和語塊;確定與該用第一語言表述的語言線性結構和語塊相對應的用第二語言表述的語言線性結構和語塊;根據(jù)所述的整體索引向用戶反饋與用第二語言表述的語言線性結構和語塊相匹配且同樣用第二語言表述的信息。可選地,第一語言為英文、日文、韓文、阿拉伯文、西班牙文、葡萄牙文、法文或俄羅斯文等,第二語言為中文。第一語言還可以為中文,第二語言為英文、日文、韓文、阿拉伯文、西班牙文、葡萄牙文、法文或俄羅斯文,等。綜上所述,語言設置單元,用于設置源語言類型和目標語言類型;語音采集單元,用于采集待翻譯的源語言語音數(shù)據(jù);通信單元,用于將所述待翻譯的源語言語音數(shù)據(jù)和所述目標語言類型傳輸?shù)皆贫?,并從所述云端接收基于所述待翻譯的源語言語音數(shù)據(jù)被翻譯成符合所述目標語言類型的云端文本翻譯數(shù)據(jù),或從所述云端接收基于所述待翻譯的源語言語音數(shù)據(jù)被翻譯成符合所述目標語言類型的云端語音翻譯數(shù)據(jù);呈現(xiàn)單元,用于展示所述云端文本翻譯數(shù)據(jù),或播放所述云端語音翻譯數(shù)據(jù)。因此,通過便攜式的同傳設備可以實現(xiàn)語音翻譯,可以顯著降低成本。而且,同傳設備中還可以包含無線網(wǎng)絡接入單元,便于用戶上網(wǎng)。而且,同傳設備還可以接收各種信息,并且可以監(jiān)控位置。在不能聯(lián)網(wǎng)的情況下,同傳設備仍然可以提供預存的常用語音數(shù)據(jù),從而便于用戶使用。以上所述,僅為本實用新型的較佳實施例而已,并非用于限定本實用新型的保護范圍。凡在本實用新型的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本實用新型的保護范圍之內(nèi)。當前第1頁1 2 3 當前第1頁1 2 3 
      當前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1