国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種精準(zhǔn)完成連續(xù)自然語音文本化的處理系統(tǒng)及方法

      文檔序號(hào):8943028閱讀:238來源:國知局
      一種精準(zhǔn)完成連續(xù)自然語音文本化的處理系統(tǒng)及方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明屬于語音文本化技術(shù)領(lǐng)域,具體涉及一種精準(zhǔn)完成連續(xù)自然語音文本化的處理系統(tǒng)及方法。
      【背景技術(shù)】
      [0002]隨著信息處理技術(shù)的不斷發(fā)展,以自然語言進(jìn)行人機(jī)交互成為現(xiàn)實(shí)。實(shí)現(xiàn)人機(jī)交互的關(guān)鍵是要準(zhǔn)確理解用戶發(fā)出或獲得的自然語言指令并進(jìn)行相應(yīng)的操作。用戶在發(fā)出或獲得自然語言指令后,該指令被轉(zhuǎn)換為語音文本。在我國100多年以來,如何將連續(xù)的自然語音實(shí)時(shí)轉(zhuǎn)換成文字的速記,一直成為人們不斷探索和研究的問題。
      目前的速記主要的載體為計(jì)算機(jī),然而計(jì)算機(jī)速記經(jīng)過多年的實(shí)踐證明:目前速記社會(huì)化服務(wù)模式不能滿足市場深層次的需求。
      傳統(tǒng)速記,如手寫速記、專業(yè)速記機(jī)、普通計(jì)算機(jī)鍵盤速記都存在著:培訓(xùn)周期長、成才率低,不易普及。速記員工作時(shí)高度緊張、勞動(dòng)強(qiáng)度大。大多數(shù)速記員也不可能具有各專業(yè)領(lǐng)域的基礎(chǔ)知識(shí),難以滿足不同行業(yè)速記工作的需要,工作質(zhì)量難以保證等諸多問題。
      因此,需要設(shè)計(jì)并實(shí)現(xiàn)一種通過語音識(shí)別技術(shù)為主體的語音文本化工作平臺(tái),來替代以人工鍵盤技術(shù)為主的傳統(tǒng)速記。將速記社會(huì)化服務(wù)的模式轉(zhuǎn)化為本單位自我服務(wù)的模式,讓本專業(yè)高素質(zhì)的人才不需要進(jìn)行高強(qiáng)度、長時(shí)間的專業(yè)速記培訓(xùn),就可以完成本單位、本專業(yè)將語音轉(zhuǎn)化為文字的工作。
      本系統(tǒng)正是出于上述諸方面的考慮,建立以語音識(shí)別技術(shù)為主體的語音文本化工作平臺(tái),從而實(shí)現(xiàn)降低速記人員的勞動(dòng)強(qiáng)度、提高工作質(zhì)量,并實(shí)現(xiàn)傳統(tǒng)的速記工作從專業(yè)速記員的速記服務(wù)向單位內(nèi)部各類人員自我服務(wù)的過度,這是市場深度發(fā)展的需求。
      在以人工鍵盤技術(shù)為主的傳統(tǒng)計(jì)算機(jī)速記存在上述缺陷的情況下,語音識(shí)別凸顯了它的優(yōu)勢。以計(jì)算機(jī)語音識(shí)別為主體的新技術(shù)取代以人工技能為主體的專業(yè)速記機(jī)或計(jì)算機(jī)鍵盤速記是計(jì)算機(jī)科學(xué)技術(shù)發(fā)展的必然。
      [0003]對(duì)漢語語音,在比較好的普通話、清晰發(fā)音的條件下,目前我國的漢語語音識(shí)別率可以達(dá)到90%或更高的水平。同時(shí)語音識(shí)別也存在以下缺陷:
      漢語語音識(shí)別發(fā)展到今天,仍然面臨著很多挑戰(zhàn),語音識(shí)別的準(zhǔn)確率受到各種因素的制約。
      (1)漢語同音字詞的問題非常嚴(yán)重
      漢字是非常古老原始的文字,漢語使用不拼音的漢字作為記錄語音的文字。漢語同音字詞的問題非常嚴(yán)重。
      (2)漢語語音地方方言語系繁多
      在漢族中,因方言不同,而分為八大民系。即北方語、了相語、吳語、贛語、粵語(廣府語),微語、閩南語(包括閩南、海南、潮州、雷州四種方語)閩北語和客家語八大方言語系。
      目前,漢語語音識(shí)別基本上局限于比較清晰的漢語普通話。地方方言和地方語調(diào)普通話的語音識(shí)別,達(dá)到實(shí)際應(yīng)用水平,尚需時(shí)日。當(dāng)前這個(gè)問題的解決,可以依靠同聲傳譯,由聽懂方言的人跟讀轉(zhuǎn)為系統(tǒng)能夠識(shí)別的普通話。
      (3)普通話的水平因人而異,語音識(shí)別的正確率也因人而異,不是100%準(zhǔn)確。
      (4)錄音環(huán)境的影響,語音識(shí)別是對(duì)麥克風(fēng)人聲語音進(jìn)行識(shí)別,完成語音文本化的任務(wù)。伴隨人聲的背景噪音、傳輸設(shè)備的物理噪音、語音輸入音量的過強(qiáng)、過弱等都會(huì)影響語音識(shí)別的正確率。

      【發(fā)明內(nèi)容】

      [0004]為了有效解決上述問題,本發(fā)明提供一種精準(zhǔn)完成連續(xù)自然語音文本化的處理系統(tǒng)及方法。本發(fā)明所要解決的技術(shù)問題是:實(shí)時(shí)采集音視頻語音信息,建造了一個(gè)以語音識(shí)別技術(shù)為主體的語音文本化的工作平臺(tái),實(shí)現(xiàn)語音文本化100%的轉(zhuǎn)化率與99.7%以上的精準(zhǔn)率,實(shí)現(xiàn)精準(zhǔn)完成連續(xù)自然語音文本化的處理,并創(chuàng)建音頻、視頻、文字三維一體的電子集成文檔。
      [0005]本發(fā)明的具體技術(shù)方案如下:一種精確完成連續(xù)自然語音文本化的處理系統(tǒng),所述處理系統(tǒng)包括云端語音識(shí)別引擎及語音識(shí)別后修改平臺(tái),所述語音識(shí)別后修改平臺(tái)與所述云端語音識(shí)別引擎連接。
      [0006]進(jìn)一步地,所述語音識(shí)別后修改平臺(tái)包括顯示單元、修改操作單元、控制單元及三維一體生成單元;所述顯示單元、修改操作單元及三維一體生成單元均連接在所述控制單元上。
      [0007]進(jìn)一步地,所述三維一體生成單元生成語音、圖像和文字三維一體的電子集成文檔(即目標(biāo)文件),所述語音、圖像和文字一一對(duì)應(yīng)關(guān)聯(lián);
      [0008]所述顯示單元同時(shí)顯示包括操作工具欄、音頻波形圖、音頻信息及文字內(nèi)容列表及視頻播放框的音視頻文件圖像;
      [0009]所述修改操作單元包括語音修改、鍵盤修改、鼠標(biāo)修改及鍵盤加鼠標(biāo)的修改操作方式。
      [0010]進(jìn)一步地,所述控制單元包括音頻抽取模塊、分劃處理判斷模塊、轉(zhuǎn)換音頻波形圖模塊、三維一體關(guān)聯(lián)模塊、中央處理模塊;
      [0011]所述音頻抽取模塊、分劃處理判斷模塊、轉(zhuǎn)換音頻波形圖模塊、三維一體關(guān)聯(lián)模塊均連接在所述中央處理模塊上,所述中央處理模塊邏輯連接所述顯示單元,所述修改操作單元連接所述中央處理模塊上。
      [0012]進(jìn)一步地,所述云端語音識(shí)別引擎包括漢語語音分節(jié)處理模塊、漢語語音識(shí)別模塊。
      [0013]進(jìn)一步地,所述的漢語語音分節(jié)處理模塊將輸入的語音切分成小節(jié),使得切分點(diǎn)在語音的停頓處或一句話完結(jié)處,所述切分點(diǎn)為語音能量的低點(diǎn),漢語語音分節(jié)處理模塊輸出為針對(duì)輸入語音的分段時(shí)間信息。
      [0015]進(jìn)一步地,所述漢語語音識(shí)別模塊包括:漢語語音特征抽取單元、漢語語音到文字轉(zhuǎn)換識(shí)別單元、漢語語音文字關(guān)聯(lián)信息單元、漢語強(qiáng)制切分單元、漢語拼音標(biāo)注單元、漢語日常詞匯單元、漢語聲學(xué)模型單元、漢語語言模型單元及新詞自適應(yīng)識(shí)別單元;
      [0016]漢語語音特征抽取單元:輸入的為經(jīng)過麥克風(fēng)USB聲卡錄制的16K采樣,PCM線性16位的分段后的漢語語音數(shù)據(jù),輸出的為針對(duì)輸入分段語音的美爾倒譜特征;
      [0017]漢語語音到文字轉(zhuǎn)換識(shí)別核心單元:輸入的為被識(shí)別經(jīng)過麥克風(fēng)USB聲卡錄制的16K采樣,PCM線性16位語音美爾倒譜特征,輸出為本段語音的文字內(nèi)容;
      [0018]漢語語音、文字、圖像關(guān)聯(lián)信息單元:對(duì)于識(shí)別模塊輸出的文字和原始的經(jīng)過麥克風(fēng)USB聲卡錄制的16K采樣,PCM線性16位語音及同步采集的圖像建立時(shí)間對(duì)應(yīng)關(guān)系;
      [0019]漢語強(qiáng)制切分單元:輸入為經(jīng)過麥克風(fēng)USB聲卡錄制的16K采樣,PCM線性16位語音和該段語音被識(shí)別的標(biāo)準(zhǔn)文字答案,輸出文字和語音的時(shí)間對(duì)應(yīng)的信息;
      [0020]漢語拼音標(biāo)注單元:為用戶輸入的文字按照語言模型的要求進(jìn)行拼音的標(biāo)注,以備語言模型識(shí)別;
      [0021]漢語日常詞匯單元:該單元為標(biāo)準(zhǔn)漢語拼音標(biāo)注使用,及為語言模型提供引導(dǎo)知識(shí);
      [0022]漢語聲學(xué)模型單元:該模型單元為語音識(shí)別引擎提供聲學(xué)指導(dǎo)知識(shí);
      [0023]漢語語言模型單元:該模型為語音識(shí)別引擎提供語言指導(dǎo)知識(shí);
      [0024]新詞自適應(yīng)識(shí)別單元:對(duì)加入的新詞重新生成語言模型,對(duì)于系統(tǒng)用計(jì)算機(jī)進(jìn)行文本輸入第一次出現(xiàn)的專業(yè)詞語的文本和拼音,以后語音中再出現(xiàn)該詞語,系統(tǒng)就能夠識(shí)別出來。
      [0025]—種精確完成連續(xù)自然語音文本化的方法,應(yīng)用上述的處理系統(tǒng),所述方法包括以下步驟:
      A、通過現(xiàn)場音視頻信息采集系統(tǒng)或已經(jīng)完成采集的音視頻文件獲得音視頻流或音視頻文件;
      B、將音視頻流或者音視頻文件進(jìn)行預(yù)處理;
      C、將預(yù)處理后的音視頻流或音視頻文件上傳至云端語音識(shí)別引擎中進(jìn)行切分并識(shí)別;
      D、云端語音識(shí)別引擎反饋切分及識(shí)別結(jié)果;
      E、對(duì)云端語音識(shí)別引擎反饋的切分點(diǎn)進(jìn)行調(diào)整;
      F、對(duì)調(diào)整切分點(diǎn)后的語音文本進(jìn)行修改,修改方式包括:通過人工跟讀進(jìn)行再次語音識(shí)別、直接進(jìn)行再次語音識(shí)別及鍵盤修改;
      G、對(duì)上述修改后的語音文本進(jìn)行基礎(chǔ)校對(duì);
      H、基礎(chǔ)校對(duì)完成后,繼續(xù)進(jìn)行全文校對(duì);
      1、全文校對(duì)完成后,進(jìn)行編輯、排版;
      J、生成目標(biāo)文件并存儲(chǔ)。
      [0026]進(jìn)一步地,步驟A中的所述現(xiàn)場音視頻信息采集系統(tǒng)包括連接到計(jì)算機(jī)的音視頻輸入設(shè)備,所述音頻輸入實(shí)施現(xiàn)場進(jìn)行音視頻語音信息的采集,然后傳送給處理系統(tǒng),實(shí)時(shí)進(jìn)行文本化處理;
      [0027]現(xiàn)場音視頻信息采集包括本地采集和異地遠(yuǎn)程采集兩種模式,所述本地采集和異地遠(yuǎn)程采集兩種模式的采集方式均包括文件采集方式和流媒體采集方式;
      [0028]1、文件采集方式
      il:首先開始,初始化音頻視頻采集設(shè)備,通過語音采集設(shè)備麥克風(fēng)與視頻采集設(shè)備攝像機(jī)自動(dòng)采集音視頻圖像和語音;
      ?2:任意設(shè)定采集時(shí)長,系統(tǒng)自動(dòng)按設(shè)定的時(shí)長保存成一個(gè)片段文件,自動(dòng)上傳給處理系統(tǒng);
      i3:也可以用人工控制開始采集和結(jié)束采集,還可以把人工控制與自動(dòng)控制相結(jié)合的方式完成片段音視頻文件的采集;
      i4:人工開始采集時(shí)可輸入文件前綴,在自動(dòng)采集過程中生成的片段文件的前綴保持不變,人工結(jié)束采集,再次開始采集時(shí)再次輸入新的前綴;
      ?5:采集的片段文件可按照前綴自動(dòng)合并成一個(gè)文件;
      ?6:手動(dòng)任意選擇若干采集的片段文件合并成一個(gè)文件;
      ?7:系統(tǒng)自動(dòng)合并已處理完成的片段文件;
      [0029]i1、流媒體采集方式
      ? 1:通過語音采集設(shè)備麥克風(fēng)與視頻采集設(shè)備攝像機(jī)自動(dòng)采集音視頻圖像和語音; ii 2:實(shí)時(shí)將采集的音視頻流,上傳給處理
      當(dāng)前第1頁1 2 3 4 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1