一種語音信息處理方法及系統(tǒng)與流程

文檔序號(hào)：11178898閱讀：323來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語音識(shí)別技術(shù)領(lǐng)域，尤指一種語音信息處理方法及系統(tǒng)。

背景技術(shù)：

隨著通信技術(shù)的蓬勃發(fā)展，語音識(shí)別的應(yīng)用越來越廣泛，各種網(wǎng)絡(luò)通信工具如微信、騰訊qq等通信工具逐步成為大眾交流溝通的主要工具之一。其中，語音消息的操作簡(jiǎn)易性、便捷性廣受用戶喜愛。在目前的手機(jī)、電腦等智能終端中，可以通過通信工具提供語音輸入、輸出功能。

現(xiàn)有技術(shù)中，目前的語音識(shí)別的識(shí)別方案對(duì)于識(shí)別開始時(shí)間長(zhǎng)短沒有做出考慮，識(shí)別較短時(shí)用戶的等待時(shí)間將較長(zhǎng)，較長(zhǎng)時(shí)用戶的語音識(shí)別不僅等待時(shí)間更加漫長(zhǎng)而且識(shí)別不完整，嚴(yán)重影響用戶的使用需求。而且現(xiàn)有技術(shù)是語音錄制結(jié)束后，然后將錄音結(jié)果發(fā)送至語音識(shí)別模塊進(jìn)行語音識(shí)別，錄音時(shí)間加上識(shí)別時(shí)間，造成了不必要的等待時(shí)間，浪費(fèi)時(shí)間，影響用戶的使用體驗(yàn)。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明的目的是提供一種語音信息處理方法及系統(tǒng)，實(shí)現(xiàn)語音錄制過程中進(jìn)行語音識(shí)別，減少用戶等待語音錄制完成后。

本發(fā)明提供的技術(shù)方案如下：

一種語音信息處理方法，包括步驟：s100在用戶錄音過程中周期性采集并識(shí)別用戶的語音信息，得到語音識(shí)別片段；s200處理所述語音識(shí)別片段，得到語音識(shí)別結(jié)果。

本發(fā)明實(shí)現(xiàn)語音錄制過程中進(jìn)行語音識(shí)別，減少用戶需要在語音錄制完成后，才能夠進(jìn)行語音識(shí)別并輸出語音結(jié)果的等待時(shí)間，在不影響正常識(shí)別結(jié)果的同時(shí)縮短錄音時(shí)延，提高用戶使用體驗(yàn)。

進(jìn)一步的，所述步驟s100包括步驟：s110在用戶錄音過程中，根據(jù)所預(yù)設(shè)采集規(guī)則采集用戶的語音信息，獲得當(dāng)前語音片段；s120根據(jù)語音識(shí)別庫識(shí)別所述當(dāng)前語音片段，得到語音識(shí)別片段；s130獲取下一語音片段并執(zhí)行步驟s110-130，直至用戶結(jié)束錄音；其中，所述預(yù)設(shè)采集規(guī)則為根據(jù)時(shí)間間隔相等的采集方式。

進(jìn)一步的，s110還包括步驟：s111判斷所述當(dāng)前語音片段是否為空白語音片段；若是，執(zhí)行步驟s112；否則，執(zhí)行步驟s120；s112刪除所述當(dāng)前語音片段，并執(zhí)行步驟s130。

進(jìn)一步的，所述步驟s200包括步驟：s210按照采集的時(shí)間順序，將所述語音識(shí)別片段進(jìn)行排序整合，得到所述語音識(shí)別結(jié)果。

進(jìn)一步的，所述步驟s200還包括步驟：s220根據(jù)采集的時(shí)間順序，輸出所述語音識(shí)別片段，得到所述語音識(shí)別結(jié)果。

本發(fā)明還提供一種語音信息處理系統(tǒng)，包括：控制模塊和處理模塊；所述處理模塊與所述控制模塊通信連接；所述控制模塊，在用戶錄音過程中周期性采集并識(shí)別用戶的語音信息，得到語音識(shí)別片段；所述處理模塊，處理所述控制模塊識(shí)別得到的所述語音識(shí)別片段，得到語音識(shí)別結(jié)果。

進(jìn)一步的，所述控制模塊包括：采集子模塊和識(shí)別子模塊；所述采集子模塊與所述識(shí)別子模塊通信連接；所述采集子模塊，在用戶錄音過程中，根據(jù)預(yù)設(shè)采集規(guī)則采集用戶的語音信息，獲得當(dāng)前語音片段，發(fā)送所述當(dāng)前語音片段至所述識(shí)別子模塊；所述識(shí)別子模塊，接收所述采集子模塊發(fā)送的所述當(dāng)前語音片段，根據(jù)語音識(shí)別庫識(shí)別所述當(dāng)前語音片段，得到語音識(shí)別片段；所述采集子模塊還獲取并發(fā)送下一語音片段至所述識(shí)別子模塊，直至用戶結(jié)束錄音；所述識(shí)別子模塊還接收所述采集子模塊發(fā)送的所述下一語音片段，根據(jù)語音識(shí)別庫識(shí)別所述下一語音片段，得到語音識(shí)別片段，直至用戶結(jié)束錄音；其中，所述預(yù)設(shè)采集規(guī)則為根據(jù)時(shí)間間隔相等的采集方式。

進(jìn)一步的，所述控制模塊還包括：判斷子模塊和刪除子模塊，所述判斷子模塊分別與所述采集子模塊、所述刪除子模塊和所述識(shí)別子模塊通信連接；所述判斷子模塊，判斷所述當(dāng)前語音片段是否為空白語音片段；若是，發(fā)送判斷所述當(dāng)前語音片段為空白語音片段的結(jié)果至所述刪除子模塊；否則，發(fā)送判斷所述當(dāng)前語音片段不為空白語音片段的結(jié)果至所述識(shí)別子模塊；所述刪除子模塊，接收所述判斷子模塊發(fā)送的判斷結(jié)果，刪除所述當(dāng)前語音片段。

進(jìn)一步的，所述處理模塊包括：排序子模塊；所述排序子模塊與所述控制模塊通信連接；所述排序子模塊，按照采集的時(shí)間順序，將所述語音識(shí)別片段進(jìn)行排序整合，得到所述語音識(shí)別結(jié)果。

進(jìn)一步的，所述處理模塊還包括：輸出子模塊，所述輸出子模塊與所述控制模塊通信連接；所述輸出子模塊，根據(jù)采集的時(shí)間順序，輸出所述語音識(shí)別片段，得到所述語音識(shí)別結(jié)果

通過本發(fā)明提供的一種語音信息處理方法及系統(tǒng)，能夠帶來以下至少一種有益效果：

1、本發(fā)明在錄音的過程中，采集錄音獲得的語音片段進(jìn)行語音識(shí)別，相比傳統(tǒng)語音識(shí)別方式，處理語音識(shí)別結(jié)果更快，減少用戶等待語音錄入和語音識(shí)別的時(shí)間。

2、本發(fā)明根據(jù)fifo隊(duì)列(fifo是firstinputfirstoutput的縮寫，先入先出隊(duì)列，這是一種傳統(tǒng)的按序執(zhí)行方法，先進(jìn)入的指令先完成并引退，跟著才執(zhí)行第二條指令。是一種先進(jìn)先出的數(shù)據(jù)緩存器)進(jìn)行獲取語音信息，并通過fifo隊(duì)列進(jìn)行語音識(shí)別，對(duì)于較長(zhǎng)時(shí)間的錄音過程不僅可以有效地減少語音錄音和語音識(shí)別的等待時(shí)間，也可以做出完整的語音識(shí)別。

3、本發(fā)明實(shí)現(xiàn)語音錄制過程中進(jìn)行語音識(shí)別，解決用戶需要在語音錄制完成后，才能夠進(jìn)行語音識(shí)別的問題。

4、本發(fā)明在不影響正常識(shí)別結(jié)果的同時(shí)縮短錄音時(shí)延，提高用戶使用體驗(yàn)。

5、本發(fā)明能夠刪除無效語音片段，幫助用戶更加快速地進(jìn)行語音識(shí)別。

附圖說明

下面將以明確易懂的方式，結(jié)合附圖說明優(yōu)選實(shí)施方式，對(duì)一種語音信息處理方法及系統(tǒng)的上述特性、技術(shù)特征、優(yōu)點(diǎn)及其實(shí)現(xiàn)方式予以進(jìn)一步說明。

圖1是本發(fā)明一種語音信息處理方法的一個(gè)實(shí)施例的流程圖；

圖2是本發(fā)明一種語音信息處理方法的另一個(gè)實(shí)施例的流程圖；

圖3是本發(fā)明一種語音信息處理方法的另一個(gè)實(shí)施例的流程圖；

圖4是本發(fā)明一種語音信息處理方法的另一個(gè)實(shí)施例的流程圖；

圖5是本發(fā)明一種語音信息處理系統(tǒng)的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖；

圖6是本發(fā)明一種語音信息處理系統(tǒng)的另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖；

圖7是本發(fā)明一種語音信息處理系統(tǒng)的另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖；

圖8是本發(fā)明一種語音信息處理系統(tǒng)的另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖；

圖9是本發(fā)明一種語音信息處理方法的一個(gè)實(shí)例的流程圖。

具體實(shí)施方式

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)照附圖說明本發(fā)明的具體實(shí)施方式。顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖，并獲得其他的實(shí)施方式。

為使圖面簡(jiǎn)潔，各圖中只示意性地表示出了與本發(fā)明相關(guān)的部分，它們并不代表其作為產(chǎn)品的實(shí)際結(jié)構(gòu)。另外，以使圖面簡(jiǎn)潔便于理解，在有些圖中具有相同結(jié)構(gòu)或功能的部件，僅示意性地繪示了其中的一個(gè)，或僅標(biāo)出了其中的一個(gè)。在本文中，“一個(gè)”不僅表示“僅此一個(gè)”，也可以表示“多于一個(gè)”的情形。

參考圖1所示，本發(fā)明提供一種語音信息處理方法的一個(gè)實(shí)施例，包括：

s110在用戶錄音過程中周期性采集并識(shí)別用戶的語音信息，得到語音識(shí)別片段；

s120處理所述語音識(shí)別片段，得到語音識(shí)別結(jié)果。

本發(fā)明實(shí)施例中，實(shí)現(xiàn)語音錄制過程中進(jìn)行語音識(shí)別，減少用戶需要在語音錄制完成后，才能夠進(jìn)行語音識(shí)別并輸出語音結(jié)果的等待時(shí)間，在不影響正常識(shí)別結(jié)果的同時(shí)縮短錄音時(shí)延，提高用戶使用體驗(yàn)。

參考圖2所示，本發(fā)明提供一種語音信息處理方法的另一個(gè)實(shí)施例，包括：

s210在用戶錄音過程中，根據(jù)所預(yù)設(shè)采集規(guī)則采集用戶的語音信息，獲得當(dāng)前語音片段；

s220根據(jù)語音識(shí)別庫識(shí)別所述當(dāng)前語音片段，得到語音識(shí)別片段；

s230獲取下一語音片段并執(zhí)行步驟s210-230，直至用戶結(jié)束錄音；

s240按照采集的時(shí)間順序，將所述語音識(shí)別片段進(jìn)行排序整合，得到所述語音識(shí)別結(jié)果。

其中，所述預(yù)設(shè)采集規(guī)則為根據(jù)時(shí)間間隔相等的采集方式。

本發(fā)明實(shí)施例中，具體的語音識(shí)別庫的建立，現(xiàn)有技術(shù)有很多，在此不細(xì)細(xì)說明。在錄音的過程中，采集錄音獲得的語音片段進(jìn)行語音識(shí)別，相比傳統(tǒng)語音識(shí)別方式，處理語音識(shí)別結(jié)果更快，減少用戶等待語音錄入和語音識(shí)別的時(shí)間。根據(jù)fifo隊(duì)列進(jìn)行獲取語音信息，并通過fifo隊(duì)列進(jìn)行語音識(shí)別，對(duì)于較短的錄音，語音識(shí)別模塊不需要等到達(dá)到語音識(shí)別時(shí)間開始后才能進(jìn)行語音識(shí)別，避免增加不必要的等待時(shí)間，對(duì)于較長(zhǎng)時(shí)間的錄音過程不僅可以有效地減少語音錄音和語音識(shí)別的等待時(shí)間，也可以做出完整的語音識(shí)別。用戶可以根據(jù)自己的喜好、需求來設(shè)置預(yù)設(shè)采集規(guī)則。避免造成了不必要的等待時(shí)間，節(jié)約時(shí)間提升用戶的使用體驗(yàn)。根據(jù)fifo隊(duì)列進(jìn)行獲取語音信息，并通過fifo隊(duì)列進(jìn)行語音識(shí)別，對(duì)于較長(zhǎng)時(shí)間的錄音過程不僅可以有效地減少語音錄音和語音識(shí)別的等待時(shí)間，也可以做出完整的語音識(shí)別。例如，用戶甲設(shè)置采集規(guī)則為在錄音過程中每1s進(jìn)行截取語音信息，那么用戶開始錄音后，根據(jù)用戶甲設(shè)置的采集規(guī)則采集得到第一個(gè)1s的語音片段y1，第二個(gè)1s的語音片段y2，……第n個(gè)1s的語音片段yn，那么在采集得到該語音片段y1后，通過語音識(shí)別模塊進(jìn)行語音識(shí)別，得到語音識(shí)別片段s1，得到該語音片段y2后，通過語音識(shí)別模塊進(jìn)行語音識(shí)別，得到語音識(shí)別片段s2，依次類推，在錄音的過程中，一旦采集獲得相應(yīng)的語音片段后就能立即進(jìn)行語音識(shí)別得到與之對(duì)應(yīng)的語音識(shí)別片段，將語音識(shí)別片段保存起來，按照獲取的時(shí)間先后順序進(jìn)行先后順序排列，然后在錄音結(jié)束后幾乎是立刻得到完整的語音識(shí)別結(jié)果，提升語音識(shí)別的效率。

本發(fā)明實(shí)施例中的技術(shù)能夠應(yīng)用在包括室內(nèi)設(shè)備控制，語音對(duì)話機(jī)器人等方面，通過語音錄制過程中邊錄音邊進(jìn)行語音識(shí)別的功能，解決用戶需要在語音錄制完成后，才能夠進(jìn)行語音識(shí)別的問題，而且在不影響正常識(shí)別結(jié)果的同時(shí)縮短錄音時(shí)延，并且用戶的語音命令迅速地轉(zhuǎn)化為語音識(shí)別命令輸入至智能家居設(shè)備、智能機(jī)器人，從而更加方便快捷地根據(jù)識(shí)別得到的語音識(shí)別命令控制智能家居設(shè)備、智能機(jī)器人，而不需要用戶用手來操作，語音操作相比手動(dòng)操作更加迅速，提高用戶使用體驗(yàn)。這樣就避免了例如淘寶等購物平臺(tái)，由于語音識(shí)別的效率低下而導(dǎo)致用戶偏好于轉(zhuǎn)接人工服務(wù)，提高語音識(shí)別的使用率，減少語音服務(wù)的資源浪費(fèi)，減少人工客戶的工作量，減少勞動(dòng)成本。本發(fā)明實(shí)施例還能應(yīng)用于語音檢索系統(tǒng)，例如百度語音搜索是一種全新的搜索模式，用戶可以使用語音說出搜索的意圖，例如說出“明天天氣如何”、“宮保雞丁的做法”等，用戶在說話的過程中，就能邊獲取用戶說話信息便進(jìn)行語音識(shí)別，本發(fā)明實(shí)施例能立刻得到想要的結(jié)果，輸出文字版本的“明天天氣如何”、“宮保雞丁的做法”等語音搜索讓用戶免去打字的繁瑣，使搜索的整個(gè)過程更流暢、更便捷。

參考圖3所示，本發(fā)明提供一種語音信息處理方法的另一個(gè)實(shí)施例，包括：

s310在用戶錄音過程中，根據(jù)所預(yù)設(shè)采集規(guī)則采集用戶的語音信息，獲得當(dāng)前語音片段；

s320根據(jù)語音識(shí)別庫識(shí)別所述當(dāng)前語音片段，得到語音識(shí)別片段；

s330根據(jù)采集的時(shí)間順序，輸出所述語音識(shí)別片段，得到所述語音識(shí)別結(jié)果；

s340獲取下一語音片段并執(zhí)行步驟s310-330，直至用戶結(jié)束錄音。

其中，所述預(yù)設(shè)采集規(guī)則為根據(jù)時(shí)間間隔相等的采集方式。

本發(fā)明實(shí)施例，在錄音的過程中，采集錄音獲得的語音片段進(jìn)行語音識(shí)別，處理語音識(shí)別快，減少用戶等待時(shí)間。根據(jù)fifo隊(duì)列進(jìn)行獲取語音信息，并通過fifo隊(duì)列進(jìn)行語音識(shí)別，對(duì)于較長(zhǎng)時(shí)間的錄音過程不僅可以有效地減少語音錄音和語音識(shí)別的等待時(shí)間，也可以做出完整的語音識(shí)別。例如一般的語音識(shí)別有效時(shí)間是30s，假如用戶乙一口氣說話錄音錄制了60s，由于錄制時(shí)間過長(zhǎng)，不僅導(dǎo)致錄音等待時(shí)間過長(zhǎng)，而且由于語音信息過長(zhǎng)，導(dǎo)致語音識(shí)別模塊不能完整地識(shí)別出用戶乙的錄音內(nèi)容。

本發(fā)明實(shí)施例還能夠應(yīng)用與語音撥號(hào)、語音導(dǎo)航、聽寫數(shù)據(jù)錄入等領(lǐng)域。例如，聽寫數(shù)據(jù)錄入過程中，用戶邊說話語音識(shí)別模塊就立刻在錄入欄中輸出用戶說話的內(nèi)容，具體的開始錄音后，根據(jù)用戶乙設(shè)置的采集規(guī)則采集得到第一個(gè)0.5s的語音片段x1，第二個(gè)0.5s的語音片段x2，……第n個(gè)0.5s的語音片段xn，那么在采集得到該語音片段x1后，通過語音識(shí)別模塊進(jìn)行語音識(shí)別，得到語音識(shí)別片段b1，依次類推。在錄音的過程中，一旦采集獲得相應(yīng)的語音片段后就能立即進(jìn)行語音識(shí)別得到與之對(duì)應(yīng)的語音識(shí)別片段，根據(jù)采集的時(shí)間順序，輸出所述語音識(shí)別片段，得到所述語音識(shí)別結(jié)果。如果用戶乙發(fā)現(xiàn)錄入欄的文字部分有哪些與自己說話的內(nèi)容不同的，還可以根據(jù)時(shí)間順序找出該錯(cuò)誤識(shí)別的部分，進(jìn)行重新識(shí)別。

參考圖4所示，本發(fā)明提供一種語音信息處理方法的另一個(gè)實(shí)施例，包括：

s410在用戶錄音過程中，根據(jù)所預(yù)設(shè)采集規(guī)則采集用戶的語音信息，獲得當(dāng)前語音片段；

s420判斷所述當(dāng)前語音片段是否為空白語音片段；若是，執(zhí)行步驟s430；否則，執(zhí)行步驟s440；

s430刪除所述當(dāng)前語音片段，并執(zhí)行步驟s450；

s440根據(jù)語音識(shí)別庫識(shí)別所述當(dāng)前語音片段，得到語音識(shí)別片段；

s450獲取下一語音片段并執(zhí)行步驟s410-s450，直至用戶結(jié)束錄音；

其中，所述預(yù)設(shè)采集規(guī)則為根據(jù)時(shí)間間隔相等的采集方式。

本發(fā)明實(shí)施例中，能夠刪除無效語音片段，幫助用戶更加快速地進(jìn)行語音識(shí)別。在語音識(shí)別之前的預(yù)處理過程中，根據(jù)用戶的說話過程中聲波變化頻率和聲波變化波動(dòng)等技術(shù)可以識(shí)別出用戶語音信息哪些部分為有效語音部分，哪些是無效語音部分，標(biāo)記用戶空白語音的時(shí)間點(diǎn)，并去掉無效語音部分信息即空白語音片段。例如假設(shè)用戶丙根據(jù)2s的采集規(guī)則進(jìn)行截取用戶語音信息，還假設(shè)用戶丙說話開始的時(shí)間點(diǎn)為14：30，用戶在14:33-14:36時(shí)間段沒有說話，即檢測(cè)到出現(xiàn)3s的靜音。那么根據(jù)本發(fā)明實(shí)施例采集規(guī)則，14:33-14:35這個(gè)截取的語音片段是空白的語音片段，將這個(gè)語音片段進(jìn)行標(biāo)記，此時(shí)，可以認(rèn)為該初始語音信息無效，語音識(shí)別模塊可以不對(duì)其進(jìn)行語音識(shí)別

本實(shí)施例通過將語音識(shí)別技術(shù)可以減少按鍵輸入，增強(qiáng)與用戶的交互性；通過采用先進(jìn)先出隊(duì)列，實(shí)現(xiàn)了多路話筒共用一個(gè)語音識(shí)別引擎，提高引擎利用率。

參考圖5所示，本發(fā)明提供一種語音信息處理系統(tǒng)1000的一個(gè)實(shí)施例，包括：控制模塊和處理模塊；所述處理模塊與所述控制模塊通信連接；

所述控制模塊，在用戶錄音過程中周期性采集并識(shí)別用戶的語音信息，得到語音識(shí)別片段；

所述處理模塊，處理所述控制模塊識(shí)別得到的所述語音識(shí)別片段，得到語音識(shí)別結(jié)果。

參考圖6所示，與上一個(gè)實(shí)施例相同的部分在此不再贅述。本發(fā)明提供一種語音信息處理系統(tǒng)1000的另一個(gè)實(shí)施例，包括：所述控制模塊包括：采集子模塊和識(shí)別子模塊；所述采集子模塊與所述識(shí)別子模塊通信連接；所述處理模塊包括：排序子模塊；所述排序子模塊與所述控制模塊通信連接；

所述采集子模塊，在用戶錄音過程中，根據(jù)預(yù)設(shè)采集規(guī)則采集用戶的語音信息，獲得當(dāng)前語音片段，發(fā)送所述當(dāng)前語音片段至所述識(shí)別子模塊；

所述識(shí)別子模塊，接收所述采集子模塊發(fā)送的所述當(dāng)前語音片段，根據(jù)語音識(shí)別庫識(shí)別所述當(dāng)前語音片段，得到語音識(shí)別片段；

所述采集子模塊還獲取并發(fā)送下一語音片段至所述識(shí)別子模塊，直至用戶結(jié)束錄音；

所述識(shí)別子模塊還接收所述采集子模塊發(fā)送的所述下一語音片段，根據(jù)語音識(shí)別庫識(shí)別所述下一語音片段，得到語音識(shí)別片段，直至用戶結(jié)束錄音；

所述排序子模塊，按照采集的時(shí)間順序，將所述語音識(shí)別片段進(jìn)行排序整合，得到所述語音識(shí)別結(jié)果；

其中，所述預(yù)設(shè)采集規(guī)則為根據(jù)時(shí)間間隔相等的采集方式。

本發(fā)明實(shí)施例中，具體的語音識(shí)別庫的建立，現(xiàn)有技術(shù)有很多，在此不細(xì)細(xì)說明。在錄音的過程中，采集錄音獲得的語音片段進(jìn)行語音識(shí)別，相比傳統(tǒng)語音識(shí)別方式，處理語音識(shí)別結(jié)果更快，減少用戶等待語音錄入和語音識(shí)別的時(shí)間。根據(jù)fifo隊(duì)列進(jìn)行獲取語音信息，并通過fifo隊(duì)列進(jìn)行語音識(shí)別，對(duì)于較長(zhǎng)時(shí)間的錄音過程不僅可以有效地減少語音錄音和語音識(shí)別的等待時(shí)間，也可以做出完整的語音識(shí)別。用戶可以根據(jù)自己的喜好、需求來設(shè)置預(yù)設(shè)采集規(guī)則。避免造成了不必要的等待時(shí)間，節(jié)約時(shí)間提升用戶的使用體驗(yàn)。根據(jù)fifo隊(duì)列進(jìn)行獲取語音信息，并通過fifo隊(duì)列進(jìn)行語音識(shí)別，對(duì)于較長(zhǎng)時(shí)間的錄音過程不僅可以有效地減少語音錄音和語音識(shí)別的等待時(shí)間，也可以做出完整的語音識(shí)別。本發(fā)明實(shí)施例中的技術(shù)能夠應(yīng)用在包括室內(nèi)設(shè)備控制，語音對(duì)話機(jī)器人等方面，通過語音錄制過程中邊錄音邊進(jìn)行語音識(shí)別的功能，解決用戶需要在語音錄制完成后，才能夠進(jìn)行語音識(shí)別的問題，而且在不影響正常識(shí)別結(jié)果的同時(shí)縮短錄音時(shí)延，并且用戶的語音命令迅速地轉(zhuǎn)化為語音識(shí)別命令輸入至智能家居設(shè)備、智能機(jī)器人，從而更加方便快捷地根據(jù)識(shí)別得到的語音識(shí)別命令控制智能家居設(shè)備、智能機(jī)器人，而不需要用戶用手來操作，語音操作相比手動(dòng)操作更加迅速，提高用戶使用體驗(yàn)。具體例子見對(duì)應(yīng)方法實(shí)施例。實(shí)現(xiàn)語音錄制過程中進(jìn)行語音識(shí)別，減少用戶需要在語音錄制完成后，才能夠進(jìn)行語音識(shí)別并輸出語音結(jié)果的等待時(shí)間，在不影響正常識(shí)別結(jié)果的同時(shí)縮短錄音時(shí)延，提高用戶使用體驗(yàn)。

參考圖7所示，與上一個(gè)實(shí)施例相同的部分在此不再贅述。本發(fā)明提供一種語音信息處理系統(tǒng)1000的另一個(gè)實(shí)施例，包括：所述處理模塊還包括：輸出子模塊，所述輸出子模塊與所述控制模塊通信連接；

所述輸出子模塊，根據(jù)采集的時(shí)間順序，輸出所述語音識(shí)別片段，得到所述語音識(shí)別結(jié)果。

具體的，本實(shí)施例在錄音的過程中，一旦采集獲得相應(yīng)的語音片段后就能立即進(jìn)行語音識(shí)別得到與之對(duì)應(yīng)的語音識(shí)別片段，根據(jù)采集的時(shí)間順序，輸出所述語音識(shí)別片段，得到所述語音識(shí)別結(jié)果。如果用戶乙發(fā)現(xiàn)錄入欄的文字部分有哪些與自己說話的內(nèi)容不同的，由于采集時(shí)間是有規(guī)律的，可以根據(jù)采集的時(shí)間順序找到該語音片段重新進(jìn)行識(shí)別，大大提升用戶使用體驗(yàn)。實(shí)現(xiàn)語音錄制過程中進(jìn)行語音識(shí)別，減少用戶需要在語音錄制完成后，才能夠進(jìn)行語音識(shí)別并輸出語音結(jié)果的等待時(shí)間，在不影響正常識(shí)別結(jié)果的同時(shí)縮短錄音時(shí)延，提高用戶使用體驗(yàn)。

參考圖8所示，本發(fā)明提供一種語音信息處理系統(tǒng)1000的另一個(gè)實(shí)施例，包括：所述控制模塊包括：采集子模塊、識(shí)別子模塊、判斷子模塊和刪除子模塊；所述判斷子模塊分別與所述采集子模塊、所述刪除子模塊和所述識(shí)別子模塊通信連接；

所述采集子模塊，在用戶錄音過程中，根據(jù)預(yù)設(shè)采集規(guī)則采集用戶的語音信息，獲得當(dāng)前語音片段，發(fā)送所述當(dāng)前語音片段至所述判斷子模塊；

所述判斷子模塊，判斷所述當(dāng)前語音片段是否為空白語音片段；若是，發(fā)送判斷所述當(dāng)前語音片段為空白語音片段的結(jié)果至所述刪除子模塊；否則，發(fā)送判斷所述當(dāng)前語音片段不為空白語音片段的結(jié)果至所述識(shí)別子模塊；

所述刪除子模塊，接收所述判斷子模塊發(fā)送的判斷結(jié)果，刪除所述當(dāng)前語音片段；

所述采集子模塊還獲取并發(fā)送下一語音片段至所述判斷子模塊，直至用戶結(jié)束錄音；

所述識(shí)別子模塊還接收所述采集子模塊發(fā)送的所述下一語音片段，根據(jù)語音識(shí)別庫識(shí)別所述下一語音片段，得到語音識(shí)別片段，直至用戶結(jié)束錄音。

本發(fā)明實(shí)施例中，能夠刪除無效語音片段，幫助用戶更加快速地進(jìn)行語音識(shí)別。在語音識(shí)別之前的預(yù)處理過程中，根據(jù)用戶的說話過程中聲波變化頻率和聲波變化波動(dòng)等技術(shù)可以識(shí)別出用戶語音信息哪些部分為有效語音部分，哪些是無效語音部分，并去掉無效語音部分信息即空白語音片段。實(shí)現(xiàn)語音錄制過程中進(jìn)行語音識(shí)別，減少用戶需要在語音錄制完成后，才能夠進(jìn)行語音識(shí)別并輸出語音結(jié)果的等待時(shí)間，在不影響正常識(shí)別結(jié)果的同時(shí)縮短錄音時(shí)延，提高用戶使用體驗(yàn)。

參考圖9所示，本發(fā)明提供一種語音信息處理方法的一個(gè)實(shí)例，包括：

1、錄音開始。

2、錄音模塊保持錄音過程中，2s/次進(jìn)行依次截取。

3、截取文件。

4、將錄音結(jié)果發(fā)送至語音識(shí)別模塊進(jìn)行語音聽寫。

5、將語音聽寫結(jié)果放入fifo隊(duì)列中。

6、語義識(shí)別模塊不斷對(duì)隊(duì)列中的語句進(jìn)行語義識(shí)別，語義分析，理解語句。

7、根據(jù)語義識(shí)別結(jié)果，發(fā)送相應(yīng)指令或回答結(jié)果，從而完成整套語音識(shí)別。

本發(fā)明實(shí)施例中，2s/次進(jìn)行截取并不是特例，可以根據(jù)用戶的喜好和需求進(jìn)行設(shè)置截取的時(shí)間頻率。實(shí)現(xiàn)語音錄制過程中進(jìn)行語音識(shí)別，減少用戶需要在語音錄制完成后，才能夠進(jìn)行語音識(shí)別并輸出語音結(jié)果的等待時(shí)間，在不影響正常識(shí)別結(jié)果的同時(shí)縮短錄音時(shí)延，提高用戶使用體驗(yàn)。通過采用fifo先進(jìn)先出隊(duì)列，實(shí)現(xiàn)了多路話筒共用一個(gè)語音識(shí)別引擎，提高引擎利用率。減少對(duì)于較短的錄音，語音識(shí)別模塊不需要等到達(dá)到語音識(shí)別時(shí)間開始后才能進(jìn)行語音識(shí)別，減少語音識(shí)別的等待時(shí)間，對(duì)于較長(zhǎng)時(shí)間的錄音過程不僅可以有效地減少語音錄音和語音識(shí)別的等待時(shí)間，也可以做出完整的語音識(shí)別。本方案在錄音時(shí)間采用兩秒時(shí)間，每?jī)擅脒M(jìn)行一次錄音，然后將錄音結(jié)果發(fā)送到語音識(shí)別模塊進(jìn)行識(shí)別，識(shí)別結(jié)果后放入fifo隊(duì)列中，這樣連續(xù)錄音結(jié)果都在隊(duì)列中，然后在語義識(shí)別模塊對(duì)拼接語句進(jìn)行識(shí)別，從而達(dá)到快速語音識(shí)別的效果。實(shí)現(xiàn)語音錄制過程中進(jìn)行語音識(shí)別，減少用戶需要在語音錄制完成后，才能夠進(jìn)行語音識(shí)別并輸出語音結(jié)果的等待時(shí)間，在不影響正常識(shí)別結(jié)果的同時(shí)縮短錄音時(shí)延，提高用戶使用體驗(yàn)。

應(yīng)當(dāng)說明的是，上述實(shí)施例均可根據(jù)需要自由組合。以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式，應(yīng)當(dāng)指出，對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明原理的前提下，還可以做出若干改進(jìn)和潤(rùn)飾，這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2