一種語音識別方法、裝置及電子設備與流程

文檔序號：11232669閱讀：627來源：國知局

導航： X技術> 最新專利>樂器;聲學設備的制造及制作,分析技術

本發(fā)明涉及語音識別技術領域，特別是涉及一種語音識別方法、裝置及電子設備。

背景技術：

目前，很多智能設備具有語音識別功能。通常語音識別的功能可以通過以下2種方式來實現(xiàn)：

一種是：由智能設備接收語音信息，并對語音信息進行識別，獲得識別出的語音識別信息。

另一種是：由智能設備接收語音信息，并將該語音信息發(fā)送至云端服務器，由云端服務器對語音信息進行識別，獲得識別出的語音識別信息。

在現(xiàn)有的語音識別過程中，經(jīng)常會出現(xiàn)由于外界短噪聲的干擾，導致無法準確識別用戶語音的情況。例如，智能設備在檢測語音信息的時候，會出現(xiàn)有人突然咳嗽了一聲或者有人敲了下桌子的情況。

這種情況下，不論是上述那種語音識別的方式，智能設備會將這些干擾聲音作為語音信息接收下來進行語音識別，從而導致語音識別出錯。這是因為這些干擾聲音通常被識別為短音節(jié)詞，然而短音節(jié)詞沒有任何意義，現(xiàn)有的語音識別過程無法得到有意義的信息，因此經(jīng)常會出現(xiàn)報錯，這影響了智能設備的語音識別效果。

技術實現(xiàn)要素：

本發(fā)明的目的在于提供一種語音識別方法、裝置及電子設備，以減小外界短噪聲對語音識別過程的影響，提高語音識別效果。

為達到上述目的，本發(fā)明實施例提供了一種語音識別方法，應用于電子設備，所述方法包括：

獲取待識別語音信息；

對所述待識別語音信息進行識別，得到該待識別語音信息對應的語音識別信息；

確定所述語音識別信息是否為無意義短音節(jié)詞；

如果所述語音識別信息為無意義短音節(jié)詞，則丟棄所述語音識別信息。

可選地，所述確定所述語音識別信息是否為無意義短音節(jié)詞的步驟，包括：

判斷預先構(gòu)建的無意義短音節(jié)詞集合中是否存在與所述語音識別信息相同的無意義短音節(jié)詞；

如果是，確定所述語音識別信息為無意義短音節(jié)詞；

如果否，確定所述語音識別信息不為無意義短音節(jié)詞。

可選地，在確定出所述語音識別信息不為無意義短音節(jié)詞后，所述方法還包括：

記錄所述語音識別信息。

可選地，在所述獲取待識別語音信息的步驟之后，所述方法還包括：

若對所述待識別語音信息識別失敗，則丟棄該待識別語音信息。

可選地，所述電子設備為智能設備；

所述獲取待識別語音信息的步驟，包括：

實時檢測語音信息；

在檢測到用戶輸入語音信息后，當靜音時長達到預設語音停頓時長時，將用戶輸入的語音信息確定為待識別語音信息。

可選地，所述電子設備為與智能設備通信連接的云端服務器；

所述獲取待識別語音信息的步驟，包括：接收所述智能設備發(fā)送的待識別語音信息；所述智能設備發(fā)送的待識別語音信息為：所述智能設備在檢測到用戶輸入語音信息后，當靜音時長達到預設語音停頓時長時，將用戶輸入的語音信息確定為待識別語音信息后發(fā)送至所述云端服務器的。

本發(fā)明實施例還提供了一種語音識別裝置，應用于電子設備，所述裝置包括：

獲取模塊，用于獲取待識別語音信息；

識別模塊，用于對所述待識別語音信息進行識別，得到該待識別語音信息對應的語音識別信息；

確定模塊，用于確定所述語音識別信息是否為無意義短音節(jié)詞；

第一丟棄模塊，用于當所述確定模塊確定出所述語音識別信息為無意義短音節(jié)詞時，則丟棄所述語音識別信息。

可選地，所述確定模塊，包括：

判斷單元，用于判斷預先構(gòu)建的無意義短音節(jié)詞集合中是否存在與所述語音識別信息相同的無意義短音節(jié)詞；

第一確定單元，用于當所述判斷單元的判斷結(jié)果為是時，確定所述語音識別信息為無意義短音節(jié)詞；

第二確定單元，用于當所述判斷單元的判斷結(jié)果為否時，確定所述語音識別信息不為無意義短音節(jié)詞。

可選地，所述裝置還包括：

記錄模塊，用于當所述確定模塊確定出所述語音識別信息不為無意義短音節(jié)詞時，記錄所述語音識別信息。

可選地，所述裝置還包括：

第二丟棄模塊，用于若對所述待識別語音信息識別失敗，則丟棄該待識別語音信息。

可選地，所述電子設備為智能設備；

所述獲取模塊，包括：

檢測單元，用于實時檢測語音信息；

確定單元，用于在檢測到用戶輸入語音信息后，當靜音時長達到預設語音停頓時長時，將用戶輸入的語音信息確定為待識別語音信息。

可選地，所述電子設備為與智能設備通信連接的云端服務器；

所述獲取模塊，具體用于接收所述智能設備發(fā)送的待識別語音信息；所述智能設備發(fā)送的待識別語音信息為：所述智能設備在檢測到用戶輸入語音信息后，當靜音時長達到預設語音停頓時長時，將用戶輸入的語音信息確定為待識別語音信息后發(fā)送至所述云端服務器的。

本發(fā)明實施例還提供了一種電子設備，所述電子設備包括：殼體、處理器、存儲器、電路板和電源電路，其中，電路板安置在殼體圍成的空間內(nèi)部，處理器和存儲器設置在電路板上；電源電路，用于為電子設備的各個電路或器件供電；存儲器用于存儲可執(zhí)行程序代碼；處理器通過讀取存儲器中存儲的可執(zhí)行程序代碼來運行與可執(zhí)行程序代碼對應的程序，以用于執(zhí)行所述的語音識別方法。

本發(fā)明實施例提供的一種語音識別方法、裝置及電子設備，獲取待識別語音信息，對待識別語音信息進行識別，得到該待識別語音信息對應的語音識別信息，確定語音識別信息是否為無意義短音節(jié)詞，如果語音識別信息為無意義短音節(jié)詞，則丟棄語音識別信息。本發(fā)明實施例通過采用判斷語音識別信息是否為無意義短音節(jié)詞的方式，當語音識別信息為無意義短音節(jié)詞時，丟棄該語音識別信息，從而能夠減小外界短噪聲對語音識別過程的影響，提高了語音識別效果。

附圖說明

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案，下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領域普通技術人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實施例提供的語音識別方法的流程圖；

圖2為本發(fā)明實施例提供的語音識別裝置的結(jié)構(gòu)示意圖；

圖3為本發(fā)明實施例提供的電子設備的結(jié)構(gòu)示意圖。

具體實施方式

下面將結(jié)合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例。基于本發(fā)明中的實施例，本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。

為達到上述目的本發(fā)明實施例提供了一種語音識別方法，該方法可以應用于電子設備，該電子設備可以為智能設備，也可以為與智能設備通信連接的云端服務器。本發(fā)明實施例中，智能設備可以是智能手機、智能音箱、智能機器人或智能平板電腦等帶有語音識別功能的設備。

圖1為本發(fā)明實施例提供的語音識別方法的流程圖，該方法包括：

s110，獲取待識別語音信息。

本實施例中，語音信息為包含用戶發(fā)出語音的語音信息。

具體地，電子設備可監(jiān)聽其周圍的聲音，獲取相應的語音信息并將其作為待識別語音信息。

在本發(fā)明實施例的一種具體實現(xiàn)方式中，當電子設備為智能設備時，步驟s110可以包括：

a1、實時檢測語音信息。

a2、在檢測到用戶輸入語音信息后，當靜音時長達到預設語音停頓時長時，將用戶輸入的語音信息確定為待識別語音信息。

具體地，處于工作狀態(tài)的智能設備，實時檢測周圍的語音信息。設初始時刻周圍的聲音的音量較小，此時處于靜音狀態(tài)，當突然檢測到聲音的音量大與某一個預設值的時候，則可確定當前有用戶輸入語音信息，此時進入語音階段，智能設備采集語音階段的語音信息。經(jīng)過一段時間的語音后，聲音的音量小于預設值，語音再次進入靜音階段，當進入靜音階段達到預設語音停頓時長時，將用戶輸入的語音信息(即智能設備采集到的語音信息)確定為待識別語音信息。本實施例中，預設語音停頓時長可自由設定，預設語音停頓時長優(yōu)選為500毫秒。

在本發(fā)明實施例的另一種具體實現(xiàn)方式中，當電子設備為與智能設備通信連接的云端服務器時，步驟s110可以包括：

接收所述智能設備發(fā)送的待識別語音信息；所述智能設備發(fā)送的待識別語音信息為：所述智能設備在檢測到用戶輸入語音信息后，當靜音時長達到預設語音停頓時長時，將用戶輸入的語音信息確定為待識別語音信息后發(fā)送至所述云端服務器的。

具體地，當智能設備在檢測到聲音的音量大與某一個預設值的時候，開始獲取語音信息，經(jīng)過一段時間的語音后，聲音的音量小于預設值，語音再次進入靜音階段，且靜音達到預設語音停頓時長時，智能設備停止獲取語音信息，并將已經(jīng)獲取的語音信息確定為待識別語音信息后，將其發(fā)送給云端服務器，云端服務器接收智能設備發(fā)送的待識別語音信息。

s120，對所述待識別語音信息進行識別，得到該待識別語音信息對應的語音識別信息。

具體地，在獲取了待識別語音信息后，電子設備對其進行語音識別，得到該待識別語音信息對應的語音識別信息。本實施例中，語音識別的具體過程為現(xiàn)有技術此處不再贅述。

s130，確定所述語音識別信息是否為無意義的短音節(jié)詞。如果所述語音識別信息為無意義短音節(jié)詞，執(zhí)行步驟s140；如果所述語音識別信息不為無意義短音節(jié)詞，則記錄所述語音識別信息。

在本發(fā)明實施例的一種具體實現(xiàn)方式中，步驟s130可包括如下步驟：

b1、判斷預先構(gòu)建的無意義短音節(jié)詞集合中是否存在與所述語音識別信息相同的無意義短音節(jié)詞。如果是，執(zhí)行步驟b2；如果否，執(zhí)行步驟b3。

本實施例中，研究人員可預先將一些可能無意義的短音節(jié)詞進行存儲，構(gòu)建無意義短音節(jié)詞集合，并將該集合上傳至電子設備中。無意義短音節(jié)詞可以為單字的發(fā)語詞或感嘆詞等；例如，無意義短音節(jié)詞可以為“嗯”、“啊”、“嘭”、“唉”或“咳”等。無意義短音節(jié)詞還可以為兩個字的詞；例如，無意義短音節(jié)詞可以為“嗯嗯”、“那個”或“阿嚏”等。

進一步地，無意義短音節(jié)詞不僅可以是用戶發(fā)出的，周圍環(huán)境產(chǎn)生的，還可以是電子設備自身產(chǎn)生的，例如，當用戶喚醒電子設備時，電子設備會語音響應用戶“哎”，一般情況下會對自身發(fā)出的聲音進行降噪處理。但有些情況下，降噪不夠徹底，會有些殘留的聲音，此時電子設備可能會將這些殘留的聲音確定為待識別語音信息，為了避免智能設備會對自身產(chǎn)生影響，這類音節(jié)“哎”也可以規(guī)定為無意義短音節(jié)詞。

可選地，無意義短音節(jié)詞還可根據(jù)實際情況具體設定。例如，當前時刻為早上時，“早”字不可以作為無意義短音節(jié)詞，而其他時間(如晚上)“早”字可以作為無意義短音節(jié)詞。

具體地，當獲取語音識別信息后，電子設備會查詢無意義短音節(jié)詞集合，判斷是否存在語音識別信息相同的無意義短音節(jié)詞。本實施例中，語音識別信息與無意義短音節(jié)詞相同是指：語音識別信息與無意義短音節(jié)詞的詞中字的數(shù)量、字的順序字的字形均相同。

b2、確定所述語音識別信息為無意義短音節(jié)詞。

b3、確定所述語音識別信息不為無意義短音節(jié)詞。

具體地，如果無意義短音節(jié)詞集合中存在與語音識別信息相同的無意義短音節(jié)詞，則確定語音識別信息為無意義短音節(jié)詞；反之，如果無意義短音節(jié)詞集合中不存在與語音識別信息相同的無意義短音節(jié)詞，則確定語音識別信息不為無意義短音節(jié)詞。

s140，丟棄所述語音識別信息。

具體地，如果語音識別信息為無意義短音節(jié)詞，為了避免無意義短音節(jié)詞對語音識別效果的影響，則丟棄該語音識別信息，并繼續(xù)獲取語音信息。如果語音識別信息不為無意義短音節(jié)詞，則表明語音識別信息為用戶想要表達的意思，則電子設備成功完成語音識別過程，識別過程結(jié)束，此時可記錄語音識別信息，將記錄的語音識別信息確定為語音識別結(jié)果。

另外，在步驟s110之后，所述方法還可以包括：若對所述待識別語音信息識別失敗，則丟棄該待識別語音信息。

具體地，當電子設備獲取到的語音信息模糊不清，電子設備無法識別出該語音信息包含的語音識別信息時，電子設備確定待識別語音信息識別失敗，丟棄該語音信息，避免了由于語音信息模糊不清而對語音識別效果帶來的影響。

需要說明的是，在確定了語音識別結(jié)果后，電子設備可以對語音識別結(jié)果進行語義解析，根據(jù)語義解析確定為用戶提供對應的服務。

舉例而言，若電子設備為智能設備，在確定了語音識別結(jié)果后，智能設備可以對語音識別結(jié)果進行語義解析，根據(jù)語義解析確定為用戶提供對應的服務。假設解析結(jié)果是播放智能設備中音頻的指令，則執(zhí)行該指令，播放相應的音頻。

再例如：若電子設備為與智能設備通信連接的云端服務器，在確定了語音識別結(jié)果后，云端服務器可以對語音識別結(jié)果進行語義解析，根據(jù)語義解析確定為用戶提供對應的服務。假設解析結(jié)果是播放云端服務器中音頻的指令，則執(zhí)行該指令，將相應的音頻發(fā)送至所述智能設備進行播放。

本發(fā)明實施例提供的一種語音識別方法，通過采用判斷語音識別信息是否為無意義短音節(jié)詞的方式，當語音識別信息為無意義短音節(jié)詞時，丟棄該語音識別信息，從而能夠減小外界短噪聲對語音識別過程的影響，提高了語音識別效果。

與方法實施例相對應的，本發(fā)明實施例還提供了一種語音識別裝置。圖2為本發(fā)明實施例提供的語音識別裝置的結(jié)構(gòu)示意圖，所述裝置包括：

獲取模塊210，用于獲取待識別語音信息；

識別模塊220，用于對所述待識別語音信息進行識別，得到該待識別語音信息對應的語音識別信息；

確定模塊230，用于確定所述語音識別信息是否為無意義短音節(jié)詞；

第一丟棄模塊240，用于當所述確定模塊確定出所述語音識別信息為無意義短音節(jié)詞時，則丟棄所述語音識別信息。

本發(fā)明實施例提供的一種語音識別裝置，獲取待識別語音信息，對待識別語音信息進行識別，得到該待識別語音信息對應的語音識別信息，確定語音識別信息是否為無意義短音節(jié)詞，如果語音識別信息為無意義短音節(jié)詞，則丟棄語音識別信息。本發(fā)明實施例通過采用判斷語音識別信息是否為無意義短音節(jié)詞的方式，當語音識別信息為無意義短音節(jié)詞時，丟棄該語音識別信息，從而能夠減小外界短噪聲對語音識別過程的影響，提高了語音識別效果。

可選地，所述確定模塊330，包括：

判斷單元，用于判斷預先構(gòu)建的無意義短音節(jié)詞集合中是否存在與所述語音識別信息相同的無意義短音節(jié)詞；

第一確定單元，用于當所述判斷單元的判斷結(jié)果為是時，確定所述語音識別信息為無意義短音節(jié)詞；

第二確定單元，用于當所述判斷單元的判斷結(jié)果為否時，確定所述語音識別信息不為無意義短音節(jié)詞。

可選地，所述裝置還包括：

記錄模塊，用于當所述確定模塊230確定出所述語音識別信息不為無意義短音節(jié)詞時，記錄所述語音識別信息。

可選地，所述裝置還包括：

第二丟棄模塊，用于若對所述待識別語音信息識別失敗，則丟棄該待識別語音信息。

可選地，所述電子設備為智能設備；

所述獲取模塊210，包括：

檢測單元，用于實時檢測語音信息；

確定單元，用于在檢測到用戶輸入語音信息后，當靜音時長達到預設語音停頓時長時，將用戶輸入的語音信息確定為待識別語音信息。

可選地，所述電子設備為與智能設備通信連接的云端服務器；

所述獲取模塊210，具體用于接收所述智能設備發(fā)送的待識別語音信息；所述智能設備發(fā)送的待識別語音信息為：所述智能設備在檢測到用戶輸入語音信息后，當靜音時長達到預設語音停頓時長時，將用戶輸入的語音信息確定為待識別語音信息后發(fā)送至所述云端服務器的。

與上述方法實施例相對應的，本發(fā)明實施例還提供了一種電子設備。圖3為本發(fā)明實施例提供的電子設備的結(jié)構(gòu)示意圖，所述電子設備包括：

殼體310、處理器320、存儲器330、電路板340和電源電路350，其中，電路板340安置在殼體310圍成的空間內(nèi)部，處理器320和存儲器330設置在電路板340上；電源電路350，用于為電子設備的各個電路或器件供電；存儲器330用于存儲可執(zhí)行程序代碼；處理器320通過讀取存儲器330中存儲的可執(zhí)行程序代碼來運行與可執(zhí)行程序代碼對應的程序，以用于執(zhí)行上述方法實施例中所述的語音識別方法。

一種實現(xiàn)方式中，上述語音識別方法可以包括：

獲取待識別語音信息；

對所述待識別語音信息進行識別，得到該待識別語音信息對應的語音識別信息；

確定所述語音識別信息是否為無意義短音節(jié)詞；

如果所述語音識別信息為無意義短音節(jié)詞，則丟棄所述語音識別信息，并繼續(xù)執(zhí)行所述獲取語音信息的步驟。

上述語音識別方法的其他實現(xiàn)方式參見前述方法實施例部分的說明，這里不再贅述。

處理器320對上述步驟及上述語音信號處理方法的其他實現(xiàn)方式的具體執(zhí)行過程以及處理器320通過運行可執(zhí)行程序代碼來進一步執(zhí)行的過程，可以參見本發(fā)明實施例中圖1及圖2所示實施例的描述，在此不再贅述。

需要說明的是，該電子設備以多種形式存在，包括但不限于：

(1)移動通信設備：這類設備的特點是具備移動通信功能，并且以提供話音、數(shù)據(jù)通信為主要目標。這類終端包括：智能手機(例如iphone)、多媒體手機、功能性手機，以及低端手機等。

(2)超移動個人計算機設備：這類設備屬于個人計算機的范疇，有計算和處理功能，一般也具備移動上網(wǎng)特性。這類終端包括：pda、mid和umpc設備等，例如ipad。

(3)便攜式娛樂設備：這類設備可以顯示和播放多媒體內(nèi)容。該類設備包括：音頻、視頻播放器(例如ipod)，掌上游戲機，電子書，以及智能玩具和便攜式車載導航設備。

(4)服務器：提供計算服務的設備，服務器的構(gòu)成包括處理器、硬盤、內(nèi)存、系統(tǒng)總線等，服務器和通用的計算機架構(gòu)類似，但是由于需要提供高可靠的服務，因此在處理能力、穩(wěn)定性、可靠性、安全性、可擴展性、可管理性等方面要求較高。

(5)其他具有數(shù)據(jù)交互功能的電子裝置。

可見，本發(fā)明實施例所提供的方案中，電子設備的處理器通過讀取存儲器中存儲的可執(zhí)行程序代碼來運行與可執(zhí)行程序代碼對應的程序，獲取待識別語音信息，對待識別語音信息進行識別，得到該待識別語音信息對應的語音識別信息，確定語音識別信息是否為無意義短音節(jié)詞，如果語音識別信息為無意義短音節(jié)詞，則丟棄語音識別信息。本發(fā)明實施例通過采用判斷語音識別信息是否為無意義短音節(jié)詞的方式，當語音識別信息為無意義短音節(jié)詞時，丟棄該語音識別信息，從而能夠減小外界短噪聲對語音識別過程的影響，提高了語音識別效果。

對于電子設備實施例而言，由于其基本相似于方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

需要說明的是，在本文中，諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來，而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且，術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下，由語句“包括一個……”限定的要素，并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。

本說明書中的各個實施例均采用相關的方式描述，各個實施例之間相同相似的部分互相參見即可，每個實施例重點說明的都是與其他實施例的不同之處。尤其，對于系統(tǒng)實施例而言，由于其基本相似于方法實施例，所以描述的比較簡單，相關之處參見方法實施例的部分說明即可。

以上所述僅為本發(fā)明的較佳實施例而已，并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進等，均包含在本發(fā)明的保護范圍內(nèi)。

完整全部詳細技術資料下載

當前第1頁1 2