語音識別方法和服務器的制造方法
【技術領域】
[0001]本發(fā)明涉及計算機技術領域,特別是涉及一種語音識別方法和服務器。
【背景技術】
[0002]語音識別技術是對用戶輸入的語音信號進行識別,最終轉換為文本的技術。目前,提供語音識別技術的廠商都是以單一語音識別引擎對用戶提交的語音信息進行識別,無法根據(jù)不同的用戶,提供不同的服務策略,服務效率比較低。
【發(fā)明內容】
[0003]基于此,有必要提供一種語音識別方法、服務器,應用本方法、服務器,能夠根據(jù)不同用戶,擇優(yōu)選擇不同的語音識別引擎進行服務,提升語音識別的服務效率。
[0004]一種語音識別方法,包括:
[0005]接收客戶端發(fā)送的語音識別請求,所述語音識別請求攜帶有語音信息;
[0006]從多個語音識別引擎中選擇最優(yōu)語音識別引擎;
[0007]采用所述最優(yōu)語音識別引擎將所述語音信息轉換為文字信息;
[0008]將所述文字信息傳輸給所述客戶端。
[0009]一種語音識別服務器,包括:收發(fā)模塊和引擎控制模塊;
[0010]所述收發(fā)模塊,用于接收客戶端發(fā)送的語音識別請求,所述語音識別請求中攜帶有語首?目息;
[0011]所述引擎控制模塊,用于從多個語音識別引擎中選擇最優(yōu)語音識別引擎,采用所述最優(yōu)語音識別引擎將所述語音信息轉換為文字信息,并獲取所述文字信息;
[0012]所述收發(fā)模塊,還用于將所述文字信息傳輸給所述客戶端。
[0013]上述語音識別方法、服務器,接收用戶客戶端發(fā)送的語音識別請求和語音信息后,擇優(yōu)選擇多個語音識別引擎中的一個,將語音信息轉換為文字信息,相比于傳統(tǒng)技術中,依靠單一引擎對用戶提交的語音信息進行識別,能夠為不同用戶定制不同的服務策略,提升語音識別效率。
【附圖說明】
[0014]圖1為一個實施例中的語音識別方法的流程示意圖;
[0015]圖2為一個實施例中的語音識別方法中的交互時序圖;
[0016]圖3為一個實施例中的語音識別方法的流程示意圖;
[0017]圖4為一個實施例中的語音識別方法中的交互時序圖;
[0018]圖5為一個實施例中的語音識別方法的應用場景圖;
[0019]圖6為一個實施例中的語音識別服務器的結構示意圖;
[0020]圖7為一個實施例中的語音識別服務器的結構示意圖。
【具體實施方式】
[0021]為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0022]除非上下文另有特定清楚的描述,本發(fā)明中的元件和組件,數(shù)量既可以單個的形式存在,也可以多個的形式存在,本發(fā)明并不對此進行限定。本發(fā)明中的步驟雖然用標號進行了排列,但并不用于限定步驟的先后次序,除非明確說明了步驟的次序或者某步驟的執(zhí)行需要其他步驟作為基礎,否則步驟的相對次序是可以調整的??梢岳斫?,本文中所使用的術語“和/或”涉及且涵蓋相關聯(lián)的所列項目中的一者或一者以上的任何和所有可能的組口 ο
[0023]參見圖1,在一個實施例中,提供了一種語音識別方法。該方法以應用于語音識別服務器。該語音識別方法包括下列流程:
[0024]步驟102,接收用戶客戶端發(fā)送的語音識別請求。
[0025]具體的,在語音識別請求中攜帶有語音信息。該語音信息可以是用戶通過客戶端的語音輸入裝置輸入的語音信號經(jīng)過編碼得到的語音包,其中語音輸入裝置可以是但不限于麥克風。語音信息還可以是即時通信中,由信息發(fā)送端發(fā)送并存儲在通信服務器中,再由該客戶端下載得到的語音信息。客戶端在下載語音信息到本地后,可以按照傳統(tǒng)技術,以在界面上“點擊語音圖標”的形式播放語音,也可以選擇向語音識別服務器發(fā)送語音識別請求,將語音信息轉換為文字。用戶可以通過預定義操作產(chǎn)生語音識別請求,例如在個人計算機的界面上點擊“轉換為文字”按鈕、在手機界面中滑動語音信息圖標等,其具體形式,在此并不限定。
[0026]步驟104,從多個語音識別引擎中選擇最優(yōu)語音識別引擎,采用最優(yōu)語音識別引擎將語音信息轉換為文字信息。
[0027]具體的,語音識別服務器在客戶端發(fā)送的語音識別請求和語音信息后,選擇不同的語音識別引擎為不同的用戶客戶端進行服務。在一個實施例中,語音識別服務器可以根據(jù)用戶的使用習慣、滿意度,確定對應客戶端的語音識別引擎,具體的,語音識別服務器接在收到該用戶的客戶端發(fā)送的語音識別請求后,接收其中的用戶標識(ID),再查找用戶標識對應的語音識別弓I擎標識,確定最優(yōu)語音識別弓I擎為該語音識別弓I擎標識對應的語音識別引擎。在選定最優(yōu)語音識別引擎后,最優(yōu)語音識別引擎將通過算法將語音信息轉換為文字信息,其處理過程,可以參照傳統(tǒng)技術,例如馬爾科夫連續(xù)語音識別模型、神經(jīng)網(wǎng)絡算法、支持向量機算法等等。轉換完成后,語音識別服務器再獲取轉換得到的文字信息。
[0028]在另一個實施例中,語音識別服務器可以根據(jù)多個語音識別引擎的轉換置信度,選擇轉換置信度最高的語音識別引擎,作為最優(yōu)語音識別引擎將語音信息轉換為文字信息。具體的,語音識別服務器中預存有各個語音識別引擎的歷史轉換置信度,例如為100%。之后,語音識別服務器每次在接收到客戶端發(fā)送的語音信息后,同時交給所有語音識別引擎進行識別,得到各語音識別引擎的語音識別結果即文字文本,以及各個語音識別引擎對該條語音信息進行語音識別給出的語音識別結果的臨時轉換置信度,語音識別服務器根據(jù)各個語音識別引擎的臨時轉換置信度,對各個語音識別引擎的歷史轉換置信度進行實時更新(如可以取平均來計算),并確定更新后歷史轉換置信度最高的語音識別引擎作為最優(yōu)語音識別引擎。在其它的實施例中,還可以基于語音識別的便利性,根據(jù)多個語音識別引擎的轉換時間,選擇轉換時間最短的語音識別引擎,作為最優(yōu)語音識別引擎將語音信息轉換為文字信息。具體的,語音識別服務器可以根據(jù)預定義大小的語音包的平均轉換時間,確定轉換時間最短的語音識別引擎。
[0029]步驟106,將文字信息傳輸給客戶端。
[0030]具體的,在最優(yōu)語音識別服務器完成語音識別,將語音信息轉換為對應的文字信息后,語音識別服務器獲取該文字信息,并將文字信息傳輸給客戶端,由客戶端顯示給用戶。當客戶端為即時通信中,下載語音信息的至少一個客戶端,語音識別服務器還可以將文字信息同步推送給所有下載語音信息的客戶端。
[0031]參見圖2,為本實施例中語音識別方法中的交互時序圖,其中交互過程包括:
[0032]1.用戶觸發(fā)語音識別。
[0033]2.客戶端向語音識別服務器發(fā)送語音識別請求。
[0034]語音識別請求中攜帶有語音信息。
[0035]3.語音識別服務器選擇最優(yōu)語音識別引擎,對語音信息進行識別,并轉換得到文字信息。
[0036]4.最優(yōu)語音識別引擎向語音識別服務器返回文字信息。
[0037]5.語音識別服務器向客戶端推送文字信息。
[0038]6.客戶端將文字信息展示給用戶。
[0039]本實施例的語音識別方法,接收用戶客戶端發(fā)送的語音識別請求和語音信息后,擇優(yōu)選擇多個語音識別引擎中的一個,將語音信息轉換為文字信息,相比于傳統(tǒng)技術中,依靠單一引擎對用戶提交的語音信息進行識別,能夠為不同用戶定制不同的服務策略,提升服務效率。