国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      語音識別方法及相關產(chǎn)品與流程

      文檔序號:11252372閱讀:658來源:國知局
      語音識別方法及相關產(chǎn)品與流程

      本發(fā)明涉及計算機技術領域,具體涉及語音識別方法及相關產(chǎn)品。



      背景技術:

      與機器進行語音交流,讓機器明白你說什么,這是人們長期以來夢寐以求的事情。中國物聯(lián)網(wǎng)校企聯(lián)盟形象得把語音識別比做為機器的聽覺系統(tǒng)。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋净蛎畹募夹g。

      語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面。語音識別技術車聯(lián)網(wǎng)也得到了充分的引用,例如:只需口述即可設置目的地直接導航,安全、便捷。

      語音識別是一門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內,語音識別技術將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務、消費電子產(chǎn)品等各個領域。語音識別技術所涉及的領域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。

      如何提高語音識別的準確率以及識別速度,是該領域技術人員努力的方向;目前,由于人們說話帶有口音,甚至有區(qū)別很大的方言,給語音識別造成了較大的困難,因此需要提出解決方案。



      技術實現(xiàn)要素:

      本發(fā)明實施例提供了語音識別方法及相關產(chǎn)品,用于提高非標準語音的識別的準確率。

      第一方面,本發(fā)明實施例提供了一種語音識別方法,包括:

      終端設備顯示標準文檔,采集用戶讀所述標準文檔的語音數(shù)據(jù);

      獲得所述標準文檔對應的標準語音,對所述語音數(shù)據(jù)進行語音識別;

      對照語音識別得到的特征信息與所述標準語音之間的差異性,確定執(zhí)行語音識別的識別算法。

      在一個可選的實現(xiàn)方式中,所述確定執(zhí)行語音識別的識別算法包括:

      首先依據(jù)所述差異性確定方言類型,然后確定與所述方言類型對應的識別算法作為執(zhí)行語音識別的識別算法。

      在一個可選的實現(xiàn)方式中,所述顯示標準文檔包括:

      在顯示標準文檔過程中,依據(jù)確定的方言類型調整所述標準文檔。

      在一個可選的實現(xiàn)方式中,所述顯示標準文檔之前,所述方法還包括:

      按照所述終端設備所處的地理位置,使用與所述地理位置所屬的方言區(qū)域對應的標準文檔。

      在一個可選的實現(xiàn)方式中,在按照所述終端設備所處的地理位置,使用與所述地理位置所屬的方言區(qū)域對應的標準文檔之前,所述方法還包括:

      統(tǒng)計所述移動終端所處的位置信息得到歷史記錄集;分析所述歷史記錄集,得到所述移動終端所屬的地理區(qū)域作為所述地理位置。

      在一個可選的實現(xiàn)方式中,在確定執(zhí)行語音識別的識別算法之后,所述方法還包括:

      依據(jù)所述差異性確定至少兩種標準語音庫,使用所述至少兩種語音庫以及所述識別算法,獲得可能性最大的至少兩種識別結果;

      獲得所述至少兩種識別結果中相對準確的識別結果,確定所述相對準確的識別結果所對應的識別算法作為所述終端設備后續(xù)進行語音識別使用的識別算法。

      第二方面,本發(fā)明實施例還提供了一種終端設備,包括處理單元和輸入輸出單元,

      所述輸入輸出單元,用于接收輸入的數(shù)據(jù)和輸出數(shù)據(jù);

      所述處理單元,用于顯示標準文檔,采集用戶讀所述標準文檔的語音數(shù)據(jù);獲得所述標準文檔對應的標準語音,對所述語音數(shù)據(jù)進行語音識別;對照語音識別得到的特征信息與所述標準語音之間的差異性,確定執(zhí)行語音識別的識別算法。

      在一個可選的實現(xiàn)方式中,所述處理單元,用于確定執(zhí)行語音識別的識別算法包括:首先依據(jù)所述差異性確定方言類型,然后確定與所述方言類型對應的識別算法作為執(zhí)行語音識別的識別算法。

      三方面本發(fā)明實施例還提供了一種終端設備,包括一個或多個處理器、存儲器、通信接口以及一個或多個程序,其中,所述一個或多個程序被存儲在所述存儲器中,并且被配置由所述一個或多個處理器執(zhí)行,所述程序包括用于執(zhí)行本發(fā)明實施例提供的任一項方法中的步驟的指令。

      四方面本發(fā)明實施例還提供了一種計算機可讀存儲介質,其存儲用于電子數(shù)據(jù)交換的計算機程序,其中,所述計算機程序使得計算機執(zhí)行如權利要求1-6任一項所述的方法,所述計算機包括終端設備。

      可以看出,本發(fā)明實施例中,通過提供標準文檔,可以讓用戶讀標準文檔,由于存在標注語音作為先驗信息,那么可以更方便找到差異性從而確定方言的類型,甚至方言類型對應的更細化的習慣性口音,從而確定更為合適的算法,因此可以提高非標準語音的識別的準確率。

      附圖說明

      下面將對本發(fā)明實施例所涉及到的附圖作簡單地介紹。

      圖1是本發(fā)明實施例提供的方法的流程示意圖;

      圖2是本發(fā)明實施例提供的方法流程示意圖;

      圖3是本發(fā)明實施例的語音識別設備結構示意圖;

      圖4是本發(fā)明實施例的終端設備結構示意圖;

      圖5是本發(fā)明實施例的終端設備的結構示意圖;

      圖6是本發(fā)明實施例的終端設備的結構示意圖。

      具體實施方式

      為了使本技術領域的人員更好地理解本發(fā)明方案,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

      本發(fā)明的說明書和權利要求書及上述附圖中的術語“第一”、“第二”等是用于區(qū)別不同對象,而不是用于描述特定順序。此外,術語“包括”和“具有”以及它們任何變形,意圖在于覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設備沒有限定于已列出的步驟或單元,而是可選地還包括沒有列出的步驟或單元,或可選地還包括對于這些過程、方法、產(chǎn)品或設備固有的其他步驟或單元。

      在本文中提及“實施例”意味著,結合實施例描述的特定特征、結構或特性可以包含在本發(fā)明的至少一個實施例中。在說明書中的各個位置出現(xiàn)該短語并不一定均是指相同的實施例,也不是與其它實施例互斥的獨立的或備選的實施例。本領域技術人員顯式地和隱式地理解的是,本文所描述的實施例可以與其它實施例相結合。

      本發(fā)明實施例所涉及到的終端設備可以包括各種可移動的手持設備、車載設備、可穿戴設備、計算設備或連接到無線調制解調器的其他處理設備,以及各種形式的用戶設備(userequipment,ue),移動臺(mobilestation,ms),終端設備(terminaldevice)等等。為方便描述,上面提到的設備統(tǒng)稱為終端設備。

      語音識別的準確性一直是語音識別的大難題,目前使用各種算法來提高語音識別的準確性,但是對于終端設備而言,使用者千差萬別,語言類型容易區(qū)分,但是各地方言造成極大困擾。

      在本發(fā)明實施例中,非標準語音是相對于標準語音而言的,標準語音可以是:漢語的普通話發(fā)音,或者,某些被列入標準的方言發(fā)音。后續(xù)實施例對此不再一一贅述。在中國標準文檔的標準語音可以是標準文檔的普通話發(fā)音,在確定方言類型后,標準文檔可以是該標準文檔對應方言類型的標準發(fā)音。

      下面結合附圖對本發(fā)明實施例進行介紹。

      請參閱圖1,圖1是本發(fā)明實施例提供了一種語音識別方法的流程示意圖,應用于終端設備,如圖所示,本拍照控制方法包括:

      101,終端設備顯示標準文檔,采集用戶讀上述標準文檔的語音數(shù)據(jù);

      上述采集語音數(shù)據(jù),可以是人對著終端設備說話,由終端設備的語音拾取設備,例如:話筒,采集用戶輸入的語音數(shù)據(jù)。

      102:獲得上述標準文檔對應的標準語音,對上述語音數(shù)據(jù)進行語音識別;

      在語音識別的研究發(fā)展過程中,研究人員根據(jù)不同語言的發(fā)音特點,設計和制作了以漢語(包括不同方言)、英語等各類語言的語音數(shù)據(jù)庫,這些語音數(shù)據(jù)庫,例如:mitmedialabspeechdataset(麻省理工學院媒體實驗室語音數(shù)據(jù)集)、pitchandvoicingestimatesforaurora2(aurora2語音庫的基因周期和聲調估計)、congressionalspeechdata(國會語音數(shù)據(jù))、mandarinspeechframedata(普通話語音幀數(shù)據(jù))、用于測試盲源分離算法的語音數(shù)據(jù)等。

      因此,不同的方言類型可以有不同的識別算法與之對應,特別地不同的識別算法可以對應到不同的方言類型的標準語音的語音數(shù)據(jù)庫;因此對于確定的方言類型,可以有針對性地提高識別速度和準確度。

      在首次識別過程中,由于還沒有確定識別算法,在本步驟中可以使用普通話對應的語音數(shù)據(jù)庫進行初次識別。

      103:對照語音識別得到的特征信息與上述標準語音之間的差異性,確定執(zhí)行語音識別的識別算法。

      可以理解的是,根據(jù)差異性可以確定對應的語音數(shù)據(jù)庫,例如:對于不同的方言類型,可以有不同方言的語音數(shù)據(jù)庫與識別算法配套使用。需要說明的是,依據(jù)上述差異性可以確定使用終端設備的用戶使用的哪一種方言,但是也可以不必確定方言類型,而是僅獲得這種差異性,使用這種差異性直接對應到某一種特定的識別算法。

      在本實施例中,通過提供標準文檔,可以讓用戶讀標準文檔,由于存在標注語音作為先驗信息,那么可以更方便找到差異性從而確定方言的類型,甚至方言類型對應的更細化的習慣性口音,從而確定更為合適的算法,因此可以提高非標準語音的識別的準確率。

      在一個可選的實現(xiàn)方式中,本實施例還提供了依據(jù)差異性確定方言類型的實現(xiàn)方式,具體如下:上述確定執(zhí)行語音識別的識別算法包括:

      首先依據(jù)上述差異性確定方言類型,然后確定與上述方言類型對應的識別算法作為執(zhí)行語音識別的識別算法。

      不同的方言類型可以較為方便的建立對應的語音數(shù)據(jù)庫。

      方言類型是指方言所屬的種類。目前在中國主要有如下七種,分別為:

      1、北方話(簡稱:北語);

      2、廣東話(簡稱:粵語);

      3、江浙話(簡稱:吳語);

      4、福建話(簡稱:閩語);

      5、湖南話(簡稱:湘語);

      6、江西話(簡稱:贛語);

      7、客家話(簡稱:客語)。

      除此之外還有很多其他的方言類型,在此不再一一羅列。

      那么可以建立上述七種方言的類型對應的語音數(shù)據(jù)庫。這樣可以減小數(shù)據(jù)庫所需占用的存儲資源,并且減少識別算法進行的計算量。

      在一個可選的實現(xiàn)方式中,本發(fā)明實施例還提供了調整標準文檔的實現(xiàn)方案,具體如下:上述顯示標準文檔包括:

      在顯示標準文檔過程中,依據(jù)確定的方言類型調整上述標準文檔。

      在本實施例中,標準文檔可以依各地方言的發(fā)音特點,總結一個初始的文檔來初步確定方言類型,然后在語音識別過程中,調整標準文檔來進一步驗證之前確定的方言類型是否正確。采用本實施例方案,可以更為準確的確定方言類型。

      在一個可選的實現(xiàn)方式中,本實施例還提供了地理位置確定標準文檔的方案如下:上述顯示標準文檔之前,上述方法還包括:

      按照上述終端設備所處的地理位置,使用與上述地理位置所屬的方言區(qū)域對應的標準文檔。

      在本實施例中,地理位置可以使用經(jīng)緯度,或者行政區(qū)劃等方式來表示;也可以使用預置的方言區(qū)域劃分來表示,并不僅限于經(jīng)緯度的方式來表示該地理位置。由于方言區(qū)域與方言類型由直接關系,因此在確定地理位置后可以作為參考來提供更有針對性的標準文檔,方便在后續(xù)語音識別過程中提取相應到差異性進行確認。

      在一個可選的實現(xiàn)方式中,由于即時獲取的地理位置信息未必是終端設備的常用或者真實的能夠體現(xiàn)其方言區(qū)域的位置,例如:出差客戶的終端設備,因此本發(fā)明實施例提供了解決方案如下:在按照上述終端設備所處的地理位置,使用與上述地理位置所屬的方言區(qū)域對應的標準文檔之前,上述方法還包括:

      統(tǒng)計上述移動終端所處的位置信息得到歷史記錄集;分析上述歷史記錄集,得到上述移動終端所屬的地理區(qū)域作為上述地理位置。

      在本實施例中,采用歷史記錄集的方式來確定終端設備真實所屬的區(qū)域,這樣可以避免終端設備頻繁在各種不同方言區(qū)域移動導致判斷不準確的問題。

      上述分析歷史記錄集的方式,可以如:確定終端設備在某地理區(qū)域持續(xù)的時間最長,則該地理區(qū)域可以作為該終端設備最可能的真實地理位置區(qū)域。例如:汽車停放最多的地理位置,手機晚上所在最多的地理位置等等。

      在一個可選的實現(xiàn)方式中,本實施例還提供了使用多種語音庫的實現(xiàn)方案,具體如下:在確定執(zhí)行語音識別的識別算法之后,上述方法還包括:

      依據(jù)上述差異性確定至少兩種標準語音庫,使用上述至少兩種語音庫以及上述識別算法,獲得可能性最大的至少兩種識別結果;

      獲得上述至少兩種識別結果中相對準確的識別結果,確定上述相對準確的識別結果所對應的識別算法作為上述終端設備后續(xù)進行語音識別使用的識別算法。

      前述實施例中以及確定了識別算法,后續(xù)可以使用多種標準語音庫配套該識別算法進行識別,并輸出多種識別結果;上述相對準確的識別結果可以是用戶輸入指令告知的信息,通過用戶的配合可以進一步選擇更為優(yōu)選的識別算法。

      對于方言而言,即是在確定了方言類型的情況下,仍然有可能會有方言差異性,可以針對更為細化的方言進行更為準確的識別,例如:

      吳語又稱江浙話或江南話。過去以蘇州話為代表,現(xiàn)今隨著上海市的經(jīng)濟發(fā)展,使上海話使用的人口不斷的增多,通曉上海話也逐漸多。因此現(xiàn)今吳語的代表是上海話。通行地域主要是江蘇省長江以南、鎮(zhèn)江以東,南通小部份,上海及浙江大部份地區(qū),可分為五個片:

      (1)以上海話為代表的太湖片,通行地域:上海市、常州地區(qū)、杭州地區(qū)和寧波地區(qū)。

      (2)以臨海話為代表的臺州片。

      (3)以溫州話為代表的東歐片。

      (4)以金華話為代表婺州片。

      (5)以麗水話為代表的麗衢片。

      可見,即是同一個方言類型也會分為多種更為細化的分支,因此建立相應的數(shù)據(jù)庫可以進一步提高語音識別的準確性。

      在一個可選的實現(xiàn)方式中,本發(fā)明實施例還提供了進一步矯正識別算法的選擇方案,如圖2所示,是本發(fā)明實施例的另一種實現(xiàn)方案如下:

      201:獲得終端設備所在的地理位置,該地理位置對應了一個方言區(qū)域;該方言區(qū)域可能有一種或者一種以上的方言類型,據(jù)此初步確定方言類型;

      202:顯示標準文檔,并采集用戶讀標準文檔的語音數(shù)據(jù);

      該標準文檔是基于前面初步確定的方言類型確定。

      203:對采集的語音數(shù)據(jù)進行識別,與上述方言類型的標準語音進行比對,獲得差異性;

      本步驟的識別算法可以使用204中確定方言類型對應的識別算法,在首次執(zhí)行的情況下可以使用與終端設備所使用的語言類型對應的識別算法,也可以使用201中初步確定的方言類型對應的識別算法。

      204:依據(jù)上述差異性確定方言類型;回到202,調整標準文檔到與確定的方言類型相適應的標準文檔;

      上述202到204,可以執(zhí)行到確定的方言類型穩(wěn)定,也可以執(zhí)行預定次數(shù)后進入205。

      205:獲得與上述確定方言類型對應的識別算法,在后續(xù)語音識別的過程中使用。

      如圖3所示,為本發(fā)明實施例提供的一種語音識別設備,該語音識別設備可以為終端設備,具體包括:

      顯示單元301,用于顯示標準文檔;

      采集單元302,用于采集用戶讀上述標準文檔的語音數(shù)據(jù);

      語音獲得單元303,用于獲得上述標準文檔對應的標準語音;

      識別單元304,用于對上述語音數(shù)據(jù)進行語音識別;

      算法確定單元305,用于對照語音識別得到的特征信息與上述標準語音之間的差異性,確定執(zhí)行語音識別的識別算法。

      上述采集語音數(shù)據(jù),可以是人對著終端設備說話,由終端設備的語音拾取設備,例如:話筒,采集用戶輸入的語音數(shù)據(jù)。

      在首次識別過程中,由于還沒有確定識別算法,在本步驟中可以使用普通話對應的語音數(shù)據(jù)庫進行初次識別。

      可以理解的是,根據(jù)差異性可以確定對應的語音數(shù)據(jù)庫,例如:對于不同的方言類型,可以有不同方言的語音數(shù)據(jù)庫與識別算法配套使用。需要說明的是,依據(jù)上述差異性可以確定使用終端設備的用戶使用的哪一種方言,但是也可以不必確定方言類型,而是僅獲得這種差異性,使用這種差異性直接對應到某一種特定的識別算法。

      在本實施例中,通過提供標準文檔,可以讓用戶讀標準文檔,由于存在標注語音作為先驗信息,那么可以更方便找到差異性從而確定方言的類型,甚至方言類型對應的更細化的習慣性口音,從而確定更為合適的算法,因此可以提高非標準語音的識別的準確率。

      在一個可選的實現(xiàn)方式中,本實施例還提供了依據(jù)差異性確定方言類型的實現(xiàn)方式,具體如下:上述算法確定單元305,用于確定執(zhí)行語音識別的識別算法包括:

      首先依據(jù)上述差異性確定方言類型,然后確定與上述方言類型對應的識別算法作為執(zhí)行語音識別的識別算法。

      不同的方言類型可以較為方便的建立對應的語音數(shù)據(jù)庫。

      那么可以建立上述七種方言的類型對應的語音數(shù)據(jù)庫。這樣可以減小數(shù)據(jù)庫所需占用的存儲資源,并且減少識別算法進行的計算量。

      在一個可選的實現(xiàn)方式中,本發(fā)明實施例還提供了調整標準文檔的實現(xiàn)方案,具體如下:上述顯示單元301,用于顯示標準文檔包括:

      在顯示標準文檔過程中,依據(jù)確定的方言類型調整上述標準文檔。

      在本實施例中,標準文檔可以依各地方言的發(fā)音特點,總結一個初始的文檔來初步確定方言類型,然后在語音識別過程中,調整標準文檔來進一步驗證之前確定的方言類型是否正確。采用本實施例方案,可以更為準確的確定方言類型。

      在一個可選的實現(xiàn)方式中,本實施例還提供了地理位置確定標準文檔的方案如下:上述顯示單元301,還用于在顯示標準文檔之前,按照上述終端設備所處的地理位置,使用與上述地理位置所屬的方言區(qū)域對應的標準文檔。

      在本實施例中,地理位置可以使用經(jīng)緯度,或者行政區(qū)劃等方式來表示;也可以使用預置的方言區(qū)域劃分來表示,并不僅限于經(jīng)緯度的方式來表示該地理位置。由于方言區(qū)域與方言類型由直接關系,因此在確定地理位置后可以作為參考來提供更有針對性的標準文檔,方便在后續(xù)語音識別過程中提取相應到差異性進行確認。

      在一個可選的實現(xiàn)方式中,由于即時獲取的地理位置信息未必是終端設備的常用或者真實的能夠體現(xiàn)其方言區(qū)域的位置,例如:出差客戶的終端設備,因此本發(fā)明實施例提供了解決方案如下:上述設備還包括:統(tǒng)計單元306,用于在按照上述終端設備所處的地理位置,使用與上述地理位置所屬的方言區(qū)域對應的標準文檔之前,統(tǒng)計上述移動終端所處的位置信息得到歷史記錄集;分析上述歷史記錄集,得到上述移動終端所屬的地理區(qū)域作為上述地理位置。

      在本實施例中,采用歷史記錄集的方式來確定終端設備真實所屬的區(qū)域,這樣可以避免終端設備頻繁在各種不同方言區(qū)域移動導致判斷不準確的問題。

      上述分析歷史記錄集的方式,可以如:確定終端設備在某地理區(qū)域持續(xù)的時間最長,則該地理區(qū)域可以作為該終端設備最可能的真實地理位置區(qū)域。例如:汽車停放最多的地理位置,手機晚上所在最多的地理位置等等。

      在一個可選的實現(xiàn)方式中,本實施例還提供了使用多種語音庫的實現(xiàn)方案,具體如下:上述識別單元304,還用于在確定執(zhí)行語音識別的識別算法之后,依據(jù)上述差異性確定至少兩種標準語音庫,使用上述至少兩種語音庫以及上述識別算法,獲得可能性最大的至少兩種識別結果;

      獲得上述至少兩種識別結果中相對準確的識別結果,確定上述相對準確的識別結果所對應的識別算法作為上述終端設備后續(xù)進行語音識別使用的識別算法。

      前述實施例中以及確定了識別算法,后續(xù)可以使用多種標準語音庫配套該識別算法進行識別,并輸出多種識別結果;上述相對準確的識別結果可以是用戶輸入指令告知的信息,通過用戶的配合可以進一步選擇更為優(yōu)選的識別算法。

      如圖4所示,本發(fā)明實施例還提供了一種終端設備,包括處理單元401和輸入輸出單元403,處理單元402用于對終端設備的動作進行控制管理,例如,處理單元402用于支持終端設備執(zhí)行圖1中的步驟101-103或用于本文所描述的技術的其它過程。輸入輸出單元403用于支持數(shù)據(jù)輸入和輸出。終端設備還可以包括存儲單元401,用于存儲終端設備的程序代碼和數(shù)據(jù)。

      其中,處理單元402可以是處理器或控制器,例如可以是中央處理器(centralprocessingunit,cpu),通用處理器,數(shù)字信號處理器(digitalsignalprocessor,dsp),專用集成電路(application-specificintegratedcircuit,asic),現(xiàn)場可編程門陣列(fieldprogrammablegatearray,fpga)或者其他可編程邏輯器件、晶體管邏輯器件、硬件部件或者其任意組合。其可以實現(xiàn)或執(zhí)行結合本發(fā)明公開內容所描述的各種示例性的邏輯方框,模塊和電路。上述處理器也可以是實現(xiàn)計算功能的組合,例如包含一個或多個微處理器組合,dsp和微處理器的組合等等。輸入輸出單元403可以話筒、聽筒、喇叭等,存儲單元401可以是存儲器。

      其中,上述輸入輸出單元403,用于接收輸入的數(shù)據(jù)和輸出數(shù)據(jù);

      上述處理單元401,用于控制顯示標準文檔,采集用戶讀上述標準文檔的語音數(shù)據(jù);獲得上述標準文檔對應的標準語音,對上述語音數(shù)據(jù)進行語音識別;對照語音識別得到的特征信息與上述標準語音之間的差異性,確定執(zhí)行語音識別的識別算法。

      在一個可選的實現(xiàn)方式中,上述處理單元401,用于確定執(zhí)行語音識別的識別算法包括:首先依據(jù)上述差異性確定方言類型,然后確定與上述方言類型對應的識別算法作為執(zhí)行語音識別的識別算法。

      上述處理器401還用于執(zhí)行的其他流程可以參考前文方法實施例,在此不再一一贅述。

      請參閱圖5,圖5是本發(fā)明實施例提供的一種終端設備的結構示意圖,如圖所示,該終端設備包括一個或多個處理器、存儲器、通信接口以及一個或多個程序,其中,上述一個或多個程序被存儲在上述存儲器中,并且被配置由上述一個或多個處理器執(zhí)行,上述程序包括用于執(zhí)行以下步驟的指令;

      顯示標準文檔,采集用戶讀上述標準文檔的語音數(shù)據(jù);

      獲得上述標準文檔對應的標準語音,對上述語音數(shù)據(jù)進行語音識別;

      對照語音識別得到的特征信息與上述標準語音之間的差異性,確定執(zhí)行語音識別的識別算法。

      上述采集語音數(shù)據(jù),可以是人對著終端設備說話,由終端設備的語音拾取設備,例如:話筒,采集用戶輸入的語音數(shù)據(jù)。

      在首次識別過程中,由于還沒有確定識別算法,在本步驟中可以使用普通話對應的語音數(shù)據(jù)庫進行初次識別。

      可以理解的是,根據(jù)差異性可以確定對應的語音數(shù)據(jù)庫,例如:對于不同的方言類型,可以有不同方言的語音數(shù)據(jù)庫與識別算法配套使用。需要說明的是,依據(jù)上述差異性可以確定使用終端設備的用戶使用的哪一種方言,但是也可以不必確定方言類型,而是僅獲得這種差異性,使用這種差異性直接對應到某一種特定的識別算法。

      在本實施例中,通過提供標準文檔,可以讓用戶讀標準文檔,由于存在標注語音作為先驗信息,那么可以更方便找到差異性從而確定方言的類型,甚至方言類型對應的更細化的習慣性口音,從而確定更為合適的算法,因此可以提高非標準語音的識別的準確率。

      在一個可選的實現(xiàn)方式中,本實施例還提供了依據(jù)差異性確定方言類型的實現(xiàn)方式,具體如下:上述確定執(zhí)行語音識別的識別算法包括:

      首先依據(jù)上述差異性確定方言類型,然后確定與上述方言類型對應的識別算法作為執(zhí)行語音識別的識別算法。

      不同的方言類型可以較為方便的建立對應的語音數(shù)據(jù)庫。

      那么可以建立上述七種方言的類型對應的語音數(shù)據(jù)庫。這樣可以減小數(shù)據(jù)庫所需占用的存儲資源,并且減少識別算法進行的計算量。

      在一個可選的實現(xiàn)方式中,本發(fā)明實施例還提供了調整標準文檔的實現(xiàn)方案,具體如下:上述顯示標準文檔包括:

      在顯示標準文檔過程中,依據(jù)確定的方言類型調整上述標準文檔。

      在本實施例中,標準文檔可以依各地方言的發(fā)音特點,總結一個初始的文檔來初步確定方言類型,然后在語音識別過程中,調整標準文檔來進一步驗證之前確定的方言類型是否正確。采用本實施例方案,可以更為準確的確定方言類型。

      在一個可選的實現(xiàn)方式中,本實施例還提供了地理位置確定標準文檔的方案如下:上述顯示標準文檔之前,還包括:

      按照上述終端設備所處的地理位置,使用與上述地理位置所屬的方言區(qū)域對應的標準文檔。

      在本實施例中,地理位置可以使用經(jīng)緯度,或者行政區(qū)劃等方式來表示;也可以使用預置的方言區(qū)域劃分來表示,并不僅限于經(jīng)緯度的方式來表示該地理位置。由于方言區(qū)域與方言類型由直接關系,因此在確定地理位置后可以作為參考來提供更有針對性的標準文檔,方便在后續(xù)語音識別過程中提取相應到差異性進行確認。

      在一個可選的實現(xiàn)方式中,由于即時獲取的地理位置信息未必是終端設備的常用或者真實的能夠體現(xiàn)其方言區(qū)域的位置,例如:出差客戶的終端設備,因此本發(fā)明實施例提供了解決方案如下:在按照上述終端設備所處的地理位置,使用與上述地理位置所屬的方言區(qū)域對應的標準文檔之前,還包括:

      統(tǒng)計上述移動終端所處的位置信息得到歷史記錄集;分析上述歷史記錄集,得到上述移動終端所屬的地理區(qū)域作為上述地理位置。

      在本實施例中,采用歷史記錄集的方式來確定終端設備真實所屬的區(qū)域,這樣可以避免終端設備頻繁在各種不同方言區(qū)域移動導致判斷不準確的問題。

      上述分析歷史記錄集的方式,可以如:確定終端設備在某地理區(qū)域持續(xù)的時間最長,則該地理區(qū)域可以作為該終端設備最可能的真實地理位置區(qū)域。例如:汽車停放最多的地理位置,手機晚上所在最多的地理位置等等。

      在一個可選的實現(xiàn)方式中,本實施例還提供了使用多種語音庫的實現(xiàn)方案,具體如下:在確定執(zhí)行語音識別的識別算法之后,還包括:

      依據(jù)上述差異性確定至少兩種標準語音庫,使用上述至少兩種語音庫以及上述識別算法,獲得可能性最大的至少兩種識別結果;

      獲得上述至少兩種識別結果中相對準確的識別結果,確定上述相對準確的識別結果所對應的識別算法作為上述終端設備后續(xù)進行語音識別使用的識別算法。

      前述實施例中以及確定了識別算法,后續(xù)可以使用多種標準語音庫配套該識別算法進行識別,并輸出多種識別結果;上述相對準確的識別結果可以是用戶輸入指令告知的信息,通過用戶的配合可以進一步選擇更為優(yōu)選的識別算法。

      上述主要從方法側執(zhí)行過程的角度對本發(fā)明實施例的方案進行了介紹??梢岳斫獾氖牵K端設備為了實現(xiàn)上述功能,其包含了執(zhí)行各個功能相應的硬件結構和/或軟件模塊。本領域技術人員應該很容易意識到,結合本文中所公開的實施例描述的各示例的單元及算法步驟,本發(fā)明能夠以硬件或硬件和計算機軟件的結合形式來實現(xiàn)。某個功能究竟以硬件還是計算機軟件驅動硬件的方式來執(zhí)行,取決于技術方案的特定應用和設計約束條件。專業(yè)技術人員可以對每個特定的應用使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。

      本發(fā)明實施例可以根據(jù)上述方法示例對終端設備進行功能單元的劃分,例如,可以對應各個功能劃分各個功能單元,也可以將兩個或兩個以上的功能集成在一個處理單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。需要說明的是,本發(fā)明實施例中對單元的劃分是示意性的,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式。

      本發(fā)明實施例還提供了另一種終端設備,如圖6所示,為了便于說明,僅示出了與本發(fā)明實施例相關的部分,具體技術細節(jié)未揭示的,請參照本發(fā)明實施例方法部分。該終端設備可以為包括手機、平板電腦、pda(personaldigitalassistant,個人數(shù)字助理)、pos(pointofsales,銷售終端)、車載電腦等任意終端設備,以終端設備為手機為例:

      圖6示出的是與本發(fā)明實施例提供的終端設備相關的手機的部分結構的框圖。參考圖6,手機包括:射頻(radiofrequency,rf)電路910、存儲器920、輸入單元930、顯示單元940、傳感器950、音頻電路960、無線保真(wirelessfidelity,wifi)模塊970、處理器980、以及電源990等部件。本領域技術人員可以理解,圖6中示出的手機結構并不構成對手機的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。

      下面結合圖6對手機的各個構成部件進行具體的介紹:

      rf電路910可用于信息的接收和發(fā)送。通常,rf電路910包括但不限于天線、至少一個放大器、收發(fā)信機、耦合器、低噪聲放大器(lownoiseamplifier,lna)、雙工器等。此外,rf電路910還可以通過無線通信與網(wǎng)絡和其他設備通信。上述無線通信可以使用任一通信標準或協(xié)議,包括但不限于全球移動通訊系統(tǒng)(globalsystemofmobilecommunication,gsm)、通用分組無線服務(generalpacketradioservice,gprs)、碼分多址(codedivisionmultipleaccess,cdma)、寬帶碼分多址(widebandcodedivisionmultipleaccess,wcdma)、長期演進(longtermevolution,lte)、電子郵件、短消息服務(shortmessagingservice,sms)等。

      存儲器920可用于存儲軟件程序以及模塊,處理器980通過運行存儲在存儲器920的軟件程序以及模塊,從而執(zhí)行手機的各種功能應用以及數(shù)據(jù)處理。存儲器920可主要包括存儲程序區(qū)和存儲數(shù)據(jù)區(qū),其中,存儲程序區(qū)可存儲操作系統(tǒng)、至少一個功能所需的應用程序等;存儲數(shù)據(jù)區(qū)可存儲根據(jù)手機的使用所創(chuàng)建的數(shù)據(jù)(比如應用的使用參數(shù)等)等。此外,存儲器920可以包括高速隨機存取存儲器,還可以包括非易失性存儲器,例如至少一個磁盤存儲器件、閃存器件、或其他易失性固態(tài)存儲器件。

      輸入單元930可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與手機的用戶設置以及功能控制有關的鍵信號輸入。具體地,輸入單元930可包括指紋傳感器931以及其他輸入設備932。指紋傳感器931,可采集用戶在其上的指紋數(shù)據(jù)。除了指紋傳感器931,輸入單元930還可以包括其他輸入設備932。具體地,其他輸入設備932可以包括但不限于觸控屏、物理按鍵、功能鍵(比如音量控制按鍵、開關按鍵等)、軌跡球、鼠標、操作桿等中的一種或多種。

      顯示單元940可用于顯示由用戶輸入的信息或提供給用戶的信息以及手機的各種菜單。顯示單元940可包括顯示屏941,可選的,可以采用液晶顯示器(liquidcrystaldisplay,lcd)、有機發(fā)光二極管(organiclight-emittingdiode,oled)等形式來配置顯示屏941。雖然在圖6中,指紋傳感器931與顯示屏941是作為兩個獨立的部件來實現(xiàn)手機的輸入和輸入功能,但是在某些實施例中,可以將指紋傳感器931與顯示屏941集成而實現(xiàn)手機的輸入和播放功能。

      手機還可包括至少一種傳感器950,比如光傳感器、運動傳感器以及其他傳感器。具體地,光傳感器可包括環(huán)境光傳感器及接近傳感器,其中,環(huán)境光傳感器可根據(jù)環(huán)境光線的明暗來調節(jié)顯示屏941的亮度,接近傳感器可在手機移動到耳邊時,關閉顯示屏941和/或背光。作為運動傳感器的一種,加速計傳感器可檢測各個方向上(一般為三軸)加速度的大小,靜止時可檢測出重力的大小及方向,可用于識別手機姿態(tài)的應用(比如橫豎屏切換、相關游戲、磁力計姿態(tài)校準)、振動識別相關功能(比如計步器、敲擊)等;至于手機還可配置的陀螺儀、氣壓計、濕度計、溫度計、紅外線傳感器等其他傳感器,在此不再贅述。

      音頻電路960、揚聲器961,傳聲器962可提供用戶與手機之間的音頻接口。音頻電路960可將接收到的音頻數(shù)據(jù)轉換后的電信號,傳輸?shù)綋P聲器961,由揚聲器961轉換為聲音信號播放;另一方面,傳聲器962將收集的聲音信號轉換為電信號,由音頻電路960接收后轉換為音頻數(shù)據(jù),再將音頻數(shù)據(jù)播放處理器980處理后,經(jīng)rf電路910以發(fā)送給比如另一手機,或者將音頻數(shù)據(jù)播放至存儲器920以便進一步處理。

      wifi屬于短距離無線傳輸技術,手機通過wifi模塊970可以幫助用戶收發(fā)電子郵件、瀏覽網(wǎng)頁和訪問流式媒體等,它為用戶提供了無線的寬帶互聯(lián)網(wǎng)訪問。雖然圖6示出了wifi模塊970,但是可以理解的是,其并不屬于手機的必須構成,完全可以根據(jù)需要在不改變發(fā)明的本質的范圍內而省略。

      處理器980是手機的控制中心,利用各種接口和線路連接整個手機的各個部分,通過運行或執(zhí)行存儲在存儲器920內的軟件程序和/或模塊,以及調用存儲在存儲器920內的數(shù)據(jù),執(zhí)行手機的各種功能和處理數(shù)據(jù),從而對手機進行整體監(jiān)控??蛇x的,處理器980可包括一個或多個處理單元;優(yōu)選的,處理器980可集成應用處理器和調制解調處理器,其中,應用處理器主要處理操作系統(tǒng)、用戶界面和應用程序等,調制解調處理器主要處理無線通信??梢岳斫獾氖?,上述調制解調處理器也可以不集成到處理器980中。

      手機還包括給各個部件供電的電源990(比如電池),優(yōu)選的,電源可以通過電源管理系統(tǒng)與處理器980邏輯相連,從而通過電源管理系統(tǒng)實現(xiàn)管理充電、放電、以及功耗管理等功能。

      盡管未示出,手機還可以包括攝像頭、藍牙模塊等,在此不再贅述。

      前述圖1和2所示的實施例中,各步驟方法流程可以基于該手機的結構實現(xiàn)。

      前述圖3~4所示的實施例中,各單元功能可以基于該手機的結構實現(xiàn)。

      本發(fā)明實施例還提供一種計算機存儲介質,其中,該計算機存儲介質存儲用于電子數(shù)據(jù)交換的計算機程序,該計算機程序使得計算機執(zhí)行如上述方法實施例中記載的任一方法的部分或全部步驟,上述計算機包括終端設備。

      本發(fā)明實施例還提供一種計算機程序產(chǎn)品,上述計算機程序產(chǎn)品包括存儲了計算機程序的非瞬時性計算機可讀存儲介質,上述計算機程序可操作來使計算機執(zhí)行如上述方法實施例中記載的任一方法的部分或全部步驟。該計算機程序產(chǎn)品可以為一個軟件安裝包,上述計算機包括終端設備。

      需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。

      在上述實施例中,對各個實施例的描述都各有側重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關描述。

      在本申請所提供的幾個實施例中,應該理解到,所揭露的裝置,可通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如上述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性或其它的形式。

      上述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。

      另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。

      上述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲器中?;谶@樣的理解,本發(fā)明的技術方案本質上或者說對現(xiàn)有技術做出貢獻的部分或者該技術方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲器中,包括若干指令用以使得一臺計算機設備(可為個人計算機、服務器或者網(wǎng)絡設備等)執(zhí)行本發(fā)明各個實施例上述方法的全部或部分步驟。而前述的存儲器包括:u盤、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質。

      本領域普通技術人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關的硬件來完成,該程序可以存儲于一計算機可讀存儲器中,存儲器可以包括:閃存盤、只讀存儲器(英文:read-onlymemory,簡稱:rom)、隨機存取器(英文:randomaccessmemory,簡稱:ram)、磁盤或光盤等。

      以上對本發(fā)明實施例進行了詳細介紹,本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領域的一般技術人員,依據(jù)本發(fā)明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發(fā)明的限制。

      當前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1