国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      基于人工智能的語音喚醒方法和裝置與流程

      文檔序號:11097796閱讀:1042來源:國知局
      基于人工智能的語音喚醒方法和裝置與制造工藝

      本發(fā)明涉及語音識別技術領域,尤其涉及一種基于人工智能的語音喚醒方法和裝置。



      背景技術:

      人工智能(Artificial Intelligence),英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學。人工智能是計算機科學的一個分支,它企圖了解智能的實質,并生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語音識別、圖像識別、自然語言處理和專家系統(tǒng)等。其中,人工智能最重要的應用方面就是語音識別技術。

      而語音喚醒技術是語音識別技術中的重要方向之一,具體來說,語音喚醒技術是通過在終端處于待機狀態(tài)下,用戶說出特定的喚醒詞,對終端進行喚醒,以激活系統(tǒng),從而實現(xiàn)相應的操作或服務。

      在現(xiàn)有技術中,通常將喚醒詞和垃圾詞并聯(lián)形成一個解碼網絡,根據用戶語音的聲學特征,在解碼網絡中尋找最為匹配的識別結果,根據識別結果對終端進行喚醒。在構建垃圾詞時,若選擇的漢字量較少,就不能獲得較高的識別準確,而若選擇的漢字量較多,又會導致數據量過大,占用設備存儲空間以及影響運算效率。



      技術實現(xiàn)要素:

      本發(fā)明旨在至少在一定程度上解決相關技術中的技術問題之一。

      為此,本發(fā)明的第一個目的在于提出一種基于人工智能的語音喚醒方法,以通過利用垃圾音素構建垃圾音素模型,解決現(xiàn)有技術中垃圾詞模型占用數據量過大的問題,同時,通過垃圾音素來表征全部的語音,提高了喚醒精度,減少誤喚醒的概率。

      本發(fā)明的第二個目的在于提出一種基于人工智能的語音喚醒裝置。

      本發(fā)明的第三個目的在于提出另一種基于人工智能的語音喚醒裝置。

      本發(fā)明的第四個目的在于提出一種非臨時性計算機可讀存儲介質。

      本發(fā)明的第五個目的在于提出一種計算機程序產品。

      為達上述目的,本發(fā)明第一方面實施例提出了一種基于人工智能的語音喚醒方法,包括:

      對各音素進行聚類,以選取出用于指代全部音素的垃圾音素;

      根據預先設定的喚醒詞,構建與所述喚醒詞相似的反喚醒詞;

      根據所述垃圾音素、所述反喚醒詞和所述喚醒詞構建解碼網絡;

      利用所述解碼網絡進行語音喚醒。

      本發(fā)明實施例的基于人工智能的語音喚醒方法,通過對各音素進行聚類,以選取出用于指代全部音素的垃圾音素,以及根據預先設定的喚醒詞,構建與所述喚醒詞相似的反喚醒詞之后,根據垃圾音素、反喚醒詞和喚醒詞構建解碼網絡,從而可以利用該解碼網絡進行語音喚醒。由于垃圾音素的數據量明顯少于垃圾詞的數據量,解決了現(xiàn)有技術中垃圾詞模型占用數據量過大的問題,同時,由于詞匯是由有限個音素所構成的,因此,垃圾音素相較于垃圾詞也更能夠較為全面覆蓋全部詞匯提高了喚醒精度,減少誤喚醒的概率。

      為達上述目的,本發(fā)明第二方面實施例提出了一種基于人工智能的語音喚醒裝置,包括:

      第一選取模塊,用于對各音素進行聚類,以選取出用于指代全部音素的垃圾音素;

      第二選取模塊,用于根據預先設定的喚醒詞,構建與所述喚醒詞相似的反喚醒詞;

      構建模塊,用于根據所述垃圾音素、所述反喚醒詞和所述喚醒詞構建解碼網絡;

      喚醒模塊,用于利用所述解碼網絡進行語音喚醒。

      本發(fā)明實施例的基于人工智能的語音喚醒裝置,通過第一選取模塊對各音素進行聚類,以選取出用于指代全部音素的垃圾音素,以及第二選取模塊根據預先設定的喚醒詞,構建模塊構建與所述喚醒詞相似的反喚醒詞之后,喚醒模塊根據垃圾音素、反喚醒詞和喚醒詞構建解碼網絡,從而可以利用該解碼網絡進行語音喚醒。由于垃圾音素的數據量明顯少于垃圾詞的數據量,解決了現(xiàn)有技術中垃圾詞模型占用數據量過大的問題,同時,由于詞匯是由有限個音素所構成的,因此,垃圾音素相較于垃圾詞也更能夠較為全面覆蓋全部詞匯提高了喚醒精度,減少誤喚醒的概率。

      為達上述目的,本發(fā)明第三方面實施例提出了另一種基于人工智能的語音喚醒裝置,包括:處理器;用于存儲所述處理器可執(zhí)行指令的存儲器;其中,所述處理器被配置為:對各音素進行聚類,以選取出用于指代全部音素的垃圾音素;根據預先設定的喚醒詞,構建與所述喚醒詞相似的反喚醒詞;根據所述垃圾音素、所述反喚醒詞和所述喚醒詞構建解碼網絡;利用所述解碼網絡進行語音喚醒。

      為了實現(xiàn)上述目的,本發(fā)明第四方面實施例提出了一種非臨時性計算機可讀存儲介質,當所述存儲介質中的指令由終端的處理器被執(zhí)行時,使得終端能夠執(zhí)行一種基于人工智能的語音喚醒方法,所述方法包括:對各音素進行聚類,以選取出用于指代全部音素的垃圾音素;根據預先設定的喚醒詞,構建與所述喚醒詞相似的反喚醒詞;根據所述垃圾音素、所述反喚醒詞和所述喚醒詞構建解碼網絡;利用所述解碼網絡進行語音喚醒。

      為了實現(xiàn)上述目的,本發(fā)明第五方面實施例提出了一種計算機程序產品,當所述計算機程序產品中的指令由處理器執(zhí)行時,執(zhí)行一種基于人工智能的語音喚醒方法,所述方法包括:對各音素進行聚類,以選取出用于指代全部音素的垃圾音素;根據預先設定的喚醒詞,構建與所述喚醒詞相似的反喚醒詞;根據所述垃圾音素、所述反喚醒詞和所述喚醒詞構建解碼網絡;利用所述解碼網絡進行語音喚醒。

      本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。

      附圖說明

      本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:

      圖1為本發(fā)明實施例所提供的一種基于人工智能的語音喚醒方法的流程示意圖;

      圖2為音素及對應狀態(tài)的示意圖;

      圖3為本發(fā)明實施例所提供的另一種基于人工智能的語音喚醒方法的流程示意圖;

      圖4為解碼網絡的結構示意圖;

      圖5為本發(fā)明實施例提供的一種人工智能的語音喚醒裝置的結構示意圖;以及

      圖6為本發(fā)明實施例提供的又一種人工智能的語音喚醒裝置的結構示意圖。

      具體實施方式

      下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。

      下面參考附圖描述本發(fā)明實施例的基于人工智能的語音喚醒方法和裝置。

      圖1為本發(fā)明實施例所提供的一種基于人工智能的語音喚醒方法的流程示意圖。

      由于在現(xiàn)有技術中,通常將喚醒詞和垃圾詞并聯(lián)形成一個解碼網絡進行喚醒,但在構建垃圾詞時,若選擇的漢字量較少,就不能獲得較高的識別準確,而若選擇的漢字量較多,又會導致數據量過大,占用設備存儲空間以及影響運算效率。針對這一問題,本發(fā)明實施例提供了基于人工智能的語音喚醒方法,通過利用垃圾音素構建垃圾音素模型,解決現(xiàn)有技術中垃圾詞模型占用數據量過大的問題,同時,通過垃圾音素來表征全部的語音,提高了喚醒精度,減少誤喚醒的概率,如圖1所示,該基于人工智能的語音喚醒方法包括以下步驟:

      步驟101,對各音素進行聚類,以選取出用于指代全部音素的垃圾音素。

      具體地,獲取各個音素和各個音素對應的狀態(tài),在各個音素中隨機選取目標音素,并將所述目標音素添加到垃圾音素集合中,以該目標音素作為起點,在各個音素中查詢與所述目標音素距離最遠的音素,并將所查詢到的音素添加到所述垃圾音素集合中。

      在將所查詢到的音素作為所述目標音素,循環(huán)執(zhí)行前述以目標音素作為起點,在各個音素中查詢與所述目標音素距離最遠的音素,并將所查詢到的音素添加到所述垃圾音素集合中的過程,直至垃圾音素集合中的音素數量為預設的第一數量。

      需要說明的是,在獲取各個音素和各個音素對應的狀態(tài)時,是基于統(tǒng)計模型,例如隱馬爾可夫模型(Hidden Markov Model,HMM),HMM是常被應用于語音識別。在語音識別領域中,在對語音識別這一隨機過程中,一般都是有限長的隨機序列,可能是一維的觀察序列或編碼符號序列,可以是多維的矢量序列,可以統(tǒng)稱為觀察序列,一個具有多個狀態(tài)的統(tǒng)計模型是用參數表示的用于描述前述隨機序列的統(tǒng)計特性的概率模型,模型的具體內容可參見技術文獻中語音識別技術的相關描述,本實施例中對此不再贅述。

      在本實施例中,每一個音素具有三個狀態(tài)進行描述,在實際使用過程中,本領域技術人員可以選用更多或者更少的狀態(tài)數量,本實施例中對此不做限定。圖2為音素及對應狀態(tài)的示意圖,如圖2所示,P1和P2分別表示音素,其中,P1由狀態(tài)S11,S12,S13構成,P1的每個狀態(tài)用P1的混合高斯模型擬合獲得;P2由狀態(tài)S21,S22,S23構成,P2的每個狀態(tài)用P2的混合高斯模型擬合獲得。

      步驟102,根據預先設定的喚醒詞,構建與所述喚醒詞相似的反喚醒詞。

      具體地,從與所述喚醒詞發(fā)音相似的詞語列表中,選取字數少于所述喚醒詞字數的音近詞;將所述喚醒詞中的部分字與所述音近詞組合,以構建所述反喚醒詞。

      例如:喚醒詞是“小度你好”,對應的反喚醒詞為喚醒詞的第一個字,即“小”,以及音近詞的組合,如“小布你”,“交度你”等。

      可選地,作為一種可能的實現(xiàn)方式,可以采用如下方式對反喚醒詞進行構建:

      首先,生成與喚醒詞發(fā)音相似的詞語列表,這個詞語列表可以由語文專業(yè)人員編訂,也可參考國家發(fā)布的詞典;

      進而,假設喚醒詞的字數為n,例如,“小度你好”中,n取值為4,從列表中所選取的音近詞,可以根據喚醒詞的字數n分為(n-2)類,各類的音近詞的字數分別由(n-1)遞減至2,例如:“小度你好”,n=4,則音近詞可分為4-2=2類,分別是三字詞類和兩字詞類;

      最后,從每一類中,選擇不多于3個音近詞,由這些音近詞與喚醒詞中的一個或者多個字組合成反喚醒詞。例如:在“小度你好”作為喚醒詞時,可以保持喚醒詞的第一個或最后一個詞不變,從三字詞類的音近詞中,隨機選取連續(xù)的三個字“小度你”或者“度你好”,對“小度你好”中的其余部分進行替換,獲得的反喚醒詞可以為“小布你”,“度你少”,“不你好”等等。

      步驟103,根據垃圾音素、反喚醒詞和喚醒詞構建解碼網絡。

      將垃圾音素、反喚醒詞和喚醒詞并聯(lián),從而構建解碼網絡。

      步驟104,利用所述解碼網絡進行語音喚醒。

      具體地,對輸入的用戶語音提取聲學特征,將所提取到的聲學特征輸入解碼網絡,以采用動態(tài)規(guī)劃算法,在解碼網絡中計算得到為最優(yōu)路徑的識別結果,根據識別結果,對終端進行喚醒。

      本實施例中,通過對各音素進行聚類,以選取出用于指代全部音素的垃圾音素,以及根據預先設定的喚醒詞,構建與所述喚醒詞相似的反喚醒詞之后,根據垃圾音素、反喚醒詞和喚醒詞構建解碼網絡,從而可以利用該解碼網絡進行語音喚醒。由于垃圾音素的數據量明顯少于垃圾詞的數據量,解決了現(xiàn)有技術中垃圾詞模型占用數據量過大的問題,同時,由于詞匯是由有限個音素所構成的,因此,垃圾音素相較于垃圾詞也更能夠較為全面覆蓋全部詞匯提高了喚醒精度,減少誤喚醒的概率。

      為了清楚說明上一實施例,本實施例提供了另一種基于人工智能的語音喚醒方法,圖3為本發(fā)明實施例所提供的另一種基于人工智能的語音喚醒方法的流程示意圖。

      如圖3所示,該基于人工智能的語音喚醒方法可以包括以下步驟:

      步驟201,獲取各個音素和各個音素對應的狀態(tài)。

      具體地,針對每一個音素,利用混合高斯模型對所述音素的各狀態(tài)進行擬合,得到所述音素的混合高斯模型,采用多個語音的樣本和語音的標注對所得到的各音素的混合高斯模型進行參數優(yōu)化,根據各混合高斯模型之間,優(yōu)化后參數的相似度,對各音素的混合高斯模型進行排序,得到對應的所述各個音素,以及各個音素的狀態(tài)。

      步驟202,在各個音素中隨機選取目標音素,并將所述目標音素添加到垃圾音素集合中。

      步驟203,以該目標音素作為起點,在各個音素中查詢與所述目標音素距離最遠的音素,并將所查詢到的音素添加到所述垃圾音素集合中。

      具體地,根據公式S=(SM1-SN1)2+(SM2-SN2)2+(SM3-SN3)2計算所述目標音素PM與各音素PN之間的距離S;其中,SM1、SM2和SM3分別為所述目標音素PM的三個狀態(tài),SN1、SN2和SN3分別為所述音素PN的三個狀態(tài);根據所計算出的距離S,選取S取值最大的音素。

      步驟204,判斷垃圾音素集合中的音素數量是否達到第一數量,若是,執(zhí)行步驟205,否則將所查詢到的音素作為所述目標音素重復執(zhí)行步驟203。

      步驟205,根據垃圾音素在樣本語音中的出現(xiàn)頻率,對垃圾音素進行篩選。

      具體地,利用各個音素,對多個樣本語音分別進行識別,以得到匹配中的音素;從匹配中的音素中,按照匹配數量從多至少進行排序,選取排序為前第二數量的音素,作為篩選集合;根據所述篩選集合對所述垃圾音素進行篩選,保留處于所述篩選集合中的垃圾音素。

      例如:垃圾音素的集合記為集合K,篩選集合記為集合T,將集合K和集合T的交集中的元素作為垃圾音素。

      通過如上步驟完成垃圾音素的構建,本實施例中通過構建、篩選等操作優(yōu)化了垃圾音素,能夠更好的區(qū)分喚醒詞和其他內容的權重,能夠極大的防止非喚醒詞喚醒,有效的降低了誤報率,極大的提升用戶體驗。同時,使得本實施例的喚醒精度更高,由于采用了垃圾音素代替垃圾詞的方法,使得解碼網絡識別過程中,對用戶輸入的喚醒詞和非喚醒詞能夠更好的區(qū)分,權重更加合理,在降低喚醒誤報率的同時,提升了喚醒的正確率。

      進一步,功耗方面,由于垃圾音素和喚醒詞并聯(lián),而不是采用整個識別系統(tǒng)內存占用小,使得內存得到了極大的優(yōu)化,終端的功耗更低。

      步驟206,根據預先設定的喚醒詞,構建與喚醒詞相似的反喚醒詞,并利用喚醒詞、反喚醒詞和垃圾音素構建解碼網絡。

      從與所述喚醒詞發(fā)音相似的詞語列表中,選取字數少于所述喚醒詞字數的音近詞;將所述喚醒詞中的部分字與所述音近詞組合,以構建所述反喚醒詞。

      需要說明的是,具體構建反喚醒詞的過程可以參見前述實施例中的描述,本實施例中對此不再贅述。

      根據垃圾音素、反喚醒詞和喚醒詞構建解碼網絡。圖4為解碼網絡的結構示意圖,如圖4所示垃圾音素、反喚醒詞和喚醒詞之間為并聯(lián)關系。

      步驟207,在用戶進行語音輸入時,對輸入的用戶語音提取聲學特征。

      具體地,針對用戶所輸入的語音,識別端點后,進行聲學特征提取的過程,具體聲學特征提取的方法可參見技術文獻中語音識別技術的相關描述,本實施例中對此不再贅述。

      步驟208,將所提取到的聲學特征輸入解碼網絡,以采用動態(tài)規(guī)劃算法,在所述解碼網絡中計算得到為最優(yōu)路徑的識別結果。

      具體來說,常用動態(tài)規(guī)劃算法中的維特比算法,在解碼網絡中算得到為最優(yōu)路徑的識別結果。

      步驟209,計算識別結果的置信度。

      具體地,根據用戶語音中的每一幀在所述解碼網絡中計算得到的最優(yōu)路徑的得分,計算所述用戶語音的平均分值;根據所述喚醒詞中的每一幀在所述解碼網絡中計算得到的最優(yōu)路徑的得分,計算所述喚醒詞的平均分值;若所述喚醒詞的平均分值減去所述用戶語音的平均分值所獲得的差值大于預設閾值,判定所述識別結果有效。

      例如:首先,在采用動態(tài)規(guī)劃算法計算識別結果的過程中,記錄每一幀的得分(Score),在有q個幀時,可分別記為Score1,Score2……Scoreq,其中1,2,……q為幀號,將所有得分Score1,Score2……Scoreq,求均值,記為ScoreAve。

      進而,將喚醒詞中的每一幀的得分Score’1,Score’2……Score’t取均值,其中,1,2,……t為幀號,將計算所獲得的喚醒詞的平均分值記為ScoreWakeUp。

      根據公式ScoreCM=ScoreWakeUp–ScoreAve計算置信度ScoreCM。

      步驟210,若置信度高于預設閾值,則判定識別結果有效,根據識別結果進行喚醒。

      通過置信度計算的步驟能夠極大的防止非喚醒詞喚醒,有效降低了誤判的概率,也就是減少了誤報率。

      本實施例中,通過對各音素進行聚類,以選取出用于指代全部音素的垃圾音素,以及根據預先設定的喚醒詞,構建與所述喚醒詞相似的反喚醒詞之后,根據垃圾音素、反喚醒詞和喚醒詞構建解碼網絡,從而可以利用該解碼網絡進行語音喚醒。由于垃圾音素的數據量明顯少于垃圾詞的數據量,解決了現(xiàn)有技術中垃圾詞模型占用數據量過大的問題,同時,由于詞匯是由有限個音素所構成的,因此,垃圾音素相較于垃圾詞也更能夠較為全面覆蓋全部詞匯提高了喚醒精度,減少誤喚醒的概率。

      為了實現(xiàn)上述實施例,本發(fā)明還提出一種基于人工智能的語音喚醒裝置。

      圖5為本發(fā)明實施例提供的一種人工智能的語音喚醒裝置的結構示意圖。

      如圖5所示,該人工智能的語音喚醒裝置包括:第一選取模塊51、第二選取模塊52、構建模塊53和喚醒模塊54。

      第一選取模塊51,用于對各音素進行聚類,以選取出用于指代全部音素的垃圾音素。

      第二選取模塊52,用于根據預先設定的喚醒詞,構建與所述喚醒詞相似的反喚醒詞。

      構建模塊53,用于根據所述垃圾音素、所述反喚醒詞和所述喚醒詞構建解碼網絡。

      喚醒模塊54,用于利用所述解碼網絡進行語音喚醒。

      進一步地,在本發(fā)明實施例的一種可能的實現(xiàn)方式中,第二選取模塊52,具體用于從與所述喚醒詞發(fā)音相似的詞語列表中,選取字數少于所述喚醒詞字數的音近詞;將所述喚醒詞中的部分字與所述音近詞組合,以構建所述反喚醒詞。

      需要說明的是,前述對人工智能的語音喚醒方法實施例的解釋說明也適用于該實施例的人工智能的語音喚醒裝置,此處不再贅述。

      本實施例中,通過第一選取模塊對各音素進行聚類,以選取出用于指代全部音素的垃圾音素,以及第二選取模塊根據預先設定的喚醒詞,構建模塊構建與所述喚醒詞相似的反喚醒詞之后,喚醒模塊根據垃圾音素、反喚醒詞和喚醒詞構建解碼網絡,從而可以利用該解碼網絡進行語音喚醒。由于垃圾音素的數據量明顯少于垃圾詞的數據量,解決了現(xiàn)有技術中垃圾詞模型占用數據量過大的問題,同時,由于詞匯是由有限個音素所構成的,因此,垃圾音素相較于垃圾詞也更能夠較為全面覆蓋全部詞匯提高了喚醒精度,減少誤喚醒的概率。

      基于上述實施例,本發(fā)明實施例還提供了又一種人工智能的語音喚醒裝置圖6為本發(fā)明實施例提供的又一種人工智能的語音喚醒裝置的結構示意圖,在上一實施例的基礎上,人工智能的語音喚醒裝置中第一選取模塊51,包括:獲取單元511、選取單元512、計算單元513和生成單元514。

      獲取單元511,用于獲取各個音素和各個音素對應的狀態(tài)。

      選取單元512,用于在各個音素中隨機選取目標音素,并將所述目標音素添加到垃圾音素集合中。

      計算單元513,用于以所述目標音素作為起點,在各個音素中查詢與所述目標音素距離最遠的音素,并將所查詢到的音素添加到所述垃圾音素集合中。

      生成單元514,用于將所查詢到的音素作為所述目標音素,循環(huán)執(zhí)行所述以所述目標音素作為起點,在各個音素中查詢與所述目標音素距離最遠的音素,并將所查詢到的音素添加到所述垃圾音素集合中的過程,直至所述垃圾音素集合中的音素數量為預設的第一數量。

      進一步地,在本發(fā)明實施例的一種可能的實現(xiàn)方式中,獲取單元511,具體用于針對每一個音素,利用混合高斯模型對所述音素的各狀態(tài)進行擬合,得到所述音素的混合高斯模型;采用多個語音的樣本和語音的標注對所得到的各音素的混合高斯模型進行參數優(yōu)化;根據各混合高斯模型之間,優(yōu)化后參數的相似度,對各音素的混合高斯模型進行排序,得到對應的所述各個音素,以及各個音素的狀態(tài)。

      計算單元513,具體用于根據公式S=(SM1-SN1)2+(SM2-SN2)2+(SM3-SN3)2計算所述目標音素PM與各音素PN之間的距離S;其中,SM1、SM2和SM3分別為所述目標音素PM的三個狀態(tài),SN1、SN2和SN3分別為所述音素PN的三個狀態(tài);根據所計算出的距離S,選取S取值最大的音素。

      進一步地,在本發(fā)明實施例的一種可能的實現(xiàn)方式中,基于人工智能的語音喚醒裝置,還包括:篩選模塊55。

      篩選模塊55,用于利用各個音素,對多個樣本語音分別進行識別,以得到匹配中的音素;從匹配中的音素中,選取匹配數量排序為前第二數量的音素,作為篩選集合;根據所述篩選集合對所述垃圾音素進行篩選,保留處于所述篩選集合中的垃圾音素。

      進一步地,在本發(fā)明實施例的一種可能的實現(xiàn)方式中,喚醒模塊54,包括:提取單元541、識別單元542、喚醒單元543和置信單元544。

      提取單元541,用于對輸入的用戶語音提取聲學特征。

      識別單元542,用于將所提取到的聲學特征輸入所述解碼網絡,以采用動態(tài)規(guī)劃算法,在所述解碼網絡中計算得到為最優(yōu)路徑的識別結果。

      喚醒單元543,用于根據識別結果,對終端進行喚醒。

      置信單元544,用于根據用戶語音中的每一幀在所述解碼網絡中計算得到的最優(yōu)路徑的得分,計算所述用戶語音的平均分值;根據所述喚醒詞中的每一幀在所述解碼網絡中計算得到的最優(yōu)路徑的得分,計算所述喚醒詞的平均分值;若所述喚醒詞的平均分值減去所述用戶語音的平均分值所獲得的差值大于預設閾值,判定所述識別結果有效。

      需要說明的是,前述對人工智能的語音喚醒方法實施例的解釋說明也適用于該實施例的人工智能的語音喚醒裝置,此處不再贅述。

      本發(fā)明實施例中,通過第一選取模塊對各音素進行聚類,以選取出用于指代全部音素的垃圾音素,以及第二選取模塊根據預先設定的喚醒詞,構建模塊構建與所述喚醒詞相似的反喚醒詞之后,喚醒模塊根據垃圾音素、反喚醒詞和喚醒詞構建解碼網絡,從而可以利用該解碼網絡進行語音喚醒。由于垃圾音素的數據量明顯少于垃圾詞的數據量,解決了現(xiàn)有技術中垃圾詞模型占用數據量過大的問題,同時,由于詞匯是由有限個音素所構成的,因此,垃圾音素相較于垃圾詞也更能夠較為全面覆蓋全部詞匯提高了喚醒精度,減少誤喚醒的概率。

      為了實現(xiàn)上述實施例,本發(fā)明還提出另一種基于人工智能的語音喚醒裝置,包括:處理器,以及用于存儲所述處理器可執(zhí)行指令的存儲器。

      其中,處理器被配置為:對各音素進行聚類,以選取出用于指代全部音素的垃圾音素;根據預先設定的喚醒詞,構建與所述喚醒詞相似的反喚醒詞;根據所述垃圾音素、所述反喚醒詞和所述喚醒詞構建解碼網絡;利用所述解碼網絡進行語音喚醒。

      為了實現(xiàn)上述實施例,本發(fā)明還提出一種非臨時性計算機可讀存儲介質,當所述存儲介質中的指令由終端的處理器被執(zhí)行時,使得終端能夠執(zhí)行一種基于人工智能的語音喚醒方法,所述方法包括:對各音素進行聚類,以選取出用于指代全部音素的垃圾音素;根據預先設定的喚醒詞,構建與所述喚醒詞相似的反喚醒詞;根據所述垃圾音素、所述反喚醒詞和所述喚醒詞構建解碼網絡;利用所述解碼網絡進行語音喚醒。

      為了實現(xiàn)上述實施例,本發(fā)明還提出一種計算機程序產品,當所述計算機程序產品中的指令由處理器執(zhí)行時,執(zhí)行一種基于人工智能的語音喚醒方法,所述方法包括:對各音素進行聚類,以選取出用于指代全部音素的垃圾音素;根據預先設定的喚醒詞,構建與所述喚醒詞相似的反喚醒詞;根據所述垃圾音素、所述反喚醒詞和所述喚醒詞構建解碼網絡;利用所述解碼網絡進行語音喚醒。

      在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結合該實施例或示例描述的具體特征、結構、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特征、結構、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結合。此外,在不相互矛盾的情況下,本領域的技術人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進行結合和組合。

      此外,術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術特征的數量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本發(fā)明的描述中,“多個”的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。

      流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)定制邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應被本發(fā)明的實施例所屬技術領域的技術人員所理解。

      在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認為是用于實現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實現(xiàn)在任何計算機可讀介質中,以供指令執(zhí)行系統(tǒng)、裝置或設備(如基于計算機的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設備取指令并執(zhí)行指令的系統(tǒng))使用,或結合這些指令執(zhí)行系統(tǒng)、裝置或設備而使用。就本說明書而言,"計算機可讀介質"可以是任何可以包含、存儲、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設備或結合這些指令執(zhí)行系統(tǒng)、裝置或設備而使用的裝置。計算機可讀介質的更具體的示例(非窮盡性列表)包括以下:具有一個或多個布線的電連接部(電子裝置),便攜式計算機盤盒(磁裝置),隨機存取存儲器(RAM),只讀存儲器(ROM),可擦除可編輯只讀存儲器(EPROM或閃速存儲器),光纖裝置,以及便攜式光盤只讀存儲器(CDROM)。另外,計算機可讀介質甚至可以是可在其上打印所述程序的紙或其他合適的介質,因為可以例如通過對紙或其他介質進行光學掃描,接著進行編輯、解譯或必要時以其他合適方式進行處理來以電子方式獲得所述程序,然后將其存儲在計算機存儲器中。

      應當理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。如,如果用硬件來實現(xiàn)和在另一實施方式中一樣,可用本領域公知的下列技術中的任一項或他們的組合來實現(xiàn):具有用于對數據信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。

      本技術領域的普通技術人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。

      此外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質中。

      上述提到的存儲介質可以是只讀存儲器,磁盤或光盤等。盡管上面已經示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領域的普通技術人員在本發(fā)明的范圍內可以對上述實施例進行變化、修改、替換和變型。

      當前第1頁1 2 3 
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1