帶有語音識別功能的設(shè)備以及語音識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及,帶有語音識別功能的設(shè)備以及語音識別方法。
【背景技術(shù)】
[0002]近幾年,開發(fā)裝載有語音識別功能的電子設(shè)備。例如,在2012年初,Samsung電子發(fā)表了能夠語音識別操作的電視機。
[0003]該電視機,針對電視機(以下,會有記載為TV (Televis1n)的情況),用戶以語音,發(fā)聲例如指示音量的升降、以及頻道的選擇的關(guān)鍵字,對此,在由電視機所裝載的語音識別功能來識別該關(guān)鍵字的情況下,向電視機發(fā)行與該關(guān)鍵字建立了對應(yīng)的命令,從而以語音來進行電視機的操作。
[0004]在此情況下會有如下的狀況,即,在TV本身偶爾發(fā)出該關(guān)鍵字的情況下,例如,在“10頻道”這語音是,命令將電視機的頻道的設(shè)定變更為10頻道的關(guān)鍵字的情況下,在電視節(jié)目的演出者偶然發(fā)聲“10頻道”的情況下,從電視機的揚聲器發(fā)出“10頻道”這語音,其由麥克風(fēng)收集,被進行語音識別,電視機切換為10頻道。
[0005]對于阻止這樣的、因設(shè)備本身發(fā)出的語音而發(fā)生誤動作的技術(shù),例如,專利文獻I及專利文獻2所記載的技術(shù)是眾所周知的。
[0006]并且,在根據(jù)用戶發(fā)聲的關(guān)鍵字,設(shè)備發(fā)行與該關(guān)鍵字建立了對應(yīng)的命令的情況下,需要準(zhǔn)確地識別用戶發(fā)聲的語音,例如,專利文獻3所記載的技術(shù)是眾所周知的。
[0007](現(xiàn)有技術(shù)文獻)
[0008](專利文獻)
[0009]專利文獻1:日本特開2003-44069號公報
[0010]專利文獻2:日本特開2006-171077號公報
[0011]專利文獻3:日本專利第4554044號公報
【發(fā)明內(nèi)容】
[0012]發(fā)明要解決的問題
[0013]然而,期待更可靠地抑制因設(shè)備本身發(fā)出的語音而發(fā)生誤動作。
[0014]鑒于所述的問題,本申請發(fā)明的目的在于提供,能夠抑制因設(shè)備本身發(fā)出的語音而發(fā)生誤動作的帶有語音識別功能的設(shè)備等。
[0015]用于解決問題的手段
[0016]本發(fā)明的實施方案之一涉及的帶有語音識別功能的設(shè)備,用于識別用戶的語音,具備:揚聲器,向空間發(fā)出語音;麥克風(fēng),收集該空間的語音;第一語音識別部,識別由所述麥克風(fēng)收集的語音;命令發(fā)行部,根據(jù)由所述第一語音識別部識別的語音,發(fā)行用于控制所述帶有語音識別功能的設(shè)備的命令;以及控制部,利用從所述揚聲器將要發(fā)出的語音,禁止由所述命令發(fā)行部發(fā)行所述命令。
[0017]據(jù)此,能夠抑制設(shè)備本身對偶然發(fā)出的不符合用戶的意圖的語音進行識別而發(fā)生誤動作。也就是說,能夠抑制因設(shè)備本身發(fā)出的語音而發(fā)生誤動作。
[0018]而且,它們的整體或具體的形態(tài),可以由系統(tǒng)、方法、集成電路、計算機程序或計算機可讀取的CD - ROM等的記錄介質(zhì)實現(xiàn),也可以由系統(tǒng)、方法、集成電路、計算機程序及記錄介質(zhì)的任意的組合實現(xiàn)。
[0019]發(fā)明效果
[0020]本發(fā)明能夠提供,能夠抑制因設(shè)備本身發(fā)出的語音而發(fā)生誤動作的帶有語音識別功能的設(shè)備等。
【附圖說明】
[0021]圖1是示出實施例1涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的框圖。
[0022]圖2是示出帶有語音識別功能的設(shè)備的工作的流程圖。
[0023]圖3是示出實施例2涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的框圖。
[0024]圖4是示出帶有語音識別功能的設(shè)備的工作的流程圖。
[0025]圖5是示出實施例2的變形例涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的框圖。
[0026]圖6是示出具備對麥克風(fēng)的輸出進行下采樣的下采樣器的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的框圖。
[0027]圖7是示出實施例1涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的其他的一個例子的框圖。
[0028]圖8是示出圖7示出的帶有語音識別功能的設(shè)備的工作的一個例子的流程圖。
[0029]圖9是示出實施例2涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)以外的一個例子的框圖。
[0030]圖10是示出圖9示出的帶有語音識別功能的設(shè)備的工作的一個例子的流程圖。
[0031]圖1lA是示出比較例I涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的框圖。
[0032]圖1lB是示出比較例I的變形例涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的框圖。
[0033]圖12A是示出比較例2涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的一個例子的框圖。
[0034]圖12B是示出比較例2涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的其他的一個例子的框圖。
【具體實施方式】
[0035]為了抑制所述的因設(shè)備本身發(fā)出的語音而發(fā)生誤動作,本發(fā)明的實施方案之一涉及的帶有語音識別功能的設(shè)備,用于識別用戶的語音,具備:揚聲器,向空間發(fā)出語音;麥克風(fēng),收集該空間的語音;第一語音識別部,識別由所述麥克風(fēng)收集的語音;命令發(fā)行部,根據(jù)由所述第一語音識別部識別的語音,發(fā)行用于控制所述帶有語音識別功能的設(shè)備的命令;以及控制部,利用從所述揚聲器將要發(fā)出的語音,禁止由所述命令發(fā)行部發(fā)行所述命令。
[0036]據(jù)此,能夠抑制因設(shè)備本身發(fā)出的語音而發(fā)生誤動作。
[0037]并且,也可以是,所述控制部具備第二語音識別部,所述第二語音識別部,識別從所述揚聲器將要發(fā)出的語音,判斷由所述第二語音識別部識別的語音與預(yù)先規(guī)定的關(guān)鍵字是否相同,在相同的情況下,禁止由所述命令發(fā)行部發(fā)行所述命令。
[0038]據(jù)此,在從揚聲器將要發(fā)出的語音是預(yù)先規(guī)定的關(guān)鍵字的情況下,不發(fā)行用于控制設(shè)備本身的命令。因此,將與命令相對應(yīng)的語音設(shè)為關(guān)鍵字,從而能夠可靠地抑制設(shè)備本身對偶然發(fā)出的不符合用戶的意圖的語音進行識別而發(fā)生誤動作。
[0039]并且,本發(fā)明的其他的實施方案之一涉及的帶有語音識別功能的設(shè)備,用于識別用戶的語音,具備:向空間發(fā)出語音的至少一個揚聲器;麥克風(fēng),收集該空間的語音;語音識別部,識別由所述麥克風(fēng)收集的語音之中的所述用戶的語音;下采樣器,將語音信號下采樣為窄頻帶的信號,所述語音信號是從所述揚聲器將要發(fā)出的語音的電信號;以及回音消除器,利用被下采樣的所述語音信號,推定回音成分,將推定的回音成分從由所述麥克風(fēng)收集的語音中消除,所述回音成分是從所述揚聲器發(fā)出了的語音之中的由所述麥克風(fēng)收集的語音,所述語音識別部,識別由所述回音消除器消除了所述回音成分的語音,從而識別所述用戶的語音。
[0040]據(jù)此,不會受到設(shè)備本身發(fā)出的語音的阻礙,而能夠?qū)τ脩舭l(fā)出的語音準(zhǔn)確地進行語音識別。進而,在回音消除器的前級設(shè)置下采樣器,從而能夠削減回音消除器的運算量。也就是說,能夠以少的運算量來實現(xiàn)準(zhǔn)確的語音識別。
[0041]并且,也可以是,所述下采樣器,在所述揚聲器的數(shù)量為N(N為2以上的整數(shù))的情況下,將輸入的所述語音信號下采樣為(1/N) 0.5以下的信號。
[0042]據(jù)此,即使在設(shè)備的揚聲器是對應(yīng)于多頻道的揚聲器的情況下,也能夠以對應(yīng)于單頻道的揚聲器時的運算量以下的運算量,不會受到設(shè)備本身發(fā)出的語音信號的阻礙,而對用戶發(fā)出的語音準(zhǔn)確地進行語音識別。
[0043]并且,也可以是,還具備命令發(fā)行部,所述命令發(fā)行部,根據(jù)由所述語音識別部識別的語音,發(fā)行用于控制所述帶有語音識別功能的設(shè)備的命令,所述語音識別部,識別由所述回音消除器消除了所述回音成分的語音,從而禁止由所述命令發(fā)行部的、基于所述回音成分的所述命令的發(fā)行。
[0044]而且,它們的整體或具體的形態(tài),可以由系統(tǒng)、方法、集成電路、計算機程序或計算機可讀取的CD - ROM等的記錄介質(zhì)實現(xiàn),也可以由系統(tǒng)、方法、集成電路、計算機程序或記錄介質(zhì)的任意的組合實現(xiàn)。
[0045]首先,說明各個實施例涉及的帶有語音識別功能的設(shè)備之前,說明本發(fā)明的比較例I及比較例2涉及的帶有語音識別功能的設(shè)備。
[0046]為了抑制如上所述的因設(shè)備本身發(fā)出的語音而發(fā)生誤動作,如專利文獻I所記載的技術(shù),可以考慮在作為從揚聲器將要發(fā)出的語音的電信號的語音信號中插入Water Mark信號的結(jié)構(gòu)。
[0047]圖1lA是示出本發(fā)明的比較例I涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的框圖。
[0048]如該圖示出,在比較例I涉及的帶有語音識別功能的設(shè)備中,針對TV接收顯示部800接收的語音,從揚聲器801發(fā)聲之前插入Water Mark信號。另一方面,對于由麥克風(fēng)802收集的語音的語音信號,以通過Water Mark檢測功能,不將檢測出Water Mark信號的語音成分成為語音識別的對象的方式進行控制之后,由第一語音識別部803進行語音識別。而且,將該認(rèn)識結(jié)果的信息,變換為針對TV接收顯示部800的命令。
[0049]并且,可以考慮將專利文獻2所記載的技術(shù)應(yīng)用到這樣的比較例I涉及的帶有語音識別功能的設(shè)備。
[0050]圖1lB是示出將專利文獻2所記載的技術(shù)應(yīng)用到所述的比較例I的、比較例I的變形例涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的框圖。
[0051]如該圖示出,比較例I的變形例涉及的帶有語音識別功能的設(shè)備,由第二語音識別部804識別從揚聲器801發(fā)出之前的語音。另一方面,由第一語音識別部803識別麥克風(fēng)802所收集的語音,由消除部805對該兩個識別部(第一語音識別部803以及第二語音識別部804)的識別結(jié)果進行比較,從第一語音識別部803的識別結(jié)果中消除第二語音識別部804的識別結(jié)果之后,將消除后的識別結(jié)果變換為對TV接收顯示部800的命令。
[0052]并且,對于提高語音識別率的技術(shù),提出了專利文獻3所記載的回音消除的技術(shù)。
[0053]圖12A以及圖12B是示出,具有這樣的回音消除的功能的、本發(fā)明的比較例2涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的框圖。
[0054]如該圖示出,回音消除的基本想法是,將從揚聲器901發(fā)出后由麥克風(fēng)902收集的語音視為“回音”,由帶有語音識別功能的設(shè)備所裝載的回音消除器904消除該回音之后,進行語音識別。據(jù)此,不會受到帶有語音識別功能的設(shè)備本身發(fā)出的語音的阻礙,而能夠識別用戶的語音,能夠?qū)⒃撟R別結(jié)果變換為對TV接收顯示部900的命令。
[0055]但是,在從TV接收顯示部900將要發(fā)出的語音信號是立體聲信號