帶有語音識別功能的設(shè)備以及語音識別方法

文檔序號：9240122閱讀：897來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

帶有語音識別功能的設(shè)備以及語音識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及，帶有語音識別功能的設(shè)備以及語音識別方法。
【背景技術(shù)】
[0002]近幾年，開發(fā)裝載有語音識別功能的電子設(shè)備。例如，在2012年初，Samsung電子發(fā)表了能夠語音識別操作的電視機。
[0003]該電視機，針對電視機(以下，會有記載為TV (Televis1n)的情況)，用戶以語音，發(fā)聲例如指示音量的升降、以及頻道的選擇的關(guān)鍵字，對此，在由電視機所裝載的語音識別功能來識別該關(guān)鍵字的情況下，向電視機發(fā)行與該關(guān)鍵字建立了對應(yīng)的命令，從而以語音來進行電視機的操作。
[0004]在此情況下會有如下的狀況，即，在TV本身偶爾發(fā)出該關(guān)鍵字的情況下，例如，在“10頻道”這語音是，命令將電視機的頻道的設(shè)定變更為10頻道的關(guān)鍵字的情況下，在電視節(jié)目的演出者偶然發(fā)聲“10頻道”的情況下，從電視機的揚聲器發(fā)出“10頻道”這語音，其由麥克風(fēng)收集，被進行語音識別，電視機切換為10頻道。
[0005]對于阻止這樣的、因設(shè)備本身發(fā)出的語音而發(fā)生誤動作的技術(shù)，例如，專利文獻I及專利文獻2所記載的技術(shù)是眾所周知的。
[0006]并且，在根據(jù)用戶發(fā)聲的關(guān)鍵字，設(shè)備發(fā)行與該關(guān)鍵字建立了對應(yīng)的命令的情況下，需要準(zhǔn)確地識別用戶發(fā)聲的語音，例如，專利文獻3所記載的技術(shù)是眾所周知的。
[0007](現(xiàn)有技術(shù)文獻)
[0008](專利文獻)
[0009]專利文獻1:日本特開2003-44069號公報
[0010]專利文獻2:日本特開2006-171077號公報
[0011]專利文獻3:日本專利第4554044號公報

【發(fā)明內(nèi)容】

[0012]發(fā)明要解決的問題
[0013]然而，期待更可靠地抑制因設(shè)備本身發(fā)出的語音而發(fā)生誤動作。
[0014]鑒于所述的問題，本申請發(fā)明的目的在于提供，能夠抑制因設(shè)備本身發(fā)出的語音而發(fā)生誤動作的帶有語音識別功能的設(shè)備等。
[0015]用于解決問題的手段
[0016]本發(fā)明的實施方案之一涉及的帶有語音識別功能的設(shè)備，用于識別用戶的語音，具備:揚聲器，向空間發(fā)出語音；麥克風(fēng)，收集該空間的語音；第一語音識別部，識別由所述麥克風(fēng)收集的語音；命令發(fā)行部，根據(jù)由所述第一語音識別部識別的語音，發(fā)行用于控制所述帶有語音識別功能的設(shè)備的命令；以及控制部，利用從所述揚聲器將要發(fā)出的語音，禁止由所述命令發(fā)行部發(fā)行所述命令。
[0017]據(jù)此，能夠抑制設(shè)備本身對偶然發(fā)出的不符合用戶的意圖的語音進行識別而發(fā)生誤動作。也就是說，能夠抑制因設(shè)備本身發(fā)出的語音而發(fā)生誤動作。
[0018]而且，它們的整體或具體的形態(tài)，可以由系統(tǒng)、方法、集成電路、計算機程序或計算機可讀取的CD - ROM等的記錄介質(zhì)實現(xiàn)，也可以由系統(tǒng)、方法、集成電路、計算機程序及記錄介質(zhì)的任意的組合實現(xiàn)。
[0019]發(fā)明效果
[0020]本發(fā)明能夠提供，能夠抑制因設(shè)備本身發(fā)出的語音而發(fā)生誤動作的帶有語音識別功能的設(shè)備等。
【附圖說明】
[0021]圖1是示出實施例1涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的框圖。
[0022]圖2是示出帶有語音識別功能的設(shè)備的工作的流程圖。
[0023]圖3是示出實施例2涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的框圖。
[0024]圖4是示出帶有語音識別功能的設(shè)備的工作的流程圖。
[0025]圖5是示出實施例2的變形例涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的框圖。
[0026]圖6是示出具備對麥克風(fēng)的輸出進行下采樣的下采樣器的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的框圖。
[0027]圖7是示出實施例1涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的其他的一個例子的框圖。
[0028]圖8是示出圖7示出的帶有語音識別功能的設(shè)備的工作的一個例子的流程圖。
[0029]圖9是示出實施例2涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)以外的一個例子的框圖。
[0030]圖10是示出圖9示出的帶有語音識別功能的設(shè)備的工作的一個例子的流程圖。
[0031]圖1lA是示出比較例I涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的框圖。
[0032]圖1lB是示出比較例I的變形例涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的框圖。
[0033]圖12A是示出比較例2涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的一個例子的框圖。
[0034]圖12B是示出比較例2涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的其他的一個例子的框圖。
【具體實施方式】
[0035]為了抑制所述的因設(shè)備本身發(fā)出的語音而發(fā)生誤動作，本發(fā)明的實施方案之一涉及的帶有語音識別功能的設(shè)備，用于識別用戶的語音，具備:揚聲器，向空間發(fā)出語音；麥克風(fēng)，收集該空間的語音；第一語音識別部，識別由所述麥克風(fēng)收集的語音；命令發(fā)行部，根據(jù)由所述第一語音識別部識別的語音，發(fā)行用于控制所述帶有語音識別功能的設(shè)備的命令；以及控制部，利用從所述揚聲器將要發(fā)出的語音，禁止由所述命令發(fā)行部發(fā)行所述命令。
[0036]據(jù)此，能夠抑制因設(shè)備本身發(fā)出的語音而發(fā)生誤動作。
[0037]并且，也可以是，所述控制部具備第二語音識別部，所述第二語音識別部，識別從所述揚聲器將要發(fā)出的語音，判斷由所述第二語音識別部識別的語音與預(yù)先規(guī)定的關(guān)鍵字是否相同，在相同的情況下，禁止由所述命令發(fā)行部發(fā)行所述命令。
[0038]據(jù)此，在從揚聲器將要發(fā)出的語音是預(yù)先規(guī)定的關(guān)鍵字的情況下，不發(fā)行用于控制設(shè)備本身的命令。因此，將與命令相對應(yīng)的語音設(shè)為關(guān)鍵字，從而能夠可靠地抑制設(shè)備本身對偶然發(fā)出的不符合用戶的意圖的語音進行識別而發(fā)生誤動作。
[0039]并且，本發(fā)明的其他的實施方案之一涉及的帶有語音識別功能的設(shè)備，用于識別用戶的語音，具備:向空間發(fā)出語音的至少一個揚聲器；麥克風(fēng)，收集該空間的語音；語音識別部，識別由所述麥克風(fēng)收集的語音之中的所述用戶的語音；下采樣器，將語音信號下采樣為窄頻帶的信號，所述語音信號是從所述揚聲器將要發(fā)出的語音的電信號；以及回音消除器，利用被下采樣的所述語音信號，推定回音成分，將推定的回音成分從由所述麥克風(fēng)收集的語音中消除，所述回音成分是從所述揚聲器發(fā)出了的語音之中的由所述麥克風(fēng)收集的語音，所述語音識別部，識別由所述回音消除器消除了所述回音成分的語音，從而識別所述用戶的語音。
[0040]據(jù)此，不會受到設(shè)備本身發(fā)出的語音的阻礙，而能夠?qū)τ脩舭l(fā)出的語音準(zhǔn)確地進行語音識別。進而，在回音消除器的前級設(shè)置下采樣器，從而能夠削減回音消除器的運算量。也就是說，能夠以少的運算量來實現(xiàn)準(zhǔn)確的語音識別。
[0041]并且，也可以是，所述下采樣器，在所述揚聲器的數(shù)量為N(N為2以上的整數(shù))的情況下，將輸入的所述語音信號下采樣為(1/N) 0.5以下的信號。
[0042]據(jù)此，即使在設(shè)備的揚聲器是對應(yīng)于多頻道的揚聲器的情況下，也能夠以對應(yīng)于單頻道的揚聲器時的運算量以下的運算量，不會受到設(shè)備本身發(fā)出的語音信號的阻礙，而對用戶發(fā)出的語音準(zhǔn)確地進行語音識別。
[0043]并且，也可以是，還具備命令發(fā)行部，所述命令發(fā)行部，根據(jù)由所述語音識別部識別的語音，發(fā)行用于控制所述帶有語音識別功能的設(shè)備的命令，所述語音識別部，識別由所述回音消除器消除了所述回音成分的語音，從而禁止由所述命令發(fā)行部的、基于所述回音成分的所述命令的發(fā)行。
[0044]而且，它們的整體或具體的形態(tài)，可以由系統(tǒng)、方法、集成電路、計算機程序或計算機可讀取的CD - ROM等的記錄介質(zhì)實現(xiàn)，也可以由系統(tǒng)、方法、集成電路、計算機程序或記錄介質(zhì)的任意的組合實現(xiàn)。
[0045]首先，說明各個實施例涉及的帶有語音識別功能的設(shè)備之前，說明本發(fā)明的比較例I及比較例2涉及的帶有語音識別功能的設(shè)備。
[0046]為了抑制如上所述的因設(shè)備本身發(fā)出的語音而發(fā)生誤動作，如專利文獻I所記載的技術(shù)，可以考慮在作為從揚聲器將要發(fā)出的語音的電信號的語音信號中插入Water Mark信號的結(jié)構(gòu)。
[0047]圖1lA是示出本發(fā)明的比較例I涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的框圖。
[0048]如該圖示出，在比較例I涉及的帶有語音識別功能的設(shè)備中，針對TV接收顯示部800接收的語音，從揚聲器801發(fā)聲之前插入Water Mark信號。另一方面，對于由麥克風(fēng)802收集的語音的語音信號，以通過Water Mark檢測功能，不將檢測出Water Mark信號的語音成分成為語音識別的對象的方式進行控制之后，由第一語音識別部803進行語音識別。而且，將該認(rèn)識結(jié)果的信息，變換為針對TV接收顯示部800的命令。
[0049]并且，可以考慮將專利文獻2所記載的技術(shù)應(yīng)用到這樣的比較例I涉及的帶有語音識別功能的設(shè)備。
[0050]圖1lB是示出將專利文獻2所記載的技術(shù)應(yīng)用到所述的比較例I的、比較例I的變形例涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的框圖。
[0051]如該圖示出，比較例I的變形例涉及的帶有語音識別功能的設(shè)備，由第二語音識別部804識別從揚聲器801發(fā)出之前的語音。另一方面，由第一語音識別部803識別麥克風(fēng)802所收集的語音，由消除部805對該兩個識別部(第一語音識別部803以及第二語音識別部804)的識別結(jié)果進行比較，從第一語音識別部803的識別結(jié)果中消除第二語音識別部804的識別結(jié)果之后，將消除后的識別結(jié)果變換為對TV接收顯示部800的命令。
[0052]并且，對于提高語音識別率的技術(shù)，提出了專利文獻3所記載的回音消除的技術(shù)。
[0053]圖12A以及圖12B是示出，具有這樣的回音消除的功能的、本發(fā)明的比較例2涉及的帶有語音識別功能的設(shè)備的結(jié)構(gòu)的框圖。
[0054]如該圖示出，回音消除的基本想法是，將從揚聲器901發(fā)出后由麥克風(fēng)902收集的語音視為“回音”，由帶有語音識別功能的設(shè)備所裝載的回音消除器904消除該回音之后，進行語音識別。據(jù)此，不會受到帶有語音識別功能的設(shè)備本身發(fā)出的語音的阻礙，而能夠識別用戶的語音，能夠?qū)⒃撟R別結(jié)果變換為對TV接收顯示部900的命令。
[0055]但是，在從TV接收顯示部900將要發(fā)出的語音信號是立體聲信號

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2 3 4 5