本發(fā)明涉及從輸入的語(yǔ)音中提取語(yǔ)音區(qū)間并對(duì)提取出的語(yǔ)音區(qū)間進(jìn)行語(yǔ)音識(shí)別的語(yǔ)音識(shí)別裝置和語(yǔ)音識(shí)別方法。
背景技術(shù):
近年來(lái),在便攜終端或?qū)Ш窖b置中搭載有用于通過(guò)語(yǔ)音進(jìn)行操作輸入的語(yǔ)音識(shí)別裝置。在輸入到語(yǔ)音識(shí)別裝置的語(yǔ)音信號(hào)中,不僅包含指示操作輸入的用戶(hù)講出的語(yǔ)音,而且包含外部噪音等不是目標(biāo)的聲音。因此,需要從在噪音環(huán)境下輸入的語(yǔ)音信號(hào)中適當(dāng)提取用戶(hù)講話的區(qū)間(以下稱(chēng)作語(yǔ)音區(qū)間)并進(jìn)行語(yǔ)音識(shí)別的技術(shù),公開(kāi)有各種技術(shù)。
例如,在專(zhuān)利文獻(xiàn)1中公開(kāi)有如下的語(yǔ)音區(qū)間檢測(cè)裝置,該語(yǔ)音區(qū)間檢測(cè)裝置從語(yǔ)音信號(hào)中提取語(yǔ)音區(qū)間檢測(cè)用的音頻特征量,從圖像幀中提取語(yǔ)音區(qū)間檢測(cè)用的圖像特征量,生成將提取出的音頻特征量和圖像特征量合并而成的音頻圖像特征量,根據(jù)該音頻圖像特征量判定語(yǔ)音區(qū)間。
并且,在專(zhuān)利文獻(xiàn)2中公開(kāi)有如下的語(yǔ)音輸入裝置,該語(yǔ)音輸入裝置根據(jù)語(yǔ)音輸入講話者的嘴角圖像的分析來(lái)判斷有無(wú)講話,確定講話者的位置,將確定的位置處的嘴角的動(dòng)作視為產(chǎn)生目標(biāo)聲音而不包含在噪聲判定中。
并且,在專(zhuān)利文獻(xiàn)3中公開(kāi)有如下的數(shù)字列語(yǔ)音識(shí)別裝置,該數(shù)字列語(yǔ)音識(shí)別裝置根據(jù)變量i(例如i=5)的值,依次變更語(yǔ)音區(qū)間相對(duì)于輸入語(yǔ)音的切出的閾值,根據(jù)變更后的閾值進(jìn)行語(yǔ)音區(qū)間的切出,求出多個(gè)識(shí)別候選,對(duì)根據(jù)求出的多個(gè)識(shí)別候選而得到的識(shí)別分?jǐn)?shù)進(jìn)行合計(jì),決定最終的識(shí)別結(jié)果。
現(xiàn)有技術(shù)文獻(xiàn)
專(zhuān)利文獻(xiàn)
專(zhuān)利文獻(xiàn)1:日本特開(kāi)2011-59186號(hào)公報(bào)
專(zhuān)利文獻(xiàn)2:日本特開(kāi)2006-39267號(hào)公報(bào)
專(zhuān)利文獻(xiàn)3:日本特開(kāi)平8-314495號(hào)公報(bào)
技術(shù)實(shí)現(xiàn)要素:
發(fā)明要解決的課題
但是,在上述專(zhuān)利文獻(xiàn)1和專(zhuān)利文獻(xiàn)2公開(kāi)的技術(shù)中,需要與針對(duì)輸入語(yǔ)音的語(yǔ)音區(qū)間檢測(cè)和語(yǔ)音識(shí)別處理并行地,始終利用攝像部拍攝動(dòng)態(tài)圖像并根據(jù)嘴角圖像的分析來(lái)判定有無(wú)講話,存在運(yùn)算量增大這樣的課題。
并且,在上述專(zhuān)利文獻(xiàn)3公開(kāi)的技術(shù)中,針對(duì)用戶(hù)的一次講話,需要變更閾值而進(jìn)行5次語(yǔ)音區(qū)間檢測(cè)處理和語(yǔ)音識(shí)別處理,存在運(yùn)算量增大這樣的課題。
進(jìn)而,在平板終端等處理性能較低的硬件上使用這些運(yùn)算量較大的語(yǔ)音識(shí)別裝置的情況下,存在直到得到語(yǔ)音識(shí)別結(jié)果為止的延遲時(shí)間較長(zhǎng)這樣的課題。并且,如果結(jié)合平板終端等的處理性能而削減圖像識(shí)別處理或語(yǔ)音識(shí)別處理的運(yùn)算量,則存在識(shí)別處理性能降低這樣的課題。
本發(fā)明正是為了解決上述這種課題而完成的,其目的在于,提供如下的語(yǔ)音識(shí)別結(jié)果和語(yǔ)音識(shí)別方法:在處理性能較低的硬件上使用的情況下也能夠縮短直到得到語(yǔ)音識(shí)別結(jié)果為止的延遲時(shí)間,并且抑制識(shí)別處理性能的降低。
用于解決課題的手段
本發(fā)明的語(yǔ)音識(shí)別裝置具有:語(yǔ)音輸入部,其取得采集到的語(yǔ)音,將該語(yǔ)音轉(zhuǎn)換成語(yǔ)音數(shù)據(jù);非語(yǔ)音信息輸入部,其取得語(yǔ)音以外的信息;非語(yǔ)音操作識(shí)別部,其根據(jù)非語(yǔ)音信息輸入部取得的語(yǔ)音以外的信息識(shí)別用戶(hù)狀態(tài);非講話區(qū)間判定部,其根據(jù)非語(yǔ)音操作識(shí)別部識(shí)別出的用戶(hù)狀態(tài)判定用戶(hù)是否正在講話;閾值學(xué)習(xí)部,其在非講話區(qū)間判定部判定為用戶(hù)未在講話的情況下,根據(jù)語(yǔ)音輸入部轉(zhuǎn)換后的語(yǔ)音數(shù)據(jù)設(shè)定第1閾值,在非講話區(qū)間判定部判定為用戶(hù)正在講話的情況下,根據(jù)語(yǔ)音輸入部轉(zhuǎn)換后的語(yǔ)音數(shù)據(jù)設(shè)定第2閾值;語(yǔ)音區(qū)間檢測(cè)部,其使用閾值學(xué)習(xí)部設(shè)定的閾值,根據(jù)語(yǔ)音輸入部轉(zhuǎn)換后的語(yǔ)音數(shù)據(jù)檢測(cè)表示用戶(hù)的講話的語(yǔ)音區(qū)間;以及語(yǔ)音識(shí)別部,其識(shí)別語(yǔ)音區(qū)間檢測(cè)部檢測(cè)到的語(yǔ)音區(qū)間的語(yǔ)音數(shù)據(jù),輸出識(shí)別結(jié)果,語(yǔ)音區(qū)間檢測(cè)部在無(wú)法使用第2閾值檢測(cè)語(yǔ)音區(qū)間的情況下,應(yīng)用第1閾值檢測(cè)語(yǔ)音區(qū)間。
發(fā)明效果
根據(jù)本發(fā)明,在處理性能較低的硬件上使用的情況下也能夠縮短直到得到語(yǔ)音識(shí)別結(jié)果為止的延遲時(shí)間,并且抑制識(shí)別處理性能的降低。
附圖說(shuō)明
圖1是示出實(shí)施方式1的語(yǔ)音識(shí)別裝置的結(jié)構(gòu)的框圖。
圖2是示出實(shí)施方式1的語(yǔ)音識(shí)別裝置的處理、語(yǔ)音輸入電平和cpu負(fù)荷的說(shuō)明圖。
圖3是示出實(shí)施方式1的語(yǔ)音識(shí)別裝置的動(dòng)作的流程圖。
圖4是示出實(shí)施方式2的語(yǔ)音識(shí)別裝置的結(jié)構(gòu)的框圖。
圖5是示出實(shí)施方式2的語(yǔ)音識(shí)別裝置的操作腳本存儲(chǔ)部存儲(chǔ)的操作腳本的一例的圖。
圖6是示出實(shí)施方式2的語(yǔ)音識(shí)別裝置的處理、語(yǔ)音輸入電平和cpu負(fù)荷的說(shuō)明圖。
圖7是示出實(shí)施方式2的語(yǔ)音識(shí)別裝置的動(dòng)作的流程圖。
圖8是示出實(shí)施方式3的語(yǔ)音識(shí)別裝置的結(jié)構(gòu)的框圖。
圖9是示出實(shí)施方式3的語(yǔ)音識(shí)別裝置的處理、語(yǔ)音輸入電平和cpu負(fù)荷的說(shuō)明圖。
圖10是示出實(shí)施方式3的語(yǔ)音識(shí)別裝置的動(dòng)作的流程圖。
圖11是示出搭載有本發(fā)明的語(yǔ)音識(shí)別裝置的便攜終端的硬件結(jié)構(gòu)的圖。
具體實(shí)施方式
下面,為了更加詳細(xì)地說(shuō)明本發(fā)明,根據(jù)附圖對(duì)用于實(shí)施本發(fā)明的方式進(jìn)行說(shuō)明。
實(shí)施方式1
圖1是示出實(shí)施方式1的語(yǔ)音識(shí)別裝置100的結(jié)構(gòu)的框圖。
語(yǔ)音識(shí)別裝置100由觸摸操作輸入部(非語(yǔ)音信息輸入部)101、圖像輸入部(非語(yǔ)音信息輸入部)102、嘴唇圖像識(shí)別部(非語(yǔ)音操作識(shí)別部)103、非講話區(qū)間判定部104、語(yǔ)音輸入部105、語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106、語(yǔ)音區(qū)間檢測(cè)部107以及語(yǔ)音識(shí)別部108構(gòu)成。
另外,下面,以借助觸摸面板(未圖示)進(jìn)行用戶(hù)的觸摸操作的情況為例進(jìn)行說(shuō)明,但是,在使用觸摸面板以外的輸入單元的情況下、或使用利用觸摸操作以外的輸入方法的輸入單元的情況下,也能夠應(yīng)用該語(yǔ)音識(shí)別裝置100。
觸摸操作輸入部101檢測(cè)用戶(hù)對(duì)觸摸面板的接觸,取得檢測(cè)到對(duì)觸摸面板的接觸的坐標(biāo)值。圖像輸入部102取得由攝像機(jī)等攝像單元拍攝到的動(dòng)態(tài)圖像,將其轉(zhuǎn)換成圖像數(shù)據(jù)。嘴唇圖像識(shí)別部103分析圖像輸入部102取得的圖像數(shù)據(jù),識(shí)別用戶(hù)的嘴唇的動(dòng)作。非講話區(qū)間判定部104在觸摸操作輸入部101取得的坐標(biāo)值存在于用于進(jìn)行非講話的操作的區(qū)域內(nèi)的情況下,參照嘴唇圖像識(shí)別部103的識(shí)別結(jié)果,判定用戶(hù)是否正在講話。在該判定中判定為用戶(hù)未在講話的情況下,非講話區(qū)間判定部104指示語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106學(xué)習(xí)在語(yǔ)音區(qū)間檢測(cè)中使用的閾值。非講話區(qū)間判定部104在判定中使用的、用于進(jìn)行講話的操作的區(qū)域是配置有配置在觸摸面板上的語(yǔ)音輸入受理按鈕等的區(qū)域,用于進(jìn)行非講話的操作的區(qū)域是配置有用于轉(zhuǎn)變到下位畫(huà)面的按鈕等的區(qū)域。
語(yǔ)音輸入部105取得由傳聲器等收音單元采集到的語(yǔ)音,將其轉(zhuǎn)換成語(yǔ)音數(shù)據(jù)。語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106設(shè)定用于根據(jù)語(yǔ)音輸入部105取得的語(yǔ)音來(lái)檢測(cè)用戶(hù)的講話的閾值。語(yǔ)音區(qū)間檢測(cè)部107根據(jù)語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106設(shè)定的閾值,根據(jù)語(yǔ)音輸入部105取得的語(yǔ)音來(lái)檢測(cè)用戶(hù)的講話。語(yǔ)音識(shí)別部108在語(yǔ)音區(qū)間檢測(cè)部107檢測(cè)到用戶(hù)的講話的情況下,識(shí)別語(yǔ)音輸入部105取得的語(yǔ)音,輸出作為語(yǔ)音識(shí)別結(jié)果的文本。
接著,參照?qǐng)D2和圖3對(duì)實(shí)施方式1的語(yǔ)音識(shí)別裝置100的動(dòng)作進(jìn)行說(shuō)明。圖2是示出實(shí)施方式1的語(yǔ)音識(shí)別裝置100的輸入操作的一例的說(shuō)明圖,圖3是示出實(shí)施方式1的語(yǔ)音識(shí)別裝置100的動(dòng)作的流程圖。
首先,圖2的(a)在時(shí)間軸上示出用戶(hù)進(jìn)行第1觸摸操作的時(shí)間a1、表示觸摸操作的輸入超時(shí)的時(shí)間b1、進(jìn)行第2觸摸操作的時(shí)間c1、表示閾值學(xué)習(xí)完成的時(shí)間d1以及表示語(yǔ)音輸入超時(shí)的時(shí)間e1。
圖2的(b)示出輸入到語(yǔ)音輸入部105的語(yǔ)音的輸入電平的時(shí)間變化。實(shí)線示出講話語(yǔ)音f(f1是講話語(yǔ)音的開(kāi)頭,f2是講話語(yǔ)音的末尾),單點(diǎn)劃線示出噪音g。另外,語(yǔ)音輸入電平的軸上所示的值h示出第1語(yǔ)音區(qū)間檢測(cè)閾值,值i示出第2語(yǔ)音區(qū)間檢測(cè)閾值。
圖2的(c)示出語(yǔ)音識(shí)別裝置100的cpu負(fù)荷的時(shí)間變化。區(qū)域j示出圖像識(shí)別處理的負(fù)荷,區(qū)域k示出閾值學(xué)習(xí)處理的負(fù)荷,區(qū)域l示出語(yǔ)音區(qū)間檢測(cè)處理的負(fù)荷,區(qū)域m示出語(yǔ)音識(shí)別處理的負(fù)荷。
在語(yǔ)音識(shí)別裝置100發(fā)揮功能的狀態(tài)下,觸摸操作輸入部101判定是否檢測(cè)到對(duì)觸摸面板的觸摸操作(步驟st1)。在進(jìn)行該判定的狀態(tài)下,當(dāng)用戶(hù)利用手指按下觸摸面板的一部分時(shí),觸摸操作輸入部101檢測(cè)該觸摸操作(步驟st1:是),取得檢測(cè)到觸摸操作的坐標(biāo)值,將其輸出到非講話區(qū)間判定部104(步驟st2)。非講話區(qū)間判定部104取得在步驟st2中輸出的坐標(biāo)值后,起動(dòng)內(nèi)置的定時(shí)器,開(kāi)始計(jì)測(cè)從檢測(cè)到觸摸操作起的經(jīng)過(guò)時(shí)間(步驟st3)。
例如,當(dāng)在步驟st1中檢測(cè)到圖2的(a)所示的第1觸摸操作(時(shí)間a1)時(shí),在步驟st2中取得該第1觸摸操作的坐標(biāo)值,在步驟st3中計(jì)測(cè)從檢測(cè)到第1觸摸操作起的經(jīng)過(guò)時(shí)間。計(jì)測(cè)出的經(jīng)過(guò)時(shí)間用于判定是否達(dá)到圖2的(a)的觸摸操作輸入超時(shí)(時(shí)間b1)。
非講話區(qū)間判定部104指示語(yǔ)音輸入部105開(kāi)始輸入語(yǔ)音,語(yǔ)音輸入部105根據(jù)該指示而開(kāi)始受理語(yǔ)音的輸入(步驟st4),將取得的語(yǔ)音轉(zhuǎn)換成語(yǔ)音數(shù)據(jù)(步驟st5)。轉(zhuǎn)換后的語(yǔ)音數(shù)據(jù)例如由對(duì)語(yǔ)音輸入部105取得的語(yǔ)音信號(hào)進(jìn)行數(shù)字化而得到的pcm(pulsecodemodulation:脈沖編碼調(diào)制)數(shù)據(jù)等構(gòu)成。
并且,非講話區(qū)間判定部104判定在步驟st2中輸出的坐標(biāo)值是否是所設(shè)定的表示講話的區(qū)域外的值(步驟st6)。在坐標(biāo)值是表示講話的區(qū)域外的值的情況下(步驟st6:是),判斷為是未伴有講話的非講話的操作,指示圖像輸入部102開(kāi)始輸入圖像。圖像輸入部102根據(jù)該指示而開(kāi)始受理動(dòng)態(tài)圖像輸入(步驟st7),將取得的動(dòng)態(tài)圖像轉(zhuǎn)換成動(dòng)態(tài)圖像數(shù)據(jù)等的數(shù)據(jù)信號(hào)(步驟st8)。這里,動(dòng)態(tài)圖像數(shù)據(jù)例如由對(duì)圖像輸入部102取得的圖像信號(hào)進(jìn)行數(shù)字化而將其轉(zhuǎn)換成連續(xù)的靜態(tài)圖像列而得到的圖像幀等構(gòu)成。下面,以圖像幀為例進(jìn)行說(shuō)明。
嘴唇圖像識(shí)別部103根據(jù)在步驟st8中轉(zhuǎn)換后的圖像幀,對(duì)用戶(hù)的嘴唇的動(dòng)作進(jìn)行圖像識(shí)別(步驟st9)。嘴唇圖像識(shí)別部103根據(jù)在步驟st9中識(shí)別出的圖像識(shí)別結(jié)果判定用戶(hù)是否正在講話(步驟st10)。作為步驟st10的具體處理,例如嘴唇圖像識(shí)別部103從圖像幀中提取嘴唇圖像,根據(jù)嘴唇的寬度和高度,通過(guò)公知技術(shù)計(jì)算出嘴唇的形狀后,根據(jù)嘴唇形狀的變化是否與預(yù)先設(shè)定的講話時(shí)的嘴唇形狀圖案一致,判定是否正在講話。在與嘴唇形狀圖案一致的情況下判定為正在講話。
在嘴唇圖像識(shí)別部103中判定為用戶(hù)正在講話的情況下(步驟st10:是),進(jìn)入步驟st12的處理。另一方面,在嘴唇圖像識(shí)別部103中判定為用戶(hù)未在講話的情況下(步驟st10:否),非講話區(qū)間判定部104指示語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106學(xué)習(xí)語(yǔ)音區(qū)間檢測(cè)的閾值。語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106根據(jù)該指示,例如根據(jù)從語(yǔ)音輸入部105輸入的語(yǔ)音數(shù)據(jù)記錄在規(guī)定時(shí)間內(nèi)最大的語(yǔ)音輸入電平的值(步驟st11)。
進(jìn)而,非講話區(qū)間判定部104判定在步驟st3中起動(dòng)的定時(shí)器計(jì)測(cè)出的定時(shí)器值是否達(dá)到預(yù)先設(shè)定的超時(shí)閾值,即是否達(dá)到觸摸操作輸入的超時(shí)(步驟st12)。具體而言,判定是否達(dá)到圖2的時(shí)間b1。在未達(dá)到觸摸操作輸入的超時(shí)的情況下(步驟st12:否),返回步驟st9的處理,反復(fù)進(jìn)行上述處理。另一方面,在達(dá)到觸摸操作輸入的超時(shí)的情況下(步驟st12:是),非講話區(qū)間判定部104使語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106在存儲(chǔ)區(qū)域(未圖示)保存在步驟st11中記錄的語(yǔ)音輸入電平的值作為第1語(yǔ)音區(qū)間檢測(cè)閾值(步驟st13)。在圖2的例子中,保存從檢測(cè)到第1觸摸操作的時(shí)間a1到觸摸操作輸入超時(shí)的時(shí)間b1的時(shí)間內(nèi)輸入的語(yǔ)音數(shù)據(jù)中最大的語(yǔ)音輸入電平的值即圖2的(b)的值h,作為第1語(yǔ)音區(qū)間檢測(cè)閾值。
接著,非講話區(qū)間判定部104對(duì)圖像輸入部102輸出停止受理圖像輸入的指示(步驟st14),對(duì)語(yǔ)音輸入部105輸出停止受理語(yǔ)音輸入的指示(步驟st15)。然后,流程圖返回步驟st1的處理,反復(fù)進(jìn)行上述處理。
在通過(guò)上述步驟st7~步驟st15的處理來(lái)實(shí)施圖像識(shí)別處理的期間內(nèi),僅語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)處理進(jìn)行動(dòng)作(參照?qǐng)D2的(c)的時(shí)間a1~時(shí)間b1的區(qū)域j(圖像識(shí)別處理)和區(qū)域k(語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)處理))。
另一方面,在步驟st6的判定處理中坐標(biāo)值是表示講話的區(qū)域內(nèi)的值的情況下(步驟st6:否),判斷為是伴有講話的操作,非講話區(qū)間判定部104指示語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106學(xué)習(xí)語(yǔ)音區(qū)間檢測(cè)的閾值。語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106根據(jù)該指示,例如根據(jù)從語(yǔ)音輸入部105輸入的語(yǔ)音數(shù)據(jù)學(xué)習(xí)在規(guī)定時(shí)間內(nèi)最大的語(yǔ)音輸入電平的值,作為第2語(yǔ)音區(qū)間檢測(cè)閾值進(jìn)行保存(步驟st16)。
在圖2的例子中,保存從檢測(cè)到第2觸摸操作的時(shí)間c1到閾值學(xué)習(xí)完成的時(shí)間d1的時(shí)間內(nèi)輸入的語(yǔ)音數(shù)據(jù)中最大的語(yǔ)音輸入電平的值即圖2的(b)的值i,作為第2語(yǔ)音區(qū)間檢測(cè)閾值。另外,設(shè)在學(xué)習(xí)第2語(yǔ)音區(qū)間檢測(cè)閾值時(shí),用戶(hù)未在講話。
接著,語(yǔ)音區(qū)間檢測(cè)部107根據(jù)在步驟st16中保存的第2語(yǔ)音區(qū)間檢測(cè)閾值,判定是否能夠根據(jù)在步驟st16的語(yǔ)音區(qū)間檢測(cè)閾值的學(xué)習(xí)完成后經(jīng)由語(yǔ)音輸入部105輸入的語(yǔ)音數(shù)據(jù)檢測(cè)語(yǔ)音區(qū)間(步驟st17)。在圖2的例子中,根據(jù)第2語(yǔ)音區(qū)間檢測(cè)閾值即值i來(lái)檢測(cè)語(yǔ)音區(qū)間。具體而言,將閾值學(xué)習(xí)完成的時(shí)間d1之后輸入的語(yǔ)音數(shù)據(jù)的語(yǔ)音輸入電平高于第2語(yǔ)音區(qū)間檢測(cè)閾值i的點(diǎn)判斷為講話的開(kāi)頭,將講話的開(kāi)頭之后的語(yǔ)音數(shù)據(jù)中低于第2語(yǔ)音區(qū)間檢測(cè)閾值即值i的點(diǎn)判斷為講話的末尾。
假設(shè)在語(yǔ)音數(shù)據(jù)中不存在噪音的情況下,如圖2的講話語(yǔ)音f所示,能夠檢測(cè)開(kāi)頭f1和末尾f2,在步驟st17的判定處理中判定為能夠檢測(cè)語(yǔ)音區(qū)間(步驟st17:是)。在能夠檢測(cè)語(yǔ)音區(qū)間的情況下(步驟st17:是),語(yǔ)音區(qū)間檢測(cè)部107將檢測(cè)到的語(yǔ)音區(qū)間輸入到語(yǔ)音識(shí)別部108,語(yǔ)音識(shí)別部108進(jìn)行語(yǔ)音識(shí)別,輸出語(yǔ)音識(shí)別結(jié)果的文本(步驟st21)。然后,語(yǔ)音輸入部105根據(jù)從非講話區(qū)間判定部104輸入的語(yǔ)音輸入的受理停止指示而停止受理語(yǔ)音輸入(步驟st22),返回步驟st1的處理。
另一方面,假設(shè)在語(yǔ)音數(shù)據(jù)中產(chǎn)生噪音的情況下,例如當(dāng)在圖2的講話語(yǔ)音f中重疊有噪音g時(shí),講話語(yǔ)音f的開(kāi)頭f1高于第2語(yǔ)音區(qū)間檢測(cè)閾值即值i,因此,可正確進(jìn)行檢測(cè),但是,講話語(yǔ)音f的末尾f2與噪音g重疊而不低于第2語(yǔ)音區(qū)間檢測(cè)閾值的值i,因此,未正確進(jìn)行檢測(cè),在步驟st17的判定處理中判定為無(wú)法檢測(cè)語(yǔ)音區(qū)間(步驟st17:否)。在無(wú)法檢測(cè)語(yǔ)音區(qū)間的情況下(步驟st17:否),語(yǔ)音區(qū)間檢測(cè)部107參照預(yù)先設(shè)定的語(yǔ)音輸入超時(shí)值,判定是否達(dá)到語(yǔ)音輸入超時(shí)(步驟st18)。更加詳細(xì)地說(shuō)明步驟st18的處理時(shí),語(yǔ)音區(qū)間檢測(cè)部107對(duì)從檢測(cè)到講話語(yǔ)音f的開(kāi)頭f1起的時(shí)間進(jìn)行計(jì)測(cè),判定計(jì)測(cè)值是否達(dá)到預(yù)先設(shè)定的語(yǔ)音輸入超時(shí)的時(shí)間e1。
在未達(dá)到語(yǔ)音輸入超時(shí)的情況下(步驟st18:否),語(yǔ)音區(qū)間檢測(cè)部107返回步驟st17的處理,繼續(xù)檢測(cè)語(yǔ)音區(qū)間。另一方面,在達(dá)到語(yǔ)音輸入超時(shí)的情況下(步驟st18:是),語(yǔ)音區(qū)間檢測(cè)部107將在步驟st13中保存的第1語(yǔ)音區(qū)間檢測(cè)閾值設(shè)定成判定用的閾值(步驟st19)。
語(yǔ)音區(qū)間檢測(cè)部107根據(jù)在步驟st19中設(shè)定的第1語(yǔ)音區(qū)間檢測(cè)閾值,判定是否能夠根據(jù)步驟st16的語(yǔ)音區(qū)間檢測(cè)閾值的學(xué)習(xí)完成后經(jīng)由語(yǔ)音輸入部105輸入的語(yǔ)音數(shù)據(jù)檢測(cè)語(yǔ)音區(qū)間(步驟st20)。這里,在存儲(chǔ)區(qū)域(未圖示)中存儲(chǔ)有在步驟st16的學(xué)習(xí)處理后輸入的語(yǔ)音數(shù)據(jù),針對(duì)存儲(chǔ)的語(yǔ)音數(shù)據(jù),應(yīng)用在步驟st19中新設(shè)定的第1語(yǔ)音區(qū)間檢測(cè)閾值來(lái)檢測(cè)講話語(yǔ)音的開(kāi)頭和末尾。
在圖2的例子中,假設(shè)在產(chǎn)生噪音g的情況下,講話語(yǔ)音f的開(kāi)頭f1也高于第1語(yǔ)音區(qū)間檢測(cè)閾值即值h,并且講話語(yǔ)音f的末尾f2也低于第1語(yǔ)音區(qū)間檢測(cè)閾值即值h,因此,判定為能夠檢測(cè)語(yǔ)音區(qū)間(步驟st20:是)。
在能夠檢測(cè)語(yǔ)音區(qū)間的情況下(步驟st20:是),進(jìn)入步驟st21的處理。另一方面,在應(yīng)用第1語(yǔ)音區(qū)間檢測(cè)閾值也無(wú)法檢測(cè)語(yǔ)音區(qū)間的情況下(步驟st20:否),不進(jìn)行語(yǔ)音識(shí)別,進(jìn)入步驟st22的處理,返回步驟st1的處理。
在通過(guò)步驟st17~步驟st22的處理來(lái)實(shí)施語(yǔ)音識(shí)別處理的期間內(nèi),僅語(yǔ)音區(qū)間檢測(cè)處理進(jìn)行動(dòng)作(參照?qǐng)D2的(c)的時(shí)間d1~時(shí)間e1的區(qū)域l(語(yǔ)音區(qū)間檢測(cè)處理)和區(qū)域m(語(yǔ)音識(shí)別處理))。
如上所述,根據(jù)該實(shí)施方式1,構(gòu)成為具有:非講話區(qū)間判定部104,其通過(guò)觸摸操作來(lái)檢測(cè)非講話的操作,僅在非講話的操作時(shí)進(jìn)行圖像識(shí)別處理,判定用戶(hù)的講話;語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106,其在用戶(hù)未在講話的情況下學(xué)習(xí)語(yǔ)音數(shù)據(jù)的第1語(yǔ)音區(qū)間檢測(cè)閾值;以及語(yǔ)音區(qū)間檢測(cè)部107,其在應(yīng)用通過(guò)觸摸操作檢測(cè)到講話的操作后學(xué)習(xí)到的第2語(yǔ)音區(qū)間檢測(cè)閾值檢測(cè)語(yǔ)音區(qū)間失敗的情況下,使用第1語(yǔ)音區(qū)間檢測(cè)閾值再次進(jìn)行語(yǔ)音區(qū)間檢測(cè)。因此,在講話操作時(shí)的學(xué)習(xí)區(qū)間內(nèi)設(shè)定的第2語(yǔ)音區(qū)間檢測(cè)閾值不是適當(dāng)值的情況下,也能夠使用第1語(yǔ)音區(qū)間檢測(cè)閾值檢測(cè)正確的語(yǔ)音區(qū)間。并且,能夠進(jìn)行控制以使圖像識(shí)別處理和語(yǔ)音識(shí)別處理不會(huì)同時(shí)進(jìn)行動(dòng)作,在處理性能較低的平板終端等中應(yīng)用該語(yǔ)音識(shí)別裝置100的情況下,也能夠縮短直到得到語(yǔ)音識(shí)別結(jié)果為止的延遲時(shí)間,能夠抑制語(yǔ)音識(shí)別性能的降低。
并且,在上述實(shí)施方式1中,輔助了如下的結(jié)構(gòu):僅在非講話的操作時(shí),對(duì)由攝像機(jī)等拍攝到的動(dòng)態(tài)圖像數(shù)據(jù)進(jìn)行圖像識(shí)別處理,判定用戶(hù)是否正在講話,但是,也可以構(gòu)成為使用由攝像機(jī)以外的單元取得的數(shù)據(jù)來(lái)判定用戶(hù)的講話。例如,也可以構(gòu)成為在平板終端搭載有接近傳感器的情況下,根據(jù)由該接近傳感器取得的數(shù)據(jù)計(jì)算平板終端的傳聲器與用戶(hù)的嘴唇之間的距離,在傳聲器與嘴唇之間的距離小于預(yù)先設(shè)定的閾值的情況下,判定為用戶(hù)在講話。
由此,能夠抑制在語(yǔ)音識(shí)別處理未進(jìn)行動(dòng)作的狀態(tài)下針對(duì)裝置的處理負(fù)荷的增大,在處理性能較低的平板終端中能夠提高語(yǔ)音識(shí)別性能,并且進(jìn)行語(yǔ)音識(shí)別以外的處理。
進(jìn)而,通過(guò)使用接近傳感器,與使用攝像機(jī)的情況相比,能夠抑制耗電,在電池壽命的制約較大的平板終端中能夠提高便利性。
實(shí)施方式2
在上述實(shí)施方式1中,示出在檢測(cè)到非講話的操作的情況下嘴唇圖像識(shí)別部103進(jìn)行嘴唇圖像的識(shí)別來(lái)判定用戶(hù)的講話的結(jié)構(gòu),在本實(shí)施方式2中,對(duì)根據(jù)用戶(hù)的操作狀態(tài)來(lái)判定講話或非講話的操作,在非講話操作時(shí)學(xué)習(xí)語(yǔ)音輸入電平的結(jié)構(gòu)進(jìn)行說(shuō)明。
圖4是示出實(shí)施方式2的語(yǔ)音識(shí)別裝置200的結(jié)構(gòu)的框圖。
實(shí)施方式2的語(yǔ)音識(shí)別裝置200構(gòu)成為代替實(shí)施方式1所示的語(yǔ)音識(shí)別裝置100的圖像輸入部102、嘴唇圖像識(shí)別部103和非講話區(qū)間判定部104而設(shè)置操作狀態(tài)判定部(非語(yǔ)音操作識(shí)別部)201、操作腳本存儲(chǔ)部202和非講話區(qū)間判定部203。
下面,對(duì)與實(shí)施方式1的語(yǔ)音識(shí)別裝置100的結(jié)構(gòu)要素相同或相當(dāng)?shù)牟糠謽?biāo)注與在實(shí)施方式1中使用的標(biāo)號(hào)相同的標(biāo)號(hào),省略或簡(jiǎn)化說(shuō)明。
操作狀態(tài)判定部201參照從觸摸操作輸入部101輸入的用戶(hù)對(duì)觸摸面板的觸摸操作的信息和表示操作腳本存儲(chǔ)部202中存儲(chǔ)的由于觸摸操作而轉(zhuǎn)變的操作狀態(tài)的信息,判定用戶(hù)的操作狀態(tài)。這里,觸摸操作的信息例如是檢測(cè)到用戶(hù)對(duì)觸摸面板的接觸的坐標(biāo)值等。
操作腳本存儲(chǔ)部202是存儲(chǔ)由于觸摸操作而轉(zhuǎn)變的操作狀態(tài)的存儲(chǔ)區(qū)域。例如,作為操作畫(huà)面,設(shè)置有初始畫(huà)面、位于初始畫(huà)面的下位層的用于供用戶(hù)選擇操作畫(huà)面的操作畫(huà)面選擇畫(huà)面、位于該操作畫(huà)面選擇畫(huà)面的下位層的選擇出的畫(huà)面中的操作畫(huà)面這3個(gè)畫(huà)面。在用戶(hù)在初始畫(huà)面中進(jìn)行觸摸操作而轉(zhuǎn)變到操作畫(huà)面選擇畫(huà)面的情況下,存儲(chǔ)表示操作狀態(tài)從初始狀態(tài)轉(zhuǎn)變到操作畫(huà)面選擇狀態(tài)的信息作為操作腳本。并且,在用戶(hù)在操作畫(huà)面選擇畫(huà)面中進(jìn)行與選擇按鈕對(duì)應(yīng)的觸摸操作而轉(zhuǎn)變到選擇畫(huà)面的操作畫(huà)面的情況下,存儲(chǔ)表示操作狀態(tài)從操作畫(huà)面選擇狀態(tài)轉(zhuǎn)變到選擇出的畫(huà)面中的特定項(xiàng)目輸入狀態(tài)的信息作為操作腳本。
圖5是示出實(shí)施方式2的語(yǔ)音識(shí)別裝置200的操作腳本存儲(chǔ)部202存儲(chǔ)的操作腳本的一例的圖。
在圖5的例子中,操作腳本由操作狀態(tài)、顯示畫(huà)面、轉(zhuǎn)變條件、轉(zhuǎn)變目的地的狀態(tài)、表示是伴有講話的操作還是非講話的操作的信息構(gòu)成。
首先,操作狀態(tài)構(gòu)成為,作為與上述“初始狀態(tài)”和“操作畫(huà)面選擇狀態(tài)”相當(dāng)?shù)木唧w例對(duì)應(yīng)有“作業(yè)場(chǎng)所選擇”,作為與上述“選擇出的畫(huà)面的操作狀態(tài)”相當(dāng)?shù)木唧w例對(duì)應(yīng)有“場(chǎng)所a的作業(yè)中”和“場(chǎng)所b的作業(yè)中”。進(jìn)而,作為與上述“特定項(xiàng)目的輸入狀態(tài)”相當(dāng)?shù)木唧w例對(duì)應(yīng)有“作業(yè)c實(shí)施中”等4個(gè)操作狀態(tài)。
例如,在操作狀態(tài)是“作業(yè)場(chǎng)所選擇”的情況下,在操作畫(huà)面中顯示“作業(yè)場(chǎng)所選擇”。在顯示有“作業(yè)場(chǎng)所選擇”的操作畫(huà)面中進(jìn)行了作為轉(zhuǎn)變條件的“觸摸作業(yè)場(chǎng)所a按鈕”的情況下,轉(zhuǎn)變到“場(chǎng)所a的作業(yè)中”的操作狀態(tài)。另一方面,在進(jìn)行了作為轉(zhuǎn)變條件的“觸摸作業(yè)場(chǎng)所b按鈕”的情況下,轉(zhuǎn)變到“場(chǎng)所b的作業(yè)中”的操作狀態(tài)。示出“觸摸作業(yè)場(chǎng)所a按鈕”和“觸摸作業(yè)場(chǎng)所b按鈕”的操作是非講話的操作。
并且,例如在操作狀態(tài)是“作業(yè)c實(shí)施中”的情況下,在操作畫(huà)面中顯示“作業(yè)c”。在顯示有“作業(yè)c”的操作畫(huà)面中進(jìn)行了作為轉(zhuǎn)變條件的“觸摸結(jié)束按鈕”的情況下,轉(zhuǎn)變到“場(chǎng)所a的作業(yè)中”的操作狀態(tài)。示出“觸摸結(jié)束按鈕”的操作是非講話的操作。
接著,參照?qǐng)D6和圖7對(duì)實(shí)施方式2的語(yǔ)音識(shí)別裝置200的動(dòng)作進(jìn)行說(shuō)明。圖6是示出實(shí)施方式2的語(yǔ)音識(shí)別裝置200的輸入操作的一例的說(shuō)明圖,圖7是示出實(shí)施方式2的語(yǔ)音識(shí)別裝置200的動(dòng)作的流程圖。另外,下面,對(duì)與實(shí)施方式1的語(yǔ)音識(shí)別裝置100相同的步驟標(biāo)注與在圖3中使用的標(biāo)號(hào)相同的標(biāo)號(hào),省略或簡(jiǎn)化說(shuō)明。
首先,圖6的(a)在時(shí)間軸上示出用戶(hù)進(jìn)行第1觸摸操作的時(shí)間a2、表示第1觸摸操作的輸入超時(shí)的時(shí)間b2、進(jìn)行第2觸摸操作的時(shí)間a3、表示第2觸摸操作的輸入超時(shí)的時(shí)間b3、進(jìn)行第3觸摸操作的時(shí)間c2、表示閾值學(xué)習(xí)完成的時(shí)間d2以及表示語(yǔ)音輸入超時(shí)的時(shí)間e2。
圖6的(b)示出輸入到語(yǔ)音輸入部105的語(yǔ)音的輸入電平的時(shí)間變化。實(shí)線示出講話語(yǔ)音f(f1是講話語(yǔ)音的開(kāi)頭,f2是講話語(yǔ)音的末尾),單點(diǎn)劃線示出噪音g。語(yǔ)音輸入電平的軸上所示的值h示出第1語(yǔ)音區(qū)間檢測(cè)閾值,值i示出第2語(yǔ)音區(qū)間檢測(cè)閾值。
圖6的(c)示出語(yǔ)音識(shí)別裝置200的cpu負(fù)荷的時(shí)間變化。區(qū)域k示出閾值學(xué)習(xí)處理的負(fù)荷,區(qū)域l示出語(yǔ)音區(qū)間檢測(cè)處理的負(fù)荷,區(qū)域m示出語(yǔ)音識(shí)別處理的負(fù)荷。
當(dāng)用戶(hù)利用手指按下觸摸面板的一部分時(shí),觸摸操作輸入部101檢測(cè)該觸摸操作(步驟st1:是),取得檢測(cè)到觸摸操作的坐標(biāo)值,將其輸出到非講話區(qū)間判定部203和操作狀態(tài)判定部201(步驟st31)。非講話區(qū)間判定部203取得在步驟st31中輸出的坐標(biāo)值后,起動(dòng)內(nèi)置的定時(shí)器,開(kāi)始計(jì)測(cè)從檢測(cè)到觸摸操作起的經(jīng)過(guò)時(shí)間(步驟st3)。進(jìn)而,非講話區(qū)間判定部203指示語(yǔ)音輸入部105開(kāi)始輸入語(yǔ)音,語(yǔ)音輸入部105根據(jù)該指示而開(kāi)始受理語(yǔ)音的輸入(步驟st4),將取得的語(yǔ)音轉(zhuǎn)換成語(yǔ)音數(shù)據(jù)(步驟st5)。
另一方面,操作狀態(tài)判定部201取得在步驟st31中輸出的坐標(biāo)值后,參照操作腳本存儲(chǔ)部202來(lái)判定操作畫(huà)面的操作狀態(tài)(步驟st32)。判定結(jié)果被輸出到非講話區(qū)間判定部203。非講話區(qū)間判定部203參照在步驟st31中輸出的坐標(biāo)值和在步驟st32中輸出的操作狀態(tài),判定觸摸操作是否是未伴有講話的非講話的操作(步驟st33)。在是非講話的操作的情況下(步驟st33:是),非講話區(qū)間判定部203指示語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106學(xué)習(xí)語(yǔ)音區(qū)間檢測(cè)的閾值,語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106根據(jù)該指示,例如根據(jù)從語(yǔ)音輸入部105輸入的語(yǔ)音數(shù)據(jù)記錄在規(guī)定時(shí)間內(nèi)最大的語(yǔ)音輸入電平的值(步驟st11)。然后,進(jìn)行步驟st12、st13、st15的處理,返回步驟st1的處理。
下面,示出2個(gè)在步驟st33中判定為是非講話的操作的情況下(步驟st33:是)的例子。
首先,以示出操作狀態(tài)從“初始狀態(tài)”向“操作畫(huà)面選擇狀態(tài)”轉(zhuǎn)變的情況為例進(jìn)行說(shuō)明。在被輸入圖6的(a)的時(shí)間a2所示的第1觸摸操作的情況下,在初始畫(huà)面中進(jìn)行用戶(hù)的第1觸摸操作,當(dāng)在該第1觸摸操作中輸入的坐標(biāo)值在選擇轉(zhuǎn)移到特定操作畫(huà)面的區(qū)域(例如進(jìn)入操作畫(huà)面選擇的按鈕)內(nèi)的情況下,作為步驟st32,操作狀態(tài)判定部201參照操作腳本存儲(chǔ)部202,取得表示操作狀態(tài)從“初始狀態(tài)”轉(zhuǎn)變到“操作畫(huà)面選擇狀態(tài)”的轉(zhuǎn)變信息作為判定結(jié)果。
非講話區(qū)間判定部203參照在步驟st32中取得的操作狀態(tài),判定為“初始狀態(tài)”下的觸摸操作是用于進(jìn)行畫(huà)面轉(zhuǎn)變的不需要講話的非講話的操作(步驟st33:是)。在判定為是非講話的操作的情況下,在達(dá)到第1觸摸操作輸入超時(shí)的時(shí)間b2之前,僅語(yǔ)音區(qū)間閾值學(xué)習(xí)處理進(jìn)行動(dòng)作(參照?qǐng)D6的(c)的時(shí)間a2~時(shí)間b2的區(qū)域k(語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)處理))。
接著,以示出從“操作畫(huà)面選擇狀態(tài)”向“選擇畫(huà)面中的操作狀態(tài)”轉(zhuǎn)變的情況為例進(jìn)行說(shuō)明。在被輸入圖6的(a)的時(shí)間b2所示的第2觸摸操作的情況下,在操作畫(huà)面選擇畫(huà)面中進(jìn)行用戶(hù)的第2觸摸操作,在該第2觸摸操作中輸入的坐標(biāo)值在選擇向特定操作畫(huà)面的轉(zhuǎn)移的區(qū)域(例如選擇操作畫(huà)面的按鈕)內(nèi)的情況下,作為步驟st32,操作狀態(tài)判定部201參照操作腳本存儲(chǔ)部202,取得表示操作狀態(tài)從“操作畫(huà)面選擇狀態(tài)”轉(zhuǎn)變到“選擇畫(huà)面中的操作狀態(tài)”的轉(zhuǎn)變信息作為判定結(jié)果。
非講話區(qū)間判定部203參照在步驟st32中取得的操作狀態(tài),判定為“操作畫(huà)面選擇狀態(tài)”下的觸摸操作是非講話的操作(步驟st33:是)。在判定為是非講話的操作的情況下,在達(dá)到第2觸摸操作輸入超時(shí)的時(shí)間b3之前,僅語(yǔ)音區(qū)間閾值學(xué)習(xí)處理進(jìn)行動(dòng)作(參照?qǐng)D6的(c)的時(shí)間a3~時(shí)間b3的區(qū)域k(語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)處理))。
另一方面,在是講話的操作的情況下(步驟st33:否),非講話區(qū)間判定部203指示語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106學(xué)習(xí)語(yǔ)音區(qū)間檢測(cè)的閾值,語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106根據(jù)該指示,例如根據(jù)從語(yǔ)音輸入部105輸入的語(yǔ)音數(shù)據(jù)學(xué)習(xí)在規(guī)定時(shí)間內(nèi)最大的語(yǔ)音輸入電平的值,作為第2語(yǔ)音區(qū)間檢測(cè)閾值進(jìn)行保存(步驟st16)。然后,進(jìn)行與步驟st17~步驟st22相同的處理。
下面,示出在步驟st33中判定為是講話的操作的情況下(步驟st33:否)的例子。
以示出從“選擇畫(huà)面中的操作狀態(tài)”向“特定項(xiàng)目的輸入狀態(tài)”轉(zhuǎn)變的情況為例進(jìn)行說(shuō)明。在被輸入圖6的(a)的時(shí)間c2所示的第3觸摸操作的情況下,在選擇畫(huà)面中的操作畫(huà)面上進(jìn)行用戶(hù)的第3觸摸操作,在該第3觸摸操作中輸入的坐標(biāo)值在選擇向特定操作項(xiàng)目的轉(zhuǎn)移的區(qū)域(例如選擇項(xiàng)目的按鈕)內(nèi)的情況下,作為步驟st32,操作狀態(tài)判定部201參照操作腳本存儲(chǔ)部202,取得表示操作狀態(tài)從“操作畫(huà)面中的操作狀態(tài)”轉(zhuǎn)變到“特定項(xiàng)目的輸入狀態(tài)”的轉(zhuǎn)變信息作為判定結(jié)果。
非講話區(qū)間判定部203參照在步驟st32中取得的操作狀態(tài),在是“選擇畫(huà)面中的操作狀態(tài)”下的觸摸操作且在步驟st31中輸出的坐標(biāo)值在伴有講話的特定項(xiàng)目的輸入?yún)^(qū)域內(nèi)的情況下,判定為是講話的操作(步驟st33:否)。在判定為是講話的操作的情況下,在閾值學(xué)習(xí)完成的時(shí)間d2之前,語(yǔ)音區(qū)間閾值學(xué)習(xí)處理進(jìn)行動(dòng)作,進(jìn)而,在語(yǔ)音輸入超時(shí)的時(shí)間e2之前,語(yǔ)音區(qū)間檢測(cè)處理和語(yǔ)音識(shí)別處理進(jìn)行動(dòng)作(參照?qǐng)D6的(c)的時(shí)間c2~時(shí)間d2的區(qū)域k(語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)處理)、時(shí)間d2~時(shí)間e2的區(qū)域l(語(yǔ)音區(qū)間檢測(cè)處理)和區(qū)域m(語(yǔ)音識(shí)別處理))。
如上所述,根據(jù)該實(shí)施方式2,構(gòu)成為具有操作狀態(tài)判定部201,該操作狀態(tài)判定部201根據(jù)操作腳本存儲(chǔ)部202中存儲(chǔ)的由于觸摸操作而轉(zhuǎn)變的操作狀態(tài)和從觸摸操作輸入部101輸入的觸摸操作的信息來(lái)判定用戶(hù)的操作狀態(tài);具有非講話區(qū)間判定部203,該非講話區(qū)間判定部203在判定為是非講話的操作的情況下,指示語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106學(xué)習(xí)第1語(yǔ)音區(qū)間檢測(cè)閾值。因此,不需要攝像機(jī)等攝像單元以檢測(cè)非講話的操作,不需要運(yùn)算量較大的圖像識(shí)別處理,因此,在處理性能較低的平板終端中應(yīng)用該語(yǔ)音識(shí)別裝置200的情況下,也能夠抑制語(yǔ)音識(shí)別性能的降低。
并且,構(gòu)成為在使用檢測(cè)到講話的操作后學(xué)習(xí)到的第2語(yǔ)音區(qū)間檢測(cè)閾值檢測(cè)語(yǔ)音區(qū)間失敗的情況下,使用在非講話的操作時(shí)學(xué)習(xí)到的第1語(yǔ)音區(qū)間檢測(cè)閾值再次進(jìn)行語(yǔ)音區(qū)間檢測(cè)。因此,在講話的操作時(shí)未能設(shè)定適當(dāng)閾值的情況下,也能夠檢測(cè)正確的語(yǔ)音區(qū)間。
并且,不需要攝像機(jī)等輸入單元以檢測(cè)非講話的操作,能夠抑制輸入單元的耗電。由此,在電池壽命的制約較大的平板終端等中能夠提高便利性。
實(shí)施方式3
也可以組合上述實(shí)施方式1和實(shí)施方式2來(lái)構(gòu)成語(yǔ)音識(shí)別裝置。
圖8是示出實(shí)施方式3的語(yǔ)音識(shí)別裝置300的結(jié)構(gòu)的框圖。語(yǔ)音識(shí)別裝置300構(gòu)成為在圖4所示的實(shí)施方式2的語(yǔ)音識(shí)別裝置200中追加設(shè)置圖像輸入部102和嘴唇圖像識(shí)別部103,并且將非講話區(qū)間判定部203置換成非講話區(qū)間判定部301。
在非講話區(qū)間判定部301判定為是不伴有講話的非講話的操作的情況下,圖像輸入部102取得由攝像機(jī)等攝像單元拍攝到的動(dòng)態(tài)圖像,將其變更成圖像數(shù)據(jù),嘴唇圖像識(shí)別部103分析取得的圖像數(shù)據(jù),識(shí)別用戶(hù)的嘴唇的動(dòng)作。在嘴唇圖像識(shí)別部103中判定為用戶(hù)未在講話的情況下,非講話區(qū)間判定部301指示語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106學(xué)習(xí)語(yǔ)音區(qū)間檢測(cè)的閾值。
接著,參照?qǐng)D9和圖10對(duì)實(shí)施方式3的語(yǔ)音識(shí)別裝置300的動(dòng)作進(jìn)行說(shuō)明。圖9是示出實(shí)施方式3的語(yǔ)音識(shí)別裝置300的輸入操作的一例的說(shuō)明圖,圖10是示出實(shí)施方式3的語(yǔ)音識(shí)別裝置300的動(dòng)作的流程圖。另外,下面,對(duì)與實(shí)施方式2的語(yǔ)音識(shí)別裝置200相同的步驟標(biāo)注與在圖7中使用的標(biāo)號(hào)相同的標(biāo)號(hào),省略或簡(jiǎn)化說(shuō)明。
首先,圖9的(a)~圖9的(c)的結(jié)構(gòu)與實(shí)施方式2的圖6所示的結(jié)構(gòu)相同,不同之處僅在于,追加有圖9的(c)中的示出圖像識(shí)別處理的區(qū)域j。
在步驟st33中,非講話區(qū)間判定部301參照從觸摸操作輸入部101輸出的坐標(biāo)值和從操作狀態(tài)判定部201輸出的操作狀態(tài),判定觸摸操作是否是未伴有講話的非講話的操作,在該處理之前與實(shí)施方式2相同,因此省略說(shuō)明。在是非講話的操作的情況下(步驟st33:是),非講話區(qū)間判定部301進(jìn)行實(shí)施方式1的圖3所示的步驟st11~步驟st15的處理,返回步驟st1的處理。即,在實(shí)施方式2的處理的基礎(chǔ)上,追加進(jìn)行圖像輸入部102和嘴唇圖像識(shí)別部103的圖像識(shí)別處理。另一方面,在是講話的操作的情況下(步驟st33:否),進(jìn)行步驟st16~步驟st22的處理,返回步驟st1的處理。
在步驟st33中判定為是非講話的操作的情況下(步驟st33:是)的例子是圖9中的第1觸摸操作和第2觸摸操作。另一方面,在步驟st33中判定為是講話的操作的情況下(步驟st33:否)的例子是圖9中的第3觸摸操作。另外,在圖9的(c)中,在第1觸摸操作和第2觸摸操作中的語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)處理(參照區(qū)域k)的基礎(chǔ)上,還進(jìn)行圖像識(shí)別處理(參照區(qū)域j)。其他與實(shí)施方式2所示的圖6相同,因此省略詳細(xì)說(shuō)明。
如上所述,根據(jù)該實(shí)施方式3,構(gòu)成為具有操作狀態(tài)判定部201,該操作狀態(tài)判定部201根據(jù)操作腳本存儲(chǔ)部202中存儲(chǔ)的由于觸摸操作而轉(zhuǎn)變的操作狀態(tài)和從觸摸操作輸入部101輸入的觸摸操作的信息來(lái)判定用戶(hù)的操作狀態(tài);具有非講話區(qū)間判定部301,該非講話區(qū)間判定部301僅在判定為是非講話的操作的情況下,指示嘴唇圖像識(shí)別部103進(jìn)行圖像識(shí)別處理,僅在判定為是非講話的操作的情況下,指示語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106學(xué)習(xí)第1語(yǔ)音區(qū)間檢測(cè)閾值。因此,能夠進(jìn)行控制以使處理負(fù)荷較大的圖像識(shí)別處理和語(yǔ)音識(shí)別處理不會(huì)同時(shí)進(jìn)行動(dòng)作,并且,能夠限制根據(jù)操作腳本進(jìn)行圖像識(shí)別處理的情況。并且,能夠可靠地在用戶(hù)未進(jìn)行講話時(shí)學(xué)習(xí)第1語(yǔ)音區(qū)間檢測(cè)閾值。由此,在處理性能較低的平板終端等中應(yīng)用該語(yǔ)音識(shí)別裝置300的情況下,也能夠提高語(yǔ)音識(shí)別性能。
并且,構(gòu)成為在使用檢測(cè)到講話的操作后學(xué)習(xí)到的第2語(yǔ)音區(qū)間檢測(cè)閾值檢測(cè)語(yǔ)音區(qū)間失敗的情況下,使用在非講話的操作時(shí)學(xué)習(xí)到的第1語(yǔ)音區(qū)間檢測(cè)閾值再次進(jìn)行語(yǔ)音區(qū)間檢測(cè)。因此,在講話的操作時(shí)未能設(shè)定適當(dāng)閾值的情況下,也能夠檢測(cè)正確的語(yǔ)音區(qū)間。
并且,在上述實(shí)施方式3中,示出如下的結(jié)構(gòu):僅在非講話的操作時(shí),對(duì)由攝像機(jī)等拍攝到的動(dòng)態(tài)圖像進(jìn)行圖像識(shí)別處理,判定用戶(hù)是否正在講話,但是,也可以構(gòu)成為使用由攝像機(jī)以外的單元取得的數(shù)據(jù)來(lái)判定用戶(hù)的講話。例如,也可以構(gòu)成為在平板終端搭載有接近傳感器的情況下,根據(jù)由該接近傳感器取得的數(shù)據(jù)計(jì)算平板終端的傳聲器與用戶(hù)的嘴唇之間的距離,在傳聲器與嘴唇之間的距離小于預(yù)先設(shè)定的閾值的情況下,判定為用戶(hù)在講話。
由此,能夠抑制在語(yǔ)音識(shí)別處理未進(jìn)行動(dòng)作的狀態(tài)下對(duì)裝置的處理負(fù)荷的增大,在處理性能較低的平板終端中能夠提高語(yǔ)音識(shí)別性能,并且進(jìn)行語(yǔ)音識(shí)別以外的處理。
進(jìn)而,通過(guò)使用接近傳感器,與使用攝像機(jī)的情況相比,能夠抑制耗電,在電池壽命的制約較大的平板終端中能夠提高操作性。
另外,在上述實(shí)施方式1~實(shí)施方式3中,示出語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106設(shè)定的語(yǔ)音輸入電平的閾值為一個(gè)的情況作為例子,但是,也可以構(gòu)成為,每當(dāng)檢測(cè)非講話操作時(shí),語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部106學(xué)習(xí)語(yǔ)音輸入電平的閾值,設(shè)定學(xué)習(xí)到的多個(gè)閾值。
也可以構(gòu)成為,在設(shè)定多個(gè)閾值的情況下,語(yǔ)音區(qū)間檢測(cè)部107使用所設(shè)定的多個(gè)閾值,實(shí)施多次圖3的流程圖所示的步驟st19和步驟st20的語(yǔ)音區(qū)間檢測(cè)處理,僅在檢測(cè)到講話語(yǔ)音區(qū)間的開(kāi)頭和末尾的情況下,輸出結(jié)果作為檢測(cè)到的語(yǔ)音區(qū)間。
由此,能夠僅實(shí)施多次的語(yǔ)音區(qū)間檢測(cè)處理,能夠抑制處理負(fù)荷的增大,在處理性能較低的平板終端中應(yīng)用該語(yǔ)音識(shí)別裝置的情況下,也能夠提高語(yǔ)音識(shí)別性能。
并且,在上述實(shí)施方式1~實(shí)施方式3中,示出如下結(jié)構(gòu):在圖3的流程圖所示的步驟st20的判定處理中,在未檢測(cè)到語(yǔ)音區(qū)間的情況下,不進(jìn)行語(yǔ)音識(shí)別而停止語(yǔ)音的輸入,但是,也可以構(gòu)成為,在未檢測(cè)到語(yǔ)音區(qū)間的情況下也進(jìn)行語(yǔ)音識(shí)別并輸出識(shí)別結(jié)果。
例如,也可以構(gòu)成為,在檢測(cè)到講話語(yǔ)音的開(kāi)頭但未檢測(cè)到末尾而成為語(yǔ)音輸入超時(shí)的情況下,檢測(cè)從檢測(cè)到的講話語(yǔ)音的開(kāi)頭到語(yǔ)音輸入超時(shí)的語(yǔ)音區(qū)間作為語(yǔ)音區(qū)間,進(jìn)行語(yǔ)音識(shí)別并輸出識(shí)別結(jié)果。由此,在用戶(hù)進(jìn)行了講話的操作的情況下必定輸出語(yǔ)音識(shí)別結(jié)果作為響應(yīng),因此,用戶(hù)能夠容易地掌握語(yǔ)音識(shí)別裝置的舉動(dòng),能夠提高語(yǔ)音識(shí)別裝置的操作性。
并且,上述實(shí)施方式1~實(shí)施方式3構(gòu)成為,在使用通過(guò)觸摸操作檢測(cè)到講話的操作后學(xué)習(xí)到的第2語(yǔ)音區(qū)間檢測(cè)閾值檢測(cè)語(yǔ)音區(qū)間失敗的情況下(例如產(chǎn)生超時(shí)的情況下),使用通過(guò)觸摸操作在非講話的操作時(shí)學(xué)習(xí)到的第1語(yǔ)音區(qū)間檢測(cè)閾值再次進(jìn)行語(yǔ)音區(qū)間檢測(cè)處理,輸出語(yǔ)音識(shí)別結(jié)果。但是,也可以構(gòu)成為,在檢測(cè)語(yǔ)音區(qū)間失敗的情況下也進(jìn)行語(yǔ)音識(shí)別并輸出識(shí)別結(jié)果,提示使用在非講話的操作時(shí)學(xué)習(xí)到的第1語(yǔ)音區(qū)間檢測(cè)閾值實(shí)施語(yǔ)音區(qū)間檢測(cè)而得到的語(yǔ)音識(shí)別結(jié)果作為修正候選。由此,能夠縮短直到最初輸出語(yǔ)音識(shí)別結(jié)果為止的響應(yīng)時(shí)間,能夠提高語(yǔ)音識(shí)別裝置的操作性。
上述實(shí)施方式1~實(shí)施方式3所示的語(yǔ)音識(shí)別裝置100、200、300例如搭載于具有圖11所示的硬件結(jié)構(gòu)的平板終端等便攜終端400中。圖11的便攜終端400由觸摸面板401、傳聲器402、攝像機(jī)403、cpu404、rom(readonlymemory:只讀存儲(chǔ)器)405、ram(randomaccessmemory:隨機(jī)存取存儲(chǔ)器)406以及存儲(chǔ)器407構(gòu)成。這里,執(zhí)行語(yǔ)音識(shí)別裝置100、200、300的硬件是圖11所示的cpu404、rom405、ram406以及存儲(chǔ)器407。
cpu404執(zhí)行rom405、ram406以及存儲(chǔ)器407中存儲(chǔ)的程序,由此實(shí)現(xiàn)觸摸操作輸入部101、圖像輸入部102、嘴唇圖像識(shí)別部103、非講話區(qū)間判定部104、203、301、語(yǔ)音輸入部105、閾值學(xué)習(xí)部106、語(yǔ)音區(qū)間檢測(cè)部107、語(yǔ)音識(shí)別部108以及操作狀態(tài)判定部201。并且,也可以由多個(gè)處理器協(xié)作來(lái)執(zhí)行上述功能。
除了上述以外,本發(fā)明能夠在其發(fā)明范圍內(nèi)進(jìn)行各實(shí)施方式的自由組合、或各實(shí)施方式的任意結(jié)構(gòu)要素的變形、或在各實(shí)施方式中省略任意結(jié)構(gòu)要素。
產(chǎn)業(yè)上的可利用性
本發(fā)明的語(yǔ)音識(shí)別裝置能夠抑制處理負(fù)荷,因此,適用于平板終端或智能手機(jī)終端等不具有較高處理性能的設(shè)備,適合于進(jìn)行迅速的語(yǔ)音識(shí)別結(jié)果的輸出和高性能的語(yǔ)音識(shí)別。
標(biāo)號(hào)說(shuō)明
100、200、300:語(yǔ)音識(shí)別裝置;101:觸摸操作輸入部;102:圖像輸入部;103:嘴唇圖像識(shí)別部;104、203、301:非講話區(qū)間判定部;105:語(yǔ)音輸入部;106:語(yǔ)音區(qū)間檢測(cè)閾值學(xué)習(xí)部;107:語(yǔ)音區(qū)間檢測(cè)部;108:語(yǔ)音識(shí)別部;201:操作狀態(tài)判定部;202:操作腳本存儲(chǔ)部;400:便攜終端;401:觸摸面板;402:傳聲器;403:攝像機(jī);404:cpu;405:rom;406:ram;407:存儲(chǔ)器。