專利名稱:語音探測(cè)設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音探測(cè)設(shè)備。
背景技術(shù):
在語音探測(cè)設(shè)備中,目前已經(jīng)采用了這樣的技術(shù)將語音當(dāng)作聲信號(hào)處理,通過對(duì)聲信號(hào)進(jìn)行頻率分析,識(shí)別和處理語音信息。作為這種語音識(shí)別技術(shù)的例子,應(yīng)用頻譜包絡(luò)線或者類似東西。但是,為了用這種語音識(shí)別技術(shù)產(chǎn)生好的語音探測(cè)結(jié)果,在講話時(shí)需要要一定程度的音量,并且,除非輸入來自語音的聲信號(hào),語音信息的探測(cè)是不可能的。然而,在輸入語音時(shí),這會(huì)干擾講話者周圍的人,從而很難在辦公室、圖書館或者各種公共設(shè)施中使用這樣的語音探測(cè)設(shè)備。此外,在環(huán)境噪聲高的環(huán)境中也存在問題,這時(shí)會(huì)產(chǎn)生串?dāng)_,從而削弱語音探測(cè)功能。
另外,在近年來已經(jīng)快速普及的移動(dòng)電話中,現(xiàn)在已經(jīng)要求用戶避免在列車上使用移動(dòng)電話。這不僅是因?yàn)樵谑褂靡苿?dòng)電話時(shí)會(huì)對(duì)電子醫(yī)療設(shè)備比如心臟助搏器等產(chǎn)生電磁干擾,還有舉止不當(dāng)?shù)膯栴}一個(gè)人的講話聲對(duì)于它周圍的人來說會(huì)成為干擾噪聲。對(duì)于這些與聲信號(hào)有關(guān)的問題,進(jìn)行了研究來從聲信號(hào)之外的東西獲取聲信息。這是因?yàn)?,如果能夠從聲信?hào)之外的東西獲取語音信息,則使不出聲的“講話”成為可能。
作為這種研究的一個(gè)例子,基于與嘴唇有關(guān)的可視信息,提出了一種語音識(shí)別方法(參見下面提及的專利文獻(xiàn)1和2)。在專利文獻(xiàn)1和2中公開的語音識(shí)別方法基于圖像處理來識(shí)別嘴唇的活動(dòng),所述圖像處理使用視頻攝像機(jī)或者類似設(shè)備拾取的圖像。
作為這種研究的另一個(gè)例子,提出了一種語音識(shí)別方法,對(duì)與口周肌肉活動(dòng)相關(guān)聯(lián)而產(chǎn)生的肌電信號(hào)進(jìn)行處理,以識(shí)別產(chǎn)生的元音的種類(參見下文提及的非專利文獻(xiàn)1)。在非專利文獻(xiàn)1中公開的語音識(shí)別方法是在使肌電信號(hào)通過一個(gè)帶通濾波器之后,通過對(duì)越過一個(gè)閾值的次數(shù)進(jìn)行計(jì)數(shù)來區(qū)分五個(gè)元音(a,i,u,e,o)。
作為這種研究的又一個(gè)例子,提出了利用神經(jīng)網(wǎng)絡(luò)處理來自口周肌肉的肌電信號(hào)的語音識(shí)別方法,該方法不僅探測(cè)元音,還探測(cè)輔音(參見下文提及的專利文獻(xiàn)3)。
作為這種研究的又一個(gè)例子,提出了一種利用人臉上三個(gè)位置的肌電信號(hào)的均方根來識(shí)別五個(gè)元音(a,i,u,e,o)的語音識(shí)別方法(參見下文提及的非專利文獻(xiàn)2)。對(duì)于這種識(shí)別,使用神經(jīng)網(wǎng)絡(luò),因此據(jù)該文獻(xiàn)指出可以進(jìn)行高精度的識(shí)別。
專利文獻(xiàn)1日本專利申請(qǐng)臨時(shí)公開號(hào)No.52-112205;專利文獻(xiàn)2日本專利申請(qǐng)臨時(shí)公開號(hào)No.6-43897;專利文獻(xiàn)3日本專利申請(qǐng)臨時(shí)公開號(hào)No.7-181888;非專利文獻(xiàn)1Noboru Sugie et al.,″A speech Employing aSpeech Synthesizer Vowel Discrimination from Perioral MusclesActivities and Vowel Production,″IEE transactions on BiomedicalEngineering,Vo.32,No.7;非專利文獻(xiàn)2Manabe,Hiraiwa and Sugimura,″non-phonationvoice recognition using myoelectric signals,”Interaction 2002collected Papers,2002,p.181-182。
發(fā)明內(nèi)容
在如上所述基于肌電信號(hào)進(jìn)行語音識(shí)別的技術(shù)中,與使用通常的語音信號(hào)進(jìn)行語音識(shí)別一樣,用以讓識(shí)別引擎學(xué)習(xí)的學(xué)習(xí)數(shù)據(jù)是必不可少的,需要大量的數(shù)據(jù)來增強(qiáng)識(shí)別的精度。
因此,本發(fā)明的一個(gè)目的是提供一種語音探測(cè)設(shè)備,其能夠進(jìn)行語音識(shí)別而不需要使用學(xué)習(xí)數(shù)據(jù)。
本發(fā)明的發(fā)明人已經(jīng)從各個(gè)不同的角度研究了能夠解決上述問題的語音探測(cè)設(shè)備。發(fā)明人已經(jīng)注意到了將元音的識(shí)別和輔音的識(shí)別分開的處理方式。也就是,用于使用肌電信號(hào)進(jìn)行語音識(shí)別的方法的優(yōu)點(diǎn)是不受環(huán)境噪聲的影響,作為使用通常的語音信號(hào)的語音識(shí)別的輔助裝置,可以使用利用肌電信號(hào)的識(shí)別。鑒于上述,在本發(fā)明中,注意到了實(shí)現(xiàn)元音的識(shí)別。從這個(gè)角度出發(fā)嘗試實(shí)現(xiàn)語音識(shí)別。本發(fā)明就是基于這些知識(shí)來實(shí)現(xiàn)的。
根據(jù)本發(fā)明的語音探測(cè)設(shè)備包括肌電信號(hào)采集裝置,用于從多個(gè)區(qū)域采集在發(fā)聲動(dòng)作時(shí)產(chǎn)生的肌電信號(hào);參數(shù)計(jì)算裝置,用于針對(duì)每一個(gè)對(duì)應(yīng)于所述多個(gè)區(qū)域之一的通道計(jì)算所述采集的肌電信號(hào)相對(duì)于一預(yù)定值的波動(dòng),作為參數(shù);元音發(fā)聲識(shí)別裝置,基于所述計(jì)算出來的參數(shù)的波動(dòng),對(duì)一個(gè)元音指定在所述發(fā)聲動(dòng)作時(shí)的發(fā)聲動(dòng)作時(shí)刻;以及元音指定裝置,基于所述每一個(gè)通道在所述指定的發(fā)聲動(dòng)作時(shí)刻之前和之后的參數(shù)波動(dòng)條件,指定一個(gè)對(duì)應(yīng)于所述發(fā)聲動(dòng)作的元音。
在根據(jù)該發(fā)明的語音探測(cè)設(shè)備中,基于根據(jù)參數(shù)波動(dòng)指定的發(fā)聲動(dòng)作時(shí)刻之前和之后的參數(shù)波動(dòng)條件,指定一個(gè)對(duì)應(yīng)于所述發(fā)聲動(dòng)作的元音。因此,可以基于參數(shù)的升降信息來指定元音。因此,如果能夠獲取參數(shù)的波動(dòng)的趨勢(shì),就能夠識(shí)別元音。這樣,與元音相關(guān)的語音識(shí)別就成為可能。
另外,該發(fā)明的語音探測(cè)設(shè)備最好還包括肌電信息存儲(chǔ)裝置,用于存儲(chǔ)每一個(gè)通道中相互關(guān)聯(lián)的在所述發(fā)聲動(dòng)作時(shí)刻之前和之后的元音組合和所述參數(shù)的波動(dòng)條件,其中,所述元音指定裝置根據(jù)所述參數(shù)的波動(dòng)條件來指定存儲(chǔ)在所述肌電信息存儲(chǔ)裝置中的元音組合,以指定一個(gè)對(duì)應(yīng)于所述發(fā)聲動(dòng)作的元音。由于所述元音指定裝置參考存儲(chǔ)在所述肌電信息存儲(chǔ)裝置中的參數(shù)波動(dòng)條件,并指定一個(gè)與采集到的參數(shù)波動(dòng)條件匹配的元音,使得與元音相關(guān)的語音識(shí)別成為可能。
另外,在本發(fā)明的語音探測(cè)設(shè)備中,所述參數(shù)最好包括對(duì)應(yīng)于第一時(shí)間窗口的第一參數(shù)和對(duì)應(yīng)于第二時(shí)間窗口的第二參數(shù),所述第二時(shí)間窗口的時(shí)間段短于所述第一時(shí)間窗口;所述元音發(fā)聲識(shí)別裝置根據(jù)所述第二參數(shù)指定所述發(fā)聲動(dòng)作時(shí)刻;并且所述元音指定裝置根據(jù)所述第一參數(shù)指定所述元音。由于基于與時(shí)間段設(shè)置得較短的第二時(shí)間窗口對(duì)應(yīng)的第二參數(shù)指定所述發(fā)聲動(dòng)作時(shí)刻,可以更恰當(dāng)?shù)刂付ㄋ霭l(fā)聲動(dòng)作時(shí)刻。
根據(jù)本發(fā)明的一種語音探測(cè)設(shè)備包括肌電信號(hào)采集裝置,用于從多個(gè)區(qū)域采集在發(fā)聲動(dòng)作時(shí)產(chǎn)生的肌電信號(hào);參數(shù)計(jì)算裝置,用于在每一個(gè)對(duì)應(yīng)于所述多個(gè)區(qū)域之一的通道中計(jì)算所采集的肌電信號(hào)相對(duì)于一預(yù)定值的波動(dòng),作為參數(shù);波動(dòng)監(jiān)測(cè)裝置,用于監(jiān)測(cè)所述參數(shù)是否會(huì)在預(yù)定時(shí)間段上波動(dòng);以及元音指定裝置,基于所述監(jiān)測(cè)結(jié)果和所述參數(shù),指定一個(gè)對(duì)應(yīng)于所述發(fā)聲動(dòng)作的元音。
在根據(jù)本發(fā)明的語音探測(cè)設(shè)備中,基于所述參數(shù)是否波動(dòng)來指定對(duì)應(yīng)于發(fā)聲動(dòng)作的元音。因此,可以通過判斷參數(shù)是否上升或者下降來指定元音。因此,可以通過獲取參數(shù)波動(dòng)的趨勢(shì)來指定元音。從而使得與元音相關(guān)的語音識(shí)別成為可能。
根據(jù)該發(fā)明的語音探測(cè)設(shè)備最好還包括肌電信息存儲(chǔ)裝置,用于在所述發(fā)聲動(dòng)作時(shí)刻之前和之后的元音組合和所述參數(shù)的波動(dòng)條件在每一個(gè)通道中相互關(guān)聯(lián)的狀態(tài)下,存儲(chǔ)所述元音組合和所述波動(dòng)條件,其中,如果所述參數(shù)在一預(yù)定時(shí)間段上沒有波動(dòng),所述元音指定裝置采用該預(yù)定時(shí)間段的所述參數(shù),并基于所采用的參數(shù)的波動(dòng)條件,指定存儲(chǔ)在所述肌電信息存儲(chǔ)裝置中的元音組合,以指定一個(gè)對(duì)應(yīng)于所述發(fā)聲動(dòng)作的元音。由于所述元音指定裝置參考存儲(chǔ)在所述肌電信息存儲(chǔ)裝置中的參數(shù)波動(dòng)條件并指定與所采集的參數(shù)波動(dòng)條件匹配的元音,與元音相關(guān)的語音識(shí)別成為可能。
結(jié)合附圖可以更好地描述本發(fā)明。附圖中圖1的視示了本發(fā)明的一個(gè)實(shí)施例的語音探測(cè)設(shè)備的結(jié)構(gòu);圖2的視示了圖1中的肌電信號(hào)采集部件的結(jié)構(gòu);圖3的視解了圖1的參數(shù)計(jì)算部件的操作;圖4的視解了圖1的參數(shù)計(jì)算部件的操作;
圖5的視解了圖1的參數(shù)計(jì)算部件計(jì)算的參數(shù)的例子;圖6的視解了圖1的元音發(fā)聲識(shí)別部件的操作;圖7的視示了存儲(chǔ)在圖1的閾值信息存儲(chǔ)部件中的信息的一個(gè)例子;圖8的視解了圖1的元音指定部件的操作;圖9A的視示了存儲(chǔ)在圖1的肌電信息存儲(chǔ)部件中的信息的一個(gè)例子;圖9B的視示了存儲(chǔ)在圖1的肌電信息存儲(chǔ)部件中的信息的一個(gè)例子;圖9C的視示了存儲(chǔ)在圖1的肌電信息存儲(chǔ)部件中的信息的一個(gè)例子;圖10的視示了本發(fā)明的實(shí)施例的語音探測(cè)設(shè)備的一個(gè)變型的結(jié)構(gòu);圖11A的視示了存儲(chǔ)在圖10的肌電信息存儲(chǔ)部件中的信息的一個(gè)例子;圖11B的視示了存儲(chǔ)在圖10的肌電信息存儲(chǔ)部件中的信息的一個(gè)例子;圖11C的視示了存儲(chǔ)在圖10的肌電信息存儲(chǔ)部件中的信息的一個(gè)例子;圖12的視解了圖10的語音探測(cè)設(shè)備的操作。
具體實(shí)施例方式
結(jié)合作為舉例的附圖和下面的詳細(xì)說明,將更容易理解本發(fā)明的思想。下面,將結(jié)合附圖描述本發(fā)明的一個(gè)實(shí)施例。如果可能的話,相同的部件標(biāo)以相同的附圖標(biāo)記,并省略了重復(fù)的說明。
下面結(jié)合圖1描述本發(fā)明的一個(gè)實(shí)施例的語音探測(cè)設(shè)備10。圖1是一個(gè)框圖,用以圖解語音探測(cè)設(shè)備10。該實(shí)施例的語音探測(cè)設(shè)備10是一個(gè)非發(fā)聲語音探測(cè)設(shè)備,也就是,是一個(gè)通過進(jìn)行不發(fā)聲的“發(fā)聲”動(dòng)作來識(shí)別講話者的語音內(nèi)容的識(shí)別設(shè)備。語音探測(cè)設(shè)備10的物理結(jié)構(gòu)包括采集肌電信號(hào)的電極、CPU和存儲(chǔ)器等部件。語音探測(cè)設(shè)備10的功能部件包括肌電信號(hào)采集部件101(肌電信號(hào)采集裝置)、參數(shù)計(jì)算部件102(參數(shù)計(jì)算裝置)、元音發(fā)聲識(shí)別部件103(元音發(fā)聲識(shí)別裝置)、元音指定部件104(元音指定裝置)、元音信息輸出部件105、閾值信息存儲(chǔ)部件200、肌電信息存儲(chǔ)部件201(肌電信息存儲(chǔ)裝置)。下面描述上述每一個(gè)部件。
肌電信號(hào)采集部件101是一個(gè)用于從多個(gè)區(qū)域采集在發(fā)聲動(dòng)作時(shí)產(chǎn)生的肌電信號(hào)的部件。肌電信號(hào)采集部件101將采集到的肌電信號(hào)輸出給參數(shù)計(jì)算部件102。肌電信號(hào)采集部件101的結(jié)構(gòu)示于圖2中。根據(jù)圖2,肌電信號(hào)采集部件101由肌電信號(hào)測(cè)量電極101a到101f和放大器101g到101i構(gòu)成。根據(jù)圖2的例子,肌電信號(hào)測(cè)量電極101a和101b采集顴大肌(zygomaticus major)對(duì)應(yīng)的肌肉產(chǎn)生的肌電信號(hào),并將所述信號(hào)輸出到放大器101g。放大器101g放大所述肌電信號(hào)并輸出到參數(shù)計(jì)算部件102。另外,肌電信號(hào)測(cè)量電極101c和101d采集對(duì)應(yīng)于口輪匝肌(orbicularis oris)的肌肉產(chǎn)生的肌電信號(hào),并輸出給放大器101h。放大器101h放大這些肌電信號(hào)并輸出給參數(shù)計(jì)算部件102。另外,肌電信號(hào)測(cè)量電極101e和101f采集對(duì)應(yīng)于二腹肌(digastricus)的肌肉產(chǎn)生的肌電信號(hào)并輸出給放大器101i。放大器101i放大這些肌電信號(hào)并輸出給參數(shù)計(jì)算部件102。
參數(shù)計(jì)算部件102是這樣一個(gè)部件對(duì)于每一個(gè)對(duì)應(yīng)于所述區(qū)域之一的通道,計(jì)算從肌電信號(hào)采集部件101輸出的肌電信號(hào)相對(duì)于一個(gè)預(yù)定值的波動(dòng),作為參數(shù)。也就是,該參數(shù)計(jì)算部件102對(duì)肌電信號(hào)采集部件101的每一個(gè)放大器101g到101i輸出的每一個(gè)肌電信號(hào)計(jì)算參數(shù)。圖3描繪了所述參數(shù)計(jì)算部件102的一種參數(shù)計(jì)算方法。從肌電信號(hào)采集部件101輸出的肌電信號(hào)可以用如圖3上部所示的電勢(shì)的按時(shí)間序列的幅度來表示。參數(shù)計(jì)算部件102順序地從具有預(yù)定時(shí)間長(zhǎng)度的時(shí)間窗口30到32(第一時(shí)間窗口)中,切取從肌電信號(hào)采集部件101中輸出的肌電信號(hào)。這里,對(duì)這些時(shí)間窗口30-32,所述預(yù)定時(shí)間長(zhǎng)度是一樣長(zhǎng)的,時(shí)間窗口30-32的開啟時(shí)間被設(shè)置為依次交錯(cuò)。時(shí)間窗口30-32的開啟時(shí)間的間隔時(shí)間(lag)可以任意設(shè)置,但是,例如,所述間隔時(shí)間可以設(shè)置為等于所述預(yù)定時(shí)間的一半。
另外,將每一個(gè)時(shí)間窗口30-32構(gòu)建為包括子時(shí)間窗口(第二時(shí)間窗口)。在這些子時(shí)間窗口中設(shè)置的預(yù)定時(shí)間也是可以任意設(shè)置的。在本實(shí)施例中,子時(shí)間窗口被設(shè)置為10-50ms,時(shí)間窗口被設(shè)置為100-500ms。從所述時(shí)間窗口計(jì)算出來的參數(shù)(第一參數(shù))和從所述子時(shí)間窗口計(jì)算出來的參數(shù)(第二參數(shù))的使用在下面進(jìn)行描述。
參數(shù)計(jì)算部件102計(jì)算每一個(gè)時(shí)間窗口和每一個(gè)子時(shí)間窗口的肌電信號(hào)的均方根作為參數(shù)。這里,均方根由公式(1)定義,其中,e(t)是肌電信號(hào)的電勢(shì)。作為該參數(shù)計(jì)算的均方根可以被當(dāng)作關(guān)于肌肉活動(dòng)量的信息。
(公式1)12T∫-TTe2(t+τ)dτ--(1)]]>注意,作為另一個(gè)與肌肉活動(dòng)量有關(guān)的參數(shù),還有由公式(2)定義的肌電信號(hào)平均修正值(average rectification value(ARV))(公式2)∫-∞∞h(τ)|e(t+τ)|dτ--(2)]]>這里,對(duì)于公式(2),定義下面的公式(3)(公式3)∫-∞∞h(τ)dτ=1--(3)]]>另外,作為與肌肉活動(dòng)量有關(guān)的另一個(gè)參數(shù),公式(4)定義了肌電信號(hào)的積分平均(IEMG(積分肌電描記圖,IntegralMyoelectrogram))。
(公式4)∫TT+Δτ|e(t+τ)|dτ--(4)]]>可以使用均方根(RMS)、平均修正值(ARV)、積分肌電描記圖(IEMG)中的任何一個(gè)或者它們的組合。另外,還可以使用另一種參數(shù)比如頻譜等。在本實(shí)施例中,使用均方根。
在圖5中圖示了由參數(shù)計(jì)算部件102計(jì)算出來的參數(shù)的一個(gè)例子。圖5圖解了從休止?fàn)顟B(tài)發(fā)“/a/”音并且隨后發(fā)“/i/”音的情況下按時(shí)間序列的均方根值(RMS值)。注意,數(shù)據(jù)50表示預(yù)定時(shí)間長(zhǎng)度設(shè)定為50ms的子時(shí)間窗口的參數(shù)(第二參數(shù)),數(shù)據(jù)51表示預(yù)定時(shí)間長(zhǎng)度設(shè)定為200ms的時(shí)間窗口的參數(shù)(第一參數(shù))。注意,在圖5所示的例子中,時(shí)間窗口的周期設(shè)為100ms,子時(shí)間窗口的周期設(shè)為25ms,因此參數(shù)的變化周期分別設(shè)為100ms和25ms。下面描述處理圖5所示的數(shù)據(jù)的方法。參數(shù)計(jì)算部件102將這樣計(jì)算出來的參數(shù)輸出給元音發(fā)聲識(shí)別部件103。
元音發(fā)聲識(shí)別部件103是這樣一個(gè)部件基于從參數(shù)計(jì)算部件102輸出的參數(shù)的波動(dòng),指定元音在發(fā)聲動(dòng)作時(shí)的發(fā)聲動(dòng)作時(shí)刻。下面參照?qǐng)D5所示的數(shù)據(jù)的例子描述元音發(fā)聲識(shí)別部件103的操作。在圖5中,注意子時(shí)間窗口的數(shù)據(jù)50??梢钥吹?,在2.3到2.4秒的部分以及在2.6秒附近的部分,RMS值發(fā)生了顯著變化。元音發(fā)聲識(shí)別部件103將該變化的時(shí)刻指定為元音的發(fā)聲動(dòng)作時(shí)刻,并連同從參數(shù)計(jì)算部件102接收到的參數(shù)一起輸出給元音指定部件104。
下面詳細(xì)描述所述元音發(fā)聲識(shí)別部件103檢測(cè)參數(shù)中的變化的方法。圖6是一個(gè)流程圖,圖解了所述元音發(fā)聲識(shí)別部件103檢測(cè)參數(shù)中的變化的一種方法。元音發(fā)聲識(shí)別部件103計(jì)算一個(gè)參數(shù)的時(shí)間變化量(隨時(shí)間變化的量)(步驟S01)。在時(shí)刻tn,時(shí)間變化量P’(n)由公式(5)確定。其中,所述計(jì)算出來的參數(shù)表示為p(tn)。
(公式5)P′(n)=|P(tn+1)-P(tn)| (5)注意,作為時(shí)間變化量P’(n),可以使用公式6定義的值,也就是直到預(yù)定時(shí)間之前的加權(quán)參數(shù)和和最近的參數(shù)之間的差的絕對(duì)值。
(公式6)P′(n)=|p(tn+1)-Σi=n-jnwip(ti)|--(6)]]>另外,作為時(shí)間變化量P’(n),還可以使用公式(7)定義的值,也就是直到預(yù)定時(shí)間之前的加權(quán)參數(shù)和和最近的參數(shù)之間的差的絕對(duì)值,除以所述最近的參數(shù)值的商。在這種情況下,參數(shù)值的變化程度表示為一個(gè)比值。
(公式7)P′(n)=|p(tn+1)-Σi=n-jnwip(ti)|p(tn+1)--(7)]]>作為時(shí)間變化量P′(n),如果它能夠指定最近的計(jì)算出來的參數(shù)相對(duì)于過去計(jì)算出來的參數(shù)的變化程度,就是能夠滿足要求的,所以也可以使用差值本身,而不是公式(5)到(7)中的絕對(duì)值。
元音發(fā)聲識(shí)別部件103指定最近發(fā)聲的元音成分(S02)。在本實(shí)施例中,已經(jīng)識(shí)別了剛剛發(fā)聲的元音成分,元音發(fā)聲識(shí)別部件103將此已經(jīng)識(shí)別的元音成分指定為最近發(fā)聲的元音成分。作為識(shí)別剛剛發(fā)聲的元音成分的方法,可以使用已知的語音識(shí)別方法。另外,例如,可以指定這樣的規(guī)則要求用戶一開始發(fā)出“啊”聲,并識(shí)別發(fā)出的該元音成分。基于該指定的元音成分,元音發(fā)聲識(shí)別部件103參考存儲(chǔ)在所述閾值信息存儲(chǔ)部件200中的信息,獲取一個(gè)相應(yīng)的閾值(步驟S03)。如圖7所示,在閾值信息存儲(chǔ)部件200中,存儲(chǔ)了相互關(guān)聯(lián)的“最近的元音成分”和“閾值”。對(duì)每一個(gè)通道存儲(chǔ)“閾值”,并且,例如,如果“最近的元音成分”是″/a/″,則“通道1”的“閾值”為0.5,“通道2”的“閾值”為0.2,“通道3”的“閾值”為0.1。該“閾值”的功能類似于下面所描述的“變化特征”?!伴撝怠睂?duì)應(yīng)于短時(shí)間窗口(子時(shí)間窗口),“變化特征”對(duì)應(yīng)于長(zhǎng)時(shí)間窗口。
元音發(fā)聲識(shí)別部件103判斷在步驟S01計(jì)算的時(shí)間變化量是否超過在步驟S01中在每一個(gè)通道中獲取的閾值(步驟S04)。如果在某個(gè)時(shí)刻每一個(gè)通道中時(shí)間變化量都超過閾值,則元音發(fā)聲識(shí)別部件103將此時(shí)刻記錄為元音被改變的時(shí)刻(步驟S05)。如果時(shí)間變化量沒有超過該閾值,則返回步驟S01的處理。注意,在判斷時(shí)間變化量是否超過閾值的情況下,可以將條件設(shè)置為時(shí)間變化量對(duì)于所有通道超過一個(gè)閾值,時(shí)間變化量對(duì)于大多數(shù)通道超過一個(gè)閾值,或者時(shí)間變化量對(duì)于某一個(gè)通道超過一個(gè)閾值。
回到圖1,連同從參數(shù)計(jì)算部件102輸出的參數(shù)一起,元音發(fā)聲識(shí)別部件103將所述元音變化時(shí)刻輸出到元音指定部件104。該元音指定部件是這樣一個(gè)部件基于從元音發(fā)聲識(shí)別部件103輸出的元音變化時(shí)刻之前和之后每一個(gè)通道中的參數(shù)波動(dòng)條件,來指定一個(gè)對(duì)應(yīng)于發(fā)聲動(dòng)作的元音。下面結(jié)合圖8描述元音指定部件104指定元音的方法。圖8是一個(gè)流程圖,圖解了元音指定部件104指定元音的方法。
元音指定部件104探測(cè)所述元音變化時(shí)刻之前和之后的參數(shù)變化特征。根據(jù)參數(shù)在該元音變化時(shí)刻之前和之后是否明顯上升、上升、保持不變或者下降,來對(duì)所述變化特征歸類。更具體地,可以如下進(jìn)行判斷將與之前的狀態(tài)相比上升超過200%的情況確定為明顯上升,將與之前的狀態(tài)相比上升不少于50%但低于200%的情況確定為上升,將與之前的狀態(tài)相比的變化小于±50%的情況確定為不變,將與之前的狀態(tài)相比下降小于50%的情況確定為下降。用如上所述的圖5的例子進(jìn)行解釋,元音變化時(shí)刻是在2.3到2.4秒的部分,以及2.6秒附近的部分。觀察這些部分中與子時(shí)間窗口相比設(shè)置為較長(zhǎng)時(shí)間段的時(shí)間窗口的數(shù)據(jù)51,可以發(fā)現(xiàn)其上升/下降。元音指定部件104對(duì)每一個(gè)通道探測(cè)這種變化特征。
元音指定部件104指定一個(gè)最近發(fā)出的元音成分(步驟S12)。基于此指定的元音成分,通過比較存儲(chǔ)在肌電信息存儲(chǔ)部件201中的信息和每一個(gè)通道的變化特征,元音指定部件104識(shí)別一個(gè)元音成分(步驟S13)。存儲(chǔ)在肌電信息存儲(chǔ)部件201中的信息的一個(gè)例子示于圖9A到9C中。圖9A圖示了在口輪匝肌處,緊鄰的前一個(gè)元音成分和變化特征之間的對(duì)應(yīng)關(guān)系。圖9B圖示了在顴大肌處,緊鄰的前一個(gè)元音成分和變化特征之間的對(duì)應(yīng)關(guān)系。圖9C圖示了在二腹肌處,緊鄰的前一個(gè)元音成分和變化特征之間的對(duì)應(yīng)關(guān)系。例如,如果每一個(gè)通道的變化特征在口輪匝肌處是“不變”,在顴大肌處是“上升”,在二腹肌處是“下降”,則基于圖9A到9C所示的信息將該發(fā)出的元音識(shí)別為“/i/”。注意,在圖9A到9C中,“EQL”表示“不變”,“DEC”表示下降,“INC”表示上升,“SIG INC”表示“明顯上升”。
元音指定部件104將識(shí)別出的元音輸出給元音信息輸出部件105。元音信息輸出部件105是這樣一個(gè)部件與輸出對(duì)象相適應(yīng)地輸出指定元音的信息。作為所述輸出對(duì)象,可以是識(shí)別算法、揚(yáng)聲器或者顯示器。
在前述實(shí)施例中,可以注意到設(shè)置為長(zhǎng)時(shí)間段的時(shí)間窗口和設(shè)置為較短時(shí)間段的子時(shí)間窗口之間的差別。也就是,利用設(shè)置為長(zhǎng)時(shí)間段的時(shí)間窗口,可以掌握肌電信號(hào)在長(zhǎng)時(shí)間段上的趨勢(shì)。相反,利用設(shè)置為較短時(shí)間段的子時(shí)間窗口,可以掌握在較短時(shí)間段上肌電信號(hào)的趨勢(shì)。因此,子時(shí)間窗口適合獲取發(fā)聲動(dòng)作的時(shí)刻,時(shí)間窗口適合獲取該時(shí)刻之前和之后的趨勢(shì)。
在本實(shí)施例中,使用兩種時(shí)間窗口。但是,也可以使用一種時(shí)間窗口來識(shí)別元音。例如,在僅使用前述設(shè)置為較短時(shí)間段的子時(shí)間窗口的情況下,可以使用多個(gè)子時(shí)間窗口的平均,來取代前述設(shè)置為較長(zhǎng)時(shí)間段的時(shí)間窗口。
另外,還可以使用對(duì)語音探測(cè)設(shè)備10進(jìn)行部分修改而得到的語音探測(cè)設(shè)備90。在圖10中圖示了該語音探測(cè)設(shè)備90的結(jié)構(gòu),并在圖12的流程圖中圖示了該語音探測(cè)設(shè)備90的操作。語音探測(cè)設(shè)備90物理上的構(gòu)成包括諸如用于采集肌電信號(hào)的電極、CPU和存儲(chǔ)器之類的部件。語音探測(cè)設(shè)備90的功能部件包括肌電信號(hào)采集部件101(肌電信號(hào)采集裝置)、參數(shù)計(jì)算部件102(參數(shù)計(jì)算裝置)、波動(dòng)監(jiān)測(cè)部件103(波動(dòng)監(jiān)測(cè)裝置)、元音指定部件904(元音指定裝置)、元音信息輸出部件105以及肌電信息存儲(chǔ)部件910(肌電信息存儲(chǔ)裝置)。下面描述上述每一個(gè)部件。但是,由于肌電信號(hào)采集部件101、參數(shù)計(jì)算部件102和元音信息輸出部件105與語音探測(cè)設(shè)備10相同,所以省略了它們的說明。
波動(dòng)監(jiān)測(cè)部件903是這樣一個(gè)部件監(jiān)測(cè)從參數(shù)計(jì)算部件102輸出的參數(shù)是否在預(yù)定時(shí)間上波動(dòng)。波動(dòng)監(jiān)測(cè)部件903探測(cè)參數(shù)的變化特征(步驟S21)。該變化特征指出參數(shù)是否波動(dòng)。波動(dòng)監(jiān)測(cè)部件903判斷一個(gè)參數(shù)是否發(fā)聲了波動(dòng)(步驟S22)。如果該參數(shù)的值與緊鄰的前一參數(shù)值相比的變化范圍在50-150%的范圍內(nèi),則波動(dòng)監(jiān)測(cè)部件903判斷該參數(shù)沒有波動(dòng)。如果參數(shù)值超過了該范圍,就判斷該參數(shù)發(fā)生了波動(dòng)。如果參數(shù)發(fā)生了波動(dòng),則波動(dòng)監(jiān)測(cè)部件903重置計(jì)數(shù)器(步驟S23)。如果該參數(shù)沒有發(fā)生波動(dòng),則波動(dòng)監(jiān)測(cè)部件903將計(jì)數(shù)器增一(步驟S24)。波動(dòng)監(jiān)測(cè)部件903判斷計(jì)算器狀態(tài)是否超過了預(yù)定閾值(步驟S25)。如果該計(jì)數(shù)器的狀態(tài)超過了一個(gè)預(yù)定閾值,則波動(dòng)監(jiān)測(cè)部件903將所述參數(shù)計(jì)算部件102輸出的參數(shù)輸出到元音指定部件904。在這些步驟S24到S25中,波動(dòng)監(jiān)測(cè)部件903用以監(jiān)測(cè)波動(dòng)的時(shí)間窗口設(shè)置為非常短的時(shí)間段,在本實(shí)施例中為20-50ms。這樣,如果預(yù)定時(shí)間段之外表示所述超越的信息沒有進(jìn)入,就沒有參數(shù)輸出到元音指定部件904。因此,可以防止混進(jìn)意外的噪聲。
元音指定部件904是這樣一個(gè)部件基于波動(dòng)監(jiān)測(cè)部件903的監(jiān)測(cè)結(jié)果和所述參數(shù),指定對(duì)應(yīng)于一個(gè)發(fā)聲動(dòng)作的元音。元音指定部件904指定一個(gè)最近的元音成分(步驟S26)。在本實(shí)施例中,已經(jīng)識(shí)別了剛剛發(fā)聲的一個(gè)元音成分,所述元音發(fā)聲識(shí)別部件103將此已經(jīng)識(shí)別的元音成分指定為最近發(fā)聲的元音成分。作為識(shí)別剛剛發(fā)聲的元音成分的方法,可以使用已知的語音識(shí)別方法。另外,例如,可以指定這樣的規(guī)則要求用戶一開始發(fā)出“啊”聲,并識(shí)別發(fā)出的該元音成分?;谠撝付ǖ脑舫煞趾痛鎯?chǔ)在所述肌電信息存儲(chǔ)部件910中的信息,元音指定部件904指定一個(gè)元音成分(步驟S27)。存儲(chǔ)在肌電信息存儲(chǔ)部件910中的信息的一個(gè)例子示于圖11A到11C中。圖11A圖示了在口輪匝肌處,緊鄰的前一個(gè)元音成分和變化特征之間的對(duì)應(yīng)關(guān)系。圖11B圖示了在顴大肌處,緊鄰的前一個(gè)元音成分和變化特征之間的對(duì)應(yīng)關(guān)系。圖11C圖示了在二腹肌處,緊鄰的前一個(gè)元音成分和變化特征之間的對(duì)應(yīng)關(guān)系。例如,如果緊鄰的前一個(gè)元音成分是″/a/″,并且每一個(gè)通道的變化特征在口輪匝肌處是“不變”,在顴大肌處是“上升”,在二腹肌處是“下降”,則基于圖11C所示的信息將該發(fā)出的元音識(shí)別為“/i/”。這與參照?qǐng)D9A到9C所描述的方案的不同點(diǎn)在于,為了容許緊鄰的前一個(gè)元音成分和識(shí)別結(jié)果一樣的情況,在此方案中將相關(guān)的部分視為“不變”。這里,假設(shè)了“明顯上升”是指從前一狀態(tài)的水平上升不低于200%的情況,“上升”是指從前一狀態(tài)的水平上升不低于50%但是低于200%的情況,“不變”是指相對(duì)于前一狀態(tài)的水平變化量小于±50%的情況,“下降”是指從前一狀態(tài)的水平下降不低于50%的情況。
權(quán)利要求
1.一種語音探測(cè)設(shè)備,包括肌電信號(hào)采集裝置,用于從多個(gè)區(qū)域采集在發(fā)聲動(dòng)作時(shí)產(chǎn)生的肌電信號(hào);參數(shù)計(jì)算裝置,用于針對(duì)每一個(gè)對(duì)應(yīng)于所述多個(gè)區(qū)域之一的通道計(jì)算所述采集的肌電信號(hào)相對(duì)于一預(yù)定值的波動(dòng),作為參數(shù);元音發(fā)聲識(shí)別裝置,基于所述計(jì)算出來的參數(shù)的波動(dòng),對(duì)一個(gè)元音指定在所述發(fā)聲動(dòng)作時(shí)的發(fā)聲動(dòng)作時(shí)刻;以及元音指定裝置,基于所述每一個(gè)通道在所述指定的發(fā)聲動(dòng)作時(shí)刻之前和之后的參數(shù)波動(dòng)條件,指定一個(gè)對(duì)應(yīng)于所述發(fā)聲動(dòng)作的元音。
2.如權(quán)利要求1所述的語音探測(cè)設(shè)備,還包括肌電信息存儲(chǔ)裝置,用于在所述發(fā)聲動(dòng)作時(shí)刻之前和之后的元音組合和所述參數(shù)的波動(dòng)條件在每一個(gè)通道中相互關(guān)聯(lián)的狀態(tài)下,存儲(chǔ)所述元音組合和所述波動(dòng)條件,其中,所述元音指定裝置根據(jù)所述參數(shù)的波動(dòng)條件來指定存儲(chǔ)在所述肌電信息存儲(chǔ)裝置中的元音組合,以指定一個(gè)對(duì)應(yīng)于所述發(fā)聲動(dòng)作的元音。
3.如權(quán)利要求1所述的語音探測(cè)設(shè)備,其中,所述參數(shù)包括對(duì)應(yīng)于第一時(shí)間窗口的第一參數(shù)和對(duì)應(yīng)于第二時(shí)間窗口的第二參數(shù),所述第二時(shí)間窗口用比所述第一時(shí)間窗口短的時(shí)間段來設(shè)置;所述元音發(fā)聲識(shí)別裝置根據(jù)所述第二參數(shù)指定所述發(fā)聲動(dòng)作時(shí)刻;并且所述元音指定裝置根據(jù)所述第一參數(shù)指定所述元音。
4.一種語音探測(cè)設(shè)備,包括肌電信號(hào)采集裝置,用于從多個(gè)區(qū)域采集在發(fā)聲動(dòng)作時(shí)產(chǎn)生的肌電信號(hào);參數(shù)計(jì)算裝置,用于在每一個(gè)對(duì)應(yīng)于所述多個(gè)區(qū)域之一的通道中計(jì)算所探測(cè)到的肌電信號(hào)相對(duì)于一預(yù)定值的波動(dòng),作為參數(shù);波動(dòng)監(jiān)測(cè)裝置,用于監(jiān)測(cè)所述參數(shù)是否會(huì)在預(yù)定時(shí)間段上波動(dòng);以及元音指定裝置,基于所述監(jiān)測(cè)結(jié)果和所述參數(shù),指定一個(gè)對(duì)應(yīng)于所述發(fā)聲動(dòng)作的元音。
5.如權(quán)利要求4所述的語音探測(cè)設(shè)備,還包括肌電信息存儲(chǔ)裝置,用于在所述發(fā)聲動(dòng)作時(shí)刻之前和之后的元音組合和所述參數(shù)的波動(dòng)條件在每一個(gè)通道中相互關(guān)聯(lián)的狀態(tài)下,存儲(chǔ)所述元音組合和所述波動(dòng)條件,其中,如果所述參數(shù)在一預(yù)定時(shí)間段上沒有波動(dòng),所述元音指定裝置采用該預(yù)定時(shí)間段的所述參數(shù),并基于所采用的參數(shù)的波動(dòng)條件,指定存儲(chǔ)在所述肌電信息存儲(chǔ)裝置中的元音組合,以指定一個(gè)對(duì)應(yīng)于所述發(fā)聲動(dòng)作的元音。
全文摘要
本申請(qǐng)公開了一種語音探測(cè)設(shè)備,其包括一個(gè)肌電信號(hào)采集部件,用于從多個(gè)區(qū)域采集在發(fā)聲動(dòng)作時(shí)產(chǎn)生的肌電信號(hào);參數(shù)計(jì)算部件,用于在每一個(gè)對(duì)應(yīng)于所述多個(gè)區(qū)域之一的通道中計(jì)算所述采集的肌電信號(hào)相對(duì)于一預(yù)定值的波動(dòng),作為參數(shù);一個(gè)元音發(fā)聲識(shí)別部件,基于所述計(jì)算出來的參數(shù)的波動(dòng),在所述發(fā)聲動(dòng)作時(shí)指定一個(gè)發(fā)聲動(dòng)作時(shí)刻;以及一個(gè)元音指定部件,基于所述每一個(gè)通道中在所述指定的發(fā)聲動(dòng)作時(shí)刻之前和之后的參數(shù)波動(dòng)條件,指定一個(gè)對(duì)應(yīng)于所述發(fā)聲動(dòng)作的元音。
文檔編號(hào)G10L11/02GK1573927SQ200410059768
公開日2005年2月2日 申請(qǐng)日期2004年6月18日 優(yōu)先權(quán)日2003年6月20日
發(fā)明者真鍋宏幸, 平巖明, 林宏樹, 忍頂寺毅, 杉村利明 申請(qǐng)人:株式會(huì)社Ntt都科摩