国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      聲音識(shí)別裝置以及用于執(zhí)行聲音識(shí)別的方法

      文檔序號(hào):2831965閱讀:466來(lái)源:國(guó)知局
      專(zhuān)利名稱(chēng):聲音識(shí)別裝置以及用于執(zhí)行聲音識(shí)別的方法
      技術(shù)領(lǐng)域
      本申請(qǐng)涉及聲音識(shí)別裝置,以及用于執(zhí)行聲音識(shí)別的方法。
      背景技術(shù)
      通常,已經(jīng)知道一種與用戶(hù)執(zhí)行聲音交互的機(jī)器人,其被稱(chēng)作聲 音交互機(jī)器人。然而,在一些情況下由于從諸如家庭或辦公室的實(shí)際 環(huán)境中的各種設(shè)備輸出的噪聲,聲音交互機(jī)器人可能不能正確地識(shí)別 由用戶(hù)發(fā)出的聲音。為了提高在由家庭電器或用戶(hù)的動(dòng)作發(fā)出噪聲的 環(huán)境中的聲音識(shí)別率,優(yōu)選地由用戶(hù)以適當(dāng)?shù)膹?qiáng)度將聲音輸入到傳聲 器中。
      已經(jīng)提出了一種用于通過(guò)在檢測(cè)到用戶(hù)聲音時(shí)計(jì)算S/N比并在 S/N比低于給定值時(shí)將機(jī)器人移向用戶(hù)來(lái)改進(jìn)S/N比的方法。這樣的 方法的示例在 JP-A-2006-181651 (同族美國(guó)公開(kāi)是US 2006/0143017 Al )中被公開(kāi)。然而,根據(jù)該方法,其沒(méi)有確定機(jī)器 人為了接收滿(mǎn)足足以進(jìn)行聲音識(shí)別的S/N比的聲音而需要向用戶(hù)移近 多少。此外,當(dāng)周?chē)肼晱?qiáng)度改變時(shí),需要接收來(lái)自用戶(hù)的另一聲音 來(lái)確定至用戶(hù)的距離是否恰當(dāng)。
      已經(jīng)提出了一種用于向用戶(hù)指示實(shí)際聲音強(qiáng)度和根據(jù)周?chē)肼晱?qiáng) 度的相對(duì)期望聲音強(qiáng)度以使用戶(hù)直覺(jué)地知道期望的聲音音量的方法。 該方法的示例在JP-A-2006-227499中被公開(kāi)。然而,用戶(hù)發(fā)出的大 量聲音是通過(guò)用戶(hù)的頭蓋(brainpan)被用戶(hù)聽(tīng)到的。因此,用戶(hù)難以根據(jù)機(jī)器人發(fā)出的指示來(lái)調(diào)節(jié)聲音的音量。同樣,當(dāng)周?chē)肼晱?qiáng)度 變化時(shí),需要用戶(hù)再次發(fā)出聲音以接收適當(dāng)強(qiáng)度范圍內(nèi)的聲音。
      音強(qiáng)度的方法。因此,這些方法需要用戶(hù)每次在由于環(huán)境變化(諸如 周?chē)肼晱?qiáng)度的變化)而需要調(diào)節(jié)的時(shí)候再次發(fā)出聲音。

      發(fā)明內(nèi)容
      根據(jù)本發(fā)明的一個(gè)方面,提供了一種語(yǔ)音識(shí)別裝置,包括音頻 輸入模塊,其接收音頻輸入,并輸出音頻信號(hào),該音頻輸入模塊具有 被配置為可調(diào)節(jié)的增益;語(yǔ)音識(shí)別模塊,在音頻信號(hào)中檢測(cè)發(fā)現(xiàn)用戶(hù) 的語(yǔ)音出現(xiàn)的語(yǔ)音區(qū)間,并對(duì)該語(yǔ)音區(qū)間期間的音頻信號(hào)執(zhí)行語(yǔ)音識(shí) 別;第一強(qiáng)度測(cè)量模塊,測(cè)量語(yǔ)音區(qū)間中的音頻信號(hào)的信號(hào)強(qiáng)度并將 測(cè)量的信號(hào)強(qiáng)度作為語(yǔ)音強(qiáng)度輸出;第二強(qiáng)度測(cè)量模塊,測(cè)量噪聲區(qū) 間中的音頻信號(hào)的信號(hào)強(qiáng)度并將測(cè)量的信號(hào)強(qiáng)度作為噪聲強(qiáng)度輸出, 其中噪聲區(qū)間是語(yǔ)音區(qū)間之外的時(shí)間區(qū)間;第一計(jì)算模塊,計(jì)算作為 語(yǔ)音強(qiáng)度與噪聲強(qiáng)度之比的S/N比;距離測(cè)量模塊,測(cè)量用戶(hù)和語(yǔ)音 輸入模塊之間的當(dāng)前距離;第一存儲(chǔ)模塊,存儲(chǔ)對(duì)應(yīng)于語(yǔ)音識(shí)別模塊 能夠執(zhí)行具有給定識(shí)別率的語(yǔ)音識(shí)別的S/N比的第一閾值;第二存儲(chǔ) 模塊,存儲(chǔ)具有語(yǔ)音強(qiáng)度、當(dāng)前距離以及增益的集合的語(yǔ)音特性,通 過(guò)該語(yǔ)音特性,語(yǔ)音識(shí)別模塊成功執(zhí)行語(yǔ)音識(shí)別;第二計(jì)算模塊,基 于語(yǔ)音特性計(jì)算用于當(dāng)前距離的推薦距離范圍,在該推薦距離范圍 內(nèi),估算出S/N比超過(guò)第一閾值;以及顯示模塊,顯示推薦距離范圍 和當(dāng)前距離。
      根據(jù)本發(fā)明的另一方面,提供了一種執(zhí)行語(yǔ)音識(shí)別的方法,該方 法包括接收音頻輸入以輸出具有被配置為可調(diào)節(jié)的增益的音頻信 號(hào);在音頻信號(hào)中檢測(cè)發(fā)現(xiàn)出現(xiàn)用戶(hù)的語(yǔ)音的語(yǔ)音區(qū)間以對(duì)該語(yǔ)音區(qū) 間期間的音頻信號(hào)執(zhí)行語(yǔ)音識(shí)別;測(cè)量語(yǔ)音區(qū)間中的音頻信號(hào)的信號(hào) 強(qiáng)度以將測(cè)量的信號(hào)強(qiáng)度作為語(yǔ)音強(qiáng)度輸出;測(cè)量噪聲區(qū)間中的音頻 信號(hào)的信號(hào)強(qiáng)度,以將所測(cè)量的信號(hào)強(qiáng)度作為噪聲強(qiáng)度輸出,該噪聲區(qū)間是語(yǔ)音區(qū)間之外的時(shí)間區(qū)間;計(jì)算作為語(yǔ)音強(qiáng)度與噪聲強(qiáng)度之比 的S/N比;測(cè)量距離用戶(hù)的當(dāng)前距離;存儲(chǔ)對(duì)應(yīng)于語(yǔ)音識(shí)別模塊能夠 執(zhí)行語(yǔ)音識(shí)別以具有給定識(shí)別率的S/N比的第一閾值;存儲(chǔ)具有語(yǔ)音 強(qiáng)度、當(dāng)前距離以及增益的集合的語(yǔ)音特性,通過(guò)該語(yǔ)音特性,已經(jīng) 成功執(zhí)行語(yǔ)音識(shí)別;基于語(yǔ)音特性計(jì)算用于當(dāng)前距離的推薦距離范 圍,在該推薦距離范圍內(nèi),估算出S/N比超過(guò)第一閾值;以及顯示該 推薦距離范圍和當(dāng)前距離。


      將參考附圖描述實(shí)施本發(fā)明的各種特征的一般配置。提供的附圖 及其相關(guān)描述是為了示出本發(fā)明的實(shí)施例,而不用于限制本發(fā)明的范 圍。
      圖l是示出了根據(jù)本發(fā)明的第一實(shí)施例的聲音交互機(jī)器人的外觀 的示意圖。
      圖2是示出了根據(jù)第 一 實(shí)施例的聲音交互機(jī)器人的使用的示例的 示意圖。
      圖3是根據(jù)第一實(shí)施例的聲音交互機(jī)器人的功能框圖。
      圖4是示出了在確定包括在輸入至聲音交互機(jī)器人的音頻信號(hào)中
      的聲音區(qū)間和噪聲區(qū)間時(shí)的聲音特性的示例的示意圖。
      圖5是示出了存儲(chǔ)在聲音識(shí)別特性數(shù)據(jù)庫(kù)中的噪聲強(qiáng)度的上限和
      聲音強(qiáng)度的下限和上限的示意圖。
      圖6是示出了 S/N比和聲音識(shí)別率之間的相關(guān)性的示意圖。 圖7是示出了由推薦距離范圍估算模塊執(zhí)行的處理的流程圖。 圖8是在推薦距離范圍估算模塊中的聲音強(qiáng)度測(cè)量處理的流程
      圖9是由推薦距離范圍估算模塊調(diào)節(jié)增益和計(jì)算推薦距離范圍的 流程圖。
      圖IO是由推薦距離范圍通知模塊執(zhí)行的處理的流程圖。
      圖11是示出了根據(jù)第二實(shí)施例的包括用于用戶(hù)鑒別的處理的配置的框圖。
      圖12是包括用戶(hù)鑒別的推薦距離范圍估算模塊的處理的流程
      圖13是示出了在指示器上顯示推薦聲音距離的示例的示意圖。 圖14是示出了由聲音交互機(jī)器人的手臂的動(dòng)作來(lái)通知用戶(hù)是否 處于推薦聲音距離內(nèi)的示例的示意圖。
      具體實(shí)施例方式
      以下,將參考附圖描述本發(fā)明的實(shí)施例。在下面的描述中,相同 或相似的部件用相同的參考標(biāo)號(hào)表示,并且省略對(duì)其的重復(fù)描述。 第一實(shí)施例
      下面將描述根據(jù)第一實(shí)施例的聲音交互機(jī)器人。
      圖1是示出了根據(jù)第一實(shí)施例的聲音交互機(jī)器人的外觀的示意 圖。聲音交互機(jī)器人100用于家庭使用,并設(shè)置有圖像獲取裝置101 和102 (例如CCD攝像機(jī))、聲音輸入裝置103和104 (例如傳聲 器)、距離傳感器105、遙控信號(hào)發(fā)射器/接收器109、指示器106、 以及可移動(dòng)部件107和108 (例如4幾器人的手臂)。
      聲音輸入裝置103和104布置在聲音交互機(jī)器人100的頭部并將 用戶(hù)的聲音(聲音)轉(zhuǎn)換為模擬信號(hào)。通過(guò)具有增益調(diào)節(jié)功能的傳聲 器放大器放大經(jīng)轉(zhuǎn)換的模擬信號(hào),通過(guò)A/D轉(zhuǎn)換器(未示出)轉(zhuǎn)換 為數(shù)字信號(hào),并作為聲音數(shù)據(jù)被處理器(未示出)處理。
      距離傳感器105是用于測(cè)量至對(duì)象的距離并輸出表示距離的信號(hào) 的裝置。距離傳感器105可以是紅外測(cè)距傳感器或超聲波測(cè)距傳感 器。距離傳感器105靠近聲音輸入裝置103布置,并用于測(cè)量用戶(hù)和 聲音輸入裝置103以及104之間的距離。
      指示器106布置在機(jī)器人100的主體的正面。指示器106是一種 顯示裝置,例如LED和液晶面板,用于向用戶(hù)顯示隨時(shí)間變化的信 息。在第一實(shí)施例中,指示器106被用于向用戶(hù)顯示推薦的聲音距離 和用戶(hù)與聲音交互機(jī)器人IOO之間的距離。遙控信號(hào)發(fā)射器/接收器109是用于發(fā)射或接收用于操作家用電 器的遙控信號(hào)的裝置。遙控信號(hào)發(fā)射器/接收器109接收從用戶(hù)操作 的遙控器發(fā)射的信號(hào)(例如紅外碼)。同樣,遙控信號(hào)發(fā)射器/接收 器109根據(jù)用戶(hù)說(shuō)出的指令,通過(guò)發(fā)送給定的信號(hào)(例如紅外碼)來(lái) 操作家用電器,例如電視機(jī)203。
      可移動(dòng)部件107和108是用于使聲音交互機(jī)器人100能夠表現(xiàn)動(dòng) 作的部件。通過(guò)可移動(dòng)部件107和108的動(dòng)作,將用戶(hù)是否處于推薦 距離范圍內(nèi)的確定結(jié)果通知給用戶(hù),推薦距離范圍是適于聲音的距離 范圍。
      圖2是示出了根據(jù)第一實(shí)施例的聲音交互機(jī)器人的使用的示意圖。
      聲音交互機(jī)器人100可以被放置在餐桌202上使用,以及用戶(hù) 201對(duì)聲音交互機(jī)器人100說(shuō)出指令詞匯。
      例如,用戶(hù)201說(shuō)出指令詞匯"打開(kāi)電視機(jī),,,聲音交互機(jī)器人 100通過(guò)聲音識(shí)別來(lái)識(shí)別指令以"打開(kāi)電視機(jī)"。聲音交互機(jī)器人 100從遙控信號(hào)發(fā)射器/接收器109發(fā)射遙控信號(hào),并打開(kāi)電視機(jī)203 的電源。假設(shè)在打開(kāi)電視機(jī)203之前,用戶(hù)201從圖2中所示的距離 D2向聲音交互機(jī)器人100說(shuō)話(huà)。在電視機(jī)203為開(kāi)啟的狀態(tài)下,電 視機(jī)203的聲音成為增加噪聲強(qiáng)度的噪聲,使得說(shuō)話(huà)聲音與噪聲的 S/N比減小。
      當(dāng)用戶(hù)201以恒定音量發(fā)出聲音時(shí),在發(fā)出聲音以增加S/N比之 前,用戶(hù)201必須接近聲音交互機(jī)器人100直至距離Dl,距離Dl 小于圖2中所示的D2。在第一實(shí)施例中,根據(jù)周?chē)肼晱?qiáng)度來(lái)估算 聲音識(shí)別率大于特定值的聲音交互機(jī)器人100和用戶(hù)201之間的距離范圍。
      經(jīng)估算的推薦距離范圍以及由距離傳感器105測(cè)量的用戶(hù)201和 聲音交互機(jī)器人100之間的距離,皮通知給用戶(hù)201。因此,用戶(hù)201 知道用戶(hù)201是否處在推薦距離范圍內(nèi),該推薦距離范圍適合于該取 決于噪聲強(qiáng)度的聲音,以及用戶(hù)201需要向聲音交互機(jī)器人100移動(dòng)多少以位于推薦距離范圍內(nèi)。以該方式,可以支持用戶(hù)移至適于發(fā)出 滿(mǎn)足期望正確率的聲音識(shí)別的聲音的距離范圍內(nèi)。
      圖13是示出了向用戶(hù)201通知適于聲音的推薦距離范圍以及用 戶(hù)201和聲音交互機(jī)器人100之間的距離的指示器106的示例的示意 圖。
      指示器106使用條形1305來(lái)向用戶(hù)通知當(dāng)前距離。指示器106 也通知聲音交互機(jī)器人100和用戶(hù)之間的推薦距離范圍1302,以向 用戶(hù)通知聲音推薦距離。
      如圖13中的部分(1)所示,指示器106用條形1305指示推薦 距離范圍1302、多巨離用戶(hù)203太近的距離范圍1301、距離用戶(hù)太遠(yuǎn) 的距離范圍1303、以及距離用戶(hù)203的當(dāng)前距離。如圖13中的部分 (l)所示,用戶(hù)203沒(méi)有位于推薦距離范圍1302內(nèi),而是距離聲音 識(shí)別裝置100的距離太遠(yuǎn)。
      圖13中的部分(2)示出了當(dāng)周?chē)肼晱?qiáng)度與圖13中的部分 (1)所示的狀態(tài)相比發(fā)生變化時(shí)的指示器106的顯示的示例。因?yàn)?周?chē)肼暟l(fā)生變化,所以推薦距離范圍1302也被改變。
      圖13中的部分(3)示出了當(dāng)用戶(hù)203和聲音交互機(jī)器人100之 間的距離從圖13中的部分(2)所示的狀態(tài)變化時(shí)的指示器106的顯 示的示例。因?yàn)橛脩?hù)203和聲音交互機(jī)器人100之間的距離更短,所 以用戶(hù)203位于推薦距離范圍內(nèi)。
      圖14是示出了聲音交互機(jī)器人100使用可移動(dòng)部件107和108 的動(dòng)作來(lái)通知用戶(hù)是否位于推薦距離范圍1302內(nèi)的示例的示意圖。 上部示意圖示出了用戶(hù)和聲音交互機(jī)器人100之間的距離關(guān)系。下部 示意圖示出了當(dāng)聲音交互機(jī)器人100確定用戶(hù)位于各個(gè)距離(a)、 (b)和(c)內(nèi)時(shí)可移動(dòng)部件107和108的動(dòng)作。
      在情況(a)中,至用戶(hù)的距離太遠(yuǎn),可移動(dòng)部件107和108位 于初始位置并且保持向下。在情況(b)中,至用戶(hù)的距離被確定為 位于適當(dāng)?shù)耐扑]距離范圍內(nèi),可移動(dòng)部件之一、可移動(dòng)部件107向上 舉起。在情況(c)中,至用戶(hù)的距離太近,可移動(dòng)部件107和108都向上舉起。
      在此,4吏用兩個(gè)可移動(dòng)部件107和108的動(dòng)作的組合才莫式可以通 知至用戶(hù)的距離是否合適。
      下面將描述使根據(jù)第一實(shí)施例的聲音交互機(jī)器人100能夠估算推 薦距離范圍的機(jī)制。
      圖3是根據(jù)第 一實(shí)施例的聲音交互機(jī)器人100的功能框圖。
      根據(jù)第一實(shí)施例的聲音交互機(jī)器人100具有聲音輸入模塊301、 聲音識(shí)別模塊302、指令執(zhí)行模塊303、強(qiáng)度測(cè)量模塊305、用戶(hù)聲 音強(qiáng)度數(shù)據(jù)庫(kù)(以下表示為DB) 306、推薦距離范圍估算模塊307、 聲音識(shí)別特性DB 308、以及推薦距離范圍通知模塊309。
      聲音輸入模塊301是用于接收音頻輸入(圍繞聲音交互機(jī)器人 100的聲音)并以給定增益值放大該聲音以輸出音頻信號(hào)的模塊。如 圖1所示,聲音輸入模塊具有聲音輸入裝置103和104、能夠增益調(diào) 節(jié)的傳聲器放大器、以及A/D轉(zhuǎn)換器。音頻信號(hào)被輸出到聲音識(shí)別 模塊302和強(qiáng)度測(cè)量模塊305。
      聲音識(shí)別模塊302對(duì)由聲音輸入模塊301輸出的音頻信號(hào)執(zhí)行聲 音識(shí)別。聲音識(shí)別模塊302通過(guò)執(zhí)行頻率分析或模式匹配來(lái)執(zhí)行聲音 區(qū)間的檢測(cè)處理(VAD:聲音活動(dòng)檢測(cè))以及確定檢測(cè)到的聲音區(qū) 間中的詞匯的識(shí)別處理。經(jīng)過(guò)噪聲去除處理提取的聲音模式的形狀和 指令聲音的記錄的聲音模式的形狀被逐一地比較。匹配率最高的聲音 模式的形狀被識(shí)別為聲音內(nèi)容。如果匹配率沒(méi)有超過(guò)某一闊值,則聲 音識(shí)別被確定為失敗,認(rèn)為聲音模式與任何注冊(cè)聲音都不匹配。
      如果由聲音識(shí)別模塊302識(shí)別的詞匯是對(duì)應(yīng)于聲音交互機(jī)器人 100可執(zhí)行的指令的指令詞匯,則指令執(zhí)行模塊303用于根據(jù)指令執(zhí) 行處理。例如,如果識(shí)別出如前所述的指令詞匯"打開(kāi)電視機(jī)",則 指令執(zhí)行模塊303執(zhí)行從遙控發(fā)射器/接收器109發(fā)射相應(yīng)紅外碼的 處理。
      用戶(hù)距離測(cè)量模塊304是用于使用如圖1所示的距離傳感器105 來(lái)測(cè)量用戶(hù)201和聲音交互機(jī)器人IOO之間的當(dāng)前距離的模塊。聲音識(shí)別模塊302開(kāi)始檢測(cè)聲音區(qū)間的開(kāi)始時(shí)間和連續(xù)操作的結(jié)束時(shí)間是 被通知的事件、以及在聲音區(qū)間中的每個(gè)固定時(shí)間間隔的距離傳感器 105輸出的平均值被作為至用戶(hù)201的距離輸出至推薦距離范圍估算 模塊307和推薦距離范圍通知模塊309。
      強(qiáng)度測(cè)量模塊305測(cè)量從聲音輸入模塊301獲取的音頻信號(hào)的強(qiáng) 度。聲音識(shí)別模塊302檢測(cè)聲音區(qū)間的開(kāi)始時(shí)間和結(jié)束時(shí)間,并將開(kāi) 始時(shí)間和結(jié)束時(shí)間作為事件輸出到強(qiáng)度測(cè)量模塊305。從通知開(kāi)始檢 測(cè)至通知結(jié)束檢測(cè)的間隔被確定為聲音區(qū)間,以及其他的間隔被確定 為噪聲區(qū)間。對(duì)于聲音區(qū)間,計(jì)算該間隔內(nèi)的音頻信號(hào)的強(qiáng)度并輸出 至推薦距離范圍估算模塊307。此外,對(duì)于噪聲區(qū)間,通過(guò)用每個(gè)給 定的時(shí)間期間來(lái)劃分該間隔來(lái)計(jì)算音頻信號(hào)的強(qiáng)度,并作為噪聲的強(qiáng) 度輸出至推薦距離范圍估算模塊307 。
      用戶(hù)聲音強(qiáng)度DB 306存儲(chǔ)有用戶(hù)聲音特性的相關(guān)性,用戶(hù)聲音 特性具有識(shí)別成功時(shí)的增益G、用戶(hù)201和聲音交互機(jī)器人100之間 的距離D、以及聲音強(qiáng)度V的集合(G、 D、 V)。
      聲音識(shí)別特性DB 308存儲(chǔ)有用于聲音識(shí)別模塊302的聲音識(shí)別 性能的數(shù)值。更具體的,其存儲(chǔ)了允許的噪聲強(qiáng)度的上限、聲音識(shí)別 目標(biāo)的聲音強(qiáng)度的下限、以及S/N比和聲音識(shí)別率之間的相關(guān)性。
      推薦距離范圍估算模塊307調(diào)節(jié)音頻信號(hào)的增益、估算滿(mǎn)足適于 聲音鑒別的S/N比的聲音距離范圍、以及輸出估算的推薦距離范圍。 使用(1)聲音輸入模塊301的增益、(2)由強(qiáng)度測(cè)量模塊305測(cè)量 的噪聲強(qiáng)度、(3)從用戶(hù)聲音強(qiáng)度DB 306訪(fǎng)問(wèn)到的集合(G、 D、 V),以及(4)從聲音識(shí)別特性DB 308訪(fǎng)問(wèn)到的聲音識(shí)別模塊302 的特性值,由此確定對(duì)于當(dāng)前噪聲強(qiáng)度是否需要改變?cè)鲆妗H绻枰?改變?cè)鲆?,則確定新的增益,并且聲音輸入模塊301被指示以調(diào)節(jié)增 益。然后,聲音識(shí)別模塊302對(duì)如下S/N比進(jìn)行估算,所述S/N比 是為了確定的增益和噪聲強(qiáng)度而呈現(xiàn)具有特定值或更高值的聲音識(shí)別 率所需的。從用戶(hù)201的聲音強(qiáng)度來(lái)估算對(duì)于所需的S/N比或更高的 S/N比的推薦距離范圍,并且所估算出的推薦距離范圍被輸出至推薦距離范圍通知模塊309。下面將描述確定增益和估算距離的具體方 法。
      推薦距離范圍通知模塊309將由推薦距離范圍估算模塊307通知 的聲音交互機(jī)器人100和用戶(hù)201之間能夠聲音識(shí)別的推薦距離范圍 呈現(xiàn)給用戶(hù)201。通過(guò)指示器106的通知或可移動(dòng)部件107和108的 動(dòng)作的通知來(lái)作出用戶(hù)201是否位于至用戶(hù)201的推薦距離范圍內(nèi)的 通知。聲音交互機(jī)器人100可以設(shè)置有聲音合成模塊,其輸出使聲音 交互機(jī)器人100講話(huà)的合成聲音,從而來(lái)通知用戶(hù)?;蛘呗曇艉铣裳b 置可以提供使聲音交互機(jī)器人100能夠講話(huà)的功能。
      圖4是示出了在強(qiáng)度測(cè)量模塊305確定輸入音頻信號(hào)中的聲音區(qū) 間和噪聲區(qū)間時(shí)聲音特性的示例的示意圖。如圖4所示,強(qiáng)度測(cè)量模
      塊305確定輸入音頻信號(hào)的信號(hào)強(qiáng)度等于或低于給定強(qiáng)度Ll的時(shí)間 區(qū)間為噪聲區(qū)間,以及確定噪聲區(qū)間之外的時(shí)間區(qū)間為聲音區(qū)間。換
      句話(huà)說(shuō),強(qiáng)度測(cè)量模塊305確定從檢測(cè)到聲音開(kāi)始的檢測(cè)開(kāi)始點(diǎn)至檢 測(cè)到聲音結(jié)束的檢測(cè)結(jié)束點(diǎn)的聲音存在區(qū)間,以及確定其他時(shí)間區(qū)間 為噪聲區(qū)間。對(duì)于聲音區(qū)間,從聲音區(qū)間內(nèi)的音頻信號(hào)計(jì)算強(qiáng)度,并 作為聲音強(qiáng)度通知給推薦距離范圍估算模塊307和用戶(hù)聲音強(qiáng)度DB 306。對(duì)于噪聲區(qū)間,通過(guò)用每個(gè)給定時(shí)間周期劃分噪聲區(qū)間期間內(nèi) 的音頻信號(hào)的信號(hào)強(qiáng)度,從而來(lái)計(jì)算音頻信號(hào)的平均強(qiáng)度,并作為噪 聲強(qiáng)度通知給推薦距離范圍估算模塊307。
      在本說(shuō)明書(shū)中,術(shù)語(yǔ)"聲音區(qū)間"用于描述在從聲音輸入模塊 301輸出的信號(hào)中檢測(cè)到存在用戶(hù)發(fā)出的聲音的時(shí)間期間,以及術(shù)語(yǔ) "噪聲區(qū)間"用于描述沒(méi)有檢測(cè)到存在聲音的時(shí)間期間。術(shù)語(yǔ)"聲音 區(qū)間"和"噪聲區(qū)間"不暗示任何種類(lèi)的周期性存在的聲音或噪聲。
      接下來(lái),下面將描述表示聲音識(shí)別模塊302中的聲音識(shí)別的特性 的數(shù)值與存儲(chǔ)在聲音識(shí)別特性DB 308中的聲音識(shí)別模塊302中的聲 音識(shí)別處理之間的關(guān)系。
      聲音識(shí)別模塊302中的聲音識(shí)別處理基本上被分為用于從輸入音 頻信號(hào)檢測(cè)用戶(hù)的聲音區(qū)間的聲音區(qū)間檢測(cè)處理和用于從檢測(cè)到的聲音區(qū)間中的音頻信號(hào)識(shí)別說(shuō)出的詞匯的識(shí)別處理的兩個(gè)階段。
      可以在這兩個(gè)處理階段分析導(dǎo)致聲音識(shí)別性能降低的原因。 一個(gè) 原因是由噪聲的高強(qiáng)度引起的,因此在聲音區(qū)間之前和之后的包含噪
      聲的范圍被錯(cuò)誤地檢測(cè)為聲音區(qū)間。另一原因是由于S/N比低于滿(mǎn) 足所要求的識(shí)別率所需要的S/N比,因此在噪聲信號(hào)疊加在聲音區(qū)間 中的信號(hào)上時(shí),通過(guò)識(shí)別處理計(jì)算出的類(lèi)似度降低了。如果類(lèi)似度 低,則信號(hào)處于作為確定基準(zhǔn)的閾值之下而不能被確定,或被確定為 錯(cuò)誤的詞匯。
      聲音識(shí)別特性DB 308存儲(chǔ)以下列出的項(xiàng)目(a)至(d)四個(gè)參 數(shù),這些參數(shù)是使聲音識(shí)別模塊302能夠執(zhí)行聲音識(shí)別處理所需的。
      (a) 滿(mǎn)足需要的識(shí)別率所需的S/N比SN1
      (b) 防止錯(cuò)誤檢測(cè)聲音區(qū)間的噪聲強(qiáng)度的上限Ll
      (c) 對(duì)于聲音區(qū)間檢測(cè)中的聲音來(lái)說(shuō),正確檢測(cè)聲音區(qū)間所需 的聲音強(qiáng)度的下限L2
      (d) 能夠由A/D轉(zhuǎn)換器的最大參考電壓被正確轉(zhuǎn)換為數(shù)字信號(hào) 的信號(hào)強(qiáng)度的上限L3。
      使用預(yù)先準(zhǔn)備的聲音和噪聲數(shù)據(jù),可以在計(jì)算機(jī)上模擬具有諸如 Ll和L2的噪聲強(qiáng)度對(duì)聲音識(shí)別模塊302的影響程度。
      如參考圖1所述,聲音輸入模塊301具有聲音輸入裝置103和 104、能夠調(diào)節(jié)增益的傳聲器放大器、以及A/D轉(zhuǎn)換器,據(jù)此,L3 是由聲音輸入模塊301的功能決定的。
      圖6是示出了 S/N比和聲音識(shí)別率之間的相關(guān)性的示例。該曲線(xiàn) 表示了 S/N比和聲音識(shí)別率之間的相關(guān)性,該相關(guān)性是通過(guò)輸入噪聲 數(shù)據(jù)以變化的比例疊加在聲音數(shù)據(jù)上的音頻信號(hào),并執(zhí)行聲音識(shí)別處 理而獲得的。在使用聲音識(shí)別的系統(tǒng)中,根據(jù)如何在系統(tǒng)中使用聲音 識(shí)別結(jié)果的方式,可以將聲音識(shí)別所需要的識(shí)別性能(聲音識(shí)別率) 預(yù)先確定為所需的規(guī)范。例如,在指令執(zhí)行模塊303執(zhí)行對(duì)電視設(shè)備 的操作的情況下,所需要的規(guī)范包括聲音識(shí)別率為80%或更高。在 該種情況下,由圖6,作為滿(mǎn)足要求的識(shí)別率所需的S/N比的SN1被確定為20dB或更高。S/N比和聲音識(shí)別率之間的這種相關(guān)性被存 儲(chǔ)在聲音識(shí)別特性DB 308中。
      圖5是示出了第一實(shí)施例的存儲(chǔ)在聲音識(shí)別特性DB 308中的噪 聲強(qiáng)度上限L1以及聲音強(qiáng)度的下限L2和上限L3的示意圖。
      基于存儲(chǔ)在聲音識(shí)別S/N特性DB 308中的上述項(xiàng)目(a)至 (d)的數(shù)值,執(zhí)行控制以滿(mǎn)足下面三個(gè)要求
      (1) 調(diào)節(jié)增益使得噪聲強(qiáng)度低于Ll;
      (2) 調(diào)節(jié)增益或估算距離用戶(hù)201的傳聲器的推薦距離,使 得聲音強(qiáng)度可以為從L2到L3;以及
      (3) 估算距離用戶(hù)201的傳聲器的推薦距離,使得S/N比可 以是SN1或更高。通過(guò)向用戶(hù)201通知適于滿(mǎn)足項(xiàng)目
      (2)和(3)的聲音的推薦距離范圍,滿(mǎn)足所要求的聲 音識(shí)別率的音頻信號(hào)可以被提供給聲音識(shí)別模塊302, 從而完全展示出聲音識(shí)別性能。 參考圖6至圖10,下面將描述用于估算滿(mǎn)足項(xiàng)目(2)和(3) 的推薦距離范圍的方法。
      下面將描述聲音強(qiáng)度和從傳聲器至用戶(hù)201的距離之間的關(guān)系。 由于由用戶(hù)201發(fā)出的聲音被認(rèn)為是點(diǎn)聲源,所以聲音強(qiáng)度與傳播距 離的平方成反比。聲音輸入模塊301的增益可以隨著強(qiáng)度而被線(xiàn)性調(diào) 節(jié)。假設(shè)在聲音識(shí)別模塊302成功識(shí)別的情況下聲音輸入模塊301的 增益是G,用戶(hù)距離測(cè)量模塊304的檢測(cè)距離是D,以及由強(qiáng)度測(cè)量 模塊305測(cè)量的聲音強(qiáng)度是V,則由聲音輸入模塊301輸出的聲音強(qiáng) 度Vi在增益為Gi以及檢測(cè)距離為Di的情況下可以通過(guò)下面公式 (1)得出。
      Vi = V x(Gi/G) x (D/Di)2 {1)
      因此,聲音強(qiáng)度為Vi情況下的距離Di可以從下面的公式(2) 得出。
      Di = Sqrt((V/Vi) x (Gi/G)) x D (2)
      因此,通過(guò)測(cè)量和存儲(chǔ)識(shí)別成功時(shí)的集合(G、 D、 V),由聲音距離可以計(jì)算當(dāng)前增益值下的聲音強(qiáng)度。此外,從聲音強(qiáng)度可以估
      算出推薦距離范圍。用于用戶(hù)201的集合(G、 D、 V)被記錄在用 戶(hù)聲音強(qiáng)度DB 306中。
      圖7是示出了根據(jù)第一實(shí)施例的聲音交互機(jī)器人的操作的流程
      當(dāng)聲音交互機(jī)器人100被激活時(shí),開(kāi)始下面的處理。
      在步驟401,確定是否已經(jīng)測(cè)量了用戶(hù)201的聲音強(qiáng)度。通過(guò)訪(fǎng) 問(wèn)用戶(hù)聲音強(qiáng)度DB 306,如果用戶(hù)201的聲音強(qiáng)度信息沒(méi)有被注 冊(cè),則處理進(jìn)行到步驟402,或者如果聲音強(qiáng)度信息被注冊(cè)了,則處 理進(jìn)行到步驟403。
      在步驟402,用戶(hù)201的聲音強(qiáng)度被測(cè)量以在用戶(hù)聲音強(qiáng)度DB 306中記錄獲取的集合(G、 D、 V),并且處理返回到步驟401。
      在步驟403,使用用戶(hù)201的聲音強(qiáng)度信息V完成根據(jù)噪聲強(qiáng)度 的增益調(diào)節(jié)以及計(jì)算距離傳聲器的適當(dāng)距離,并將距離信息通知給推 薦距離范圍通知模塊309。在步驟403執(zhí)行適應(yīng)周?chē)肼暤穆曇糇R(shí)別 直到存在裝置的停止信號(hào)。如果出現(xiàn)停止信號(hào),則聲音交互機(jī)器人 100的操作停止。
      圖8是示出了測(cè)量用戶(hù)201的聲音強(qiáng)度的步驟402的流程圖。
      在步驟801,向用戶(hù)201作出聲音的提示以測(cè)量用戶(hù)201的聲音 強(qiáng)度。指示推薦距離范圍通知模塊309向用戶(hù)201發(fā)出聲音請(qǐng)求。發(fā) 出聲音請(qǐng)求的通知例如可以通過(guò)在圖14部分(B)中示出的可移動(dòng) 部件107的動(dòng)作、指示器106上的指示、由聲音合成模塊輸出的聲 音、或顯示在顯示屏上的文字消息的請(qǐng)求來(lái)實(shí)現(xiàn)。
      在步驟802,聲音識(shí)別模塊302等待來(lái)自用戶(hù)201的聲音,并在 接收到該聲音時(shí)執(zhí)行聲音識(shí)別。
      在步驟803,當(dāng)聲音識(shí)別模塊302聲音識(shí)別成功時(shí),處理進(jìn)行到 步驟804以計(jì)算聲音強(qiáng)度。當(dāng)聲音識(shí)別模塊302聲音識(shí)別失敗時(shí),處 理返回到步驟802以等待用戶(hù)201發(fā)出的聲音。
      在步驟804,推薦距離范圍估算模塊307將從強(qiáng)度測(cè)量模塊305獲取的聲音強(qiáng)度V、聲音輸出模塊301的增益G以及從用戶(hù)距離測(cè) 量模塊304獲取的距離D記錄在用戶(hù)聲音強(qiáng)度DB 306中,并且處理 返回到步驟401。
      圖9是示出了步驟403的細(xì)節(jié)的流程圖。使用記錄在用戶(hù)聲音強(qiáng) 度DB 306中的用戶(hù)201的聲音強(qiáng)度信息來(lái)執(zhí)行根據(jù)噪聲強(qiáng)度的增益 調(diào)節(jié)、距離傳聲器的適合距離計(jì)算、以及向推薦距離范圍通知模塊 309通知距離信息。
      在步驟卯l,初始化聲音輸入模塊301的增益。設(shè)置增益GO, 假設(shè)前次聲音交互機(jī)器人100停止時(shí)的增益值或者當(dāng)前噪聲強(qiáng)度小于 Ll情況下的增益值是初始值。
      在步驟902,指示聲音識(shí)別模塊302被指示開(kāi)始聲音識(shí)別處理。
      在步驟903,操作等待,直到由強(qiáng)度測(cè)量模塊305通知噪聲強(qiáng) 度,以及當(dāng)噪聲強(qiáng)度被通知時(shí),處理進(jìn)行到步驟904。
      在步驟卯4,從通知的噪聲強(qiáng)度NO和當(dāng)前增益GO計(jì)算出獲得 噪聲強(qiáng)度L1的增益G1。在此,因?yàn)榭梢噪S著來(lái)自聲音輸入模塊301 的輸出信號(hào)的強(qiáng)度來(lái)線(xiàn)性地調(diào)節(jié)增益,所以通過(guò)下面的公式(3)可 以獲得增益Gl。
      Gl = GO x L1/N0 (3)
      在步驟905,用戶(hù)距離測(cè)量模塊304測(cè)量用戶(hù)201和聲音交互機(jī) 器人100之間的當(dāng)前距離D2。通過(guò)下面的公式(4)從公式(1)中 得出增益G2,在增益G2處,來(lái)自用戶(hù)201的聲音的聲音強(qiáng)度是聲 音識(shí)別所要求的最小聲音強(qiáng)度L2。
      G2 = G x 〈L2/V) x (D2/D)2 (4)
      在步驟906,對(duì)G1和G2進(jìn)行比較。
      當(dāng)Gl小于G2時(shí),聲音輸入模塊301的增益在步驟卯7被設(shè)置 為Gl。
      當(dāng)G2小于Gl,則聲音輸入模塊301的增益Gi在步驟908被設(shè) 置為G2。
      根據(jù)上述處理,執(zhí)行了增益調(diào)節(jié)。在步驟909,計(jì)算用于獲取適于聲音識(shí)別的聲音強(qiáng)度的距離范 圍。第一,通過(guò)公式(2)來(lái)計(jì)算距離DL2,其提供了聲音識(shí)別所要 求的聲音的聲音強(qiáng)度的下限值L2。當(dāng)在步驟908中增益被調(diào)節(jié)為G2 時(shí),當(dāng)前距離D2被設(shè)置為DL2。
      在步驟910,通過(guò)公式(2)來(lái)計(jì)算距離DL3,其提供了聲音識(shí) 別所要求的聲音強(qiáng)度的上限值L3。
      在步驟911,計(jì)算距離DSN1,在該距離處的S/N比為SN1。改 變后(在步驟卯6被比較并改變)的增益被設(shè)置為GN。同樣,該 S/N比通過(guò)201ogl0 (S/N)來(lái)計(jì)算。因?yàn)樵鲆娓淖兦盀镚0,增益改 變后為GN,噪聲強(qiáng)度為N,聲音強(qiáng)度為S, S/N比通過(guò)201ogl0 (S/N)來(lái)計(jì)算,S從公式(1)計(jì)算出,以及如公式(3)中所示的
      噪聲強(qiáng)度與增益是線(xiàn)性的,所以由下面的公式(5)計(jì)算出DSN1。
      S = V x(GN/G) x (D/DSN1)2 N = NO x (GN/G0〉
      S/N = (V/N0)x(G0/G)x(D/DSN1)2 SN1效20Logl0(S/N) DNS 1
      =squrt((V/N0) x ( GO/G) /ln10 ( SN1/20) 〉 ) x D (5)
      適于聲音識(shí)別的推薦距離范圍是從DL3至DL2,且需要滿(mǎn)足 DSN1或更小的范圍。如果在步驟912中確定滿(mǎn)足DSNKDL3,則處 理進(jìn)行到步驟914,否則處理進(jìn)行到步驟913。
      在步驟913,當(dāng)確定滿(mǎn)足DSN1 < DL2,則處理進(jìn)行到步驟 915,否則處理進(jìn)行到步驟916。
      在步驟914,由于噪聲太大,即使用戶(hù)來(lái)到比聲音的聲音強(qiáng)度為 L3的距離更近的距離,也不能滿(mǎn)足作為所要求的S/N比的SN1。因 此,沒(méi)有推薦距離范圍被通知給推薦距離范圍通知模塊309,并且處 理返回到步驟903。
      在步驟915,因?yàn)樵肼暣螅孕枰曇魪?qiáng)度大于L2以滿(mǎn)足作 為所要求的S/N比的SN1。因此,適于聲音的推薦距離范圍是從DL3至DSN1。推薦距離范圍估算模塊307向推薦距離范圍通知模塊 309通知獲得的推薦距離范圍,以及處理返回到步驟903。
      在步驟916,當(dāng)噪聲小且聲音強(qiáng)度大于或等于L2時(shí),滿(mǎn)足了所 要求的S/N比,從而適于聲音的推薦距離范圍是從DL3至DL2。推 薦距離范圍估算模塊307向推薦距離范圍通知模塊309通知獲得的推 薦距離范圍,以及處理返回步驟903。
      圖10是示出了推薦距離范圍通知模塊309向用戶(hù)201通知由推 薦距離范圍估算模塊307通知的推薦距離范圍的信息。
      在步驟1001,當(dāng)存在來(lái)自推薦距離范圍估算模塊307的推薦距 離范圍的通知時(shí),處理進(jìn)行到步驟1002。當(dāng)沒(méi)有推薦距離范圍的更 新通知時(shí),處理進(jìn)行到步驟1005。
      在步驟1002,當(dāng)通知沒(méi)有推薦距離范圍存在時(shí),處理進(jìn)行到步 驟1003,或者如果存在推薦距離范圍,則處理進(jìn)行到步驟1004。
      在步驟1003,向用戶(hù)201通知噪聲太大以致不存在能夠識(shí)別聲 音的推薦距離范圍的通知,以及處理進(jìn)行到步驟1001。例如,其用 如圖14c所示的姿勢(shì)來(lái)表現(xiàn)、顯示在指示器106上、或通過(guò)合成聲音 輸出。
      在步驟1004,由推薦距離范圍估算模塊307通知的推薦距離范 圍的下限值被存儲(chǔ)為內(nèi)部變量DD1,以及上限值被存儲(chǔ)為內(nèi)部變量 DD2。同樣,如果推薦距離范圍的上限值和下限值已經(jīng)被存儲(chǔ),則由 推薦距離范圍估算模塊307新通知的距離范圍的內(nèi)部變量(下限值 DDI和上限值DD2 ) ^皮更新并存儲(chǔ)。
      在步驟1005,從用戶(hù)距離測(cè)量模塊304獲取用戶(hù)201和聲音交 互機(jī)器人IOO之間的當(dāng)前距離D的信息。
      在步驟1006,當(dāng)當(dāng)前距離D小于DDI時(shí),用戶(hù)201位于比適于 聲音的推薦距離范圍更近的位置,從而處理進(jìn)行到步驟1008,否 則,處理進(jìn)行到步驟1007。
      在步驟1007,當(dāng)當(dāng)前距離D處于推薦距離范圍內(nèi)時(shí),用戶(hù)201 和聲音交互機(jī)器人K)O之間的距離是適當(dāng)?shù)?,從而處理進(jìn)行到步驟1009,否則用戶(hù)201的位置超出推薦距離范圍,從而處理進(jìn)行到步驟 1010。
      在步驟1008,做出通知用戶(hù)201其位置太靠近機(jī)器人100的通 知,以及處理返回到步驟1001。例如,可以通過(guò)在圖14部分(C) 中示出的姿勢(shì)來(lái)做出通知、通過(guò)圖13中所示的顯示在指示器106上 指示區(qū)域1301中的位置的條形1305來(lái)做出該通知、或由合成聲音輸 出來(lái)做出通知。
      在步驟1009,通知用戶(hù)201位于推薦距離范圍內(nèi),以及處理進(jìn) 行到步驟1001。例如,可以通過(guò)在圖14部分(B)中示出的姿勢(shì)來(lái) 做出通知、通過(guò)圖13中所示的顯示在指示器106上指示區(qū)域1302中 的位置的條形1305來(lái)做出通知、或由合成聲音輸出來(lái)做出通知。
      在步驟1010, ^t出通知用戶(hù)201其位置距離才幾器人100太遠(yuǎn)的 通知,以及處理返回到步驟1001。例如,可以通過(guò)在圖14部分 (A)中示出的姿勢(shì)、圖13中所示的顯示在指示器106上指示區(qū)域 1303中的位置的條形1305來(lái)做出通知、或由合成聲音輸出來(lái)做出通 知。
      如上所述,聲音交互機(jī)器人IOO在正常時(shí)間可以根據(jù)噪聲強(qiáng)度和 用戶(hù)201的聲音的聲音強(qiáng)度來(lái)向用戶(hù)201通知適于該聲音的距離。用 戶(hù)可以在確認(rèn)推薦距離范圍和當(dāng)前距離的同時(shí)發(fā)出聲音,而不用按照 現(xiàn)有技術(shù)通過(guò)重復(fù)聲音來(lái)確認(rèn)適當(dāng)?shù)穆曇魪?qiáng)度或距離。因此,用戶(hù) 201知道用戶(hù)是否位于取決于噪聲強(qiáng)度的推薦距離范圍內(nèi),或者用戶(hù) 應(yīng)該移動(dòng)多遠(yuǎn)以進(jìn)入推薦距離范圍。從而,可以支持用戶(hù)從適于聲音 的推薦距離范圍發(fā)出聲音以滿(mǎn)足聲音識(shí)別準(zhǔn)確度,由此來(lái)提高聲音識(shí) 別率。
      盡管在第一實(shí)施例中估算并向用戶(hù)通知適于聲音的推薦距離范 圍,也可以提供使聲音交互機(jī)器人100能夠移動(dòng)至計(jì)算出的推薦距離 范圍內(nèi)的功能。
      第二實(shí)施例
      下面將描述根據(jù)第二實(shí)施例的聲音交互機(jī)器人。圖ll是根據(jù)第二實(shí)施例的聲音交互機(jī)器人的功能框圖。
      根據(jù)第二實(shí)施例的聲音交互機(jī)器人1,00還具有識(shí)別用戶(hù)的功能, 并且特征在于對(duì)于每個(gè)被識(shí)別的用戶(hù),切換所使用的DB。
      如圖11所示,聲音交互機(jī)器人100設(shè)置有圖像輸入模塊310和 用戶(hù)識(shí)別才莫塊311。
      圖像輸入模塊310包括圖像拾取裝置101、 102。在聲音交互機(jī) 器人100前面的用戶(hù)210的圖像被圖像拾取裝置101捕獲并作為輸入 圖像數(shù)據(jù)被輸出。
      用戶(hù)識(shí)別模塊311通過(guò)由圖像輸入模塊310輸入的圖像來(lái)識(shí)別用 戶(hù)201。用戶(hù)識(shí)別模塊311可以使用通過(guò)執(zhí)行臉部識(shí)別處理以識(shí)別用 戶(hù)201的臉部來(lái)識(shí)別用戶(hù)的直接方法,或通過(guò)從背景圖像的特性識(shí)別 聲音交互機(jī)器人100面向的方向來(lái)識(shí)別用戶(hù)的間接方法。用戶(hù)識(shí)別模 塊311在每個(gè)給定時(shí)間周期執(zhí)行用戶(hù)識(shí)別處理,并將代表用戶(hù)201的 ID通知給推薦距離范圍估算模塊307。
      圖12是示出了根據(jù)第二實(shí)施例的用于聲音交互機(jī)器人100的推 薦距離范圍估算模塊307的處理的流程圖。
      在步驟400,通過(guò)引用來(lái)自用戶(hù)識(shí)別模塊311的通知從而將用戶(hù) 201的用戶(hù)ID設(shè)置為內(nèi)部變量。
      在步驟401,確定用戶(hù)201的聲音強(qiáng)度是否已經(jīng)被測(cè)量。通過(guò)訪(fǎng) 問(wèn)用戶(hù)聲音強(qiáng)度DB 306來(lái)檢查是否存在具有該用戶(hù)ID的聲音強(qiáng)度 信息,其中如果沒(méi)有注冊(cè)指定ID的聲音強(qiáng)度信息,則處理進(jìn)行到步 驟402,或者如果存在注冊(cè),則處理進(jìn)行到步驟403。
      在步驟402,測(cè)量用戶(hù)201的聲音強(qiáng)度,其中獲得的集合(G、 D、 V)被注冊(cè)記錄在用戶(hù)ID作為檢索關(guān)鍵字的用戶(hù)聲音強(qiáng)度DB 306中。處理返回到步驟401。
      在步驟403,使用用戶(hù)201的聲音強(qiáng)度信息來(lái)執(zhí)行根據(jù)噪聲強(qiáng)度 的增益調(diào)節(jié)和距離傳聲器的適合距離計(jì)算,從而距離信息被通知給推 薦距離范圍通知模塊309。
      在步驟404,檢查從用戶(hù)識(shí)別模塊311通知的用戶(hù)ID是否沒(méi)有從保存為內(nèi)部變量的用戶(hù)ID發(fā)生改變。如果用戶(hù)ID改變了,則處 理進(jìn)行到步驟400,或者如果用戶(hù)ID沒(méi)有改變,則處理進(jìn)行到步驟 403。
      根據(jù)第二實(shí)施例的聲音交互機(jī)器人100,即使多個(gè)用戶(hù)使用聲音 交互機(jī)器人100并且每個(gè)用戶(hù)的聲音的聲音強(qiáng)度不相同,也可以估算
      對(duì)于每個(gè)用戶(hù)的適當(dāng)距離范圍。估算適于聲音的推薦距離范圍,并通
      知給用戶(hù)201,從而用戶(hù)201知道用戶(hù)是否位于取決于噪聲強(qiáng)度的推 薦距離范圍內(nèi),或者用戶(hù)應(yīng)該移動(dòng)多遠(yuǎn)以進(jìn)入推薦距離范圍。因此, 可以支持用戶(hù)從適于聲音的推薦距離范圍發(fā)出聲音以滿(mǎn)足聲音識(shí)別準(zhǔn) 確性來(lái)提高聲音識(shí)別率。
      應(yīng)該理解本發(fā)明不限于上述的特定實(shí)施例,并且本發(fā)明可以在不 背離本發(fā)明的精神和范圍的情況下由經(jīng)修改的部件來(lái)實(shí)施。根據(jù)在上
      述實(shí)施例中披露的部件的適當(dāng)組合可以以各種形式實(shí)施本發(fā)明。例如 可以從作為實(shí)施例被描述的配置中刪除一些部件。此外,在不同實(shí)施 例中描述的部件可以適當(dāng)?shù)亟M合使用。
      權(quán)利要求
      1. 一種聲音識(shí)別裝置,包括音頻輸入模塊,接收音頻輸入并輸出音頻信號(hào),所述音頻輸入模塊具有被配置為可調(diào)節(jié)的增益;聲音識(shí)別模塊,檢測(cè)所述音頻信號(hào)中檢測(cè)到用戶(hù)的聲音活動(dòng)的聲音區(qū)間,以及對(duì)所述聲音區(qū)間期間的所述音頻信號(hào)執(zhí)行聲音識(shí)別;第一強(qiáng)度測(cè)量模塊,測(cè)量在所述聲音區(qū)間中的所述音頻信號(hào)的聲音強(qiáng)度并輸出所述聲音強(qiáng)度;第二強(qiáng)度測(cè)量模塊,測(cè)量在噪聲區(qū)間中的所述音頻信號(hào)的噪聲強(qiáng)度并輸出所述噪聲強(qiáng)度,所述噪聲區(qū)間是除了所述聲音區(qū)間之外的時(shí)間區(qū)間;第一計(jì)算模塊,計(jì)算作為所述聲音強(qiáng)度與所述噪聲強(qiáng)度之比的S/N比;距離測(cè)量模塊,測(cè)量所述用戶(hù)和所述聲音輸入模塊之間的當(dāng)前距離;第一存儲(chǔ)模塊,存儲(chǔ)與如下S/N比相對(duì)應(yīng)的第一閾值,在所述S/N比處,所述聲音識(shí)別模塊能夠以給定識(shí)別率執(zhí)行聲音識(shí)別;第二存儲(chǔ)模塊,存儲(chǔ)具有所述聲音強(qiáng)度、所述當(dāng)前距離和所述增益的集合的聲音特性,通過(guò)所述聲音特性,所述聲音識(shí)別模塊成功執(zhí)行所述聲音識(shí)別;第二計(jì)算模塊,基于所述聲音特性,計(jì)算用于所述當(dāng)前距離的推薦距離范圍,在所述推薦距離范圍內(nèi),估算出所述S/N比超過(guò)所述第一閾值;以及顯示模塊,顯示所述推薦距離范圍和所述當(dāng)前距離。
      2. 根據(jù)權(quán)利要求1所述的裝置,進(jìn)一步包括第三存儲(chǔ)模塊,存儲(chǔ)與可允許從所述音頻輸入模塊輸出的所述音頻信號(hào)的上限相對(duì)應(yīng)的笫二閾值,其中所述第二計(jì)算模塊通過(guò)基于所述聲音特性和所述增益來(lái)計(jì)算 其中估算出所述聲音強(qiáng)度不超過(guò)所述第二閾值的距離范圍并將計(jì)算出 的所述距離范圍設(shè)置為所述推薦距離范圍,從而來(lái)計(jì)算所述推薦距離 范圍。
      3. 根據(jù)權(quán)利要求2所述的裝置,進(jìn)一步包括 第四存儲(chǔ)模塊,存儲(chǔ)與在所述音頻信號(hào)中可允許的所述噪聲強(qiáng)度的上限相對(duì)應(yīng)的第三閾值;以及控制模塊,控制所述聲音識(shí)別模塊的增益以控制所述噪聲強(qiáng)度不 超過(guò)所述第三閾值。
      4. 根據(jù)權(quán)利要求3所述的裝置,進(jìn)一步包括確定模塊,確定所述當(dāng)前距離是否位于所述推薦距離范圍內(nèi);以及通知模塊,通知所述用戶(hù)由所述確定模塊確定的結(jié)果。
      5. 根據(jù)權(quán)利要求1所述的裝置,其中所述第二存儲(chǔ)模塊利用對(duì) 于多個(gè)用戶(hù)中的每個(gè)用戶(hù)都唯一的識(shí)別信息,為多個(gè)用戶(hù)中的每個(gè)用 戶(hù)存儲(chǔ)所述聲音特性。
      6. 根據(jù)權(quán)利要求5所述的裝置,其中所述第二計(jì)算模塊基于由 給定識(shí)別信息指定的所述聲音特性來(lái)計(jì)算所述推薦距離范圍。
      7. 根據(jù)權(quán)利要求6所述的裝置,進(jìn)一步包括用戶(hù)識(shí)別模塊, 識(shí)別發(fā)出聲音的所述用戶(hù),并獲取對(duì)應(yīng)于所識(shí)別的用戶(hù)的所述識(shí)別信 息,其中所述第二計(jì)算模塊基于由所述用戶(hù)識(shí)別模塊獲取的所述識(shí)別 信息指定的所述聲音特性來(lái)計(jì)算所述推薦距離范圍。
      8. —種用于執(zhí)行聲音識(shí)別的方法,所述方法包括 接收音頻輸入以輸出具有被配置為可調(diào)節(jié)的增益的音頻信號(hào); 在所述音頻信號(hào)中檢測(cè)找到出現(xiàn)用戶(hù)聲音的聲音區(qū)間,以對(duì)所述 聲音區(qū)間期間的所述音頻信號(hào)執(zhí)行所述聲音識(shí)別;測(cè)量所述聲音區(qū)間中所述音頻信號(hào)的聲音強(qiáng)度以輸出所述聲音強(qiáng)度;測(cè)量在噪聲區(qū)間中的所述音頻信號(hào)的噪聲強(qiáng)度以輸出所述噪聲強(qiáng) 度,所述噪聲區(qū)間是除了所述聲音區(qū)間之外的時(shí)間區(qū)間; 計(jì)算作為所述聲音強(qiáng)度和所述噪聲強(qiáng)度之比的S/N比; 測(cè)量距離所述用戶(hù)的當(dāng)前距離;存儲(chǔ)與如下s/N比相對(duì)應(yīng)的第一閾值,在所述S/N比處,能夠 以給定的識(shí)別率執(zhí)行所述聲音識(shí)別;存儲(chǔ)具有所述聲音強(qiáng)度、所述當(dāng)前距離和所述增益的集合的聲音 特性,通過(guò)所述聲音特性成功識(shí)別聲音;基于所述聲音特性計(jì)算用于所述當(dāng)前距離的推薦距離范圍,在所 述推薦距離范圍內(nèi),估算出所述S/N比超過(guò)所述第一閾值;以及顯示所述推薦距離范圍和所述當(dāng)前距離。
      全文摘要
      本發(fā)明涉及聲音識(shí)別裝置以及用于執(zhí)行聲音識(shí)別的方法。其中,聲音識(shí)別裝置包括聲音識(shí)別模塊,對(duì)聲音區(qū)間期間的音頻信號(hào)執(zhí)行聲音識(shí)別;距離測(cè)量模塊,測(cè)量用戶(hù)和聲音輸入模塊之間的當(dāng)前距離;計(jì)算模塊,基于聲音特性計(jì)算推薦距離范圍,在該推薦距離范圍內(nèi)估算出S/N比超過(guò)第一閾值;以及顯示模塊,顯示推薦距離范圍和當(dāng)前距離。
      文檔編號(hào)G10L15/00GK101510425SQ200910007438
      公開(kāi)日2009年8月19日 申請(qǐng)日期2009年2月13日 優(yōu)先權(quán)日2008年2月15日
      發(fā)明者古賀敏之, 山本大介, 杉山博史, 鈴木薰 申請(qǐng)人:株式會(huì)社東芝
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1