聲音處理系統(tǒng)的制作方法

文檔序號：10824588閱讀：527來源：國知局

聲音處理系統(tǒng)的制作方法
【專利摘要】本實用新型提供一種能夠更鮮明地取得用戶聲音的聲音處理系統(tǒng)。該聲音處理系統(tǒng)具備佩戴于用戶的佩戴部，所述佩戴部具有至少三個聲音取得部，所述聲音取得部取得用于波束成形的聲音數(shù)據(jù)，在所述佩戴部佩戴于所述用戶的狀態(tài)下，四個聲音取得部所包含的第1聲音取得部與所述用戶的嘴部之間的距離、與所述四個聲音取得部所包含的第2聲音取得部與所述用戶的嘴部之間的距離被設置為不同的距離。
【專利說明】
聲音處理系統(tǒng)
技術領域
[0001]本公開內(nèi)容涉及聲音處理系統(tǒng)。
【背景技術】
[0002]近年來，佩戴于用戶身體的任意部位，來感測用戶狀態(tài)，或對周圍的情況進行拍攝或者錄音等，或將多種信息向用戶輸出的可穿戴設備不斷普及。例如，可穿戴設備被利用于生活日志的領域、運動輔助的領域等多種領域。
[0003]可穿戴設備所取得的信息會較大地受到佩戴部位、用戶狀態(tài)、周圍環(huán)境的影響。例如，對于聲音，從用戶的嘴部發(fā)出的聲音(以下，也稱為“用戶聲音”)有時會淹沒于可穿戴設備與衣服的摩擦聲、振動的聲音、周圍環(huán)境聲等雜音。因此，尋求用于更鮮明地取得用戶聲音的技術。
[0004]例如，在下述專利文獻I中，公開了取得如下聲音信號的技術，該聲音信號是通過在頭帶式耳機(headset)中設置兩個麥克風，對從各麥克風輸入的聲音信號進行麥克風陳列處理來抑制雜音而增強了用戶聲音的信號。
[0005]專利文獻I:日本特開2005-303574號公報
[0006]但是，在本技術領域中，希望性能進一步提高。
【實用新型內(nèi)容】
[0007]因此，在本公開內(nèi)容中，提出了一種能夠更鮮明地取得用戶聲音的新改進的聲音處理系統(tǒng)。
[0008]根據(jù)本公開內(nèi)容，提供了一種聲音處理系統(tǒng)，具備佩戴于用戶的佩戴部，所述佩戴部具有至少三個聲音取得部，所述聲音取得部取得用于波束成形的聲音數(shù)據(jù)，在所述佩戴部佩戴于所述用戶的狀態(tài)下，四個聲音取得部所包含的第I聲音取得部與所述用戶的嘴部之間的距離、與所述四個聲音取得部所包含的第2聲音取得部與所述用戶的嘴部之間的距離被設置為不同的距離。
[0009]在所述聲音處理系統(tǒng)中，優(yōu)選所述佩戴部具有至少四個所述聲音取得部，將設置有四個所述聲音取得部的位置彼此連結而形成的形狀是立體的。
[0010]在所述聲音處理系統(tǒng)中，優(yōu)選在所述佩戴部佩戴于所述用戶的狀態(tài)下，所述四個聲音取得部所包含的第I聲音取得部與所述用戶的嘴部之間的距離、與所述四個聲音取得部所包含的第2聲音取得部與所述用戶的嘴部之間的距離被設置為不同的距離。
[0011]在所述聲音處理系統(tǒng)中，優(yōu)選在所述佩戴部佩戴于所述用戶的狀態(tài)下，所述第I聲音取得部設置于相比其他所述聲音取得部最靠近所述用戶的嘴部的位置，所述第2聲音取得部設置于所述用戶在直立姿勢下相比所述第I聲音取得部靠所述用戶的腳側的位置。
[0012]在所述聲音處理系統(tǒng)中，優(yōu)選所述第I聲音取得部以及所述第2聲音取得部設置于所述用戶在直立姿勢下相比所述用戶的嘴部靠腳側的位置。
[0013]在所述聲音處理系統(tǒng)中，優(yōu)選所述聲音取得部是在全方位具有靈敏度的麥克風。
[0014]在所述聲音處理系統(tǒng)中，優(yōu)選所述聲音取得部是靈敏度在全方位一樣或者大致一樣的麥克風。
[0015]在所述聲音處理系統(tǒng)中，優(yōu)選所述聲音處理系統(tǒng)還具備控制部，所述控制部使用由所述聲音取得部取得的多個聲音數(shù)據(jù)來進行波束成形處理，所述波束成形處理形成用于取得來自所述用戶的嘴部的方向的聲音的指向性。
[0016]在所述聲音處理系統(tǒng)中，優(yōu)選所述波束成形處理是按聲音到來的各個區(qū)域分別使增強程度發(fā)生變化的處理。
[0017]在所述聲音處理系統(tǒng)中，優(yōu)選所述波束成形處理包括抑制從特定區(qū)域到來的聲音的處理。
[0018]在所述聲音處理系統(tǒng)中，優(yōu)選所述控制部基于所述用戶以外的說話人的位置來控制所述波束成形處理。
[0019]在所述聲音處理系統(tǒng)中，優(yōu)選所述控制部基于表示所述用戶的狀態(tài)的信息來控制所述波束成形處理。
[0020]在所述聲音處理系統(tǒng)中，優(yōu)選所述控制部進行與聲音識別的結果對應的處理，所述聲音識別的結果是基于進行了所述波束成形處理的聲音數(shù)據(jù)而執(zhí)行得到的。
[0021]在所述聲音處理系統(tǒng)中，優(yōu)選所述控制部基于所述聲音識別的結果來控制所述聲音處理系統(tǒng)的動作。
[0022]在所述聲音處理系統(tǒng)中，優(yōu)選所述控制部基于所述聲音識別的結果來控制所述指向性。
[0023]在所述聲音處理系統(tǒng)中，優(yōu)選所述佩戴部具有所述控制部。
[0024]在所述聲音處理系統(tǒng)中，優(yōu)選所述佩戴部以繞所述用戶的頸部的方式佩戴。
[0025]如以上說明那樣，根據(jù)本公開內(nèi)容，能夠更鮮明地取得用戶聲音。
[0026]應予說明，上述效果不被限定，也可以與上述效果一起、或者代替上述效果，發(fā)揮本說明書所示的任意效果、或者能夠從本說明書中把握的其他效果。
【附圖說明】
[0027]圖1是表不本實施方式的聲音處理系統(tǒng)的外觀結構的一個例子的圖。
[0028]圖2是表不本實施方式的聲音處理系統(tǒng)的外觀結構的一個例子的圖。
[0029]圖3是表不本實施方式的聲音處理系統(tǒng)的外觀結構的一個例子的圖。
[°03°]圖4是表不本實施方式的聲音處理系統(tǒng)的外觀結構的其他一個例子的圖。
[0031 ]圖5是表不本實施方式的聲音處理系統(tǒng)的外觀結構的其他一個例子的圖。
[0032]圖6A和圖6B是表示比較例的聲音處理系統(tǒng)的外觀結構的例子的圖。
[0033]圖7A和圖7B是用于對本實施方式的聲音取得部的配置方針進行說明的圖。
[0034]圖8是用于對本實施方式的聲音取得部的配置方針進行說明的圖。
[0035]圖9A和圖9B是用于對本實施方式的聲音取得部的配置方針進行說明的圖。
[0036]圖10是用于對本實施方式的聲音取得部的配置方針進行說明的圖。
[0037]圖11是表不本實施方式的聲音處理系統(tǒng)的內(nèi)部結構的一個例子的框圖。
[0038]圖12是表不本實施方式的聲音處理系統(tǒng)中執(zhí)行的聲音信號處理的流程的一個例子的流程圖。
[0039]附圖標記說明:
[0040]I…聲音處理系統(tǒng)；110…聲音取得部；120…拍攝部；130…操作部；140…傳感器部；150…通信部；160…控制部。
【具體實施方式】
[0041]以下，一邊參照附圖，一邊對本公開內(nèi)容的優(yōu)選實施方式詳細地進行說明。應予說明，在本說明書以及附圖中，通過對于實際上具有相同的功能結構的構成要素標注相同的附圖標記而省略重復說明。
[0042]另外，在本說明書以及附圖中，對于實際上具有相同功能結構的要素，有時還在標注了相同的附圖標記后標注不同的字母來進行區(qū)別。例如，對于實際上具有相同的功能結構的多個要素，根據(jù)需要以聲音取得部110A、110B以及IlOC的方式進行區(qū)別。其中，在無需對于實際上具有相同的功能結構的多個要素分別特別進行區(qū)別的情況下，僅標注相同附圖標記。例如，在無需對于聲音取得部110A、110B以及IlOC特別進行區(qū)別的情況下，簡稱為聲音取得部110。
[0043]應予說明，說明按以下的順序來進行。
[0044]1.外觀結構
[0045]2.聲音取得部的配置
[0046]2-1.配置方針
[0047]2-2.實際的配置例
[0048]3.內(nèi)部結構
[0049]4.動作處理
[0050]5.總結
[0051]<1.外觀結構>
[0052]首先，參照圖1?圖6B，對本公開內(nèi)容的一個實施方式的聲音處理系統(tǒng)的外觀結構進行說明。
[0053]圖1?圖3是表不本實施方式的聲音處理系統(tǒng)的外觀結構的一個例子的圖。如圖1?圖3所示，本實施方式的聲音處理系統(tǒng)I具有從頸部兩側至后側(后背側)環(huán)繞半周之類的形狀的佩戴單元(佩戴部)。而且，佩戴單元通過懸掛于用戶頸部而佩戴于用戶。應予說明，圖1?圖3表示從各個視角觀察用戶佩戴了佩戴單元的狀態(tài)的圖，具體而言，圖1是立體圖，圖2是從用戶右側觀察的側視圖，圖3是從用戶上側觀察的俯視圖。
[0054]應予說明，在本說明書中，雖使用上下左右前后這樣表示方向的術語，但這些方向表示后述的圖8所示的用戶的直立姿勢下從用戶身體的中心(例如胸口的位置)觀察的方向。例如，“右”表示用戶的右半身側的方向，“左”表示用戶的左半身側的方向，“上”表示用戶頭側的方向，“下”表示用戶腳側的方向。另外，“前”表示用戶身體所面向的方向，“后”表示用戶后背側的方向。
[0055]如圖1?圖3所示，本實施方式的佩戴單元可以為繞用戶頸部佩戴的頸部懸掛型。佩戴單元可以與用戶頸部緊貼地佩戴，也可以分離地佩戴。作為頸部懸掛型的佩戴單元的其他形狀，例如可以考慮利用頸下束帶佩戴于用戶的垂飾型、代替懸掛于頭的頭帶而具有通過頸部后側的頸帶的頭帶式耳機型。
[0056]佩戴型單元的使用方式可以為直接佩戴于人體地使用的方式。直接佩戴地使用的方式是指以在佩戴型單元與人體之間不存在任何物體的狀態(tài)進行使用的方式。例如，圖1?圖3所示的佩戴單元以與用戶的頸部的肌膚接觸的方式進行佩戴的情況屬于本方式。除此之外，可以考慮直接佩戴于頭部的頭帶式耳機型、眼鏡型等多種方式。
[0057]佩戴型單元的使用方式也可以為間接佩戴于人體地進行使用的方式。間接佩戴地進行使用的方式是指以在佩戴型單元與人體之間存在某種物體的狀態(tài)進行使用的方式。例如，圖1?圖3所示的佩戴單元以隱藏于襯衫的衣領下方的方式進行佩戴等以從衣服上方與用戶接觸的方式進行佩戴的情況屬于本方式。除此之外，可以考慮利用頸下束帶佩戴于用戶的垂飾型、利用扣件等扣住衣服的飾針型等多種方式。
[0058]如圖1?圖3所示，佩戴單元具有多個聲音取得部110(11(^、11(?、110(:以及1100)。聲音取得部110取得用戶聲音、用戶的談話對象發(fā)出的聲音、或者周圍環(huán)境聲等聲音數(shù)據(jù)。由聲音取得部110取得的聲音數(shù)據(jù)成為使用戶聲音鮮明、使用戶的談話對象發(fā)出的聲音鮮明、抑制其他雜音的波束成形處理的對象。如圖1?圖3所示，在聲音取得部以不與用戶直接接觸的方式設置于未面向用戶側的部分(例如，與接觸于用戶的面相反的一側的面)的情況下，能夠降低由于頸部與佩戴單元之間的摩擦而產(chǎn)生雜音的影響。應予說明，在圖1?圖3中示出了在佩戴單元設置有四個聲音取得部110的結構，但本技術并不限定于上述例子。例如，佩戴單元可以具有至少三個聲音取得部，也可以具有五個以上聲音取得部。
[0059]本實施方式的聲音處理系統(tǒng)I可以作為佩戴單元單體而實現(xiàn)，也可以作為多個裝置的組合而實現(xiàn)。例如，聲音處理系統(tǒng)I可以作為圖1?圖3所示的頸部懸掛型的佩戴單元以及佩戴于手腕的腕帶型的佩戴單元的組合而實現(xiàn)。而且，聲音處理系統(tǒng)I也可以使用由設置于多個裝置的多個聲音取得部取得的聲音數(shù)據(jù)來進行波束成形處理。應予說明，以下，對聲音處理系統(tǒng)I為作為圖1?圖3所示的佩戴單元單體而實現(xiàn)的情況進行說明。
[0060]佩戴單元的其他例子如圖4以及圖5所示。圖4以及圖5是表示本實施方式的聲音處理系統(tǒng)的外觀結構的其他一個例子的圖。圖4表示由眼鏡型的佩戴單元單體構成的聲音處理系統(tǒng)I的外觀結構。圖5表示由頸帶型的佩戴單元單體構成的聲音處理系統(tǒng)I的外觀結構。在圖4以及圖5所不的例子中，與圖1?圖3所不的例子同樣，聲音處理系統(tǒng)I也具有多個聲音取得部 110(110A、110B、110CW&110D)。
[0061 ] 此處，參照圖6A和圖6B對比較例進行說明。圖6A和圖6B是表示比較例的聲音處理系統(tǒng)的外觀結構的例子的圖。圖6A以及圖6B表示所謂的藍牙(注冊商標)頭帶式耳機的外觀結構例。在圖6A所示的例子中，比較例的聲音處理系統(tǒng)具有兩個聲音取得部910(910A以及910B)，并通過懸掛于用戶右耳而佩戴于用戶。在圖6B所示的例子中，比較例的聲音處理系統(tǒng)具有左右對稱地設置于與左右耳機連結的線纜的兩個聲音取得部910(910C以及910D)。這樣，在圖6A以及圖6B所示的例子中，均具有兩個聲音取得部。
[0062]此處，在可穿戴設備中，存在使用時麥克風與用戶的嘴部的距離較遠的情況，有時用戶聲音淹沒于雜音。即便進行使用了由比較例那樣的兩個聲音取得部取得的聲音數(shù)據(jù)的波束成形處理，也難以解決這種問題。
[0063]因此，在本實施方式中，提出在通過波束成形處理進行雜音抑制的情況下提高雜音抑制性能的聲音取得部110的配置。
[0064]<2.聲音取得部的配置>
[0065][2-1.配置方針]
[0066]首先，參照圖7A?圖10對聲音取得部110的配置方針進行說明。
[0067]圖7A和圖7B是用于對本實施方式的聲音取得部110的配置方針進行說明的圖。如圖7A所示，將相對于目標聲音到來的方向210直線地配置聲音取得部110作為第I配置方針。另外，如圖7A所示，將相對于欲抑制的雜音到來的方向220直線地配置聲音取得部110作為第2配置方針。在本實施方式中，能夠相對于作為目標聲音的用戶聲音到來的方向亦即用戶的嘴部的方向210，直線地配置聲音取得部IlOA以及110B。根據(jù)第I第2配置方針以及第2配置方針，能夠高效地抑制從相反方向220到來的雜音成分。其原因在于:從用戶的嘴部的方向210到來的用戶聲音到達聲音取得部IlOA以及IlOB為止的相位差(時間差)較大，并且從相反方向220到來的聲音到達聲音取得部IlOB以及IlOA為止的相位差也較大。如圖7B所示的極性圖案所示，通過基于后述的控制部160進行的波束成形處理，來增強從用戶的嘴部的方向210到來的用戶聲音，并且抑制從相反方向220A、220B以及220C到來的雜音成分。
[0068]接下來，參照圖8，對與欲抑制的雜音到來的方向有關的聲音取得部110的配置方針詳細地進行說明。
[0069]圖8是用于對本實施方式的聲音取得部110的配置方針進行說明的圖。如圖8所示，在本實施方式中，將相對于下方向直線地配置聲音取得部IlOA以及IlOB作為第3配置方針。若假定在屋外使用聲音處理系統(tǒng)1，則在屋外產(chǎn)生的雜音多如圖8所示地以用戶的嘴部為基準從地面的方向(下方向)或者水平方向到來。應予說明，從地面的方向到來的雜音也稱為地面噪聲。根據(jù)本配置方針，由于相對于地面噪聲到來的下方向直線地配置有聲音取得部110，所以能夠通過波束成形處理高效地抑制地面噪聲。另外，根據(jù)本配置方針，從下方向與水平方向的中間傾斜方向到來的雜音也存在到達聲音取得部IlOB以及IlOA為止的相位差，因此能夠通過波束成形處理抑制雜音。這樣，根據(jù)本配置方針，能夠高效地抑制屋外環(huán)境中的雜音。應予說明，對于直升機的螺旋槳聲音、來自設置于頭上的液晶顯示器的聲音等，也會存在難以進行抑制的情況。當然，根據(jù)佩戴單元的形狀，聲音取得部IlOA以及IlOB也可以不嚴格地向下方向(豎直方向)直線地進行配置，也可以傾斜地進行配置。
[0070]接下來，參照圖9A、圖9B以及圖10，對設置有四個以上聲音取得部110的情況下的配置方針詳細地進行說明。
[0071]圖9A和圖9B是用于對本實施方式的聲音取得部110的配置方針進行說明的圖。如圖9A所示，在本實施方式中，將立體地配置多個聲音取得部110作為第4配置方針。詳細而言，將設置有四個聲音取得部110的位置彼此連結而形成的形狀為立體。應予說明，立體也可以把握為在包含任意三個聲音取得部110的位置在內(nèi)的平面上不存在剩余一個聲音取得部110。在這樣立體地進行配置的情況下，無論是從哪一方向到來的聲音，由任意兩個以上的聲音取得部110取得的聲音數(shù)據(jù)均會產(chǎn)生相位差，因此能夠抑制從全部方向到來的雜音。另外，如圖9B所示，將設置有四個聲音取得部110的位置彼此連結而形成的形狀為正四面體。將設置有多個聲音取得部110的位置彼此連結而形成的形狀優(yōu)選為從各聲音取得部110至用戶的嘴部的距離形等間隔的正四面體之類的正多面體。當然，如圖9B所示，根據(jù)佩戴單元的形狀，將設置有四個聲音取得部110的位置連結而形成的形狀也可以是不為正四面體的四面體。
[0072]圖10是用于對本實施方式的聲音取得部110的配置方針進行說明的圖。如圖10所示，在本實施方式中，將使至少其中一個聲音取得部110靠近用戶的嘴部作為第5配置方針。根據(jù)本配置方針，至少一個聲音取得部110能夠以比其他雜音大的音量取得用戶聲音。由此，能夠進一步增大基于波束成形處理的對用戶聲音的增強效果。例如圖10所示，可以在比形成四面體的四個聲音取得部110靠近用戶的嘴部的位置設置有第五個聲音取得部110E。除此之外，也可以例如圖9B所示，將位于四面體頂點的聲音取得部110中的其中一個(在圖9B所示的例子中為聲音取得部110A)設置于相比其他聲音取得部靠近用戶的嘴部的位置。
[0073]以上，對聲音取得部110的配置方針進行了說明。
[0074][2-2.實際的配置例]
[0075]接著，再次一邊參照圖1?圖3，一邊對遵照了上述配置方針的聲音取得部110的實際的配置例進行說明。應予說明，由于佩戴單元的形狀、各部件的重量等制約條件，聲音取得部110的實際的配置也可以不必完全遵照上述配置方針。
[0076]首先，對第I配置方針進行說明。如圖2所示，在佩戴單元佩戴于用戶的狀態(tài)下，聲音取得部IlOA以及聲音取得部IlOB在從用戶的嘴部觀察時配置于相同方向。另外，在佩戴單元佩戴于用戶的狀態(tài)下，將四個聲音取得部110所包含的聲音取得部IlOA(第I聲音取得部)與用戶的嘴部的距離、與四個聲音取得部110所包含的聲音取得部IlOB(第2聲音取得部)與用戶的嘴部的距離設置為不同。這樣，在圖1?圖3所示的例子中，由于相對于目標聲音到來的用戶的嘴部的方向直線地配置有聲音取得部IlOA以及110B，所以能夠通過波束成形處理高效地增強用戶聲音。
[0077]接下來，對第2配置方針以及第3配置方針進行說明。如圖2所示，在佩戴單元佩戴于用戶的狀態(tài)下，聲音取得部IlOA以及聲音取得部IlOB在從用戶的嘴部觀察時配置于相同方向。另外，在佩戴單元佩戴于用戶的狀態(tài)下，聲音取得部IlOA(第I聲音取得部)以及聲音取得部IlOB(第2聲音取得部)設置于用戶直立姿勢下相比用戶的嘴部靠腳側的位置。這樣，在圖1?圖3所示的例子中，由于相對于欲抑制的雜音所到來的地面方向直線地配置有聲音取得部11OA以及11OB，所以能夠通過波束成形處理高效地抑制雜音。
[0078]接下來，對第4配置方針進行說明。如圖1?圖3所示，將設置有聲音取得部110A、110B、110C、以及IlOD的位置彼此連結而形成的形狀為立體。這樣，在圖1?圖3所示的例子中，由于將多個聲音取得部110立體地配置，所以能夠通過波束成形處理抑制從全部方向到來的雜音。
[0079]接下來，對第5配置方針進行說明。如圖1?圖3所示，在佩戴單元佩戴于用戶的狀態(tài)下，聲音取得部IlOA(第I聲音取得部)設置于比其他聲音取得部最靠近用戶的嘴部的位置。這樣，在圖1?圖3所示的例子中，由于聲音取得部IlOA設置于靠近用戶嘴部的位置，所以能夠以比其他雜音大的音量取得用戶聲音。另外，對于第2以及第3配置條件而言，在佩戴單元佩戴于用戶的狀態(tài)下，聲音取得部IlOB(第2聲音取得部)設置于用戶直立姿勢下相比設置于最靠近用戶的嘴部位置的聲音取得部IlOA(第I聲音取得部)靠用戶腳側的位置。由此，在圖1?圖3所示的例子中，能夠兼顧用戶聲音的增強效果與雜音的抑制效果。應予說明，在圖1?圖3所示的例子中，聲音取得部IlOA也設置于相比用戶嘴部靠下側的位置，但聲音取得部IlOA也可以設置于相比嘴部更靠上側的位置。
[0080]以上，對本實施方式的聲音處理系統(tǒng)I中的聲音取得部110的配置進行了說明。接著，參照圖11對本實施方式的聲音處理系統(tǒng)I的內(nèi)部結構進行說明。
[0081]<3.內(nèi)部結構>
[0082]圖11是表不本實施方式的聲音處理系統(tǒng)I的內(nèi)部結構的一個例子的框圖。如圖11所示，聲音處理系統(tǒng)I具有聲音取得部IlOA?110D、拍攝部120、操作部130、傳感器部140、通信部150、以及控制部160。
[0083](I)聲音取得部110
[0084]聲音取得部110具有取得用于波束成形的聲音數(shù)據(jù)的功能。例如，聲音取得部110取得佩戴有聲音處理系統(tǒng)1(佩戴單元)的用戶所產(chǎn)生的用戶聲音、或者周圍的聲音。例如，聲音取得部110由麥克風實現(xiàn)。聲音取得部110可以設置于一個佩戴單元，可以設置于與佩戴單元不同的裝置，也可以分散地設置于多個裝置。例如，除了圖1?圖3所示的頸部懸掛型的佩戴單元之外，也可以在腕帶型的佩戴單元、眼鏡型的佩戴單元、以及智能手機設置聲音取得部110。
[0085]聲音取得部110也可以不為有指向性的麥克風。例如，聲音取得部110也可以為在全方位具有靈敏度的麥克風。在全方位具有靈敏度是指極性圖案中不存在不靈敏的區(qū)域(方位)。這種麥克風也可以稱為半指向性的麥克風。并且，聲音取得部110也可以為靈敏度在全方位一樣或者大致一樣的麥克風。靈敏度在全方位一樣或者大致一樣是指極性圖案中靈敏度可以為圓形，但未必一定為完全圓形。換句話說，聲音取得部110也可以為無指向性的麥克風。
[0086]聲音取得部110也可以具有對由麥克風獲得的聲音信號進行放大處理的麥克風放大電路、A/D轉換器。聲音取得部110將所取得的聲音數(shù)據(jù)向控制部160輸出。
[0087](2)拍攝部 120
[0088]拍攝部120具有:由拍攝透鏡、光闌、變焦透鏡、以及聚焦透鏡等構成的透鏡系統(tǒng)；相對于透鏡系統(tǒng)進行聚焦動作、變焦動作的驅動系統(tǒng)；以及對由透鏡系統(tǒng)獲得的拍攝光進行光電轉換而生成拍攝信號的固態(tài)拍攝元件陳列等。固態(tài)拍攝元件陳列例如可以由電耦合元件(CCD:Charge Coupled De vi ce )傳感器陳列、互補金屬氧化物半導體(CMOS:Complementary Metal Oxide Semiconductor)傳感器陳列實現(xiàn)。例如，拍攝部120可以被設置為在聲音處理系統(tǒng)1(佩戴單元)佩戴于用戶的狀態(tài)下能夠拍攝用戶的前方。在該情況下，拍攝部120例如能夠拍攝用戶的談話對象。另外，拍攝部120也可以被設置為在聲音處理系統(tǒng)I佩戴于用戶的狀態(tài)下拍攝用戶的面孔。在該情況下，聲音處理系統(tǒng)I能夠根據(jù)拍攝圖像來確定用戶嘴部的位置。拍攝部120將作為數(shù)字信號的拍攝圖像的數(shù)據(jù)向控制部160輸出。
[0089](3)操作部 I3O
[0090]操作部130被用戶操作，具有接受來自用戶的輸入的功能。例如，操作部130可以作為照相機按鈕而實現(xiàn)，接受指不拍攝部120拍攝靜止圖像的輸入、指不拍攝部120開始或者停止拍攝動態(tài)圖像的輸入。另外，操作部130也可以作為聲音輸入按鈕而實現(xiàn)，接受指示聲音取得部110開始或者停止聲音輸入的輸入。另外，操作部130也可以作為觸摸滑塊而實現(xiàn)，接受觸摸操作、滑動操作。另外，操作部130也可以作為電源按鈕而實現(xiàn)，接受指示聲音處理系統(tǒng)I開啟或者關閉電源的操作。操作部130將表示用戶輸入的信息向控制部160輸出。
[0091](4)傳感器部140
[0092]傳感器部140具有對佩戴有聲音處理系統(tǒng)I的用戶的狀態(tài)或者周圍的狀態(tài)進行感測的功能。例如，傳感器部140可以具有加速度傳感器、速度傳感器、陀螺儀傳感器、地磁傳感器、全球定位系統(tǒng)(GPS:Global Posit1ning System)模塊或者振動傳感器中的至少一個。傳感器部140可以設置于與佩戴單元不同的裝置，也可以分散地設置于多個裝置。例如，也可以在腕帶型的裝置設置脈搏傳感器，在智能手機設置振動傳感器。傳感器部140將表示感測結果的信息向控制部160輸出。
[0093](5)通信部 ΙδΟ
[0094]通信部150是用于通過有線/無線在聲音處理系統(tǒng)I與其他裝置之間進行數(shù)據(jù)收發(fā)的通信模塊。通信部150例如通過有線局域網(wǎng)(LAN:Local Area Network)、無線局域網(wǎng)、無線網(wǎng)(W1-Fi =Wireless Fidelity、注冊商標)、紅外線通信、藍牙、近距離無線通訊技術(NFC:Near field communicat1n)等方式與外部設備直接或者經(jīng)由網(wǎng)絡接入點進行無線通信。
[0095]例如，在智能手機或者云服務器等其他裝置包含后述的作為控制部160的功能的情況下，通信部150可以發(fā)送利用聲音取得部110、拍攝部120、操作部130、傳感器部140取得的數(shù)據(jù)。在該情況下，利用其他裝置進行波束成形處理、聲音識別處理等。除此之外，例如在聲音取得部110、拍攝部120、操作部130或者傳感器部140設置于其他位置的裝置的情況下，通信部150也可以接收由上述各部取得的數(shù)據(jù)并將其向控制部160輸出。另外，通信部150也可以將基于控制部160進行的波束成形處理后的聲音數(shù)據(jù)向用于存儲該聲音數(shù)據(jù)的存儲裝置發(fā)送。
[0096](6)控制部比0
[0097]控制部160作為運算處理裝置以及控制裝置發(fā)揮功能，并根據(jù)各種程序控制聲音處理系統(tǒng)I內(nèi)的全部動作?？刂撇?60例如由中央處理器(CPU: Central Processing Unit)、微處理器等電子電路實現(xiàn)。應予說明，控制部160也可以包括存儲所使用的程序、運算參數(shù)等的只讀存儲器(ROM:Read Only Memory)、以及臨時存儲適當變化的參數(shù)等的RAM(RandomAccess Memory)ο
[0098]例如，控制部160使用由聲音取得部110取得的多個聲音數(shù)據(jù)，來進行形成用于取得來自用戶嘴部的方向的聲音的指向性的波束成形處理。波束成形處理是按照聲音到來的各個區(qū)域分別使增強的程度變化的處理。具體而言，控制部160所進行的波束成形處理可以包括抑制從特定的區(qū)域到來的聲音的處理，也可以包括增強來自所希望的方位的聲音的處理。例如，控制部160也可以將來自用戶嘴部的方向以外的方向的聲音作為雜音進行抑制。另外，控制部160也可以增強來自用戶嘴部的方向的聲音。如上所述，聲音取得部110本身也可以具有指向性?？刂撇?60通過進行以由各聲音取得部110取得的聲音數(shù)據(jù)為對象的波束成形處理，來控制指向性?？刂撇?60能夠使用由各聲音取得部110取得的聲音數(shù)據(jù)間的相位差，來進行波束成形處理。
[0099]控制部160能夠以多種視角控制波束成形處理。例如，控制部160能夠以作為一個例子在以下進行說明的視角，來控制形成指向性的方向以及/或者范圍。
[0100]例如，控制部160也可以基于雜音產(chǎn)生源與聲音取得部110的位置關系來控制波束成形處理。例如上述那樣，由于地面噪聲的產(chǎn)生源為地面，所以控制部160也可以以抑制來自地面方向的聲音的方式，控制波束成形處理。另外，例如在能夠根據(jù)位置信息辨別出在特定方向存在交通量多的道路、線路等的情況下，控制部160也可以以抑制來自該方向的聲音的方式，控制波束成形處理。除此之外，例如在存在指定雜音產(chǎn)生源的位置的用戶指示的情況下，控制部160也可以以抑制來自用戶指示所表示的位置的聲音的方式，控制波束成形處理。
[0101]例如，控制部160也可以基于用戶以外的說話人的位置來控制波束成形處理。例如，控制部160也可以進行增強來自用戶以外的其他說話人的聲音的波束成形處理。另外，控制部160也可以進行抑制來自用戶以外的其他說話人的聲音的波束成形處理。可以考慮多種確定用戶以外的其他說話人的存在或者位置(方向)的方法。例如，控制部160也可以形成為若在從用戶以外的方向取得了說話聲的情況下判定為存在其他說話人則對方向進行確定。另外，控制部160也可以在通過聲音識別而識別出取得了其他說話人的說話聲的情況下判定為存在其他說話人。另外，控制部160也可以根據(jù)由拍攝部120拍攝出的拍攝圖像的圖像識別結果來確定其他說話人的存在以及位置。另外，控制部160也可以通過對由傳感器部140所具有的全球定位系統(tǒng)模塊取得的用戶的位置信息、與其他說話人的位置信息進行比較，來確定其他說話人的存在以及位置。另外，控制部160也可以通過對從其他說話人所持的裝置發(fā)出的電波的電波強度(例如，無線網(wǎng)的電波強度)進行測定，來確定其他說話人的存在以及位置。
[0102]例如，控制部160也可以基于表示用戶狀態(tài)的信息來控制波束成形處理。用戶狀態(tài)例如可以指用戶跑、走、或者乘坐交通工具等運動狀態(tài)。例如，控制部160能夠根據(jù)由傳感器部140取得的感測結果來推斷用戶的運動狀態(tài)?？刂撇?60也可以通過組合多個感測結果來推斷詳細的運動狀態(tài)。例如，控制部160也可以通過組合基于振動傳感器以及速度傳感器的感測結果而將振動等級以及速度比步行時大的情況推斷為乘坐汽車。除此之外，控制部160也可以將與乘坐汽車的情況相比振動等級小且速度大的情況判斷為乘坐汽車。而且，控制部160也可以根據(jù)所推斷的用戶的運動狀態(tài)，來放大或者縮小所形成的指向性的范圍。例如，控制部160也可以在運動狀態(tài)所表示的運動的強度(例如，從各傳感器輸出的數(shù)值)相對較大的情況下相比較小的情況，放大指向性的范圍。應予說明，放大或者縮小指向性的范圍這也可以把握為針對到來的聲音放大或者縮小表示規(guī)定值以上的靈敏度的區(qū)域范圍。除此之外，用戶的狀態(tài)也可以指用戶面孔的朝向、姿勢等用戶姿勢。例如，控制部160也可以根據(jù)由拍攝部120拍攝出的拍攝圖像的圖像識別結果等來推斷用戶面孔的朝向，并根據(jù)朝向控制指向性的朝向。在該情況下，在面孔的朝向改變，從而用戶嘴部與聲音取得部110的位置關系發(fā)生變化的情況下，控制部160能夠以鮮明地取得從用戶嘴部產(chǎn)生的聲音的方式控制指向性。
[0103]另外，控制部160也可以進行與基于進行了波束成形處理的聲音數(shù)據(jù)而執(zhí)行的聲音識別的結果對應的處理。聲音識別處理可以利用控制部160執(zhí)行，也可以利用云服務器等其他裝置執(zhí)行。例如，控制部160也可以基于聲音識別的結果來控制聲音處理系統(tǒng)I的動作。具體而言，控制部160也可以基于聲音識別的結果來控制波束成形處理的指向性。由此，用戶例如能夠以使指向性朝向欲記錄的聲音的方向的方式利用聲音進行指示。除此之外，控制部160也可以基于聲音識別的結果使照相機的拍攝開始或者停止、記錄特定的感測結果。由此，用戶例如能夠以記錄欲記錄的風景、運動狀態(tài)的方式利用聲音進行指示。
[0104]應予說明，控制部160例如能夠作為移動處理器而實現(xiàn)。如上所述，佩戴單元可以具有控制部160，智能手機或者云服務器等其他任意裝置也可以具有控制部160。
[0105](7)其他
[0106]除此之外，聲音處理系統(tǒng)I可以具有多種構成要素。例如，聲音處理系統(tǒng)I也可以具有電池。如圖1?圖3所示，由于佩戴單元可以具有彎曲的形狀，所以電池優(yōu)選為曲面狀的曲面電池。另外，聲音處理系統(tǒng)I也可以具有能夠連接用于對電池充電的線纜的充電連接器。充電連接器也可以為兼具作為能夠連接通信線纜的通信連接器的功能的充電通信連接器。另外，聲音處理系統(tǒng)I也可以具有作為針對用戶的輸出裝置發(fā)揮功能的振蕩器。另外，聲音處理系統(tǒng)I也可以具有作為針對用戶的輸出裝置發(fā)揮功能的揚聲器。另外，聲音處理系統(tǒng)I也可以具有能夠連接作為針對用戶的輸出裝置發(fā)揮功能的耳機的耳機連接器。耳機連接器可以具有磁力，也可以能夠通過磁力對耳機連接器與耳機進行拆裝。另外，聲音處理系統(tǒng)I也可以具有用于對基于控制部160進行的波束成形處理后的聲音數(shù)據(jù)進行存儲的存儲部。
[0107]以上，對本實施方式的聲音處理系統(tǒng)I的內(nèi)部結構進行了說明。接著，參照圖12對本實施方式的聲音處理系統(tǒng)I的動作處理進行說明。
[0108]<4.動作處理>
[0?09]圖12是表不本實施方式的聲音處理系統(tǒng)I中執(zhí)行的聲音信號處理的流程的一個例子的流程圖。
[0110]如圖12所示，首先，在步驟S102中，聲音處理系統(tǒng)I取得聲音數(shù)據(jù)。例如，聲音取得部11OA、11OB、11OC以及11OD分別取得聲音數(shù)據(jù)并將其向控制部160輸出。
[0111]接下來，在步驟S104中，聲音處理系統(tǒng)I取得表示聲源與聲音取得部110的位置關系的信息。聲源可以為雜音產(chǎn)生源，可以為用戶聲音的產(chǎn)生源亦即用戶的嘴部，也可以為用戶以外的說話人?？刂撇?60取得表示上述聲源與聲音取得部110的位置關系、詳細而言從聲音取得部110觀察的方向的信息。作為這種信息，可舉出由聲音取得部110取得的聲音的聲音識別結果、由拍攝部120拍攝出的拍攝圖像的圖像識別結果、由操作部130取得的表示用戶輸入的信息、基于傳感器部140的感測結果、利用通信部150從其他裝置取得的信息等。
[0112]接下來，在步驟S106中，聲音處理系統(tǒng)I取得表示用戶狀態(tài)的信息。例如，控制部160取得表示用戶的運動狀態(tài)或者用戶的姿勢的信息。作為這種信息，可舉出由聲音取得部110取得的聲音的聲音識別結果、由拍攝部120拍攝出的拍攝圖像的圖像識別結果、由操作部130取得的表示用戶輸入的信息、基于傳感器部140的感測結果、利用通信部150從其他裝置取得的信息等。
[0113]而且，在步驟S108中，聲音處理系統(tǒng)I進行波束成形處理。例如，控制部160進行使用上述步驟S102中取得的多個聲音數(shù)據(jù)來形成用于取得來自用戶嘴部的方向的聲音的指向性的波束成形處理。此時，控制部160也可以基于雜音產(chǎn)生源與聲音取得部110的位置關系而以抑制雜音的方式控制波束成形處理。另外，控制部160也可以進行基于用戶以外的說話人的位置來增強或者抑制來自用戶以外的其他說話人的聲音的波束成形處理。另外，控制部160也可以根據(jù)用戶狀態(tài)來控制形成指向性的方向以及/或者范圍。
[0114]之后，在步驟SllO中，聲音處理系統(tǒng)I進行聲音識別處理。例如，控制部160基于進行了波束成形處理的聲音數(shù)據(jù)來執(zhí)行聲音識別處理。而且，控制部160也可以根據(jù)聲音識別結果來控制聲音處理系統(tǒng)I的動作。
[0115]以上，對聲音處理系統(tǒng)I中執(zhí)行的聲音信號處理的流程的一個例子進行了說明。
[0116]<5.總結 >
[0117]以上，參照圖1?圖12對本公開的一個實施方式詳細地進行了說明。如上述說明那樣，本實施方式的聲音處理系統(tǒng)I在佩戴單元具有至少三個聲音取得部。由此，聲音處理系統(tǒng)I能夠取得適于進行使用戶聲音更鮮明的波束成形處理的聲音數(shù)據(jù)。
[0118]以上，一邊參照附圖，一邊對本公開的優(yōu)選實施方式詳細地進行了說明，但本公開內(nèi)容的技術范圍并不限定于上述例子。了解到只要是具有本公開內(nèi)容的技術領域中的通常知識的人，顯而易見能夠在權利要求所記載的技術思想的范疇內(nèi)想到各種變更例或者修正例，這當然屬于本公開的技術范圍。
[0119]應予說明，本說明書中說明的基于各裝置進行的一系列處理可以使用軟件、硬件以及軟件與硬件的組合中的任一方式來實現(xiàn)。構成軟件的程序例如預先儲存于設置于各裝置的內(nèi)部或者外部的存儲介質(非暫時性介質:non-transitory media)。而且，各程序例如在計算機執(zhí)行時被讀入內(nèi)存，并利用中央處理器等處理器來執(zhí)行。
[0120]另外，在本說明書中使用流程圖以及序列圖進行了說明的處理可以不必以圖示的順序來執(zhí)行。幾個處理步驟可以并列地執(zhí)行。另外，可以采用追加的處理步驟，也可以省略一部分的處理步驟。
[0121]另外，本說明書所記載的效果只不過是說明或者例示而并不限定。換句話說，本公開內(nèi)容的技術可以與上述效果一起、或者代替上述效果發(fā)揮本領域技術人員從本說明書的記載中明確出的其他效果。
[0122]應予說明，如下結構也屬于本公開內(nèi)容的技術范圍。
[0123](I) 一種聲音處理系統(tǒng)，具備佩戴于用戶的佩戴部，上述佩戴部具有至少三個聲音取得部，上述聲音取得部取得用于波束成形的聲音數(shù)據(jù)。
[0124](2)根據(jù)上述(I)所記載的聲音處理系統(tǒng)，上述佩戴部具有至少四個上述聲音取得部，將設置有四個上述聲音取得部的位置彼此連結而形成的形狀是立體的。
[0125](3)根據(jù)上述(I)或(2)所記載的聲音處理系統(tǒng)，在上述佩戴部佩戴于上述用戶的狀態(tài)下，上述四個聲音取得部所包含的第I聲音取得部與上述用戶的嘴部的距離、與上述四個聲音取得部所包含的第2聲音取得部與上述用戶的嘴部的距離被設置為不同的距離。
[0126](4)根據(jù)上述(3)所記載的聲音處理系統(tǒng)，在上述佩戴部佩戴于上述用戶的狀態(tài)下，上述第I聲音取得部設置于相比其他上述聲音取得部最靠近上述用戶的嘴部的位置，上述第2聲音取得部設置于上述用戶在直立姿勢下相比上述第I聲音取得部靠上述用戶的腳側的位置。
[0127](5)根據(jù)上述(3)或(4)所記載的聲音處理系統(tǒng)，上述第I聲音取得部以及上述第2聲音取得部設置于上述用戶在直立姿勢下相比上述用戶的嘴部靠腳側的位置。
[0128](6)根據(jù)上述(2)?(5)中的任一項所記載的聲音處理系統(tǒng)，上述聲音取得部是在全方位具有靈敏度的麥克風。
[0129](7)根據(jù)上述(6)所記載的聲音處理系統(tǒng)，上述聲音取得部是靈敏度在全方位一樣或者大致一樣的麥克風。
[0130](8)根據(jù)上述(2)?(7)中任一項所記載的聲音處理系統(tǒng)，上述聲音處理系統(tǒng)還具備控制部，上述控制部使用由上述聲音取得部取得的多個聲音數(shù)據(jù)來進行波束成形處理，上述波束成形處理形成用于取得來自上述用戶的嘴部的方向的聲音的指向性。
[0131](9)根據(jù)上述(8)所記載的聲音處理系統(tǒng)，上述波束成形處理是按聲音到來的各個區(qū)域分別使增強程度發(fā)生變化的處理。
[0132](10)根據(jù)上述(9)所記載的聲音處理系統(tǒng)，上述波束成形處理包括抑制從特定區(qū)域到來的聲音的處理。
[0133](11)根據(jù)上述(8)?(10)中任一項所記載的聲音處理系統(tǒng)，上述控制部基于雜音產(chǎn)生源與上述聲音取得部之間的位置關系來控制上述波束成形處理。
[0134](12)根據(jù)上述(8)?(11)中任一項所記載的聲音處理系統(tǒng)，上述控制部基于上述用戶以外的說話人的位置來控制上述波束成形處理。
[0135](13)根據(jù)上述(8)?(12)中任一項所記載的聲音處理系統(tǒng)，上述控制部基于表示上述用戶的狀態(tài)的信息來控制上述波束成形處理。
[0136](14)根據(jù)上述(8)?(13)中任一項所記載的聲音處理系統(tǒng)，上述控制部進行與聲音識別的結果對應的處理，上述聲音識別的結果是基于進行了上述波束成形處理的聲音數(shù)據(jù)而執(zhí)行得到的。
[0137](15)根據(jù)上述(14)所記載的聲音處理系統(tǒng)，上述控制部基于上述聲音識別的結果來控制上述聲音處理系統(tǒng)的動作。
[0138](16)根據(jù)上述(15)所記載的聲音處理系統(tǒng)，上述控制部基于上述聲音識別的結果來控制上述指向性。
[0139](17)根據(jù)上述(8)?(16)中的任一項所記載的聲音處理系統(tǒng)，上述佩戴部具有上述控制部。
[0140](18)根據(jù)上述(2)?(17)中的任一項所記載的聲音處理系統(tǒng)，上述佩戴部以繞上述用戶的頸部佩戴。
【主權項】
1.一種聲音處理系統(tǒng)，其中，具備佩戴于用戶的佩戴部，所述佩戴部具有至少三個聲音取得部，所述聲音取得部取得用于波束成形的聲音數(shù)據(jù)，在所述佩戴部佩戴于所述用戶的狀態(tài)下，四個聲音取得部所包含的第I聲音取得部與所述用戶的嘴部之間的距離、與所述四個聲音取得部所包含的第2聲音取得部與所述用戶的嘴部之間的距離被設置為不同的距離。2.根據(jù)權利要求1所述的聲音處理系統(tǒng)，其中，所述佩戴部具有至少四個所述聲音取得部，將設置有四個所述聲音取得部的位置彼此連結而形成的形狀是立體的。3.根據(jù)權利要求1所述的聲音處理系統(tǒng)，其中，在所述佩戴部佩戴于所述用戶的狀態(tài)下，所述第I聲音取得部設置于相比其他所述聲音取得部最靠近所述用戶的嘴部的位置，所述第2聲音取得部設置于所述用戶在直立姿勢下相比所述第I聲音取得部靠所述用戶的腳側的位置。4.根據(jù)權利要求1所述的聲音處理系統(tǒng)，其中，所述第I聲音取得部以及所述第2聲音取得部設置于所述用戶在直立姿勢下相比所述用戶的嘴部靠腳側的位置。5.根據(jù)權利要求2所述的聲音處理系統(tǒng)，其中，所述聲音取得部是在全方位具有靈敏度的麥克風。6.根據(jù)權利要求5所述的聲音處理系統(tǒng)，其中，所述聲音取得部是靈敏度在全方位一樣的麥克風。7.根據(jù)權利要求2所述的聲音處理系統(tǒng)，其中，所述聲音處理系統(tǒng)還具備控制部，所述控制部使用由所述聲音取得部取得的多個聲音數(shù)據(jù)來進行波束成形處理，所述波束成形處理形成用于取得來自所述用戶的嘴部的方向的聲音的指向性。8.根據(jù)權利要求7所述的聲音處理系統(tǒng)，其中，所述佩戴部具有所述控制部。9.根據(jù)權利要求2所述的聲音處理系統(tǒng)，其中，所述佩戴部為繞所述用戶的頸部佩戴的頸部懸掛型。
【文檔編號】G10L21/02GK205508399SQ201520742860
【公開日】2016年8月24日
【申請日】2015年9月23日
【發(fā)明人】關矢俊之, 森秀人, 羽生田誠, 東崎優(yōu), 平野雄哉
【申請人】索尼公司

完整全部詳細技術資料下載