聲音識別服務器綜合裝置以及聲音識別服務器綜合方法
【專利摘要】提供以最佳形式對通用聲音識別服務器的聲音識別結(jié)果和專用聲音識別服務器的聲音識別結(jié)果進行綜合從而最終錯誤較少的聲音識別功能。使用包含在用戶辭典數(shù)擁中的語句來構(gòu)建專用的聲音識別服務器(108),并且使用這些數(shù)擁來事前評價通用的聲音識別服務器(106)的性能。以該評價結(jié)果為基礎,對從專用以及通用的聲音識別服務器得到的識別結(jié)果,將采用哪個、對它們進行怎樣的加權(quán)才能得到最佳的識別結(jié)果作為結(jié)果綜合用參數(shù)(118),以數(shù)據(jù)庫的形式保持。在識別執(zhí)行時,通過將專用以及通用的聲音識別服務器進行識別的識別結(jié)果與結(jié)果綜合用參數(shù)(118)進行比較,由此來獲得最佳的識別結(jié)果。
【專利說明】聲音識別服務器綜合裝置以及聲音識別服務器綜合方法
【技術(shù)領域】
[0001] 本發(fā)明涉及將用于用戶使用聲音來進行操作的終端裝置、和識別聲音數(shù)據(jù)并返回 其結(jié)果的多個聲音識別服務器相連,對由多個聲音識別服務器得到的識別結(jié)果進行綜合從 而將最佳的聲音識別結(jié)果提供給用戶用的裝置以及方法。
【背景技術(shù)】
[0002] 用于通過用戶的聲音來進行車載信息設備或便攜電話等的操作的聲音識別功能 被搭載在眾多的設備中。進而,近年來,通過數(shù)據(jù)通信技術(shù)的發(fā)展,將聲音數(shù)據(jù)發(fā)送到服務 器并利用服務器的豐富的計算資源來進行更高精度的聲音識別的方式不斷普及。此外,如 專利文獻1所示那樣,為了更有效地使用這樣的聲音識別服務器,還提出在個人用終端與 聲音識別服務器之間設置中繼服務器并在其中進行附加的處理的方式。
[0003] 在先技術(shù)文獻
[0004] 專利文獻
[0005] 專利文獻1 :JP特開2008-242067號公報
[0006] 專利文獻2 :JP特開2002-116796號公報
[0007] 專利文獻3 :JP特開2010-224301號公報
【發(fā)明內(nèi)容】
[0008] 發(fā)明要解決的課題
[0009] 將聲音識別服務器作為通用的服務來運營的例子增加,提供面向用戶所操縱的終 端的服務的主體、和運營聲音識別服務器的主體不同的情況也變多。此外,在運營主體相同 的情況下,也有分開進行聲音識別服務器的開發(fā)和聲音識別應用的開發(fā),它們相互未被最 優(yōu)化的情況。在這樣的狀況下,有時通用的聲音識別服務器總體表現(xiàn)出高的性能,但對特定 的語句卻未必表現(xiàn)出充分的性能。
[0010] 另一方面,在著眼于使用特定的應用的特定的用戶的情況下,存在該用戶的熟人 的姓名或喜歡的音樂的樂曲名等雖然不普遍但重要度卻高的語句。為了識別這樣的語句, 期望設置專用的聲音識別服務器,但在專用聲音識別服務器的開發(fā)中不能投入足夠的成本 的情況較多,在針對一般的語句的性能中要遜于通用聲音識別服務器。如此,通用聲音識別 服務器和專用聲音識別服務器因語句不同在識別上有擅長和不擅長,聲音識別性能不同。 因此,雖然尋求根據(jù)用戶發(fā)出的語句來區(qū)分使用它們的方法,但只要所謂聲音識別是"針對 不知道內(nèi)容的發(fā)聲來估計內(nèi)容的"任務,則在原理上就不能實現(xiàn)事前獲知發(fā)聲內(nèi)容來區(qū)分 使用服務器。
[0011] 本發(fā)明目的在于,提供以最佳形式對通用聲音識別服務器的聲音識別結(jié)果和專用 聲音識別服務器的聲音識別結(jié)果進行綜合從而最終錯誤較少的聲音識別功能。
[0012] 用于解決課題的手段
[0013] 在本發(fā)明中,預先獲得包含在用戶所持有的終端裝置中的特定單詞的列表,以這 些單詞的數(shù)據(jù)為基礎來構(gòu)建專用的聲音識別服務器。此外,使用這些數(shù)據(jù)來事前評價通用 聲音識別服務器的性能。以該評價結(jié)果為基礎,以數(shù)據(jù)庫的形式保持在從專用以及通用的 聲音識別服務器得到的識別結(jié)果之中采用哪個、對它們進行怎樣的加權(quán)才能得到最佳的識 別結(jié)果。在用戶實際使用聲音識別功能時,在由專用以及通用的聲音識別服務器識別輸入 聲音后,將由此得到的結(jié)果與先前所述的數(shù)據(jù)庫的內(nèi)容進行比較,由此得到最佳的聲音識 別結(jié)果。此外,通過作為事前評價的基準,除了使用聲音識別的正確度以外還使用響應速 度,能盡可能早地得到盡可能正確的聲音識別結(jié)果。
[0014] 若舉出本發(fā)明的聲音識別服務器綜合裝置的一例,則有對用于用戶使用聲音來進 行操作的終端裝置、與識別聲音數(shù)據(jù)并返回其結(jié)果的聲音識別服務器之間進行中繼的裝 置,其具備:基于用戶所登記的語句或用戶經(jīng)常使用的語句的列表來學習并保存識別結(jié)果 綜合用參數(shù)的綜合方式學習部;從所述終端裝置接收用戶為了聲音識別而刻意發(fā)出的聲音 的數(shù)據(jù)的單元;將所述接收到的聲音數(shù)據(jù)發(fā)送給通用聲音識別服務器以及專用聲音識別服 務器的單元;接收所述通用聲音識別服務器以及專用聲音識別服務器對所述聲音數(shù)據(jù)進行 識別的識別結(jié)果的單元;將所述通用聲音識別服務器以及專用聲音識別服務器進行識別的 識別結(jié)果與所述保存的識別結(jié)果綜合用參數(shù)進行比較來選擇最佳的識別結(jié)果的識別結(jié)果 綜合部;和將所述選擇的識別結(jié)果發(fā)送給所述終端裝置的單元。
[0015] 在本發(fā)明的聲音識別服務器綜合裝置中,可以還具備:從所述終端裝置接收用戶 所登記的語句或用戶經(jīng)常使用的語句的列表的單元;以所述接收到的語句為基礎來生成合 成聲音的聲音合成部;將所述生成的合成聲音發(fā)送給所述通用聲音識別服務器以及專用聲 音識別服務器的單元;和接收所述通用聲音識別服務器以及專用聲音識別服務器對所述合 成聲音進行識別的識別結(jié)果的單元,所述綜合方式學習部將成為所述合成聲音的基礎的語 句和所述識別結(jié)果一起進行解析,學習并保存識別結(jié)果綜合用參數(shù)。
[0016] 此外,在本發(fā)明的聲音識別服務器綜合裝置中,可以還具備:從所述終端裝置接收 用戶所登記的語句或用戶經(jīng)常使用的語句的列表的單元;從所述通用聲音識別服務器接收 識別用語句列表的單元;和將所述識別用語句列表與從所述終端裝置接收到的語句列表進 行比較來估計類似度的語句比較/類似度估計部,所述綜合方式學習部將所述估計結(jié)果作 為識別結(jié)果綜合用參數(shù)來保存。
[0017] 若舉出本發(fā)明的聲音識別服務器綜合方法的一例,則有由如下步驟構(gòu)成的方法, 上述步驟為:基于用戶所登記的語句或用戶經(jīng)常使用的語句的列表來學習并保存識別結(jié)果 綜合用參數(shù)的步驟;將用戶為了聲音識別而刻意發(fā)出的聲音的數(shù)據(jù)發(fā)送到通用聲音識別服 務器以及專用聲音識別服務器的步驟;接收所述通用聲音識別服務器以及專用聲音識別服 務器對所述聲音數(shù)據(jù)進行識別的識別結(jié)果的步驟;將通用聲音識別服務器的識別結(jié)果以及 專用聲音識別服務器的識別結(jié)果與所述識別結(jié)果綜合用參數(shù)進行比較來選擇最佳的聲音 識別結(jié)果的步驟。
[0018] 發(fā)明效果
[0019] 根據(jù)本發(fā)明,關(guān)于一般的語句,重視通用聲音識別服務器的識別結(jié)果,關(guān)于用戶固 有的語句,重視專用聲音識別服務器的結(jié)果等,以最佳的形式對各個輸入進行識別結(jié)果的 綜合,從而最終能向用戶提供錯誤較少的聲音識別功能。此外,能實現(xiàn)不僅錯誤較少,連在 響應速度的方面上便利性也高的系統(tǒng)。
【專利附圖】
【附圖說明】
[0020] 圖1是本發(fā)明的實施例1的聲音識別服務器綜合裝置的構(gòu)成圖。
[0021] 圖2是表示使用了本發(fā)明的實施例1的聲音合成的結(jié)果綜合用參數(shù)估計的處理的 圖。
[0022] 圖3是表示使用了本發(fā)明的單一通用聲音識別服務器的結(jié)果綜合用參數(shù)的一例 的圖。
[0023] 圖4是表示使用了本發(fā)明的多個通用聲音識別服務器的結(jié)果綜合用參數(shù)的一例 的圖。
[0024] 圖5是表示本發(fā)明的實施例1的多個服務器的識別結(jié)果的綜合方法的一例的圖。
[0025] 圖6是表示使用了本發(fā)明的多個通用聲音識別服務器的識別結(jié)果可靠度的結(jié)果 綜合用參數(shù)的一例的圖。
[0026] 圖7是表示使用了本發(fā)明的多個通用聲音識別服務器的識別結(jié)果可靠度和誤識 別結(jié)果的結(jié)果綜合用參數(shù)的一例的圖。
[0027] 圖8是表示利用了本發(fā)明的同音不同寫法的變換的識別結(jié)果的綜合方法的一例 的圖。
[0028] 圖9是表示用于實現(xiàn)本發(fā)明的用戶終端的構(gòu)成例的圖。
[0029] 圖10是表示本發(fā)明中的用戶辭典的作成方法的一例的圖。
[0030] 圖11是表不本發(fā)明中的聲音合成部的構(gòu)成的一例的圖。
[0031] 圖12是表示本發(fā)明的考慮了響應時間的結(jié)果綜合用參數(shù)的一例的圖。
[0032] 圖13是本發(fā)明的實施例2的聲音識別服務器綜合裝置的構(gòu)成圖。
[0033] 圖14是本發(fā)明的實施例3的聲音識別服務器綜合裝置的構(gòu)成圖。
[0034] 圖15是表示使用了本發(fā)明的實施例3的識別用語句列表的結(jié)果綜合用參數(shù)估計 的處理的圖。
[0035] 圖16是本發(fā)明的實施例4的聲音識別服務器裝置的構(gòu)成圖。
[0036] 圖17是本發(fā)明的實施例5的聲音識別服務器裝置的構(gòu)成圖。
【具體實施方式】
[0037] 以下,使用附圖來說明本發(fā)明的實施例。另外,在用以說明用于實施發(fā)明的形態(tài)的 全部圖中,對具有相同功能的要素標注相同名稱、標號,并省略其重復說明。
[0038] [實施例1]
[0039] 圖1是表示基于本發(fā)明的實施例1的聲音識別服務器綜合裝置的構(gòu)成例的圖。聲 音識別功能使用用戶終端102、中繼服務器104、通用聲音識別服務器組106、專用聲音識別 服務器108來提供。另外,通用聲音識別服務器組106也可以是單一的通用聲音識別服務 器。
[0040] 用戶終端102是用戶個人所持有的終端裝置,除了進行輸入聲音數(shù)據(jù)的獲取以及 基于聲音識別結(jié)果的服務的提供以外,還保持地址簿或樂曲名列表等的用戶所固有的語句 列表。以下,將這些用戶所固有的語句列表稱作"用戶辭典"。在用戶辭典中保持了用戶所 登記的語句或用戶經(jīng)常使用的語句的列表。
[0041] 通用聲音識別服務器組106是并未假定僅通過由本發(fā)明實現(xiàn)的服務來使用的、1 臺以上的聲音識別服務器。一般內(nèi)置大規(guī)模的語句列表,針對各種語言的識別性能高,但另 一方面對包含在用戶辭典中的一部分語句則有不能正確識別的可能性。
[0042] 專用聲音識別服務器108是專門化為由本發(fā)明實現(xiàn)的服務的聲音識別服務器,設 計為識別包含在用戶辭典中的語句的全部或大部分。專用聲音識別服務器108被設計為在 輸入了未包含在用戶辭典中的語句的情況下輸出"無識別結(jié)果"這樣的結(jié)果。專用聲音識 別服務器并不限于構(gòu)成為服務器,也可以是專用聲音識別裝置,此外也可以如實施例2或 實施例5那樣,內(nèi)置于用戶終端或中繼服務器中。
[0043] 中繼服務器104相當于本發(fā)明的"聲音識別服務器綜合裝置",將用戶終端102和 聲音識別服務器106、108相連,進行聲音識別結(jié)果的綜合等。與用戶終端102的數(shù)據(jù)交換 經(jīng)由終端裝置通信部110來進行。此外,與聲音識別服務器106、108的數(shù)據(jù)交換經(jīng)由識別 服務器通信部112來進行。中繼服務器104由終端裝置通信部110、聲音合成部114、綜合 方式學習部116、信號處理部120、識別結(jié)果綜合部122、識別服務器通信部112等構(gòu)成。
[0044] 對中繼服務器104的動作進行說明。首先,在用戶將用戶終端102設置為能通信 的狀態(tài)時,用戶辭典124的數(shù)據(jù)經(jīng)由終端裝置通信部110被發(fā)送。該數(shù)據(jù)被直接送往識別 服務器通信部112,進而被送往專用聲音識別服務器108。在專用聲音識別服務器108中, 基于被送來的用戶辭典數(shù)據(jù)來進行調(diào)諧,以使得能正確識別包含于其中的語句。另一方面, 由終端裝置通信部110接收到的用戶辭典數(shù)據(jù)也被送往聲音合成部114。在此,以作為字符 串而被送來的用戶辭典數(shù)據(jù)為基礎來制作合成聲音數(shù)據(jù)。針對一個語句的合成聲音數(shù)據(jù)既 可以是一個,也可以是音質(zhì)不同的多個。作成的合成聲音數(shù)據(jù)經(jīng)由識別服務器通信部112 被送往通用聲音識別服務器組106以及專用聲音識別服務器108。在針對它們的識別結(jié)果 從各服務器返回時,識別服務器通信部112將其接收,并送到綜合方式學習部116。在綜合 方式學習部116中,成為合成聲音的基礎的用戶辭典數(shù)據(jù)和識別結(jié)果一起解析,學習用于 識別結(jié)果綜合的參數(shù)。得到的參數(shù)作為結(jié)果綜合用參數(shù)118來保存。在該時間點結(jié)束使用 了本發(fā)明的系統(tǒng)的事前學習處理。
[0045] 在用戶實際使用聲音接口時,通過終端裝置通信部110接收由用戶終端102獲取 到的輸入聲音數(shù)據(jù)。接收到的數(shù)據(jù)被送往信號處理部120,被施予必要的處理。在此,所謂 必要的處理例如是指從包含噪聲的輸入聲音中去除噪聲等,但并不一定必須,也可以不進 行任何處理。從信號處理部120輸出的數(shù)據(jù)經(jīng)過識別服務器通信部112被送往通用聲音識 別服務器組106以及專用聲音識別服務器108。從這些服務器返回的識別結(jié)果經(jīng)過識別服 務器通信部112被送往識別結(jié)果綜合部122。在識別結(jié)果綜合部122中,比較多個識別結(jié) 果、和包含在結(jié)果綜合用參數(shù)118中的參數(shù),來選擇最佳的識別結(jié)果。所選擇的識別結(jié)果經(jīng) 過終端裝置通信部110被送往用戶終端102。在用戶終端102中,以該結(jié)果為基礎來提供設 定導航功能的目的地、打電話、再現(xiàn)樂曲等的服務。
[0046] 圖2是表示在圖1所示的構(gòu)成中直至使用用戶辭典數(shù)據(jù)來作成結(jié)果綜合用參數(shù)為 止的處理的次序的圖。首先,用戶辭典數(shù)據(jù)被直接送到專用聲音識別服務器。在專用聲音 識別服務器中,對聲音識別引擎進行調(diào)諧,以便將送來的語句作為識別對象。因此,在發(fā)出 未包含在用戶辭典中的語句聲音的數(shù)據(jù)被送來的情況下,專用聲音識別服務器要么返回錯 誤的結(jié)果,或者要么返回無法識別這樣的結(jié)果。另一方面,用戶辭典數(shù)據(jù)也被送往聲音合成 部,由此作成合成聲音數(shù)據(jù)。通常針對一個語句制作一個合成聲音,但在聲音合成部具有能 選擇說話者、語速、聲音的高低等這樣的功能的情況下,若使它們發(fā)生變化而針對相同的語 句作成多個合成聲音數(shù)據(jù),則能更加提高在后級進行的綜合方式學習的性能。
[0047] 如此得到的合成聲音數(shù)據(jù)被送往各通用聲音識別服務器以及專用聲音識別服務 器。從這些服務器返回識別結(jié)果。此外,也有不僅返回識別結(jié)果,還一起返回附隨在其中的 可靠度得分的情況。以它們?yōu)榛A,在綜合方式學習部學習綜合方式,將其結(jié)果保存在結(jié)果 綜合用參數(shù)中。
[0048] 圖3是表示結(jié)果綜合用參數(shù)的最簡單的構(gòu)成的示例的圖。在該示例中,假定通用 聲音識別服務器僅存在1臺,在該服務器中,用"〇"和" X "僅保持是否正確識別用戶辭典 的各語句。即,該圖表征了雖然在通用聲音識別服務器正確地識別出了"鈴木一郎"、"山田 二郎"這樣的語句,但除此之外卻未正確地識別出。圖4是使用3臺通用聲音識別服務器進 行了同樣的學習時的示例。
[0049] 在圖5中示出使用圖3、圖4所示的結(jié)果來實際進行識別時的處理的次序。輸入聲 音數(shù)據(jù)首先在信號處理部被進行事前處理。作為信號處理部中的處理的代表性示例,能舉 出專利文獻1所示那樣的噪聲抑制處理。信號處理部中的處理的結(jié)果一般是針對一個輸入 聲音數(shù)據(jù)得到一個聲音數(shù)據(jù),但也有能改變設定來得到多個聲音數(shù)據(jù)的情況。在這樣的情 況下,反復執(zhí)行聲音數(shù)據(jù)的數(shù)量次的以下所述的處理。此外,在認為不需要信號處理部中的 處理的情況下,將輸入聲音數(shù)據(jù)直接作為信號處理部的輸出數(shù)據(jù)。
[0050] 信號處理部的輸出數(shù)據(jù)被送往通用聲音識別服務器以及專用聲音識別服務器。它 們的結(jié)果全都被送往識別結(jié)果綜合部。在識別結(jié)果綜合部中,首先檢查專用聲音識別服務 器的識別結(jié)果。在專用識別服務器的識別結(jié)果為"無識別結(jié)果"的情況下,僅根據(jù)通用聲音 識別服務器的識別結(jié)果來決定最終的識別結(jié)果。即,在通用聲音識別服務器僅有1臺的情 況下,直接采用其結(jié)果。在有多臺的情況下,在這些識別結(jié)果之間取多數(shù)表決。在取多數(shù)表 決時,若是各識別服務器賦予了可靠度得分的情況,則也能設為用其值進行了加權(quán)的多數(shù) 表決。此外,還能事前估計各識別服務器的性能來設為加權(quán)的系數(shù)。關(guān)于這樣的針對一般 語句的多個聲音識別服務器的識別結(jié)果的綜合,能使用專利文獻2所示那樣的公知技術(shù)。
[0051] 另一方面,在作為專用聲音識別服務器的識別結(jié)果而得到包含在用戶辭典數(shù)據(jù)中 的語句的情況下,參考圖3或圖4所示那樣的結(jié)果綜合用參數(shù)。例如,在圖3的示例中,在 專用聲音識別服務器的識別結(jié)果為"日立太郎"的情況下,若觀看結(jié)果綜合用參數(shù)的相應的 行,則由于獲知該語句在通用聲音識別服務器中應當不能識別,因此直接采用專用聲音識 別服務器的結(jié)果。另一方面,在專用聲音識別服務器的識別結(jié)果為"鈴木一郎"的情況下, 若觀看結(jié)果綜合用參數(shù)的相應的行,則獲知該語句在專用聲音識別服務器中也能識別。為 此,接下來檢查通用聲音識別服務器的識別結(jié)果。在通用聲音識別服務器的識別結(jié)果也是 "鈴木一郎"的情況下,直接將"鈴木一郎"作為最終的識別結(jié)果即可,但在否定的情況下,優(yōu) 先采用一般認為性能高的通用聲音識別服務器的結(jié)果,或者采用通用聲音識別服務器和專 用聲音識別服務器的識別結(jié)果之中可靠度得分高的一方作為最終識別結(jié)果。由此,在與"鈴 木一郎"相近的發(fā)音的語言被專用聲音識別服務器誤識別的情況下,也能基于通用聲音識 別服務器的識別結(jié)果將其丟棄。在圖4的示例中也是同樣的,關(guān)于"日立太郎",無條件采用 專用聲音識別服務器的結(jié)果。關(guān)于"鈴木一郎",由于是3臺通用聲音識別服務器全都能識 別的語句,因此通過這些識別結(jié)果中的多數(shù)表決、或者通過在這些識別結(jié)果的全部還加入 了專用聲音識別服務器的多數(shù)表決,由此來決定最終識別結(jié)果。此外,在專用聲音識別服務 器的識別結(jié)果為"山田二郎"的情況下,由于有能正確將其識別的可能性的通用聲音識別服 務器僅有1號,因此在該服務器和專用聲音識別服務器之間,通過進行與圖3的示例相同的 處理,由此來得到最終識別結(jié)果。
[0052] 圖6是與圖3和圖4不同的另一個結(jié)果綜合用參數(shù)的實現(xiàn)例。在此,在某語句能 在各通用聲音識別服務器識別的情況下,將正確識別該語句的概率置換為權(quán)重的數(shù)值來保 持。在此,正確識別的概率例如能對"鈴木一郎"這樣的語句進行基于各式各樣改變聲音合 成用參數(shù)而制作的合成聲音的識別,根據(jù)對這些合成聲音的識別結(jié)果之中有幾個是正確的 來進行估計。此外,在成為通用聲音識別服務器返回多個識別結(jié)果候選的做法的情況下,還 能使用正解單詞的平均順位或平均可靠度得分等。通過適當?shù)姆蔷€性變換將這些值變換成 權(quán)重值的結(jié)果保持在結(jié)果綜合用參數(shù)中。在該示例中,在專用聲音識別服務器的識別結(jié)果 為"鈴木一郎"、通用服務器1的結(jié)果為"佐佐木一郎"、通用服務器2和3的結(jié)果為"鈴木 一郎"的情況下,"佐佐木一郎"的權(quán)重為3. 0,"鈴木一郎"的權(quán)重成為1. 4與1. 2之和、即 2. 6,前者更大,因此將"佐佐木一郎"作為最終識別結(jié)果。
[0053] 圖7是與圖3、4、6不同的另一個結(jié)果綜合用參數(shù)的實現(xiàn)例。在此,用通用聲音識別 服務器識別包含在用戶辭典數(shù)據(jù)中的語句,在未正確識別的情況下也將此時得到的識別結(jié) 果作為結(jié)果綜合用參數(shù)來保存。對各個服務器的權(quán)重進行設定的情形與圖6的示例相同。 在進行多次實驗時,也可以僅保存出現(xiàn)最多的結(jié)果,或保存多個識別結(jié)果。另外,也可以無 論實驗的次數(shù)多少,都也一并保存2位數(shù)以下的識別結(jié)果。在識別執(zhí)行時,與到此為止的示 例相同,基于專用聲音識別服務器的識別結(jié)果來參考結(jié)果綜合用參數(shù)。此時,檢查通用聲音 識別服務器的識別結(jié)果是否與保存在結(jié)果綜合用參數(shù)中的內(nèi)容一致。例如,在專用聲音識 別服務器的識別結(jié)果為"日立太郎"、通用服務器1的結(jié)果為"日立市"、通用服務器2的結(jié) 果為"二十歲"、通用服務器3的結(jié)果為"日立"的情況下,在將通用服務器1的結(jié)果變換為 "日立太郎"的基礎上進行各識別結(jié)果中的多數(shù)表決,最終選擇"日立太郎"。
[0054] 圖8是表示利用了同音不同寫法的檢測的聲音識別結(jié)果綜合方式的示例的圖。如 圖所示那樣,在專用聲音識別服務器的識別結(jié)果為"左藤一郎"的情況下,將其與通用聲音 識別服務器的各識別結(jié)果進行比較,檢查是否包含同音不同寫法。在此,對于根據(jù)寫法來估 計發(fā)音,若是日語,則將各個漢字的讀法作為數(shù)據(jù)來保持,通過連結(jié)構(gòu)成該語句的漢字的讀 法來獲得發(fā)音寫法。若是英語,則保持對部分拼法賦予讀法的規(guī)則,通過依次運用這些規(guī)則 來獲得發(fā)音寫法。在是其它語言的情況下,周知也一般能通過被稱作Grapheme to Phoneme 的技術(shù)來獲得發(fā)音寫法。此外,還有在用戶辭典數(shù)據(jù)之中如漢字寫法和假名寫法那樣包含 發(fā)音信息的情況,這種情況下將其靈活運用。通過上述的檢查,在包含同音不同寫法的情況 下,將該識別結(jié)果的寫法變換成專用聲音識別服務器的識別結(jié)果的寫法來使用。在圖的示 例中,由于通用聲音識別服務器1的識別結(jié)果"佐藤一郎"與專用聲音識別服務器的識別結(jié) 果為同音,因此將其變換為"左藤一郎"。其結(jié)果,3臺通用聲音識別服務器進行的多數(shù)表決 的結(jié)果成為"左藤一郎",采用其作為最終結(jié)果。
[0055] 圖9是以提供汽車內(nèi)的導航功能或免提通話功能等的情況為例來表示了用戶終 端的具體的實現(xiàn)形態(tài)的示例的圖。在圖9(a)中,將麥克風裝置904、應用906、通信模塊908 等全部功能安裝在汽車導航裝置902內(nèi)。在圖9(b)中,將汽車導航裝置902與智能手機 910連結(jié),麥克風裝置904使用汽車導航裝置902的,通信部908使用智能手機910的。應 用912、914根據(jù)各自的功能,分散配置在汽車導航裝置內(nèi)和智能手機內(nèi),或者僅配置在任 一單方。在圖9(c)中,在智能手機910內(nèi)安裝全部功能。
[0056] 圖10是表示了構(gòu)成本發(fā)明的用戶辭典124的作成方法的示例的圖。例如,在用戶 終端102內(nèi)存在地址簿1002的情況下,將包含于其中的人名登記到用戶辭典。同樣地,在 存在音樂播放器的樂曲列表1004的情況下,將包含于其中的樂曲名和藝術(shù)家名登記到用 戶辭典。此外,還能將作為Web瀏覽器的書簽1006而被登記的頁面標題登記到用戶辭典。 除此之外,還能采用解析蓄積于用戶終端內(nèi)的郵件1008或短消息等的數(shù)據(jù),將頻繁出現(xiàn)于 其中的語句登記到用戶辭典這樣的方式。關(guān)于這些數(shù)據(jù),還能采用如下方式:在用戶終端首 次與本發(fā)明的系統(tǒng)連接時,將包含在用戶終端中的全部用戶辭典數(shù)據(jù)發(fā)送到系統(tǒng),還在向 地址簿或樂曲列表等追加新條目時,僅將新追加數(shù)據(jù)追加發(fā)送到系統(tǒng),促使結(jié)果綜合用參 數(shù)的更新。這時,不僅需要更新結(jié)果綜合用參數(shù),還需要同時更新專用聲音識別部的對照用 辭典。
[0057] 圖11是表示變更一般的聲音合成部的構(gòu)成,在本發(fā)明中專門化后的特殊構(gòu)成的 一例的圖。一般而言,聲音合成部114由合成聲音作成部1102、和聲音片段數(shù)據(jù)1106? 1110構(gòu)成。在此,所謂片段數(shù)據(jù),是在將數(shù)據(jù)直接接在一起來制作合成聲音的方式中所用的 數(shù)據(jù)的名稱,但由于在取代直接接在一起而采用通過統(tǒng)計處理和信號處理來合成波形的方 式的情況下,也對各個音素、音節(jié)等的處理單位使用類似的數(shù)據(jù)集合,因此能運用以下所述 的方式。在合成聲音作成部1102中,將聲音片段數(shù)據(jù)接在一起,若有需要,就進行合適的信 號處理,作成標準合成聲音。但是,在本發(fā)明中,由于獲知各通用聲音識別服務器組對用戶 終端的所有者即特定用戶的聲音有何種反應非常重要,因此期望在聲音合成部作成的合成 聲音也與用戶的聲音相似。為此,用戶每當使用聲音識別功能,或者每當使用除此以外的聲 音功能或聲音通話時,將該聲音作為用戶聲音數(shù)據(jù)1112來蓄積,由聲音變換部1104活用用 戶聲音數(shù)據(jù)1112來進行從標準合成聲音到適應用戶聲音的變換。通過將如此變換的聲音 輸入到通用聲音識別服務器組,從而能進行精度更高的性能預測,能期待結(jié)果綜合用參數(shù) 的值也成為合適的值。
[0058] 圖12是表示除了聲音識別的正確度以外還將響應速度作為評價基準的情況的結(jié) 果綜合用參數(shù)的示例的圖。在該示例中,執(zhí)行使用了與包含在用戶辭典數(shù)據(jù)中的各語句對 應的合成聲音的識別,將該處理所花費的平均時間作為參數(shù)來保持。在該示例中,在專用聲 音識別服務器的識別結(jié)果為"鈴木一郎"的情況下,期待在〇. 5秒內(nèi)得到通用服務器2的識 別結(jié)果,但為了得到通用服務器1的識別結(jié)果不得不等待1. 5秒。在該響應時間超過在應 用中假定的上限值的情況下,在得到通用服務器2的結(jié)果的時間點進行結(jié)果綜合處理。由 此,若假定在結(jié)果綜合處理中幾乎不花時間,則能在約〇. 5秒的響應時間內(nèi)得到最終識別 結(jié)果,從而能提升用戶的便利性。
[0059] [實施例2]
[0060] 圖13是表示了使用組入用戶終端內(nèi)的專用聲音識別部108來實現(xiàn)與圖1所示的 示例同等的功能那樣的示例的構(gòu)成的圖。在此,用戶終端102不經(jīng)由中繼服務器104地使 用存在于內(nèi)部的專用聲音識別部108來進行包含在用戶辭典124中的語句的識別。使用用 戶辭典數(shù)據(jù)來事前進行通用聲音識別服務器組106的性能評價的方法與圖1的情況所示的 方法相同。在識別執(zhí)行時,經(jīng)由中繼服務器104來執(zhí)行通用聲音識別服務器106所進行的 識別,同時也由用戶終端內(nèi)的專用聲音識別部108執(zhí)行識別。這樣的并用終端內(nèi)的聲音識 別部、和經(jīng)由通信裝置而連接的聲音識別部的方式雖然在專利文獻3中也有示出,但專利 文獻3記載的發(fā)明著眼于是否建立通信路徑這一點來進行結(jié)果的取舍選擇,與此相對,在 本發(fā)明中,使用基于事前進行的聲音識別的結(jié)果而求得的結(jié)果綜合用參數(shù),這一點不同。
[0061] [實施例3]
[0062] 圖14是表示基于本發(fā)明的聲音識別服務器綜合裝置的另一個構(gòu)成例的圖。在此, 作為通用聲音識別服務器組106的功能,假定能獲得在其中使用的識別用語句列表的情 況。在這樣的條件的基礎上,從用戶終端102送到中繼服務器104的用戶辭典數(shù)據(jù)被送往 語句比較/類似度估計部126。在該部中,比較從通用聲音識別服務器組106獲得的識別用 語句列表和用戶辭典數(shù)據(jù),判定在各個服務器中是否能正確識別出包含在用戶辭典124中 的各語句。判定結(jié)果被送往綜合方式學習部116,將整理為參數(shù)的結(jié)果保持在結(jié)果綜合用參 數(shù)118中。另一方面,將用戶辭典數(shù)據(jù)直接送往專用聲音識別服務器108,由專用聲音識別 服務器進行調(diào)諧這一點與圖1所示的示例相同。
[0063] 若在這樣的準備完畢的狀態(tài)下從用戶終端102送來輸入聲音數(shù)據(jù),則與圖1所示 的示例相同,該數(shù)據(jù)經(jīng)由信號處理部120被送往通用聲音識別服務器106以及專用聲音識 別服務器108。從這些服務器返回的識別結(jié)果被送往識別結(jié)果綜合部122,由此通過與結(jié)果 綜合用參數(shù)118的比較來選擇最佳的識別結(jié)果。在所選擇的識別結(jié)果被發(fā)送到用戶終端 102之后,與圖1所示的示例相同。
[0064] 圖15是表示在圖14所示的構(gòu)成中直至使用用戶辭典數(shù)據(jù)來作成結(jié)果綜合用參數(shù) 為止的處理的次序的圖。在該示例中,既不作成合成聲音,也不試著使用合成聲音來執(zhí)行聲 音識別,僅從各通用聲音識別服務器獲取識別用語句列表。比較這些列表、和包含在用戶辭 典數(shù)據(jù)中的語句,將用戶辭典數(shù)據(jù)的各語句包含在哪個通用聲音識別服務器的語句列表中 進行數(shù)據(jù)化。在此,由于只有包含在識別用語句列表中的(〇)、和未包含的(X)的任一者, 因此將得到的結(jié)果匯總的結(jié)果綜合用參數(shù)變得與圖3或圖4相同。因此,進行實際識別時 的使用方式也與前述的示例相同。此外,在從各通用聲音識別服務器不僅能獲得語句列表 還能獲得表征這些語句的識別容易度的語言模型時,也能作成圖6那樣的加權(quán)的結(jié)果綜合 用參數(shù)。例如,在使用代表性的語言模型的N-Gram語言模型的情況下,能考慮將uni-Gram 的值設為該單詞的識別容易度、或?qū)i-Gram、tri-Gram的最大值設為該單詞的識別容易 度等的方式。
[0065] [實施例4]
[0066] 圖16是表示了通過將與用戶之間的輸入輸出功能和聲音識別服務器綜合功能組 入單一的裝置中的裝置來實現(xiàn)與圖1所示的示例同等的功能那樣的示例的構(gòu)成的圖。在 此,將蓄積在聲音識別服務器綜合裝置104的內(nèi)部的包含在用戶辭典124中的用戶辭典數(shù) 據(jù)轉(zhuǎn)發(fā)給裝置內(nèi)的聲音合成部114以及識別服務器通信部112。用戶說出的聲音由麥克風 裝置128取入,并轉(zhuǎn)發(fā)給信號處理部120。使用它們的處理的進展方式與圖1的示例中說明 過的方式同等,作為結(jié)果,能使識別結(jié)果綜合部122確定識別結(jié)果。該識別結(jié)果轉(zhuǎn)發(fā)給裝置 內(nèi)的顯示部132,向用戶提示。
[0067] [實施例5]
[0068] 圖17是表示了以圖16所示的示例為基礎進一步將專用聲音識別服務器所擔負的 功能組入到聲音識別服務器綜合裝置的情況下的構(gòu)成的圖。從包含在聲音識別服務器綜合 裝置104中的麥克風裝置128取入輸入聲音,從用戶辭典124轉(zhuǎn)發(fā)用戶辭典數(shù)據(jù)的部分與 圖16的示例相同,但除此以外還在裝置內(nèi)組入專用聲音識別部108,在直接讀出用戶辭典 的內(nèi)容的基礎上識別從麥克風裝置送來的聲音數(shù)據(jù)。在此得到的單體識別結(jié)果被送往識別 結(jié)果綜合部122,與由通用聲音識別服務器組106得到的識別結(jié)果進行綜合。綜合后的識別 結(jié)果被送往存在于裝置內(nèi)的應用130,在此沿著各個應用的目的來靈活應用。
[0069] 產(chǎn)業(yè)上的可利用性
[0070] 本發(fā)明能作為介于車載終端與聲音識別服務器之間用于提供高精度的聲音識別 功能的聲音數(shù)據(jù)中繼裝置來利用。
[0071] 標號說明
[0072] 102用戶終端
[0073] 104中繼服務器
[0074] 106通用聲音識別服務器組
[0075] 108專用聲音識別服務器
[0076] 110終端裝置通信部
[0077] 112識別服務器通信部
[0078] 114聲音合成部
[0079] 116綜合方式學習部
[0080] 118結(jié)果綜合用參數(shù)
[0081] 120信號處理部
[0082] 122識別結(jié)果綜合部
[0083] 124用戶辭典
[0084] 126語句比較/類似度估計部
[0085] 128麥克風裝置
[0086] 130 應用
[0087] 132顯示部
【權(quán)利要求】
1. 一種聲音識別服務器綜合裝置,是對用于用戶使用聲音來進行操作的終端裝置、與 識別聲音數(shù)據(jù)并返回其結(jié)果的聲音識別服務器之間進行中繼的裝置,其中, 所述聲音識別服務器綜合裝置具備: 基于用戶所登記的語句或用戶經(jīng)常使用的語句的列表來學習并保存識別結(jié)果綜合用 參數(shù)的綜合方式學習部; 從所述終端裝置接收用戶為了聲音識別而刻意發(fā)出的聲音的數(shù)據(jù)的單元; 將所述接收到的聲音數(shù)據(jù)發(fā)送給通用聲音識別服務器以及專用聲音識別服務器的單 元; 接收所述通用聲音識別服務器以及專用聲音識別服務器對所述聲音數(shù)據(jù)進行識別的 識別結(jié)果的單元; 將所述通用聲音識別服務器以及專用聲音識別服務器進行識別的識別結(jié)果與所述保 存的識別結(jié)果綜合用參數(shù)進行比較來選擇最佳的識別結(jié)果的識別結(jié)果綜合部;和 將所述選擇的識別結(jié)果發(fā)送給所述終端裝置的單元。
2. 根據(jù)權(quán)利要求1所述的聲音識別服務器綜合裝置,其特征在于, 所述聲音識別服務器綜合裝置還具備: 從所述終端裝置接收用戶所登記的語句或用戶經(jīng)常使用的語句的列表的單元; 以所述接收到的語句為基礎來生成合成聲音的聲音合成部; 將所述生成的合成聲音發(fā)送給所述通用聲音識別服務器以及專用聲音識別服務器的 單元;和 接收所述通用聲音識別服務器以及專用聲音識別服務器對所述合成聲音進行識別的 識別結(jié)果的單元, 所述綜合方式學習部將成為所述合成聲音的基礎的語句和所述識別結(jié)果一起進行解 析,學習并保存識別結(jié)果綜合用參數(shù)。
3. 根據(jù)權(quán)利要求1所述的聲音識別服務器綜合裝置,其特征在于, 所述聲音識別服務器綜合裝置還具備: 從所述終端裝置接收用戶所登記的語句或用戶經(jīng)常使用的語句的列表的單元; 從所述通用聲音識別服務器接收識別用語句列表的單元;和 將所述識別用語句列表與從所述終端裝置接收到的語句列表進行比較來估計類似度 的語句比較/類似度估計部, 所述綜合方式學習部將所述估計結(jié)果作為識別結(jié)果綜合用參數(shù)來保存。
4. 一種聲音識別服務器綜合裝置,是用于用戶使用聲音來進行操作的裝置,其中, 所述聲音識別服務器綜合裝置具備: 基于用戶所登記的語句或用戶經(jīng)常使用的語句的列表來學習并保存識別結(jié)果綜合用 參數(shù)的綜合方式學習部; 將用戶為了聲音識別而刻意發(fā)出的聲音的數(shù)據(jù)發(fā)送給通用聲音識別服務器以及專用 聲音識別服務器的單元; 接收所述通用聲音識別服務器以及專用聲音識別服務器對所述聲音數(shù)據(jù)進行識別的 識別結(jié)果的單元; 將所述通用聲音識別服務器以及專用聲音識別服務器的識別結(jié)果與所述保存的識別 結(jié)果綜合用參數(shù)進行比較來選擇最佳的識別結(jié)果的識別結(jié)果綜合部;和 顯示所述選擇的識別結(jié)果的顯示部。
5. 根據(jù)權(quán)利要求4所述的聲音識別服務器綜合裝置,其特征在于, 所述聲音識別服務器綜合裝置還具備: 存儲用戶所登記的語句或用戶經(jīng)常使用的語句的用戶辭典; 以存儲于所述用戶辭典的語句為基礎來生成合成聲音的聲音合成部; 將所述生成的合成聲音發(fā)送給所述通用聲音識別服務器以及專用聲音識別服務器的 單元;和 接收所述通用聲音識別服務器以及專用聲音識別服務器對所述合成聲音進行識別的 識別結(jié)果的單元, 所述綜合方式學習部將成為所述合成聲音的基礎的語句和所述識別結(jié)果一起進行解 析,學習并保存識別結(jié)果綜合用參數(shù)。
6. 根據(jù)權(quán)利要求4所述的聲音識別服務器綜合裝置,其特征在于, 所述聲音識別服務器綜合裝置還具備: 存儲用戶所登記的語句或用戶經(jīng)常使用的語句的列表的用戶辭典; 從所述通用聲音識別服務器接收識別用語句列表的單元;和 將所述識別用語句列表與所述用戶辭典的語句列表進行比較來估計類似度的語句比 較/類似估計部, 所述綜合方式學習部將所述估計結(jié)果作為識別結(jié)果綜合用參數(shù)來保存。
7. 根據(jù)權(quán)利要求1?6中任一項所述的聲音識別服務器綜合裝置,其特征在于, 所述專用聲音識別服務器以用戶所登記的語句或用戶經(jīng)常使用的語句的列表為基礎 來作成識別對象語句列表,從而能高精度地識別包含在該列表中的語句。
8. 根據(jù)權(quán)利要求1?6中任一項所述的聲音識別服務器綜合裝置,其特征在于, 所述專用聲音識別服務器作為聲音專用識別部被組入到所述聲音識別服務器綜合裝 置或終端裝置內(nèi)。
9. 根據(jù)權(quán)利要求2或5所述的聲音識別服務器綜合裝置,其中, 所述識別結(jié)果綜合用參數(shù)是蓄積聲音識別服務器針對用戶所登記的語句或用戶經(jīng)常 使用的語句的識別結(jié)果的正確與錯誤的參數(shù), 所述識別結(jié)果綜合部以所述專用聲音識別服務器進行識別的識別結(jié)果為基礎,從所述 識別結(jié)果綜合用參數(shù)之中取出聲音識別服務器針對其單詞的識別結(jié)果,并且僅取出所述取 出的結(jié)果為正確這樣的聲音識別服務器進行識別的聲音識別結(jié)果,基于所述取出的識別結(jié) 果來選擇最佳的識別結(jié)果。
10. 根據(jù)權(quán)利要求2或5所述的聲音識別服務器綜合裝置,其特征在于, 所述識別結(jié)果綜合用參數(shù)是蓄積聲音識別服務器針對用戶所登記的語句或用戶經(jīng)常 使用的語句的識別結(jié)果的正確與錯誤、以及表征所述聲音識別服務器針對各個語句的識別 結(jié)果的可靠度的值的參數(shù), 所述識別結(jié)果綜合部以所述專用聲音識別服務器進行識別的識別結(jié)果為基礎,從所述 識別結(jié)果綜合用參數(shù)之中取出所述聲音識別服務器針對其單詞的識別結(jié)果以及其可靠度, 并且僅取出所述取出的識別結(jié)果為正確這樣的聲音識別服務器進行識別的聲音識別結(jié)果 以及可靠度,對所述取出的聲音識別結(jié)果進行所述可靠度的加權(quán)來綜合。
11. 根據(jù)權(quán)利要求2或5所述的聲音識別服務器綜合裝置,其特征在于, 所述識別結(jié)果綜合用參數(shù)是測定聲音識別服務器針對用戶所登記的語句或用戶經(jīng)常 使用的語句的識別所花費的時間并蓄積測定值的參數(shù), 所述識別結(jié)果綜合部以所述專用聲音識別服務器進行識別的識別結(jié)果為基礎,從所述 識別結(jié)果綜合用參數(shù)之中取出所述聲音識別服務器針對其單詞的識別所需時間,獲取依賴 于應用而決定的識別所需時間的容許上限值,通過取出聲音識別服務器之中只是識別所需 時間低于所述容許上限值的聲音識別服務器的識別結(jié)果,從而以所述取出的識別結(jié)果為基 礎來選擇最佳的識別結(jié)果。
12. 根據(jù)權(quán)利要求2或5所述的聲音識別服務器綜合裝置,其特征在于, 所述識別結(jié)果綜合用參數(shù)是蓄積聲音識別服務器針對用戶所登記的語句或用戶經(jīng)常 使用的語句的識別結(jié)果的正確與錯誤、以及一個或多個誤識別結(jié)果的參數(shù), 所述識別結(jié)果綜合部以所述專用聲音識別服務器進行識別的識別結(jié)果為基礎,從所述 識別結(jié)果綜合用參數(shù)之中取出所述聲音識別服務器針對其單詞的識別結(jié)果的正確與錯誤 以及誤識別結(jié)果,在所述取出的識別結(jié)果為錯誤的情況下,將所述取出的誤識別結(jié)果與執(zhí) 行時的識別結(jié)果進行比較,僅在判定為所述比較的結(jié)果為相同的情況下,將該識別結(jié)果設 為有效,從而以被設為所述有效的識別結(jié)果為基礎來選擇最佳的識別結(jié)果。
13. -種聲音識別服務器綜合方法,由以下步驟構(gòu)成: 基于用戶所登記的語句或用戶經(jīng)常使用的語句的列表來學習并保存識別結(jié)果綜合用 參數(shù)的步驟; 將用戶為了聲音識別而刻意發(fā)出的聲音的數(shù)據(jù)發(fā)送給通用聲音識別服務器以及專用 聲音識別服務器的步驟; 接收所述通用聲音識別服務器以及專用聲音識別服務器對所述聲音數(shù)據(jù)進行識別的 識別結(jié)果的步驟;和 將通用聲音識別服務器的識別結(jié)果以及專用聲音識別服務器的識別結(jié)果與所述識別 結(jié)果綜合用參數(shù)進行比較來選擇最佳的聲音識別結(jié)果的步驟。
14. 根據(jù)權(quán)利要求13所述的聲音識別服務器綜合方法,其特征在于, 所述聲音識別服務器綜合方法還具備: 以用戶所登記的語句或用戶經(jīng)常使用的語句為基礎來生成合成聲音的步驟; 將所述生成的合成聲音發(fā)送給所述通用聲音識別服務器以及專用聲音識別服務器的 步驟;和 接收所述通用聲音識別服務器以及專用聲音識別服務器對所述合成聲音進行識別的 識別結(jié)果的步驟, 在學習并保存識別結(jié)果綜合用參數(shù)的步驟中,將成為所述合成聲音的基礎的語句和所 述識別結(jié)果一起解析,來學習并保存識別結(jié)果綜合用參數(shù)。
15. 根據(jù)權(quán)利要求13所述的聲音識別服務器綜合方法,其特征在于, 所述聲音識別服務器綜合方法還具備: 得到用戶所登記的語句或用戶經(jīng)常使用的語句的列表的步驟; 從所述通用聲音識別服務器接收識別用語句列表的步驟;和 將所述識別用語句列表與所述用戶所登記的語句或用戶經(jīng)常使用的語句的列表比較 來估計類似度的步驟, 在學習并保存所述識別結(jié)果綜合用參數(shù)的步驟中,將所述估計結(jié)果作為識別結(jié)果綜合 用參數(shù)來保存。
【文檔編號】G10L15/30GK104221078SQ201380018950
【公開日】2014年12月17日 申請日期:2013年4月3日 優(yōu)先權(quán)日:2012年4月9日
【發(fā)明者】大淵康成, 本間健 申請人:歌樂株式會社