專利名稱:檢索裝置的制作方法
技術領域:
本發(fā)明涉及一種針對文本輸入或輸入語音等基于模式識別的輸入如對設施等名稱的檢索裝置。
背景技術:
基于字符串索引的名稱檢索技術是對檢索對象的詞素、N字符連鎖的部分字符串檢索出現(xiàn)的名稱的技術。日本專利第3665112號公報公開了一種根據(jù)部分字符串的對照合計各候補的得分,將上位候補作為檢索結果的方法。此時,能夠實現(xiàn)即使不是與輸入完全一致的字符串也會提取類似的候補的模糊檢索。在模糊檢索中,需要保持得分不同的多個候補,與完全一致檢索相比,使用存儲器、運算量更大。在上述中參照的字符串索引的大小與檢索對象字符串的檢索單位數(shù)成正比。因此,當檢索對象為大規(guī)模時,需要在DVD (DigitalVersatile Disk)或硬盤等二次存儲器上配置參照的字符串索引。這種情況下,從二次存儲器的讀出所需的處理時間變長。詞典的讀出次數(shù)為不同的部分字符串的種類數(shù),在如名稱這樣簡短的輸入中,大致與輸入字符串的長度成正比。另外,一般而言,在模糊檢索中,需要保持得分不同的多個候補,與完全一致檢索相比,存儲器、運算量更大。通過將上述檢索方式與語音識別技術相結合能夠實現(xiàn)基于語音輸入的檢索。日本特開2008-262279號公報中,作為使用了語音的檢索方法,公開了一種考慮了語音識別的單位和檢索的單位的差異的檢索手法。這種情況下,成為還考慮了語音識別時的誤識別的檢索,候補數(shù)進一步增加。檢索的結果,在產(chǎn)生了多個候補時,希望通過用戶的追加輸入而縮小候補。日本專利第3134204號公報中,公開了一種通過指示操作能夠選擇分層檢索模式與總體檢索模式的方法,其中,所述分層檢索模式將作為緊接之前的檢索結果的文檔集合作為母集團進行縮小,所述總體檢索模式在每次檢索中總是將一定的文檔集合作為母集合進行檢索。專利文獻1 日本專利第3665112號公報、字符串檢索方法及裝置專利文獻2 日本特開2008-262279號公報、語音檢索裝置專利文獻3 日本專利第3134204號公報、信息檢索用終端裝置及信息檢索用終端裝置中的信息顯示·輸入輸出方法
發(fā)明內(nèi)容
所述專利文獻3的日本專利第3134204號公報所公開的兩種縮小方式需要用戶指定縮小方法。另外,可以考慮將上述方式與模糊檢索相結合。這種情況下,各個縮小方式存在以下課題。上述分層檢索模式中,保持被縮小的候補列表作為檢索歷史,針對用于縮小的追加輸入,僅對候補列表內(nèi)的對象進行處理。因此,僅對追加輸入產(chǎn)生索引的參照。另外,合計對象少且運算量小。CN 102365639 A
說明書
2/9頁 但是,由于一旦成為候補外,則不會再次成為候補,因此需要防止候補遺漏。例如, 將位于東京都的設施名稱作為檢索對象時,針對“東京”這樣的輸入會產(chǎn)生龐大數(shù)量的候補。這種情況下,不僅用戶難以確認所有的候補,而且存在檢索歷史中包含很多候補導致管理成本增加的問題。另外,在可保持的候補數(shù)具有上限時,會產(chǎn)生從候補遺漏的情況。當考慮多次縮小或縮小取消時,需要存儲多次的檢索歷史,管理成本也會增加。上述總體檢索模式中,每當重新檢索時對文檔母集團重新檢索。因此,只要保持用戶的輸入作為檢索歷史即可,管理檢索歷史的成本小。但是,總是以全部候補為對象,需要處理所有的輸入。因此,由于索引的讀出次數(shù)多,合計對象的候補數(shù)也多,所以處理時間變長,響應性下降。另外,日本特開2008-262279號公報在以語音輸入為對象的檢索的情況下,制作覆蓋檢索對象整體的識別詞典。該詞典并未考慮縮小結果,縮小時也未能改善識別率。通常,由于用戶以能限定檢索對象的方式進行輸入,因此成為龐大的候補數(shù)的情況是少見的。所以,有鑒于上述問題,本發(fā)明的目的在于不提高縮小檢索時的管理成本,而改善平均檢索時間。另外,目的在于改善基于語音的縮小中的識別精度。本發(fā)明所涉及的檢索裝置,包括輸入單元,受理用戶輸入,輸出檢索請求;檢索歷史存儲單元,存儲包括來自于輸入單元的輸入內(nèi)容以及候補列表的檢索歷史;縮小方式選擇單元,根據(jù)檢索請求,按照存儲在檢索歷史存儲單元中的檢索歷史的內(nèi)容,從以下兩種方式中選擇縮小方法將檢索對象限定為上位候補的方式;以及根據(jù)過去輸入重新檢索的方式;候補得分更新單元,根據(jù)選擇的縮小方式,從檢索歷史中設定檢索候補及其得分, 基于由輸入單元受理的字符串,以檢索用索引為參照更新候補得分;候補決定單元,根據(jù)通過候補得分更新單元更新的候補數(shù)與得分的分布,決定提示的候補;以及候補提示單元,參照名稱信息數(shù)據(jù),對用戶提示由候補決定單元決定的候補。根據(jù)本發(fā)明所涉及的檢索裝置,按照存儲在檢索歷史存儲單元中的檢索歷史的內(nèi)容,從將檢索對象限定為上位候補的方式、與根據(jù)過去輸入重新檢索的方式這兩種方式中選擇縮小方法。因此,當妥當性高的候補少時,能夠限定對象進行縮小以縮短運算時間。另外,當妥當性高的候補多時,能夠參照檢索歷史的輸入字符串,進行擴大了范圍的檢索,即使是較小的檢索歷史大小,也不會產(chǎn)生遺漏,能夠實現(xiàn)平均運算時間短的檢索。
圖1是本發(fā)明設想的檢索裝置的整體結構圖。圖2是表示本發(fā)明的實施方式1所涉及的檢索裝置的結構的功能框圖。圖3是名稱信息詞典例的說明圖。圖4是基于字符2-gram的檢索用索引例的說明圖。圖5是檢索歷史例的說明圖。圖6是表示合計得分與合計標志的合計用表格的說明圖。
4
圖7是表示實施方式1所涉及的檢索裝置的檢索處理動作的流程圖。圖8是針對兩個輸入的檢索結果的候補次序與得分的特性圖。圖9是表示本發(fā)明的實施方式2所涉及的檢索裝置的結構的功能框圖。圖10是表示雙字母組語言模型的連接概率P的說明圖。圖11是識別三個名稱以及構成單詞的縮小用識別詞典例的說明圖。圖12是表示實施方式2所涉及的檢索裝置的檢索處理動作的流程圖。圖13是表示本發(fā)明的實施方式3所涉及的檢索裝置的結構的功能框圖。圖14是表示實施方式3所涉及的檢索裝置的檢索處理動作的流程圖。
具體實施例方式下面參照附圖,對本發(fā)明的優(yōu)選實施方式進行詳細說明。實施方式1.圖1是本發(fā)明設想的檢索裝置的整體結構。輸入部10受理基于文本、語音等的輸入,根據(jù)需要參照大詞匯語音識別詞典103轉換為檢索部20可受理的形式。檢索部20參照檢索用索引102進行模糊檢索。提示部30參照名稱信息詞典101向用戶提示基于檢索部20的檢索結果的名稱、附帶信息。名稱信息詞典101、檢索用索引102以及大詞匯語音識別詞典103是根據(jù)檢索對象的數(shù)據(jù)制作出的。當檢索對象成為大規(guī)模時,這些數(shù)據(jù)大小也變大,因此配置在二次存儲裝置40上。圖2是表示本發(fā)明的實施方式1所涉及的檢索裝置的結構的功能框圖。檢索裝置包括名稱信息詞典101、檢索用索引102、作為輸入部10的結構單元的一例的輸入單元201、檢索歷史存儲單元202、縮小方式選擇單元203、候補得分更新單元204、 候補決定單元205、作為提示部30的結構單元的一例的候補提示單元206。本發(fā)明的特征部分在于包括縮小方式選擇單元203,按照從檢索歷史存儲單元 202讀出的檢索歷史決定縮小方式這點。下面對各功能塊的動作進行說明。名稱信息詞典101為與用于向用戶提示的名稱ID (identification)對應的表述、 發(fā)音等名稱信息。圖3是由名稱ID與名稱的讀法構成的名稱信息詞典101的例子。如果名稱信息詞典101為與名稱ID相對應的信息,則也可以登記單詞分割結果、表述等。檢索用索引102對部分字符串存儲相應的名稱ID。能夠根據(jù)輸入的部分字符串參照名稱ID,更新每個名稱ID的得分。部分字符串的單位需要事先決定,使用單詞(日文的情況是詞素)、字符N-gram等。除了名稱ID以外還能夠賦予名稱內(nèi)的位置信息、tf · idf 等信息檢索上的重要度等。圖4是與圖3對應的基于字符2-gram的檢索用索引102的例子。檢索用索引能夠根據(jù)任意的兩個字符參照相應的名稱ID。輸入單元201受理用戶的輸入并向候補得分更新單元204輸出檢索用的字符串。檢索歷史存儲單元202存儲迄今為止的用戶的檢索歷史。檢索歷史是由輸入ID、 用戶的輸入字符串、構成該時刻的檢索結果的名稱ID及其得分構成。每當產(chǎn)生縮小時,向檢索歷史追加,當解除縮小時,檢索歷史的候補被全部清除。檢索歷史由適當?shù)牡梅值拈撝祷蚩商崾镜暮蜓a數(shù)終結。圖5是檢索歷史的例子。當檢索歷史存儲單元202中存儲有檢索歷史時,縮小方式選擇單元203根據(jù)存儲在檢索歷史存儲單元202中的候補數(shù)、得分等選擇縮小方法。候補得分更新單元204針對由輸入單元201獲取的字符串,根據(jù)構成字符串的部分字符串,對具備在候補得分更新單元204中的合計用表格的名稱ID的得分進行更新。合計用表格被賦予每個名稱ID的得分、以及表示通過縮小而成為合計對象的合計標志。圖6 是表示合計用表格的合計得分與合計標志的例子。當沒有檢索歷史時,清除合計用表格的所有名稱ID的得分,設置合計用表格的合計標志。為了從由候補得分更新單元204獲取的得分超過規(guī)定值的候補中向用戶進行提示,候補決定單元205從合計用表格中提取規(guī)定數(shù)以下的候補、為了檢索而保持的候補的名稱ID及其得分,向候補提示單元206和檢索歷史存儲單元202輸出。候補提示單元206參照名稱信息詞典101,向用戶提示與從候補決定單元205獲取的名稱ID列表對應的名稱。接著,對本發(fā)明的實施方式1所涉及的檢索裝置的動作進行說明。圖7是表示實施方式1所涉及的檢索裝置的檢索處理動作的流程圖。這里,假設檢索歷史存儲單元202中存儲有h次的檢索歷史S [i] (i = 1. . h)。輸入單元201獲取用戶輸入的字符串,輸出檢索請求(步驟S1001)。當存在檢索請求時,縮小方式選擇單元203參照檢索歷史存儲單元202確認是否存在針對輸入字符串的檢索歷史(歷史數(shù)h是否為1以上)(步驟S1002)。在歷史數(shù)為0時, 針對合計用表格的所有候補設置檢索對象的合計標志,將得分清除為0,進入步驟S1008。在歷史數(shù)為1以上時,縮小方式選擇單元203參照存儲在檢索歷史存儲單元202 中的檢索歷史的總共的輸入字符串的長度、最終歷史的候補數(shù)、最終歷史的候補得分分布的至少一個,從(1)根據(jù)過去輸入重新檢索合計用表格的得分再計算、( 將檢索對象限定為上位候補限定在檢索歷史存儲單元202保持的候補內(nèi)、中,選擇縮小方法(步驟 SlO(XB)??s小方法選擇的詳細內(nèi)容將在后面描述。在得分再計算時進入步驟S1004,在限定在檢索歷史存儲單元202保持的候補內(nèi)時進入步驟S1007。在選擇了得分再計算時,根據(jù)過去歷史的輸入重新計算合計用表格的每個名稱ID 的得分。首先,針對合計用表格的所有候補設置合計標志,將參照的歷史編號i設置為1 (步驟 S1004)。接著,候補得分更新單元204從包含在歷史信息S[i]中的輸入字符串中讀出檢索用索引102的部分字符串索引,對每個候補的得分進行相加(步驟S1005)。如果參照的歷史i小于存儲的歷史數(shù)h,則對i加1,返回步驟S1005。否則進入步驟S1008 (步驟S1006)。其結果,考慮了所有歷史的輸入字符串的得分被賦予給候補的名稱 ID。在將縮小方法限定在檢索歷史存儲單元202保持的候補內(nèi)時,候補得分更新單元 204設置合計用表格的最新檢索歷史S [h]中所保持的名稱ID的合計標志,更新得分(步驟
51007)。候補得分更新單元204獲取用于參照與從輸入單元201獲取的字符串對應的檢索用索引102的部分字符串,參照檢索用索引102,對基于部分字符串的得分進行相加(步驟
51008)。候補決定單元205從合計用表格中提取規(guī)定數(shù)以下的從由候補得分更新單元204獲取的得分超過規(guī)定值的候補中對用戶提示的提示用的名稱ID及其得分,確定提示候補 (步驟 S1009)。檢索歷史存儲單元202存儲候補決定單元205從合計用表格中提取的輸入字符串、提示候補的名稱ID、得分(步驟S1010)。候補提示單元206參照名稱信息詞典101,獲取與提示的名稱ID對應的名稱等提示內(nèi)容,向用戶提示(步驟S1011)。(縮小方式的選擇基準)對圖2的縮小方式選擇單元203中縮小方法的選擇基準進行說明。圖8是將對某個輸入(A) (B)的檢索結果的候補以X軸為次序、以Y軸為得分而表示的圖。根據(jù)候補的妥當性設定閾值。另外,為了確保妥當?shù)捻憫?,同時設定提示的候補數(shù)的上限。當比較(A)、⑶兩個輸入時,輸入㈧與輸入⑶相比,候補數(shù)少且得分下降。這表示輸入(A)為僅出現(xiàn)在特定的名稱中的表現(xiàn),縮小候補的效果大。另一方面,輸入(B)在與輸入(A)為同一次序的得分大。這表示輸入(B)為常見的表現(xiàn),縮小候補的效果小。在輸入(A)的得分分布的情況下,認為妥當性高的候補包含在規(guī)定的閾值·候補數(shù)內(nèi)。另一方面,在輸入(B)的得分分布時,認為除了規(guī)定的候補數(shù),除此以外還存在很多類似的候補。在上述中,輸入(A)的情況認為妥當性高的名稱包含在保持的候補內(nèi)。因此, 對于追加的輸入限定在保持的候補內(nèi)而進行縮小。這種情況下,由于僅針對追加輸入以限定的候補為對象進行合計,因此運算量小。在輸入(B)的情況下,候補數(shù)很多,在保持的名稱數(shù)存在限制時,具有妥當性的名稱有可能從保持的候補數(shù)遺漏。因此,使用檢索歷史中包含的所有輸入再次進行檢索。與輸入(A)的情況相比,輸入(B)的情況下運算量大。由于用戶輸入的大部分為具有縮小效果的(A)類型的輸入,因此通過結合兩者來能夠抑制平均運算量。一般而言,與(A)相比(B)在多數(shù)情況下為短的輸入。因此,除了得分閾值中的候補數(shù)以外,輸入的長度也可以作為進行上述判別的基準。此外,在上述說明中,輸入單元201獲取用戶的文本輸入,但參照大詞匯識別詞典 103,識別語音輸入并由文本輸出也是同樣的。如上所述,根據(jù)本實施方式1,根據(jù)候補的得分分布、候補數(shù)控制縮小方法。因此, 當妥當性高的候補少時,限定對象來進行縮小,能夠縮短運算時間。另外,當妥當性高的候補多時,參照檢索歷史的輸入字符串,進行擴大了范圍的檢索。因此,即使是較小的檢索歷史大小,也不會產(chǎn)生遺漏,實現(xiàn)平均運算時間短的檢索。實施方式2.圖9是表示本發(fā)明的實施方式2所涉及的檢索裝置的結構的功能框圖。實施方式 2所涉及的檢索裝置在實施方式1的檢索裝置中追加設置了縮小用識別詞典生成單元302。 另外,設想輸入為語音。下面,對與實施方式1相同的結構標注與在圖2中使用的符號相同的符號,省略或簡化說明。大詞匯識別詞典103是為了識別對檢索對象的名稱信息的用戶的檢索表現(xiàn)而事先制作的語音識別用詞典。一般而言,在語音識別中,通過語音識別詞典越是能夠限定接下來出現(xiàn)的單詞,越能夠期待高識別率。在以下的說明中,作為識別詞典的例子,對基于在大詞匯語音識別中廣泛使用的N-GRAM語言模型(N= 2)的識別詞典進行說明。N-gram語言模型是根據(jù)緊接之前的N-I單詞推定接下來出現(xiàn)的單詞的概率的模型。N = 2時,根據(jù)緊接之前的單詞預測下一單詞,被稱為雙字母組(bi-gram)。雙字母組語言模型根據(jù)構成識別詞典的任意的兩個單詞wl與的連接概率P (w2 I wl),從識別中的單詞預測接下來出現(xiàn)的單詞。圖10是表示識別對象的單詞wl、w2的連接概率P(w2|wl)的圖。圖中,單詞START(開始)與ENT(結束)為表示句首、句尾的虛擬性單詞。連接概率 P(w2|wl)是根據(jù)實際的發(fā)聲內(nèi)容、檢索對象的名稱等學習數(shù)據(jù)中的出現(xiàn)頻率進行計算。然而,學習數(shù)據(jù)量具有限制,例如對于5000個單詞具有2千5百萬的雙字母組(5000的平方) 的龐大組合。因此,盡管具有連接的可能性,卻會產(chǎn)生學習數(shù)據(jù)中未出現(xiàn)的具有連接可能性的單詞列。這種情況下,如果將概率設為0,則完全不能識別相應的單詞列。因此,使用即使對于未出現(xiàn)的單詞的組合也分配小概率的語音模型的平滑化(smoothing)。例如,圖10中的 "START 二々- >”這一單詞的組合是學習數(shù)據(jù)中不存在而分配了小概率的例子。作為輸入部10的一個實施方式的語音輸入單元301受理用戶的語音輸入,參照識別詞典進行語音識別并輸出字符串。識別詞典具有通過限定設想的用戶的發(fā)聲來提高識別率的效果。在上述縮小用識別詞典生成單元302輸出了識別詞典時,參照該識別詞典,在不輸出識別詞典時,參照事先制作的覆蓋用戶的多種檢索表現(xiàn)的大詞匯識別詞典103。使用了識別詞典的一般的語音識別方法在非專利文獻4和非專利文獻5中有詳細說明。非專利文獻4 《語音識別的基礎(上)(下))》、Lawrence Rabiner,Biing-Hwang Juang合著、古井貞熙監(jiān)譯、NTT高新技術株式會社非專利文獻5 《SPOKEN LANGUAGE PROCESSING-Α guideto Theory, Algorithm and System Development-)》、Xuedong Huang, Alex Acero,Hsiao-ffuen Hon合著、Prentice Hall。當產(chǎn)生了縮小輸入時,縮小方式選擇單元203按照基于存儲在檢索歷史存儲單元 202中的檢索歷史的縮小方法,決定是否生成縮小用識別詞典??s小用識別詞典生成單元302在縮小方式選擇單元203選擇的縮小方法限定在存儲在檢索歷史存儲單元202中的候補內(nèi)時,獲取與作為對象的名稱ID對應的名稱信息,根據(jù)名稱信息101生成縮小用的詞典。圖11是識別圖3所示的三個名稱以及構成的單詞的縮小用識別詞典的例子。語音識別對象為從由‘‘START(開始)”表示的節(jié)點到由‘‘END(結束)”表示的節(jié)點的路徑。中途,由通過的片假名記載的節(jié)點表示語音識別的單位。圖中,設定了以單詞為單位跳躍的路徑,能夠受理部分性表現(xiàn)。另外,由“力7寸* ”與“ 3 二 /、”共用的音節(jié)即末尾的“ 二 , 工被合并,以使網(wǎng)絡的大小小型化。如上所示用網(wǎng)絡表現(xiàn)的識別詞典能夠以僅對與縮小對象有關的發(fā)聲進行識別的方式制作。因此,設想所有的檢索對象,與受理多種表現(xiàn)的大詞匯語音識別詞典103相比非常緊湊化,對縮小對象的識別率提高。然而,由于詞典的制作需要與作為對象的名稱數(shù)相應的運算量,因此當縮小對象多時,難以在短時間內(nèi)生成詞典。接著,對本發(fā)明的實施方式2所涉及的檢索裝置的動作進行說明。圖12是表示實施方式2所涉及的檢索裝置的檢索處理動作的流程圖。圖中的記號11、5[1](1 = 1..1!)的含義與圖7相同??s小用識別詞典生成單元302參照檢索歷史存儲單元202以及縮小方式選擇單元203的狀態(tài),確認是否是縮小且檢索歷史存儲單元202保持的候補內(nèi)限定處理(步驟 S2001)。在縮小且檢索歷史存儲單元202保持的候補內(nèi)限定時,縮小用識別詞典生成單元 302參照名稱信息詞典101、檢索歷史存儲單元202,生成可受理作為對象的候補中可出現(xiàn)的表現(xiàn)的識別詞典,作為語音輸入單元301的識別詞典(步驟S2002)。如果不是,語音輸入單元301讀入大詞匯語音識別詞典103 (步驟S2003)。語音輸入單元301根據(jù)設定的識別詞典對用戶的發(fā)聲進行語音識別,獲取識別結果字符串,向候補得分更新單元204輸出該字符串,進行檢索請求(步驟S2004)。候補得分更新單元204對于檢索請求首先確認檢索歷史存儲單元202中是否存在檢索歷史(歷史數(shù)h是否為1以上)(步驟S2005)。在歷史數(shù)為0時,針對合計用表格的所有候補設置檢索對象的合計標志,將得分清除為0,進入步驟S2012。在歷史數(shù)為1以上時,縮小方式選擇單元203參照存儲在檢索歷史存儲單元202 中的總共的輸入字符串的長度、最終歷史的候補數(shù)、最終歷史的候補得分分布的至少一個, 從(1)根據(jù)過去輸入重新檢索合計用表格的得分再計算、( 將檢索對象限定為上位候補限定在檢索歷史存儲單元202保持的候補內(nèi)、中,選擇縮小方法(步驟S2006)。在得分再計算時進入步驟S2007,在限定在檢索歷史存儲單元202保持的候補內(nèi)時進入步驟 S2010。在選擇了得分再計算時,針對合計用表格的所有候補設置合計標志,參照存儲在檢索歷史存儲單元202中的過去的檢索歷史重新計算得分。首先,將參照的歷史編號i設置為1 (步驟S2007)。接著,候補得分更新單元204從包含在歷史信息S[i]中的輸入字符串中讀出檢索用索引的部分字符串索引,對每個候補的得分進行相加(步驟S2008)。如果參照歷史i小于歷史數(shù)h,則對i加1,返回步驟S2008。否則進入步驟 S2011(步驟S2009)。其結果,考慮了合計用表格的所有歷史的得分被賦予給候補的名稱 ID。在限定在保持的候補內(nèi)時,候補得分更新單元204設置保持在最新的檢索歷史 S[h]中的名稱ID的合計標志,更新得分(步驟S2010)。候補得分更新單元204獲取用于參照與從輸入單元301獲取的字符串對應的檢索用索引的部分字符串,參照檢索用索引102,對基于部分字符串的得分進行相加(步驟 S2011)。候補決定單元205從合計用表格中提取從由候補得分更新單元204獲取的得分超過規(guī)定值的候補中對用戶提示的規(guī)定數(shù)以下的提示用名稱ID及其得分,確定提示候補(步驟 S2012)。檢索歷史存儲單元202存儲由候補決定單元205提取的輸入字符串、提示候補的名稱ID、得分(步驟S2013)。候補提示單元206參照名稱信息詞典101,獲取與由候補決定單元205提取的提示
9的名稱ID對應的名稱等提示內(nèi)容,向用戶提示(步驟S1014)。如上所述,根據(jù)本實施方式2,按照考慮了候補數(shù)的檢索歷史生成縮小詞典。因此, 只限于對象被限定的情況下,通過動態(tài)生成以限定的名稱為對象的識別詞典,從而不需要很長的處理時間,改善識別精度。當候補數(shù)多時,由于識別詞典生成需要時間,而限定縮小候補的效果相對減小,因此不生成縮小用的識別詞典。實施方式3.圖13是表示本發(fā)明的實施方式3所涉及的檢索裝置的結構的功能框圖。實施方式3所涉及的檢索裝置在實施方式2的檢索裝置中追加設置了縮小用識別詞典適應化單元 401。下面,對與實施方式2相同的結構標注與圖9使用的符號相同的符號,省略或簡化說明。語音輸入單元301受理用戶的語音輸入,參照識別詞典進行語音識別并輸出字符串。識別詞典在沒有檢索歷史時,參照大詞匯識別詞典103。在有檢索歷史時,根據(jù)縮小方式選擇單元203,參照從縮小用識別詞典生成單元301或縮小用識別詞典適應化單元401的某一方輸出的識別詞典??s小用識別詞典適應化單元401按照縮小方式選擇單元203的指示,參照檢索歷史的輸入字符串,對大詞匯識別詞典103所給予的單詞或單詞列的概率進行用于縮小的適應化。具體而言,在識別詞典為雙字母組語言模式時,提高后續(xù)于存儲在檢索歷史中的最后的語音識別結果的輸入的表現(xiàn)的出現(xiàn)概率。例如,在圖10所示的雙字母組中,緊接之前發(fā)聲為“力7寸矢,,時,(wl,w2)=(力7寸矢,-々工 >)的概率為0.2??s小時,考慮后續(xù)于緊接之前發(fā)聲的單詞易于出現(xiàn),提高將“力7寸3?”置換為START的(wl,w2) = (START, -々工 > )的概率。其結果,與使用可受理多種表現(xiàn)的大詞匯識別詞典103時相比,對縮小發(fā)聲得到高識別率。上述所示的適應化中,通過保持在檢索歷史存儲單元202中的檢索歷史的字符串修正已構筑的大詞匯識別詞典的概率的一部分。因此,基于縮小的精度改善的效果雖然小于詞典再制作,但是不依賴于檢索結果的候補數(shù)就能夠進行基于一定運算量的適應化。圖14是表示實施方式3所涉及的檢索裝置的檢索處理動作的流程圖。圖中的記號h、S[i] (i = 1. . h)的含義與圖12相同??s小用識別詞典生成單元302參照檢索歷史存儲單元202以及縮小方式選擇單元 203的狀態(tài),確認是否為縮小且候補內(nèi)限定處理(步驟S3001)。在縮小且候補內(nèi)限定時,縮小用識別詞典生成單元302參照名稱信息詞典101、檢索歷史存儲單元202,生成可受理作為對象的候補中可出現(xiàn)的表現(xiàn)的識別詞典,作為語音輸入單元301的識別詞典(步驟S3002)。在不是縮小且候補內(nèi)限定時,縮小用識別詞典適應化單元401讀入大詞匯識別詞典103,根據(jù)檢索歷史中記載的字符串對識別詞典的單詞連鎖概率進行用于縮小的適應化, 作為語音輸入單元301的適應化識別詞典(步驟S3003)。語音輸入單元301根據(jù)設定的識別詞典對用戶的發(fā)聲進行語音識別,獲取識別結果字符串(步驟S3004)。候補得分更新單元204對于檢索請求首先確認檢索歷史存儲單元202中是否存在輸入歷史(歷史數(shù)h是否為1以上)(步驟S3005)。在歷史數(shù)為0時,針對所有候補設置檢索對象的合計標志,將得分清除為0,進入步驟S3012。在歷史數(shù)為1以上時,縮小方式選擇單元203參照存儲在輸入歷史中的合計的輸入字符串的長度、最終歷史的候補數(shù)、最終歷史的候補得分分布中的至少一個,從(1)根據(jù)過去輸入重新檢索合計用表格的得分再計算、( 將檢索對象限定為上位候補限定在檢索歷史存儲單元202保持的候補內(nèi)、中,選擇縮小方法(步驟S3006)。在得分再計算時進入步驟S3007,在限定在保持的候補內(nèi)時進入步驟S3010。在選擇了得分再計算時,針對合計用表格的所有候補設置合計標志,參照過去歷史重新計算得分。首先,將參照的歷史編號i設置為1 (步驟S3007)。接著,候補得分更新單元204從包含于歷史信息S[i]中的輸入字符串中讀出部分字符串索引,對每個候補的得分進行相加(步驟S3008)。如果參照歷史i小于歷史數(shù)h,則對i加1,返回步驟S3008。否則進入步驟 S3011(步驟S3009)。其結果,考慮了合計用表格的所有歷史的得分被賦予給候補的名稱 ID。在限定在保持的候補內(nèi)時,候補得分更新單元204設置保持在最新的檢索歷史 S[h]中的名稱ID的合計標志,更新得分(步驟S3010)。候補得分更新單元204獲取用于參照與從輸入單元201獲取的字符串對應的檢索用索引的部分字符串,參照檢索用索引101,對基于部分字符串的得分進行相加(步驟 S3011)。候補決定單元205從合計用表格中提取從由候補得分更新單元204獲取的得分超過規(guī)定值的候補中對用戶提示的規(guī)定數(shù)以下的提示用名稱ID及其得分,確定提示候補(步驟 S3012)。檢索歷史存儲單元202存儲由候補決定單元205提取的輸入字符串、提示候補的名稱ID、得分(步驟S3013)。候補提示單元206參照名稱信息詞典102,獲取與由候補決定單元205確定的提示的名稱ID對應的名稱等提示內(nèi)容,向用戶提示(步驟S1014)。如上所述,根據(jù)本實施方式3,在候補數(shù)為少數(shù)的情況下,生成限定為對象候補的縮小用的語音識別詞典,在候補數(shù)為多數(shù)的情況下,根據(jù)檢索歷史的輸入對大詞匯識別詞典103進行適應化。由于使用與縮小對象相配的縮小用的識別詞典,因此不需要大量的處理時間,與參照大詞匯識別詞典時相比改善識別精度。產(chǎn)業(yè)上的可利用性本發(fā)明的檢索裝置有可能適用于文章或設施名稱的檢索裝置,特別適合利用于嵌入其他裝置的較小規(guī)模的檢索裝置。
權利要求
1.一種檢索裝置,包括輸入單元,受理用戶輸入,輸出檢索請求;檢索歷史存儲單元,存儲檢索歷史,該檢索歷史包括來自于輸入單元的輸入內(nèi)容以及候補列表;縮小方式選擇單元,根據(jù)檢索請求,按照存儲在檢索歷史存儲單元中的檢索歷史的內(nèi)容,從以下兩種方式中選擇縮小方法將檢索對象限定為上位候補的方式;以及根據(jù)過去輸入而重新檢索的方式;候補得分更新單元,根據(jù)選擇的縮小方式,從檢索歷史中設定檢索候補及其得分,基于從輸入單元受理的字符串,以檢索用索引為參照更新候補得分;候補決定單元,根據(jù)通過候補得分更新單元更新的候補數(shù)與得分的分布,決定要提示的候補;以及候補提示單元,參照名稱信息數(shù)據(jù),對用戶提示由候補決定單元決定的候補。
2.根據(jù)權利要求1所述的檢索裝置,其特征在于,包括語音識別用的大詞匯識別詞典;以及縮小用識別詞典生成單元,在所述縮小方式選擇單元選擇了限定為上位候補的方式的情況下,根據(jù)對象候補的名稱信息而生成縮小用識別詞典,所述輸入單元輸入語音,在所述縮小方式選擇單元選擇了限定為上位候補的情況下使用縮小用識別詞典進行語音識別并輸出文本,其他情況下使用大詞匯識別詞典進行語音識別并輸出文本。
3.根據(jù)權利要求2所述的檢索裝置,其特征在于,包括縮小用識別詞典適應化單元,在所述縮小方式選擇單元選擇了基于過去輸入的重新檢索的情況下,根據(jù)檢索歷史,以使得適應設想的縮小發(fā)聲的方式修正大詞匯識別詞典,作為適應化識別詞典,所述輸入單元輸入語音,按照縮小方式選擇單元讀入縮小用識別詞典或適應化識別詞典,對語音進行識別并輸出文本。
全文摘要
在現(xiàn)有的檢索技術中,檢索結果具有多個候補時的候補縮小方式的一個方法為了防止候補遺漏而產(chǎn)生龐大數(shù)量的候補導致管理成本增大,其他方法由于總是以全部候補為對象進行處理,因此處理時間長,響應性下降。將包括來自于輸入單元的輸入內(nèi)容與候補列表的檢索歷史存儲在檢索歷史存儲單元中,按照存儲的檢索歷史內(nèi)容,由縮小方式選擇單元從將檢索對象限定為上位候補的方式、與基于過去輸入重新檢索的方式中選擇縮小方法,按照選擇的縮小方式從檢索歷史中設定檢索候補及其得分,基于來自于輸入單元的字符串以檢索用索引為參照由候補得分更新單元更新候補得分,根據(jù)更新的候補數(shù)及其得分的分布由候補決定單元決定提示候補,參照名稱信息數(shù)據(jù)由候補提示單元對用戶提示決定的候補。
文檔編號G10L15/28GK102365639SQ201080015020
公開日2012年2月29日 申請日期2010年2月9日 優(yōu)先權日2009年4月6日
發(fā)明者岡登洋平, 花沢利行 申請人:三菱電機株式會社