聲音檢索裝置和聲音檢索方法

文檔序號：10552918閱讀：402來源：國知局

聲音檢索裝置和聲音檢索方法
【專利摘要】本發(fā)明提供聲音檢索裝置和聲音檢索方法。聲音檢索裝置(100)的存儲部(160)存儲錄音聲音的錄音數(shù)據(jù)(161)。受理部(151)受理被輸入的檢索詞。聲音檢索部(152)從錄音聲音中檢索被推斷為發(fā)出受理到的檢索詞的音的候補區(qū)間。再生部(154)再生聲音檢索部(152)檢索到的候補區(qū)間的聲音。顯示控制部(153)基于再生部(154)進行的候補區(qū)間的聲音的再生結果，在表示錄音聲音的時間的推移的顯示信息中附加對該候補區(qū)間的聲音的發(fā)聲位置進行確定的標記。
【專利說明】
聲音檢索裝置和聲音檢索方法
技術領域
[0001]本發(fā)明涉及聲音檢索裝置和聲音檢索方法。
【背景技術】
[0002]近年來，在研究從記錄的聲音中檢索用戶想要聽到的聲音的出聲位置的聲音檢索的技術。
[0003]例如，在專利文獻I (JP特開2001-290496號公報)中公開了一種聲音檢索裝置，在聲音檢索時由用戶對檢索關鍵詞進行聲音輸入，檢索與該聲音輸入的檢索關鍵詞一致的聲音的出聲位置。
[0004]然而，有時聲音檢索裝置檢索到的聲音和用戶想要聽到的聲音不一致。為此，用戶需要將聲音檢索裝置檢索到的聲音再生來進行和自己想要聽到的聲音是否一致的正誤確認。
[0005]該正誤確認的作業(yè)通常通過用戶分別個別地再生被檢索到的多個聲音并依次確認來進行。在該正誤確認的作業(yè)時所顯示的圖形的信息優(yōu)選以用戶易于理解的方式來顯不O
[0006]但是，存在如下情況:用戶即使再生被檢索到的聲音也不能在時間軸上以視覺把握其再生位置，或者用戶即使將檢索到的聲音判斷為正確也不能在時間軸上以視覺把握其位置。為此，在伴隨聲音檢索而產(chǎn)生的用戶作業(yè)中，存在信息的顯示形式(U1:用戶界面)從視覺辨識性、操作性的觀點來看并不充分這樣的問題。

【發(fā)明內(nèi)容】

[0007]因此，本發(fā)明為了解決上述問題而形成，其目的在于，提供適合于在伴隨聲音檢索的用戶作業(yè)中顯示視覺辨識性、操作性優(yōu)異的用戶界面的情況的聲音檢索裝置等。
[0008]為了達成上述目的，本發(fā)明的聲音檢索裝置的特征在于，包括:存儲單元，其對錄音聲音進行存儲;受理單元，其受理被輸入的檢索詞；檢索單元，其從所述錄音聲音中檢索被推斷為發(fā)出所述受理到的檢索詞的音的候補區(qū)間；再生單元，其再生所述檢索單元檢索到的候補區(qū)間的聲音;和顯示控制單元，其基于所述再生單元的所述候補區(qū)間的聲音的再生結果，在表示所述錄音聲音的時間的推移的顯示信息中附加對該候補區(qū)間的聲音的發(fā)聲位置進行確定的標記并顯示于顯示部。
[0009]發(fā)明效果
[0010]根據(jù)本發(fā)明，能在伴隨聲音檢索的用戶作業(yè)中顯示視覺辨識性、操作性優(yōu)異的用戶界面。
【附圖說明】
[0011 ]圖1是表示聲音檢索裝置的構成的方框圖。
[0012]圖2是表示再生模式下的顯示畫面的一例的圖。
[0013]圖3是表示在聲音波形上顯示標記的顯示例的圖。
[0014]圖4是表示聲音檢索處理的流程的一例的流程圖。
[0015]圖5是表示檢索結果處理的流程的一例的流程圖。
【具體實施方式】
[0016]以下基于附圖來說明本發(fā)明的實施方式。
[0017]如圖1所示那樣，聲音檢索裝置100具備:麥克風110、揚聲器120、顯示部130、輸入部140、控制部150、存儲部160。該聲音檢索裝置100是從錄音聲音中對用戶所輸入的檢索詞進行聲音檢索的裝置，例如是PC(Personal Computer)、錄音機、智能手機等。在本實施方式中，作為一個例子，以聲音檢索裝置100是智能手機為前提進行說明。
[0018]麥克風110是采集外部聲音的聲音輸入部。
[0019]揚聲器120是將聲音作為可聽音進行外部輸出的聲音輸出部。
[0020]顯示部130例如由 LCD(Liquid Crystal Display:液晶顯示器)或 EL(Electroluminescence:電致發(fā)光)顯示器等構成，顯示聲音檢索結果等。
[0021]輸入部140配置在顯示部130的上表面，具備用于用戶進行操作輸入的觸摸面板。在用戶的手指等根據(jù)需要對顯示于顯示部130的各種菜單、操作按鈕、鍵盤等進行了接觸的情況下，輸入部140將該接觸位置的信息作為輸入指示向控制部150輸出。
[0022]控制部150由CPU、R0M、RAM等構成?？刂撇?50的CPU通過讀出并執(zhí)行存儲于ROM的后述的處理(聲音檢索處理)的程序，來實現(xiàn)該處理所涉及的各功能(受理部151、聲音檢索部152、顯示控制部153以及再生部154)。
[0023]另外，該聲音檢索處理的程序通過由聲音檢索裝置100的用戶預先下載并安裝聲音檢索用的智能手機應用程序，從而能夠由控制部150執(zhí)行。
[0024]存儲部160是HDD等非易失性存儲器。該存儲部130存儲錄音聲音的數(shù)據(jù)即錄音數(shù)據(jù)161(以下也稱作聲音文件)。
[0025]該聲音檢索裝置100具備錄音模式和再生模式。在錄音模式下，作為成為聲音檢索的前提的前處理，對成為聲音檢索的對象的聲音進行錄音。在再生模式下，對錄音模式下被錄音的錄音聲音進行再生。在再生模式下，在從用戶想要重聽的位置起進行再生的所謂跳轉再生之前進行聲音檢索。
[0026]在此，在錄音模式下，聲音檢索裝置100的控制部150若從用戶受理到錄音開始的指示，則開始錄音，若受理到錄音結束的指示，則結束錄音。然后，控制部150將錄音數(shù)據(jù)(聲音數(shù)據(jù))161存儲在存儲部160中。用戶在錄音模式下預先對自己之后重聽的對象的聲音(例如會議聲音、講課聲音等)進行錄音。
[0027]接下來說明控制部150的再生模式所涉及的各功能(受理部151、聲音檢索部152、顯示控制部153以及再生部154)。
[0028]受理部151受理被輸入的檢索詞。該檢索詞是用于聲音檢索的檢索關鍵詞，是由漢字、平假名、片假名、字母等構成的文本。
[0029]在此，參考圖2來說明檢索詞的輸入。圖2是表示智能手機應用程序的再生模式下的顯示畫面的一例的圖。聲音檢索裝置100的顯示部130顯示:用于用戶以文本輸入檢索詞的檢索框131;在時間軸t上顯示錄音聲音的聲音波形的波形顯示區(qū)域132;以及顯示檢索結果的一覽的檢索結果列表133。
[0030]受理部151受理用戶在檢索框131中輸入的檢索詞(圖2中為“&卩、5免掃”)。
[0031]返回圖1，聲音檢索部152從錄音聲音中檢索被推斷為發(fā)出受理到的檢索詞的音的候補區(qū)間。具體來說，若用戶按下圖2所示的聲音檢索按鈕，則聲音檢索部152將受理到的檢索詞變換成音素串，基于該變換后的音素串從錄音聲音中檢索候補區(qū)間。
[0032]更具體地，聲音檢索部152在變換成音素串后從音素數(shù)據(jù)庫(未圖示)中取得各音素的持續(xù)長度，基于各音素的持續(xù)長度求取檢索詞的出聲時長。然后，聲音檢索部152將出聲時長作為候補區(qū)間的I個單位，按每個該區(qū)間單位對變換后的音素串和錄音聲音數(shù)據(jù)進行比較，求取似然度(表示檢索詞的聲音和錄音聲音的區(qū)間單位中的聲音之間的相似程度的指標)。在該似然度計算中，聲音檢索部152例如能借助倒譜(cepstrum)或梅爾倒譜等將聲音數(shù)據(jù)變換成特征量并進行比較，從而算出似然度。
[0033]顯示控制部153將與聲音檢索部152檢索到的候補區(qū)間對應的候補圖標(候補識別信息)135作為檢索結果顯示在顯示部130的檢索結果列表133中。在此，在聲音檢索部152檢索到很多候補區(qū)間的情況下，顯示控制部153將給定數(shù)的對候補區(qū)間進行識別的候補圖標按照似然度順序從高位起顯示在檢索結果列表133中。
[0034]在圖2中，作為一例，示出以下情況:聲音檢索部152對被推斷為發(fā)出檢索詞無掃”的音的候補區(qū)間進行檢索，顯示控制部153將其高位4個候補區(qū)間按照似然度順序進行顯示。檢索結果列表133的各條目由以下構成:用戶在選擇候補區(qū)間的情況下進行勾選的勾選框134(134a?134d);由時鐘圖標和候補區(qū)間的發(fā)聲開始時間構成的候補圖標135(135a?135d);和對與候補圖標135對應的候補區(qū)間進行再生的再生按鈕136( 136a?136d)。
[0035]在圖2中，檢索結果列表133的似然度第I位的條目表示發(fā)出“feV、說掃”的音的候補區(qū)間的發(fā)聲開始時間是從錄音開始時間起2.8秒后。另外，以下在不需要特別確定勾選框134a?134d之中的某一個來進行說明的情況下，匯總總稱為勾選框134來進行說明。關于候補圖標135a?135d以及再生按鈕136a?136d也同樣。
[0036]返回圖1，再生部154對聲音檢索部152檢索到的候補區(qū)間的聲音進行再生。具體來說，再生部154從存儲部160讀出并再生與候補圖標135之中被按下了再生按鈕136的候補圖標135對應的候補區(qū)間的聲音數(shù)據(jù)。
[0037]參考圖3來說明該再生處理。
[0038]在圖3的檢索結果列表133中，設為用戶按下了再生按鈕136a。于是，再生部154從存儲部160讀出與候補圖標135a對應的候補區(qū)間的聲音數(shù)據(jù)，通過揚聲器120進行外部輸出。這時，顯示控制部153伴隨候補區(qū)間的聲音的再生，在顯示于顯示部130的波形顯示區(qū)域132的聲音波形上顯示再生位置。如圖3所示那樣，該再生位置由實線P和對該實線P的位置進行確定的指尖光標示出。另外，伴隨候補區(qū)間的聲音的再生而顯示的對象并不限于聲音波形，也可以顯示表示伴隨聲音數(shù)據(jù)的再生的時間的推移的顯示信息，例如顯示按給定間隔示出從開頭起的經(jīng)過時間的棒狀的顯示體等。以下繼續(xù)說明顯示聲音波形的情況。
[0039]在此，用戶一邊以視覺辨識正被再生的候補區(qū)間的聲音的再生位置，一邊聽取該被再生的聲音，來進行是否正發(fā)出自己所輸入的檢索詞(本實施方式中為)的音的正誤確認。若用戶判定為正確，則如圖3所示那樣，用戶在勾選框134a注上勾選。如此，用戶對候補區(qū)間的聲音個別地進行再生并依次進行正誤確認，若正確則進行勾選操作，若不正確，則不進行勾選，如此反復。在圖3的示例中，示出由用戶勾選了似然度第I位和第3位的候補區(qū)間。
[0040]在此，設為用戶按下了追加按鈕137。于是，顯示控制部153將表示在與通過勾選而選擇出的候補區(qū)間對應的錄音聲音數(shù)據(jù)的位置處附加標記這一情況的信息存儲在存儲部160中，并將對選擇出的候補區(qū)間(圖3的示例中為似然度第I位和第3位的候補區(qū)間)的發(fā)聲位置進行確定的標記M(搜索標記Ma以及虛線標記Mb)顯示在顯示于波形顯示區(qū)域132的聲音波形上。在圖3的示例中，虛線標記Mb顯示在候補區(qū)間的聲音的發(fā)聲開始位置，但顯示形式并不限于此，例如可以遍及候補區(qū)間整體進行陰影顯示，或者在候補區(qū)間的中央顯示虛線標記Mb。
[0041]換言之，該顯示控制部153進行的標記M顯示可以說是，基于再生部154的候補區(qū)間的聲音的再生結果，將被確認為發(fā)出檢索詞的音的聲音的位置顯示在錄音聲音的聲音波形上。
[0042]另外，顯示控制部153進行的標記M顯示的實現(xiàn)手法是任意的，但只要例如當用戶在勾選框134注上勾選時將候補區(qū)間的發(fā)聲開始時間與錄音聲音的錄音數(shù)據(jù)161建立對應地存儲，并基于該存儲的發(fā)聲開始時間在錄音聲音的聲音波形上顯示(賦予)標記M即可。
[0043]進而，顯示控制部153在標記M顯示的同時將該檢索詞的文本T(圖3的示例中為“fev、5;t掃”的文本T)附加于標記M而進行顯示。
[0044]如此，顯示控制部153進行UI的顯示控制，即，在顯示部130顯示:I)識別候補區(qū)間的候補圖標135的一覽顯示;2)候補區(qū)間的聲音再生時的再生位置顯示;3)確定檢索詞的發(fā)聲位置的標記M顯示;4)附加于標記M的檢索詞的文本T的顯示等。
[0045]另外，在圖3中，用戶在結束正誤確認的作業(yè)的情況下按下結束按鈕138。在該正誤確認作業(yè)后，用戶能從自己判斷為正確的候補區(qū)間中對錄音聲音進行跳轉再生。
[0046]接下來參考圖4的流程圖來說明聲音檢索處理的流程。
[0047]作為開始該聲音檢索處理的前提，用戶預先選擇在再生模式下自己想要再生的聲音文件。
[0048]在聲音檢索處理中，首先，受理部151判定是否按下了聲音檢索按鈕(步驟S11)。具體來說，受理部151在受理到在檢索框131中輸入的檢索詞后，判定是否有聲音檢索按鈕的按下。
[0049]在此，在沒有聲音檢索按鈕的按下的情況下(步驟Sll;“否”)，受理部151判定是否有錄音聲音的再生指示(步驟S12)。若沒有錄音聲音的再生指示(步驟S12;“否”)，則返回到步驟S11。在此，待機至有聲音檢索按鈕的按下或錄音聲音的再生指示的任一者為止(步驟Sll和S12的循環(huán))。
[0050]在此，若有錄音聲音的再生指示(步驟S12;“是”)，則再生部154從錄音聲音的最初起進行聲音再生(步驟S13)。具體來說，用戶在再生模式下從最初起再生預先選擇的聲音文件的錄音聲音。另外，也可以在從最初起再生錄音聲音的過程中有用戶按下聲音檢索按鈕等中斷操作的情況下，立即進行步驟SI I以下的處理。
[0051]另一方面，在判定為按下了聲音檢索按鈕的情況下(步驟Sll;“是”)，聲音檢索部152從錄音聲音中檢索候補區(qū)間(步驟S14)。具體來說，聲音檢索部152如上述那樣將受理到的檢索詞變換成首素串，基于該變換后的首素串從錄首聲首中檢索候補區(qū)間。
[0052]接下來，顯示控制部153將檢索到的候補區(qū)間一覽顯示(步驟S15)。具體來說，顯示控制部153將對候補區(qū)間進行識別的候補圖標135按照似然度順序顯示在檢索結果列表133中(參考圖2)。
[0053]接下來參考圖5來說明檢索結果處理。
[0054]在檢索結果處理中，首先，受理部151判定是否進行了再生按鈕136的按下(步驟S21)。在未進行再生按鈕136的按下的情況下(步驟S21;“否”)，對按下任一個再生按鈕136(步驟S21和S27的循環(huán))進行待機，直到按下結束按鈕138為止。
[0055]在此，在判定為按下了再生按鈕136的情況下(步驟S21;“是”)，再生部154對候補區(qū)間的聲音進行再生(步驟S22)。具體來說，再生部154對與被按下的再生按鈕136的候補圖標135對應的候補區(qū)間的聲音進行再生。接下來，顯示控制部153在聲音波形上顯示再生位置(步驟S23)。具體來說，顯示控制部153伴隨候補區(qū)間的聲音的再生在顯示于波形顯示區(qū)域132的聲音波形上顯示再生位置(參考圖3的實線P)。這時，用戶一邊以視覺辨識實線P—邊進行被再生的聲音的正誤確認。
[0056]接下來，控制部150判定是否進行了勾選指示(步驟S24)。在此，在用戶在正誤確認中判斷為不正確的情況下，不進行勾選指示，對候補區(qū)間的聲音進行再生并結束(步驟S24;“否”)。并且，若從用戶沒有結束按鈕138的按下(步驟S27;“否”)，則返回步驟S21，用戶對其他候補區(qū)間繼續(xù)進行正誤確認作業(yè)。
[0057]另一方面，設用戶在正誤確認中判斷為正確并進行了勾選指示。例如在圖3中，設用戶為了選擇似然度第I位的候補區(qū)間而在勾選框134a進行了勾選。在該情況下，控制部150判定為進行了勾選指示(步驟S24;“是”)，接下來，判定是否進行了追加按鈕137的按下(步驟S25)。
[0058]在此，在判定為進行了追加按鈕137的按下的情況下(步驟S25;“是”)，顯示控制部153在聲音波形上顯示標記M和文本T(步驟S26)。具體來說，顯示控制部153將對通過勾選指示而選擇出的候補區(qū)間的聲音的發(fā)聲位置進行確定的標記M(搜索標記Ma以及虛線標記Mb)顯示在顯示于波形顯示區(qū)域132的聲音波形上(參考圖3)。同時，顯示控制部153將檢索詞的文本T(圖3的示例中為掃”的文本T)附加于該標記M，并顯示在波形顯示區(qū)域132。另夕卜，這時，將表示在與被選擇出的候補區(qū)間對應的錄音聲音數(shù)據(jù)的位置處附加了標記這一情況的信息存儲在存儲部160中。
[0059]在步驟S26中顯示了標記M和文本T后，或者在判定為未進行追加按鈕137的按下的情況下(步驟S25; “否”)，控制部150判定是否進行了結束按鈕138的按下(步驟S27)。在判定為未進行結束按鈕138的按下的情況下(步驟S27)，返回到步驟S21。在該情況下，用戶繼續(xù)進行正誤判定作業(yè)，并按下檢索結果列表133中顯示的多個再生按鈕136a至136d之中的未再生的再生按鈕(例如若再生按鈕136a再生完畢則是再生按鈕136b)。
[0060]另一方面，在用戶結束正誤確認作業(yè)而按下了結束按鈕138的情況下(步驟S27;“是”)，控制部150結束檢索結果處理。通過該檢索結果處理，將對用戶判斷為正確的候補區(qū)間的聲音的發(fā)聲位置進行確定的標記M顯示在聲音波形上，之后跳轉再生就成為可能。
[0061]返回圖4，在檢索結果處理的結束后，受理部151判定是否有錄音聲音的跳轉再生指示(步驟S16)。具體來說，受理部151判定是否對通過檢索結果處理而顯示在聲音波形上的標記M有觸摸操作。在此，若有錄音聲音的跳轉再生指示(步驟S16; “是”)，即若受理部151判定為對標記M有觸摸操作，則再生部154從標記M所確定的候補區(qū)間的聲音的發(fā)聲位置起進行錄音聲音的跳轉再生(步驟S17)。在步驟S17的跳轉再生后，或者若沒有錄音聲音的跳轉再生指示(步驟S16; “否”)，則結束聲音檢索處理。
[0062]另外，在步驟S16中除了判定是否有跳轉再生指示以外，還可以判定是否有錄音聲音的再生指示。即，進行跳轉再生不是必須的，可以根據(jù)用戶的指示有選擇地進行跳轉再生或從錄音聲音的最初起進行聲音再生的任一者。另外，在圖4中，在步驟S13或17后結束聲音檢索處理，但并不限于此，也可以根據(jù)用戶操作，適當?shù)刂貜瓦M行從不同的標記M位置起的跳轉再生，直到從用戶有結束聲音文件的再生這一意思的指示為止。
[0063]在以上參考圖4以及圖5說明的聲音檢索處理以及檢索結果處理中，聲音檢索裝置100的顯示控制部153基于再生部154的候補區(qū)間的聲音的再生結果，在顯示于顯示部130的波形顯示區(qū)域132的錄音聲音的聲音波形上顯示對該候補區(qū)間的聲音的發(fā)聲位置進行確定的標記M。在本實施方式中，特別是在候補區(qū)間的聲音的再生后，從用戶有表示該再生的聲音是發(fā)出檢索詞的音的聲音的指示的情況(在勾選后按下了追加按鈕137的情況)下，在該聲音波形上顯示標記M。
[0064]由此，在用戶將檢索到的聲音判斷為正確的情況下，能在聲音波形的時間軸上以視覺把握該判斷為正確的候補區(qū)間的位置。因此，由于在跳轉再生時用戶能容易地確定判斷為正確的候補區(qū)間的再生位置，所以能提供視覺辨識性/操作性優(yōu)異的用戶界面。
[0065]另外，在本實施方式中，顯示控制部153將檢索詞的文本T附加于標記M并合并顯示在顯示部130的波形顯示區(qū)域132。由此，由于用戶能將自己檢索的檢索關鍵詞與聲音波形建立關聯(lián)來進行視覺辨識，因此能提供視覺辨識性優(yōu)異的用戶界面。
[0066]另外，在本實施方式中，在聲音檢索部152檢索到多個候補區(qū)間的情況下，顯示控制部153將分別對該多個候補區(qū)間進行識別的候補圖標135a?135d按照似然度順序顯示在顯示部130的檢索結果列表133中。由此，與按時間順序顯示多個候補區(qū)間的情況相比，能盡早發(fā)現(xiàn)自己想要重聽的候補區(qū)間。因此，能高效地進行正誤確認的作業(yè)。
[0067]另外，在本實施方式中，顯示控制部153伴隨再生部154的候補區(qū)間的聲音的再生而在顯示于顯示部130的波形顯示區(qū)域132的聲音波形上顯示再生位置。由此，用戶能在再生候補區(qū)間的聲音的過程中，一邊在聲音波形上以視覺辨識當前的再生位置(實線P和對該實線P的位置進行確定的指尖光標)一邊進行正誤確認作業(yè)。因此，由于用戶能在時間軸上確定再生位置，所以能提供在正誤確認作業(yè)中視覺辨識性優(yōu)異的用戶界面。
[0068]另外，在本實施方式中，顯示控制部153在顯示標記M后再生錄音聲音時，從該標記M所確定的發(fā)聲位置起再生聲音。即，進行跳轉再生。由此，用戶僅使用基于自己所進行的正誤確認作業(yè)的正確的標記M就能高效地進行錄音聲音的重聽。例如在對講課進行了錄音的情況下，在復習講課的錄音聲音時，能高效地進行復習。
[0069]以上結束實施方式的說明，但毫無疑問聲音檢索裝置100的具體構成或圖4以及圖5所示的各處理的內(nèi)容并不限于上述實施方式中說明的內(nèi)容。
[0070]例如，在上述實施方式中，聲音檢索裝置100的顯示控制部153基于用戶的指示進行標記M的顯示，但并不限于此。例如，在利用用戶以外的裝置進行正誤確認作業(yè)的情況下，也可以基于該裝置的正誤確認結果，由顯示控制部153在顯示于波形顯示區(qū)域132的錄音聲音的聲音波形上顯示標記M。
[0071]另外，在上述實施方式中，顯示控制部153按照似然度順序在檢索結果列表133中顯示檢索結果的一覽，但并不限于此。例如，除了一覽顯示以外，顯示控制部153也可以對作為檢索結果而顯示的每個候補區(qū)間在聲音波形上自動顯示標記。在圖3的示例中，顯示控制部153也可以在聲音檢索過程中自動地顯示各個候補圖標135a?135d所識別的每個候補區(qū)間的4個標記。由此，用戶能將作為檢索結果而顯示的多個候補圖標135a?136d與聲音波形建立關聯(lián)來進行視覺辨識。
[0072]另外，在上述實施方式中，圖2以及圖3所示的聲音檢索所涉及的顯示畫面的用戶界面是一個例子，并不限于此。例如，被顯示的用戶界面(標記M、文本T、候補圖標135、表示再生位置的實線P等)的顯示形態(tài)只要無損技術含義，就可以自由變形。例如，搜索標記Ma和虛線標記Mb只要是用戶能確定候補區(qū)間的聲音的發(fā)聲位置，就可以自由地將顯示形態(tài)變形。
[0073]另外，在上述實施方式中的圖5的檢索結果處理中，若有勾選指示(步驟S24;“是”)且有追加按鈕的按下(步驟S25;“是”)，則顯示控制部153顯示標記M和文本T，但并不限于此。例如，也可以是，若受理到用戶在勾選框134進行了勾選這一情況，則顯示控制部153在聲音波形上顯示標記M和文本T。由此，能減輕圖5的檢索結果處理的處理負擔。
[0074]另外，以上述實施方式中的聲音檢索裝置100是安裝了聲音檢索用的智能手機應用程序的智能手機為前提進行了說明，但并不限于此。只要是能存儲聲音檢索所涉及的程序并能予以執(zhí)行的裝置，則無論什么樣的裝置都能執(zhí)行圖4以及圖5中說明的聲音檢索處理和檢索結果處理。例如，聲音檢索裝置100可以是PC、平板終端、錄音機等。
[0075]另外，本發(fā)明的聲音檢索裝置100的各處理(聲音檢索處理、檢索結果處理)還能由通常的PC等計算機來實施。
[0076]具體地，在上述實施方式中，設將用于實現(xiàn)各處理所涉及的各功能的程序預先存儲在控制部150的ROM中而進行了說明。但是，也可以將用于實現(xiàn)圖1的各部的功能的程序保存在軟盤、CD_R0M(Compact Disc Read Only Memory)、DVD(Digital Versatile Disc)以及M0(Magneto-0ptical Disc)等計算機可讀取的記錄介質中并分發(fā)，通過將該程序安裝在計算機中，從而構成能實現(xiàn)上述各部的功能的計算機。另外，也可以將程序預先保存在因特網(wǎng)等通信網(wǎng)絡上的服務器裝置所具有的盤裝置等中，例如，使計算機能下載等。
[0077]以上說明了本發(fā)明的實施方式，但本實施方式僅是例示，并不限定本發(fā)明的技術范圍。本發(fā)明能采用其他各種實施方式，進一步地，能在不脫離本發(fā)明的主旨的范圍內(nèi)進行省略或置換等各種變更。這些實施方式或其變形包含在權利要求書所記載的發(fā)明和其等同的范圍內(nèi)。
【主權項】
1.一種聲音檢索裝置，包括: 存儲單元，其對錄音聲音進行存儲；受理單元，其受理被輸入的檢索詞；檢索單元，其從所述錄音聲音中檢索被推斷為發(fā)出所述受理到的檢索詞的音的候補區(qū)間；再生單元，其再生所述檢索單元檢索到的候補區(qū)間的聲音;和顯示控制單元，其基于所述再生單元的所述候補區(qū)間的聲音的再生結果，在表示所述錄音聲音的時間的推移的顯示信息中附加對該候補區(qū)間的聲音的發(fā)聲位置進行確定的標記并顯示于顯示部。2.根據(jù)權利要求1所述的聲音檢索裝置，其中，所述顯示控制單元將與所述檢索單元檢索到的多個候補區(qū)間對應的候補識別信息作為檢索結果而顯示于所述顯示部，所述再生單元對與顯示于所述顯示部的候補識別信息之中的、由用戶選擇出的候補識別信息對應的候補區(qū)間的聲音進行再生。3.根據(jù)權利要求2所述的聲音檢索裝置，其中，所述顯示控制單元將分別與所述多個候補區(qū)間對應的候補識別信息按照似然度順序顯示于所述顯示部。4.根據(jù)權利要求1?3中任一項所述的聲音檢索裝置，其中，所述顯示控制單元在所述候補區(qū)間的聲音的再生后從用戶有表示與檢索詞一致的指示的情況下，在所述聲音波形上顯示所述標記。5.根據(jù)權利要求1?4中任一項所述的聲音檢索裝置，其中，所述顯示控制單元伴隨所述再生單元的候補區(qū)間的聲音的再生，在顯示于所述顯示部的聲音波形上顯示再生位置。6.根據(jù)權利要求1?5中任一項所述的聲音檢索裝置，其中，所述顯示控制單元對所述標記附加所述檢索詞的文本。7.根據(jù)權利要求1?6中任一項所述的聲音檢索裝置，其中，所述再生單元在所述顯示控制單元顯示標記后再生所述錄音聲音時，從該標記所確定的發(fā)聲位置起再生聲音。8.根據(jù)權利要求1?7中任一項所述的聲音檢索裝置，其中，表示所述錄音聲音的時間的推移的顯示信息是聲音波形。9.一種聲音檢索方法，包括: 存儲步驟，對錄音聲音進行存儲；受理步驟，受理被輸入的檢索詞；檢索步驟，從所述錄音聲音中檢索被推斷為發(fā)出所述受理到的檢索詞的音的候補區(qū)間；再生步驟，再生在所述檢索步驟中檢索到的候補區(qū)間的聲音；顯示控制步驟，基于所述再生步驟中的所述候補區(qū)間的聲音的再生結果，在表示所述錄音聲音的時間的推移的顯示信息中附加對該候補區(qū)間的聲音的發(fā)聲位置進行確定的標記并顯示于顯示部。10.根據(jù)權利要求9所述的聲音檢索方法，其中，所述顯示控制步驟將與所述檢索步驟檢索到的多個候補區(qū)間對應的候補識別信息作為檢索結果而顯示于所述顯示部，所述再生步驟對與顯示于所述顯示部的候補識別信息之中的、由用戶選擇出的候補識別信息對應的候補區(qū)間的聲音進行再生。11.根據(jù)權利要求10所述的聲音檢索方法，其中，所述顯示控制步驟將分別與所述多個候補區(qū)間對應的候補識別信息按照似然度順序顯示于顯示部。12.根據(jù)權利要求9?11中任一項所述的聲音檢索方法，其中，所述顯示控制步驟在所述候補區(qū)間的聲音的再生后從用戶有表示與檢索詞一致的指示的情況下，在所述聲音波形上顯示所述標記。13.根據(jù)權利要求9?12中任一項所述的聲音檢索方法，其中，所述顯示控制步驟伴隨所述再生步驟的候補區(qū)間的聲音的再生，在顯示于所述顯示部的聲音波形上顯示再生位置。14.根據(jù)權利要求9?13中任一項所述的聲音檢索方法，其中，所述顯示控制步驟對所述標記附加所述檢索詞的文本。15.根據(jù)權利要求9?14中任一項所述的聲音檢索方法，其中，所述再生步驟在所述顯示控制步驟顯示標記后再生所述錄音聲音時，從該標記所確定的發(fā)聲位置起再生聲音。16.根據(jù)權利要求9?15中任一項所述的聲音檢索方法，其中，表示所述錄音聲音的時間的推移的顯示信息是聲音波形。
【文檔編號】G06F3/0482GK105912558SQ201610091055
【公開日】2016年8月31日
【申請日】2016年2月18日
【發(fā)明人】田中孝浩
【申請人】卡西歐計算機株式會社

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：田中孝浩;
技術所有人：卡西歐計算機株式會社;
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

聲音檢索裝置和聲音檢索方法