聲音檢索裝置、聲音檢索方法
【專利說明】聲音檢索裝置、聲音檢索方法
[0001]相關(guān)申請的參照
[0002]關(guān)于本申請要求以2014年3月5日提交的日本專利申請?zhí)卦?014-42541號為基礎(chǔ)的優(yōu)先權(quán),通過本申請而援引該基礎(chǔ)申請的內(nèi)容。
技術(shù)領(lǐng)域
[0003]本發(fā)明涉及聲音檢索裝置以及聲音檢索方法。
【背景技術(shù)】
[0004]近年,伴隨聲音、動畫等的多媒體內(nèi)容的擴(kuò)大/普及,要求高精度的多媒體檢索技術(shù)。關(guān)于聲音檢索,正在研宄一種聲音檢索的技術(shù),其從聲音中確定發(fā)出了與提供的檢索詞(查詢)相對應(yīng)的聲音的部位。在聲音檢索中,由于聲音識別困難這樣的特有的原因,與從字符串中確定包括所希望的檢索詞的部位的字符串檢索的技術(shù)相比,還沒有確立足夠的性能的檢索方法。由此,正在研宄各種用于實(shí)現(xiàn)足夠的性能的聲音檢索的技術(shù)。
[0005]例如,非專利文獻(xiàn)I (巖見圭祐、坂本渚、中川聖一,“距離O ?音節(jié)n-gram索引?二dt §音聲検索語検出ω距離尺度ω厳密化”,情報(bào)處理學(xué)會論文誌,Vol.54,N0.2,495-505,(2013.2))公開了在以聲音識別結(jié)果為基礎(chǔ)的聲音檢索中,考慮未知詞/識別錯(cuò)誤的問題,穩(wěn)健地進(jìn)行聲音檢索的方法。
[0006]發(fā)明要解決的課題
[0007]但是,為了實(shí)現(xiàn)高精度的聲音檢索,具有各種的課題。例如,根據(jù)檢索對象的聲音信號的區(qū)間,存在如長音或接近無聲的信號的區(qū)間那樣,無論對于怎樣的檢索詞均容易被推定為發(fā)出與檢索詞相對應(yīng)的聲音的區(qū)間和不是這樣的區(qū)間,從而成為誤檢測的原因。另夕卜,根據(jù)檢索詞,在檢索詞中的僅一部分接近檢索對象的聲音信號的情況下,有時(shí)僅僅根據(jù)該一部分,錯(cuò)誤地推定為檢索詞整體與聲音信號對應(yīng)。
【發(fā)明內(nèi)容】
[0008]本發(fā)明是為了解決上述那樣的課題而提出的,本發(fā)明的目的在于提供可高精度地進(jìn)行聲音檢索的聲音檢索裝置以及聲音檢索方法。
[0009]用于解決課題的技術(shù)方案
[0010]為了實(shí)現(xiàn)上述目的,本發(fā)明的聲音檢索裝置包括:
[0011]檢索詞取得單兀,其取得檢索詞;
[0012]變換單元,其將上述檢索詞取得單元取得的檢索詞變換為音素串;
[0013]輸出概率取得單元,其針對每一幀,取得從上述音素串包含的各音素輸出檢索對象的聲音信號的特征量的輸出概率;
[0014]相對化運(yùn)算單元,其對于上述輸出概率取得單元針對上述各音素取得的輸出概率,根據(jù)針對上述音素串中包含的另一音素而取得的輸出概率執(zhí)行相對化運(yùn)算;
[0015]區(qū)間指定單元,其在上述檢索對象的聲音信號中,指定多個(gè)似然取得區(qū)間;
[0016]似然取得單元,其根據(jù)上述相對化運(yùn)算單元運(yùn)算后的輸出概率,取得表示上述區(qū)間指定單元所指定的似然取得區(qū)間為發(fā)出與上述檢索詞相對應(yīng)的聲音的區(qū)間的可能性的似然;
[0017]確定單元,其根據(jù)上述似然取得單元針對上述區(qū)間指定單元指定的各個(gè)似然取得區(qū)間所取得的似然,確定被推定為從上述檢索對象的聲音信號中發(fā)出了與上述檢索詞對應(yīng)的聲音的推定區(qū)間。
[0018]發(fā)明的效果
[0019]根據(jù)本發(fā)明,可高精度地進(jìn)行聲音檢索。
【附圖說明】
[0020]圖1為表示本發(fā)明的實(shí)施方式I的聲音檢索裝置的物理結(jié)構(gòu)的圖。
[0021]圖2為表示本發(fā)明的實(shí)施方式I的聲音檢索裝置的功能結(jié)構(gòu)的圖。
[0022]圖3中(a)為檢索對象的聲音信號的波形圖,(b)為表示在檢索對象的聲音信號中設(shè)定的幀的圖,(C)為表示在檢索對象的聲音信號中指定的似然計(jì)算區(qū)間的圖。
[0023]圖4中(a)為表示各音素的各幀的距離的圖,(b)為表示各幀中的基準(zhǔn)音素的圖,(C)為表示通過基準(zhǔn)音素的距離進(jìn)行相對化后的距離的圖。
[0024]圖5是采用各幀中的聲音信號的特征量和各音素的距離的矩陣來表示基于DP匹配的最大似然序列的檢索的圖。
[0025]圖6為表示本發(fā)明的實(shí)施方式I的聲音檢索裝置所進(jìn)行的聲音檢索處理的流程的流程圖。
[0026]圖7為表示本發(fā)明的實(shí)施方式I的相對化運(yùn)算處理的流程的流程圖。
[0027]圖8為表示本發(fā)明的實(shí)施方式2的聲音檢索裝置的功能結(jié)構(gòu)的圖。
[0028]圖9為表示基于DP匹配的最大似然序列的檢索和此時(shí)生成的累積距離表以及迀移方向表的圖。
[0029]圖10中(a)為表示包含與檢索詞相對應(yīng)的音素串中的僅僅一部分音素的區(qū)間中的通過最大似然序列的檢索而取得的路徑和標(biāo)準(zhǔn)化的累積距離的圖,(b)為表示包含與檢索詞相對應(yīng)的音素串中的全部音素的區(qū)間中的最大似然序列的檢索和標(biāo)準(zhǔn)化的累積距離的圖。
[0030]圖11為表示本發(fā)明的實(shí)施方式2的聲音檢索裝置所執(zhí)行的聲音檢索處理的流程的流程圖。
[0031]圖12為表示本發(fā)明的實(shí)施方式2的標(biāo)準(zhǔn)化運(yùn)算處理的流程的流程圖。
[0032]用于實(shí)施發(fā)明的方式
[0033]下面參照附圖,對本發(fā)明的實(shí)施方式進(jìn)行說明。另外,在圖中對于相同或相應(yīng)的部分賦予相同的符號。
[0034]實(shí)施方式I
[0035]實(shí)施方式I的聲音檢索裝置在物理上如圖1所示的那樣構(gòu)成。聲音檢索裝置100包括R0M(只讀存儲器,Read Only Memory) 1、RAM(隨機(jī)存取存儲器,Random AccessMemory) 2、外部存儲器3、輸入裝置4、輸出裝置5、CPU (中央處理器,Central ProcessingUnit)6。
[0036]ROMl存儲用于進(jìn)行各種初始設(shè)定、硬件的檢查、程序的下載等的初始程序。RAM2暫時(shí)存儲CPU6執(zhí)行的各種軟件程序、執(zhí)行這些軟件程序所需要的數(shù)據(jù)等。
[0037]外部存儲器3例如是硬盤等,存儲各種軟件程序、數(shù)據(jù)等。在這些軟件程序中,包括應(yīng)用軟件程序、OS (操作系統(tǒng),Operating System)這樣的基本軟件程序等。
[0038]輸入裝置4例如是鍵盤等,輸入裝置4將用戶采用鍵盤而操作輸入的文本數(shù)據(jù)等輸入到CPU6。輸出裝置5例如具備液晶顯示器等的畫面、揚(yáng)聲器等。輸出裝置5將通過CPU6輸出的文本數(shù)據(jù)顯示在畫面中,從揚(yáng)聲器輸出聲音數(shù)據(jù)。
[0039]CPU6將存儲在外部存儲器3中的軟件程序讀出到RAM2中,通過執(zhí)行控制該軟件程序,來實(shí)現(xiàn)下述的功能結(jié)構(gòu)。
[0040]聲音檢索裝置100從功能上如圖2所示那樣構(gòu)成。聲音檢索裝置100包括聲音信號存儲部101、聲學(xué)模型存儲部102、時(shí)間長度存儲部104、檢索詞取得部111、變換部112、時(shí)間長度導(dǎo)出部113、區(qū)間指定部114、特征量計(jì)算部115、輸出概率取得部116、搜索部117、似然計(jì)算部118、重復(fù)部119、確定部120、相對化運(yùn)算部130。聲音信號存儲部101、聲學(xué)模型存儲部102以及時(shí)間長度存儲部104由外部存儲器3的存儲區(qū)域構(gòu)成。
[0041]聲音信號存儲部101存儲檢索對象的聲音信號。檢索對象的聲音信號例如是與新聞廣播等的聲音、錄音的會議的聲音、圖像的聲音等有關(guān)的聲音?目號。
[0042]聲學(xué)模型存儲部102存儲聲學(xué)模型。聲學(xué)模型是對構(gòu)成可作為檢索詞而取得的字符串的各音素的頻率特性進(jìn)行模型化而得到的。聲學(xué)模型存儲部102例如存儲單音(I音素)的聲學(xué)模型(單音模型)、雙音(2音素)的聲學(xué)模型(雙音模型)、三音(3音素)的聲學(xué)模型(三音模型)等。
[0043]單音模型為針對每個(gè)I音素而生成的聲學(xué)模型,是不依賴于鄰接的音素,亦即將與前后的音素狀態(tài)的狀態(tài)迀移固定化的聲學(xué)模型。雙音模型和三音模型分別是針對每個(gè)2音素和每個(gè)3音素而生成的聲學(xué)模型,是依賴于鄰接的音素的聲學(xué)模型。雙音模型是考慮了與前后單方的音素狀態(tài)的狀態(tài)迀移的聲學(xué)模型。三音模型是考慮了與前后雙方的音素狀態(tài)的狀態(tài)迀移的聲學(xué)模型。下面以作為聲學(xué)模型采用單音模型的情況為例子來進(jìn)行說明。聲音檢索裝置100通過普通的方法學(xué)習(xí)聲學(xué)模型,將其預(yù)先存儲在聲學(xué)模型存儲部102中。
[0044]作為聲學(xué)模型,例如可以采用在普通的聲音識別中使用的聲學(xué)模型即HMM(HiddenMarkov Model ;隱馬爾可夫模型)。HMM是用于通過統(tǒng)計(jì)學(xué)的方法,從聲音信號中概率性地推定出成為輸出該聲音信號的輸出源的語言的模型。HMM采用將表示時(shí)序的狀態(tài)波動的迀移概率和輸出從各個(gè)狀態(tài)而輸入的特征量的概率(輸出概率)作為參數(shù)的標(biāo)準(zhǔn)圖。該輸出概率通過對按照預(yù)定的權(quán)重系數(shù)進(jìn)行加權(quán)后的高斯(標(biāo)準(zhǔn))分布相加后的混合高斯分布來
[0045]時(shí)間長度存儲部104按照各音素的狀態(tài)單位來存儲在聲學(xué)模型中采用的各音素的平均繼續(xù)長度。各音素的平均繼續(xù)長度是發(fā)出各音素時(shí)的平均的時(shí)間長度。各音素的狀態(tài)是在時(shí)間方向上對各音素進(jìn)行細(xì)分后的單位,相當(dāng)于聲學(xué)模型的最小單位。在各音素中,預(yù)先確定狀態(tài)數(shù)量。
[0046]下面以在各音素中確定的狀態(tài)數(shù)量為“3”的情況為例子來進(jìn)行說明。例如,音素“a”被分為包括該音素的發(fā)音開始時(shí)的第I狀態(tài)“al”、作為中間狀態(tài)的第2狀態(tài)“a2”、包括發(fā)音結(jié)束時(shí)的第3狀態(tài)“a3”這的3個(gè)狀態(tài)。在將聲學(xué)模型中采用的全部音素的數(shù)量設(shè)為Q時(shí),存在“3 X Q”個(gè)的狀態(tài)。聲音檢索裝置100針對“3 X Q”個(gè)的各個(gè)狀態(tài),根據(jù)大量的聲音信號的數(shù)據(jù),計(jì)算繼續(xù)長度的平均值,將其預(yù)先存儲在時(shí)間長度存儲部104中。
[0047]另外,為了提高檢索精度,優(yōu)選用于學(xué)習(xí)聲學(xué)模型的聲音信號以及用于計(jì)算音素的平均繼續(xù)長度的聲音信號是通過與發(fā)出檢索對象的聲音信號的域(環(huán)境)相同的域而發(fā)出的聲音信號。例如,在檢索對象為在會議室中錄音得到的聲音信號時(shí),優(yōu)選采用在會議室中錄音得到的聲音信號來學(xué)習(xí)聲學(xué)模型,并計(jì)算音素的平均繼續(xù)長度。但是,用于學(xué)習(xí)聲學(xué)模型的聲音信號以及用于計(jì)算音素的平均繼續(xù)長度的聲音信號也可以是通過與發(fā)出檢索對象的聲音信號的域不同的域而發(fā)出的聲音信號。
[0048]檢索詞取得部111取得檢索詞。檢索詞取得部111例如取得用戶經(jīng)由輸入裝置4輸入的檢索字符串來作為檢索詞。即,用戶通過字符串(文本),向聲音檢索裝置100賦予用于從檢索對象的聲音信號中檢索發(fā)出目標(biāo)聲音的部分的檢索詞(查詢)。
[0049]變換部112按照檢索詞取得部111取得的檢索詞,對聲學(xué)模型的音素進(jìn)行排列,將檢索詞變換為音素串。即,變換部112按照與檢索詞中包含的字符相同的順序,排列對各字符進(jìn)行發(fā)聲時(shí)的音