聲音檢索裝置以及聲音檢索方法

文檔序號(hào)：9929566閱讀：998來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

聲音檢索裝置以及聲音檢索方法
【專(zhuān)利說(shuō)明】聲音檢索裝置以及聲音檢索方法
[0001 ] 本申請(qǐng)主張以2014年12月22日申請(qǐng)的日本國(guó)專(zhuān)利申請(qǐng)2014-259418號(hào)為基礎(chǔ)的優(yōu)先權(quán)，將該基礎(chǔ)申請(qǐng)的內(nèi)容作為參照全部合并到本申請(qǐng)中。
技術(shù)領(lǐng)域
[0002]本發(fā)明涉及一種聲音檢索裝置以及聲音檢索方法。
【背景技術(shù)】
[0003]隨著聲音和動(dòng)畫(huà)等多媒體內(nèi)容的擴(kuò)大/普及，尋求高精度的多媒體檢索技術(shù)。其中，正在研究一種聲音檢索的技術(shù)，即從聲音信號(hào)中確定發(fā)出與設(shè)為檢索對(duì)象的檢索詞(查詢(xún))對(duì)應(yīng)的聲音的位置。
[0004]在聲音檢索中，還沒(méi)有確立與使用了圖像識(shí)別的字符檢索的技術(shù)相比具有充分性能的檢索方法。因此紛紛研究用于實(shí)現(xiàn)充分性能的聲音檢索的技術(shù)。
[0005]例如，非專(zhuān)利文獻(xiàn)I(Y.Zhang and J.Glass.“An inner-product lower-boundestimate for dynamic time warping，，，in Proc.1CASSP，2011，pp.5660_5663)中公開(kāi)一種高速地比較聲音信號(hào)之間的方法。這樣，能夠從檢索對(duì)象的聲音信號(hào)中高速地確定與通過(guò)聲音輸入的查詢(xún)對(duì)應(yīng)的位置。
[0006]在非專(zhuān)利文獻(xiàn)I公開(kāi)的技術(shù)中，在檢索對(duì)象的聲音的語(yǔ)速和查詢(xún)輸入者的語(yǔ)速不同的情況下有檢索精度變差的問(wèn)題。

【發(fā)明內(nèi)容】

[0007]本發(fā)明是用于解決以上問(wèn)題的發(fā)明，其目的在于提供能夠從不同語(yǔ)速的聲音信號(hào)中高精度地檢索檢索詞的聲音檢索裝置以及聲音檢索方法。
[0008]為了達(dá)到上述目的，本發(fā)明的聲音檢索裝置具備:
[0009]記錄單元，其記錄檢索對(duì)象的聲音信號(hào)；時(shí)間長(zhǎng)度取得單元，其從存儲(chǔ)有與音素相關(guān)的持續(xù)時(shí)間長(zhǎng)度數(shù)據(jù)的數(shù)據(jù)庫(kù)取得檢索字符串的音素串中包括的各個(gè)音素的持續(xù)時(shí)間長(zhǎng)度;語(yǔ)速信息取得單元，其取得由用戶(hù)指定的與語(yǔ)速相關(guān)的信息；時(shí)間長(zhǎng)度變更單元，其根據(jù)上述語(yǔ)速信息取得單元取得的與語(yǔ)速相關(guān)的信息，變更上述時(shí)間長(zhǎng)度取得單元取得的各個(gè)音素的持續(xù)時(shí)間長(zhǎng)度;時(shí)間長(zhǎng)度導(dǎo)出單元，其根據(jù)由上述時(shí)間長(zhǎng)度變更單元變更的各個(gè)音素的持續(xù)時(shí)間長(zhǎng)度，導(dǎo)出與上述檢索字符串對(duì)應(yīng)的聲音發(fā)聲時(shí)間長(zhǎng)度;區(qū)間指定單元，其在上述檢索對(duì)象的聲音信號(hào)的時(shí)間長(zhǎng)度中指定多個(gè)上述時(shí)間長(zhǎng)度導(dǎo)出單元導(dǎo)出的發(fā)聲時(shí)間長(zhǎng)度的區(qū)間作為似然取得區(qū)間；似然取得單元，其取得似然，該似然表示上述區(qū)間指定單元指定的似然取得區(qū)間是發(fā)出與上述檢索字符串對(duì)應(yīng)的聲音的區(qū)間的似然度；以及確定單元，其根據(jù)上述似然取得單元針對(duì)由上述區(qū)間指定單元指定的似然取得區(qū)間分別取得的似然，確定從檢索對(duì)象的聲音信號(hào)中推定發(fā)出了與上述檢索字符串對(duì)應(yīng)的聲音的推定區(qū)間。
[0010]根據(jù)本發(fā)明，能夠從不同語(yǔ)速的聲音信號(hào)中高精度地檢索檢索詞。
【附圖說(shuō)明】
[0011]如果將以下詳細(xì)的描述與以下的附圖對(duì)應(yīng)起來(lái)考慮，則能夠更深地理解本申請(qǐng)。
[0012]圖1是表示本發(fā)明實(shí)施方式I的聲音檢索裝置的物理結(jié)構(gòu)的圖。
[0013]圖2是表示本發(fā)明實(shí)施方式I的聲音檢索裝置的功能結(jié)構(gòu)的圖。
[0014]圖3是用于說(shuō)明音素的狀態(tài)的圖。
[0015]圖4是表示用于使音素各個(gè)狀態(tài)的持續(xù)時(shí)間長(zhǎng)度伸縮的語(yǔ)速信息的例子的圖。
[0016]圖5是表示用于使音素狀態(tài)的持續(xù)時(shí)間長(zhǎng)度伸縮的計(jì)算例的圖。
[0017]圖6A是檢索對(duì)象的聲音信號(hào)的波形圖。圖6B是表示在檢索對(duì)象的聲音信號(hào)中設(shè)定的幀的圖。圖6C是表示在檢索對(duì)象的聲音信號(hào)中指定的似然取得期間的圖。
[0018]圖7是將輸出概率進(jìn)行下限化的例子的圖。
[0019]圖8是表示本發(fā)明實(shí)施方式I的聲音檢索裝置所執(zhí)行的聲音檢索處理的流程的流程圖。
[0020]圖9是表示確定與檢索字符串對(duì)應(yīng)的區(qū)間的處理流程的流程圖。
[0021]圖10是表示將使持續(xù)時(shí)間長(zhǎng)度伸縮的變更率僅設(shè)定為母音的持續(xù)時(shí)間長(zhǎng)度的例子的圖。
[0022]圖11是表示本發(fā)明實(shí)施方式2的聲音檢索裝置所執(zhí)行的聲音檢索處理的流程的流程圖。
[0023]圖12是表示按照音素的每個(gè)狀態(tài)設(shè)定使持續(xù)時(shí)間長(zhǎng)度伸縮的變更率的例子的圖。
[0024]圖13是表示將使持續(xù)時(shí)間長(zhǎng)度伸縮的變更率僅設(shè)定為音素的特定狀態(tài)的例子的圖。
【具體實(shí)施方式】
[0025]以下，一邊參照附圖一邊說(shuō)明本發(fā)明實(shí)施方式的聲音檢索裝置、聲音檢索方法以及程序。另外，對(duì)于圖中相同或相應(yīng)的部分標(biāo)注相同符號(hào)。
[0026](實(shí)施方式I)
[0027]如圖1所示，實(shí)施方式I的聲音檢索裝置100物理地具備:R0M(Read Only Memory:只讀存儲(chǔ)器)l、RAM(Random Access Memory:隨機(jī)存取存儲(chǔ)器)2、外部存儲(chǔ)裝置3、輸入裝置
4、輸出裝置5、CPU(Central Processing Unit:中央處理單元)6以及總線7。
[0028]ROMl存儲(chǔ)聲音檢索程序。RAM2作為CPU6的工作區(qū)而使用。
[0029]外部存儲(chǔ)裝置3例如由硬盤(pán)構(gòu)成，將作為檢索對(duì)象的聲音信號(hào)、后述的單音子模型、三音子模型以及音素的時(shí)間長(zhǎng)度作為數(shù)據(jù)進(jìn)行存儲(chǔ)。
[0030]輸入裝置4例如由鍵盤(pán)和聲音識(shí)別裝置構(gòu)成。輸入裝置4將用戶(hù)輸入的檢索詞作為文本數(shù)據(jù)提供給CPU6。輸出裝置5例如具備液晶顯示器等畫(huà)面、揚(yáng)聲器等。輸出裝置5將通過(guò)CPU6輸出的文本數(shù)據(jù)顯示在畫(huà)面上，從揚(yáng)聲器輸出聲音數(shù)據(jù)。
[0031 ] CPU6將存儲(chǔ)在ROMl中的聲音檢索程序讀出到RAM2，通過(guò)執(zhí)行該聲音檢索程序，實(shí)現(xiàn)以下所示的功能。總線7連接ROM 1、RAM2、外部存儲(chǔ)裝置3、輸入裝置4、輸出裝置5以及CPU6。
[0032]如圖2所示，聲音檢索裝置100在功能上具備聲音信號(hào)存儲(chǔ)部101、單音子模型存儲(chǔ)部102、三音子模型存儲(chǔ)部103、時(shí)間長(zhǎng)度存儲(chǔ)部104、檢索字符串取得部111、變換部112、時(shí)間長(zhǎng)度取得部113、語(yǔ)速信息取得部114、時(shí)間長(zhǎng)度變更部115、時(shí)間長(zhǎng)度導(dǎo)出部116、區(qū)間指定部117、特征量計(jì)算部118、輸出概率取得部119、置換部120、似然取得部121、重復(fù)部122、選擇部123、第二變換部124、第二輸出概率取得部125、第二似然取得部126以及確定部127。在外部存儲(chǔ)裝置3的存儲(chǔ)區(qū)域中構(gòu)筑聲音信號(hào)存儲(chǔ)部101、單音子模型存儲(chǔ)部102、三音子模型存儲(chǔ)部103以及時(shí)間長(zhǎng)度存儲(chǔ)部104。
[0033]聲音信號(hào)存儲(chǔ)部101存儲(chǔ)檢索對(duì)象的聲音信號(hào)。檢索對(duì)象的聲音信號(hào)是例如與新聞廣播等的聲音、被錄音的會(huì)議的聲音、被錄音的講演會(huì)的聲音、電影的聲音相關(guān)的聲音信號(hào)。
[0034]單音子模型存儲(chǔ)部102以及三音子模型存儲(chǔ)部103存儲(chǔ)聲學(xué)模型。聲學(xué)模型是將構(gòu)成作為檢索字符串而能夠取得的字符串的各個(gè)音素的頻率特性進(jìn)行模型化而得的模型。具體地說(shuō)，單音子模型存儲(chǔ)部102存儲(chǔ)單音子(I個(gè)音素)的聲學(xué)模型(單音子模型)，三音子模型存儲(chǔ)部103存儲(chǔ)三音子(3個(gè)音素)的聲學(xué)模型(三音子模型)。
[0035]音素是構(gòu)成由說(shuō)話者發(fā)出的聲音的成分單位。例如，“力亍riy”這個(gè)單詞由“k”、“a”、“t”、“e”、“g”、V’、“r”、“i” 這8個(gè)音素構(gòu)成。
[0036]單音子模型是按照每個(gè)音素生成的聲學(xué)模型，是不依存于相鄰的音素，即將與前后的音素狀態(tài)之間的狀態(tài)迀移進(jìn)行了固定化的聲學(xué)模型。三音子模型是按照每3個(gè)音素生成的聲學(xué)模型，依存于相鄰的音素，即考慮了與前后的音素狀態(tài)之間的狀態(tài)迀移的聲學(xué)模型，具有比單音子模型更多的信息。聲音檢索裝置100通過(guò)一般的方法學(xué)習(xí)單音子模型以及三音子模型，分別預(yù)先存儲(chǔ)在單音子模型存儲(chǔ)部102以及三音子模型存儲(chǔ)部103中。
[0037]作為單音子模型以及三音子模型，例如能夠使用通過(guò)一般聲音識(shí)別而使用的聲學(xué)模型即HMM(Hidden Markov Model:隱馬爾科夫模型)。!!麗是用于通過(guò)統(tǒng)計(jì)方法根據(jù)聲音信號(hào)概率地推定構(gòu)成該聲音信號(hào)的音素的模型。HMM使用將表示時(shí)間狀態(tài)的搖擺的迀移概率、輸出根據(jù)各個(gè)狀態(tài)輸入的特征量的概率(輸出概率)設(shè)為參數(shù)的標(biāo)準(zhǔn)模式。
[0038]時(shí)間長(zhǎng)度存儲(chǔ)部104通過(guò)各個(gè)音素的狀態(tài)單位來(lái)存儲(chǔ)通過(guò)聲學(xué)模型而使用的各個(gè)音素的平均持續(xù)時(shí)間長(zhǎng)度。各個(gè)音素的平均持續(xù)時(shí)間長(zhǎng)度是發(fā)出各個(gè)音素時(shí)的平均時(shí)間長(zhǎng)度。各個(gè)音素的狀態(tài)是在時(shí)間方向?qū)⒏鱾€(gè)音素進(jìn)行了細(xì)化的單位，相當(dāng)于聲學(xué)模型的最小單位。針對(duì)各個(gè)音素預(yù)先決定狀態(tài)數(shù)量。
[0039]在本實(shí)施方式中，以針對(duì)各個(gè)音素決定的狀態(tài)數(shù)量為“3”的情況作為例子進(jìn)行說(shuō)明。例如，如圖3所示，聲音“$)”被分為包括該音素的發(fā)聲開(kāi)始時(shí)的第一狀態(tài)“al”、作為中間狀態(tài)的第二狀態(tài)“a2”、包括發(fā)聲結(jié)束時(shí)的第三狀態(tài)“a3”共3個(gè)狀態(tài)。即，一個(gè)音素由3個(gè)狀態(tài)構(gòu)成。在將通過(guò)聲學(xué)模型而使用的所有音素的數(shù)量設(shè)為Q的情況下，存在(3XQ)個(gè)狀態(tài)。聲音檢索裝置100對(duì)于音素的狀態(tài)分別根據(jù)大量的聲音信號(hào)數(shù)據(jù)來(lái)計(jì)算持續(xù)時(shí)間長(zhǎng)度的平均值，預(yù)先存儲(chǔ)在時(shí)間長(zhǎng)度存儲(chǔ)部104中。
[0040]檢索字符串取得部111取得用戶(hù)經(jīng)由輸入裝置4而輸入的檢索字符串。即，用戶(hù)通過(guò)字符串(文本)對(duì)聲音檢索裝置100賦予用于從檢索對(duì)象的聲音信號(hào)檢索發(fā)出目的聲音的部分的檢索詞(查詢(xún))。
[0041]變換部112將不依存于相鄰音素的聲學(xué)模型即單音子模型的音素按照檢索字符串取得部111取得的檢索字符串進(jìn)行排列，將檢索字符串變換為音素串。即，變換部112按照與檢索字符串中包括的字符相同的順序，排列發(fā)聲各個(gè)字符時(shí)的音素(單音子)，從而將檢索字符串變換為單音子音素串。
[0042]在本實(shí)施方式中，說(shuō)明檢索日語(yǔ)“力fd'y”的情況。當(dāng)作為檢索字符串輸入日語(yǔ)“力亍=i'y” 時(shí)，“力亍=i'y” 包括 “k”、“a”、“t”、“e”、“g”、V’、“r”、“i” 這8個(gè)音素(單音子)，因此變換部112生成音素串“k、a、t、e、g、o、r、i”。
[0043]時(shí)間長(zhǎng)度取得部丨丨3從時(shí)間長(zhǎng)度存儲(chǔ)部104取得由變更部112生成的音素串所對(duì)應(yīng)的音素的每個(gè)狀態(tài)的平均持續(xù)時(shí)間長(zhǎng)度。
[0044]語(yǔ)速信息取得

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4 5 6

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：富田寬基;
技術(shù)所有人：卡西歐計(jì)算機(jī)株式會(huì)社;
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

百度檢索方法相關(guān)技術(shù)

文獻(xiàn)檢索的方法相關(guān)技術(shù)

檢索方法相關(guān)技術(shù)

文獻(xiàn)檢索方法相關(guān)技術(shù)

專(zhuān)利檢索方法相關(guān)技術(shù)

專(zhuān)利檢索的方法相關(guān)技術(shù)

信息檢索的方法相關(guān)技術(shù)

擴(kuò)大檢索范圍的方法相關(guān)技術(shù)

中國(guó)知網(wǎng)檢索方法相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

聲音檢索裝置以及聲音檢索方法