一種多媒體信息模糊檢索方法

文檔序號(hào)：6356780閱讀：171來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種多媒體信息模糊檢索方法
技術(shù)領(lǐng)域：
本發(fā)明涉及多媒體技術(shù)領(lǐng)域，尤其涉及一種多媒體信息模糊檢索方法。
背景技術(shù)：
伴隨信息時(shí)代的發(fā)展、多媒體資料的增多，新聞廣播節(jié)目日益呈現(xiàn)海量化的規(guī)模。相對(duì)比傳統(tǒng)的報(bào)紙、雜志、書籍等文本信息，以及先進(jìn)的互聯(lián)網(wǎng)的豐富文本信息，音視頻數(shù) 據(jù)等多媒體資料具有更加豐富、生動(dòng)的展現(xiàn)形式，也更有利于人們輕松地接受。但是，由于多媒體資料的多和雜，如何便捷的獲取感興趣的內(nèi)容成為一個(gè)亟待解決的課題。通常做的方法是，用人工對(duì)這些資料進(jìn)行信息提取，這樣做很費(fèi)時(shí)費(fèi)力，因此近年來涌現(xiàn)了很多基于人工智能的技術(shù)來應(yīng)用于該領(lǐng)域，其中最熱門的就是語音識(shí)別技術(shù)。語音識(shí)別技術(shù)是一種語音到文本的轉(zhuǎn)換技術(shù)，而變成了文本之后，就可以利用搜索技術(shù)進(jìn)行全方位的索引和檢索。然而，語音識(shí)別技術(shù)并不是一個(gè)完全可靠的技術(shù)，針對(duì)其中的識(shí)別錯(cuò)誤進(jìn)行彌補(bǔ) 來修正檢索技術(shù)，是非常有必要的。隨著自動(dòng)語音識(shí)別技術(shù)的實(shí)用化和開源化，很多公司著手買入或者搭建適合自己領(lǐng)域和需求的自動(dòng)語音識(shí)別系統(tǒng)。利用語音識(shí)別技術(shù)對(duì)音視頻資料中的文本進(jìn)行識(shí)別，就可以獲得該段資料中的文本信息，把這些文本信息輸入到數(shù)據(jù)庫中，就可以方便的進(jìn)行檢索。常規(guī)的語音識(shí)別技術(shù)只能給出識(shí)別的最終漢字信息，一方面在具體索引詞的定位精度上需要人工的判斷、費(fèi)時(shí)費(fèi)力，另一方面受到語音識(shí)別性能的限制，索引和搜索的準(zhǔn)確率也是很難控制的。例如某處北京被識(shí)別成了“畢竟”，那么當(dāng)用戶向搜索“北京”時(shí)就找不到這里了。有時(shí)候，“北京”可能被發(fā)成“北津”或者“北驚”，也是無法找到的。因此，傳統(tǒng) 的基于文本搜索的技術(shù)，性能將會(huì)受到語音識(shí)別的影響。

發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種多媒體信息模糊檢索方法，能夠最大限度地增加檢索到的數(shù)量，并在保證系統(tǒng)性能的前提下，極大提高檢索速度。為達(dá)此目的，本發(fā)明采用以下技術(shù)方案一種多媒體信息模糊檢索方法，包括以下步驟
A、采集音視頻數(shù)據(jù)；
B、獲取音頻數(shù)據(jù)的Lattice結(jié)果，包括時(shí)間點(diǎn)信息和匹配似然值打分信息，并轉(zhuǎn)成多候選信息；
C、根據(jù)時(shí)間點(diǎn)信息和匹配似然值打分信息，獲得置信度打分信息；
D、采用更強(qiáng)的語音模型對(duì)多候選信息進(jìn)行重新排序，并給出最優(yōu)識(shí)別結(jié)果；
E、采用多候選信息、時(shí)間點(diǎn)信息和置信度打分信息建立字詞級(jí)和音素級(jí)索引庫，構(gòu)成后向索引庫，并將原始信息進(jìn)行編碼生成原始信息庫；
F、輸入待檢索文本和時(shí)間點(diǎn)信息，將待檢索文本轉(zhuǎn)成音素序列，并利用音素混淆矩陣，獲得類似的音素序列，拆分成不少于1個(gè)音素組合；
G、字和音素序列分別進(jìn)入后向索引庫進(jìn)行查詢，獲得一組原始信息庫的入口位置以及對(duì)應(yīng)的置信度打分信息，按照置信度打分信息高低依次返回；
H、分別進(jìn)入到原始信息庫進(jìn)行精確匹配，根據(jù)入口個(gè)數(shù)和置信度打分信息選擇置信度閾值，返回大于置信度閾值的候選位置。步驟A還包括以下步驟
將音頻數(shù)據(jù)格式轉(zhuǎn)成WINDOWS WAV格式，采樣率為16千赫。步驟A中，采用電腦和電視卡的方式采集電視節(jié)目中的音頻數(shù)據(jù)；采用收音機(jī)和聲卡的方式采集廣播信號(hào)中的音頻數(shù)據(jù)。步驟F中，根據(jù)字轉(zhuǎn)音方式將待檢索文本轉(zhuǎn)成音素序列。采用了本發(fā)明的技術(shù)方案，針對(duì)可能出現(xiàn)的語音識(shí)別錯(cuò)誤類型，利用其在音素級(jí) 別的相似性，并通過音素混淆矩陣引入的模糊化，能夠最大限度的增加檢索到的數(shù)量，同時(shí) 針對(duì)音素級(jí)別重復(fù)率高的問題，引入多個(gè)音素組合建索引的方式，在保證系統(tǒng)性能的前提下，大大提高了檢索速度。

圖1是本發(fā)明具體實(shí)施方式
中多媒體信息模糊檢索的流程圖。
具體實(shí)施例方式下面結(jié)合附圖并通過具體實(shí)施方式
來進(jìn)一步說明本發(fā)明的技術(shù)方案。圖1是本發(fā)明具體實(shí)施方式
中多媒體信息模糊檢索的流程圖。如圖1所示，該多媒體信息檢索流程包括以下步驟
步驟101、采集音視頻數(shù)據(jù)。采用電腦和電視卡的方式采集電視節(jié)目中的音頻數(shù)據(jù)，采用收音機(jī)和聲卡的方式采集廣播信號(hào)中的音頻數(shù)據(jù)，然后將音頻數(shù)據(jù)格式轉(zhuǎn)成WINDOWS WAV格式(pcm無壓縮)，采樣率為16千赫。由于電視卡以及聲卡錄制的格式是確定的，只需要針對(duì)特定格式進(jìn)行編程轉(zhuǎn)碼即可。步驟102、獲取音頻數(shù)據(jù)的Lattice結(jié)果，包括時(shí)間點(diǎn)信息、靜音信息和匹配似然值打分信息，并轉(zhuǎn)成多候選信息。和通常的識(shí)別結(jié)果不同，本具體實(shí)施方式
的識(shí)別結(jié)果并不是常規(guī)意義上的最優(yōu)結(jié) 果(又稱Ι-Best)，而是語音識(shí)別中保留的較豐富的解碼路徑，又稱Lattice格式結(jié)果。該格式的主要特點(diǎn)是含有豐富的時(shí)間點(diǎn)和靜音信息、以及匹配似然值打分信息，并可以轉(zhuǎn)成逐詞多候選信息，或者稱為混淆網(wǎng)絡(luò)，以及最優(yōu)結(jié)果，混淆網(wǎng)絡(luò)上可以得到比最優(yōu)識(shí)別結(jié)果更好的性能。步驟103、根據(jù)時(shí)間點(diǎn)信息和匹配似然值打分信息，計(jì)算得到評(píng)估識(shí)別效果的打分，也稱置信度打分信息。步驟104、采用更強(qiáng)的語音模型對(duì)多候選信息進(jìn)行重新排序，并給出最優(yōu)識(shí)別結(jié)果。步驟105、采用多候選信息、時(shí)間點(diǎn)信息和置信度打分信息建立字詞級(jí)和音素級(jí)索引庫，構(gòu)成后向索引庫，并將原始信息進(jìn)行編碼生成原始信息庫。在本步驟中，根據(jù)搜索引擎的原理，利用以上步驟得到的多重信息，對(duì)基本的索引級(jí)別進(jìn)行索引。這里用到兩層索引級(jí)別，分別是字詞級(jí)和音素集，其中音素可以簡單的理解為聲母或者韻母。這種做法在搜索引擎中也是很少用到的，之所以增加了音素級(jí)的索引，主要是因?yàn)檎Z音識(shí)別可能出現(xiàn)識(shí)別錯(cuò)誤，同時(shí)這些識(shí)別錯(cuò)誤和正確文本之間又有一定的相關(guān) 性，例如音素還是比較相似的，根據(jù)常見的識(shí)別錯(cuò)誤訓(xùn)練了音素混淆矩陣，因此有了音素級(jí) 的索引，就可以利用音素混淆矩陣了。同時(shí)考慮到音素的出現(xiàn)頻率遠(yuǎn)遠(yuǎn)高于單字，可以導(dǎo)致大量的候選結(jié)果而降低搜索效率，因此采用了多個(gè)音素組合的索引方法，可以在保證搜索質(zhì)量的前提下，大大提高搜索效率。兩層索引構(gòu)成了后向索引庫，它包含了時(shí)間點(diǎn)和置信度信息，同時(shí)把原始信息進(jìn)行有效的編碼壓縮生成原始信息庫。步驟106、輸入待檢索文本和時(shí)間點(diǎn)信息，根據(jù)字轉(zhuǎn)音方式 (Grapheme-to-Phoneme, G2P)將待檢索文本轉(zhuǎn)成音素序列，并利用音素混淆矩陣，獲得類似的音素序列，拆分成多個(gè)音素組合。步驟107、字和音素序列分別進(jìn)入后向索引庫進(jìn)行查詢，獲得一組原始信息庫的入口位置以及對(duì)應(yīng)的置信度打分信息，按照置信度打分信息高低依次返回。步驟108、分別進(jìn)入到原始信息庫進(jìn)行精確匹配，根據(jù)入口個(gè)數(shù)和置信度打分信息選擇置信度閾值，返回大于置信度閾值的候選位置，供用戶瀏覽，完成一次檢索。通過本具體實(shí)施方式
，可以對(duì)多媒體信息進(jìn)行更徹底的標(biāo)注和建庫，后期查詢能更加精細(xì)、快捷地索引和定位到感興趣的位置。利用音素級(jí)別的索引，可以大大增加查找到的多媒體信息，利用置信度信息，可以過濾掉識(shí)別不是很好的多媒體信息，以上兩個(gè)技術(shù)都可以有效地回避因?yàn)檎Z音識(shí)別的錯(cuò)誤帶來的檢索錯(cuò)誤。以上所述，僅為本發(fā)明較佳的具體實(shí)施方式
，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi)，可輕易想到的變化或替換，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此，本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種多媒體信息模糊檢索方法，其特征在于，包括以下步驟A、采集音視頻數(shù)據(jù)；B、獲取音頻數(shù)據(jù)的Lattice結(jié)果，包括時(shí)間點(diǎn)信息和匹配似然值打分信息，并轉(zhuǎn)成多候選信息；C、根據(jù)時(shí)間點(diǎn)信息和匹配似然值打分信息，獲得置信度打分信息；D、采用更強(qiáng)的語音模型對(duì)多候選信息進(jìn)行重新排序，并給出最優(yōu)識(shí)別結(jié)果；E、采用多候選信息、時(shí)間點(diǎn)信息和置信度打分信息建立字詞級(jí)和音素級(jí)索引庫，構(gòu)成后向索引庫，并將多媒體數(shù)據(jù)進(jìn)行編碼生成多媒體數(shù)據(jù)庫；F、輸入待檢索文本和時(shí)間點(diǎn)信息，將待檢索文本轉(zhuǎn)成音素序列，并利用音素混淆矩陣，獲得類似的音素序列，拆分成不少于1個(gè)音素組合；G、字和音素序列分別進(jìn)入后向索引庫進(jìn)行查詢，獲得一組原始信息庫的入口位置以及對(duì)應(yīng)的置信度打分信息，按照置信度打分信息高低依次返回；H、分別進(jìn)入到原始信息庫進(jìn)行精確匹配，根據(jù)入口個(gè)數(shù)和置信度打分信息選擇置信度閾值，返回大于置信度閾值的候選位置。
2.根據(jù)權(quán)利要求1所述的一種多媒體信息模糊檢索方法，其特征在于，步驟A還包括以下步驟將音頻數(shù)據(jù)格式轉(zhuǎn)成WINDOWS WAV格式，采樣率為16千赫。
3.根據(jù)權(quán)利要求1所述的一種多媒體信息模糊檢索方法，其特征在于，步驟A中，采用電腦和電視卡的方式采集電視節(jié)目中的音頻數(shù)據(jù)；采用收音機(jī)和聲卡的方式采集廣播信號(hào) 中的音頻數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的一種多媒體信息模糊檢索方法，其特征在于，步驟F中，根據(jù) 字轉(zhuǎn)音方式將待檢索文本轉(zhuǎn)成音素序列。
全文摘要
本發(fā)明公開了一種多媒體信息模糊檢索方法，首先采集音視頻數(shù)據(jù)，獲取音頻數(shù)據(jù)的Lattice結(jié)果，根據(jù)時(shí)間點(diǎn)信息和匹配似然值打分信息，獲得置信度打分信息，采用更強(qiáng)的語音模型對(duì)多候選信息進(jìn)行重新排序，并給出最優(yōu)識(shí)別結(jié)果，建立字詞級(jí)和音素級(jí)索引庫，生成原始信息庫，輸入待檢索文本和時(shí)間點(diǎn)信息，轉(zhuǎn)成音素序列，并利用音素混淆矩陣，獲得類似的音素序列，拆分成多個(gè)音素組合，分別進(jìn)入后向索引庫進(jìn)行查詢，再進(jìn)入原始信息庫進(jìn)行精確匹配，返回候選位置。采用了本發(fā)明的技術(shù)方案，能夠最大限度地增加檢索到的數(shù)量，并在保證系統(tǒng)性能的前提下，極大提高檢索速度。
文檔編號(hào)G06F17/30GK102136001SQ201110073048
公開日2011年7月27日申請日期2011年3月25日優(yōu)先權(quán)日2011年3月25日
發(fā)明者伍昕, 劉趙杰, 吳鵬申請人:天脈聚源(北京)傳媒科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：伍昕;吳鵬;劉趙杰
技術(shù)所有人：天脈聚源(北京)傳媒科技有限公司
我是此專利的發(fā)明人

上一篇：一種多媒體信息檢索的方法
上一篇：人臉遮擋物識(shí)別方法及其裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

多媒體信息檢索相關(guān)技術(shù)

多媒體信息檢索技術(shù)相關(guān)技術(shù)

多媒體檢索相關(guān)技術(shù)

基于內(nèi)容的多媒體檢索相關(guān)技術(shù)

多媒體檢索技術(shù)包括相關(guān)技術(shù)

多媒體檢索技術(shù)相關(guān)技術(shù)

模糊檢索相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

一種多媒體信息模糊檢索方法