專利名稱:一種多媒體信息模糊檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及多媒體技術(shù)領(lǐng)域,尤其涉及一種多媒體信息模糊檢索方法。
背景技術(shù):
伴隨信息時(shí)代的發(fā)展、多媒體資料的增多,新聞廣播節(jié)目日益呈現(xiàn)海量化的規(guī)模。 相對(duì)比傳統(tǒng)的報(bào)紙、雜志、書籍等文本信息,以及先進(jìn)的互聯(lián)網(wǎng)的豐富文本信息,音視頻數(shù) 據(jù)等多媒體資料具有更加豐富、生動(dòng)的展現(xiàn)形式,也更有利于人們輕松地接受。但是,由于 多媒體資料的多和雜,如何便捷的獲取感興趣的內(nèi)容成為一個(gè)亟待解決的課題。通常做的 方法是,用人工對(duì)這些資料進(jìn)行信息提取,這樣做很費(fèi)時(shí)費(fèi)力,因此近年來涌現(xiàn)了很多基于 人工智能的技術(shù)來應(yīng)用于該領(lǐng)域,其中最熱門的就是語音識(shí)別技術(shù)。語音識(shí)別技術(shù)是一種 語音到文本的轉(zhuǎn)換技術(shù),而變成了文本之后,就可以利用搜索技術(shù)進(jìn)行全方位的索引和檢 索。然而,語音識(shí)別技術(shù)并不是一個(gè)完全可靠的技術(shù),針對(duì)其中的識(shí)別錯(cuò)誤進(jìn)行彌補(bǔ) 來修正檢索技術(shù),是非常有必要的。隨著自動(dòng)語音識(shí)別技術(shù)的實(shí)用化和開源化,很多公司著 手買入或者搭建適合自己領(lǐng)域和需求的自動(dòng)語音識(shí)別系統(tǒng)。利用語音識(shí)別技術(shù)對(duì)音視頻資 料中的文本進(jìn)行識(shí)別,就可以獲得該段資料中的文本信息,把這些文本信息輸入到數(shù)據(jù)庫 中,就可以方便的進(jìn)行檢索。常規(guī)的語音識(shí)別技術(shù)只能給出識(shí)別的最終漢字信息,一方面在具體索引詞的定位 精度上需要人工的判斷、費(fèi)時(shí)費(fèi)力,另一方面受到語音識(shí)別性能的限制,索引和搜索的準(zhǔn)確 率也是很難控制的。例如某處北京被識(shí)別成了“畢竟”,那么當(dāng)用戶向搜索“北京”時(shí)就找不 到這里了。有時(shí)候,“北京”可能被發(fā)成“北津”或者“北驚”,也是無法找到的。因此,傳統(tǒng) 的基于文本搜索的技術(shù),性能將會(huì)受到語音識(shí)別的影響。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種多媒體信息模糊檢索方法,能夠最大限度地增加檢索 到的數(shù)量,并在保證系統(tǒng)性能的前提下,極大提高檢索速度。為達(dá)此目的,本發(fā)明采用以下技術(shù)方案 一種多媒體信息模糊檢索方法,包括以下步驟
A、采集音視頻數(shù)據(jù);
B、獲取音頻數(shù)據(jù)的Lattice結(jié)果,包括時(shí)間點(diǎn)信息和匹配似然值打分信息,并轉(zhuǎn)成多 候選信息;
C、根據(jù)時(shí)間點(diǎn)信息和匹配似然值打分信息,獲得置信度打分信息;
D、采用更強(qiáng)的語音模型對(duì)多候選信息進(jìn)行重新排序,并給出最優(yōu)識(shí)別結(jié)果;
E、采用多候選信息、時(shí)間點(diǎn)信息和置信度打分信息建立字詞級(jí)和音素級(jí)索引庫,構(gòu)成 后向索引庫,并將原始信息進(jìn)行編碼生成原始信息庫;
F、輸入待檢索文本和時(shí)間點(diǎn)信息,將待檢索文本轉(zhuǎn)成音素序列,并利用音素混淆矩陣,獲得類似的音素序列,拆分成不少于1個(gè)音素組合;
G、字和音素序列分別進(jìn)入后向索引庫進(jìn)行查詢,獲得一組原始信息庫的入口位置以及 對(duì)應(yīng)的置信度打分信息,按照置信度打分信息高低依次返回;
H、分別進(jìn)入到原始信息庫進(jìn)行精確匹配,根據(jù)入口個(gè)數(shù)和置信度打分信息選擇置信度 閾值,返回大于置信度閾值的候選位置。步驟A還包括以下步驟
將音頻數(shù)據(jù)格式轉(zhuǎn)成WINDOWS WAV格式,采樣率為16千赫。步驟A中,采用電腦和電視卡的方式采集電視節(jié)目中的音頻數(shù)據(jù);采用收音機(jī)和 聲卡的方式采集廣播信號(hào)中的音頻數(shù)據(jù)。步驟F中,根據(jù)字轉(zhuǎn)音方式將待檢索文本轉(zhuǎn)成音素序列。采用了本發(fā)明的技術(shù)方案,針對(duì)可能出現(xiàn)的語音識(shí)別錯(cuò)誤類型,利用其在音素級(jí) 別的相似性,并通過音素混淆矩陣引入的模糊化,能夠最大限度的增加檢索到的數(shù)量,同時(shí) 針對(duì)音素級(jí)別重復(fù)率高的問題,引入多個(gè)音素組合建索引的方式,在保證系統(tǒng)性能的前提 下,大大提高了檢索速度。
圖1是本發(fā)明具體實(shí)施方式
中多媒體信息模糊檢索的流程圖。
具體實(shí)施例方式下面結(jié)合附圖并通過具體實(shí)施方式
來進(jìn)一步說明本發(fā)明的技術(shù)方案。圖1是本發(fā)明具體實(shí)施方式
中多媒體信息模糊檢索的流程圖。如圖1所示,該多 媒體信息檢索流程包括以下步驟
步驟101、采集音視頻數(shù)據(jù)。采用電腦和電視卡的方式采集電視節(jié)目中的音頻數(shù)據(jù), 采用收音機(jī)和聲卡的方式采集廣播信號(hào)中的音頻數(shù)據(jù),然后將音頻數(shù)據(jù)格式轉(zhuǎn)成WINDOWS WAV格式(pcm無壓縮),采樣率為16千赫。由于電視卡以及聲卡錄制的格式是確定的,只需要針對(duì)特定格式進(jìn)行編程轉(zhuǎn)碼即可。步驟102、獲取音頻數(shù)據(jù)的Lattice結(jié)果,包括時(shí)間點(diǎn)信息、靜音信息和匹配似然 值打分信息,并轉(zhuǎn)成多候選信息。和通常的識(shí)別結(jié)果不同,本具體實(shí)施方式
的識(shí)別結(jié)果并不是常規(guī)意義上的最優(yōu)結(jié) 果(又稱Ι-Best),而是語音識(shí)別中保留的較豐富的解碼路徑,又稱Lattice格式結(jié)果。該格 式的主要特點(diǎn)是含有豐富的時(shí)間點(diǎn)和靜音信息、以及匹配似然值打分信息,并可以轉(zhuǎn)成逐 詞多候選信息,或者稱為混淆網(wǎng)絡(luò),以及最優(yōu)結(jié)果,混淆網(wǎng)絡(luò)上可以得到比最優(yōu)識(shí)別結(jié)果更 好的性能。步驟103、根據(jù)時(shí)間點(diǎn)信息和匹配似然值打分信息,計(jì)算得到評(píng)估識(shí)別效果的打 分,也稱置信度打分信息。步驟104、采用更強(qiáng)的語音模型對(duì)多候選信息進(jìn)行重新排序,并給出最優(yōu)識(shí)別結(jié)果。步驟105、采用多候選信息、時(shí)間點(diǎn)信息和置信度打分信息建立字詞級(jí)和音素級(jí)索引庫,構(gòu)成后向索引庫,并將原始信息進(jìn)行編碼生成原始信息庫。在本步驟中,根據(jù)搜索引擎的原理,利用以上步驟得到的多重信息,對(duì)基本的索引 級(jí)別進(jìn)行索引。這里用到兩層索引級(jí)別,分別是字詞級(jí)和音素集,其中音素可以簡單的理解 為聲母或者韻母。這種做法在搜索引擎中也是很少用到的,之所以增加了音素級(jí)的索引,主 要是因?yàn)檎Z音識(shí)別可能出現(xiàn)識(shí)別錯(cuò)誤,同時(shí)這些識(shí)別錯(cuò)誤和正確文本之間又有一定的相關(guān) 性,例如音素還是比較相似的,根據(jù)常見的識(shí)別錯(cuò)誤訓(xùn)練了音素混淆矩陣,因此有了音素級(jí) 的索引,就可以利用音素混淆矩陣了。同時(shí)考慮到音素的出現(xiàn)頻率遠(yuǎn)遠(yuǎn)高于單字,可以導(dǎo)致 大量的候選結(jié)果而降低搜索效率,因此采用了多個(gè)音素組合的索引方法,可以在保證搜索 質(zhì)量的前提下,大大提高搜索效率。兩層索引構(gòu)成了后向索引庫,它包含了時(shí)間點(diǎn)和置信度 信息,同時(shí)把原始信息進(jìn)行有效的編碼壓縮生成原始信息庫。步驟106、輸入待檢索文本和時(shí)間點(diǎn)信息,根據(jù)字轉(zhuǎn)音方式 (Grapheme-to-Phoneme, G2P)將待檢索文本轉(zhuǎn)成音素序列,并利用音素混淆矩陣,獲得類 似的音素序列,拆分成多個(gè)音素組合。步驟107、字和音素序列分別進(jìn)入后向索引庫進(jìn)行查詢,獲得一組原始信息庫的入 口位置以及對(duì)應(yīng)的置信度打分信息,按照置信度打分信息高低依次返回。步驟108、分別進(jìn)入到原始信息庫進(jìn)行精確匹配,根據(jù)入口個(gè)數(shù)和置信度打分信息 選擇置信度閾值,返回大于置信度閾值的候選位置,供用戶瀏覽,完成一次檢索。通過本具體實(shí)施方式
,可以對(duì)多媒體信息進(jìn)行更徹底的標(biāo)注和建庫,后期查詢能 更加精細(xì)、快捷地索引和定位到感興趣的位置。利用音素級(jí)別的索引,可以大大增加查找到 的多媒體信息,利用置信度信息,可以過濾掉識(shí)別不是很好的多媒體信息,以上兩個(gè)技術(shù)都 可以有效地回避因?yàn)檎Z音識(shí)別的錯(cuò)誤帶來的檢索錯(cuò)誤。以上所述,僅為本發(fā)明較佳的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此, 任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋 在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種多媒體信息模糊檢索方法,其特征在于,包括以下步驟A、采集音視頻數(shù)據(jù);B、獲取音頻數(shù)據(jù)的Lattice結(jié)果,包括時(shí)間點(diǎn)信息和匹配似然值打分信息,并轉(zhuǎn)成多 候選信息;C、根據(jù)時(shí)間點(diǎn)信息和匹配似然值打分信息,獲得置信度打分信息;D、采用更強(qiáng)的語音模型對(duì)多候選信息進(jìn)行重新排序,并給出最優(yōu)識(shí)別結(jié)果;E、采用多候選信息、時(shí)間點(diǎn)信息和置信度打分信息建立字詞級(jí)和音素級(jí)索引庫,構(gòu)成 后向索引庫,并將多媒體數(shù)據(jù)進(jìn)行編碼生成多媒體數(shù)據(jù)庫;F、輸入待檢索文本和時(shí)間點(diǎn)信息,將待檢索文本轉(zhuǎn)成音素序列,并利用音素混淆矩陣, 獲得類似的音素序列,拆分成不少于1個(gè)音素組合;G、字和音素序列分別進(jìn)入后向索引庫進(jìn)行查詢,獲得一組原始信息庫的入口位置以及 對(duì)應(yīng)的置信度打分信息,按照置信度打分信息高低依次返回;H、分別進(jìn)入到原始信息庫進(jìn)行精確匹配,根據(jù)入口個(gè)數(shù)和置信度打分信息選擇置信度 閾值,返回大于置信度閾值的候選位置。
2.根據(jù)權(quán)利要求1所述的一種多媒體信息模糊檢索方法,其特征在于,步驟A還包括以 下步驟將音頻數(shù)據(jù)格式轉(zhuǎn)成WINDOWS WAV格式,采樣率為16千赫。
3.根據(jù)權(quán)利要求1所述的一種多媒體信息模糊檢索方法,其特征在于,步驟A中,采用 電腦和電視卡的方式采集電視節(jié)目中的音頻數(shù)據(jù);采用收音機(jī)和聲卡的方式采集廣播信號(hào) 中的音頻數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的一種多媒體信息模糊檢索方法,其特征在于,步驟F中,根據(jù) 字轉(zhuǎn)音方式將待檢索文本轉(zhuǎn)成音素序列。
全文摘要
本發(fā)明公開了一種多媒體信息模糊檢索方法,首先采集音視頻數(shù)據(jù),獲取音頻數(shù)據(jù)的Lattice結(jié)果,根據(jù)時(shí)間點(diǎn)信息和匹配似然值打分信息,獲得置信度打分信息,采用更強(qiáng)的語音模型對(duì)多候選信息進(jìn)行重新排序,并給出最優(yōu)識(shí)別結(jié)果,建立字詞級(jí)和音素級(jí)索引庫,生成原始信息庫,輸入待檢索文本和時(shí)間點(diǎn)信息,轉(zhuǎn)成音素序列,并利用音素混淆矩陣,獲得類似的音素序列,拆分成多個(gè)音素組合,分別進(jìn)入后向索引庫進(jìn)行查詢,再進(jìn)入原始信息庫進(jìn)行精確匹配,返回候選位置。采用了本發(fā)明的技術(shù)方案,能夠最大限度地增加檢索到的數(shù)量,并在保證系統(tǒng)性能的前提下,極大提高檢索速度。
文檔編號(hào)G06F17/30GK102136001SQ201110073048
公開日2011年7月27日 申請日期2011年3月25日 優(yōu)先權(quán)日2011年3月25日
發(fā)明者伍昕, 劉趙杰, 吳鵬 申請人:天脈聚源(北京)傳媒科技有限公司