檢索語音文件的設(shè)備和方法

文檔序號：6580715閱讀：360來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：檢索語音文件的設(shè)備和方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種用于檢索語音文件的設(shè)備和方法，具體地說，本發(fā)明涉及根據(jù) 輸入的查詢條件檢索語音文件、從而得到語音文件的各時間點與查詢條件的相關(guān)度的設(shè) 備和方法。
背景技術(shù)：
隨著多媒體技術(shù)的發(fā)展，語音媒體得到了越來越多的關(guān)注。由于語音本身的特點，用戶很難像檢索文本一樣快速檢索語音文件。當(dāng)用戶想在語音文件中查詢自己感興趣的相關(guān)語音片段的時候，用戶不得不從頭開始瀏覽整個語音文件。在語音文件較大的情況下，這是非常耗費時間和精力的。雖然語音播放器中的快進和快退按鈕能幫助用戶相對較快地瀏覽文件，但是其并不能為用戶提供語音文件中的各時間點與所查詢的條件的相關(guān)程度，更加不能查詢到與查詢條件相關(guān)的語音段落。通常，存在兩種方法來在語音文件中檢索與用戶輸入的查詢條件相關(guān)的時間點。第一種方法是基于關(guān)鍵字標(biāo)注的方法，其基于語音識別技術(shù)，將語音文件轉(zhuǎn)換為文本，并標(biāo)注轉(zhuǎn)換后的文本中與用戶輸入的文本查詢條件相關(guān)的文本。然而，該方法存在下述不足之處1.該方法基于語音識別技術(shù)，僅僅進行一次相關(guān)度計算，因此檢索性能受語音識別的效果影響相對較大，容錯性能較差；2.當(dāng)文本查詢條件不是關(guān)鍵字而是句子甚至段落時，該方法的效率大大下降；3.該方法僅針對文本查詢條件進行查詢，使用范圍受到限制。第二種方法是基于語義分割的方法，其利用語音分割技術(shù)，按照語義分割語音文件，然后利用語音檢索的方法檢索分割好的片斷與預(yù)定查詢條件的相關(guān)程度。然而，由于當(dāng)今的語義分割技術(shù)尚不夠成熟，錯誤率較高，因此在此基礎(chǔ)上進行一次相關(guān)度計算而獲得的檢索結(jié)果的錯誤率也非常高。

發(fā)明內(nèi)容
本發(fā)明提供了一種用于檢索語音文件的設(shè)備和方法，其能夠根據(jù)用戶輸入的多種查詢條件檢索語音文件，并以較高精度得到語音文件的各時間點與查詢條件的相關(guān) 度，從而改進了檢索效率。進一步說，本發(fā)明還提供一種用于檢索語音文件的設(shè)備和方法，其不但能夠以較高精度得到語音文件的各時間點與查詢條件的相關(guān)度，還能夠得到語音文件中與所述查詢條件相關(guān)的語音段落，從而在改進檢索效率的同時還提高了用戶操作的方便度。根據(jù)本發(fā)明的一個方面，一種用于根據(jù)輸入的查詢條件檢索語音文件的設(shè)備，包括以下裝置分割裝置，被配置為將一個或多個語音文件分別分割為一個或多個語音片；第一相關(guān)度確定裝置，被配置為確定每個語音片與所述查詢條件的第一相關(guān)度；以及第二相關(guān)度確定裝置，被配置為根據(jù)所述第一相關(guān)度，確定每個語音文件的每個預(yù)定時間點與所述查詢條件的第二相關(guān)度。
根據(jù)本發(fā)明的另一方面，一種用于根據(jù)輸入的查詢條件檢索語音文件的方法，包括以下步驟分割步驟，用于將一個或多個語音文件分別分割為一個或多個語音片；第一相關(guān)度確定步驟，用于確定每個語音片與所述查詢條件的第一相關(guān)度；以及第二相關(guān)度確定步驟，用于根據(jù)所述第一相關(guān)度，確定每個語音文件的每個預(yù)定時間點與所述查詢條件的第二相關(guān)度。根據(jù) 本發(fā)明各方面的設(shè)備和方法能夠以較高精度得到語音文件的各時間點與輸入的查詢條件的相關(guān)度，從而改進了檢索效率。通過參考附圖閱讀下面以示例性方式給出的本發(fā)明實施例的具體描述，本發(fā)明的上述和其他目標(biāo)、特征和優(yōu)點將變得更加明顯。

圖1示意性示出了根據(jù)本發(fā)明第一實施例的語音文件檢索設(shè)備100的框圖；圖2示意性示出了由本發(fā)明第一實施例的語音文件檢索設(shè)備100使用的窗函數(shù)的波形特征；圖3示意性示出了根據(jù)本發(fā)明第二實施例的語音文件檢索設(shè)備200的框圖；圖4示意性示出了由根據(jù)本發(fā)明第一實施例的語音文件檢索設(shè)備100執(zhí)行的處理的流程圖；圖5示意性示出了由根據(jù)本發(fā)明第二實施例的語音文件檢索設(shè)備200執(zhí)行的處理的流程圖；以及圖6示意性示出了由根據(jù)本發(fā)明第二實施例的語音文件檢索設(shè)備200執(zhí)行的處理中的段落發(fā)現(xiàn)處理的流程圖。
具體實施例方式在具體描述本發(fā)明實施例前，首先說明在本發(fā)明實施例中使用的相關(guān)技術(shù)術(shù) 語“語音片”語音片是將一語音文件分割而得到的各個片段。相鄰語音片之間在時間上可以重疊。所有語音片構(gòu)成的集合將涵蓋該語音文件?！罢Z音段落”語音段落是語音文件的任一部分。在本發(fā)明實施例中，與查詢條件相關(guān)的語音段落的長度可以大于語音片的長度、等于語音片的長度，也可以小于語音片的長度。以下，將參照附圖詳細描述本發(fā)明的優(yōu)選實施例。參考圖1，根據(jù)本發(fā)明第一實施例的語音文件檢索設(shè)備100包括分割裝置11、第一相關(guān)度確定裝置12和第二相關(guān)度確定裝置13。分割裝置11將一個或多個語音文件分別分割為一個或多個語音片。第一相關(guān)度確定裝置12確定每個語音片與用戶輸入的查詢條件的第一相關(guān)度。第二相關(guān)度確定裝置13根據(jù)所述第一相關(guān)度，確定每個語音文件的每個預(yù)定時間點與所述查詢條件的第二相關(guān)度。以下將具體描述各裝置的功能配置。分割裝置11配置為利用語音分割方法，例如定時分割方法，通過下述處理將一個或多個語音文件分別分割為一個或多個語音片
首先，設(shè)置固定時間長度(TL)和固定重合時間長度(OTL)。其中，TL必須大于一個詞的發(fā)音長度，而OTL必須小于TL。在本發(fā)明實施例中，例如，將TL設(shè)置30 秒，而將OTL設(shè)置為29秒。其次，假設(shè)一個語音文件的長度為T，可以如下分割該語音文件第一個語音片的起始時間是0，終止時間是Min丨TL，T丨，即TL和T中較小者。如果Min丨TL，Τ} = T,則分割處理結(jié)束。下一個語音片的起始時間Sn是Sn = Sh+TL-OTL (1)終止時間En是En = Min(Sn+TL, Τ) (2)其中，Slri是前一時間片的起始時間。重復(fù)上述處理，直至Min(Sn+TL，Τ) = Τ,此時，分割處理結(jié)束。本領(lǐng)域技術(shù)人員應(yīng)理解，在上述分割處理中，各語音片之間是重疊的，然而，各語音片之間不必重疊。此外，本領(lǐng)域技術(shù)人員應(yīng)理解，分割裝置11所采用的上述定時分割方法僅僅是一個示例，而并非限制本發(fā)明。分割裝置11可配置為采用任何語音分割方法，例如基于時間的方法、基于事件的方法、基于語義的方法或這些方法的組合等。通過分割裝置11的上述分割處理，每個語音文件被分割為一個或多個語音片。第一相關(guān)度確定裝置12確定經(jīng)過上述分割裝置11的分割所得到的每個語音片與用戶輸入的查詢條件的第一相關(guān)度，即，語音片相關(guān)度。在本發(fā)明實施例中，例如，第一相關(guān)度確定裝置12配置為利用Okapi ΒΜ25概率模型(Probabilistic Model)作為統(tǒng)計檢索模型，通過下式(3)，確定每個語音片與查詢條件
的第一相關(guān)度
權(quán)利要求
1.一種用于根據(jù)輸入的查詢條件檢索語音文件的設(shè)備，包括以下裝置分割裝置，被配置為將一個或多個語音文件分別分割為一個或多個語音片；第一相關(guān)度確定裝置，被配置為確定每個語音片與所述查詢條件的第一相關(guān)度；以及第二相關(guān)度確定裝置，被配置為根據(jù)所述第一相關(guān)度，確定每個語音文件的每個預(yù) 定時間點與所述查詢條件的第二相關(guān)度。
2.如權(quán)利要求1所述的設(shè)備，還包括段落發(fā)現(xiàn)裝置，被配置為判斷對于每個語音文件的每個預(yù)定時間點的所述第二相關(guān)度是否高于預(yù)設(shè)的閾值，如果所述第二相關(guān)度高于所述閾值，則確定該預(yù)定時間點為構(gòu)成與所述查詢條件相關(guān)的段落的時間點，從而發(fā)現(xiàn)與所述查詢條件相關(guān)的段落。
3.如權(quán)利要求1所述的設(shè)備，還包括預(yù)處理裝置，被配置為將每個語音片與查詢條件分別轉(zhuǎn)換為具有相同格式的數(shù)據(jù)。
4.如權(quán)利要求1所述的設(shè)備，其中，所述第二相關(guān)度確定裝置被配置為利用窗函數(shù)來確定所述第二相關(guān)度。
5.如權(quán)利要求1所述的設(shè)備，其中所述查詢條件包括文本查詢條件、語音查詢條件、或文本查詢條件和語音查詢條件的組合。
6.一種用于根據(jù)輸入的查詢條件檢索語音文件的方法，包括以下步驟分割步驟，用于將一個或多個語音文件分別分割為一個或多個語音片；第一相關(guān)度確定步驟，用于確定每個語音片與所述查詢條件的第一相關(guān)度；以及第二相關(guān)度確定步驟，用于根據(jù)所述第一相關(guān)度，確定每個語音文件的每個預(yù)定時間點與所述查詢條件的第二相關(guān)度。
7.如權(quán)利要求6所述的方法，還包括段落發(fā)現(xiàn)步驟，用于判斷對于每個語音文件的每個預(yù)定時間點的所述第二相關(guān)度是否高于預(yù)設(shè)的閾值，如果所述第二相關(guān)度高于所述閾值，則確定該預(yù)定時間點為構(gòu)成與所述查詢條件相關(guān)的段落的時間點，從而發(fā)現(xiàn)與所述查詢條件相關(guān)的段落。
8.如權(quán)利要求6所述的方法，還包括預(yù)處理步驟，用于將每個語音片與查詢條件分別轉(zhuǎn)換為具有相同格式的數(shù)據(jù)。
9.如權(quán)利要求6所述的方法，其中，所述第二相關(guān)度確定步驟被配置為利用窗函數(shù)來確定所述第二相關(guān)度。
10.如權(quán)利要求6所述的方法，其中所述查詢條件包括文本查詢條件、語音查詢條件、或文本查詢條件和語音查詢條件的組合。
全文摘要
本發(fā)明提供了一種用于根據(jù)輸入的查詢條件檢索語音文件的設(shè)備，包括以下裝置分割裝置，被配置為將一個或多個語音文件分別分割為一個或多個語音片；第一相關(guān)度確定裝置，被配置為確定每個語音片與所述查詢條件的第一相關(guān)度；第二相關(guān)度確定裝置，被配置為根據(jù)所述第一相關(guān)度，確定每個語音文件的每個預(yù)定時間點與所述查詢條件的第二相關(guān)度。
文檔編號G06F17/30GK102023994SQ20091017684
公開日2011年4月20日申請日期2009年9月22日優(yōu)先權(quán)日2009年9月22日
發(fā)明者史達飛, 尹悅燕, 趙利軍, 鄭繼川, 魯耀杰申請人:株式會社理光

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：魯耀杰;尹悅燕;史達飛;鄭繼川;趙利軍
技術(shù)所有人：株式會社理光
我是此專利的發(fā)明人

上一篇：語音檢索設(shè)備和語音檢索方法
上一篇：基于聚類/分類和時間的簇頁面排名設(shè)備和方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音檢索相關(guān)技術(shù)

語音關(guān)鍵詞檢索相關(guān)技術(shù)

文件檢索軟件相關(guān)技術(shù)

proe文件不能檢索相關(guān)技術(shù)

linux檢索文件內(nèi)容相關(guān)技術(shù)

proe打開文件不能檢索相關(guān)技術(shù)

文件檢索工具相關(guān)技術(shù)

creo文件不能檢索相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

檢索語音文件的設(shè)備和方法