專利名稱:檢索語音文件的設(shè)備和方法
技術(shù)領(lǐng)域:
本發(fā)明 涉及一種用于檢索語音文件的設(shè)備和方法,具體地說,本發(fā)明涉及根據(jù) 輸入的查詢條件檢索語音文件、從而得到語音文件的各時間點與查詢條件的相關(guān)度的設(shè) 備和方法。
背景技術(shù):
隨著多媒體技術(shù)的發(fā)展,語音媒體得到了越來越多的關(guān)注。由于語音本身的特 點,用戶很難像檢索文本一樣快速檢索語音文件。當(dāng)用戶想在語音文件中查詢自己感興 趣的相關(guān)語音片段的時候,用戶不得不從頭開始瀏覽整個語音文件。在語音文件較大的 情況下,這是非常耗費時間和精力的。雖然語音播放器中的快進和快退按鈕能幫助用戶 相對較快地瀏覽文件,但是其并不能為用戶提供語音文件中的各時間點與所查詢的條件 的相關(guān)程度,更加不能查詢到與查詢條件相關(guān)的語音段落。通常,存在兩種方法來在語音文件中檢索與用戶輸入的查詢條件相關(guān)的時間 點。第一種方法是基于關(guān)鍵字標(biāo)注的方法,其基于語音識別技術(shù),將語音文件轉(zhuǎn)換為文 本,并標(biāo)注轉(zhuǎn)換后的文本中與用戶輸入的文本查詢條件相關(guān)的文本。然而,該方法存在 下述不足之處1.該方法基于語音識別技術(shù),僅僅進行一次相關(guān)度計算,因此檢索性能 受語音識別的效果影響相對較大,容錯性能較差;2.當(dāng)文本查詢條件不是關(guān)鍵字而是句 子甚至段落時,該方法的效率大大下降;3.該方法僅針對文本查詢條件進行查詢,使用 范圍受到限制。第二種方法是基于語義分割的方法,其利用語音分割技術(shù),按照語義分割語音 文件,然后利用語音檢索的方法檢索分割好的片斷與預(yù)定查詢條件的相關(guān)程度。然而, 由于當(dāng)今的語義分割技術(shù)尚不夠成熟,錯誤率較高,因此在此基礎(chǔ)上進行一次相關(guān)度計 算而獲得的檢索結(jié)果的錯誤率也非常高。
發(fā)明內(nèi)容
本發(fā)明提供了一種用于檢索語音文件的設(shè)備和方法,其能夠根據(jù)用戶輸入的多 種查詢條件檢索語音文件,并以較高精度得到語音文件的各時間點與查詢條件的相關(guān) 度,從而改進了檢索效率。進一步說,本發(fā)明還提供一種用于檢索語音文件的設(shè)備和方 法,其不但能夠以較高精度得到語音文件的各時間點與查詢條件的相關(guān)度,還能夠得到 語音文件中與所述查詢條件相關(guān)的語音段落,從而在改進檢索效率的同時還提高了用戶 操作的方便度。根據(jù)本發(fā)明的一個方面,一種用于根據(jù)輸入的查詢條件檢索語音文件的設(shè)備, 包括以下裝置分割裝置,被配置為將一個或多個語音文件分別分割為一個或多個語音 片;第一相關(guān)度確定裝置,被配置為確定每個語音片與所述查詢條件的第一相關(guān)度;以 及第二相關(guān)度確定裝置,被配置為根據(jù)所述第一相關(guān)度,確定每個語音文件的每個預(yù)定 時間點與所述查詢條件的第二相關(guān)度。
根據(jù)本發(fā)明的另一方面,一種用于根據(jù)輸入的查詢條件檢索語音文件的方法, 包括以下步驟分割步驟,用于將一個或多個語音文件分別分割為一個或多個語音片; 第一相關(guān)度確定步驟,用于確定每個語音片與所述查詢條件的第一相關(guān)度;以及第二相 關(guān)度確定步驟,用于根據(jù)所述第一相關(guān)度,確定每個語音文件的每個預(yù)定時間點與所述 查詢條件的第二相關(guān)度。根據(jù) 本發(fā)明各方面的設(shè)備和方法能夠以較高精度得到語音文件的各時間點與輸 入的查詢條件的相關(guān)度,從而改進了檢索效率。通過參考附圖閱讀下面以示例性方式給出的本發(fā)明實施例的具體描述,本發(fā)明 的上述和其他目標(biāo)、特征和優(yōu)點將變得更加明顯。
圖1示意性示出了根據(jù)本發(fā)明第一實施例的語音文件檢索設(shè)備100的框圖;圖2示意性示出了由本發(fā)明第一實施例的語音文件檢索設(shè)備100使用的窗函數(shù)的 波形特征;圖3示意性示出了根據(jù)本發(fā)明第二實施例的語音文件檢索設(shè)備200的框圖;圖4示意性示出了由根據(jù)本發(fā)明第一實施例的語音文件檢索設(shè)備100執(zhí)行的處理 的流程圖;圖5示意性示出了由根據(jù)本發(fā)明第二實施例的語音文件檢索設(shè)備200執(zhí)行的處理 的流程圖;以及圖6示意性示出了由根據(jù)本發(fā)明第二實施例的語音文件檢索設(shè)備200執(zhí)行的處理 中的段落發(fā)現(xiàn)處理的流程圖。
具體實施例方式在具體描述本發(fā)明實施例前,首先說明在本發(fā)明實施例中使用的相關(guān)技術(shù)術(shù) 語“語音片”語音片是將一語音文件分割而得到的各個片段。相鄰語音片之間 在時間上可以重疊。所有語音片構(gòu)成的集合將涵蓋該語音文件?!罢Z音段落”語音段落是語音文件的任一部分。在本發(fā)明實施例中,與查詢 條件相關(guān)的語音段落的長度可以大于語音片的長度、等于語音片的長度,也可以小于語 音片的長度。以下,將參照附圖詳細描述本發(fā)明的優(yōu)選實施例。參考圖1,根據(jù)本發(fā)明第一實施例的語音文件檢索設(shè)備100包括分割裝置11、第 一相關(guān)度確定裝置12和第二相關(guān)度確定裝置13。分割裝置11將一個或多個語音文件分 別分割為一個或多個語音片。第一相關(guān)度確定裝置12確定每個語音片與用戶輸入的查詢 條件的第一相關(guān)度。第二相關(guān)度確定裝置13根據(jù)所述第一相關(guān)度,確定每個語音文件的 每個預(yù)定時間點與所述查詢條件的第二相關(guān)度。以下將具體描述各裝置的功能配置。分割裝置11配置為利用語音分割方法,例如定時分割方法,通過下述處理將一 個或多個語音文件分別分割為一個或多個語音片
首先,設(shè)置固定時間長度(TL)和固定重合時間長度(OTL)。其中,TL必須大 于一個詞的發(fā)音長度,而OTL必須小于TL。在本發(fā)明實施例中,例如,將TL設(shè)置30 秒,而將OTL設(shè)置為29秒。其次,假設(shè)一個語音文件的長度為T,可以如下分割該語音文件第一個語音片的起始時間是0,終止時間是Min丨TL,T丨,即TL和T中較小者。 如果Min丨TL,Τ} = T,則分割處理結(jié)束。下一個語音片的起始時間Sn是Sn = Sh+TL-OTL (1)終止時間En是En = Min(Sn+TL, Τ) (2)其中,Slri是前一時間片的起始時間。重復(fù)上述處理,直至Min(Sn+TL,Τ) = Τ,此時,分割處理結(jié)束。本領(lǐng)域技術(shù)人員應(yīng)理解,在上述分割處理中,各語音片之間是重疊的,然而, 各語音片之間不必重疊。此外,本領(lǐng)域技術(shù)人員應(yīng)理解,分割裝置11所采用的上述定時 分割方法僅僅是一個示例,而并非限制本發(fā)明。分割裝置11可配置為采用任何語音分割 方法,例如基于時間的方法、基于事件的方法、基于語義的方法或這些方法的組合等。通過分割裝置11的上述分割處理,每個語音文件被分割為一個或多個語音片。第一相關(guān)度確定裝置12確定經(jīng)過上述分割裝置11的分割所得到的每個語音片與 用戶輸入的查詢條件的第一相關(guān)度,即,語音片相關(guān)度。在本發(fā)明實施例中,例如,第一相關(guān)度確定裝置12配置為利用Okapi ΒΜ25概率 模型(Probabilistic Model)作為統(tǒng)計檢索模型,通過下式(3),確定每個語音片與查詢條件
的第一相關(guān)度
權(quán)利要求
1.一種用于根據(jù)輸入的查詢條件檢索語音文件的設(shè)備,包括以下裝置分割裝置,被配置為將一個或多個語音文件分別分割為一個或多個語音片;第一相關(guān)度確定裝置,被配置為確定每個語音片與所述查詢條件的第一相關(guān)度;以及第二相關(guān)度確定裝置,被配置為根據(jù)所述第一相關(guān)度,確定每個語音文件的每個預(yù) 定時間點與所述查詢條件的第二相關(guān)度。
2.如權(quán)利要求1所述的設(shè)備,還包括段落發(fā)現(xiàn)裝置,被配置為判斷對于每個語音文件 的每個預(yù)定時間點的所述第二相關(guān)度是否高于預(yù)設(shè)的閾值,如果所述第二相關(guān)度高于所 述閾值,則確定該預(yù)定時間點為構(gòu)成與所述查詢條件相關(guān)的段落的時間點,從而發(fā)現(xiàn)與 所述查詢條件相關(guān)的段落。
3.如權(quán)利要求1所述的設(shè)備,還包括預(yù)處理裝置,被配置為將每個語音片與查詢條件分別轉(zhuǎn)換為具有相同格式的數(shù)據(jù)。
4.如權(quán)利要求1所述的設(shè)備,其中,所述第二相關(guān)度確定裝置被配置為利用窗函數(shù)來 確定所述第二相關(guān)度。
5.如權(quán)利要求1所述的設(shè)備,其中所述查詢條件包括文本查詢條件、語音查詢條件、 或文本查詢條件和語音查詢條件的組合。
6.一種用于根據(jù)輸入的查詢條件檢索語音文件的方法,包括以下步驟分割步驟,用于將一個或多個語音文件分別分割為一個或多個語音片;第一相關(guān)度確定步驟,用于確定每個語音片與所述查詢條件的第一相關(guān)度;以及第二相關(guān)度確定步驟,用于根據(jù)所述第一相關(guān)度,確定每個語音文件的每個預(yù)定時 間點與所述查詢條件的第二相關(guān)度。
7.如權(quán)利要求6所述的方法,還包括段落發(fā)現(xiàn)步驟,用于判斷對于每個語音文件的每 個預(yù)定時間點的所述第二相關(guān)度是否高于預(yù)設(shè)的閾值,如果所述第二相關(guān)度高于所述閾 值,則確定該預(yù)定時間點為構(gòu)成與所述查詢條件相關(guān)的段落的時間點,從而發(fā)現(xiàn)與所述 查詢條件相關(guān)的段落。
8.如權(quán)利要求6所述的方法,還包括預(yù)處理步驟,用于將每個語音片與查詢條件分別轉(zhuǎn)換為具有相同格式的數(shù)據(jù)。
9.如權(quán)利要求6所述的方法,其中,所述第二相關(guān)度確定步驟被配置為利用窗函數(shù)來 確定所述第二相關(guān)度。
10.如權(quán)利要求6所述的方法,其中所述查詢條件包括文本查詢條件、語音查詢條 件、或文本查詢條件和語音查詢條件的組合。
全文摘要
本發(fā)明提供了一種用于根據(jù)輸入的查詢條件檢索語音文件的設(shè)備,包括以下裝置分割裝置,被配置為將一個或多個語音文件分別分割為一個或多個語音片;第一相關(guān)度確定裝置,被配置為確定每個語音片與所述查詢條件的第一相關(guān)度;第二相關(guān)度確定裝置,被配置為根據(jù)所述第一相關(guān)度,確定每個語音文件的每個預(yù)定時間點與所述查詢條件的第二相關(guān)度。
文檔編號G06F17/30GK102023994SQ20091017684
公開日2011年4月20日 申請日期2009年9月22日 優(yōu)先權(quán)日2009年9月22日
發(fā)明者史達飛, 尹悅燕, 趙利軍, 鄭繼川, 魯耀杰 申請人:株式會社理光