国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      數(shù)據(jù)庫注釋和獲取的制作方法

      文檔序號:2825693閱讀:216來源:國知局
      專利名稱:數(shù)據(jù)庫注釋和獲取的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明的領(lǐng)域
      本發(fā)明涉及對將要存儲在數(shù)據(jù)庫中的數(shù)據(jù)文檔地注釋以便利隨后對這些數(shù)據(jù)文檔的獲取。本發(fā)明還涉及用于產(chǎn)生被加到數(shù)據(jù)文檔上的注釋數(shù)據(jù)的系統(tǒng)以及用于在數(shù)據(jù)庫中搜索該注釋數(shù)據(jù)以響應(yīng)于用戶輸入的詢問獲取所希望的數(shù)據(jù)文檔的系統(tǒng)。
      信息數(shù)據(jù)庫是眾所周知的,并存在著如何迅速而有效地定位和從數(shù)據(jù)庫獲取所希望的信息的問題。已有的數(shù)據(jù)庫搜索工具使用戶能夠利用鍵入的關(guān)鍵字來搜索數(shù)據(jù)庫。雖然這是迅速而有效的,但這種搜索不適合于各種的數(shù)據(jù)庫,諸如視頻或聲頻數(shù)據(jù)庫。
      根據(jù)一個方面,本發(fā)明的目的是提供一種數(shù)據(jù)結(jié)構(gòu),它使得能夠進行數(shù)據(jù)庫內(nèi)的數(shù)據(jù)文檔注釋,從而能夠響應(yīng)于用戶輸入的詢問而迅速而有效地進行搜索。
      根據(jù)一個方面,本發(fā)明提供了這樣的數(shù)據(jù),即該數(shù)據(jù)定義了一種音素和字格(word lattice),該音素和字格被用作一種注釋數(shù)據(jù)以用于注釋將要存儲在一個數(shù)據(jù)庫中的數(shù)據(jù)文檔。優(yōu)選地,該數(shù)據(jù)定義了該字格中的多個節(jié)點和連接該字格中的這些節(jié)點的多個鏈接,且進一步的數(shù)據(jù)把多個音素與相應(yīng)的多個鏈接相聯(lián)系,且進一步的數(shù)據(jù)把至少一個字與用至少一個所述鏈接相聯(lián)系。
      根據(jù)另一個方面,本發(fā)明提供了響應(yīng)于一個用戶的一個輸入詢問而搜索包括上述注釋數(shù)據(jù)的一個數(shù)據(jù)庫的一種方法。該方法優(yōu)選地包括以下步驟產(chǎn)生與用戶的輸入詢問對應(yīng)的音素數(shù)據(jù)和字?jǐn)?shù)據(jù);利用與用戶的詢問相應(yīng)的字?jǐn)?shù)據(jù)對數(shù)據(jù)庫進行搜索;響應(yīng)于該字搜索的結(jié)果而選擇數(shù)據(jù)庫中定義音素和字格的數(shù)據(jù)部分以進行進一步的搜索;利用與用戶的輸入詢問相應(yīng)的所述音素數(shù)據(jù)搜索數(shù)據(jù)庫的所述選定部分;以及,輸出搜索結(jié)果。
      根據(jù)該方面,本發(fā)明還提供了一種設(shè)備,用于對采用上述注釋的數(shù)據(jù)庫進行搜索以對其中的數(shù)據(jù)文檔進行注釋。該設(shè)備優(yōu)選地包括裝置,用于產(chǎn)生與用戶的輸入詢問對應(yīng)的音素數(shù)據(jù)和字?jǐn)?shù)據(jù);裝置,用于利用與用戶的詢問相應(yīng)的字?jǐn)?shù)據(jù)對數(shù)據(jù)庫進行搜索,從而識別數(shù)據(jù)庫中的類似的字;裝置,用于響應(yīng)于該字搜索的結(jié)果而選擇數(shù)據(jù)庫中的數(shù)據(jù)的一部分以進行進一步的搜索;裝置,用于利用與用戶的輸入詢問相應(yīng)的所述音素數(shù)據(jù)來搜索所述選定部分;以及,裝置,用于輸出搜索結(jié)果。
      用于一種數(shù)據(jù)文檔的該音素和注釋數(shù)據(jù)可以從該數(shù)據(jù)文檔自己產(chǎn)生,或者是從用戶鍵入或講出的注釋輸入產(chǎn)生。
      現(xiàn)在結(jié)合附圖描述本發(fā)明的示例性的實施例。在附圖中


      圖1是得到編程以實施本發(fā)明的一個實施例的一個計算機的示意圖2是框圖,顯示了用于產(chǎn)生用于附在一個數(shù)據(jù)文檔上的音素和字注釋數(shù)據(jù)的音素和字注釋器單元;
      圖3是框圖,顯示了該音素和字注釋器能夠從輸入的視頻數(shù)據(jù)文檔產(chǎn)生注釋數(shù)據(jù)的一種方式;
      圖4a是用于來自該輸入視頻數(shù)據(jù)文檔的一個示例性聲頻串的一個音素格的一個示意圖4b是體現(xiàn)本發(fā)明的一個方面的一種字和音素格的示意圖,它用于來自輸入視頻數(shù)據(jù)文檔的一個示例性聲頻串;
      圖5是使用戶能夠通過語音詢問而從數(shù)據(jù)庫獲取信息的用戶終端的示意框圖6a是流程圖,顯示了圖5中顯示的用戶終端的流程控制的一部分;
      圖6b是流程圖,顯示了圖5顯示的用戶終端的流程控制的其余部分;
      圖7是流程圖,顯示了構(gòu)成該用戶終端的一部分的一個搜索引擎在該數(shù)據(jù)庫內(nèi)執(zhí)行一種音素搜索的方式;
      圖8是示意圖,顯示了一個音素串和從該音素串產(chǎn)生的四個M-GRAM的形式;
      圖9是兩個矢量和這兩個矢量之間的夾角的圖示;
      圖10是諸如來自兩個講話者的聲頻串的一對字和音素格的一個示意圖11是示意框圖,顯示了一種用戶終端,它使得能夠用從用戶的一個聲頻信號輸入產(chǎn)生的注釋數(shù)據(jù)對一個數(shù)據(jù)文檔進行注釋;
      圖12是音素和字格注釋數(shù)據(jù)的示意圖,該音素和字格注釋數(shù)據(jù)是為例如用戶的語音輸入而產(chǎn)生的,用于對一個數(shù)據(jù)文檔進行注釋;
      圖13是示意框圖,顯示了一個用戶終端,該使得能夠用從一個用戶的鍵入的輸入產(chǎn)生的注釋數(shù)據(jù)對一個數(shù)據(jù)文檔進行注釋;
      圖14是音素和字格注釋數(shù)據(jù)的一個示意圖,該注釋數(shù)據(jù)是為用戶的鍵入輸入產(chǎn)生的以對一個數(shù)據(jù)文檔進行注釋;
      圖15是顯示一種文件注釋系統(tǒng)的形式的示意框圖16是一種替換文件注釋系統(tǒng)的示意框圖17是另一文件注釋系統(tǒng)的一個示意框圖18是一示意框圖,顯示了一種用戶終端,該用戶終端用于響應(yīng)于用戶的一個輸入語音經(jīng)過一個數(shù)據(jù)網(wǎng)絡(luò)對位于一個遠程服務(wù)器上的一個數(shù)據(jù)庫進行訪問;
      圖19是一種用戶終端的示意框圖,該用戶終端使得用戶能夠響應(yīng)于用戶的輸入語音而對位于一個遠程服務(wù)器上的一個數(shù)據(jù)庫進行訪問;
      圖20是一種用戶終端的示意框圖,該用戶終端使得用戶能夠通過鍵入的輸入詢問而對一個數(shù)據(jù)庫進行訪問;
      圖21是一個示意框圖,它顯示了其中可從包含在一個視頻數(shù)據(jù)文檔中的手稿數(shù)據(jù)產(chǎn)生一種音素和字格的方式;
      本發(fā)明的實施例可以用專用的硬件電路實施,但所要描述的實施例是用計算機軟件或編碼實施的,該軟件或編碼與諸如個人計算機、工作站、復(fù)印機、傳真機、PDA(個人數(shù)字助手)等的處理硬件相結(jié)合而運行。
      圖1顯示了一個個人計算機(PC),它得到編程以運行本發(fā)明的一個實施例。一個鍵盤3、一個指向裝置5、一個麥克風(fēng)7和一個電話線9通過一個接口11而與PC1相連。鍵盤3和指向裝置5使該系統(tǒng)能夠受到一個用戶的控制。麥克風(fēng)7把來自該用戶的語音信號轉(zhuǎn)換成相應(yīng)的電信號并把這些電信號提供給PC1以進行處理。一個內(nèi)部調(diào)制解調(diào)器和語音接收電路(未顯示)與電話線9相連,從而使PC1能夠與例如一個遠程計算機或一個遠程用戶進行通信。
      使PC1能夠按照本發(fā)明進行工作的程序指令,可以在例如諸如磁盤13的存儲裝置上提供,或者是經(jīng)過內(nèi)部調(diào)制解調(diào)器和電話線9而從因特網(wǎng)(未顯示)下載該軟件,以由已有的PC1進行使用。數(shù)據(jù)文檔注釋
      圖2是框圖,顯示了在此實施例中由一個音素和字注釋單元25產(chǎn)生用于一個輸入數(shù)據(jù)文檔23的注釋數(shù)據(jù)21的方式。如所示,所產(chǎn)生的音素和字注釋數(shù)據(jù)21隨后在數(shù)據(jù)結(jié)合單元27中被與數(shù)據(jù)文檔23相結(jié)合,且從其輸出的結(jié)合的數(shù)據(jù)文檔被輸入到數(shù)據(jù)庫29。在此實施例中,注釋數(shù)據(jù)21包括一個結(jié)合的音素(或音素型的)和字格,該音素和字格使得用戶能夠通過語音詢問而從該數(shù)據(jù)庫獲取信息。如本領(lǐng)域的技術(shù)人員所能夠理解的,數(shù)據(jù)文檔23可以是任何種類的數(shù)據(jù)文檔,諸如視頻文檔、聲頻文檔、多媒體文檔等。
      已經(jīng)提出了一種系統(tǒng),用于通過使來自一個視頻數(shù)據(jù)文檔的聲頻數(shù)據(jù)通過一個自動語音識別單元而為一個聲頻流產(chǎn)生作為注釋數(shù)據(jù)的N最佳字清單。然而,這樣的基于字的系統(tǒng)有若干個問題。這些問題包括(i)現(xiàn)有技術(shù)的語音識別系統(tǒng)在識別中仍然產(chǎn)生基本的錯誤;(ii)現(xiàn)有技術(shù)的自動語音識別系統(tǒng)采用了也許20000至100000個字的字典且不能產(chǎn)生該詞匯之外的字;以及,(iii)N最佳清單的產(chǎn)生隨著各級的假說的數(shù)目成指數(shù)地增大,因而導(dǎo)致對于長的語句注釋數(shù)據(jù)變得不可接受地大。
      如果相同的自動語音識別系統(tǒng)被用于產(chǎn)生注釋數(shù)據(jù)和隨后獲取相應(yīng)的數(shù)據(jù)文檔,這些問題中的第一個也許不那樣嚴(yán)重,因為會發(fā)生相同的解碼錯誤。然而,隨著自動語音識別系統(tǒng)的逐年發(fā)展,在將來也許不會發(fā)生相同類型的錯誤,從而導(dǎo)致不能在將來獲取相應(yīng)的數(shù)據(jù)文檔。至于第二個問題,它在視頻數(shù)據(jù)應(yīng)用的情況下是特別嚴(yán)重的,因為用戶可能使用名稱和地點(這些可能不在語音識別字典中)作為輸入詢問項。在沒有這些名稱時,自動語音識別系統(tǒng)普通會用詞匯表中發(fā)音類似的字或詞來代替該詞匯表中沒有的字,從而經(jīng)常使相鄰的解碼變得惡化。這還導(dǎo)致了隨后的請求時對所需數(shù)據(jù)文檔的獲取發(fā)生失敗。
      對比之下,借助所提出的音素和字格注釋數(shù)據(jù),利用數(shù)據(jù)庫29中的字?jǐn)?shù)據(jù)的迅速而有效的搜索能夠得到進行,且如果這未能提供所需的數(shù)據(jù)文檔,則可進行利用更為全面的音素數(shù)據(jù)的搜索。音素和字格是一個非循環(huán)地指向的曲線圖,它有一個單個的進入點和一個單個的退出點。它代表了數(shù)據(jù)文檔內(nèi)的聲頻流的不同的分析。它不只是帶有交替的字序列,因為各個字不需要以單個的替換進行代替,一個字可以可以取代兩或多個字或音素,且整個結(jié)構(gòu)可以形成對一或多個字或音素的替代。因此,音素和字格內(nèi)的數(shù)據(jù)的密度在整個聲頻數(shù)據(jù)上基本上是保持線性的,而不是象在上述N最佳技術(shù)中那樣指數(shù)地增大。如本領(lǐng)域的技術(shù)人員能夠理解的,音素數(shù)據(jù)的采用是更為全面的,因為音素不依賴于字典并使得系統(tǒng)能夠應(yīng)付詞匯表之外的字,諸如名稱、地點、外來詞等。音素數(shù)據(jù)的采用還使系統(tǒng)能夠應(yīng)付將來的發(fā)展,因為它使得被置于數(shù)據(jù)庫中的數(shù)據(jù)文檔即使在字不被原來的自動語音識別系統(tǒng)所理解的情況下也能夠得到獲取。
      現(xiàn)在結(jié)合圖3描述為一個視頻數(shù)據(jù)文檔產(chǎn)生這種音素和字格注釋數(shù)據(jù)的方式。如所示,視頻數(shù)據(jù)文檔31包括定義了形成視頻序列的圖象序列的視頻數(shù)據(jù)31-1和定義了與該視頻序列相聯(lián)系的聲頻的聲頻數(shù)據(jù)31-2。如眾所周知的,聲頻數(shù)據(jù)31-2是與視頻數(shù)據(jù)31-1時間同步的,因而在使用中視頻和聲頻數(shù)據(jù)同時被提供給用戶。
      如圖3中所示,在此實施例中,聲頻數(shù)據(jù)31-2被輸入到一個自動語音識別單元33,后者用于產(chǎn)生與聲頻數(shù)據(jù)31-2的流程相應(yīng)的音素格。這樣的自動語音識別單元33是現(xiàn)有技術(shù)中可獲得的,因而不再作進一步的詳細(xì)描述。關(guān)于這種語音識別系統(tǒng)的進一步的信息,讀者可以參見例如LawrenceRabiner和Biing-HwangJuang所著的書“Fundamentals ofSpeech Recognition”,特別是其42-50頁。
      圖4a顯示了語音識別單元33為與短語“...tell me about Jason...”而輸入的相應(yīng)聲頻而輸出的音素格數(shù)據(jù)的形式。如所示,自動語音識別單元33識別與這種輸入聲頻語音相應(yīng)的若干不同的可能的音素串。例如,該語音識別系統(tǒng)考慮在該聲頻串中的第一個音素是“t”或“d”。如語音識別領(lǐng)域中眾所周知的,這些不同的可能性可具有它們的權(quán)重,這些權(quán)重是由語音識別單元33產(chǎn)生的并表示了語音識別單元的輸出的信心。例如,音素“t”可以被給予0.9的權(quán),且音素“d”可以被給予0.1的權(quán),表明該語音識別系統(tǒng)比較確信相應(yīng)的聲頻部分表示了音素“t”,但它仍然有可能是音素“d”。然而,在此實施例中,不進行音素的這種加權(quán)。
      如圖3所示,由自動語音識別單元33輸出的音素格數(shù)據(jù)35被輸入到一個字解碼器37,字解碼器37用于識別音素格數(shù)據(jù)35中的可能的字。在此實施例中,字解碼器37識別的字被包含在該音素格數(shù)據(jù)結(jié)構(gòu)中。例如,對于圖4a所示的音素格,字解碼器37識別出字“tell”、“dell”、“term”、“me”、“a”、“boat”、“about”、“chase”、“sun”。如圖4b所示,這些識別的字被加到語音識別單元33輸出的音素格數(shù)據(jù)結(jié)構(gòu)中,以產(chǎn)生形成注釋數(shù)據(jù)31-3的音素和字格數(shù)據(jù)結(jié)構(gòu)。這種注釋數(shù)據(jù)31-3隨后被與視頻數(shù)據(jù)文檔31相結(jié)合,以產(chǎn)生一種增廣的視頻數(shù)據(jù)文檔31-它隨后被存儲在數(shù)據(jù)庫29中。如本領(lǐng)域的技術(shù)人員所能夠理解的,以其中聲頻數(shù)據(jù)31-2與視頻數(shù)據(jù)31-1時間同步的方式類似的一種方式,注釋數(shù)據(jù)31-3也與相應(yīng)的視頻數(shù)據(jù)31-1和聲頻數(shù)據(jù)31-2時間同步和相關(guān),從而能夠通過搜索和定位注釋數(shù)據(jù)31-3的相應(yīng)的部分而獲取視頻和聲頻數(shù)據(jù)的所希望的部分。
      在此實施例中,存儲在數(shù)據(jù)庫29中的注釋數(shù)據(jù)31-3具有以下的一般形式

      -開始時間
      -標(biāo)記是否字是否音素是否混合
      -使存儲器內(nèi)的注釋數(shù)據(jù)的塊的位置與給定的時間點相關(guān)的時間索引
      -所用的字組(即字典)
      -所用的音素
      -詞匯表涉及的語言
      塊(i)i=0,1,2,……
      節(jié)點Nj j=0,1,2,……
      -節(jié)點從塊開始的時間偏移
      -音素象(k)k=0,1,2,……
      至節(jié)點Nj的偏移=Nk-Nj(Nk是鏈接K所延伸到的節(jié)點)或如果Nk處于塊(i+1)中至節(jié)點Nj的偏移=Nk+Nb-Nj(其中Nb是塊(i)中的節(jié)點的數(shù)目)
      與鏈接(k)相關(guān)的音素
      -字鏈接(l)l=0,1,2,……
      至節(jié)點Nj的偏移=Ni-Nj(Nj是鏈接l所延伸至的節(jié)點)或者如果Nk處于塊(i+1)中至節(jié)點Nj的偏移Nj=Nk+Nb-Nj(其中Nb是塊(i)中的節(jié)點的數(shù)目)
      與鏈接(l)相關(guān)的字
      該頭部中的開始數(shù)據(jù)的時間能夠標(biāo)明數(shù)據(jù)的發(fā)送時間和日期。例如,如果視頻文檔是一個新聞廣播,則開始時間可包括廣播的準(zhǔn)確時間和它被廣播的日期。
      標(biāo)明注釋數(shù)據(jù)是否字注釋數(shù)據(jù)、音素注釋數(shù)據(jù)或者它是否被混合的標(biāo)記未被提供,因為不是數(shù)據(jù)庫的所有數(shù)據(jù)文檔都將包括上述的結(jié)合的音素和字格注釋數(shù)據(jù),且在此情況下不同的搜索策略將被用來搜索這種注釋數(shù)據(jù)。
      在此實施例中,該注釋數(shù)據(jù)被分成塊,以使搜索對于一個給定的聲頻數(shù)據(jù)流能夠跳到注釋數(shù)據(jù)的中間。因而該頭部包括了一個時間索引-它把存儲器內(nèi)的注釋數(shù)據(jù)的塊的位置與開始時間與同該塊的開始相應(yīng)的時間之間的一個給定時間偏移相聯(lián)系。
      該頭部還包括定義采用的字組(即字典)的數(shù)據(jù)、所采用的音素組、以及詞匯表所涉及的語言。該頭部還可包括用于產(chǎn)生該注釋數(shù)據(jù)的自動語音識別系統(tǒng)的細(xì)節(jié)及在產(chǎn)生注釋數(shù)據(jù)期間采用的其所有適當(dāng)?shù)脑O(shè)定。
      注釋數(shù)據(jù)的塊隨后按照該頭部,并對于塊中的各個節(jié)點標(biāo)明從塊的開始的節(jié)點的時間偏移、通過音素把該節(jié)點與其他節(jié)點相連接的音素鏈接和通過字把該節(jié)點與其他節(jié)點相連接的字鏈接。各個音素鏈接和字鏈接標(biāo)明了與該鏈接相關(guān)的音素或字。它們還標(biāo)明了與當(dāng)前節(jié)點的偏移。例如,如果節(jié)點NZzz50通過一個音素鏈接而被鏈接至節(jié)點NZzz55,則至節(jié)點NZzz的偏移是5。如本領(lǐng)域的技術(shù)人員所能夠理解的,利用諸如這樣的偏移表示將使得能夠把連續(xù)注釋數(shù)據(jù)分割成分離的塊。
      在其中一個自動語音識別單元輸出表示對語音識別單元的輸出的信心的權(quán)的一個實施例中,這些權(quán)或信心評分將被包括在該數(shù)據(jù)結(jié)構(gòu)中。具體地,將為各個節(jié)點提供一個信心評分,它表示了到達該節(jié)點的信心,且這些音素和字鏈接每一個都將包括取決于給予相應(yīng)的音素或字的權(quán)的一個瞬態(tài)評分。這些權(quán)隨后將通過放棄具有低的信心評分的那些匹配而被用于控制數(shù)據(jù)文檔的搜索和獲取。
      數(shù)據(jù)文檔獲取
      圖5是框圖,顯示了一個用戶終端59的形式,它可被用來從數(shù)據(jù)庫29獲取注釋的數(shù)據(jù)文檔。這種用戶終端59可以是例如一個個人計算機、手持裝置等。如所示,在此實施例中,用戶終端59包括注釋數(shù)據(jù)文檔的數(shù)據(jù)庫29、一個自動語音識別單元51、一個搜索引擎58、一個控制單元55和一個顯示器57。在操作中,自動語音識別單元51對經(jīng)過麥克風(fēng)7和輸入線路61接收的來自用戶39的一個輸入語音詢問進行處理,并從其產(chǎn)生相應(yīng)的音素和字?jǐn)?shù)據(jù)。這種數(shù)據(jù)還可具有音素和字格的形式,但這不是必需的。這種音素和字?jǐn)?shù)據(jù)隨后被輸入到控制單元55,控制單元55利用搜索引擎53啟動對數(shù)據(jù)庫29的適當(dāng)搜索。搜索引擎58產(chǎn)生的搜索結(jié)果隨后被發(fā)送回到控制單元55,而控制單元55對搜索結(jié)果進行分析并產(chǎn)生和振動顯示器57向用戶顯示適當(dāng)?shù)娘@示數(shù)據(jù)。
      圖6a和6b是流程圖,顯示了在此實施例中用戶終端59的操作方式。在步驟s1,用戶終端59處于一種閑置狀態(tài)且等候來自用戶39的一個輸入詢問。在接收到一個輸入詢問時,用于該輸入詢問的音素和字?jǐn)?shù)據(jù)在步驟s3由自動語音識別單元51產(chǎn)生。在步驟s5,控制單元55命令搜索引擎53利用為該輸入詢問產(chǎn)生的字?jǐn)?shù)據(jù)在數(shù)據(jù)庫29中進行搜索。在此實施例中采用的字搜索與在現(xiàn)有技術(shù)中為鍵入的關(guān)鍵字搜索采用的相同,且將不在此進行詳細(xì)描述。如果在步驟s7,控制單元55從搜索結(jié)果識別出已經(jīng)找到了對用戶的輸入詢問的匹配,則它經(jīng)顯示器57把搜索結(jié)果輸出給用戶。
      在此實施例中,用戶終端59隨后使用戶能夠考慮該搜索結(jié)果并等候用戶對該結(jié)果是否對應(yīng)于用戶所需的信息的確認(rèn)。如果它們是,則處理從步驟s11進行到處理的結(jié)束,且用戶終端59返回到其閑置狀態(tài)并等候下一個輸入詢問。然而,如果用戶表明(例如通過輸入一個適當(dāng)?shù)恼Z音命令)該搜索結(jié)果不與所希望的信息對應(yīng),則處理從步驟s11進行到步驟s13,在那里搜索引擎53進行數(shù)據(jù)庫29的一個音素搜索。然而,在此實施例中,在步驟s13進行的音素搜索不是對整個數(shù)據(jù)庫29的,因為這將需要幾個小時-取決于數(shù)據(jù)庫29的大小。
      相反地,在步驟s13進行的音素搜索采用了在步驟s5進行的字搜索的結(jié)果,以標(biāo)明數(shù)據(jù)庫內(nèi)可能與用戶的輸入詢問相應(yīng)的一或更多部分。在此實施例中在步驟s13進行的音素搜索的方式將在以下得到更詳細(xì)的描述。在音素搜索已經(jīng)被進行的情況下,控制單元55在步驟s15標(biāo)明是否已經(jīng)找到了一個匹配。如果已經(jīng)找到了一個匹配,則處理進行到步驟s17,在那里控制單元55使搜索結(jié)果在顯示器57上被顯示給用戶。同樣地,系統(tǒng)隨后等候用戶對該搜索結(jié)果是否對應(yīng)于所希望的信息的確認(rèn)。如果該結(jié)果正確,則處理從步驟s19進行到結(jié)束,且用戶終端59返回到閑置狀態(tài)并等候下一個輸入詢問。然而,如果用戶表明該搜索結(jié)果不對應(yīng)于所希望的信息,則處理從步驟s19進行到步驟s21,在那里控制單元55經(jīng)過顯示器57詢問用戶是否在整個數(shù)據(jù)庫29上進行音素搜索。如果用戶響應(yīng)于該詢問表示要進行這樣的搜索,則處理進行到步驟s23,在那里搜索引擎進行整個數(shù)據(jù)庫29的音素搜索。
      在這種搜索完成時,控制單元55在步驟s25標(biāo)明是否已經(jīng)找到了與用戶的輸入詢問的匹配。如果找到了匹配,則處理進行到步驟s27,在那里控制單元55使搜索結(jié)果在顯示器57上被顯示給用戶。如果該搜索結(jié)果正確,則處理從步驟s29進行到處理的結(jié)束,且用戶終端59返回到其閑置狀態(tài)并等候下一個輸入詢問。另一方面,如果用戶表明該搜索結(jié)果仍然不對應(yīng)于所希望的信息,則處理進行到步驟s31,在那里控制單元55通過顯示器57詢問用戶是否希望重新定義或修改搜索詢問。如果用戶希望重新定義或修改搜索詢問,則處理返回到步驟s3,在那里用戶的隨后的輸入詢問以類似的方式得到處理。如果該搜索不被重新定義或修改,則該搜索結(jié)果和用戶的初始輸入詢問被放棄,且用戶終端59返回到其閑置狀態(tài)并等候下一個輸入詢問。
      音素搜索
      如上所述,在步驟s13和s23,搜索引擎53把輸入詢問的音素數(shù)據(jù)與存儲在數(shù)據(jù)庫29中的音素和字格注釋數(shù)據(jù)中的音素數(shù)據(jù)進行比較。為了進行這種比較,可以采用各種技術(shù),包括諸如動態(tài)編程的標(biāo)準(zhǔn)模式匹配技術(shù)。在此實施例中,采用了被稱為M-GRAMS的一種技術(shù)。這種技術(shù)是由Ng,K.和Zue,V.W.提出的,并在例如在proceedings ofEurospeech1997中發(fā)表的題目為“Subward unit representations forspoken documentretrieval”的論文中得到了討論。
      為各個音素進行搜索的問題,是數(shù)據(jù)庫內(nèi)的各個音素將會出現(xiàn)多次。因此,各個音素自己并不提供足夠的可鑒別性,以使輸入詢問的音素串能夠與數(shù)據(jù)庫內(nèi)的音素串相匹配。然而,音節(jié)大小的單位可能提供更大的可鑒別性,雖然它們不容易識別。
      M-GRAM技術(shù)在這兩種可能性之間提供了一個適當(dāng)?shù)钠胶猓⑷〕鲆羲卮闹丿B的固定大小的碎塊或M-GRAM,來提供一組特征。這在圖8中得到了顯示,該圖顯示了具有音素a、b、c、d、e和f的一個輸入音素串的部分,這些音素被分到四個M-GRAM(a,b,c)、(b,c,d)、(c,d,e)和(d,e,f)中。在本說明中,四個M-GRAM每一個都包括了三個音素的一個序列,該序列是唯一的并代表了可在該輸入音素串中找到的一個唯一的特征(fZzi)。
      因此,參見圖7,在進行圖6中的步驟s13中的音素搜索中的第一個步驟s51,是識別在該輸入音素數(shù)據(jù)中的所有不同的M-GRAM和它們的出現(xiàn)頻率。隨后,在步驟s53,搜索引擎53確定選定的數(shù)據(jù)庫部分中的識別的M-GRAM(從圖6中的步驟s5進行的字搜索識別)的出現(xiàn)頻率。為了說明這點,對于數(shù)據(jù)庫的一個給定部分和對于圖8所示的示例性M-GRAM,這給出了以下的信息表
      隨后,在步驟s55,搜索引擎53計算一個類似度評分,該評分代表了輸入詢問的音素串與來自數(shù)據(jù)庫的選定部分的音素串之間的類似度。在此實施例中,這種類似評分,利用采用作為矢量的輸入詢問中識別的M-GRAM的出現(xiàn)頻率與在數(shù)據(jù)庫的該選定部分中的出現(xiàn)頻率之間的余弦量度,而得到確定。這種技術(shù)的原理是,如果輸入的音素串與數(shù)據(jù)庫音素串的選定部分類似,則M-GRAM特征的出現(xiàn)頻率對于這兩種音素串將是類似的。因此,如果M-GRAM的出現(xiàn)頻率被認(rèn)為是矢量(即考慮上述表中的作為矢量的第二和第三列),則如果在輸入音素串與數(shù)據(jù)庫的選定部分之間有一種類似度,則這些矢量之間的夾角應(yīng)該比較小。這在圖9中對于兩維矢量a和q得到了顯示,其中矢量之間的角用θ表示。在圖8所示的例子中,矢量a和q將是四維矢量且類似度評分將用下式計算評分=cosθ=a·q/(|a||q|)(1)
      隨后使該評分與數(shù)據(jù)庫的當(dāng)前選定部分相關(guān)并存儲該評分至搜索結(jié)束。在某些應(yīng)用中,余弦量度的計算中采用的矢量將是這些出現(xiàn)頻率的對數(shù),而不是出現(xiàn)頻率本身。
      該處理隨后進行到步驟s57,在那里搜索引擎53確定是否有來自數(shù)據(jù)庫29的音素串的任何更多的選定部分。如果有,則處理返回到步驟s53,在那里進行一種類似處理以識別對于數(shù)據(jù)庫的該部分的評分。如果沒有更多的選定部分,則搜索結(jié)束且處理返回到圖6所示的步驟s15,在那里控制單元考慮搜索引擎53產(chǎn)生的評分并通過例如把計算出的評分與一個預(yù)定閾值進行比較而判定是否有一個匹配。
      如本領(lǐng)域的技術(shù)人員能夠理解的,在圖6所示的步驟s23將進行一個類似匹配操作。然而,由于整個數(shù)據(jù)庫都被搜索,這種搜索是通過依次搜索上述塊中的每一個而進行的。
      替換實施例
      如本領(lǐng)域的技術(shù)人員能夠理解的,數(shù)據(jù)庫的數(shù)據(jù)文檔的這種語音和字注釋提供了一種方便而強有力的方式,使用戶能夠借助語音對數(shù)據(jù)庫進行搜索。在所示的實施例中,一個單個的聲頻數(shù)據(jù)流得到了注釋并被存儲在數(shù)據(jù)庫中以供用戶隨后進行檢索。如本領(lǐng)域的技術(shù)人員能夠理解的,當(dāng)輸入的數(shù)據(jù)文檔對應(yīng)于一個視頻數(shù)據(jù)文檔時,該數(shù)據(jù)文檔內(nèi)的聲頻數(shù)據(jù)普通包括不同講話者的聲頻數(shù)據(jù)。不是為聲頻數(shù)據(jù)產(chǎn)生單個的注釋數(shù)據(jù)流,可以為各個講話者的聲頻數(shù)據(jù)產(chǎn)生單獨的音素和字格注釋數(shù)據(jù)。這可通過從音節(jié)(pitch)或從語音信號的其他區(qū)分特征來識別與各個講話者對應(yīng)的聲頻數(shù)據(jù)并隨后通過對不同的講話者的聲頻分別進行注釋,而而實現(xiàn)。如果聲頻數(shù)據(jù)是以立體聲記錄的,或者如果在產(chǎn)生該聲頻數(shù)據(jù)時采用了麥克風(fēng)陣列,則這也可得到實現(xiàn),因為此時可以對該聲頻數(shù)據(jù)進行處理以提取各個講話者的數(shù)據(jù)。
      圖10顯示了在這樣一個實施例中的注釋數(shù)據(jù)的形式,其中一個第一講話者說出了“……this so”且第二個講話者回答了“yes”。如所示,用于不同的講話者的聲頻數(shù)據(jù)的注釋數(shù)據(jù)是彼此時間同步的,因而該注釋數(shù)據(jù)對于數(shù)據(jù)文檔內(nèi)的視頻和聲頻數(shù)據(jù)仍然是時間同步的。在這樣一個實施例中,數(shù)據(jù)結(jié)構(gòu)中的頭部信息優(yōu)選地應(yīng)該包括注釋數(shù)據(jù)內(nèi)的不同的講話者的一個清單,且對于每一個講話者,定義講話者的語言、口音、方言和語音組的數(shù)據(jù),以及各個塊,應(yīng)該標(biāo)明塊中活躍的那些講話者。
      在上述實施例中,采用了一種語音識別系統(tǒng)來產(chǎn)生對數(shù)據(jù)庫中的一個數(shù)據(jù)文檔進行注釋的注釋數(shù)據(jù)。如本領(lǐng)域的技術(shù)人員能夠理解的,其他的技術(shù)可以被用來產(chǎn)生這種注釋數(shù)據(jù)。例如,一個操作員能夠收聽聲頻數(shù)據(jù)并產(chǎn)生一個語音和字抄本,從而手動地生成該注釋數(shù)據(jù)。
      在上述實施例中,注釋數(shù)據(jù)是從存儲在數(shù)據(jù)文檔本身的聲頻產(chǎn)生的。如本領(lǐng)域的技術(shù)人員能夠理解的,其他的技術(shù)可被用來輸入該注釋數(shù)據(jù)。
      圖11顯示了使一個用戶能夠經(jīng)過麥克風(fēng)7輸入語音注釋數(shù)據(jù)以對將要存儲在數(shù)據(jù)庫29中的數(shù)據(jù)文檔91進行注釋的用戶終端59。在此實施例中,數(shù)據(jù)文檔91包括由例如一個攝象機產(chǎn)生的兩維圖象。用戶終端59使用戶39能夠用適當(dāng)?shù)淖⑨寣υ搩删S圖象進行注釋,該注釋隨后可被用于從數(shù)據(jù)庫29獲取該兩維圖象。在此實施例中,輸入的語音注釋信號被自動語音識別單元51轉(zhuǎn)換成音素和字格注釋數(shù)據(jù),該注釋數(shù)據(jù)被傳送到控制單元55。響應(yīng)于用戶的輸入,控制單元55從數(shù)據(jù)庫29檢索適當(dāng)?shù)膬删S文檔并把音素和字注釋數(shù)據(jù)附在數(shù)據(jù)文檔91上。這種增廣的數(shù)據(jù)文檔隨后被送回到數(shù)據(jù)庫29。在此注釋步驟中,控制單元55用于在顯示器57上顯示該兩維圖象,從而使用戶能夠保證該注釋數(shù)據(jù)與正確的數(shù)據(jù)文檔91相關(guān)。
      自動語音識別單元51通過(i)為輸入的講話產(chǎn)生一個音素格;(ii)隨后識別音素格內(nèi)的字;以及,(iii)結(jié)合這兩者,而產(chǎn)生音素和字格注釋數(shù)據(jù)。圖12顯示了為輸入的講話“picture of theTaj-Mahal”產(chǎn)生的音素和字格注釋數(shù)據(jù)的形式。如所示,該自動語音識別單元識別與該輸入講話對應(yīng)的若干不同的可能的音素串。如圖12所示,自動語音識別單元51在音素格內(nèi)識別的這些字被包含在音素格數(shù)據(jù)結(jié)構(gòu)中。如所示,對于該示例性的短語,自動語音識別單元51識別字“picture”、“of”、“off”、“the”、“other”、“ta”、“tar”、“jam”、“ah”、“hal”、“ha”和“al”??刂茊卧?5隨后把這種注釋數(shù)據(jù)加到2D圖象數(shù)據(jù)文檔91上,且該數(shù)據(jù)文檔91隨后被存儲在一個數(shù)據(jù)庫29中。
      如本領(lǐng)域的技術(shù)人員能夠理解的,該實施例可被用于注釋任何種類的圖象,諸如患者的X光圖象、例如NMR掃描的3D圖象、超聲波掃描圖象等。它還可被用于注釋一維數(shù)據(jù),諸如聲頻數(shù)據(jù)或地震數(shù)據(jù)。
      在上述實施例,從一種語音注釋對一個數(shù)據(jù)文檔進行了注釋。如本領(lǐng)域的技術(shù)人員能夠理解的,其他的技術(shù)可被用來輸入該注釋。例如,圖13顯示了一種用戶終端59的形式,它使得一個用戶能夠經(jīng)過鍵盤3輸入鍵入的注釋數(shù)據(jù),以對將要存儲在一個數(shù)據(jù)庫29中的數(shù)據(jù)文檔91進行注釋。在此實施例中,鍵入輸入通過語音抄本(transcription)單元75而被轉(zhuǎn)換成音素和字格注釋數(shù)據(jù)(利用一個內(nèi)部語音字典(未顯示)),該注釋數(shù)據(jù)被傳送到控制單元55。響應(yīng)于用戶的輸入,控制單元55從數(shù)據(jù)庫29獲取適當(dāng)?shù)?D文檔并把該音素和字注釋數(shù)據(jù)附在數(shù)據(jù)文檔91上。該增廣的數(shù)據(jù)文檔隨后被送回到數(shù)據(jù)庫29。在此注釋步驟期間,控制單元55把該2D圖象顯示在顯示器57上,從而使用戶能夠保證注釋數(shù)據(jù)與正確的數(shù)據(jù)文檔91相聯(lián)系。
      圖14顯示了為輸入的講話“picture of theTaj-Mahal”產(chǎn)生的音素和字格注釋數(shù)據(jù)的形式。如圖2所示,該音素和字格是一種非循環(huán)指向的曲線圖,帶有單個的進入點和單個的退出點。它代表了用戶的輸入的不同的分析。如所示,語音抄本單元75識別出了與鍵入輸入對應(yīng)的若干不同的可能的音素串。
      圖15是顯示一種文件注釋系統(tǒng)的的框圖。具體地,如圖15所示,一個文本文件101被一個文件掃描儀103轉(zhuǎn)換成一個圖象數(shù)據(jù)文檔。該圖象數(shù)據(jù)文檔隨后被傳送到一個光學(xué)字符識別(OCR)單元105,該單元105把文件101的圖象數(shù)據(jù)轉(zhuǎn)換成電子文本。這種電子文本隨后被提供給一個語音抄本單元107,該單元107產(chǎn)生音素和字注釋數(shù)據(jù)109,該注釋數(shù)據(jù)109隨后被附在掃描儀103輸出的圖象數(shù)據(jù)上以形成一個數(shù)據(jù)文檔111。如所示,數(shù)據(jù)文檔111隨后被存儲在數(shù)據(jù)庫29中以便隨后獲取。在此實施例中,注釋數(shù)據(jù)109包括結(jié)合的上述音素和字格,它使得用戶隨后能夠通過語音詢問而從數(shù)據(jù)庫29獲取數(shù)據(jù)文檔111。
      圖16顯示了對圖15所示的文件注釋系統(tǒng)的一種修正。圖16所示的系統(tǒng)與圖15所示的系統(tǒng)的不同,在于光學(xué)字符識別單元105的輸出,而不是掃描儀103輸出的圖象數(shù)據(jù),被用來產(chǎn)生數(shù)據(jù)文檔113。圖16所示的系統(tǒng)的其余部分與圖15所示的相同且將不作進一步的描述。
      圖17顯示了對圖15所示的文件注釋系統(tǒng)的一種進一步的修正。在圖17所示的實施例中,輸入的文件被一個傳真單元115而不是一個掃描儀103所示接收。該傳真單元所輸出的圖象數(shù)據(jù)隨后以與圖15所示的掃描儀103輸出的圖象數(shù)據(jù)相同的方式得到處理,且將不再描述。
      在上述實施例中,語音抄本單元107被用于產(chǎn)生注釋數(shù)據(jù)以對圖象或文本數(shù)據(jù)進行注釋。如本領(lǐng)域的技術(shù)人員能夠理解的,其他技術(shù)可得到采用。例如,一個操作者能夠從文件的圖象本身手動地產(chǎn)生這種注釋數(shù)據(jù)。
      在上述實施例中,數(shù)據(jù)庫29和自動語音識別單元都位于用戶終端59內(nèi)。如本領(lǐng)域的技術(shù)人員能夠理解的,這不是必需的。圖18顯示了一個實施例,其中數(shù)據(jù)庫29和搜索引擎53位于一個遠程服務(wù)器60上,且其中用戶終端59經(jīng)過網(wǎng)絡(luò)接口單元67和69以及一個數(shù)據(jù)網(wǎng)絡(luò)68(諸如因特網(wǎng))對數(shù)據(jù)庫29中的數(shù)據(jù)文檔進行訪問和控制。在操作中,用戶經(jīng)麥克風(fēng)7輸入一個語音詢問,該語音詢問被自動語音識別單元51轉(zhuǎn)換成音素和字?jǐn)?shù)據(jù)。這種數(shù)據(jù)隨后被傳送到控制單元,該控制單元控制這種音素和字?jǐn)?shù)據(jù)在數(shù)據(jù)網(wǎng)絡(luò)68上至位于遠程服務(wù)器60中的搜索引擎53的傳送。搜索引擎53隨后根據(jù)接收的音素和字?jǐn)?shù)據(jù)進行該搜索,或者根據(jù)接收的音素和字?jǐn)?shù)據(jù)來控制對該數(shù)據(jù)文檔的操作(例如控制一個視頻文檔的播放、前送或倒回)。從數(shù)據(jù)庫29獲取的數(shù)據(jù)或與該搜索有關(guān)的其他數(shù)據(jù)隨后經(jīng)數(shù)據(jù)網(wǎng)絡(luò)68被傳送回到控制單元55,而控制單元55控制適當(dāng)?shù)臄?shù)據(jù)在顯示器57上的顯示以被用戶39所觀看。以此方式,可以獲取和控制遠程服務(wù)器60中的數(shù)據(jù)文檔,而不用使用服務(wù)器上的重要的計算機資源(因為是用戶終端59把輸入的語音轉(zhuǎn)換成了音素和字?jǐn)?shù)據(jù))。
      除了定位遠程服務(wù)器60中的搜索引擎53和數(shù)據(jù)庫29之外,還可以定位遠程服務(wù)器60中的自動語音識別單元51。圖19中顯示了這樣的一個實施例。如在此實施例中所示,來自用戶的輸入語音詢問經(jīng)輸入線路61被傳送到一個語音編碼單元73,該編碼單元對語音進行編碼以通過數(shù)據(jù)網(wǎng)絡(luò)68進行充分的傳送。編碼的數(shù)據(jù)隨后被傳送到控制單元55,控制單元55把該數(shù)據(jù)經(jīng)網(wǎng)絡(luò)68發(fā)送到遠程服務(wù)器60,在遠程服務(wù)器60該數(shù)據(jù)受到自動語音識別單元51的處理。由語音識別單元51為該輸入詢問產(chǎn)生的產(chǎn)生的音素和字?jǐn)?shù)據(jù)隨后被傳送到搜索引擎53,以用于搜索和控制數(shù)據(jù)庫29中的數(shù)據(jù)文檔。搜索引擎53獲取的適當(dāng)?shù)臄?shù)據(jù)隨后經(jīng)網(wǎng)絡(luò)接口69和網(wǎng)絡(luò)68被傳送回到用戶終端59。從遠程服務(wù)器接收回來的這種數(shù)據(jù)經(jīng)網(wǎng)絡(luò)接口單元67被傳送到控制單元55,而控制單元55在顯示器57上產(chǎn)生并顯示適當(dāng)?shù)臄?shù)據(jù)以被用戶所觀看。
      在上述實施例中,用戶通過語音輸入他的詢問。圖20顯示了一種替換實施例,其中用戶經(jīng)過鍵盤3輸入詢問。如所示,經(jīng)鍵盤3的文本輸入被傳送到語音抄本單元75,該單元75用于從輸入的文本產(chǎn)生相應(yīng)的音素串。這種音素串與經(jīng)過鍵盤3輸入的字一起隨后被傳送到控制單元55,而控制單元55利用搜索引擎53起始對數(shù)據(jù)庫的搜索。搜索進行的方式與在第一實施例中的相同,因而不再進行描述。如同上述其他實施例,語音抄本單元75、搜索引擎53和/或數(shù)據(jù)庫29可都位于一個遠程服務(wù)器中。
      在第一實施例中,來自數(shù)據(jù)文檔23的聲頻數(shù)據(jù)通過一個自動語音識別單元而得到傳送,以產(chǎn)生音素注釋數(shù)據(jù)。在某些情況下,聲頻數(shù)據(jù)的一種抄本可出現(xiàn)在該數(shù)據(jù)文檔中。圖21中顯示了這樣的一個實施例。在此實施例中,數(shù)據(jù)文檔81代表具有視頻數(shù)據(jù)81-1、聲頻數(shù)據(jù)81-2和定義了錄相帶中各個演員的行的劇本數(shù)據(jù)81-3的數(shù)字視頻文檔。如所示,劇本數(shù)據(jù)81-3通過一個文本被傳送到音素轉(zhuǎn)換器83,轉(zhuǎn)換器83利用存儲的字典產(chǎn)生音素格數(shù)據(jù)85,該字典把字翻譯成可能的音素序列。這種音素格數(shù)據(jù)85隨后與劇本數(shù)據(jù)81-3結(jié)合,以產(chǎn)生上述的音素和字格注釋數(shù)據(jù)81-4。這種注釋數(shù)據(jù)隨后被加到數(shù)據(jù)文檔81上以產(chǎn)生一種增廣的數(shù)據(jù)文檔81’,該數(shù)據(jù)文檔81’隨后被加到數(shù)據(jù)庫29上。如本領(lǐng)域的技術(shù)人員應(yīng)該理解的,這種實施例便利了為視頻數(shù)據(jù)文檔內(nèi)的不同的講話者的單獨的音素和字格注釋數(shù)據(jù)的產(chǎn)生,因為劇本數(shù)據(jù)普通包含誰在談話的的表示。這種音素和字格注釋數(shù)據(jù)與視頻和聲頻數(shù)據(jù)的同步隨后能夠通過利用自動語音識別系統(tǒng)(未顯示)進行劇本數(shù)據(jù)與聲頻數(shù)據(jù)的強迫時間對準(zhǔn)而得到實現(xiàn)。
      在上述實施例中,音素(或音素狀)和字格被用來對一個數(shù)據(jù)文檔進行注釋。語音識別和語音處理領(lǐng)域的技術(shù)人員應(yīng)該理解的,本描述和權(quán)利要求書中的“音素”一詞不限于其字面含意,而是包括了在標(biāo)準(zhǔn)語音識別系統(tǒng)中使用和識別的各種比字小的單元。
      權(quán)利要求
      1.定義一種音素和字格的數(shù)據(jù),該數(shù)據(jù)包括
      用于定義該格內(nèi)的多個節(jié)點和連接該格內(nèi)的這些節(jié)點的多個鏈接的數(shù)據(jù);
      把多個音素與相應(yīng)的多個鏈接相聯(lián)系的數(shù)據(jù);以及
      把至少一個字與至少一個所述鏈接相聯(lián)系的數(shù)據(jù)。
      2.根據(jù)前述權(quán)利要求中的任何一項的數(shù)據(jù),定義所述音素和字格的所述數(shù)據(jù)被設(shè)置在節(jié)點的塊中。
      3.根據(jù)權(quán)利要求1的數(shù)據(jù),進一步包括為各個所述節(jié)點定義時間標(biāo)記信息的數(shù)據(jù)。
      4.根據(jù)權(quán)利要求3的數(shù)據(jù),該數(shù)據(jù)被設(shè)置在具有相等的持續(xù)時間的塊中。
      5.根據(jù)權(quán)利要求2或4的數(shù)據(jù)進一步包括定義所述數(shù)據(jù)庫內(nèi)的各個塊位置的數(shù)據(jù)。
      6.根據(jù)權(quán)利要求3或其從屬權(quán)利要求中的任何一項的數(shù)據(jù),其中定義音素和字格的所述數(shù)據(jù)與定義一個時間序列信號的進一步的數(shù)據(jù)相聯(lián)系,且其中所述時間標(biāo)記信息與所述時間序列信號相同步。
      7.根據(jù)權(quán)利要求6的數(shù)據(jù),其中所述進一步的數(shù)據(jù)定義了一種聲頻和/或視頻信號。
      8.根據(jù)權(quán)利要求7的數(shù)據(jù),其中所述進一步的數(shù)據(jù)至少定義了語音數(shù)據(jù)且其中定義所述音素和字格的所述數(shù)據(jù)是從所述進一步的數(shù)據(jù)導(dǎo)出的。
      9.根據(jù)權(quán)利要求8的數(shù)據(jù),其中所述語音數(shù)據(jù)包括聲頻且其中所述定義了所述音素和字格的數(shù)據(jù)是通過使所述聲頻信號通過一種自動語音識別系統(tǒng)而導(dǎo)出的。
      10.根據(jù)權(quán)利要求8或9的數(shù)據(jù),其中所述語音數(shù)據(jù)定義了多個講話者的口頭言詞,且其中所述數(shù)據(jù)定義了用于各個講話者的口頭言詞的單獨的音素和字格。
      11.根據(jù)權(quán)利要求前述權(quán)利要求中的任何一項的數(shù)據(jù),進一步包括為與所述鏈接相聯(lián)系音素和/或字定義一個權(quán)的數(shù)據(jù)。
      12.根據(jù)權(quán)利要求前述權(quán)利要求中的任何一項的數(shù)據(jù),其中至少一個所述節(jié)點通過多個鏈接與多個其他的節(jié)點相連。
      13.根據(jù)權(quán)利要求12的數(shù)據(jù),其中把所述節(jié)點連接到所述多個其他節(jié)點的所述多個鏈接中的至少一個與一個音素相聯(lián)系,且其中把所述節(jié)點連接到所述多個其他節(jié)點的所述鏈接中的至少一個鏈接與一個字相聯(lián)系。
      14.用于響應(yīng)于一個輸入詢問而對包括根據(jù)權(quán)利要求前述 的任何一項的數(shù)據(jù)的一個數(shù)據(jù)庫進行搜索的一種方法,該方法包括以下步驟
      產(chǎn)生與該輸入詢問相應(yīng)的音素數(shù)據(jù)和/或字?jǐn)?shù)據(jù);
      利用為該輸入詢問產(chǎn)生的音素和/或字?jǐn)?shù)據(jù)搜索該音素和字格進行;
      根據(jù)所述搜索步驟的結(jié)果輸出搜索結(jié)果。
      15.根據(jù)權(quán)利要求14的方法,其中所述搜索步驟包括以下步驟
      (i)利用為用戶的輸入詢問產(chǎn)生的字?jǐn)?shù)據(jù)搜索該音素和字格以識別音素和字格內(nèi)的類似的字;
      (ii)響應(yīng)于所述字搜索的結(jié)果,選擇該音素和字格的一或多個部分以進行進一步的搜索;以及
      (iii)利用為用戶的輸入詢問產(chǎn)生的音素數(shù)據(jù),搜索該音素和字格的所述一或多個選定部分。
      16.根據(jù)權(quán)利要求15的方法,其中在對該數(shù)據(jù)庫的該選定部分進行音素搜索之前,字搜索的結(jié)果被輸出給用戶。
      17.根據(jù)權(quán)利要求16的方法,其中只響應(yīng)于用戶響應(yīng)于字搜索的結(jié)果輸出而進行的進一步的輸入而進行所述音素搜索。
      18.根據(jù)權(quán)利要求15至17中的任何一項的方法,其中所述音素搜索是通過識別音素序列內(nèi)的與用戶的輸入詢問相應(yīng)的若干特征和識別數(shù)據(jù)庫內(nèi)的定義所述音素格的數(shù)據(jù)內(nèi)的類似特征而進行的。
      19.根據(jù)權(quán)利要求18的方法,其中各個所述特征代表了用戶的輸入詢問的音素數(shù)據(jù)內(nèi)的一個唯一的音素序列。
      20.根據(jù)權(quán)利要求19的方法,其中所述音素搜索采用了一種余弦量度,以表示與用戶的輸入詢問相應(yīng)的音素數(shù)據(jù)和數(shù)據(jù)庫內(nèi)的音素數(shù)據(jù)之間的類似程度。
      21.根據(jù)權(quán)利要求14至20中的任何一項的方法,其中所述搜索結(jié)果被輸出至一個顯示器。
      22.根據(jù)權(quán)利要求14至21中的任何一項的方法,其中所述用戶的輸入詢問是通過語音輸入的,且其中所述音素數(shù)據(jù)和字?jǐn)?shù)據(jù)產(chǎn)生步驟采用了一種自動語音識別系統(tǒng)。
      23.根據(jù)權(quán)利要求14至21中的任何一項的方法,其中所述輸入詢問是鍵入的且其中所述音素數(shù)據(jù)和字?jǐn)?shù)據(jù)產(chǎn)生步驟采用了文本-音素轉(zhuǎn)換器。
      24.用于響應(yīng)于一個輸入詢問而搜索包括根據(jù)權(quán)利要求1至13中的任何一項的數(shù)據(jù)的數(shù)據(jù)庫的設(shè)備,該設(shè)備包括
      裝置,用于產(chǎn)生與輸入詢問相應(yīng)的音素數(shù)據(jù)和/或字?jǐn)?shù)據(jù);
      裝置,用于利用為該輸入詢問產(chǎn)生的音素和/或字?jǐn)?shù)據(jù)搜索該音素和字格;
      裝置,用于根據(jù)所述搜索裝置的輸出而輸出搜索的結(jié)果。
      25.根據(jù)權(quán)利要求24的設(shè)備,其中所述搜索裝置包括
      (i)裝置,用于利用為用戶的輸入詢問產(chǎn)生的字?jǐn)?shù)據(jù)搜索音素和字格以標(biāo)明音素和字格內(nèi)的類似的字;
      (ii)裝置,用于響應(yīng)于所述字搜索的結(jié)果而選擇該音素和字格的一或多個部分以用于進一步的搜索;以及
      (iii)裝置,用于利用為用戶的輸入詢問產(chǎn)生的音素數(shù)據(jù)搜索音素和字格的所述一或多個選定部分。
      26.根據(jù)權(quán)利要求25的設(shè)備,其中所述輸出裝置用于在對數(shù)據(jù)庫的該選定部分進行該音素搜索之前把字搜索的結(jié)果輸出給用戶。
      27.根據(jù)權(quán)利要求26的設(shè)備,其中所述音素搜索只響應(yīng)于用戶響應(yīng)于字搜索的輸出結(jié)果而進行的進一步的輸入而進行。
      28.根據(jù)權(quán)利要求25至27中的任何一項的設(shè)備,其中所述音素搜索是通過識別音素序列內(nèi)與用戶的輸入詢問相應(yīng)的若干特征和識別數(shù)據(jù)庫內(nèi)的定義所述音素格的數(shù)據(jù)內(nèi)的類似特征而進行的。
      29.根據(jù)權(quán)利要求28的設(shè)備,其中各個所述特征代表了用戶的輸入詢問的音素數(shù)據(jù)內(nèi)的一個唯一的音素序列。
      30.根據(jù)權(quán)利要求29的設(shè)備,其中所述音素搜索采用了一種余弦量度,以表示與用戶的輸入詢問相應(yīng)的音素數(shù)據(jù)和數(shù)據(jù)庫內(nèi)的音素數(shù)據(jù)之間的類似程度。
      31.根據(jù)權(quán)利要求24至30中的任何一項的設(shè)備,其中所述輸出裝置包括一個顯示器。
      32.根據(jù)權(quán)利要求24至31中的任何一項的設(shè)備,其中所述用戶的輸入詢問是通過語音輸入的,且其中所述用于產(chǎn)生音素數(shù)據(jù)和字?jǐn)?shù)據(jù)的裝置包括用于產(chǎn)生所述音素數(shù)據(jù)的一種自動語音識別系統(tǒng)和用于產(chǎn)生所述字?jǐn)?shù)據(jù)的一種字解碼器。
      33.根據(jù)權(quán)利要求24至31中的任何一項的方法,其中所述輸入詢問是鍵入的且其中所述用于產(chǎn)生音素數(shù)據(jù)和字?jǐn)?shù)據(jù)的步驟包括一個用于產(chǎn)生所述音素數(shù)據(jù)的文本-音素轉(zhuǎn)換器。
      34.用于產(chǎn)生注釋數(shù)據(jù)的設(shè)備,該注釋數(shù)據(jù)用于對包括聲頻數(shù)據(jù)的數(shù)據(jù)文檔進行注釋,該設(shè)備包括
      自動語音識別系統(tǒng),用于為該數(shù)據(jù)文檔中的聲頻數(shù)據(jù)產(chǎn)生音素數(shù)據(jù);
      字解碼器,用于識別自動語音識別系統(tǒng)產(chǎn)生的音素數(shù)據(jù)內(nèi)的可能的字;以及
      發(fā)生裝置,用于通過結(jié)合所產(chǎn)生的音素數(shù)據(jù)和解碼的字產(chǎn)生注釋數(shù)據(jù)。
      35.用于產(chǎn)生注釋數(shù)據(jù)的設(shè)備,該注釋數(shù)據(jù)用于對包括文本數(shù)據(jù)的一個數(shù)據(jù)文檔進行注釋,該設(shè)備包括
      一個文本至音素轉(zhuǎn)換器,用于為該數(shù)據(jù)文檔中的文本數(shù)據(jù)產(chǎn)生音素數(shù)據(jù);以及
      發(fā)生裝置,用于通過結(jié)合音素數(shù)據(jù)和文本數(shù)據(jù)中的字而產(chǎn)生注釋數(shù)據(jù)。
      36.用于產(chǎn)生注釋數(shù)據(jù)的設(shè)備,該注釋數(shù)據(jù)用于注釋一個數(shù)據(jù)文檔,該設(shè)備包括
      輸入裝置,用于接收一個輸入語音信號;
      語音識別裝置,用于把輸入語音信號轉(zhuǎn)換成音素數(shù)據(jù)和字;以及
      發(fā)生裝置,用于通過結(jié)合該音素數(shù)據(jù)和字而產(chǎn)生注釋數(shù)據(jù)。
      37.用于產(chǎn)生注釋數(shù)據(jù)的設(shè)備,該注釋數(shù)據(jù)用于注釋一個數(shù)據(jù)文檔,該設(shè)備包括
      輸入裝置,用于接收來自用戶的鍵入輸入;
      轉(zhuǎn)換裝置,用于把鍵入的輸入中的字轉(zhuǎn)換成音素數(shù)據(jù);以及
      發(fā)生裝置,用于通過結(jié)合音素數(shù)據(jù)和鍵入輸入中的字而產(chǎn)生注釋數(shù)據(jù)。
      38.用于產(chǎn)生注釋數(shù)據(jù)的設(shè)備,該注釋數(shù)據(jù)用于對一個數(shù)據(jù)文檔進行注釋,該設(shè)備包括
      裝置,用于接收代表文本的圖象數(shù)據(jù);
      字符識別裝置,用于把所述圖象數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù);
      轉(zhuǎn)換裝置,用于把文本數(shù)據(jù)中的字轉(zhuǎn)換成音素數(shù)據(jù);以及
      發(fā)生裝置,用于通過結(jié)合該音素數(shù)據(jù)和文本數(shù)據(jù)中的字而產(chǎn)生注釋數(shù)據(jù)。
      39.根據(jù)權(quán)利要求34和38中的任何一項的設(shè)備,其中所述注釋數(shù)據(jù)定義了一種音素和字格且其中所述發(fā)生裝置包括
      (i)裝置,用于產(chǎn)生定義格內(nèi)的多個節(jié)點和連接該格內(nèi)的這些節(jié)點的多個鏈接的數(shù)據(jù);
      (ii)裝置,用于產(chǎn)生把音素數(shù)據(jù)的多個音素與相應(yīng)的多個鏈接相聯(lián)系的數(shù)據(jù);以及
      (iii)裝置,用于產(chǎn)生把這些字中的至少一個與所述鏈接中的至少一個相聯(lián)系的數(shù)據(jù)。
      40.根據(jù)權(quán)利要求39的設(shè)備,其中所述發(fā)生裝置用于產(chǎn)生定義在所述節(jié)點的塊中的所述音素和字格的所述數(shù)據(jù)的裝置。
      41.根據(jù)權(quán)利要求39或40中的任何一項的設(shè)備,其中所述發(fā)生裝置用于產(chǎn)生為各個所述節(jié)點定義時間標(biāo)記信息的數(shù)據(jù)。
      42.根據(jù)權(quán)利要求41的設(shè)備,其中所述發(fā)生裝置被適當(dāng)設(shè)置以產(chǎn)生具有相等的持續(xù)時間的塊的形式的所述音素和字格數(shù)據(jù)。
      43.根據(jù)權(quán)利要求40、41或42的設(shè)備,其中所述發(fā)生裝置用于產(chǎn)生定義數(shù)據(jù)庫內(nèi)各個塊的位置的數(shù)據(jù)。
      44.根據(jù)權(quán)利要求41或其任何從屬權(quán)利要求的設(shè)備,其中所述數(shù)據(jù)文檔包括一個時間序列信號,且其中所述發(fā)生裝置用于產(chǎn)生時間標(biāo)記數(shù)據(jù),該時間標(biāo)記數(shù)據(jù)與所述時間序列信號相時間同步。
      45.根據(jù)權(quán)利要求44的設(shè)備,其中所述時間序列信號是一種聲頻和/或視頻信號。
      46.根據(jù)權(quán)利要求34或其任何從屬權(quán)利要求的設(shè)備,其中所述聲頻數(shù)據(jù)包括定義了多個講話者的口頭言詞的數(shù)據(jù),且其中所述發(fā)生裝置用于產(chǎn)生為各個講話者的口頭言詞定義了單獨的音素和字注釋數(shù)據(jù)的數(shù)據(jù)。
      47.根據(jù)權(quán)利要求35或其任何從屬權(quán)利要求的設(shè)備,其中所述文本數(shù)據(jù)定義了多個講話者的口頭言詞,且其中所述發(fā)生裝置用于產(chǎn)生為各個講話者的口頭言詞定義了單獨的音素和字注釋數(shù)據(jù)的數(shù)據(jù)。
      48.根據(jù)權(quán)利要求34或其任何從屬權(quán)利要求的設(shè)備,其中所述語音識別系統(tǒng)用于產(chǎn)生定義了用于該音素數(shù)據(jù)中的音素的權(quán)的數(shù)據(jù)。
      49.根據(jù)權(quán)利要求34或其任何從屬權(quán)利要求的設(shè)備,其中所述字解碼器用于產(chǎn)生這樣的數(shù)據(jù),即該數(shù)據(jù)定義了用于所述音素數(shù)據(jù)內(nèi)識別的字的權(quán)。
      50.根據(jù)權(quán)利要求39或其任何從屬權(quán)利要求的設(shè)備,其中所述用于產(chǎn)生用于定義多個節(jié)點和多個鏈接的數(shù)據(jù)的裝置用于定義至少一個節(jié)點,該至少一個節(jié)點通過多個鏈接而連接到多個其他的節(jié)點。
      51.根據(jù)權(quán)利要求50的設(shè)備,其中把所述節(jié)點連接到所述多個其他節(jié)點的所述多個鏈接中的至少一個與一個音素相聯(lián)系,且其中把所述節(jié)點連接到所述多個其他節(jié)點的所述鏈接中的至少一個與一個字相聯(lián)系。
      52.根據(jù)權(quán)利要求36或其任何從屬權(quán)利要求的設(shè)備,其中所述語音識別裝置用于產(chǎn)生這樣的數(shù)據(jù),即該數(shù)據(jù)定義了用于音素數(shù)據(jù)中的該音素的一個權(quán)
      53.根據(jù)權(quán)利要求52的設(shè)備,其中所述語音識別裝置用于產(chǎn)生這樣的數(shù)據(jù),即該數(shù)據(jù)定義了用于該字?jǐn)?shù)據(jù)內(nèi)的字的權(quán)。
      54.根據(jù)權(quán)利要求36或37或其任何從屬權(quán)利要求的設(shè)備,進一步包括用于把所述注釋數(shù)據(jù)與所述數(shù)據(jù)文檔相聯(lián)系的裝置。
      55.根據(jù)權(quán)利要求37或其任何從屬權(quán)利要求的設(shè)備,其中所述轉(zhuǎn)換裝置包括一個自動語音抄本單元,該單元從鍵入的輸入內(nèi)的字產(chǎn)生所述音素數(shù)據(jù)。
      56.根據(jù)權(quán)利要求38或其任何從屬權(quán)利要求的設(shè)備,其中所述轉(zhuǎn)換裝置包括一個自動語音抄本單元,該單元從所述字符識別裝置輸出的文本數(shù)據(jù)內(nèi)的字產(chǎn)生所述音素數(shù)據(jù)。
      57.根據(jù)權(quán)利要求38或其任何從屬權(quán)利要求的設(shè)備,進一步包括用于把所述注釋數(shù)據(jù)與代表所述文本的所述圖象數(shù)據(jù)或所述文本數(shù)據(jù)相聯(lián)系的裝置。
      58.根據(jù)權(quán)利要求38或其任何從屬權(quán)利要求的設(shè)備,其中所述接收裝置包括一個文件掃描儀或一個傳真機。
      59.用于產(chǎn)生注釋數(shù)據(jù)的一種方法,該注釋數(shù)據(jù)被用于對包括聲頻數(shù)據(jù)的一個數(shù)據(jù)文檔進行注釋,該方法包括以下步驟
      利用一種自動語音識別系統(tǒng)以為該數(shù)據(jù)文檔中的聲頻數(shù)據(jù)產(chǎn)生音素數(shù)據(jù);
      利用一個字解碼器識別自動語音識別系統(tǒng)產(chǎn)生的音素數(shù)據(jù)內(nèi)的可能的字;以及
      通過結(jié)合所產(chǎn)生的音素數(shù)據(jù)和解碼的字而產(chǎn)生注釋數(shù)據(jù)。
      60.用于產(chǎn)生注釋數(shù)據(jù)的一種方法,該注釋數(shù)據(jù)用于對包括文本數(shù)據(jù)的數(shù)據(jù)文檔進行注釋,該方法包括以下步驟
      利用一個文本至音素轉(zhuǎn)換器為該數(shù)據(jù)文檔中的文本數(shù)據(jù)產(chǎn)生音素數(shù)據(jù);以及
      通過結(jié)合該音素數(shù)據(jù)和文本數(shù)據(jù)中的字而產(chǎn)生注釋數(shù)據(jù)。
      61.用于產(chǎn)生注釋數(shù)據(jù)的一種方法,該注釋數(shù)據(jù)用于對一個數(shù)據(jù)文檔進行注釋,該方法包括以下步驟
      接收一個輸入語音信號;
      利用一個語音識別系統(tǒng)對該輸入語音信號進行處理以為該輸入語音信號產(chǎn)生音素數(shù)據(jù)和字?jǐn)?shù)據(jù);以及
      通過結(jié)合為該輸入語音信號產(chǎn)生的字?jǐn)?shù)據(jù)和音素數(shù)據(jù)而產(chǎn)生注釋數(shù)據(jù)。
      62.用于產(chǎn)生注釋數(shù)據(jù)的一種方法,該注釋數(shù)據(jù)用于對一個數(shù)據(jù)文檔進行注釋,該方法包括以下步驟
      接收一個鍵入的輸入;
      把該鍵入輸入中的字轉(zhuǎn)換成音素數(shù)據(jù);以及
      通過結(jié)合該音素數(shù)據(jù)和鍵入輸入中的字而產(chǎn)生注釋數(shù)據(jù)。
      63.用于產(chǎn)生注釋數(shù)據(jù)的一種方法,該注釋數(shù)據(jù)用于對一個數(shù)據(jù)文檔進行注釋,該方法包括以下步驟
      接收代表文本的圖象數(shù)據(jù);
      利用一個字符識別單元把所述圖象數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù);
      把該文本數(shù)據(jù)中的字轉(zhuǎn)換成音素數(shù)據(jù);以及
      通過結(jié)合該音素數(shù)據(jù)和文本數(shù)據(jù)中的字而產(chǎn)生注釋數(shù)據(jù)。
      64.根據(jù)權(quán)利要求59至63中的任何一項的方法,其中所述注釋數(shù)據(jù)定義了一個音素和字格且其中所述發(fā)生步驟包括以下步驟
      (i)產(chǎn)生這樣的數(shù)據(jù),即該數(shù)據(jù)定義了該格內(nèi)的多個節(jié)點和連接該格內(nèi)的節(jié)點的多個鏈接;
      (ii)產(chǎn)生把音素數(shù)據(jù)的多個音素與相應(yīng)多個鏈接相聯(lián)系的數(shù)據(jù);以及
      (iii)產(chǎn)生把這些字中的至少一個與所述鏈接中的至少一個相聯(lián)系的數(shù)據(jù)。
      65.根據(jù)權(quán)利要求64的方法,其中所述產(chǎn)生步驟產(chǎn)生定義了所述節(jié)點的塊中的所述音素和字格的所述數(shù)據(jù)。
      66.根據(jù)權(quán)利要求64或65的方法,其中所述產(chǎn)生步驟產(chǎn)生這樣的數(shù)據(jù),即該數(shù)據(jù)為各個所述節(jié)點定義了時間標(biāo)記信息。
      67.根據(jù)權(quán)利要求66的方法,其中所述產(chǎn)生步驟產(chǎn)生具有相等的持續(xù)時間的塊中的所述音素和字格數(shù)據(jù)。
      68.根據(jù)權(quán)利要求65、66或67的方法,其中所述產(chǎn)生步驟產(chǎn)生這樣的數(shù)據(jù),即該數(shù)據(jù)定義了一個數(shù)據(jù)庫內(nèi)各個塊的位置。
      69.根據(jù)權(quán)利要求66或其任何從屬權(quán)利要求的方法,其中所述數(shù)據(jù)文檔包括一個時間序列信號,且其中所述產(chǎn)生步驟產(chǎn)生與所述時間序列信號相時間同步的時間標(biāo)記數(shù)據(jù)。
      70.根據(jù)權(quán)利要求69的方法,其中所述時間序列信號是一種聲頻和/或視頻信號。
      71.根據(jù)權(quán)利要求59或其任何從屬權(quán)利要求的方法,其中所述聲頻數(shù)據(jù)包括定義了多個講話者的口頭言詞的聲頻數(shù)據(jù),且其中所述產(chǎn)生步驟產(chǎn)生這樣的數(shù)據(jù)-即該數(shù)據(jù)為各個講話者的口頭言詞定義了單獨的音素和字注釋數(shù)據(jù)。
      72.根據(jù)權(quán)利要求60或其任何從屬權(quán)利要求的方法,其中所述文本數(shù)據(jù)定義了多個講話者的口頭言詞,且其中所述產(chǎn)生步驟產(chǎn)生了這樣的數(shù)據(jù),即該數(shù)據(jù)用于為各個講話者的口頭言詞定義單獨的音素和字注釋數(shù)據(jù)。
      73.根據(jù)權(quán)利要求59或其任何從屬權(quán)利要求的方法,其中所述語音識別系統(tǒng)產(chǎn)生這樣的數(shù)據(jù),即該數(shù)據(jù)為與所述鏈接相聯(lián)系的音素定義了權(quán)。
      74.根據(jù)權(quán)利要求59或其任何從屬權(quán)利要求的方法,其中所述字解碼器產(chǎn)生這樣的數(shù)據(jù),即該數(shù)據(jù)為與所述鏈接相聯(lián)系的字定義了權(quán)。
      75.根據(jù)權(quán)利要求64或其任何從屬權(quán)利要求的方法,其中所述定義多個節(jié)點和多個鏈接的步驟定義了至少一個節(jié)點,該至少一個節(jié)點通過多個鏈接而連接到多個其他的節(jié)點。
      76.根據(jù)權(quán)利要求75的方法,其中把所述節(jié)點連接到所述多個其他節(jié)點的所述多個鏈接中的至少一個與一個音素相聯(lián)系,且其中把所述節(jié)點連接到所述多個其他節(jié)點的所述鏈接中的至少一個與一個字相聯(lián)系。
      77.根據(jù)權(quán)利要求61或其任何從屬權(quán)利要求的方法,其中所述語音識別系統(tǒng)產(chǎn)生這樣的數(shù)據(jù),即該數(shù)據(jù)為與所述鏈接相聯(lián)系的該音素定義了一個權(quán)。
      78.根據(jù)權(quán)利要求61或其任何從屬權(quán)利要求的方法,其中所述語音識別系統(tǒng)產(chǎn)生電流這樣的數(shù)據(jù),即該數(shù)據(jù)為與所述鏈接相聯(lián)系的字定義了一個權(quán)。
      79.根據(jù)權(quán)利要求61或62或或其任何從屬權(quán)利要求的方法,進一步包括把所述注釋數(shù)據(jù)與所述數(shù)據(jù)文檔相聯(lián)系的步驟。
      80.根據(jù)權(quán)利要求62或其任何從屬權(quán)利要求的方法,其中所述轉(zhuǎn)換步驟采用了一種自動語音抄本單元,該單元為鍵入的輸入內(nèi)的字產(chǎn)生所述音素數(shù)據(jù)。
      81.根據(jù)權(quán)利要求63或其任何從屬權(quán)利要求的方法,其中把字轉(zhuǎn)換成音素的步驟采用了一種自動語音抄本單元,該單元為所述字符識別單元輸出的文本數(shù)據(jù)內(nèi)的字產(chǎn)生所述音素數(shù)據(jù)。
      82.根據(jù)權(quán)利要求63或其任何從屬權(quán)利要求的方法,進一步包括使所述注釋數(shù)據(jù)與所述接收的圖象數(shù)據(jù)或與所述文本數(shù)據(jù)相聯(lián)系的步驟。
      83.根據(jù)權(quán)利要求63或其任何從屬權(quán)利要求的方法,其中所述接收步驟采用了一種文件掃描儀或傳真機。
      84.用于響應(yīng)于一個輸入詢問而對包括注釋數(shù)據(jù)的一個數(shù)據(jù)文檔進行搜索的一種方法,該方法包括以下步驟
      產(chǎn)生與該輸入詢問相應(yīng)的音素數(shù)據(jù)和字?jǐn)?shù)據(jù);
      根據(jù)該音素數(shù)據(jù)和/或字?jǐn)?shù)據(jù)和該注釋數(shù)據(jù)對該數(shù)據(jù)文檔進行搜索;以及
      根據(jù)所述搜索步驟的結(jié)果輸出搜索結(jié)果。
      85.根據(jù)權(quán)利要求84的方法,其中所述注釋數(shù)據(jù)定義了一種音素和字格,該音素和字格包括
      (i)用于定義該格內(nèi)的多個節(jié)點和連接格內(nèi)的這些節(jié)點的多個鏈接的數(shù)據(jù);
      (ii)用于使音素數(shù)據(jù)的多個音素與相應(yīng)的多個鏈接相聯(lián)系的數(shù)據(jù);
      (iii)用于使至少一個字與至少一個所述鏈接相聯(lián)系的數(shù)據(jù)。
      86.用于把一個數(shù)據(jù)文檔存儲到一個數(shù)據(jù)庫中的一種方法,該方法包括以下步驟
      使該數(shù)據(jù)文檔與對應(yīng)于該數(shù)據(jù)文檔的注釋數(shù)據(jù)相結(jié)合,該注釋數(shù)據(jù)包括音素數(shù)據(jù);以及
      存儲帶有該注釋數(shù)據(jù)的該數(shù)據(jù)文檔。
      87.用于響應(yīng)于一個輸入詢問而搜索包括注釋數(shù)據(jù)的一個數(shù)據(jù)文檔的一種設(shè)備,該設(shè)備包括
      裝置,用于產(chǎn)生與該輸入詢問相應(yīng)的字?jǐn)?shù)據(jù)和音素數(shù)據(jù);
      裝置,用于根據(jù)該音素數(shù)據(jù)和/或該字?jǐn)?shù)據(jù)和該注釋數(shù)據(jù)搜索一個數(shù)據(jù)文檔;以及
      裝置,用于根據(jù)所述搜索裝置的結(jié)果而輸出一個搜索結(jié)果。
      88.根據(jù)權(quán)利要求87的設(shè)備,其中所述注釋數(shù)據(jù)定義了一個音素和字格,并包括
      (i)用于定義該格內(nèi)的多個節(jié)點和連接格內(nèi)的這些節(jié)點的多個鏈接的數(shù)據(jù);
      (ii)用于使音素數(shù)據(jù)的多個音素與相應(yīng)的多個鏈接相聯(lián)系的數(shù)據(jù);
      (iii)用于使至少一個字與至少一個所述鏈接相聯(lián)系的數(shù)據(jù)。
      89.用于把一個數(shù)據(jù)文檔存儲到一個數(shù)據(jù)庫中的一種設(shè)備,該設(shè)備包括
      裝置,用于輸入該數(shù)據(jù)文檔和與該數(shù)據(jù)文檔相應(yīng)的注釋數(shù)據(jù),該注釋數(shù)據(jù)包括音素數(shù)據(jù);以及
      裝置,用于存儲帶有該注釋數(shù)據(jù)的數(shù)據(jù)文檔。
      90.用于存儲一個數(shù)據(jù)文檔的一種介質(zhì),該數(shù)據(jù)文檔包括
      一種聲頻數(shù)據(jù);以及
      與該聲頻數(shù)據(jù)相應(yīng)的一種注釋數(shù)據(jù),所述注釋數(shù)據(jù)包括音素數(shù)據(jù)。
      91.用于存儲一個數(shù)據(jù)文檔的一種介質(zhì),該數(shù)據(jù)文檔包括
      視頻數(shù)據(jù);
      與該視頻數(shù)據(jù)相應(yīng)的聲頻數(shù)據(jù);以及
      與該聲頻數(shù)據(jù)相應(yīng)的注釋數(shù)據(jù),該注釋數(shù)據(jù)包括音素數(shù)據(jù)。
      92.用于存儲一個數(shù)據(jù)文檔的一種介質(zhì),該數(shù)據(jù)文檔包括
      文本數(shù)據(jù);以及
      與該文本數(shù)據(jù)相應(yīng)的注釋數(shù)據(jù),所述注釋數(shù)據(jù)包括音素數(shù)據(jù)。
      93.數(shù)據(jù),包括聲頻數(shù)據(jù)并進一步包括與該聲頻數(shù)據(jù)相應(yīng)的注釋數(shù)據(jù),該注釋數(shù)據(jù)包括音素數(shù)據(jù)。
      94.數(shù)據(jù),包括視頻數(shù)據(jù)并進一步包括與該視頻數(shù)據(jù)相應(yīng)的聲頻數(shù)據(jù)和與該聲頻數(shù)據(jù)相應(yīng)的注釋數(shù)據(jù),該注釋數(shù)據(jù)包括音素數(shù)據(jù)。
      95.數(shù)據(jù),包括文本數(shù)據(jù),該數(shù)據(jù)進一步包括與該文本數(shù)據(jù)相應(yīng)的注釋數(shù)據(jù),該注釋數(shù)據(jù)包括音素數(shù)據(jù)。
      96.一種數(shù)據(jù)載體,它承載有根據(jù)權(quán)利要求1至13中的任何一項的數(shù)據(jù)或處理器可實施的指令,該指令用于控制一個處理器以實施根據(jù)權(quán)利要求14至23或59至83或84至86中的任何一項的方法。
      97.處理器可實施指令,用于控制一個處理器以實施權(quán)利要求14至23或59至83或84至86中的任何一項的方法。
      全文摘要
      為數(shù)據(jù)庫內(nèi)的數(shù)據(jù)文檔注釋提供了一種數(shù)據(jù)結(jié)構(gòu)。該注釋數(shù)據(jù)包括音素和字格,它使得能夠響應(yīng)于用戶的輸入詢問而對數(shù)據(jù)庫內(nèi)的數(shù)據(jù)文檔進行迅速而有效的搜索。該注釋數(shù)據(jù)的結(jié)構(gòu)使得該輸入詢問能夠通過語音進行,并可被用于對各種數(shù)據(jù)文檔進行注釋,如聲頻數(shù)據(jù)文檔、視頻數(shù)據(jù)文檔、多媒體數(shù)據(jù)文檔等。該注釋數(shù)據(jù)可從數(shù)據(jù)文檔本身產(chǎn)生,或由用戶通過語音輸入或鍵入輸入而輸入。
      文檔編號G10L15/187GK1343337SQ0080467
      公開日2002年4月3日 申請日期2000年3月1日 優(yōu)先權(quán)日1999年3月5日
      發(fā)明者賈森·彼德·安德魯·查里斯沃斯, 杰布·雅各布·拉詹, 菲利普·內(nèi)爾·嘎納 申請人:佳能株式會社
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1