專利名稱:基于語言模型的信息檢索和語音識別的制作方法
技術(shù)領(lǐng)域:
本發(fā)明是關(guān)于語音識別和信息檢索的,更具體地講,本發(fā)明是關(guān)于一種利用信息檢索技術(shù)來匹配某種語言模型的語音識別系統(tǒng)以及一種利用語音識別語言模型來檢索相關(guān)的文檔的信息檢索技術(shù)的。
背景技術(shù):
一般地講,信息檢索是一個從大量的信息存儲中查找和檢索與用戶有關(guān)的信息的過程。在執(zhí)行信息檢索的過程中,檢索出用戶需要的所有信息是重要的(即完整性是重要的),同時限制檢索出的與用戶無關(guān)的信息也是重要的(即選擇性也是重要的)。這些方面通常根據(jù)查全率(完整性)和精確率(選擇性)來定義。在許多信息檢索系統(tǒng)中,非常有必要在查全率和精確率兩方面都獲得良好的性能。
在目前的一些檢索系統(tǒng)中,能夠被查詢和檢索的信息是非常大的。例如,一些信息檢索系統(tǒng)被設(shè)置為在因特網(wǎng)、數(shù)字視頻盤和其它通用的計算機(jī)數(shù)據(jù)庫中搜索信息。例如這些信息檢索系統(tǒng)通常被做成因特網(wǎng)搜索引擎和庫目錄搜索引擎。
許多信息檢索技術(shù)是眾所周知的。例如當(dāng)用戶需要文檔類或與現(xiàn)有文檔的某個集合相似的信息時,在這些技術(shù)中,一個用戶輸入查詢通常被表示成要么是一個明確的由用戶生成的查詢,要么是一個隱含的查詢。然后,典型的信息檢索系統(tǒng)在龐大的數(shù)據(jù)存儲中在單詞級或在術(shù)語級上搜索文檔。這些文檔中的每一個都被指定了一個關(guān)聯(lián)(或相似)度,信息檢索系統(tǒng)向用戶提供被搜索的文檔的一定子集,通常該子集具有一個超過某給定的門限的相關(guān)度。
目前一些著名的信息檢索技術(shù)或方法包括全文本掃描、簽名文件的使用、轉(zhuǎn)換、矢量建模和聚類以及tf*idf(術(shù)語頻率*反相文檔頻率)。在全文本掃描中,布爾函數(shù)被用在一個查詢中以確定被搜索的某個文檔是否包含某些詞串,在這種掃描技術(shù)中,通常是搜索文檔的每個詞以查看它是否滿足搜索串(也就是該查詢),然后,當(dāng)發(fā)現(xiàn)詞串不匹配時,將搜索串向右邊移動一個位置。該系統(tǒng)已經(jīng)被適配,可以使用對這個查詢進(jìn)行預(yù)處理的其它方法,例如當(dāng)發(fā)現(xiàn)詞串不匹配時,將搜索串向右邊移動多個位置。
簽名文件的使用涉及到從被檢索的文檔中去除常用的詞,并把不常用的詞變?yōu)樵~干。每個被搜索的文檔都產(chǎn)生一個位串(即一個簽名)。各種文檔的這些簽名被順序地存儲在與這些文檔本身相分離的一個文件中。
轉(zhuǎn)換技術(shù)涉及到構(gòu)造一關(guān)鍵詞列表以表示每個文檔。這些關(guān)鍵詞存儲在一個索引文件中。對于每個關(guān)鍵詞都包含有一個代表合格文檔的指針列表。然后,該查詢會沿著索引進(jìn)行,并用指針來識別相關(guān)的和合格的文檔。
矢量建模和聚類涉及到把相類似的文檔劃分成被稱為簇的組(這種技術(shù)也能夠應(yīng)用于術(shù)語而不是文檔中)。為了生成一個簇,把常用的詞去除并把剩余的詞變成詞干(這包括前綴和后綴的去除)以形成索引。同義詞一般也被放在一個概念類中,該概念類中的術(shù)語可以用頻率、特殊性、相關(guān)度等來加權(quán)。索引被用來將這些文檔表示為t-維空間中的一個點(diǎn)。然后,這些點(diǎn)被用一個相似性矩陣劃分為多個組,此矩陣通常是通過迭代過程生成的。為了搜索簇,一個查詢被表示為一個t-維矢量并與簇中心進(jìn)行比較。一個簇至查詢相似性函數(shù)被生成并被用來提出相關(guān)的文檔。被提出(或被檢索)的那些文檔通常是那些具有超過某一預(yù)定義的門限值的相似性值的文檔。
為了獲得更好的性能,在一些信息檢索技術(shù)中,語義信息被用來捕獲更多關(guān)于信息存儲中每個文檔的信息。在這種系統(tǒng)中,自然語言處理被用來將查詢的語義內(nèi)容與被檢索的文檔的語義內(nèi)容進(jìn)行匹配。語句或詞組被用作對所檢索的文檔進(jìn)行索引的術(shù)語。隱含的語義索引涉及到構(gòu)成一個術(shù)語/文檔矩陣,在該矩陣中,一個指定文檔中的術(shù)語出現(xiàn)的頻率被標(biāo)記在矩陣中。小的奇異值通常被移去而剩余的術(shù)語的頻率矢量則被映射。查詢也被生成術(shù)語的頻率矢量,而且根據(jù)包含這些文檔的術(shù)語頻率矢量的矩陣被映射。為了獲得余弦相似性測度,這些文檔使用歸一化線性產(chǎn)品進(jìn)行分類。
使用語義信息的另一類信息檢索技術(shù)是神經(jīng)網(wǎng)絡(luò)。實(shí)際上,對應(yīng)于辭典中的每一個概念,構(gòu)造一個辭典隱含層中的一個節(jié)點(diǎn)。然后,利用遍歷激活方法傳遞搜索。
術(shù)語頻率*反相文檔頻率(tf*idf)是被用來確定文檔的相關(guān)度的另一種技術(shù)。首先,在一個查詢中所使用的術(shù)語根據(jù)該文檔來測量以確定在該文檔中那個術(shù)語的頻率??梢钥隙?,當(dāng)文檔中的術(shù)語的頻率增加時,與該文檔和該術(shù)語相關(guān)聯(lián)的程度也增大。同樣可以肯定,當(dāng)術(shù)語出現(xiàn)在其中的文檔數(shù)量增加時,用來區(qū)分各文檔的術(shù)語的有效性降低了。因此,指定術(shù)語的頻率也根據(jù)整個數(shù)據(jù)存儲來測量以確定在所有的文檔中該術(shù)語的頻率級。這兩種測量方法被用來確定在被檢索的數(shù)據(jù)存儲中任意給定的文檔的相關(guān)度。
當(dāng)檢索可訪問的數(shù)據(jù)庫變得越來越多,以及當(dāng)這些數(shù)據(jù)庫變得越來越大時,與信息檢索有關(guān)的問題也變得越來越多。換句話說,在檢索過程中,利用較大的和數(shù)量較多的數(shù)據(jù)庫通常難以獲得可接受的超過查全率和精確度的性能。
為了生成一個發(fā)言意義上的副本,語音識別系統(tǒng)使用被包含在講稿中的聲音和詞語(或語言)信息的合成體。在語音識別系統(tǒng)中,一個識別器使用的語言信息統(tǒng)稱為一個語言模型。
目前許多語音識別系統(tǒng)使用具有統(tǒng)計特性的語言模型。這些語言模型通常使用已知的技術(shù)并依據(jù)被提供給語言模型生成器的大量的文本訓(xùn)練數(shù)據(jù)來生成。例如,一個N-gram語言模型可以利用已知的例如,Katz技術(shù)或二項(xiàng)式后分布補(bǔ)償技術(shù)。在使用這些技術(shù)的過程中,語言模型估算出詞w(n)服從詞序列w1,w2,…w(n-1)的概率。這些概率值共同組成N-gram語言模型。
有許多已知的方法能夠用來從提供給語言模型生成器的大量文本集合中估算出這些概率值,對本發(fā)明來說,使用確切的方法進(jìn)行操作并不重要。重要的是該語言模型通過允許識別器利用語言中有關(guān)的詞序列的似然性、容許性或有意義性等信息,在提高識別過程的精確度和速度上起著重要的作用。此外,捕獲了更多的有關(guān)語言的信息的語言模型會產(chǎn)生更快和更精確的語音識別系統(tǒng)。
通常,為了特定的目的,被用來訓(xùn)練語言模型的龐大的訓(xùn)練文本集合被專門收集起來并提供給該語言模型生成器。因此,語言模型通常被生成來滿足某些廣泛的使用類別。一些使用類別可以是常用的英語語言、辦公通信和體育等。
然而,任何一個具體的用戶的興趣,以及由此被這個具體的用戶使用的語言通??梢允潜冗@些廣泛的語言模型種類更具體的語言。因此,由這種語言模型生成的概率估算值不可能精確地模擬被該用戶使用的實(shí)際語言。而且,由于用戶的興趣種類幾乎是不受限制的,因此,很難為每個用戶生成非常具體的語言模型。
一些現(xiàn)有系統(tǒng)已經(jīng)試圖根據(jù)應(yīng)用的需要來對該語言模型進(jìn)行適配來解決此問題。在適配期間,由該語言模型分配給詞序列的概率估算值被調(diào)整來更緊密地反映用戶的實(shí)際語言。被用于適配的文本數(shù)據(jù)是由用戶指定的。例如,這種文本數(shù)據(jù)可以由被此用戶指定的文本或者被該用戶在文檔中所生成的文本、被該用戶從文檔中所讀取的文本、或被該用戶在文檔中所存儲的文本構(gòu)成。然而,為了精確地適配一個語言模型,必須饋送大量的數(shù)據(jù)。而該用戶所指定的可以使用的數(shù)據(jù)通常是很少的,不能快速地對該語言模型進(jìn)行適配,或者不能生成一個有意義的、用戶指定的語言模型。
發(fā)明內(nèi)容
一種用在能對第一類較小的數(shù)據(jù)存儲和第二類、較大的數(shù)據(jù)存儲進(jìn)行訪問的語音識別系統(tǒng)中的語言模型。該語言模型依據(jù)在第一類數(shù)據(jù)存儲中所包含的信息,通過對信息檢索查詢進(jìn)行公式化以及對第二類數(shù)據(jù)存儲執(zhí)行查詢來適配。從第二類數(shù)據(jù)存儲中所檢索到的信息被用來適配該語言模型或生成該語言模型。
在一個首選實(shí)施例中,通常較小的第一類存儲被認(rèn)為是目前正在被語音識別系統(tǒng)的用戶所使用的比較有代表性的語言。而通常較大的第二類存儲,從百比分的角度看,很可能代表了用戶較少使用的語言。
此外,語言模型被用來從第二類數(shù)據(jù)存儲中檢索信息。語言模型依據(jù)第一類數(shù)據(jù)存儲中的信息和依據(jù)第二類數(shù)據(jù)存儲中的信息來建造。在給定第一種語言模型和第二種語言模型的情況下,可以確定在第二類數(shù)據(jù)存儲中的文檔的復(fù)雜度(perplexity)。文檔的相關(guān)度依據(jù)第一復(fù)雜度和第二復(fù)雜度來確定。具有超過門限級的相關(guān)度的文檔被檢索出來。
在一個實(shí)施例中,第一類數(shù)據(jù)存儲代表由用戶提出的查詢或請求,而第二類數(shù)據(jù)存儲代表被檢索的庫。
圖1是一個用于實(shí)現(xiàn)本發(fā)明的一個系統(tǒng)的示例環(huán)境的方框圖。
圖2是關(guān)于本發(fā)明的一個系統(tǒng)的更加詳細(xì)的方框圖。
圖3是一個說明一種用于本發(fā)明的一個首選實(shí)施例中的文檔檢索技術(shù)的流程圖。
圖4是一個說明一種用于本發(fā)明的另一個首選實(shí)施例中的適配語言模型的技術(shù)的流程圖。
具體實(shí)施例方式
圖1及與其相關(guān)的討論是要對一種適當(dāng)?shù)挠嬎悱h(huán)境提供一種簡便的、一般的描述,在這個計算環(huán)境中本發(fā)明得以被實(shí)現(xiàn)。盡管未被要求,但是本發(fā)明將至少部分地使用計算機(jī)可執(zhí)行的指令例如,被個人計算機(jī)所執(zhí)行的程序模塊,的常用上下文來描述。通常,程序模塊包括用來執(zhí)行指定的任務(wù)或?qū)崿F(xiàn)指定的抽象數(shù)據(jù)類型等的常用程序、對象、元素或數(shù)據(jù)結(jié)構(gòu)等。而且,了解本領(lǐng)域的那些人應(yīng)知道本發(fā)明可以用其它的計算機(jī)系統(tǒng)配置來實(shí)現(xiàn),包括手持設(shè)備、多處理器系統(tǒng)、基于微處理器的或可編程的用戶電子設(shè)備、網(wǎng)絡(luò)PC、小型計算機(jī)、大型計算機(jī)等等。本發(fā)明也可以在分布式計算環(huán)境中實(shí)現(xiàn),在該環(huán)境中,任務(wù)由與通信網(wǎng)絡(luò)相連接的遠(yuǎn)程處理設(shè)備來執(zhí)行。在分布式計算環(huán)境中,程序模塊既可以存儲在本地存儲器存儲設(shè)備中,又可以存儲在遠(yuǎn)程存儲器存儲設(shè)備中。
參照圖1,用來實(shí)現(xiàn)本發(fā)明的一個示范性系統(tǒng)包括一個用于一般用途的計算設(shè)備,該計算設(shè)備以傳統(tǒng)的個人計算機(jī)20的形式來表示,計算機(jī)20包括處理單元21(可以包含一個或多個處理器)、系統(tǒng)存儲器21和把包含系統(tǒng)存儲器在內(nèi)的各種系統(tǒng)元件耦合到處理單元21中的系統(tǒng)總線23。系統(tǒng)總線23可以是包含存儲器總線或存儲控制器、外圍設(shè)備總線和使用任意種類的總線結(jié)構(gòu)的本地總線等幾種總線結(jié)構(gòu)的任意一種類型。系統(tǒng)存儲器包括只讀存儲器(ROM)24、一個隨機(jī)存取存儲器(RAM)25。例如在啟動過程中,一個包含了在個人計算機(jī)20中的兩元件間幫助傳遞信息的基本例行程序的基本輸入/輸出26(BIOS)存儲在ROM 24中。個人計算機(jī)20還包括一個讀寫硬盤(未給出)的硬盤驅(qū)動器27、一個對可裝卸式磁盤29進(jìn)行讀寫的磁盤驅(qū)動器28、以及一個對可裝卸式光盤31例如CD ROM或其它光媒介等進(jìn)行讀、寫的光盤驅(qū)動器30。硬盤驅(qū)動器27、磁盤驅(qū)動器28和光盤驅(qū)動器30分別地通過硬盤驅(qū)動器接口32、磁盤驅(qū)動器接口33和光盤驅(qū)動器接口34與系統(tǒng)總線23相連。這些驅(qū)動器及與其相關(guān)的計算機(jī)可讀媒介為個人計算機(jī)20提供了計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其他數(shù)據(jù)的非易失性存儲。
盡管在這里所描述的示范性環(huán)境使用的是一個硬盤、一個可裝卸式磁盤29和一個可裝卸光盤31,但是能夠存儲被計算機(jī)所詢問的數(shù)據(jù)的其它類型的計算機(jī)可讀媒介,如盒式磁帶、快速存儲卡、數(shù)字視頻盤、伯努里式磁帶盒,隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)等等,也可以使用在示范性操作環(huán)境中,這一點(diǎn)應(yīng)該被精通本領(lǐng)域的人認(rèn)同。
一些程序模塊可以存儲在包含操作系統(tǒng)35、一個或多個應(yīng)用程序36、其他程序模塊37和程序數(shù)據(jù)38的硬盤、磁盤29、光盤31、ROM24或RAM 25中。用戶可以通過輸入設(shè)備如鍵盤40和點(diǎn)擊設(shè)備42而向個人計算機(jī)20輸入命令和信息。其它的輸入設(shè)備(未繪出)可能還包括麥克風(fēng)、操縱桿、游戲盒、衛(wèi)星電視天線、掃描儀等等。這些輸入設(shè)備和其它輸入設(shè)備通常通過與系統(tǒng)總線相連的串行接口46與處理單元21相連,但是可以通過其他接口如并行口、游戲口或通用串行總線(USB)相連。監(jiān)視器47或其他類型的顯示設(shè)備也被通過一個接口,如視頻適配器48與系統(tǒng)總線23相連。除了監(jiān)視器47以外,個人計算機(jī)典型地可以包括其他的外圍輸出設(shè)備(未繪出),如揚(yáng)聲器和打印機(jī)。
個人計算機(jī)20利用與一個或多個遠(yuǎn)程計算機(jī)如遠(yuǎn)程計算機(jī)49的邏接連接可以在網(wǎng)絡(luò)環(huán)境中運(yùn)行。盡管在圖1中僅繪出了一個存儲器存儲設(shè)備50,但是遠(yuǎn)程計算機(jī)49可以是另一臺個人計算機(jī)、或一臺服務(wù)器、一個路由器、一臺網(wǎng)絡(luò)PC、一臺同類設(shè)備或其他網(wǎng)絡(luò)節(jié)點(diǎn)等,通常包含了上述所描述的與個人計算機(jī)20有關(guān)的大部分元件或所有元件。圖1中給出的邏輯連接包括局域網(wǎng)(LAN)51和廣域網(wǎng)(WAN)52。這些聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)級計算機(jī)網(wǎng)絡(luò)內(nèi)聯(lián)網(wǎng)和Internet中是常見的。
當(dāng)在LAN聯(lián)網(wǎng)環(huán)境中使用時,個人計算機(jī)10通過網(wǎng)絡(luò)接口或適配器53與局域網(wǎng)51相連。當(dāng)在WAN聯(lián)網(wǎng)環(huán)境中使用時,個人計算機(jī)20通常包括一個調(diào)制解調(diào)器54或用來建立與廣域網(wǎng)52如Internet通信的其它設(shè)備。調(diào)制解調(diào)器54可以是內(nèi)置的或外置的,它通過串行接口46與系統(tǒng)總線23相連。在一個網(wǎng)絡(luò)環(huán)境中,被描述的與個人計算機(jī)20有關(guān)的程序模塊或者其中的各部分可以被存儲在遠(yuǎn)程存儲器存儲設(shè)備中。應(yīng)該承認(rèn)圖中描繪的網(wǎng)絡(luò)連接是示范性的,可以使用其它的設(shè)備在兩個計算機(jī)之間建立一個通信鏈路。
按照本發(fā)明的一個方面,圖2是一個描繪了語音識別信息檢索(SR/IR)系統(tǒng)的方框圖。SR/IR系統(tǒng)60包括麥克風(fēng)62、模-數(shù)(A/D)轉(zhuǎn)換器64、用戶輸入設(shè)備66、SR/IR處理器模塊68、語言模型(LM)存儲模塊70、主題數(shù)據(jù)存儲器72、普通數(shù)據(jù)存儲器74和用戶輸出設(shè)備76。
應(yīng)該注意,整個系統(tǒng)60或系統(tǒng)60的部分能夠在圖1中所描繪的環(huán)境下被實(shí)現(xiàn)。例如,麥克風(fēng)62通過一個合適的接口和A/D轉(zhuǎn)換器64最好能夠提供給個人計算機(jī)20作為一個輸入設(shè)備。用戶輸入設(shè)備66最好能夠被作為鍵盤40、鼠標(biāo)42或其它任何合適的輸入設(shè)備來加以實(shí)現(xiàn)。語言模型存儲模塊70最好存儲在圖1中所描繪的任何合適的存儲器設(shè)備中,或者根據(jù)圖1所描述的任意一種數(shù)據(jù)輸入機(jī)制被提供給SR/IR模塊68。SR/IR模塊68最好是計算機(jī)20中的一個硬件模塊(如一個與CPU 21分開的或在CPU 21中被實(shí)現(xiàn)的專用的語音識別或信息檢索處理器),或者是一個被存儲在圖1中所描繪的任意一個信息存儲設(shè)備中的并且能夠被CPU 21或任何其它的合適的處理處訪問的軟件模塊。
主題數(shù)據(jù)存儲72最好也被存儲在圖1中所描繪的任意一個合適的存儲器設(shè)備中,或者是能夠被圖1所描繪的系統(tǒng)所訪問。而且,對計算機(jī)20而言,主題數(shù)據(jù)存儲器72不必非得是本地的,但是必須能夠只被計算機(jī)20所訪問。例如,主題數(shù)據(jù)存儲器72可以被部分地或全部地存儲在存儲器50中。一個被創(chuàng)建的指定文檔以及被用戶已建立的其它文檔存儲在主題數(shù)據(jù)存儲器72中。當(dāng)然,應(yīng)該承認(rèn),主題數(shù)據(jù)存儲器72中所包含的數(shù)據(jù)能夠按照任意一種標(biāo)準(zhǔn)來安排,如主題、文檔類型(例如,信件、備忘錄、電子郵件傳輸、傳真等等)、或任何其它合適的標(biāo)準(zhǔn)。
普通數(shù)據(jù)存儲74最好是一個較大的數(shù)據(jù)庫,比主題數(shù)據(jù)存儲器72大些,并且是能夠被圖1中所描繪的系統(tǒng)所訪問。例如,普通數(shù)據(jù)存儲可以是通過廣域網(wǎng)52或局域網(wǎng)51來訪問的任何數(shù)據(jù)庫或數(shù)據(jù)庫的集合。
此外,輸出設(shè)備76在一個首選實(shí)施例中可以被實(shí)施為監(jiān)視器47或者打印機(jī),或者任何其它合適的輸出設(shè)備來實(shí)現(xiàn)。
在任何情況下,為了描述本發(fā)明,系統(tǒng)60描繪了一個適合于實(shí)現(xiàn)語音識別和信息檢索兩者的系統(tǒng)。然而,應(yīng)該注意,為了配合下面所描述的有關(guān)本發(fā)明的各種特征和各個方面,系統(tǒng)60可以被配置成只用來實(shí)現(xiàn)語音識別或者是信息檢索。
適配語言模塊現(xiàn)在描述語系統(tǒng)60用來音識別。在識別語音的過程中,系統(tǒng)60利用聲音信息以一種已知的方式被訓(xùn)練。系統(tǒng)60利用這種信息去后面去識別通過麥克風(fēng)62輸入到系統(tǒng)60中的發(fā)言。簡而言之,語音按照被用戶提供給麥克風(fēng)62的聲音信號的形式被輸入到系統(tǒng)60中。麥克風(fēng)62把聲音信號轉(zhuǎn)換成模擬電子信號,該模擬電子信號被提供給A/D轉(zhuǎn)換器64。A/D轉(zhuǎn)換器64把模擬語音信號轉(zhuǎn)換成數(shù)字信號序列,該數(shù)字信號序列被提供給SR/IR模塊68。
在一個首選實(shí)施例中,SR/IR模塊68包含一個樣本抽取模塊,該樣本抽取模塊是一個對數(shù)字信號執(zhí)行頻譜分析和對頻譜的每個頻段的幅度值進(jìn)行計算的傳統(tǒng)的數(shù)組處理器。樣本抽取模塊把這些數(shù)字信號分成包含許多數(shù)字樣本的幀,這些數(shù)字樣本被轉(zhuǎn)換成一個包含許多頻段的概率值的輸出概率分布的序列。這些輸出概率分布按照已知的方法被處理以獲得可能的代表了由麥克風(fēng)62所接收到的語音的語音單元(如音素、詞或詞序列)。
在一個首選實(shí)施例中,SR/IR模塊68識別出N個可能代表了所給出的N個最大概率的詞或詞序列的詞假設(shè)。然后,SR/IR模塊68訪問LM存儲模塊70。在LM存儲模塊70中存儲的語言模型被用來估算某個詞w(n)跟從詞序列w1,w2,…(w(n-1))的概率。然后,為了獲得該語言表達(dá)的最大概率的詞或詞序列,這些概率被用來在這N個最大的假設(shè)中執(zhí)行挑選。這個最大概率的假設(shè)在用戶輸出設(shè)備76中輸出。
存儲在LM存儲模塊70中的語言模型可以初始地由SR/IR模塊68建立,或者利用一種數(shù)據(jù)輸入機(jī)制如圖1中所描述的那些(例如利用一個軟盤)被加載到LM存儲模塊70中。在由SR/IR模塊68建立語言模塊的這些實(shí)施例中,一個龐大的訓(xùn)練文本集被提供給SR/IR模塊68。利用那個訓(xùn)練文本集,SR/IR模塊68按照一種已知的方法建立語言模型并將其存儲在LM存儲模塊70中。
此外,應(yīng)該注意到,多個語言模型能夠存儲在LM存儲模塊70中。例如,一些與主題有關(guān)的語言模型能夠被存儲在LM存儲模塊70中,并依據(jù)用戶的輸入被SR/IR模塊68所檢索,以便利用語音識別系統(tǒng)建立指定文檔的主題。
在任何情況下,希望為了獲得一個被用戶使用的精確地模擬實(shí)際語言的更快和更精確的模型,存儲在LM存儲模塊70中的這個指定的語言模型或多個模型應(yīng)該根據(jù)系統(tǒng)60中用戶實(shí)際所使用的詞被進(jìn)行適配。
根據(jù)本發(fā)明的一個方面,圖3描述了一種用來實(shí)現(xiàn)對存儲在LM存儲模塊70中的語言模型進(jìn)行適配的技術(shù)。語言模型首先被系統(tǒng)60所接收。該語言模型既可以主題有關(guān)的、或用戶有關(guān)的、或應(yīng)用有關(guān)的,也可以簡單地是一個通用的語言模型。正如前面所討論的,語言模型既能夠由系統(tǒng)60建立并被存儲在LM存儲模塊70中,也能夠簡單地通過一種合適的輸入機(jī)制加載到LM存儲模塊70中。接收語言模型的步驟由圖3中的方框78所描述。
為了適配語言模型,系統(tǒng)60最好使用存儲在主題數(shù)據(jù)存儲器72中的信息作為用來適配存儲在模塊70中的語言模型的文本集的一個部分。主題數(shù)據(jù)存儲器72最好包括一個當(dāng)前正在使用的文檔,本用戶所使用的其它文檔,或者本用戶讀取、存儲、或本用戶用作識別與當(dāng)前任務(wù)有關(guān)的其它文檔。
通常,這種用戶有關(guān)或當(dāng)前主題有關(guān)或任務(wù)有關(guān)的數(shù)據(jù)量是不足以快速地對存儲在模塊70中的語言模型進(jìn)行適配,或者不足以生成一個更好的用戶/任務(wù)有關(guān)的語言模型。因此,系統(tǒng)60利用存儲在主題數(shù)據(jù)存儲器72中的用戶/任務(wù)有關(guān)的信息來生成一個基于普通數(shù)據(jù)存儲74的查詢。而普通數(shù)據(jù)存儲74可能包含可以通過互聯(lián)網(wǎng)(例如,通過WAN52)來訪問的一個或多個數(shù)據(jù)庫、一個資料館數(shù)據(jù)庫或者可以通過系統(tǒng)60(如通過LAN 51)來訪問的另一個合適的大型數(shù)據(jù)庫?;谄胀〝?shù)據(jù)存儲74的查詢由圖3中的方框80所描述。
用來生成和執(zhí)行普通數(shù)據(jù)存儲74中的查詢這種指定的信息檢索技術(shù)就本發(fā)明的這個特征來說,并不是關(guān)鍵的技術(shù)。而且,任何合適的查詢建造技術(shù)和信息檢索技術(shù)都能夠使用。只應(yīng)該注意到,按照本發(fā)明的這種技術(shù),執(zhí)行適配同返回更多相關(guān)的文檔的信息檢索技術(shù)一同執(zhí)行會更好。
另外,由信息檢索查詢識別出的這些文檔能被檢索到。這由方框82所描述。在一個首選實(shí)施例中,按照圖3中所描繪的虛線84,處理過程簡單地延續(xù)到方框86中。在那個首選實(shí)施例中,作為基于普通數(shù)據(jù)存儲74所執(zhí)行的查詢的結(jié)果,存儲在模塊70中的主題語言模型根據(jù)存儲在主題數(shù)據(jù)存儲72中的信息,以及從普通數(shù)據(jù)存儲74中檢索到的信息進(jìn)行調(diào)整或適配。因此,由語言模型生成的概率估算值被按照包含了主題數(shù)據(jù)存儲72中的信息和從普通數(shù)據(jù)存儲74中檢索到的信息這兩者的文本集來進(jìn)行調(diào)整。這就為適配存儲在模塊70中的語言模型提供了一個比簡單地使用存儲在主題數(shù)據(jù)存儲72中的信息大得多的文本集。由于適配文本集比較大,因此,由語言模型上生成的概率能夠被更好地估算,而且由此生成的語言模型產(chǎn)生一種更好的(即更快和更確切)模擬用戶實(shí)際使用的機(jī)制。這個適配過程由方框86所描述。
對語言模型進(jìn)行適配的方法能夠采用某些方法中的任意一種。在一個首選實(shí)施例中,只有一個被普通數(shù)據(jù)存儲74中的查詢所檢索到的文檔的子集用于適配存儲在模塊70中的語言模型。而且,由普通數(shù)據(jù)存儲器74中的查詢所檢索到的這些文檔能夠與那些已經(jīng)包含在主題數(shù)據(jù)存儲72中的文檔進(jìn)行加權(quán)。被檢索到的這些文檔最好少與那些在數(shù)據(jù)存儲器72中所存儲的文檔進(jìn)行加權(quán)。因此,被檢索到的文檔對模塊70中所存儲的語言模型產(chǎn)生的影響比已被存儲的文檔(或可能與用戶相關(guān)的已知的文檔)對模塊70中所存儲的語言模型產(chǎn)生的影響要小。
另外,能夠使用另外一種方法對語言模型進(jìn)行適配。查詢的結(jié)果能夠被用來建立一個與模塊70中所存儲的語言模型組合在一起的語言模型。這種組合方法能夠利用任何已知的平滑技術(shù),如插入、刪除后插入或任何其它合適的技術(shù)來被實(shí)現(xiàn)。在本實(shí)施例中,刪除后插入技術(shù)被用來適配模塊70中所存儲的主題語言模型,從普通數(shù)據(jù)存儲器74中所檢索到的文檔和主題數(shù)據(jù)存儲72器中所存儲的文檔被按如下進(jìn)行加權(quán)λPr+(1-λ)Pt其中Pr是一個由語言模型根據(jù)被檢索到的文檔生成的概率值;Pt是一個由語言模型根據(jù)主題數(shù)據(jù)存儲72中所存儲的文檔所生成的概率值;以及λ是一個刪除后插入型參數(shù),一個最好由實(shí)驗(yàn)方法來確定其數(shù)值的參數(shù)。如果能確保信息檢索技術(shù)是非常精確的,那么λ會取較大的數(shù)值(如0.8或0.9)。然而,當(dāng)不能確保信息檢索技術(shù)是非常精確時,λ可能取一個較小的數(shù)值(如0.4或0.5)。然而,λ的任何取值如0.1~0.9可能都是合適的。
在另外一個實(shí)施例中,λ的數(shù)值隨著查詢數(shù)量的增加而遞增。換句話說,當(dāng)已被執(zhí)行的查詢數(shù)有所增加時,由于主題數(shù)據(jù)存儲器72中所存儲的信息的數(shù)量可能是較大的,因此對語言模型進(jìn)行適配的文本集可能會變得要么較大,要么較精確。因此,由信息檢索技術(shù)檢索到的文檔可能會比那些初始就被檢索到的文檔具有更大的相關(guān)度。因而,λ的數(shù)值能夠隨著查詢的數(shù)量的增加而遞增。
此外,還應(yīng)注意到,有幾種語言模型能夠由所檢索到的數(shù)據(jù)來建立。例如一種語言模型能夠利用相關(guān)度最好的100個文檔來建立,而另外一種語言模型能夠利用相關(guān)度最好的200個文檔來建立,如此等等。然后,利用所檢索到的文檔建立的多個語言模型能夠與來自主題數(shù)據(jù)存儲72中的利用來自通用語言模型中的已知的相關(guān)的數(shù)據(jù)生成的語言模型組合起來。使用刪除后內(nèi)插技術(shù)的語言模型組合能夠被表示為∑λiPi這里,Pi是由第i個語言模型生成的概率,而0<=λi<=1是用于第i個語言模型的插入權(quán)值且∑λi=1。
一旦對語言模型進(jìn)行適配,那么已被適配或調(diào)整的語言模型被用于語音識別中。這由方框88所描述。
按照本發(fā)明的首選的一個方面,系統(tǒng)60被配置為自動地和按間隔地重新生成一個主題有關(guān)的查詢,并依據(jù)普通數(shù)據(jù)存儲器74中所存儲的信息管理此查詢。例如,在這個首選實(shí)施例中,模塊70中所存儲的語言模型在執(zhí)行過程中(如當(dāng)用戶正在使用系統(tǒng)60時)被適配。因此,當(dāng)系統(tǒng)60剛被加電時,它可以被配置成首先執(zhí)行查詢和對語言模型進(jìn)行適配,然后每次建立一個新的文檔時也如此執(zhí)行。然而,最理想的情況是,系統(tǒng)60被配置成甚至當(dāng)一個文檔正在被建立時,也生成一個新的查詢和間隔地對該語言模型進(jìn)行適配。因此,系統(tǒng)60能夠被配置成,要么根據(jù)每個預(yù)定義的詞數(shù)或每個預(yù)定義的時間間隔,要么根據(jù)其它任何標(biāo)準(zhǔn)來重復(fù)執(zhí)行該查詢。
無論什么標(biāo)準(zhǔn),都用來設(shè)置一個查詢門限。因此,由系統(tǒng)60決定查詢門限是否已經(jīng)被達(dá)到。如果達(dá)到,系統(tǒng)60產(chǎn)生另一個查詢并按照方框80所描述的在普通數(shù)據(jù)存儲中執(zhí)行該查詢。如果查詢門限還沒有達(dá)到,系統(tǒng)60按照正常情況簡單地繼續(xù)執(zhí)行語音識別。這個過程由圖3中的方框90和92所描述。
根據(jù)本發(fā)明的其它首選特征,也可以使用其它的信息對模塊70中所存儲的語言模型進(jìn)行適配。這些特征由圖3中的方框94、96和98來描述。例如,在一個首選實(shí)施例中,當(dāng)該查詢已經(jīng)由普通數(shù)據(jù)存儲器74中的信息執(zhí)行完后,由該查詢返回的每個文檔的相關(guān)度就被確定。此時,這些文檔按照相關(guān)度進(jìn)行排序。這由方框94所描述。然后,被返回的一個文檔子集(相關(guān)度超過關(guān)聯(lián)門限值的那些文檔)被用來適配語言模型。此外,按照方框96所描述的,被返回的這些文檔能夠根據(jù)相關(guān)度進(jìn)行加權(quán)。然后,這些文檔按照所加的權(quán)重被用來對模塊70中所存儲的語言模型進(jìn)行適配。
在本發(fā)明的另一個首選實(shí)施例中,也可以使用其它信息對該語言模型進(jìn)行調(diào)整,例如,系統(tǒng)60可以被配置來識別指定的應(yīng)用,然后用戶利用它來準(zhǔn)備一個文檔。例如,如果用戶是在執(zhí)行字處理應(yīng)用中,那么該用戶可以產(chǎn)生一個比該用戶是在進(jìn)行E-mail應(yīng)用中更加正式的文檔。系統(tǒng)60能夠被配置來識別這種應(yīng)用,并且也可以在利用普通數(shù)據(jù)存儲器72中所包含的信息生成查詢的過程中使用該信息,以便查找到較正式的文檔(即有較正式的詞模式和詞序列的文檔),或者直接地對由該查詢所檢索到的較正規(guī)的文檔而不是所檢索到的不太正規(guī)的文檔進(jìn)行更大的加權(quán)。另外,如果該用戶不再使用備忘錄模式,并由此正在生成一個內(nèi)部備忘錄,那么系統(tǒng)60能夠被配置來在利用普通數(shù)據(jù)存儲器74中所存儲的信息生成查詢的過程中,只對來自主題數(shù)據(jù)存儲器中的相類似的備忘錄文件進(jìn)行檢索。
按照本發(fā)明,也可以使用許多其它的參數(shù)。例如,在上班期間,用戶可能想描述較為正規(guī)的文檔,例如公司信件和備忘錄文件,而在白天或晚上較晚的時候,用戶可能想生成不很正規(guī)的文檔,例如個人信件。因此,根據(jù)被用戶正在建立的文檔的時間,利用對來自主題數(shù)據(jù)存儲器72中的、被建立在大致相同的時間上的文檔進(jìn)行檢索,系統(tǒng)60能夠被配置來生成該查詢。系統(tǒng)60也能夠被配置來簡單地對根據(jù)查詢所檢索到的相類似的文檔進(jìn)行比其它文檔更大的加權(quán)。
也應(yīng)該注意到,有時可以不考慮該用戶是否正在使用系統(tǒng)60的語音識別特性就對存儲在模塊70中的語言模型進(jìn)行修正。只要系統(tǒng)60被加電,它就可以被配置成能夠重復(fù)依托被存儲在普通數(shù)據(jù)存儲器74中的信息所進(jìn)行的查詢并能按照任何給定的準(zhǔn)則對存儲在模塊70中的語言模型進(jìn)行修正。
由此可見,本發(fā)明的語言模型修正特性可以被用來快速而有效地擴(kuò)大用戶指定的、可用的用于生成或提高存于模塊70中的語言模型的數(shù)據(jù)的量。此用戶指定的可用數(shù)據(jù)首先被用做一個對一個大信息存儲器所進(jìn)行的查詢,以便識別出與用戶指定的文檔相類似的文本或文檔。由此,用于生成或修正用戶指定的、存于模塊70中的語言模型的文本集合就是一個比實(shí)際需要大得多的集合,而語言模型所提供的概率也可被更好地估計出來。另外也應(yīng)當(dāng)注意到,創(chuàng)建或修正語言模型所使用的具體的方式,以及執(zhí)行信息檢索所使用的具體技術(shù)對于本發(fā)明的這些方面來講都不是關(guān)鍵的,任何合適的技術(shù)都可以使用。
使用語言模型提高信息的檢索圖4是一個流程圖,它描述了一種技術(shù),系統(tǒng)60能利用此技術(shù),提高信息的檢索。正如上面所述,在截止到某一單詞的單詞序列被給定(即單詞的歷史H被給定)的情況下,n元統(tǒng)計語言模型對該單詞的概率進(jìn)行估計。n元統(tǒng)計模型只認(rèn)為在歷史H中的前面n-1個詞會對下一個詞的概率產(chǎn)生影響。例如,bi-gram(或2元)語言模型認(rèn)為只是前一個詞會對后一個詞產(chǎn)生影響。因此,在n元語言模型中,詞出現(xiàn)的概率可被表示為如下方程式1P(w/H)=P(w/w1,w2,...w(n-1))其中,w是感興趣的詞;w1是詞序列中的詞w前面的第一個詞;w2是詞w前面的第二個詞;以及w(n+1)是詞w前面的位于第n-1個位置的詞。
此外,詞序列的概率依據(jù)被給定了歷史的每個詞的概率乘積來確定。因而,詞序列w1…wm的概率可被表示為如下
方程式2P(w1...wm)=Πi=1N(P(w1/Hi))]]>當(dāng)討論語言模型時,詞序列的復(fù)雜度的概念也是已知的。復(fù)雜度是表示語言模型的平均分支系數(shù)的一個統(tǒng)計量。換句話說,復(fù)雜度是一個在給定的感興趣的詞或詞序列的情況下,被語言模型預(yù)測到的可能詞的平均數(shù)的統(tǒng)計量。因而,在給定其歷史的情況下,詞序列w1…wm的復(fù)雜度能被表示為如下方程式3Perp=exp[-1MlogΠP(wi/Hi)]]]>=exp[-1M(Σi=1Mlog(Pwi/Hi))]]]>此外,對于一個已給定的語言模型LM,詞序列X的復(fù)雜度可表示如下方程式4Perp(x‾/LM)=exp[-1MΣi=1Mlog(P(x‾/LM))]]]>因此,在給定語言模型的情況下,詞序列的復(fù)雜度近似等于在給定詞序列和它的歷史的情況下,被該語言模型所預(yù)測到的詞的平均數(shù)。這個數(shù)值會隨著所使用的指定的語言模型的預(yù)測能力而變化。建造語言模型所使用的特定方法以及所使用的指定的語言模型對本發(fā)明而言不是關(guān)鍵的部分。
由于本發(fā)明涉及到語言模型,為了提高被系統(tǒng)60執(zhí)行的信息檢索的正確度,本發(fā)明的一個方面利用了復(fù)雜度的概念。為了實(shí)現(xiàn)此功能,系統(tǒng)60首先接收或創(chuàng)建一個通用語言模型,如圖4中方框100所示。于是,系統(tǒng)60能夠用語言模型生成器來配置。在這種情況下,最好給語言模型生成器提供一個訓(xùn)練數(shù)據(jù)的龐大的文本集,依據(jù)此龐大的文本集,在任何已知的和合適的條件下,語言模型生成器能產(chǎn)生一個通用的語言模型。訓(xùn)練數(shù)據(jù)最好是在普通數(shù)據(jù)存儲74中所存儲的信息(或信息的子集)。此時,該語言模型被存儲在模塊70中。然而,此外,也能夠給系統(tǒng)60提供一個直接地裝載到模塊70中的、傳統(tǒng)的、商業(yè)上可使用的通用語言模型。在另一種方法中,系統(tǒng)60從另一個龐大的文本數(shù)據(jù)集中而不是從普通數(shù)據(jù)存儲74中的數(shù)據(jù)中生成通用的語言模型。在首選的實(shí)施例中,系統(tǒng)60既可以生成一個三元語言模型,也可以被提供一個三元語言模型。
然后,系統(tǒng)60接收或創(chuàng)建一個與用戶所感興趣的指定的主題相關(guān)的主題語言模型。其次,系統(tǒng)60能夠被提供一個商業(yè)上可用的主題語言模型,或者能夠生成和訓(xùn)練一個它自己的主題語言模型。
為了生成一個主題語言模型,用戶最好給系統(tǒng)60提供與指定的感興趣的主題相關(guān)的訓(xùn)練數(shù)據(jù)。例如,用戶可能有幾篇文章,而且可能希望從普通數(shù)據(jù)存儲74中所存儲的信息中檢索出其它的類似的文章。也就是說,用戶能夠簡單地提出一個搜索查詢或?qū)ο到y(tǒng)提出請求。利用相關(guān)的文章,系統(tǒng)60也可以生成主題語言模型,也就是說,使用那些相關(guān)的文章的一部分文本表示一種利用在普通數(shù)據(jù)存儲74中所存儲的信息的查詢,而依據(jù)此查詢所檢索到的信息與用戶所提供的信息組合在一起被用來生成該主題語言模型。在另一個首選實(shí)施例中,當(dāng)用來生成主題語言模型的訓(xùn)練數(shù)據(jù)不足夠多時,先使用這些不足的數(shù)據(jù)生成主題語言模型,然后與通用語言模型組合在一起獲得新的主題語言模型。組合技術(shù)對本發(fā)明而言不是關(guān)鍵的部分,該技術(shù)能夠使用平滑技術(shù)例如插入、刪除后插入或者其它任意合適的技術(shù)來實(shí)現(xiàn)。接收或創(chuàng)建主題語言模型的過程由圖4中方框102所描述。
在通用語言模型和主題語言模型被系統(tǒng)60生成或接收之后,系統(tǒng)60負(fù)責(zé)給被認(rèn)為是處于信息檢索過程中的普通數(shù)據(jù)存儲74中的每個文檔(或文檔的一部分)分配一個相似度。為了實(shí)現(xiàn)此目的,系統(tǒng)60首先從普通數(shù)據(jù)存儲74中選取一個文檔。這由方框104所描述。
其次,對于通用語言模型,系統(tǒng)60確定該文檔的復(fù)雜度,這由方框106所描述。它可以表示如下
方程式5Perp(doci/GLM)其中,GLM代表通用語言模型;而doci代表被選取的文檔。
然后,針對主題語言模型,系統(tǒng)60確定該文檔的復(fù)雜度,這由方框108所描述。它可以表示如下方程式6Perp(doci/TLM)其中,TLM代表主題語言模型。
然后,依據(jù)方框106和108中所確定的復(fù)雜度,針對被選取的文檔,系統(tǒng)60確定相關(guān)度。相關(guān)度最好用兩者的復(fù)雜度的比值來表示,如下所示方程式7Perp(doci/GLM)Perp(doci/TLM)]]>回想一下,一個文檔(如一個詞序列)的復(fù)雜度,在給定的一個指定語言模型的情況下,表示在給定該文檔的情況下該語言模型可能預(yù)測到的詞的近似的平均數(shù)。因此,如果復(fù)雜度的數(shù)值偏高,那么,根據(jù)文檔中所使用的術(shù)語,用來生成該語言模型的訓(xùn)練數(shù)據(jù)還沒有將該語言模型訓(xùn)練好。因而,在訓(xùn)練中的文檔不可能與被用來生成該語言型的訓(xùn)練數(shù)據(jù)相關(guān)聯(lián)。然而,如果該文檔的復(fù)雜度低,那么,根據(jù)文檔中所出現(xiàn)的術(shù)語,用來生成該語言模型的訓(xùn)練數(shù)據(jù)可能已經(jīng)將該語言模型訓(xùn)練好了,而且,該文檔可能與被用來生成該語言模型的訓(xùn)練數(shù)據(jù)相關(guān)聯(lián)。
因此,在一個首選實(shí)施例中,相似度僅能利用主題語言模型來返回。然而,在一個較好的首選實(shí)施例中,能夠利用主題語言模型和通用語言模型兩者。其原因?yàn)椴还苡?xùn)練中的文檔是否是關(guān)聯(lián)的文檔,但該文檔中的一些語言結(jié)構(gòu)可能會或多或少地出現(xiàn)一些。希望即使利用主題語言模型的復(fù)雜度所獲得的原始相關(guān)度偏高,但信息檢索系統(tǒng)會不加區(qū)別地對待那些相似的文檔。如果情況是這樣,而且在感興趣的文檔中所使用的語言結(jié)構(gòu)相當(dāng)少,那么,由通用語言模型所返回的復(fù)雜度值也將是高的。利用通用語言模型和主題語言模型所確定的復(fù)雜度比值,系統(tǒng)實(shí)際返回一個由基線(通用語言模型)所確定的數(shù)值,而該數(shù)據(jù)要比主題語言模型中直接利用文檔的復(fù)雜度所返回的原始數(shù)值更有意義。因而,將相關(guān)度表示為兩個復(fù)雜度的比值可以確保會產(chǎn)生更加精確的相關(guān)度。
類似地,不論所感興趣的主題如何,如果在所感興趣的文檔中使用的語言結(jié)構(gòu)是相當(dāng)普遍的,那么,由主題語言模型所返回的復(fù)雜度數(shù)值將是相當(dāng)?shù)偷?。盡管該文檔可能與其它文檔不是非常相關(guān)的。但是,由通用語言模型所返回的復(fù)雜度數(shù)值也可能將是非常低的。因此,將相關(guān)度表示為兩個復(fù)雜度的比值可以確保信息檢索技術(shù)會對相關(guān)度較高的文檔進(jìn)行檢索。
依據(jù)復(fù)雜度確定所選取的文檔的相關(guān)度的步驟由方框110所描述。作為兩個復(fù)雜度的比值,關(guān)聯(lián)因子的表達(dá)式可以擴(kuò)展如下方程式8relevancy=exp[-1MΣi=1Mlog(PG(wi/Hi))]exp[-1MΣI=1Mlog(PT(wi/Hi))]]]>=exp-[1M(Σi=1MlogPG(wi/Hi)-Σi=1MlogPT(wi/Hi))]]]>其中,Pt=對于主題語言模型而言,在給定詞序列的歷史的條件下該詞序列的概率值;以及PG=對于通用語言模型而言,在給定詞序列的歷史的條件下該詞序列的概率值。
一旦相關(guān)度已經(jīng)確定,系統(tǒng)60便判斷該相關(guān)度是否滿足相關(guān)度門限值。相關(guān)度門限值可以通過用戶輸入進(jìn)行預(yù)定義或依據(jù)由系統(tǒng)60所檢索到的文檔的數(shù)量,或者依據(jù)其它的標(biāo)準(zhǔn)進(jìn)行適配。系統(tǒng)60僅僅判斷該文檔是否具有足夠高的相關(guān)度以便將其提供給用戶。這由方框112所描述。
如果該文檔不能滿足相關(guān)度門限值,那么,該文檔被提供給用戶,同時繼續(xù)執(zhí)行方框116的操作。然而,如果該文檔能滿足相關(guān)度門限值,那么,對于該文檔進(jìn)行檢索并且該文檔或者被存儲在主題數(shù)據(jù)存儲72中,或由輸出設(shè)備76提供給用戶。這由方框114所描述。
然后,系統(tǒng)60判斷是否需要檢查在普通數(shù)據(jù)存儲74中的其它的文檔。如果需要檢查其它的文檔,那么處理返回到方框104中,在該方框中選取另一個文檔并確定該文檔的相關(guān)度。如果設(shè)有更多的文檔需要被檢查,那么,繼續(xù)執(zhí)行方框118中的處理。這由方框116所描述。
一旦所有的文檔(或者文檔的一個子集)已經(jīng)檢查完了,系統(tǒng)60便能夠或者將這些文檔提供給用戶并將其存儲起來,或者按照相關(guān)度將文檔進(jìn)行排序。在按照相關(guān)度對文檔進(jìn)行排序的實(shí)施例中,系統(tǒng)60按照為每個文檔所確定的相關(guān)度直接地將這些文檔進(jìn)行排序。然后,系統(tǒng)60能夠或者把按照相關(guān)度已被排序了的文檔提供給用戶,或者依據(jù)此排序直接地提供一個被檢索的文檔的子集。這由方框118所描述。
可以看到,利用這種技術(shù),通用語言模型僅需要依據(jù)存儲在普通數(shù)據(jù)存儲74中的信息或者依據(jù)該信息的一些有代表性的樣本被生成一次。另外,當(dāng)普通數(shù)據(jù)存儲74中的信息的內(nèi)容發(fā)生變化時,可以間隔地適配通用語言模型。針對由用戶所提供的每個查詢,主題語言模型最好被生成一次。
本發(fā)明的一個方面是提供了一種技術(shù),該技術(shù)利用信息檢索來提高和適配語音識別過程中所使用的一個或多個語言模型。為了尋找相似的文檔以擴(kuò)大用來創(chuàng)建或適配語言模型的訓(xùn)練數(shù)據(jù),系統(tǒng)利用已經(jīng)由用戶所生成的文本的已有的歷史來直接地創(chuàng)建和適配語言模型,并按照普通數(shù)據(jù)存儲直接地傳輸一個主題有關(guān)的查詢。這就提供了一個比過去所使用的粗略的、預(yù)先設(shè)定好的、與主題有關(guān)的語言模型要精確得多的語言模型?;跀?shù)據(jù)量龐大的數(shù)據(jù)存儲中的查詢最好也被周期地或間隔地重復(fù)執(zhí)行,以便按照遞增的精確度獲得動態(tài)地被適配的語言模型。
本發(fā)明的另一個方面是利用語言模型來提高信息檢索技術(shù)。系統(tǒng)最好獲得一個通用語言模型和一個主題語言模型(要么利用上面所描述的技術(shù),要么利用其它的已知技術(shù))。然后,系統(tǒng)依據(jù)由所獲得的語言模型返回的復(fù)雜度數(shù)值,計算出被檢索到的文檔的相關(guān)度。由于語言模型是與上下文相關(guān)的模型,因此,為確定文檔的相關(guān)度,系統(tǒng)不僅要考慮詞本身,而且要考慮這些詞所出現(xiàn)的上下文。這不僅提高了信息檢索技術(shù)的查全率而且也提高了信息檢索技術(shù)的精確度,從而對被檢索的文檔中出現(xiàn)的相關(guān)信息提供了更加精確的似然(或概率)估算,并由此給信息檢索系統(tǒng)提供了更好的性能。
盡管本發(fā)明已結(jié)合著首選實(shí)施例進(jìn)行了詳細(xì)的描述,精通本領(lǐng)域的人會知道,在不背離本發(fā)明的實(shí)質(zhì)和范圍的情況下對本發(fā)明在形式和細(xì)節(jié)上進(jìn)行適配是可能的。
權(quán)利要求
1.一種從與第一類數(shù)據(jù)存儲器中所存儲的信息相關(guān)的第二類數(shù)據(jù)存儲器中檢索信息的方法,其中第二類數(shù)據(jù)存儲器比第一類數(shù)據(jù)存儲器中的數(shù)據(jù)量要大,該方法包括依據(jù)在第一類數(shù)據(jù)存儲器中所存儲的信息來提供第一種語言模型;提供第二種語言模型;在給定第一種語言模型的情況下,確定在第二類數(shù)據(jù)存儲器中的一個文檔的第一復(fù)雜度;在給定第二種語言模型的情況下,確定該文檔的第二復(fù)雜度;依據(jù)第一復(fù)雜度和第二復(fù)雜度,確定該文檔的相關(guān)度;以及依據(jù)此相關(guān)度,有選擇地對該文檔進(jìn)行檢索。
2.權(quán)利要求1的方法還包括針對在第二類數(shù)據(jù)存儲器中的多個文檔,重復(fù)執(zhí)行確定第一復(fù)雜度和確定第二復(fù)雜度以及確定相關(guān)度的步驟;以及從具有能滿足門限級的相關(guān)度的多個文檔中檢索出相關(guān)的文檔。
3.權(quán)利要求1的方法,其中提供第二種語言模型的步驟包括依據(jù)在第二類數(shù)據(jù)存儲器中所存儲的信息來提供第二種語言模型。
4.權(quán)利要求1的方法,其中確定相關(guān)度的步驟包括確定第一復(fù)雜度和第二復(fù)雜度,彼此的比值;以及依據(jù)該比值,確定相關(guān)度。
5.權(quán)利要求2的方法,其中對相關(guān)的文檔進(jìn)行檢索的步驟包括按照給每個文檔所確定的相關(guān)度,將文檔進(jìn)行排序。
6.一種從與第一類數(shù)據(jù)存儲器中所存儲的信息相關(guān)的第二類數(shù)據(jù)存儲器中檢索信息的方法,其中第二類數(shù)據(jù)存儲器比第一類數(shù)據(jù)存儲器中的數(shù)據(jù)量要大,該方法包括依據(jù)在第一類數(shù)據(jù)存儲器中的信息來提供第一種與上下文相關(guān)的語言模型;依據(jù)在第二類數(shù)據(jù)存儲器中的信息來提供第二種與上下文相關(guān)的語言模型;依據(jù)被給定的文檔的第一種語言模型的預(yù)測能力和依據(jù)被給定的文檔的第二種語言模型的預(yù)測能力來確定在第二類數(shù)據(jù)存儲器中的文檔的相關(guān)度;以及如果該相關(guān)度滿足相關(guān)度門限值,那么對該文檔進(jìn)行檢索。
7.權(quán)利要求6的方法,其中依據(jù)第一種語言模型和第二種語言模型的預(yù)測能力來確定文檔的相關(guān)度的步驟包括依據(jù)被給定的文檔的第一種語言模型的分支系數(shù)和依據(jù)被給定的文檔的第二種語言模型的分支系數(shù)來確定相關(guān)度。
8.權(quán)利要求6的方法還包括針對在第二種數(shù)據(jù)存儲器中的多個文檔,重復(fù)執(zhí)行確定相關(guān)度的步驟;將所確定的相關(guān)度與相關(guān)度門限值進(jìn)行比較;以及對具有能滿足相關(guān)度門限值的相關(guān)度的文檔進(jìn)行檢索。
9.權(quán)利要求8的方法還包括依據(jù)能滿足相關(guān)度門限值的一些文檔,對相關(guān)度門限值進(jìn)行適配。
10.權(quán)利要求6的方法,其中提供第一種語言模型的步驟包括依據(jù)在第一類數(shù)據(jù)存儲器中的信息,對第二類數(shù)據(jù)存儲器進(jìn)行查詢;以及依據(jù)在第一類數(shù)據(jù)存儲器中的信息和依據(jù)由該查詢從第二類數(shù)據(jù)存儲器中所檢索到的信息,構(gòu)造第一種語言模型。
11.權(quán)利要求6的方法,其中提供第一種語言模型的步驟包括依據(jù)在第一類數(shù)據(jù)存儲器中的信息,構(gòu)造初級語言模型;以及將初級語言模型與第二種語言模型組合起來,獲得第一種語言模型。
12.權(quán)利要求6的方法,其中提供第二種語言模型的步驟包括依據(jù)在第二類數(shù)據(jù)存儲器中所存儲的所有信息的子集,構(gòu)造第二種語言模型。
13.一種從與第一類數(shù)據(jù)存儲器中所存儲的信息相關(guān)的第二類數(shù)據(jù)存儲器中檢索信息的方法,其中第二類數(shù)據(jù)存儲器比第一類數(shù)據(jù)存儲器中的數(shù)據(jù)量要大,該方法包括依據(jù)在第一類數(shù)據(jù)存儲器中所存儲的信息來提供第一種語言模型;在給定第一種語言模型的情況下,確定在第二類數(shù)據(jù)存儲器中的一個文檔的第一復(fù)雜度;依據(jù)第一復(fù)雜度,確定該文檔的相關(guān)度;針對在第二類數(shù)據(jù)存儲器中的多個文檔,重復(fù)執(zhí)行確定第一復(fù)雜度和確定相關(guān)度的步驟;以及從具有能滿足門限級的相關(guān)度的多個文檔中檢索出相關(guān)的文檔。
14.權(quán)利要求13的方法還包括依據(jù)在第二類數(shù)據(jù)存儲器所存儲的信息來提供第二種語言模型;在給定第二種語言模型的情況下,確定該文檔的第二復(fù)雜度;其中確定相關(guān)度的步驟包括依據(jù)第一復(fù)雜度和依據(jù)第二復(fù)雜度來確定該文檔的相關(guān)度;以及其中重復(fù)執(zhí)行的步驟包括針對在第二類數(shù)據(jù)存儲器中的多個文檔,重復(fù)執(zhí)行確定第一復(fù)雜度和確定第二復(fù)雜度以及確定相關(guān)度的步驟。
15.一種識別語音的方法,包括提供第一類數(shù)據(jù)存儲器;提供第二類數(shù)據(jù)存儲器,第二類數(shù)據(jù)存儲器比第一類數(shù)據(jù)存儲器要大;提供語言模型;依據(jù)在第一類數(shù)據(jù)存儲器中所包含的信息,對信息檢索查詢進(jìn)行公式化;依據(jù)被公式化的查詢,對第二類數(shù)據(jù)存儲器進(jìn)行查詢;依據(jù)該查詢,從第二類數(shù)據(jù)存儲器中檢索信息;以及依據(jù)被檢索到的信息和在第一類數(shù)據(jù)存儲器中的信息,對該語言模型進(jìn)行適配。
16.權(quán)利要求15的方法還包括當(dāng)用戶正在使用該語音識別系統(tǒng)時,間隔地重復(fù)執(zhí)行公式化、查詢、檢索和適配的步驟。
17.權(quán)利要求16的方法,其中重復(fù)執(zhí)行的步驟包括依據(jù)時間,間隔地重復(fù)執(zhí)行這些步驟。
18.權(quán)利要求16的方法,其中重復(fù)執(zhí)行的步驟包括在文檔準(zhǔn)備期間,當(dāng)預(yù)定數(shù)量的一些詞數(shù)已經(jīng)被識別出來后,用戶正在利用該語音識別系統(tǒng)準(zhǔn)備文檔時重復(fù)執(zhí)行這些步驟。
全文摘要
一種語言模型(70)用于一個語音識別系統(tǒng)(60)中,它訪問一個第一類、較小的數(shù)據(jù)存儲器(72)和一個第二類、較大的數(shù)據(jù)存儲器(74)。通過公式化表達(dá)一個基于包含在上述第一類數(shù)據(jù)存儲器(72)中的信息的信息檢索查詢和查詢上述第二類數(shù)據(jù)存儲器(74),可以對語言模型(70)進(jìn)行適配。從第二類數(shù)據(jù)存儲器(74)中檢索的信息用來適配該語言模型(70)。并且,語言模型用來從上述第二類數(shù)據(jù)存貯器(74)中檢索信息。語言模型是基于第一類數(shù)據(jù)存儲器(72)中的信息和第二類數(shù)據(jù)存儲器(74)中的信息來構(gòu)建的。在給定第一個語言模型和第二個語言模型之后,在第二類數(shù)據(jù)存儲器(74)中的文檔的復(fù)雜度就可以被確定了。文檔的相關(guān)度是根據(jù)上述第一和第二復(fù)雜度來確定的。檢索具有超過某一門限水平的相關(guān)度測度的文檔。
文檔編號G10L15/18GK1474378SQ0310848
公開日2004年2月11日 申請日期1999年2月9日 優(yōu)先權(quán)日1998年3月30日
發(fā)明者米林德·V·邁哈簡, 米林德 V 邁哈簡, 黃學(xué)東 申請人:微軟公司