国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      在語言識別中通過計算機來確定至少兩個單詞的序列出現(xiàn)概率的方法

      文檔序號:2820754閱讀:283來源:國知局
      專利名稱:在語言識別中通過計算機來確定至少兩個單詞的序列出現(xiàn)概率的方法
      技術領域
      本發(fā)明涉及了一個在語言識別時通過計算機來確定至少兩個單詞的序列出現(xiàn)概率的方法。
      用于語言識別的方法由[1]被熟知。在這里所描述的由至少一個單詞組成的序列的適用性通常是作為單詞識別的組成部分。該適用性的大小就是概率。
      一個統(tǒng)計上的語言模型由[2]被熟知。單詞序列W的概率P(W)在語言識別的范圍內具有如下特征,首先是較大的詞匯量,一般是一個(統(tǒng)計上的)語言模型。該概率P(W)(也就是說,單詞序列概率)通過N-Gramm-語言模型PN(W)被近似得出pN(w)=&Sigma;i=0np(wi|wi-1,wi-2,...,wi-N+1),---(0-1)]]>這里Wi 是序列W的第i個單詞(i=1...n)n 是序列W的單詞Wi的數(shù)目對于N=2由等式(0-1)得出所說的雙語法(Bigramme)。
      此外下面是熟知的,對于語言識別,首先在商業(yè)環(huán)境中,采用了一個在詞匯上有所限制的應用領域(范圍)。不同范圍的文本不是僅僅由于其各自的詞匯表,而是由于其各自的句子構造而有不同。對于一個特殊領域的語言模型練習必須有相應大的文本數(shù)量(文本材料,文本文獻),然而在實踐中只有很少的幾個或只有利用巨大的費用才能獲得。
      語言學的專業(yè)詞典由[4]被了解。這里涉及了一個用于借助查找程序來查閱語言學特性的由計算機控制的一種語言的盡可能多的單詞編排。對于這種單詞記錄來說(所謂的單詞完整形式)一個對于這種單詞完整形式非常重要的語言學特征以及合適的分布,也就是說這種語言學的值,可以被得出。
      由[3]可以知道,采用了語言學的分類。一個句子的單詞可以根據(jù)不同的方式被分配語言學的標志以及語言學的值。在表1中舉例來說不同的語言學標志和附屬的值被描述(其他例子在[3]中被給出)。
      表1對于語言學特征和語言學單詞的例子。
      根據(jù)語言學特征(f1,...fm)(0-2)以及根據(jù)語言學的值(V11...V1j)...(Vm1...Vmj) (0-3)每個單詞被分配至少一個語言學類別,這里存在如下的映射準則F的應用(C1,...Ck)=F((f1,v11,...,v1j)...(fm,vm1,...vmj)) (0-4)這里fm 語言學標志m 語言學標志的數(shù)目Vm1...Vmj 語言學標志fm的語言學數(shù)值j 語言學數(shù)值的數(shù)目Ci 語言學的類別i=1...kk 語言學類別的數(shù)目f 語言學標志以及語言學數(shù)值在語言學分類上的映射準則(分類器)為了說明語言學的類別,語言學標志(英語feature),語言學值(英語value)以及分類-雙語法-概率一個例子被如下解釋。
      從這個德語句子開始“der Bundestag setzt seine Debatte fort”該冠詞“der“(也就是說第一個單詞)在德語中被劃分為六個語言學的類別(下面僅稱為類別),這里這個類別根據(jù)單復數(shù),屬性以及格而不同。下表2闡明了這種關系表2單詞“der“的類別Ci
      對于德語的名詞“Bundestag“(上面例句中的第二個單詞)產生類似的表3表3單詞“Bundestag“的類別Ci
      在這個例子中僅僅根據(jù)類別-雙語法,也就是用于語言學類別的雙語法,產生類別C1,由類別C7描述了相關例句的類型,單復數(shù),格以及屬性的正確組合。如果實際發(fā)生的類別-雙語法的頻率利用上面給出的文本被確定,則C1-C7對于上面提到的類別-雙語法有多次出現(xiàn),因為這種組合在德語語言中經常出現(xiàn),而其他類別-雙語法,例如組合C2-C8在德語語言中由于不同的Geni而不被允許。利用由這種方式獲得的頻率來求取得到的類別-雙語法概率相應較高(當多次出現(xiàn)時)或者較低(如果不允許)。
      本發(fā)明的任務是,給出一個在語言識別中確定至少一個單詞的序列出現(xiàn)概率的方法,這里確定了一個由很少的文本材料構成的領域的語言模型。
      這里需要說明,語言模型的確定明確包含了改編當前語言模型而產生的模型。
      該任務依照權利要求1的特征被解決。
      依照本發(fā)明給出了在語言識別中通過計算機來確定至少兩個單詞的序列出現(xiàn)頻率的方法。一種語言給出了語言學的類別(C1,...,Ck)(1)按照公式得出(C1,...,Ck)=F((f1,v11,...,v1j)...(fm,vm1,...,vmj)) (2)在這里fm 表示語言學的標志m 表示語言學標志的數(shù)目Vm1...Vmj 表示語言學標志fm的語言學數(shù)值j 表示語言學數(shù)值的數(shù)目Ci 表示語言學類別i=1...Kk 表示語言學類別的數(shù)目F 表示根據(jù)語言學類別由語言學標志和語言學數(shù)值構成的映射準則。
      這里一個單詞至少被分配了一個語言類別。至少兩個單詞的序列出現(xiàn)的概率P(W)由雙語法的應用來獲得p(w)&ap;&Pi;i=1n&Sigma;Ci&Sigma;Ci-1p(wi|Ci)&times;p(Ci|Ci-1)&times;p(Ci-1|wi-1)---(3)]]>這里W 至少兩個單詞的序列wi 序列W的第i個單詞(i=1...n)n 序列W的單詞wi的數(shù)目Ci 語言類別,該類別屬于單詞wiCi-1 語言類別,該類別屬于單詞wi-1∑Ci所有語言類別的總和,該總和屬于單詞wip(wi|ci)相應的單詞概率p(ci|ci-1)雙語法的概率(也就是類別-雙語法-概率)p(ci-1|wi-1)相應的類別概率這里要說明的是,數(shù)據(jù)項Ci被聯(lián)系到至少一個語言類別,該語言類別被分配給來自于單詞序列W的單詞wi。這相應的同樣適用于數(shù)據(jù)項Ci-1。舉例來說對于類別-雙語法-概率涉及了在一定條件下屬于第一語言學類別的單詞wi的這個概率,該概率,屬于第二語言學類別的前述單詞wi-1(見這里引入的例子和解釋)。
      概率P(wi|ci)和P(ci|ci-1),可以由文本匯編,也就是由帶有預設范圍的預先給定的文本來確定,這種由等式(3)引入的概率得出了一個所謂的基本語言模型。
      語言模型,這種模型以語言學類別為基礎,特別對于一個改編來說提供了明確的優(yōu)點。預先給定的方法采用了包含在該語言模型中的語言學特性。
      其他的構造在于,對于一個新的文本借助于預先確定的基本語言模型該概率p(Ci|Ci-1)被引入到該新文本的基本語言模型中。
      基本語言模型的類別-雙語法的概率(見[3]以及引論中的解釋)一方面描述了一個練習文本的語法結構同時另一方面依賴于詞匯表。如果由下面開始,相似文本結構(語法的結構)的新領域就象基本語言模型的最初練習文本,則根據(jù)目標來說,類別-雙語法的概率P(Ci|Ci-1)利用基本語言模型被沒有改變的引用。
      新領域的詞匯表,針對這個領域確定了一個語言模型,借助于預先給定的語言學詞典并且采用一個分類器F被按照等式(2)處理。對于每一個來自該文本的新單詞自動的被確定至少一個語言學類別。語言學類別,語言學標志和語言學數(shù)值的詳細解釋的描述見[3],語言學詞典見[4]和/或序言。
      其他的另外構造在于,根據(jù)至少一個下述的可能性確定概率P(wi|ci)a)借助于文本確定概率P(wi|ci);b)借助前述的概率來確定單詞wi的概率P(wi|ci);c)采用單詞列表確定概略P(wi|ci)。
      附加的其他構造是,借助算出的概率P(wi|ci)來適應基本語言模型。該模型如下優(yōu)先實現(xiàn),這個已經算出的概率P(wi|ci)被引入基本語言模型。
      本發(fā)明的其他構造也就是,借助于概率P(wi|ci)如下確定概率P(Ci-1|Wi-1)P(Ci-1|wi)=K×P(wi|ci)×P(Ci)(4)這里說明一個比例因子K=(&Sigma;Cip(wi|Ci)&times;p(Ci))-1---(5)]]>本發(fā)明其他的另外構造用于識別一個由至少一個單詞構成的相應序列,如果該概率P(W)位于上述范圍之外的話。如果不是該情況,則執(zhí)行上述的措施。該上述的措施是例如輸出一個錯誤信息或者中斷該方法。
      在其他另外構造的范圍里文本來自于預先確定的應用范圍,一個所謂的領域。
      在本發(fā)明的范圍中有一個特別的優(yōu)點是,對于新領域的語言模型的確定來說前面介紹的方法適用于只有小范圍的新文本。
      還有一個優(yōu)點是,新單詞的列表(有或沒有概率P(Wi)的說明)可以被采用。相關領域的語言識別在實踐中扮演著很重要的角色。所以本方法滿足一個實際要求并且在實驗中證實是適當?shù)牟⑶沂欠浅S杏玫?。如果采用基本語言模型,則新估計的概率(僅僅由P(wi|ci)做必要的估計)的數(shù)目有顯著的減少。
      本發(fā)明的另一個構造由相應的權利要求給出。
      借助如下的示圖詳細描述了本發(fā)明的一個實例。
      圖示如下

      圖1方框圖,該圖包含了在語言識別時通過計算機來確定由至少一個單詞組成的序列出現(xiàn)概率的方法步驟,圖2第一個用于確定概率P(wi|ci)的適用方法,圖3第二個用于確定概率P(wi|ci)的適用方法。
      圖1描述了在語言識別時通過計算機來確定至少兩個單詞的序列出現(xiàn)概率的方法的單個步驟。在步驟101中語言被劃分為如下語言分類(C1,...,Ck)(1)被劃分為(C1,...,Ck)=F((f1,v11,...v1j)...(fm,vm1,...vmj))(2)這里表示為fm 語言學的標志m 語言學標志的數(shù)目
      Vm1...Vmj語言學標志fm的語言學數(shù)值j語言學數(shù)值的數(shù)目Ci 語言學類別i=1...Kk語言學類別的數(shù)目F根據(jù)語言學類別由語言學標志和語言學數(shù)值構成的映射準則(分類器)語言標志和語言值的詳細解釋存在于[3]中,例如1201頁上在表4中給出了由語言標志舉例組成的編制,該語言標志帶有根據(jù)不同種類確定的所屬語言值。
      在步驟102中一個單詞至少被分配了一個語言類別。就象[3]中所描述的,一個或多個語言類別可以被分配給一個單詞。
      最后在步驟103中通過如下公式確定至少一個單詞組成的序列出現(xiàn)的概率P(W)p(w)&ap;&Pi;i=1n&Sigma;Ci&Sigma;Ci-1p(wi|Ci)&times;p(Ci|Ci-1)&times;p(Ci-1|wi-1)---(3)]]>這里W 至少兩個單詞的序列wi 序列W的第i個單詞(i=1...n)n 序列W的單詞wi的數(shù)目Ci 語言類別,該類別屬于單詞wiCi-1語言類別,該類別屬于單詞wi-1∑Ci所有語言類別的總和,該總和屬于單詞wip(wi|ci)相應的單詞概率p(ci|ci-1) 雙語法的概率(也就是類別-雙語法-概率)p(ci-1|wi-1) 相應的類別概率等式(3)由三個部分串聯(lián)相乘組成,三個部分是P(Ci|Ci-1)、P(wi|ci)和P(Ci-1|Wi-1)這幾個部分如下被逐個確定。
      確定概率P(Ci|Ci-1)新領域文本的詞匯表通過語言詞典利用分級器F,就象在等式(2)中表示的一樣,被分配了語言類別。這里每個新的單詞自動被分配了至少一個語言類別。一個基本語言模型包含類別-雙語法[3]的概率,這里這個概率一方面體現(xiàn)了語法結構,另一方面獨立于單個的單詞。這個范圍,也就是說特別采用的主題領域,如果僅僅以一個近似的文本結構就象以基本語言模型為基礎的練習文本為出發(fā)點,則類別-雙語法的概率P(Ci|Ci-1)由基本語言模型被沒有改變的引用。這種自動的分配是可能的,因為這種分配很大程度上不依賴于文本的內容,可以由此出發(fā),即語言學標志和語言值,也就是一個在語言類別(見等式(2))中的映射,對于語言是特有的并且有利的是可以從一個主題領域(范圍)被傳送到其他的主題領域上。多個練習文本的語法結構是近似的或者相同的,不依賴于以每個練習文本為基礎的主題領域(范圍)。這個概率P(Ci|Ci-1)可以被采納,基本語言模型的這個概率根據(jù)預先進行的練習過程被確定,描述了新文本詞匯表的類別分配的基本知識,該知識不是必須被確定更新,而是基本語言模型詳細的給出了大量的等級。
      確定概率P(Wi|Ci)所有相關基本語言模型的新單詞Wi的概率P(Wi|Ci)是被重新計算的并且以優(yōu)先的方式相應的適應于在基本語言模型中存在的詞匯表的概率P(Wi|Ci)(單詞概率)。為了確定概率P(Wi|Ci)三個不同的方法被如下解釋方法1新領域中所有新單詞Wi的概率P(Wi|Ci)是以新領域的文本為基礎被估計出來。以一個以語言類別為基礎的基本語言模型為出發(fā)點,這里這個新的被估計的概率P(Wi|Ci)優(yōu)先被引入到基本語言模型中并且由此借助新的文本得到基本語言模型的改編。首先這個優(yōu)選方式被采用,如果新領域的新文本給出足夠的范圍。在上下文中得出的至少一個語言分類被分配給該新文本的每個單詞。借助在[3]中描述的“標志工具”(Tagging-Tools)該語言學分類被實現(xiàn)。每個新單詞Wi的概率P(Wi|Ci)借助于新文本被估計。
      在圖2中描述了用于確定單詞概率P(Wi|Ci)的第一個改編方法。借助于分類器F211和語言詞典206采用標志工具202(見[3]中對標志工具的詳細解釋)不僅利用由大文本201組成的數(shù)據(jù)庫來確定一個較大的”被標志的”文本203而且也利用一個由新領域的小文本207(也就是說新文本)組成的數(shù)據(jù)庫確定一個較小的“被標志的”文本208。利用較大的”被標志的”文本203借助語言模型發(fā)生器204一個基本語言模型205被確定,該基本語言模型是以語言類別為基礎的。就象上面被詳盡描述的那樣,該概率P(Ci|Ci-1)被沒有改變的用于新領域的語言模型中。利用“被標志的”的小文本208借助改編工具209確定了一個新的被優(yōu)選改編的語言模型210,該改編工具是借助”被標志的”的小文本實現(xiàn)概率P(Wi|Ci)的估計。除了這個描述的改編以外并沒有限制產生一個其他的語言模型。
      方法2一個其他的方法減少了這個通過基本語言模型所獲得的個別的單詞概率P(Wi|Ci)并且傳送這個被減少的文章到每個語言類別Ci中所補充的詞匯表上(單詞)。這是借助新單詞的每個值P(Wi)被實現(xiàn)的。
      在圖3中描述了第二個用于確定概率P(Wi|Ci)的改編方法。利用分類器F311和語言詞典306借助標志工具302利用由較大文本301組成的數(shù)據(jù)庫確定一個“被標志的”的較大文本303。通過語言模型發(fā)生器304由”被標志的”的大文本303建立一個基本語言模型305,該模型以語言類別為基礎。利用基本語言模型305該概率P(Ci|Ci-1)沒有改變的被引入。借助新領域307的單詞列表利用改編工具308確定一個改編的語言模型309。這里改編也可以包含語言模型的改變或產生。該改編工具308利用概率P(Wi)計算新單詞的概率P(Wi|Ci)并且實現(xiàn)基本語言模型概率P(Wi|Ci)的改編。下面該方法被詳細描述。
      下面的值通過基本語言模型被給出Wi基本語言模型的詞匯表i=1,...,N,N 基本語言模型的詞匯表數(shù)目,NC基本語言模型的每個類別C中單詞的數(shù)目K 基本語言模型的類別數(shù)目,P(Cj)j=0,...k,基本語言模型類別的單語法(Unigramm)概率P(Cj|Cj-1)j=1,…k,基本語言模型類別的雙語法概率P(Wi|Cj(Wi))和P(Cj(Wi)|Wi)
      所有單詞wi的基本語言模型的單詞概率,i=1,...N,和所有類別Cj(Wj) j=0,...k,該類別適用于單詞Wi存在于語言類別Cj中新領域的語言模型的語言類別構造相當于基本語言模型的語言類型構造?;菊Z言模型的分類器F(見等式(2))被引用。也就是說語言類別k的數(shù)目沒有改變。對于新的領域是以結構近似的文本類似于以基本語言模型為基礎的練習文本為出發(fā)點的。類別-雙語法的概率P(Ci|Ci-1)和基本語言模型的類別單語法的概率P(Cj)保持不變。
      概率P(Wi|Cj(Wi))和概率P(Cj(Wi)|Wi)被研究,這種概率總是與各個單詞有關聯(lián)。對于新領域中不包含在基本語言模型里的單詞來說概率P(Wi|Cj(Wi))和概率P(Cj(Wi)|Wi)被重新計算。對于基本語言模型的單詞已有的概率是不變的。
      對于新領域來說給出了如下的值Wh 新領域的詞匯表h=1,...,L,該詞匯表不包含在基本語言模型中。
      L在該新領域的語言模型(目標語言模型)中的詞匯表數(shù)目,Lc 在每個(語言)類別C中的基本語言模型的新單詞Wh和單詞Wi數(shù)目P(Wh)新領域中依賴類別的單詞概率。
      概率P(Wh)利用帶有單詞頻率的單詞列表和基本文本的大小被給出。
      概率P(Cj(Wh)|Wh)的估計為了估計概率P(Cj(Wh)|Wh),對于新詞匯表Wh來說總是以如下為出發(fā)點,即針對在這種類別Cj中的單詞的P(Cj(Wh)|Wh)是近似相等的。因此下面的近似值是合適的p(Cj|wh)&ap;1NC&times;&Sigma;i=1NCp(Cj|wi)---(6)]]>這里Wi表示基本語言模型的所有單詞,這些單詞屬于類別Cj。
      對于如下的實現(xiàn)示范性的研究了一個類別Cj。為了簡化描述該類別Cj在下面被描述為類別C。
      當前的概率值被重新標準化。然后這個“舊的”值利用一個代字符號被標明。
      等式(6)的另一個近似答案是這些單詞Wi的和,對于這些單詞來說所有的語言類別和新單詞的類別是相一致的。
      為了計算新概率P(Wh|C(Wh))或者為了重新標準化已得到的概率P(Wi|C(Wi))采用了如下的方法1)確定詞庫中新單詞的份額α2)重新標定p~(w)---(7)]]>利用p(wi)=(1-&alpha;)&times;p~(wi)---(8)]]>依照等式(11)確定份額α3)確定類別C中新單詞的份額1-γc4)依照等式(17)確定
      5)根據(jù)等式(16)確定γc,6)確定概率P(Wh|C(Wh))是通過p(wh|C)=&gamma;C1-&alpha;p~(wh|C)---(9)]]>見等式(16)。該因子可以被說明為語言類別C中的舊單詞份額和所有詞庫中舊詞庫的份額的商。下面利用等式(8)確定份額α1=&Sigma;i=1NCp~(wi)=&Sigma;i=1NCp(wi)+&Sigma;h=NC+1LCp(wh)=]]>=(1-&alpha;)&times;&Sigma;i=1NCp~(wi)+&Sigma;h=NC+1LCp(wh)---(10),]]>由此導致&alpha;=&Sigma;h=NC+1LCp(wh)---(11).]]>為了確定份額γC在等式(6)上采用了Bayes的句子(見[5])。下面是p(wh|C)=p(wh)NC&times;&Sigma;i=1NCp(wi|C)p(wi)---(12).]]>借助等式(12)并且采用概率值的標準化特性(見[6])可以指明&Sigma;i=1NCP(wi|C)+&Sigma;h=NC+1LCp(wh)NC&times;&Sigma;i=1NCp(wi|C)p(wi)=1---(13).]]>對于p(wi|C)=&gamma;C&times;p~(wi|C)---(14)]]>其中γC≤1并且
      作為舊的分配(沒有重新標準化的),適用于(1+&Sigma;h=NC+1LCp(wh)NC&times;&Sigma;i=1NCp~(wi|C)p(wi))&times;&gamma;C=1---(15).]]>由此由等式(8)導致了&gamma;C=(1+11-&alpha;&times;&Sigma;h=NC+1LCp~(wh|C))-1---(16)]]>其中p~(wh|C)=p(wh)NC&times;&Sigma;i=1NCp~(wi|C)p~(wi)---(17)]]>方法3這個相關于基本語言模型的新單詞Wi的概率P(Wi|Ci)在采用相應的單詞列表時是相近似的。在優(yōu)先方式下“方法2”所描述方法的解決策略被引入。這里新單詞Wh的非現(xiàn)有概率P(Wh)是近似的。這得到了從屬于所有單詞Wh的主要種類HC。近似的得出
      這里利用了基本語言模型的單詞Wi的特性。NHC是基本語言模型的詞匯數(shù)目,該詞匯表處于主要種類HC里。這個總和是通過基本語言模型的所有類型Cj實現(xiàn)的,每個單詞Wi都屬于該類型。
      確定概率P(Ci-1|Wi-1)
      最后這個概率P(Ci-1|Wi-1)被如下描述。說明如下,在等式(3)中概率P(Ci-1|Wi-1)指出了指數(shù)‘i-1’,該指數(shù)接下來被簡化設置為指數(shù)i。
      概率P(Ci|Wi)總是利用概率P(Wi|Ci)被確定得出,該概率P(Wi|Ci)就如上面所描述的那樣P(Ci|Wi)=K×P(Wi|Ci)×P(Ci) (4)其中比例因子K=(&Sigma;Cip(wi|Ci)&times;p(Ci))-1---(5)]]>語言類別Ci這里包含對單詞Wi來說有可能的所有語言類別。概率P(Ci)由基本語言模型被引用(基本語言模型所有語言類別的單語法-概率)。
      在這個文本范圍里引用了下面的出版物[1]G.Ruske著“自動的語言識別-分類和標示的方法”,Oldenbourg出版社,慕尼黑1988,ISBN 3-486-20887-2,1-10頁。L.Rabiner,B.-H.Juang著“語言識別基礎”,Prentice Hall1993,447-450頁。P.Witschel著“用于大詞匯量的語言識別的構成語言學導向的語言模塊”,第3屆EUROSPEECH 1993,1199-1202頁。F.Guethner,P.Maier著“CISLEX-字典系統(tǒng)”,CIS-Bericht94-76-CIS,慕尼黑大學,1994。W.Feller“概率原理的介紹及其應用”,John Wiley &amp;Sons,1976,第124、125頁。W.Feller“概率原理的介紹及其應用”,John Wiley &amp;Sons,1976,第22頁。
      權利要求
      1.在語言識別中通過計算機來確定至少兩個單詞的序列出現(xiàn)的概率的方法,a)其中一語言含有語言學類別(C1,...Ck)=F((f1,v11,...v1j)...(fm,vm1,...vmj)),這里表示為fm 語言學的標志m 語言學標志的數(shù)目Vm1...Vmj 語言學標志fm的語言學數(shù)值j 語言學數(shù)值的數(shù)目C1...Ck語言學類別i=1...Kk 語言學類別的數(shù)目F 根據(jù)語言學類別由語言學標志和語言學數(shù)值構成的映射準則b)其中一個單詞至少被分配了一個語言學類別;c)其中至少兩個單詞的序列出現(xiàn)的概率通過如下公式被確定p(w)&ap;&Pi;i=1n&Sigma;Ci&Sigma;Ci-1p(wi|Ci)&times;p(Ci|Ci-1)&times;p(Ci-1|wi-1)]]>這里P(w) 至少兩個單詞的序列出現(xiàn)的概率W 至少兩個單詞的序列wi 序列W的第i個單詞(i=1...n)n 序列W的單詞wi的數(shù)目Ci 語言類別,該類別屬于單詞wiCi-1 語言類別,該類別屬于單詞wi-1∑Ci所有語言類別的總和,該總和屬于單詞wip(wi|ci) 相應的單詞概率p(ci|ci-1) 雙語法的概率(也就是類別-雙語法,雙語法-概率)p(ci-1|wi-1)相應的類別概率
      2.根據(jù)權利要求1的方法,其中,對于一個文本借助于預先確定的基本語言模型,該文本的概率P(Ci|Ci-1)被確定,其中概率P(Ci|Ci-1)從基本語言模型被接受。
      3.根據(jù)權利要求2的方法,其中,概率P(Wi|Ci)根據(jù)至少一個如下的可能性被確定a)借助于文本確定概率P(Wi|Ci),b)對于單詞Wi借助于預先給定的概率P(Wi)確定概率P(Wi|Ci),c)采用單詞列表確定概率P(Wi|Ci)。
      4.根據(jù)權利要求3的方法,其中,借助求出的概率P(Wi|Ci)該基本語言模型匹配。
      5.根據(jù)權利要求3或4的方法,其中,借助于概率P(Wi|Ci)如下確定了概率P(Ci|Wi)P(Ci|wi)=K×P(wi|Ci)×P(Ci),其中比例因子為K=(&Sigma;Cip(wi|Ci)&times;p(Ci))-1]]>
      6.根據(jù)上述權利要求之一的方法,其中,如果至少一個單詞的序列出現(xiàn)的概率P(W)在預先確定的限制之上,至少一個單詞的相應序列被識別,否則預先確定的措施被執(zhí)行。
      7.根據(jù)權利要求6的方法,其中,預先確定的措施是一個錯誤信息的輸出或者是促使該方法的中斷。
      8.根據(jù)權利要求2到7之一的方法,其中,該文本被聯(lián)系到預先確定的應用范圍上。
      全文摘要
      為了改善自動語言識別系統(tǒng)的識別率,采用了統(tǒng)計的語言模型。利用所說的方法利用小文本數(shù)量或完全不用文本來構造語言模型是可行的。語言類別被構造并且該語言模型,也就是單詞序列的α-優(yōu)先的概率,是以文本的語法結構為基礎并且依賴于文本的詞匯表來計算得出。于是單詞和語言學類別的概率被確定。除了上述應用范圍的語言模型的重新構造以外本方法同樣包含了一個可能性用于使已經存在的語言模型適應于新的應用范圍。
      文檔編號G10L15/183GK1270687SQ98809243
      公開日2000年10月18日 申請日期1998年9月7日 優(yōu)先權日1997年9月17日
      發(fā)明者P·維特舍爾, H·赫格 申請人:西門子公司
      網友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1