專利名稱:語言分析的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語言分析。具體地,本發(fā)明包括才乘作計算才幾來執(zhí)行 語言分析的方法。在另一方面,本發(fā)明為實現(xiàn)該方法的計算才幾系統(tǒng), 并且在進一步的方面,本發(fā)明為用于對計算機進行編程以執(zhí)行該方 法的軟件。
背景技術(shù):
當(dāng)今,全世界講述的語言大約在6,500種和10,000種之間。由 于首先構(gòu)筑了計算才幾,所以嘗試對計算一幾進4于編成以理解人類語言 并且提供人類語言之間的翻譯。已經(jīng)提出了許多計算機方法來理解 并且翻譯語言。這些方法通常依靠基于從語言樣本的分析所計算的 語序可能性利用標(biāo)記詞或者統(tǒng)計方法所創(chuàng)造的具體語言^見則的集 合的使用。對于基于規(guī)則的系統(tǒng),程序師通常寫出具體解釋規(guī)則的
代碼---個冗長且復(fù)雜的任務(wù)。此外,這些方法通常不能有效地
滿足慣用詞和短語的使用。
發(fā)明內(nèi)容
本發(fā)明為操作計算機來執(zhí)行語言分析的方法,包括以下步驟 將輸入文本劃分為詞和句子。
對于每個句子,將句子中的短語與存儲在數(shù)據(jù)庫中的已知短語 ii^f亍t匕專交,fe口下
6對于句中的每個詞,將該詞的涵義和跟隨該詞的詞的涵義與存 4諸短語的詞的涵義進行比較,從以該詞開始的最長存儲的短語開 始,并且從最長至最短來進行比較。
在兩個或者多個連續(xù)詞的涵義和存^f諸短^吾的涵義之間」戰(zhàn)到匹
西己的事件中,利用描述匹配的涵義的^短i吾(overphrase )來標(biāo)記匹 配的兩個或者多個連續(xù)詞。
在已經(jīng)比較倒數(shù)第二個詞之后,通過由各個代短語代替匹配的 部分來改寫該句子。
然后,利用改寫的子句來重復(fù)比較過程直到不存在進一步的改寫。
用在比4交處理中的涵義可以包4舌詞的文字4并寫、詞義意義、詞 的語法結(jié)構(gòu)(grammatical use,另一i奪法"語法應(yīng)用")或者詞的其 他屬性。通過這些涵義的任何一個的使用,或者通過添加包括一個
或者多個其他涵義的第二或者第三等級比較來滿足本發(fā)明。通過這 種方式匹配詞順序,可以同時處理i吾法內(nèi)容和i吾義內(nèi)容兩者。
比較過程可以不僅包括詞的涵義的比較,例如,其可以包括耳又 決于短i吾周圍的詞的條件要求。例如,可以通過為否定或者形容詞 的短語之前的詞來影響比較結(jié)果。
可以根據(jù)預(yù)定順序來執(zhí)行比較過程。類似地,在輸入文本中的 短語或者詞可以根據(jù)與短語和詞相關(guān)聯(lián)的預(yù)定轉(zhuǎn)換順序被轉(zhuǎn)化為 它們的代短語。該順序可向前運行,從句子的開始與短語匹配;或 者向后,通過首先與句子匹配并隨后與分句和短語匹配。本發(fā)明通過對讀取文本時人類所4吏用的心理過程進4于仿真來 執(zhí)行語言分析。其使用等級模式存儲、順序分析層和雙向模式匹配 的結(jié)合以將基于文本的人類語言轉(zhuǎn)換為其成分語法部分。這些技術(shù) 模仿主要在生物大腦中所見到的功能。本發(fā)明將文本轉(zhuǎn)換為文本的 等級才莫式,或者通過將詞與短語匹配,然而將短語與分句匹配,然 后將分句與句子匹配,或者相反,通過將句子與分句匹配,然后將
分句與短語匹配。在維持用于當(dāng)需要時首先匹配較短的短語的靈活 性的同時,設(shè)計該轉(zhuǎn)換以確保在較短的模式之前匹配最長的模式。 這也滿足了在基于語法的短語之前匹配慣用短語或名稱。
比較過程可以進一 步包括錯誤校正步驟,當(dāng)遇到拼寫錯誤時, 錯誤校正步驟校正輸入句子中拼一錯的詞并且利用4交正的詞來重復(fù) 比4交過程。
本發(fā)明可以包括建立階,爻,其中詞和其與文字短語、語法短語、 以及其他屬性的關(guān)系存儲在本發(fā)明可到達的數(shù)據(jù)庫中。 一旦在操作 中將這些才莫式添加至數(shù)據(jù)庫,就可以通過本發(fā)明來學(xué)習(xí)新的詞和短語。
在語言分析中,詞義消歧為瑜定其中具有多個不同意義的詞在 給定句子中用作哪種意義的問題。換句話說,有時短語獨立于詞甚 至包括詞的字母來確定意義。本發(fā)明通過在開始為每個詞加載所有 的詞義來滿足詞義消歧,并且然后取消選定在所提供的文本中不正 確的那些詞義。這留下了在利用文本考慮鄰近詞的存儲的屬性模式
的所有情況下一致的詞義。與在方形中的9點通過在盒子外部纟會制 利用4條直線連續(xù)地連4妾的難題一樣,通過在詞義本身和鄰近的詞 義才莫式之間匹配的詞義來影響詞義消^支。
本發(fā)明可以經(jīng)由語言生成進一步滿足詞義消歧。本發(fā)明可以在 其輸出(詞義、短語、語法結(jié)構(gòu)和屬性)上操作以使用詞或者短語的屬性和語法結(jié)構(gòu)來確定用于詞或者短語的一致選4奪。等^f介的短語 和詞可以為相同的或者不同的語言。可以將詞和短語與在建立階段 期間與其他語言中的其等價詞義的意義鏈接。
為了才艮據(jù)文本的詞和短語的屬性以及語法結(jié)構(gòu)來生成文本,本 發(fā)明進一 步包括以下步驟
對于輸入文本中的每個代短語,以所確定的最后的代短語開 始,寺丸行語言生成以找到用于由代短語所表示的短語或者詞的等 價,如下
從凄t據(jù)庫中獲得代短語的所有等《介短語;以及
如果在目標(biāo)語言中找到等價短語,則利用代短語的等價屬性來 確定詞或短語。
在已經(jīng)考慮了最后的代短語之后,通過其相應(yīng)的等價物代替代 短語來改寫句子,其相應(yīng)的等價可以為較低水平的代短語。
然后,重復(fù)生成過程直到所有的代短語均與目標(biāo)語言中的詞或 者其等同物匹配。
可以使用面向?qū)ο?OO)的程序語言來實現(xiàn)本發(fā)明,以使詞 及其i吾法結(jié)構(gòu)詞,即,描述所述詞的i吾法和語義應(yīng)用的詞;短:i吾; 詞義;以及屬性通過鏈接被封裝在詞對象中。
可以在諸如月l務(wù)器、個人計算才幾、筆記本、移動電話和個人凄史 詞助理(PDA)的基于計算才幾的裝置中實現(xiàn)本發(fā)明。
本發(fā)明能夠在以多種語言所寫的文本上執(zhí)行語言分析。不需要 在語言符號(詞母、數(shù)詞、標(biāo)點)、詞、短語以及分句的意義之間的區(qū)別。有利i也,本發(fā)明可以在習(xí)慣用語、隱P俞、諺語、文字以及
標(biāo)題之間;以及在不同詞義之間進行精確地區(qū)分。
本發(fā)明還平等地處理不同水平的語言。盡管確定意思的語法才莫 式可以不同,^f旦是用于完成與短語、分句以及句子匹配目的的原則 保持不變。在一種語言中為不能劃分為更小意義部分的詞或者詞元 素的詞素可以包括存4諸在另一語言中的獨立詞的信息。通過凈皮包括 在短語才莫式中來在翻i奪過程期間包含在某些語言中省略的詞。
另外,本發(fā)明已經(jīng)^皮i殳計為以新的方式利用現(xiàn)有的計算機技 術(shù)。今天,寫大部分計算才幾程序,以使該程序控制l喿作流并且利用 幫助確定詞義消歧的鄰近詞趨向于使用作為基本來源意義的詞。在 本發(fā)明中,在程序任務(wù)主要有助于數(shù)據(jù)流并且主要與用作屏幕顯示 和外部界面格式化的輸入或輸出(1/0)交互的同時,系統(tǒng)中的數(shù)據(jù) 控制操作。
在另一方面,本發(fā)明為實現(xiàn)該方法的計算才幾系統(tǒng)。在另一方面, 本發(fā)明為用于對計算機進行編成以執(zhí)行該方法的軟件。
現(xiàn)在,將參照附圖描述本發(fā)明的實例。 圖1為本發(fā)明的流程圖。
圖2示出了在分析循環(huán)j中通過本發(fā)明所執(zhí)行的步驟的順序。
圖3示出了在分析循環(huán)j中通過本發(fā)明的短語匹配程序所執(zhí)行 的步艱《的順序。
圖4A示出了在本發(fā)明中詞和短語之間的關(guān)系。圖4B示出了一串詞、屬性、詞義、以及詞義元素之間的關(guān)系。 圖4C示出了短語模式結(jié)構(gòu)的細(xì)節(jié)。
圖4D示出了短語-才莫式抑制在一種情況下的匹配,然后允許該 匹配的實例。
圖5示出了由用于語言生成的本發(fā)明所執(zhí)行的步驟的順序。
圖6示出了本發(fā)明如何將輸入句子中的未知文字短語與數(shù)據(jù)庫 中的已知文字短語進4亍匹配。
圖7A和圖7B示出了分析程序的循環(huán)1。
圖8示出了如何使用本發(fā)明來對一個句子進行分析的實例。
圖9A和圖9B示出了如圖5詳述的本發(fā)明的語言生成特征的實例。
圖10示出了在較高水平處^f莫型的擴充。
具體實施例方式
現(xiàn)在,將參照圖1說明本發(fā)明100。首先,在步驟110中,檢 查長度L!的輸入文本以識別一系列的詞,利用空才各或標(biāo)點的幫助來 確定詞邊界。輸入文本可以為字母、數(shù)字、標(biāo)點符號或者其他語言 符號的集合。
例如,直到"文件結(jié)束"字符的一系列詞形成第一輸入句子(步 驟120),在第一分析循環(huán)中為文本分析130提供該第一輸入句子。 通常,我們在分析循環(huán)j中將文本分析130的輸入句子表示為Wj(l)Wj(2)…Wj(Lj),
其中,Wj(l)表示句子的第一個詞并且Lj為在當(dāng)前循環(huán)中輸入句子 的長度。
文本分析130的功能為識別輸入句子中的短語。具體地,將輸 入句子中的未知短語與lt據(jù)庫中的已知短語進4亍匹配。在找到兩個 或者多個連續(xù)詞的匹配的事件中,利用描述匹配短i吾的語法結(jié)構(gòu)的 代短語來標(biāo)記匹配短語。重復(fù)通過文本分析130所4丸行的匹配過程 直到?jīng)]有新的短語被識別。文本分析130的每個循環(huán)作為如j所表 示的分析循環(huán),并且在圖2中示出在循環(huán)j中所4丸行的步驟的順序。
々支設(shè)Wj(l)Wj(2)…Wj(Lj)的輸入句子,在步驟205中,文本分 析130首先確定在輸入句子中的第一未知詞的位置。例如,在第一 反復(fù)中,第一未知詞為Wj(i),其中1=1。然后,在步驟210中,經(jīng) 由諸如哈希表的查詢工具將未知詞Wj(i)與在數(shù)據(jù)庫中的已知詞進 行匹配。未知詞可以是諸如"cat"的文字詞;或者是諸如"[Noun: cat]"的短語詞。4義在第一分析循環(huán)之后可以在句子中出現(xiàn)后者。
如果步驟210中在凄t據(jù)庫中沒有找到當(dāng)前未知詞Wj(i),則在 步驟245中文本分析130向前運載未知詞作為其代短語;并且在步 -驟250中,確定句子中的下一個未4口詞。在這種情況下,未知詞計 數(shù)器i將增加1。如果在句子中仍存在更多未匹配的詞(步驟255), 則3尋利用下一個未知詞來重復(fù)步-驟210中的查詢禾呈序。因為詞可以 被拼錯或者被錯誤地使用,所以塊235執(zhí)行學(xué)習(xí)和錯誤校正并且不 存儲新詞。如果確定了拼寫4晉誤,則步驟215遵循正確的詞。
反之,如果在步驟210中,在數(shù)據(jù)庫中找到未知詞Wj(i),則 執(zhí)行短語匹配程序215以在數(shù)據(jù)庫中尋找與以Wj(i)開始的輸入句 子中的短語相匹配的已知短語。數(shù)據(jù)庫中的每個已知詞具有語法結(jié)構(gòu)、屬性、含義以及短語的相關(guān)聯(lián)的集合,該集合經(jīng)由諸如基于軟 件的排列列表的機制直接鏈接至該詞。利用關(guān)聯(lián)的集合同樣地對短
語、分句和句子初始化。在圖4(a)中示出了凄史據(jù)庫中的詞和短語 的關(guān)系。在建立階段期間可以將使系統(tǒng)可操作的必要的詞、短語以 及其他關(guān)系數(shù)據(jù)的初始集合加載到數(shù)據(jù)庫中,并且一旦本發(fā)明運 4亍,可以通過存〗諸新詞來學(xué)習(xí)新詞,并且然后, 一尋這些新詞與環(huán)境 適當(dāng)?shù)劓溄印?br>
例如,文字詞"the"可以鏈4妄至
i者^口 "the black sleeping cat"和'The Sound of Music"的以"the" 開始的短語列表;
描述諸如"[冠詞]"和"[限定詞]"的"the"的語法結(jié)構(gòu)的語 法結(jié)構(gòu)詞列表;以及
其他屬性的列表。
屬性描述了諸如否定、第三人稱的其他詞特性和諸如為不及 物、條件和#:動的動詞特性。類似地,可以將語法結(jié)構(gòu)詞"[冠詞]" 鏈接至諸如"[冠詞][名詞]"和"[冠詞][形容詞][名詞]"的短語列表 來描述以"[冠詞]"開始的可能有歲文的4豆i吾元素。
將參照圖3說明通過短語匹配程序215所#1行的步驟的順序。 假設(shè)Wj(i)Wj(i+l)…Wj(Lj)的輸入句子,在步驟300中,從數(shù)據(jù)庫獲 得以第一個詞Wj(i)開始的已知短語列表。如果在步驟220中找到 一個或者多個短語,則在步驟310中,才艮據(jù)短語長度從最長至最短 來檢索所獲得的短語以確保首先找到最長匹配的短語。
H沒找到K個短語并且將所分類的短語表示為
13短語l: P1(1)P1(2)…P1(N,)
短語k: Pk(l)Pk(2)...Pk(Nk)
短語K: PK( 1 )PK(2)... PK(NK),
其中,Nk為短語k的長度并且k=l...K。僅需要考慮具有小于等于 輸入句子長度的長度的短語,即,Lj-i+l。由于列表被排序,所以 ^艮明顯Ni》N2》...>NK。注意,所有的《豆"i吾以相同的詞開始,即, 乂十于所有的k, Pk(l)=Wj(i)。
然后,短語匹配程序215將在列表中的每個已知短語與輸入句 子Wj(i)Wj(i+l)…Wj(Lj)進行匹配。具體地,在步驟320-340中,對 短語k的第m個詞Pk ( m )進行配對并且與在輸入句子中的相應(yīng)詞 Wj(m+i-l) (m=2...Nk)進4亍比4交。如果Pk(m)和Wj(m+i-l)都為文 字或者i吾法結(jié)構(gòu)詞,則可以進4于直4妄比4交。
然而,如果Pk(m)為語法結(jié)構(gòu)詞,而Wj(m+i-l)為文字詞,則不 能直接進行比較。將鏈接至Wj(m+i-l)的語法結(jié)構(gòu)詞用于進行比較。 例如,如果主動分析短語為"[冠詞]man"并且找到鏈接至語法結(jié)構(gòu) 詞"[冠詞]"的已^^豆i吾
"[冠詞][名詞]"
則將與第二詞"man"相關(guān)if關(guān)的語法結(jié)構(gòu)詞與"[名詞]"進行比專交。 我們將詞Wj(i)的語法結(jié)構(gòu)詞表示為Gr[Wj(i)]。將利用短語和輸入句子中的其他對的詞來重復(fù)圖3的步驟330 中詞匹配的處J里,直到發(fā)JE見無匹配乂于或者所有^J"詞均已經(jīng)一皮匹配。 以前,將利用列表中的下一個短語來重復(fù)步驟320和330。然而, 如果所有短語均已經(jīng)與輸入句子進行了比較,則短語匹配程序215 的結(jié)果為在步驟220中沒有找到匹配短語。
如果已經(jīng)匹配了所有的詞對,即,當(dāng)找到匹配短語時,在步驟 370中4全—驗^t據(jù)庫中的存^f諸短語的屬性、或者詞義、或者屬性和詞 義兩者與輸入句子中的匹配詞具有一致性。如果找到屬性、或者詞
義、或者屬性和詞義兩者是一致的,則短-i吾匹配禾呈序215的結(jié)果為 匹配短i吾。否則,才莫式不匹配并且利用列表中的下一個4豆i吾重復(fù)步 驟320和330。類似地,如果已經(jīng)將所有的短語與輸入句子進行了 比較,則短語匹配程序215的結(jié)果為在步驟220中沒有找到匹配短語。
結(jié)果1-找到匹配短語
當(dāng)找到匹配短語時,選4奪匹配的最長短語。當(dāng)存在平局的情況 下,選擇根據(jù)元素數(shù)量的最復(fù)雜的模式。每當(dāng)短語匹配程序215將 在輸入句子中的短語與在數(shù)據(jù)庫中的已知短語成功地進行匹配時, 將代短語分配給在圖2的步驟225中的短語,以表示下一個分析循 環(huán)中的短語。在分配代短"i吾之前,首先才全查匹配短語詞義的 一致性。 根據(jù)剩余的一致詞義,參見圖4B,選擇總結(jié)匹配短語的意義和語 法特性并且表示下一個分析循環(huán)中短語的代短語。
例如,考慮以下匹配短i吾
Wj(i)Wj(i+l)…Wj(M),其中,m為匹配短語的長度并且m在當(dāng)前分析循環(huán)j中小于等于專lr 入句子的長度。將確定并存儲匹配短語的代短語
Over [ Wj (i) Wj (i+1)…Wj (M)],
可以基于短語的特性來確定代短語。通過缺省值,每個短語具有可 以沒有改變地使用的鏈接的代短語。另外,可以分析在匹配短語中 的詞以找到更合適、具體的代j短i吾。
在步驟225之后,未知詞計數(shù)器i將增加至M+l,即,緊跟在 匹配短語之后的詞。如果在句子中存在更多的未知詞,則將重復(fù)步 驟210。換句話說, 一旦找到匹配短語,分析程序跳過匹配的、或 者現(xiàn)在已知的詞,以與在句子中的下一個未知詞順序進4亍匹配。
結(jié)果2-沒有找到匹配短語
如果短語匹配程序215沒有找到以數(shù)據(jù)庫中的當(dāng)前未知詞Wj(i) 開始的任何匹配短語,則文本分析130將執(zhí)行以下步驟之一
如果Wj(i)為文字詞240,則獲得與Wj(i)相關(guān)聯(lián)的已知語法結(jié) 構(gòu)詞Gr[Wj(i)]的列表,并且利用每個語法結(jié)構(gòu)詞中作為輸入句子的 第一詞重復(fù)^豆i吾匹配程序215直到找到匹配或者已經(jīng)考慮了用于文 字詞的所有語法結(jié)構(gòu)詞;或者
如果Wj(i)不是文字詞,則在圖2的步驟245中將Wj(i)設(shè)置為 其代短語,并且如果在句子中存在更多不匹配的詞,則通過跳過的 Wj(i)來重復(fù)步驟210以在以Wj(i+1)開始的句子中找到下一個未知短語。
通過Wj(i)的每個語法結(jié)構(gòu)重復(fù)短語匹配程序的目的是在數(shù)據(jù) 庫中找到與Wj(i)和其隨后詞的i吾法結(jié)構(gòu)相匹配的已知"i吾法短i吾。例如,在數(shù)據(jù)庫中沒有找到輸入句子"the old man",但是可以與"[冠 詞][形容詞][名詞]"相匹配。文本分析的輸出是表示其各自短語的 代短語的句子。
當(dāng)已經(jīng)考慮輸入句子中的所有詞時,文本分析130停止。因為 在當(dāng)前循環(huán)中不匹配,所以文本分析130的每個分析循環(huán)j的輸出 是表示輸入句子中的匹配短語和向前運送的任何詞的代短語的句 子。換句話i兌,用于不匹配詞的代短語為詞本身。因此,在每個分 析循環(huán)j中輸入句子的長度,即,Lj可以不同。
在圖1中的文本分析130之后,在步驟140中,將文本分析130 的輸出與輸入句子進行比較。如果句子不同,則將當(dāng)前分析循環(huán)的 輸出句子用作下一個分析循環(huán)的輸入句子。重復(fù)比較處理直到?jīng)]有 進展,或者更具體地,輸出句子與輸入相同。
對所有可能短語進行分析來確保文本分析130找到以包括慣用 短語的詞開始的最長的匹配短語。為了才艮據(jù)在所有語言中所找到的 歧義而正確地聚集短語,存4諸短語的設(shè)計預(yù)先確定了短語匹配的順 序和將詞轉(zhuǎn)換為詞的代短語的順序。
可以進一步通過更具體地參照圖4C來"i兌明分句和句子匹配。 在圖的下部中,將主-謂-賓(SVO)分句定義為名詞,5艮隨必須為 及物動詞而不是現(xiàn)在分詞的動詞,并且然后跟隨不為代名詞的名 詞。將輸入文本與該具體才莫式匹配將導(dǎo)致本發(fā)明為進一步的分析循 環(huán)提供SVO代短語。
為了識別在匹配的SVO短語中使用的詞需要附加的分析,其 有助于4豆i:吾的可選4豆i吾映射的^f吏用。短i吾映射識別匹配SVO短i吾 的否則有d支義的元素。在該實例中,第一名詞為編號短語O并且為名詞。第二短語為編號短語1并且為動詞加上其直^妄賓語(動詞的 部分)。
短語0為名詞,所以可以立即排除其他語法詞義并且因此減少
了詞的歧義。在剩余代短語的選項中,從名詞義中進行選擇。此外, 詞義消歧在分句水平上是可能的。
通過(a)因為已經(jīng)識別了短語本身,在獨立于文本的情況下 再次搜索該模式,以去除考慮之前和隨后抑制詞檢查的正規(guī)短語, 或者作為選擇通過(b)訪問詳細(xì)描述短語1的嵌入短語,來使包 括兩個詞的短語l匹配。盡管在圖中沒有示出,《旦是短語1應(yīng)該包 括具有2個元素(動詞和名詞)的短語。名詞將識別語法直接賓語 或者可選i也i口、別主題關(guān)系。
實例4示出了短語的不同水平的4吏用來確定導(dǎo)致有效句子匹配 的一個匹配。由于不能理解句子,不存在不正確地聚集在句子中短 i吾上的才莫式匹配系統(tǒng)中的涵義。通過以相反順序工作的分句和句子 匹配來解決某些類型的歧義,首先聚集名詞短語,接著聚集動詞短 語的策略是有效的。通過存〗諸在短語本身中的4個附加4莫式加強詞 至短語和分句的順序轉(zhuǎn)換(參照圖4C頂部)。
每個短語結(jié)合丟失瞬象(Miss snapshot)模式。如其名稱所表 示的,當(dāng)在短語之后在詞中與該模式匹配時,短語丟失且不匹配, 如在"the boy and"中將不匹配短語'the boy,同時保留"and"。 第二短語匹配限制物為之前的丟失瞬象模式。如果短語之前的詞被 匹配導(dǎo)致沒有匹配全部短語,即4吏其元素匹配,如在"red and white boys"中沒有匹配"white boys"作為名詞短i吾同時4呆留之前的詞 "and"則該才莫型匹配。在短語匹配中的第三限制工具為雙丟失瞬 象。這些僅指定必須兩者匹配以使短語匹配失敗的之前的丟失和丟 失瞬象對。如果其為獨立句子元素并且能夠代替地4吏SV分句匹配,則這停止識別名詞短語"the wrist watches"。四個短語限制控制的 結(jié)尾為所有的丟失設(shè)置。當(dāng)其檢查是否存在諸如換行字符的開始的 任意前字符時,該短語與文本內(nèi)的才莫式不匹配。當(dāng)其為自上而下匹 配的另 一沖莫式的次短i吾時,這能夠具有主動有助于匹配才莫式的該i殳 置的短語。語言的含糊種類表現(xiàn)為通過這些四個附加控制和自上而 下的方向來控制。
自上而下方法補充上述獨立短語纟莫式控制。在自上而下的方法 中,首先匹配分句或者句子,并且然后,作為通過較高才莫式所識別 的邊界的結(jié)果識別其短語。當(dāng)本發(fā)明允許要存儲的任何數(shù)量的類似 短語才莫式時,可以存^f諸語法和語義類似才莫式并且才艮據(jù)輸入文本的分 析來影響有效消A支。
參照實例4a和4b,其為在4吏用自上而下方法的一個步艱《(4a) 和在4吏用自下而上的方法、首先與短語匹配的兩個步-驟中(4b)與 分句匹配的必要的各種類型的元素的進一 步的實例。
每個實例示出了使用幾個存儲短語和具有在這種情況下僅包 含標(biāo)記的詞的各個詞義的存儲詞怎樣與分句匹配。4a示出了兩個存 儲短語并且包括直接與輸入文本匹配的短語映射。主語變成代短 語,np: canis 并且通過嵌入4豆-i吾匹配,識別包4舌動詞的謂i吾vp:eat4 和直接賓語叩foodl。這發(fā)生在如在實例中所示的分析循環(huán)1并 且當(dāng)然,代短語可以為任何匹配詞義。
4b示出了包括分句短語的三個存儲短語的使用。在該實例中, 第一分析循環(huán)導(dǎo)致代短語np: man3變成在所示的第二循環(huán)中的第 一詞。有利的是第二4盾環(huán)與SVO沖莫式匹配,在這種情況下,SVO 才莫式為與在實例4a中的分句匹配的相同才莫式。然而,在這種情況 下,當(dāng)其已經(jīng)在那里時,短語映射的應(yīng)用不需要以進一步的代短語代替詞義。在與分句匹配之后,進一步的詞義消J皮將通過鏈接至初 始詞的選一奪而減少有歲文詞義的lt量。
短語模式抑制
匹配一個短語包括如所述的與其存儲的模式匹配。為了確保在 更高水平才莫式之前沒有不正確地與^氐水平才莫式匹配,需要以短語抑 制形式控制。短語抑制定義了附加模式匹配確認(rèn)。實際上,抑制導(dǎo) 致了確定匹配本身有效性的短語的出現(xiàn)。
某些必要的短語抑制包括丟失匹配當(dāng)(a)定義才莫式跟隨諸 ^口在 'the cat and dog are sleeping' 中3艮卩逭4豆i吾 'the cat' 的i司 'and' 的短語;(b )在短i吾以前的定義才莫式,與在與短i吾'white and red' 匹西己的同時,在4豆i吾'the white and red dogs eat,中的形容詞 'red' 第一次抑制了匹配分句'dogseat,,也參見圖4D,因為找到了引導(dǎo) 形容詞"white"所以在第一次通過時丟失了詞分句"carrocks"; (c) 當(dāng)從另一短語中沒有被識別的短語;以及U)遇見先決條件和后 置條件這兩者時,4吏用才莫糊動詞'are'停止為名詞短語的句子 'People are.'。
關(guān)于短語匹配的其他必要抑制確保與詞意義的 一致性。可以將 否定屬性或者含義添加至短語。如果當(dāng)才莫式包括否定元素時該元素 不在4豆i吾中,則4豆i吾不匹配。
詞義消^支
本發(fā)明通過在程序開始階革殳期間將詞義與詞連4妄來滿足詞義 消歧。詞義為代短語詞并且包括唯一標(biāo)記。每個詞義包括一系列語 法結(jié)構(gòu)、屬性和在包括上位詞和下位詞的等級詞義之間的鏈接。詞義可與如用在與普林斯頓詞 一樣的詞典中的同義詞集合比較。在短 i吾匹配期間可以爿夸來自詞義的屬性和i吾法結(jié)構(gòu)傳遞至詞。
當(dāng)模式被匹配時開始消歧過程,可以在圖2的步驟225之后執(zhí) 行該過程。然后,檢測用于與匹配模式的一致性的詞義并且從下一 個循環(huán)中去除所有不一f丈的含義。例力口,在與動詞匹配之后,去除 所有的名詞和形容詞義。類4以i也,如果與不及物動詞形式匹配,則 去除所有的及物動詞義。這導(dǎo)致相對于更少數(shù)量的潛在詞義進行的 附加匹配^f盾環(huán)。
當(dāng)前,本發(fā)明利用在每個含義內(nèi)的三種^t式,以進一步地識別 在所提供的文本中的含義的適用性。這三種模式包括以前、當(dāng)前和 下一個才莫式。在短語本身中確定用于這些才莫式比4交的定時并且將改 變,然而,^艮隨多個實例以闡明含義內(nèi)容的目的。分句將每個含義 與其實際匹配模式(當(dāng)前)進行比較,跟隨在主語的下一個模式和 動詞以前模式之間的比較。另外,在與其賓語的謂語匹配期間,進 行適當(dāng)?shù)谋容^。名詞短語去除沒有應(yīng)用于名詞(以前)的形容詞詞 義(接下來)。在SVC的分句匹配中,在主語和補語之間比較形容 詞和名詞。這種過程基于執(zhí)行可以是反復(fù)的。
本發(fā)明通過將詞的屬性和其臨近詞與存儲沖莫式進行匹配來確 定詞的更適當(dāng)?shù)囊饬x。例如,^支設(shè)"water"、 "IBM"和"Robert" 分別具有屬性[屬性液體]、[屬性商業(yè)]和[屬性人]??紤]以下 句子
"the water ran down the road"; 以及 "Robert ran IBM"。在前者中,短語"the water ran"與"[冠詞][屬性液體][動詞 run]"匹配。在這種情況下,圖2的步驟225可以選4奪性地以"[動 詞flow]"代替"[動詞run]",將其他短語元素向前運載至下一 個分析循環(huán)。類似地,在后者的情況下,句子與"[屬性人][動詞 run][屬性商業(yè)]"相匹配。這里,可以選才奪性地以"[動詞operate]" 代替"[動詞run]"。
作為包括具體屬性的可選詞,本發(fā)明使用詞義和詞包含的上位 詞和下位詞以與所尋找的屬性進4亍比專交。例如,通過水4吏用用于以 上所述的ran的詞義,短語可以與用于具有為液體的上位詞的屬性 "液體"的水的任何置換物。類似地,水具有液體的上位詞。用于 存儲模A' "*^"5n s/ A膝山^配.新A 4 "斷古古祐^ s/ "—A
通過體驗可以學(xué)習(xí)產(chǎn)生與詞義匹配的存儲短語的過程,通過將 當(dāng)前詞義存儲在匹配短語中,所提供的輸入文本僅包括語言詞的有 效使用。例如,當(dāng)進行附加匹配時,下級上位詞可能在程序上潛在 地替換以前一個以擴展短語范圍。
經(jīng)由生成i吾言的詞義消歧
現(xiàn)在,將參照圖5詳細(xì)描述語言生成,即,從步驟IOO的輸出 生成句子。本發(fā)明可以以相反的順序運行以生成語法語言。 一旦已 經(jīng)分析了句子, 一系列語法結(jié)構(gòu)和屬性對于在文本中所提供的句 子、分句、短語和詞是已知的。類似地,詞和短語在其他語言中與 其等價意義鏈接。
步驟910通過獲取最高水平的對象,Wj(l),通常是由分析產(chǎn)生 的句子,來開始生成過程。為句子、分句、短語或者詞的這些對象 變成用于第一生成循環(huán)的輸入。本發(fā)明獲取Wj(l)并且在步驟930 中搜索用于所有等價物的其數(shù)據(jù)庫。例如,具有主語、謂語、以及直孑妄賓語的主-謂-賓(svo)分句通常具有與該分句匹配的多個短
語。最好的匹配將包括與分析句子匹配的短語和屬性。為了在語言 之間進行翻譯,獨立附加需求為生成的賓語也與指出目標(biāo)語言的屬
性匹配。步驟940校驗?zāi)繕?biāo)語言細(xì)節(jié)可用于生成目標(biāo)文本。選自目 標(biāo)語言的詞為在步驟950中與同義詞的源語言詞集合鏈接的 一個。 從步驟960重復(fù)處理直到已經(jīng)生成所有詞。
反之,通過與分句、短語和詞的當(dāng)前集合匹配來生成在相同語 言中的句子。在分才斤與物理詞匹配以識別i吾法結(jié)構(gòu)和屬性的同時, 生成使用已知語法結(jié)構(gòu)、屬性和詞或者短語的潛在應(yīng)用來確定一致 選才奪。例如,以在分析期間第一人稱動詞"am watching"的匹配開 始導(dǎo)致在生成期間相同的輸出。然而,通過將屬性改變至第二人稱, 因為《連4秦至動詞"watch"的最匹配動詞短語包括具有這些屬性的詞 4豆i吾,所以生成產(chǎn)物"is watching"。
類似地,為了翻i,成諸如法語的其他語言,短語的每個元素必 須確保其屬性對于法語是有效的并且通過在數(shù)據(jù)庫中尋找有效匹 配來找到適當(dāng)?shù)葍r短語。該方法使在語言之間的偏差最小化,適當(dāng) 處理了不用語言水平。實例5示出了分析英語句子并且生成等價的 法語句子的全部過程。
關(guān)于用于翻譯目的的詞義消歧,適當(dāng)外來詞的選擇依靠已知屬 性、i吾法結(jié)構(gòu)和分句應(yīng)用。
執(zhí)行
本發(fā)明可以在包括服務(wù)器、個人計算機、筆記本、移動電話、 以及PDA的任何基于計算機的裝置上運行并且使用面向?qū)ο蟮某?序語言來最有效地執(zhí)行本發(fā)明。OO語言為將詞和短語定義為封裝其有關(guān)數(shù)據(jù)和連接的對象提供了便利。短語可以為具體詞的結(jié)合, 或者作為選擇,與語法結(jié)構(gòu)和屬性相關(guān)聯(lián)的詞順序。
在OO語言中,應(yīng)該將尋找最好匹配短語的任務(wù)委托給詞對象, 詞對象又委托給存儲的短語并且然后委托給存儲模式,委托給其存 儲的每個瞬象模式并且然后委托給具體詞。在建立階段期間,本發(fā)
明可以通過將它們直接鏈接至包括在詞對象中的數(shù)組列表并且根 據(jù)長度排列它們來存儲短語。可以維持詞的分類列表以避免訪問數(shù)
據(jù)庫或者在圖3的步驟300和310中的分類的需要。可以通過專用 硬件平臺來支持本發(fā)明。
運行本發(fā)明所需要的計算機虛擬內(nèi)存的大小為詞數(shù)量的因數(shù) 以及較小長度的存儲的短語數(shù)量,其僅為到詞的鏈接的順序,以及 它們之間的其他關(guān)系。存在有利于語言識別的詞之間的許多有用關(guān) 系,其可以包括上位詞/下位詞、反義詞、整體名詞/轉(zhuǎn)喻詞等。不 使用基于計算機的鏈接的其他執(zhí)行可能進一步使需要的存儲最小 化。
實例1
在圖6中示出了句子中的未知文字短語怎樣與H據(jù)庫中的已知 文字短語匹配的實例。,!/沒文本分析130的輸入句子為"John is a jack of all trades"并且在分4斤期間,短j吾匹配禾呈序215的l命入句子 為"jack of all trades"。首先,程序?qū)?dāng)前未知詞設(shè)置為"jack"并 且找到以"jack"開始的文字短語列表。在該實例中,存在找到的 兩個已知文字短"i吾"jack of all trades"和"jack and beanstalk"。然 后,程序4吏用在圖3中的步驟320和330將在已知短語中的詞與輸 入句子中的相應(yīng)詞進行反復(fù)匹配,直到找到 一對不匹配的詞或者找 到匹配短語。在這種情況下,第一短語是到輸入句子的精確匹配。注意,在數(shù)據(jù)庫中不存在到已知短語的單一索引。機制用以匹
配以在圖2的步驟210中的查詢表中所找到的詞開始的短語。 一旦 與詞匹配,本發(fā)明 -使用以該詞開始的存^f諸短語列表尋找匹配。由于 不具有具體索引,不管在短語之前和短語之后的輸入句子的石皮壞,
將成功運4亍尋找匹配短語。例如,"Blah blah jack of all trades blah" 將仍與在數(shù)據(jù)庫中的短語"jack of all trades"匹配。類似地,因為 僅考慮潛在匹配,所以找到潛在匹配的速度是很快的。
實例2
現(xiàn)在,將參照在圖7A和7B中的實例證明通過在圖1、 2以及 3中所執(zhí)行的步驟。假設(shè)輸入句子,首先使用在圖1中的步驟110 將輸入文本劃分為詞。在第一分析循環(huán)中,文本分析130的輸入句 子為"The old Australian man wants a drink"。參照圖2,步-驟210 將第一未知詞"The"與在數(shù)據(jù)庫中的已知詞匹配。當(dāng)找到該詞時, 使用圖3的步驟300獲得在數(shù)據(jù)庫中鏈接至"The"的短語列表。 在該實例中,^f又存在《連4妄至詞"The"的一個存^f諸4豆語并且短i吾匹 配程序215未能找到匹配短語。其通常很少有文字短語模式。這些 短語通常用于諸如電影標(biāo)題、慣用短語、陳詞、以及專有名詞的文 字短語。
由于"The"為文字詞,所以在圖2中的步驟240之后,從數(shù) 據(jù)庫中獲得與該詞相關(guān)聯(lián)的語法結(jié)構(gòu)詞。例如,找到鏈接至數(shù)據(jù)庫 中"The"的"[冠詞]"和"[限定詞]"。然后,利用*齊^:作為禾呈序 215的輸入句子的第一詞的"The"的每個已知語法結(jié)構(gòu)詞中來重復(fù) 步驟210。在第一文字中,"[冠詞]"替換"The"并且輸入句子變 成"[冠詞]old Australian..."。然后,獲得以"[冠詞]"開始的已知 短語列表并且在步-驟300和310中對其進4亍分類。在該實例中,找到三個匹配短語"[冠詞][形容詞][形容詞][名 詞]"、"[冠詞][形容詞][名詞]"和"[冠詞][名詞]"??紤]第一個短 語"[冠詞][形容詞][形容詞][名詞]"。從已知短語的第二詞開始,對 短語中的每個詞進行配對并且與輸入句子中的相應(yīng)詞進行比較。考 慮配對,"[形容詞]"和"old"。由于"old"為文字,但是"[形容 詞]"為語法結(jié)構(gòu)詞,所以圖3的步驟330將"old"的語法結(jié)構(gòu)之 一與"[形容詞]"匹酉己。在該實例中,i吾法結(jié)構(gòu)詞"[形容詞]"與"old" 相關(guān)聯(lián)并且因此,找到匹配對。然后,重復(fù)詞匹配程序330直到找 到非匹配對或者到達短語結(jié)尾。注意,在自然語言中,許多詞具有 多個語法結(jié)構(gòu)。還可以將詞向后鏈接至詞的相關(guān)短語以在文本破壞 的情況下能夠進行錯誤校正。
在找到匹配短語之后,確定用于匹配短語的代短語并且將其存 儲以表示下一個循環(huán)中的短語。接下來,將在句子中的下一個未知 詞i殳置為在圖2的步驟230中的"wants"。重復(fù)短語匹配程序215 直到已經(jīng)匹配了所有短語。第一分析循環(huán)的結(jié)果可能為"名詞[man] 動詞短語[towant]名詞[drink]"。將該輸出句子用作用于與實例1類 似的下 一 個分析循環(huán)的llr入句子。
實例3
現(xiàn)在,將參照在圖8中的實例描述示出在每個分析循環(huán)中的文 本分析130的結(jié)果的實例。目的是重復(fù)與在輸入句子中的未知短語 匹配直到獲得最后句子。在第一分析循環(huán)中,文本分析130的輸入 句子為"The cat ate the mouse." 文本分析130在輸入句子中找到四 個短語"Thecaf,、 "ate"、 "the mouse"以及".,,。在第二分析循環(huán) (j=2)中,通過它們各自的代短語來表示這些短語,"[名詞cat]"、 "ate"、"[名詞mouse]"以及".,,。代短語為接下來的分析循環(huán)提 供匹配短語的語法結(jié)構(gòu)和諸如acatis [屬性第三人稱]、[屬性單 數(shù)]以及[屬性動物]的其他基于語義的存儲屬性。當(dāng)在分析循環(huán)3中對句子沒有進行改變時,即,短語已經(jīng)聚集, 在句子中的詞將轉(zhuǎn)換為其各自代短語。在該實例中,將"[名詞cat]" 轉(zhuǎn)換成為"[名詞短語]",將"ate"轉(zhuǎn)換成為"[動詞短語]"并且將 "[名詞mouse]"轉(zhuǎn)換成為"[名詞短語]"。然后,通過該新句子重 復(fù)步驟120直到?jīng)]有產(chǎn)生進一步進展。在分析循環(huán)編號4中,將句 子"[名詞短語][動詞短語][名詞短語]"與在數(shù)據(jù)庫中的已知語法短 語進行匹配,即,主-謂-賓分句或者"[SVO分句]"。當(dāng)句子聚集時, 過程結(jié)束。
實例4
存在在需要選擇分析控制的自然語言中的多個模糊特征以自 動確定適當(dāng)處理。本發(fā)明通過允許短語才莫式包4舌原級和否定語法 (舉例來"i兌名詞,動詞)以及i吾義(舉例來i兌human,第三人 稱,非限定詞)內(nèi)容的結(jié)合并且,跟隨短語或者分句的匹配、使短 語匹配指定在匹配內(nèi)的嵌入存儲才莫式來滿足該控制。另外,對每個 短語4是供了以匹配導(dǎo)前或者跟隨內(nèi)容的形式指定在短語本身之外 的丟失條件。
例如,考慮下列文本
"the barking dog was barking"。
當(dāng)其短語為找到的最長的時候,短語[名詞dog]和[動詞bark]不 需要控制,考慮接下來的實例;
"the boys and girls ate and talked"。
在短語"the boys"和"girls ate"之前,需要與短語"boys and girls" 和"ate and talked"匹配。否則,結(jié)果的文本,"[名詞boy] and[主i吾/i胃i吾girls/ate] and talked",
將不會聚集到英文分句。
在這種情況下,存在使用高水平模式的兩種直接方法。第一種 簡單通過每個代短語為語法類型的適當(dāng)屬性將才莫式定義為[名詞和 名詞][動詞和動詞]。這導(dǎo)致在下一個分析短語上分句類型主語謂語 的匹配??蛇x方法為通過相同元素定義SV分句才莫式,但是代替使 用2個分析循環(huán),定義指出名詞短語為第一4個詞和動詞短語為接 下來的3個詞的短i吾映射。^壬一方法導(dǎo)致分句的匹配。
在分析循環(huán)以后,文本分析130的輸出為
"[名詞boy/girl][動詞ate/talked]"。
然后,通過與由(不及物)動詞短語跟隨的名詞短語匹配來找 到主/謂分句。
4乍為另一實例,"Cats who are hungry run"首先只寸于[名詞 cats][run]分析其短語。分句短語[名詞who動詞形容詞]+[動詞/不 及物動詞]識別在第二分沖斤循環(huán)中的分句。
實例4a
該實例示出了分句匹配的兩個實例。在一種情況下,匹配直4妄 發(fā)生并且短i吾來自匹配并且在后一種情況下,首先與4豆i吾匹配,4妄 著分句識別。
在該實例中,考慮文本"Dogs eat food"。
存儲的短語是1. 名詞-動詞-名詞(svo分句)-短語映射具有第一詞=名詞, 4妄下來的2個詞=謂詞,并且
2. 動詞/及物動詞-名詞(謂詞及物動詞) 存儲的詞/含義(來自原型/WorNet的取樣含義ID )
1. "i司dog/dogs—〉含義名i司/^豆i吾np: canis
2. i司eat/eats/eating/ate/ate-〉含義動i司/4豆^吾vp: eat4
3. i司food/food—〉含義名i司/4豆i吾np: foodl
4. 匹配順序(循環(huán)1 -原始文本) ^口下示出了匹配順序
1. Dogeatfood:匹配短語l。代短語為語法結(jié)構(gòu)詞-SVO分句。
2. 在與短語2匹配的嵌入短語(謂詞短語)上尋找進一步的匹 配。其代短語為含義vp: eat4。短語映射示出了 4吏用哪個詞義-在這 種情況下名詞或者動詞。
實例4b
在該實例中,考慮文本"The very tall Italian work man had been destroying the race competitors."
存儲的短語
1,卩艮定詞-副詞/how-形容詞/height-形容詞/origin-名詞-名詞 (NOUN)2. had-been-動詞/現(xiàn)在分詞(VERB )
3. 名詞-動詞-名詞(SVO分句) 存儲的詞/含義
l.i司man/men國〉含義名i司/4豆i吾np: man3
2.i司destroy/destroys/destroying/…/destroyed-〉含義動^司/4豆i吾 vp: demolish
3 j司competitor/competitors-〉含義名"i司/4豆"i吾np: rival 匹配順序(循環(huán)1 -原始文本)
1 .The very tall Italian work man:匹酉己4豆i吾1 。 ^R^豆i吾為含義np: man3。
2. had been destroying:匹酉己4豆"i吾2。
4豆{吾為含義vp: demolish。
3. the race competitors匹配4豆"i吾1 (注意,可以a尋4豆i吾定義為密 度、意義,其接受在模式之間的間距)。代短語為含義np: rival。
(循環(huán)2改寫為叩man3, vp: demolish, np: rival)
1.匹配的短語3。代短語為語法結(jié)構(gòu)詞-SVO分句。
實例5
現(xiàn)在將參照圖9A和圖9B示出語言生成。圖9A示出了通過乂人 句對英文句子進行分析的步驟。然后,每個詞和短語可用于支持在 該實例中為法語的外國語言句子的生成。圖9B示出了產(chǎn)生法語詞的生成過程,以句子到SVOO分句及 標(biāo)點的轉(zhuǎn)換開始循環(huán)1。在這種情況下,法語SVOO分句與循環(huán)2 中所見的使用與英語不同的詞順序的句子匹配。為了在循環(huán)3中擴 展分句,找到匹配必須定位詞"that"的法語等價物。另夕卜, "when-phrase"涉及星期的持續(xù)時間,其需要法語等價物。這通過 跟隨從英語詞的鏈接找到——在類推中跟隨與詞相關(guān)聯(lián)的短語。在 啟動期間執(zhí)行鏈接階段以對準(zhǔn)語言和適當(dāng)?shù)葍r物之間的動詞時態(tài)。
循環(huán)3需要法語動詞短語"dire"與適當(dāng)時態(tài)的匹配。在這種 情況下,將英語簡單的過去時態(tài)設(shè)置為法語pass6 compos6的等價 物并且還具有第三人稱單婆t形式,導(dǎo)致短語匹配"adit"。循環(huán)4需 要另一種動詞生成,在這種情況下,從法語短語"suivre,,到過去 完成時,作為與英語動詞短語"had followed"等價的選擇包括屬 性[第三人稱單數(shù)]和[過去完成時]。通過前導(dǎo)直接對象"la"來確定 用于過去分詞的陰性形式的使用。這些生成步驟剛好是與分析過程 相反的過程,與詞的屬性匹配而不是短語的詞和語法結(jié)構(gòu)。
在如上所述的本發(fā)明覆蓋語法分析程序的操作的同時,本原理 涉及在較高和較低的水平上等效地將詞分析為其 一 致性的語法才喿 作。圖10示出了使用圖4的輸出的模型擴展,該輸出當(dāng)執(zhí)行為等 級時可以進一步較高和較低地重復(fù)。該方法需要識別詞中字母的順 序并且可以使用所描述的本發(fā)明來實現(xiàn)分句之間的關(guān)系。
本領(lǐng)域的l支術(shù)人員將意識到,在不脫離如廣泛描述的本發(fā)明的 精神和范圍內(nèi),可以對于如在具體實施例中所述的本發(fā)明進行多種 改進和/或》f改。因此,在所有方面考慮的本實施例是作為示例性的 而不是限制性的。
權(quán)利要求
1.一種操作計算機來執(zhí)行語言分析的方法,包括以下步驟將輸入文本劃分為詞和句子;對于每個句子,將所述句子中的短語與存儲在數(shù)據(jù)庫中的已知短語進行比較,如下對于所述句子中的每個詞,將所述詞的涵義和跟隨所述詞的詞的涵義與存儲短語的詞的涵義進行比較,從以所述詞開始的最長的存儲短語開始所述比較,并且從最長的存儲短語至最短的存儲短語進行所述比較;在兩個或多個連續(xù)詞的涵義和所述存儲短語的涵義之間找到匹配的事件中,利用描述所述匹配涵義的代短語來標(biāo)記所述匹配的兩個或多個連續(xù)詞;在已經(jīng)比較了倒數(shù)第二個詞之后,通過由所述匹配的短語的各代短語代替所述匹配的短語來改寫所述句子;然后,用所述改寫的句子重復(fù)所述比較過程,直到?jīng)]有進一步的改寫。
2. 根據(jù)權(quán)利要求1所述的方法,其中,在所述比較過程中使用的 所述涵義為所述詞的字面意義。
3. 根據(jù)權(quán)利要求1所述的方法,其中,在所述比較過程中使用的 所述涵義為所述詞的"i吾法結(jié)構(gòu)。
4. 根據(jù)權(quán)利要求1所述的方法,其中,在所述比較處理中使用的 所述涵義為所述詞的屬性。
5. 根據(jù)權(quán)利要求1所述的方法,其中,在第一次比較中,所述涵 義為所述字面意義、語法結(jié)構(gòu)或者屬性中的一個,并且在第二 次比4交中,所述涵義為剩余的兩個所述涵義中的4壬一個。
6. 根據(jù)權(quán)利要求5所述的方法,其中,在第三次比較中,所述涵 義為剩余的所述涵義。
7. 根據(jù)上述權(quán)利要求中的任何一項所述的方法,其中,所述比較 過程不只包括所述詞的涵義的比較。
8. 根據(jù)權(quán)利要求7所述的方法,其中,所述比較過程包括依賴于 所述短語周圍的詞的條件要求。
9. 根據(jù)上述權(quán)利要求中的任一項所述的方法,其中,根據(jù)預(yù)定的 順序來執(zhí)行所述比4交過程。
10. 根據(jù)上述權(quán)利要求中的任一項所述的方法,其中,根據(jù)與所述 短語和詞相關(guān)l關(guān)的預(yù)定的轉(zhuǎn)換順序,將所述輸入文本中的短語 和詞轉(zhuǎn)換為其代短語。
11. 根據(jù)上述權(quán)利要求中的任一項所述的方法,其中,所述比較過 程還包括錯誤校正步驟,當(dāng)遇到拼寫錯誤時,所述錯誤校正步 驟校正所述輸入句子中的拼錯的詞并且利用所校正的詞來重 復(fù)所述比較過程。
12. 根據(jù)上述權(quán)利要求中的任一項所述的方法,還包括建立階,殳, 其中,將詞和詞與文字短語、語法短語、以及其他屬性的關(guān)系存儲在數(shù)據(jù)庫中。
13. 根據(jù)上述權(quán)利要求中的任一項所述的方法,還包括在操作期間 學(xué)習(xí)新詞的步驟。
14. 根據(jù)上述權(quán)利要求中的任一項所述的方法,其中,通過加載每義的選定,來進^于詞義消^支。
15. 根據(jù)權(quán)利要求1至13中的任一項所述的方法,其中,通過使 用所述詞或短語的語法結(jié)構(gòu)和屬性確定用于所述詞或短語的 一致性選擇,來進行詞義消歧。
16. 根據(jù)權(quán)利要求15所述的方法,其中,所述等價的短語和詞為 不同的語言。
17. 根據(jù)權(quán)利要求15或者16所述的方法,其中,根據(jù)詞和短語的 所述語法結(jié)構(gòu)和屬性來生成文本,所述方法還包括以下步驟對于所述^T入文本中的每個代短i吾,/人所確定的最后一 個代短語開始,4丸4亍語言生成以找到由所述代短語表示的所述 短i吾或詞的等^f介物,如下從所述數(shù)據(jù)庫獲得所述代短語的所有等^f介短語;以及如果在目標(biāo)語言中找到等〗介短語,則利用所述代短語的 等價屬性來確定詞或短語;在已經(jīng)考慮了最后一個所述代短語之后,通過用所述代 短語的各等《介物替換所述代短語來改寫所述句子,其中所述代 短語的各等價物是4交低水平處的代短語;然后,重復(fù)所述生成過程直到所有的代短語均與所述目 標(biāo)i吾言中的詞或其等<介物相匹配。
18. 使用面向?qū)ο?OO)的程序語言來執(zhí)行根據(jù)上述權(quán)利要求中 的任一項所述的方法,以使詞及其語法結(jié)構(gòu)詞,即,描述所述 詞的i吾法禾口i吾義應(yīng)用的詞;詞及4豆i吾;詞及詞義;以及詞及屬 性之間的關(guān)系被封裝在詞對象中。
19. 在i者如力艮務(wù)器、個人計算才幾、筆記本、移動電i舌、以及個人凄史 詞助理(PDA )的基于計算機的裝置中執(zhí)行根據(jù)上述權(quán)利要求 中的^f壬一項所述的方法。
20. —種計算機系統(tǒng),所述計算機系統(tǒng)執(zhí)行根據(jù)上述權(quán)利要求中的 任一項所述的方法。
21. —種軟件,用于對計算機進行編程以執(zhí)行根據(jù)權(quán)利要求1至 19中的4壬一項所述的方法。
全文摘要
本發(fā)明涉及語言分析。具體地,本發(fā)明包括操作計算機以執(zhí)行語言分析的方法。在另一方面,本發(fā)明為執(zhí)行該方法的計算機系統(tǒng),并且在進一步方面,本發(fā)明為用于對計算機編程以執(zhí)行該方法的軟件。該方法包括以下步驟將輸入文本劃分為詞和句子。對于每個句子,將在句子中的短語與存儲在數(shù)據(jù)庫中的已知短語進行比較,如下對于句子中的每個詞,將詞的涵義和跟隨詞的詞的涵義與存儲短語的詞的涵義進行比較,以該詞開始的最長存儲短語開始,并且從最長至最短運行。如果找到對于兩個或者多個連續(xù)詞匹配,并且考慮在短語周圍的詞,則通過描述匹配短語的語法結(jié)構(gòu)的代短語來標(biāo)記匹配短語。在已經(jīng)比較了倒數(shù)第二詞之后,通過由其各代短語代替匹配短語來改寫句子。然后,通過改寫句子重復(fù)比較過程直到不存在進一步改寫。
文檔編號G06F17/28GK101595474SQ200780049161
公開日2009年12月2日 申請日期2007年12月21日 優(yōu)先權(quán)日2007年1月4日
發(fā)明者約翰·鮑爾 申請人:思解私人有限公司