專利名稱:使用互聯(lián)網(wǎng)語料庫的自動的上下文相關(guān)的語言校正和增強的制作方法
技術(shù)領(lǐng)域:
本發(fā)明總體上涉及計算機輔助語言校正。
背景技術(shù):
認(rèn)為以下公開代表技術(shù)的當(dāng)前狀態(tài) 美國專利號為5,659,771;5,907,839;6,424,983;7,296,019;5,956,73925和4,674,065的專利 美國公開專利申請?zhí)枮?006/0247914和2007/0106937的申請。
發(fā)明內(nèi)容
本發(fā)明嘗試提供用于計算機輔助語言校正的改進的系統(tǒng)和功能。
因此,根據(jù)本發(fā)明的優(yōu)選實施例提供了一種計算機輔助語言校正系統(tǒng),其包括備選詞生成器,基于輸入句子,生成為所述句子中的多個詞的中每一個提供多個備選詞的基于文本的表示,選擇器,用于至少部分地基于互聯(lián)網(wǎng)語料庫,針對所述句子中的所述多個詞的每一個,在至少所述多個備選詞中進行選擇,以及校正生成器,用于基于所述選擇器做出的選擇來提供校正輸出。
優(yōu)選地,所述選擇器用于,基于以下校正功能中的至少一個來做出所述選擇拼寫校正、誤用詞校正、語法校正和詞匯增強。
根據(jù)本發(fā)明的優(yōu)選實施例,所述選擇器用于,基于以下校正功能中的至少兩個來做出所述選擇拼寫校正、誤用詞校正、語法校正和詞匯增強。此外,所述選擇器用于,基于校正的以下時間順序中的至少一項來做出所述選擇先于誤用詞校正、語法校正和詞匯增強的至少一個的拼寫校正,以及先于詞匯增強的誤用詞校正和語法校正。
此外或可選地,由以下功能中的一個來提供所述輸入句子詞處理器功能、機器翻譯功能、語音到文本轉(zhuǎn)換功能、光學(xué)字符識別功能,以及即時通信功能,并且所述選擇器用于,基于以下校正功能中的至少一個來做出所述選擇誤用詞校正、語法校正以及詞匯增強。
優(yōu)選地,所述校正生成器包括校正語言輸入生成器,用于在不需要用戶干預(yù)的情況下,基于所述選擇器做出的選擇,提供校正語言輸出。此外或可選地,所述語法校正功能包括標(biāo)點、動詞變形、單數(shù)/復(fù)數(shù)、冠詞和介詞校正功能中的至少一個。
根據(jù)本發(fā)明的優(yōu)選實施例,所述語法校正功能包括替換、插入和省略校正功能中的至少一個。
優(yōu)選地,所述選擇器包括基于上下文計分功能,用于至少部分地基于在互聯(lián)網(wǎng)語料庫中上下文特征序列(CFS)出現(xiàn)的頻率,排序所述多個備選詞。此外,所述基于上下文計分功能,還用于至少部分地基于在所述互聯(lián)網(wǎng)語料庫中標(biāo)準(zhǔn)化CFS出現(xiàn)的頻率,排序所述多個備選詞。
根據(jù)本發(fā)明的另一個優(yōu)選實施例還提供了一種計算機輔助語言校正系統(tǒng),其包括以下中的至少一個拼寫校正功能、誤用詞校正功能、語法校正功能、詞匯增強功能,以及與以下各項中的至少一個協(xié)作并且使用互聯(lián)網(wǎng)語料庫的上下文特征序列功能所述拼寫校正功能;所述誤用詞校正功能、語法校正功能和所述詞匯增強功能。
優(yōu)選地,所述語法校正功能包括標(biāo)點、動詞變形、單數(shù)/復(fù)數(shù)、冠詞和介詞校正功能中的至少一個。此外或可選地,所述語法校正功能包括替換、插入和省略校正功能中的至少一個。
根據(jù)本發(fā)明的優(yōu)選實施例,所述計算機輔助語言校正系統(tǒng)包括以下各項中的至少兩個所述拼寫校正功能、所述誤用詞校正功能、所述語法校正功能、所述詞匯增強功能,并且所述上下文特征序列功能與以下各項中的至少兩個進行協(xié)作并且使用互聯(lián)網(wǎng)語料庫所述拼寫校正功能、所述誤用詞校正功能、所述語法校正功能和所述詞匯增強功能。
優(yōu)選地,所述計算機輔助語言校正系統(tǒng)還包括以下各項中的至少三個所述拼寫校正功能、所述誤用詞校正功能、所述語法校正功能、所述詞匯增強功能,并且所述上下文特征序列功能與以下各項中的至少三個進行協(xié)作并且使用互聯(lián)網(wǎng)語料庫所述拼寫校正功能;所述誤用詞校正功能,所述語法校正功能和所述詞匯增強功能。
根據(jù)本發(fā)明的優(yōu)選實施例,所述的計算機輔助語言校正系統(tǒng)還包括所述拼寫校正功能、所述誤用詞校正功能、所述語法校正功能,和所述詞匯增強功能,并且所述上下文特征序列功能與以下各項功能進行協(xié)作并且使用互聯(lián)網(wǎng)語料庫所述拼寫校正功能;所述誤用詞校正功能,所述語法校正功能和所述詞匯增強功能。
優(yōu)選地,所述校正生成器包括校正語言生成器,用于在不需要用戶干預(yù)的情況下,基于所述選擇器做出的選擇,用于提供校正語言輸出。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,還提供了一種計算機輔助語言校正系統(tǒng),其包括備選詞生成器,基于語言輸入,生成為所述句子中的多個詞中的每一個提供多個備選詞的基于文本的表示;選擇器,用于至少部分地基于為所述語言輸入中的所述多個詞中的至少一些選擇的所述多個備選詞中的多個之間的關(guān)系,為所述語言輸入中的所述多個詞中的每一個,在至少所述多個備選詞之間進行選擇;校正生成器,用于基于由所述選擇器做出的選擇,來提供校正輸出。
優(yōu)選地,所述語言輸入包括輸入句子和輸入文本中的至少一個。此外或可選地,所述語言輸入是語音并且所述生成器將語音中的所述語言輸入轉(zhuǎn)換為為所述語言輸入中的多個詞提供多個備選詞的基于文本的表示。
根據(jù)本發(fā)明的優(yōu)選實施例,所述語言輸入是以下各項中的至少一個文本輸入、光學(xué)字符識別功能的輸出、機器翻譯功能的輸出,以及詞處理功能的輸出,并且所述生成器將文本中的所述語言輸入轉(zhuǎn)換為為語言輸入中的多個詞提供多個備選詞的基于文本的表示。
優(yōu)選地,所述選擇器,用于至少基于以下校正功能中的兩個,做出所述選擇拼寫錯誤、誤用詞校正、語法校正,以及詞匯增強。此外,所述選擇器用于,基于校正的以下時間順序中的至少一個來做出所述選擇先于誤用詞校正、語法校正和詞匯增強中的至少一個的拼寫校正,以及先于詞匯增強的誤用詞校正和語法校正。
根據(jù)本發(fā)明的優(yōu)選實施例,所述語言輸入是語音并且所述選擇器用于基于以下校正功能中的至少一個來做出所述選擇誤用詞校正、語法校正,以及詞匯增強。
優(yōu)選地,所述選擇器用于通過執(zhí)行以下功能中的至少兩個來做所述選擇選擇包括比初始選擇的所述語言輸入中的所有所述多個詞少的第一組詞或詞的組合;之后對所述第一組詞或詞的組合的元素進行排序以建立選擇的優(yōu)先級;之后為了所述第一組詞的元素,當(dāng)在所述多個備選詞之間選擇時,選擇其它詞而不是所有所述多個詞作為上下文來影響所述選擇。此外或可選地,所述選擇器用于通過執(zhí)行以下功能來做所述選擇當(dāng)選擇具有至少兩個詞的元素時,結(jié)合用于所述至少兩個詞彼此的所述多個備選詞的每一個來評估用于所述至少兩個詞的每一個的所述多個備選詞的每一個。
根據(jù)本發(fā)明的優(yōu)選實施例,所述校正生成器包括校正語言輸入生成器,用于在不需要用戶干預(yù)的情況下,基于所述選擇器做出的選擇,提供校正語言輸出。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,還提供了一種計算機輔助語言校正系統(tǒng),其包括誤用詞懷疑器,基于所述語言輸入的上下文中詞的合適度來評估語言輸入中的至少大部分詞;校正生成器,用于至少部分地基于由所述懷疑器執(zhí)行的評估,提供校正輸出。
優(yōu)選地,所述的計算機輔助語言校正系統(tǒng)還包括備選詞生成器,基于所述語言輸入,生成為所述語言輸入中的所述至少大部分詞的至少一個提供多個備選詞的基于文本的表示;選擇器,用于為所述語言輸入中的所述至少大部分的詞中的所述至少一個的每一個,在至少所述多個備選詞中進行選擇,并且其中,所述校正生成器,用于基于所述檢測器做出的選擇,提供所述校正輸出。此外或可選地,所述的計算機輔助語言校正系統(tǒng)還包括懷疑詞輸出指示器,其指示所述語言輸入中的所述詞的所述至少大部分的至少一些被懷疑為誤用詞的程度。
根據(jù)本發(fā)明的優(yōu)選實施例,所述校正生成器包括自動校正語言生成器,用于在不需要用戶干預(yù)的情況下,至少部分地基于由所述懷疑器執(zhí)行的評估,提供校正文本輸出。
優(yōu)選地,所述語言輸入是語音并且所述選擇器用于,基于以下校正功能的至少一個,做所述選擇誤用詞校正、語法校正,以及詞匯增強。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,還提供了一種計算機輔助語言校正系統(tǒng),包括誤用詞懷疑器,用于評估語言輸入中的詞;備選詞生成器,為由所述懷疑器評估為懷疑詞的、所述語言輸入中的至少一些詞生成多個備選詞,所述語言輸入中的詞的所述多個備選詞的至少一個與互聯(lián)網(wǎng)語料庫中所述語言輸入中的所述詞的上下文特征一致;選擇器,用于在至少所述多個備選詞之間進行選擇;校正生成器,用于至少部分地基于由所述選擇器做出的選擇,用于提供校正輸出。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,還提供了一種計算機輔助語言校正系統(tǒng),包括誤用詞懷疑器,評估語言輸入中的詞并且識別懷疑的詞;備選詞生成器,生成用于所述懷疑詞的多個備選詞;選擇器,根據(jù)多個選擇標(biāo)準(zhǔn)對每個所述懷疑詞以及為此由所述備選詞生成器生成的所述多個備選詞的一個進行評級,并且應(yīng)用與為此由所述備選詞生成器生成的所述多個備選詞中的一個有關(guān)的所述懷疑的詞有利的偏值;校正生成器,用于至少部分地基于由所述選擇器做出的選擇,提供校正輸出。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,還提供了一種計算機輔助語言校正系統(tǒng),包括備選詞生成器,基于輸入為所述輸入中的至少一個詞生成多個備選詞;選擇器,根據(jù)多個選擇標(biāo)準(zhǔn)對每一個所述至少一個詞以及為此由所述備選詞生成器生成的所述多個備選詞的多個進行評級,并且應(yīng)用與為此由所述備選詞生成器生成的所述多個備選詞中的一個有關(guān)的所述至少一個詞有利的偏值,所述偏值是指示提供了輸入的人的不確定度的所述輸入不確定度度量的函數(shù);校正生成器,用于基于所述選擇器做出的選擇,提供校正輸出。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,還提供了一種計算機輔助語言校正系統(tǒng),包括不正確詞懷疑器,評估語言輸入中的詞的至少大部分,所述懷疑器至少部分地響應(yīng)于指示提供了輸入的人的不確定度的輸入不確定度度量,所述懷疑器提供懷疑的不正確詞輸出;備用詞生成器,為由所述懷疑的不正確詞輸出所識別的懷疑的不正確詞生成多個備選詞;選擇器,用于在每一個懷疑的不正確詞和由所述備選詞生成器生成的所述多個備選詞中進行選擇;用于基于所述選擇器做出的選擇,提供校正輸出的校正生成器。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,還提供了一種計算機輔助語言校正系統(tǒng),包括接收多個詞輸入并且提供校正輸出的拼寫校正模塊、誤用詞校正模塊、語法校正模塊和詞匯增強模塊中的至少一個,拼寫校正模塊、誤用詞校正模塊、語法校正模塊和詞匯增強模塊中的所述至少一個的每一個包括備選詞候選生成器包括語音相似性功能,用于基于與所述輸入中的詞的語音相似性,提出備選詞,并且用于指示語音相似性的度量;字符串相似性功能,用于基于與所述輸入中的詞的字符串相似性,來提出備選詞,并且指示用于每一個備選詞的字符串相似性的度量;選擇器,用于通過使用所述語音相似性和字符串相似性度量以及基于上下文選擇功能,選擇所述輸出中的詞或由所述備選詞候選者生成器提出的備選詞候選者。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,還提供了一種計算機輔助語言校正系統(tǒng),包括懷疑詞識別功能,接收多個詞語言輸入并且提供指示懷疑詞的懷疑詞輸出;特征識別功能,用于識別包括所述懷疑詞的特征;備選詞選擇器,識別用于所述懷疑詞的備選詞;特征出現(xiàn)功能,使用語料庫并提供出現(xiàn)輸出,關(guān)于在所述語料庫中的使用頻率來排序包括所述備選詞的各種特征;選擇器,使用所述出現(xiàn)輸出來提供校正輸出,所述特征識別功能包括特征過濾功能,所述特征過濾功能包括以下中的至少一個用于消除包含懷疑的錯誤的特征的功能;用于消極地偏置包含在所述多個詞輸入的較早的校正迭代中引入的詞并且具有在可信度預(yù)定的閾值以下的可信度的特征的功能;用于消除包含在具有在預(yù)定的頻率閾值之上的出現(xiàn)的頻率的另一個特征中所包含的特征的功能。
優(yōu)選地,所述選擇器用于至少基于以下校正功能的兩個來做該選擇拼寫校正、誤用詞校正、語法校正,以及詞匯增強。此外,所述選擇器用于基于校正的以下時間順序中的至少一個來做出所述選擇先于誤用詞校正、語法校正和詞匯增強中的至少一個的拼寫校正;先于詞匯增強的誤用詞校正和語法校正。
根據(jù)本發(fā)明的優(yōu)選實施例,所述語言輸入是語音并且所述選擇器是用于基于以下校正功能的至少一個來做所述選擇語法校正、誤用詞校正、詞匯增強。
優(yōu)選地,所述校正生成器包括校正語言輸入生成器,用于在不需要用戶干預(yù)的情況下,基于所述選擇器做出的選擇,提供校正語言輸出。
根據(jù)本發(fā)明的優(yōu)選實施例,所述選擇器還用于,至少部分地基于用戶輸入不確定度度量來做所述選擇。此外,所述用戶輸入不確定度度量是基于提供了所述輸入的人的不確定度的測量的函數(shù)。此外或可選地,所述選擇器還使用用戶輸入歷史學(xué)習(xí)功能。
根據(jù)本發(fā)明的優(yōu)選實施例,還提供了一種計算機輔助語言校正系統(tǒng),包括懷疑詞識別功能,接收多個詞語言輸入并且提供指示懷疑詞的懷疑詞輸出;特征識別功能,用于識別包括所述懷疑詞的特征;備選詞選擇器,識別用于所述懷疑詞的備選詞;出現(xiàn)功能,使用語料庫并提供出現(xiàn)輸出,關(guān)于在所述語料庫中詞的使用頻率來排序包括所述備選詞的特征,;校正輸出生成器,使用所述出現(xiàn)輸出以提供校正輸出,所述特征識別功能包括以下各項中的至少一個N-gram識別功能;共同出現(xiàn)識別功能;以下各項中的至少一個skip-gram識別功能、switch-gram識別功能,以及之前由用戶使用的特征識別功能。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,還提供了一種計算機輔助語言校正系統(tǒng),包括語法錯誤懷疑器,基于在所述語言輸入的上下文中詞的適合度,評估語言輸入中所述詞的至少大部分;校正生成器,用于至少部分地基于由所述懷疑器執(zhí)行的評估,提供校正輸出。
優(yōu)選地,所述的計算機輔助語言校正系統(tǒng)還包括備選詞生成器,基于所述語言輸入,生成為在所述語言輸入中的所述至少大部分詞中的至少一個提供多個備選詞的基于文本的表示;選擇器,用于為所述語言輸入中的所述至少大部分詞中的所述至少一個的每一個,在至少所述多個備選詞中進行選擇,并且其中,所述校正生成器,用于基于由所述選擇器做出的選擇,提供所述校正輸出。
根據(jù)本發(fā)明的優(yōu)選實施例,所述的計算機輔助語言校正系統(tǒng)并且還包括懷疑詞輸出指示器,其指示所述語言輸入中的所述詞的所述至少大部分的至少一些被懷疑為包含語法錯誤的程度。
優(yōu)選地,所述校正生成器包括自動校正語言生成器,用于在不需要用戶干預(yù)的情況下,至少部分地基于由所述懷疑器執(zhí)行的評估,提供校正文本輸出。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,還提供了一種計算機輔助語言校正系統(tǒng),包括語法錯誤懷疑器,評估語言輸入中的詞;備選詞生成器,為由所述懷疑器評估為懷疑詞的所述語言輸入中的至少一些詞生成多個備選詞,用于所述語言輸入中的詞的所述多個備選詞的至少一個與所述語言輸入中的所述詞的上下文特征一致;選擇器,用于在至少所述多個備選詞之間進行選擇;校正生成器,用于至少部分地基于由所述檢測器做出的選擇,提供校正輸出。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,還提供了一種計算機輔助語言校正系統(tǒng),包括語法錯誤懷疑器,評估語言輸入中的詞并且識別懷疑的詞;備選生成器,生成用于所述懷疑詞的多個備選詞;選擇器,根據(jù)多個選擇標(biāo)準(zhǔn)對每一個所述懷疑的詞以及為此由所述備選詞生成器生成的所述多個備選詞的一個進行評級,并且應(yīng)用與為此由所述備選詞生成器生成的所述多個備選詞中的一個有關(guān)的所述懷疑的詞有利的偏值;校正生成器,用于至少部分地基于由所述選擇器做出的選擇,提供校正輸出。
優(yōu)選地,所述校正生成器包括校正語言輸入生成器,用于在不需要用戶干預(yù)的情況下,基于由所述選擇器做出的選擇,提供校正語言輸出。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,還提供了一種包括各種備選詞校正的基于上下文計分的計算機輔助語言校正系統(tǒng),至少部分地基于在互聯(lián)網(wǎng)語料庫中上下文特征序列(CFS)出現(xiàn)的頻率。
優(yōu)選地,所述計算機輔助語言校正系統(tǒng)還包括以下各項中的至少一個與所述基于上下文計分協(xié)作的拼寫校正功能、誤用詞校正功能、語法校正功能,以及詞匯增強功能。
根據(jù)本發(fā)明的優(yōu)選實施例,所述基于上下文計分還至少部分地基于在互聯(lián)網(wǎng)語料庫中的標(biāo)準(zhǔn)化CFS出現(xiàn)的頻率。此外或可選地,所述基于上下文計分還至少部分地基于CFS重要性得分。此外,所述CFS重要性得分是以下各項中的至少一個的函數(shù)詞性標(biāo)注和句子分析功能的操作;CFS長度;在CFS和CFS類型中的每一個詞的出現(xiàn)的頻率。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,還提供了一種包括詞匯增強功能的計算機輔助語言校正系統(tǒng),包括詞匯挑戰(zhàn)的詞識別功能;備選詞詞匯增強生成功能;基于上下文計分功能,其至少部分地基于在互聯(lián)網(wǎng)語料庫中上下文特征序列(CFS)出現(xiàn)的頻率,所述備選詞詞匯增強生成功能,其包括詞典預(yù)處理功能,用于生成備選詞詞匯增強。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,還提供了一種計算機輔助語言校正系統(tǒng),包括備選詞生成器,基于輸入句子,生成為所述句子中的多個詞的每一個提供多個備選詞的基于文本的表示;選擇器,為了所述句子中的所述多個詞的每一個,在至少所述多個備選詞中選擇;可信度分配器,用于將可信度分配到來自所述多個備選詞的選擇的備選詞;校正生成器,用于基于所述選擇器做出的選擇并且至少部分地基于所述可信度,提供校正輸出。
優(yōu)選地,基于上下文特征序列(CFS)來評估所述多個備選詞,并且所述可信度是基于以下參數(shù)中的至少一個選擇的CFS的數(shù)量、類型和得分;在CFS上下文中,所述多個備選詞的出現(xiàn)的頻率的統(tǒng)計顯著性的測量;基于每一個所述CFS的優(yōu)先選擇度量和所述多個備選詞的詞相似性得分,選擇所述多個備選詞中的一個的一致性程度;所述多個備選詞中的所述一個的不基于上下文相似性得分在第一預(yù)定的最低閾值以上;基于上下文數(shù)據(jù)可用性的程度,其由所述CFS的數(shù)量來指示,其中,所述CFS具有在第二預(yù)定最低閾值以上并且具有在第三預(yù)定閾值之上的優(yōu)先選擇得分。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,還提供了一種計算機輔助語言校正系統(tǒng),包括標(biāo)點錯誤懷疑器,基于語言輸入的上下文中的合適度,評估所述語言輸入中的所述詞和標(biāo)點中的至少一些,其中,所述語言輸入的合適度是基于互聯(lián)網(wǎng)語料庫中所述語言輸入的feature-gram的出現(xiàn)的頻率;校正生成器,用于至少部分地基于由所述懷疑器執(zhí)行的評估,提供校正輸出。
優(yōu)選地,所述校正生成器包括丟失標(biāo)點校正功能、冗余標(biāo)點校正功能和標(biāo)點替換校正功能中的至少一個。
根據(jù)本發(fā)明的另一個優(yōu)選實施例,還提供了一種計算機輔助語言校正系統(tǒng),包括語法元素錯誤懷疑器,基于語言輸入的上下文中的合適度,評估所述語言輸入中的所述詞中的至少一些,其中,所述語言輸入的合適度是基于互聯(lián)網(wǎng)語料庫中所述語言輸入的feature-gram的出現(xiàn)的頻率;校正生成器,用于至少部分地基于由所述懷疑器執(zhí)行的評估,提供校正輸出。
優(yōu)選地,所述校正生成器至少包括丟失語法元素校正功能、冗余語法元素校正功能和語法元素替換校正功能中的至少一個。此外或可選地,所述語法元素是冠詞、介詞和連詞中的一個。
結(jié)合附圖,根據(jù)以下詳細(xì)的描述,將更全面地懂得并理解本發(fā)明,其中 圖1是用于根據(jù)本發(fā)明的優(yōu)選實施例建造并操作的計算機輔助語言校正的系統(tǒng)和功能的簡化的框圖說明; 圖2是說明了圖1的系統(tǒng)和功能中優(yōu)選地使用的拼寫校正功能的簡化的流程圖; 圖3是說明了圖1的系統(tǒng)和功能中優(yōu)選地使用的誤用詞和語法校正功能的簡化的流程圖; 圖4是在圖1的系統(tǒng)和功能中使用的、說明了詞匯增強功能的簡化的流程圖; 圖5是說明了圖1的系統(tǒng)和功能中優(yōu)選地使用的上下文特征序列(CFS)功能的簡化的框圖; 圖6A是說明了根據(jù)本發(fā)明的優(yōu)選實施例的圖2的功能的拼寫校正功能形成部分的簡化的流程圖; 圖6B是說明了根據(jù)本發(fā)明的優(yōu)選實施例的圖3的功能的誤用詞和語法校正功能形成部分的簡化的流程圖; 圖6C是說明了根據(jù)本發(fā)明的優(yōu)選實施例的圖4的功能的詞匯增強功能形成部分的簡化的流程圖; 圖7A是說明了用于生成在圖2和3的功能中有用的備選詞校正的功能的簡化的流程圖; 圖7B是說明了用于生成在圖4的功能中有用的備選詞增強的功能的簡化的流程圖; 圖8是說明了用于在圖2的拼寫校正功能中有用的各種備選詞增強的不基于上下文詞的基于相似性計分和基于上下文計分(優(yōu)選地使用互聯(lián)網(wǎng)語料庫)的功能的簡化的流程圖; 圖9是說明了用于在圖3、10和11的誤用詞和語法校正功能以及在圖4的詞匯增強功能中有用的各種備選詞校正的不基于上下文詞的基于相似性計分和基于上下文計分(優(yōu)選地使用互聯(lián)網(wǎng)語料庫)的功能的簡化的流程圖; 圖10是說明了丟失冠詞、介詞和標(biāo)點校正功能的操作的簡化的流程圖;以及 圖11是冗余冠詞、介詞和標(biāo)點校正功能的操作的簡化的流程圖。
具體實施例方式 現(xiàn)在參照圖1,其是用于根據(jù)本發(fā)明的優(yōu)選實施例建造并操作的計算機輔助語言校正的系統(tǒng)和功能的簡化的框圖說明。如圖1所示,從一個或多個源將校正文本提供給語言校正模塊100,包括但并不限于字處理功能102、機器翻譯功能104、語音到文本轉(zhuǎn)換功能106、光學(xué)字符識別功能108和任何其它文本源110,例如即時通信或互聯(lián)網(wǎng)。
語言校正模塊100優(yōu)選地包括拼寫校正功能112、誤用詞和語法校正功能114以及詞匯增強功能116。
本發(fā)明的特定特征是拼寫校正功能112、誤用詞和語法校正功能114以及詞匯增強功能116中的每個都與上下文特征序列(CFS)功能118進行交互,所述上下文特征序列功能118使用互聯(lián)網(wǎng)語料庫120。
為了本描述的目的,定義了上下文特征序列或CFS,其包括N-gram、skip-gram、共同出現(xiàn)、“之前由用戶特征使用”和其組合,參照圖5下文依次對其進行定義。應(yīng)當(dāng)注意,為了描述的簡便和清楚,以下的大多數(shù)示例僅使用n-gram。應(yīng)當(dāng)理解本發(fā)明并不限于此。
互聯(lián)網(wǎng)語料庫的使用很重要,因為它為極大量的上下文特征序列提供了顯著的統(tǒng)計的數(shù)據(jù),導(dǎo)致極為健壯的語言校正功能。在實踐中,超過兩個字的組合在傳統(tǒng)的非互聯(lián)網(wǎng)語料庫中具有很少的統(tǒng)計,但是在互聯(lián)網(wǎng)語料庫中具有令人滿意或良好的統(tǒng)計。
互聯(lián)網(wǎng)語料庫通常通過在互聯(lián)網(wǎng)上爬行并從網(wǎng)站頁面收集文本、從萬維網(wǎng)收集的自然語言文本的大量代表性示例。優(yōu)選地,還收集動態(tài)文本,例如聊天記錄、來自網(wǎng)絡(luò)論壇的文本和來自博客的文本。收集的文本用于積累關(guān)于自然語言文本的統(tǒng)計?;ヂ?lián)網(wǎng)語料庫的大小可以是,例如一萬億(1,000,000,000,000)字或幾萬億字,與其形成對照的是,更典型的語料庫大小為20億字。網(wǎng)絡(luò)的小的示例(例如,網(wǎng)絡(luò)語料庫)包括100億字,其顯著地小于由搜索引擎(例如,
)建立索引的網(wǎng)絡(luò)文本的百分之一。本發(fā)明可以與網(wǎng)絡(luò)的示例(例如,網(wǎng)絡(luò)語料庫)一起工作,但是優(yōu)選地它對文本校正的任務(wù)使用網(wǎng)絡(luò)的顯著地大的樣本。
在以下兩種方法中的一種中優(yōu)選地使用互聯(lián)網(wǎng)語料庫 使用CFS作為搜索查詢來使用一個或多個互聯(lián)網(wǎng)搜索引擎。每個這種查詢的結(jié)果的數(shù)量提供了該CFS的出現(xiàn)的頻率。
隨著時間的過去,通過爬行并索引互聯(lián)網(wǎng)來建立本地索引。每個CFS的出現(xiàn)的次數(shù)提供了CFS頻率。本地索引以及搜索查詢可以基于互聯(lián)網(wǎng)的可選擇的部分并且可以用這些選擇的部分來識別。類似的,可以排除或適當(dāng)?shù)貦?quán)衡互聯(lián)網(wǎng)的部分,以校正在互聯(lián)網(wǎng)使用與通用語言使用之間的異常。用這種方法,可以對從語言使用方面來說可靠的網(wǎng)站(例如,新聞和政府網(wǎng)站)給出比其它網(wǎng)站(例如,聊天或用戶論壇)更高的權(quán)重。
優(yōu)選地,在開始的時候,將輸入文本提供給拼寫校正功能112,之后提供給誤用詞和語法校正功能114。輸入文本可以是任何合適的文本并且在字處理的情況下優(yōu)選地是文檔的部分,例如句子。詞匯增強功能116優(yōu)選地在用戶對文本的選擇的情況下工作,其中所述本文已經(jīng)被提供給拼寫校正功能112并且提供給誤用詞和語法校正功能114。
優(yōu)選地,語言校正模塊100提供了輸出,所述輸出包括帶有每個校正的詞或詞的組的一個或多個建議的備選詞的校正的文本。
現(xiàn)在,參照圖2,其是說明了圖1的系統(tǒng)和功能中優(yōu)選地使用的拼寫校正功能的簡化的流程圖。如圖2所示,拼寫校正功能優(yōu)選地包括以下步驟 識別輸入文本中的拼寫錯誤,優(yōu)選地使用擴充了通常在互聯(lián)網(wǎng)使用的專有名稱和專有詞的傳統(tǒng)字典。
將拼寫錯誤分成簇(所述簇可以包括連續(xù)的或幾乎連續(xù)的、具有拼寫錯誤的單個或多個詞)并且選擇用于校正的簇。該選擇嘗試發(fā)現(xiàn)包含最大數(shù)量的校正基于上下文的數(shù)據(jù)的簇。優(yōu)選地,選擇具有在其附近正確拼寫的詞的最長序列或多個序列的簇。參照圖6A,下文更詳細(xì)地描述上述步驟。
優(yōu)選地基于參照圖7A下文描述的算法,來生成用于每個簇的一個備選校正或優(yōu)選地生成用于每個簇的多個備選校正; 至少部分地不基于上下文的詞基于相似性的計分和基于上下文的計分,優(yōu)選地基于參照圖8下文描述的拼寫校正備選詞計分算法,來優(yōu)選地使用各種備選校正的互聯(lián)網(wǎng)語料庫; 對于每個簇,基于上述得分來選擇單個拼寫校正并示出大多數(shù)優(yōu)選備選的拼寫校正;以及 為每個誤拼寫的簇提供包括單個拼寫校正的校正文本輸出,所述校正文本輸出代替了誤拼寫簇。
根據(jù)以下示例的考慮,可以更好地理解圖2的功能的操作 接收以下輸入文本 Physical ecudation can assits in strenghing muscles.Some students shouldeksersiv daily to inprove their strenth and helth becals thay ea so fate. 以下詞被識別為拼寫錯誤 ecudation,assits;strenghing;eksersiv;inprove;strenth;helth;becals;thay,ea應(yīng)當(dāng)注意,“fate”沒有被識別為拼寫錯誤,因為它出現(xiàn)在字典中。
如表1所示,選擇以下的簇 表1 關(guān)于簇2,應(yīng)當(dāng)注意,“their”是正確拼寫,但是仍然包括在簇中,因為它被誤拼寫詞包圍。
選擇簇1“eksersiv”來校正,因為它具有在其附近正確拼寫詞的最長序列或多個序列。
為誤拼寫詞“eksersiv”生成以下備選校正 excessive,expressive,obsessive,assertive,exercise,extensive,exclusive,exertion,excised,exorcism. 基于對誤拼寫詞的發(fā)音和字符串的相似性,給出每個備選校正的不基于上下文詞相似性得分,例如,如表2所示 表2 可以用各種方法來得出不基于上下文得分。一個示例是通過使用Levelnshtein距離算法,其可以在http://en.wikipedia.org/wiki/Levenshteindistance上找到。該算法可以意指字符串、詞語音表達(dá)或其組合。
如表3所示,基于在輸入句子的上下文中其適合度,還給出每個備選詞的上下文得分。在該示例中,其使用的上下文是“Some students should<eksersiv>daily”。
表3 上下文得分是參照圖8按照下文描述來優(yōu)選地得出的并且是基于互聯(lián)網(wǎng)語料庫中的上下文特征序列(CFS)頻率。
參照圖8,按照下文描述的,基于上下文得分和不基于上下文相似性得分的組合,選擇詞“exercise”作為最佳備選詞。
以相似的方式來校正所有簇。拼寫校正輸入文本,根據(jù)本發(fā)明的優(yōu)選實施例的以下的拼寫校正是 Physical education can assist in strengthening muscles.Some studentsshould exercise daily to improve their strength and health because they are sofate. 應(yīng)當(dāng)注意,在拼寫校正輸入文本中仍然有誤用詞。詞“fate”需要通過參照圖3下文描述的誤用和語法校正算法來校正。
現(xiàn)在參照圖3,其是說明了圖1的系統(tǒng)和功能中優(yōu)選地使用的誤用詞和語法校正功能的簡化的流程圖。誤用詞和語法校正功能提供了拼寫正確但在輸入文本的上下文中是誤用的詞的校正,以及包括語法上不正確的詞代替了語法上正確的詞的使用、冗余詞和丟詞和標(biāo)點的使用的語法錯誤的校正。
如圖3所示,誤用詞和語法校正功能優(yōu)選地包括以下步驟 通過優(yōu)選地評價輸入句子的上下文內(nèi)的詞的至少大部分的適合度,來識別懷疑的誤用詞和具有從圖2的拼寫校正功能輸出的拼寫校正輸入文本中的語法錯誤的詞; 將懷疑的誤用詞和具有語法錯誤的詞分成簇,所述簇優(yōu)選地是不重疊的;以及 選擇用于校正的簇。識別、分組和選擇步驟優(yōu)選地基于參照圖6B下文描述的算法。
優(yōu)選地基于參照圖7A下文描述的備選校正生成算法,來為每個簇生成一個或優(yōu)選地生成多個備選校正; 基于參照圖10下文描述的丟失的冠詞、介詞和標(biāo)點校正算法,來為每個簇生成一個或優(yōu)選地生成多個備選校正; 基于參照圖11下文描述的冗余的冠詞、介詞和標(biāo)點校正算法,來為每個簇生成一個或優(yōu)選地生成多個備選校正; 優(yōu)選地基于參照圖9下文描述的誤用詞和語法校正備選詞計分算法,至少部分地基于上下文和詞的基于相似性來對各種備選校正計分; 對于每個簇,也參照圖9按照下文描述的上述計分,來選擇單個誤用詞和語法校正并示出最優(yōu)選的備選誤用詞和語法校正;以及 為每個簇提供包括單個誤用詞和語法校正的拼寫、誤用詞和語法校正文本輸出,所述簇代替不正確的簇。
優(yōu)選地,計分包括為此應(yīng)用與多個備選詞中的一個相比有利于懷疑的詞的偏置,所述偏置是指示了提供輸入的人的不確定度的輸入不確定度的度量的函數(shù)。
根據(jù)以下示例的考慮,可以更好地理解圖3的功能的操作 接收以下輸入文本 I have money book 將以下詞識別為懷疑的誤用詞 money,book 生成以下簇 money book 以下是備選校正的示例,其為簇而生成(部分的列出) money books;money back;money box;money bulk;money Buick;moneyebook;money bank;mini book;mummy book;Monet book;honey book;mannerlybook;mono book;Monday book;many books;mini bike;mummy back;monkeybunk;Monday booked;Monarchy back;Mourned brook 在表4中示出了使用互聯(lián)網(wǎng)語料庫基于上下文和不基于上下文詞的基于相似性的得分的至少部分的上下文計分的結(jié)果 表4 可以理解,存在得到總分的各種方法。優(yōu)選的總分是基于參照圖9下文描述的算法。
基于上述計分,選擇備選詞“many book”。因此,校正文本是 I have many book 現(xiàn)在參照圖4,其是說明了圖1的系統(tǒng)和功能中使用的詞匯增強功能的簡化的流程圖。如圖4所示,詞匯增強功能優(yōu)選地包括以下步驟 識別詞匯挑戰(zhàn),其中所述詞在從圖3的誤用詞和語法校正功能輸出的,在拼寫、誤用詞和語法校正輸入文本中,具有懷疑的不是最理想的詞匯的使用; 將詞匯挑戰(zhàn)分成簇,其優(yōu)選的是不重疊的; 選擇用于校正的簇。識別、分組和選擇步驟是優(yōu)選地基于參照圖6C下文描述的算法。
優(yōu)選地基于參照圖7B下文描述的詞匯增強生成算法,來為每個簇生成一個或優(yōu)選地生成多個備選詞匯增強; 不基于上下文詞的基于相似性的計分和上下文計分,優(yōu)選地基于參照圖9下文描述的詞匯增強備選詞計分算法,來優(yōu)選地使用各種備選詞匯增強的互聯(lián)網(wǎng)語料庫; 對于每個簇,基于參照圖9下文還描述的上述計分,來選擇單個詞匯增強并示出最優(yōu)選的備選詞匯增強;以及 為每個不是最理想的詞匯簇提供詞匯增強建議。
根據(jù)以下示例的考慮,可以更好地理解圖4的功能的操作 提供以下的拼寫、誤用詞和語法校正輸入文本 Wearing colorful clothes will separate us from the rest of the children in theschool. 使用參照圖6C下文描述的功能,為詞匯增強選擇以下簇 separate 使用參照圖7B下文描述的功能,基于圖7B中描述的預(yù)處理詞匯數(shù)據(jù)庫(部分的列表),來生成如表5所示的以下備選簇校正 表5 至少部分地基于輸入文本的上下文內(nèi)的詞的合適度并且還基于備選詞的詞意與詞匯挑戰(zhàn)“separate”的相似度,使用互聯(lián)網(wǎng)語料庫來對各種備選詞匯增強計分。
使用參照圖5下文描述的功能,生成以下的CFS(部分地列出) ′will separate′,′separate us′,′clothes will separate′,′will separate us′,′separate us from′ 使用參照圖9的階段IIA下文描述的功能,為CFS的上述列表中的備選簇校正的部分列表生成在表6所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率的矩陣 表6 消除所有備選校正的出現(xiàn)的頻率為零的所有CFS。在該示例中,消除以下feature-gram ′clothes will separate′ 所以,消除全部包括在至少具有出現(xiàn)的最低閾值頻率的其它CFS中的所有CFS。例如,消除以下feature-gram ′will separate′,′separate us′ 在該示例中,剩余的CFS是feature-gram ′will separate us′,′separate us from′ 使用參照圖9在階段IID和IIE中下文描述的最終優(yōu)先選擇得分,選擇備選“differentiate”,增強的句子是 Wearing colorful clothes will differentiate us from the rest of the children inthe school. 現(xiàn)在參照圖5,其是說明了在用于本發(fā)明的優(yōu)選實施例的計算機輔助語言校正的系統(tǒng)和功能中有用的上下文特征序列(CFS)功能118(圖1)的簡化的框圖。
CFS功能118優(yōu)選地包括特征提取功能,其包括N-gram提取功能以及可選的至少一個skip-gram提取功能;switch-gram提取功能;共同出現(xiàn)提取功能;之前由用戶使用的特征提取功能。
術(shù)語N-gram是技術(shù)的已知術(shù)語,指代輸入文本中的N個連續(xù)詞的序列。N-gram提取功能可以使用傳統(tǒng)的詞性標(biāo)注(part-of-speech tagging)和句子分析功能以避免生成基于語法考慮不期望在語料庫(優(yōu)選的是互聯(lián)網(wǎng)語料庫)中高頻率出現(xiàn)的某種n-gram。
為了本描述的目的,術(shù)語“skip-gram提取功能”意味著功能上用于提取“skip-gram”,所述“skip-gram”是修改的n-gram,所述n-gram省略了一些不重要的詞或短語,例如形容詞、副詞、形容詞短語和副詞短語,或者所述n-gram僅包含具有預(yù)定的語法關(guān)系的詞,例如主語-動詞、動詞-賓語、副詞-動詞或動詞-時間短語。skip-gram提取功能可以使用傳統(tǒng)的詞性標(biāo)注和句子分析功能來幫助確定在給定的上下文中可以跳過哪些詞。
對于本描述的目的,術(shù)語“switch-gram提取功能”意味著識別“switchgram”的功能,所述“switch-gram”是修改的n-gram,其中,轉(zhuǎn)換一些詞的出現(xiàn)順序。switch-gram提取功能可以使用傳統(tǒng)的詞性標(biāo)注和句子分析功能來幫助確定在給定的上下文中可以轉(zhuǎn)換哪些詞的出現(xiàn)順序。
為了本描述的目的,術(shù)語“共同出現(xiàn)提取功能”意味著識別在輸入句子或包含多個輸入句子的輸入文檔中的詞的組合,所述功能具有用于在輸入文本而不是在N-gram、switch-gram或skip-gram中包括的那些的輸入文本詞共同出現(xiàn),以及指示到輸入詞和方向的距離,在此之后過濾除經(jīng)常出現(xiàn)的詞,例如介詞、冠詞、連詞和其功能主要是起語法作用的其它詞。
為了本描述的目的,術(shù)語“之前由用戶使用的特征提取功能”意味著識別用戶在其它文檔中使用的詞,在此之后濾除經(jīng)常出現(xiàn)的詞,例如介詞、冠詞、連詞和其功能主要是起語法作用的其它詞。
為了本描述的目的,N-gram、skip-gram、switch-gram和其組合被稱為feature-gram。
為了本描述的目的,N-gram、skip-gram、switch-gram、共同出現(xiàn)、“之前由用戶使用的特征”和其組合被稱為上下文特征序列或CFS。
圖5的功能優(yōu)選地對輸入文本中的單獨的詞或詞的簇進行操作。
根據(jù)以下示例的考慮,可以更好地理解圖5的功能的操作 提供以下的輸入文本 Cherlock Homes the lead character and chief inspecter has been cold in bythe family doctor Dr Mortimer,to invesigate the death of sir Charles 對于輸入文本中的簇“Cherlock Homes”,生成以下的CFS N-gram 2-gramCherlock Homes;Homes the 3-gramCherlock Homes the;Homes the lead 4-gramCherlock Homes the lead;Homes the lead character 5-gramCherlock Homes the lead character Skip-gram Cherlock Homes the character;Cherlock Homes the chiefinspecter;Cherlock Homes the inspecter;Cherlock Homes has been cold Switch gram The lead character Cherlock Homes 輸入文本中的共同出現(xiàn) Character;inspector;investigate;death 包含輸入文本的文檔中的共同出現(xiàn) Arthur Conan Doyle;story 用戶的其它文檔中的共同出現(xiàn) mystery 對于輸入文本中的簇“cold”,生成以下的CFS N-gram 2-grambeen cold;cold in 3-gramhas been cold;been cold in;cold in by 4-graminspector has been cold;has been cold in;been cold in by 5-gramchief inspector has been cold;inspector has been cold in;has beencold in by;been cold in by the;cold in by the family Skip-gram cold in to investigate;Chedock has been cold;cold by the doctor;cold by DrMortimer;character has been cold 基于以下中的至少一個,對每個CFS給出“重要性得分”,優(yōu)選的是以下中的多于一個,并且最優(yōu)選的是以下中的所有 a、傳統(tǒng)的詞性標(biāo)注和句子分析功能的操作。給包括多個分析樹節(jié)點的CFS相對低的得分。CFS中包括的分析樹節(jié)點的數(shù)量越多,該CFS的得分越低。
b、CFS的長度。CFS越長,得分越高。
c、在CFS而不是輸入詞中每個字的出現(xiàn)頻率。這種詞的出現(xiàn)頻率越高,得分越低。
d、CFS的類型。例如,N-gram比共同出現(xiàn)優(yōu)選。輸入句子中的共同出現(xiàn)比輸入文檔中的共同出現(xiàn)優(yōu)選,并且輸入文檔中的共同出現(xiàn)比“之前用戶使用的特征”優(yōu)選。
參照上述示例,如表7所示為典型的得分; 表7 基于互聯(lián)網(wǎng)語料庫中的CFS出現(xiàn)頻率,為了各種備選簇校正的基于上下文的得分,參照圖8和9下文描述的功能中使用這些CFS和它們的重要性得分。
現(xiàn)在參照圖6A,其是說明了用于識別輸入文本中的誤拼寫詞的功能;將誤拼寫詞分成簇,其優(yōu)選的是非重疊的;選擇用于校正的簇。
如圖6A所示,通過使用擴充了通常在互聯(lián)網(wǎng)使用的專有名稱和專有詞的傳統(tǒng)的字典,來優(yōu)選地執(zhí)行對誤拼寫詞的識別。
通過將連續(xù)的或幾乎連續(xù)的誤拼寫詞分到帶有具有語法關(guān)系的誤拼寫詞的單個簇中,來優(yōu)選地執(zhí)行將誤拼寫詞分成簇。
通過嘗試找到包含大量不懷疑的基于上下文數(shù)據(jù)的簇,來優(yōu)選地執(zhí)行選擇用于校正的簇。優(yōu)選地,選擇具有在正確拼寫詞附近的最長序列或多個序列的簇。
現(xiàn)在參照圖6B,其是說明了用于識別在拼寫校正輸入文本中的懷疑的誤用詞和具有語法錯誤的詞;將懷疑的誤用詞和具有語法錯誤的詞分成簇,其優(yōu)選的是不重疊的;選擇用于校正的簇。
按照以下來優(yōu)選地執(zhí)行識別懷疑的誤用詞 在拼寫校正輸入文本中為每個詞生成feature-gram 注意在語料庫(優(yōu)選的是互聯(lián)網(wǎng)語料庫)中的每個feature-gram的出現(xiàn)的頻率; 注意用于每個詞的懷疑的feature-gram的數(shù)量。懷疑的feature-gram具有比它們的期望的頻率顯著地低的頻率或者在最低頻率閾值以下的頻率?;趂eature-gram的組成元素和其組合來估計feature-gram的期望頻率。
如果包含詞的懷疑的feature-gram的數(shù)量超過預(yù)定的閾值,那么詞受到懷疑。
根據(jù)本發(fā)明的優(yōu)選實施例,確定語料庫(優(yōu)選的是互聯(lián)網(wǎng)語料庫)中的拼寫校正輸入文本中的每個feature-gram的出現(xiàn)頻率(FREQ F-G)。還確定在該語料庫中拼寫校正輸入文本中的每個詞的出現(xiàn)的頻率(FREQ W),并且還確定沒有該詞的每個feature-gram的出現(xiàn)的頻率(FREQ FG-W)。
按照以下來計算每個feature-gram的出現(xiàn)的期望頻率(EFREQ F-G) EFREQ F-G=FREQ F-G-W*FREQ W/(在 互聯(lián)網(wǎng)語料庫中的所有詞的總頻率) 如果語料庫(優(yōu)選的是互聯(lián)網(wǎng)語料庫)中拼寫校正輸入文本中的每個feature-gram的出現(xiàn)的頻率與每個feature-gram的期望的出現(xiàn)頻率之比,即FREQ F-G/EFREQ F-G比預(yù)定的閾值小,或者如果FREQ F-G比另一個預(yù)定的閾值低,那么feature-gram將被認(rèn)為是懷疑的feature-gram。包括在懷疑的feature-gram的每個詞將被認(rèn)為是懷疑的誤用詞或者具有懷疑的語法錯誤的詞。
根據(jù)以下示例的考慮,可以更好地理解用于識別拼寫校正輸入文本中的懷疑的誤用詞和具有語法錯誤的詞的圖6B的功能的操作 提供以下拼寫校正輸入文本 I have money book feature-gram包括以下 I;I have;I have money;I have money book 表8指示了上述feature-gram的互聯(lián)網(wǎng)語料庫中的出現(xiàn)的頻率 表8 按照如下為每個2-gram計算期望的出現(xiàn)頻率 EFREQ F-G=(FREQ F-G-W*FREQ W)/(在 互聯(lián)網(wǎng)語料庫中的所有詞的總頻率) 例如,對于2-gram, 2-gram(x,y)的期望的2-gram頻率=(x的1-gram頻率*y的1-gram頻率)/在互聯(lián)網(wǎng)語料庫中詞的數(shù)量。例如,一萬億(1,000,000,000,000)個詞。
按照如下來計算在語料庫(優(yōu)選的是互聯(lián)網(wǎng)語料庫)中拼寫校正輸入文本中的每個feature-gram的出現(xiàn)頻率與每個feature-gram的期望的出現(xiàn)頻率之比 FREQ F-G/EFREQ F-G 表9中示出了在語料庫(優(yōu)選的是互聯(lián)網(wǎng)語料庫)中拼寫校正輸入文本中的每個上述2-gram的出現(xiàn)頻率與每個上述2-gram的期望的出現(xiàn)頻率之比 表9 可以看出,“money book”的FREQ F-G比其期望的頻率顯著地低,因此FREQ F-G/EFREQ F-G可以被認(rèn)為比預(yù)定閾值(例如,1)低,所以簇“money book”受到懷疑。
可以看出,包括詞“money book”的3-gram和4-gram都在互聯(lián)網(wǎng)語料庫中具有零頻率。這也可以是認(rèn)為“money book”受到懷疑的根據(jù)。
按照如下優(yōu)選地執(zhí)行將懷疑的誤用詞和具有語法錯誤的詞分到簇中將連續(xù)或幾乎連續(xù)的懷疑的誤用詞分到單個簇中;在它們自身之間具有語法關(guān)系的懷疑的誤用詞被分到相同的簇。
通過嘗試找到包含最大數(shù)量的不懷疑的上下文數(shù)據(jù)的簇,來優(yōu)選地執(zhí)行選擇用于校正的簇。優(yōu)選地,選擇具有在其附近的不懷疑的詞的最長序列或多個序列的簇。
現(xiàn)在參照圖6C,其是說明了用于識別在拼寫、誤用詞和語法校正輸入文本中具有懷疑的不是最理想的詞匯的使用的詞匯挑戰(zhàn);將詞匯挑戰(zhàn)分成簇,其優(yōu)選的是不重疊的;選擇用于校正的簇。
按照如下優(yōu)選地執(zhí)行識別詞匯挑戰(zhàn) 對詞典進行預(yù)處理以便為每個詞分配語言豐富性得分,所述每個詞指示了在等級中詞的級別,其中,書面語言比口語更優(yōu)選;其中,在互聯(lián)網(wǎng)資源中,例如,文章和圖書比聊天和論壇優(yōu)選,并且其中,較少使用的詞比更常使用的詞更優(yōu)選; 還對詞典進行預(yù)處理以基于之前預(yù)處理步驟和語法規(guī)則的結(jié)果來消除不太可能用于詞匯增強的候選者; 額外的預(yù)處理,其用于指示每個剩余的詞、具有比輸入詞的語言豐富性得分高的詞匯增強的候選者;以及 檢查拼寫、誤用詞和語法校正輸入文本中的每個詞是否作為多個預(yù)處理詞典中的剩余詞出現(xiàn),并且識別每個這種詞,哪個作為剩余的詞出現(xiàn),哪個作為用于詞匯增強的候選者出現(xiàn)。
將詞匯挑戰(zhàn)分成簇(所述簇優(yōu)選的是不重疊的)是可選的并且按照如下優(yōu)選地執(zhí)行 將連續(xù)的詞匯挑戰(zhàn)分到單個簇中;以及 將具有語法關(guān)系的挑戰(zhàn)的詞分到相同的簇中。
通過嘗試找到包含最大數(shù)量的非詞匯挑戰(zhàn)的詞的簇來優(yōu)選地執(zhí)行選擇用于校正的簇。優(yōu)選地,選擇在其附近的非詞匯挑戰(zhàn)的詞的最長序列或多個序列。
現(xiàn)在參照圖7A,其是說明了用于生成在圖2和圖3的功能中有用的簇的備選校正的功能。
如果原始輸入詞是正確拼寫的,那么它被認(rèn)為是備選詞。
如圖7A所示,對于簇中的每個詞,以如下方式來初始地生成多個備選校正 來自字典的多個詞,類似于簇中的每個詞,都基于以字符串相似度來表示的、詞的書寫外觀并基于發(fā)音或語音相似度來檢索。該功能是已知的并且作為免費軟件在互聯(lián)網(wǎng)上是可用的,例如GNU Aspell和
Gspell。檢索和優(yōu)先詞提供了第一多個備選校正。例如,給出的輸入詞feezix,基于相似的發(fā)音,將從字典檢索到詞“physics”,盡管它僅具有一個共同字符,即“i”?;谄渥址南嗨贫葋頇z索詞“felix”,盡管它并不具有相似的發(fā)音。
可以通過使用基于已知的備選使用以及積累的用戶輸入的規(guī)則來生成額外的備選詞。例如,u→you,r→are,Im→I am。
可以基于語法規(guī)則(優(yōu)選地使用預(yù)定義列表)來生成其它備選詞。以下是幾個示例 單數(shù)/復(fù)數(shù)規(guī)則如果輸入句子是“l(fā)eaf fall off trees in the autumn”,那么生成復(fù)數(shù)備選詞“l(fā)eaves”。
冠詞規(guī)則如果輸入文本是“a old lady”,那么生成備選冠詞“an”和“the”。
介詞規(guī)則如果輸入文本是“I am interested of football”,那么生成備選介詞“in”、“at”、“to”、“on”、“through”等。
動詞變形規(guī)則如果輸入文本是“He leave the room”,那么生成備選動詞變形“l(fā)eft”、“l(fā)eaves”、“had left”等。
合并詞和拆分詞規(guī)則如果輸入文本是“get a lot fitter”,那么生成備選詞“a lot”。
如果輸入文本是“we have to wat ch out”,那么生成備選詞“watch”。
如果輸入文本是“do many sittups”,那么生成備選詞“sit ups”。
本發(fā)明的優(yōu)選實施例的特定特征是使用上下文信息(例如,CFS以及更具體地說是feature-gram)來生成備選校正,并且不僅用于存儲這種“上下文的檢索”的備選校正。可以從現(xiàn)有的語料庫(例如,互聯(lián)網(wǎng)語料庫)檢索經(jīng)常出現(xiàn)詞的組合(例如,CFS以及更具體地說是feature-gram)。
以下示例說明了本發(fā)明的該方面 如果輸入句子是“The cat has kts”,詞“kts”可能與詞“kittens”在發(fā)音或書寫上不十分相似,由于缺少本發(fā)明的該方面,“kittens”可能不是備選詞中的一個。
根據(jù)本發(fā)明的該方面,通過在通常出現(xiàn)在n-gram“cat has”之后(即,在查詢“cat has*”中發(fā)現(xiàn)作為*的所有詞)的詞的互聯(lián)網(wǎng)語料庫中查找,來檢索以下的備選詞 nine lives;left;fleas;dandruff;kittens;tapeworms;adopted;retractile-claws;been;urinated;diarrhea;eaten;swallowed;hairballs;gone;always been 根據(jù)本發(fā)明的優(yōu)選實施例,然后過濾“基于上下文檢索的”備選詞,以使得具有與原始詞有某種發(fā)音或書寫相似的基于上下文檢索的備選詞,在本發(fā)明的示例為“kts”,僅該詞保留。在該示例中,檢索到具有最相似的發(fā)音和書寫的備選詞“kittens”。
其中通過外部系統(tǒng)(例如,光學(xué)字符識別、語音到文本或機器翻譯系統(tǒng))自動地生成輸入文本,可以直接地從這種系統(tǒng)直接地接收額外的備選詞。通常,在這種系統(tǒng)的操作的過程中生成這種額外備選詞。例如,在機器翻譯系統(tǒng)中,可以將外語詞匯的備選翻譯提供給本系統(tǒng)以作為備選詞來使用。
一旦生成了在簇中的每個詞的所有備選詞,通過確定各種備選詞的所有可能組合并且隨后基于在語料庫(優(yōu)選的是互聯(lián)網(wǎng)語料庫)中的備選詞的出現(xiàn)頻率來過濾組合,生成用于整個簇的簇備選詞。
以下示例是說明性的 如果輸入簇是“money book”,并且用于詞“money”的備選詞是 Monday;many;monkey 并且用于詞“book”的備選詞是 books;box;back 生成以下的簇備選詞 money books;money box;money back;Monday books;Monday box;Monday back;many books;many box;many back;monkey books;monkey box;monkey back;many book;monkey book;Monday book 現(xiàn)在參照圖7B,其是說明了用于生成簇的備選詞增強的功能的簡化的流程圖,所述功能在圖4的功能中有用。
如在圖7B中所示,以如下方式來初始地生成多個備選詞增強 如果原始輸入詞拼寫正確,它被認(rèn)為是備選詞。
檢索來自詞典或其它詞匯數(shù)據(jù)庫(例如,在互聯(lián)網(wǎng)上免費可用的Princeton WordNet,其與在簇中的每個詞在語言上有關(guān),作為同義詞、超集或子集)的多個詞。檢索和優(yōu)先詞提供了第一多個備選詞增強。
通過使用基于已知的備選詞使用以及積累的用戶輸入的規(guī)則來生成額外的備選詞。
本發(fā)明的優(yōu)選實施例的特定特征是使用上下文信息(例如,CFS以及更具體地說是feature-gram)來生成備選詞增強,并且不僅用于存儲這種“基于上下文的檢索”的備選詞增強??梢詮默F(xiàn)有的語料庫(例如,互聯(lián)網(wǎng)語料庫)檢索經(jīng)常出現(xiàn)詞的組合(例如,CFS以及更具體地說是feature-gram)。
一旦生成了簇中的每個詞的所有備選詞,通過確定各種詞的備選詞的所有可能組合并且基于現(xiàn)有語料庫(例如,互聯(lián)網(wǎng))中的得到的多個詞的組合的出現(xiàn)頻率來過濾組合,生成用于整個簇的備選詞。
以下示例是圖7B的說明性的功能 提供了以下輸入文本 it was nice to meet you 由語言數(shù)據(jù)庫(例如,Princeton WordNet)來生成用于詞“nice”的以下備選詞(部分地列出) pleasant,good,kind,polite,fine,decent,gracious,courteous,considerate,enjoyable,agreeable,satisfying,delightful,entertaining,amiable,friendly,elegant,precise,careful,meticulous 通過應(yīng)用預(yù)定的規(guī)則來生成用于詞“nice”的以下備選詞 cool 例如響應(yīng)于查詢(例如,“it was*to meet”),生成用于詞“nice”的以下基于上下文檢索的備選詞 great;apleasure;wonderful;lovely;good;impossible;fun;awesome;refreshing;exciting;agreed;fantastic;decided;inspiring 現(xiàn)在參照圖8,其是說明了用于在圖2的拼寫校正功能中有用的各種備選詞增強的基于上下文和基于詞相似性計分的功能的簡化的流程圖。
如在圖8中所示,各種備選詞校正的基于上下文和基于詞相似性的計分按照以下大體的階段進行 I、不基于上下文計分-按照詞的書寫外觀和發(fā)音相似性,基于與輸入文本中的簇的相似性來對各種簇備選詞計分。
II、使用互聯(lián)網(wǎng)語料庫的基于上下文計分-基于提取的上下文特征序列(CFS)(所述CFS是按照參照圖5上文描述來提供的),還對每個各種簇備選詞計分。該計分包括以下子階段 IIA、在參照圖5按照上文描述提取的CFS的情況下,在由圖7A的功能產(chǎn)生的各種備選詞簇校正上,優(yōu)選地使用互聯(lián)網(wǎng)語料庫,來執(zhí)行出現(xiàn)頻率的分析。
IIB、具體地說是基于子階段IIA的出現(xiàn)頻率的分析結(jié)果來執(zhí)行各種CFS選擇并且權(quán)衡各種CFS。權(quán)衡還基于各種CFS的相對固有的重要性。可以理解,可以對一些CFS給出零權(quán)重,因此不選擇它們。優(yōu)選地,對選擇的CFS給出相對的權(quán)重。
IIC、將出現(xiàn)頻率的度量分配到用于在子階段IIB中的每個選擇的CFS的每個備選校正。
IID、具體地說基于子階段IIA的出現(xiàn)頻率的分析結(jié)果、子階段IIC的出現(xiàn)頻率的度量、子階段IIB的CFS選擇和權(quán)重來生成備選簇校正的減少的組。
IIE、為了用作參考簇校正,從子階段IID中的減少的組中選擇在階段I中具有最相似的不基于上下文的相似性得分的簇。
IIF、將出現(xiàn)頻率的度量分配到用于在階段IIB中的每個選擇的CFS的子階段IIE的參考簇校正。
IIG、將比率度量分配到在子階段IIB中的每個選擇的CFS,所述比率度量代表對于該特征,每個備選校正的出現(xiàn)頻率的度量與分配給子階段IIE的參考簇的出現(xiàn)頻率的度量之比。
III、基于階段I的結(jié)果和階段II的結(jié)果來選擇最優(yōu)選的備選簇校正。
IV、將可信度等級得分分配到最優(yōu)選的備選簇校正。
下文示出了在階段II-IV中上文描述的功能的更為詳細(xì)的描述 參照子階段IIA,按照圖5中上文描述來生成包括要被校正的簇的所有CFS。消除包含懷疑的錯誤而不是在輸入簇中的錯誤的CFS。
生成矩陣,其指示了在語料庫(優(yōu)選的是互聯(lián)網(wǎng)語料庫)中,用于每個CFS的簇的每個備選詞校正的出現(xiàn)頻率。消除用于出現(xiàn)頻率為零的所有備選校正的所有CFS。消除全部包括在至少具有出現(xiàn)的最低閾值頻率的其它CFS的所有CFS。
以下示例說明了出現(xiàn)頻率矩陣的產(chǎn)生 提供以下輸入文本 I lik tw play outside a lot 使用參照圖6A上文描述的功能,為了校正選擇以下簇 lik tw 使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出) like to;like two;lick two;lack two;lack true;like true 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′lik tw;′I lik tw;′lik tw play′;′I lik tw play′;′lik tw play outside′;′I lik twplay outside′;′lik tw play outside a′ 使用參照階段IIA上文描述的功能,為了在CFS的上述列表中的備選詞簇校正的上述列表,生成在表10中所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率矩陣 表10 消除用于出現(xiàn)頻率為0的所有備選校正的所有CFS。在該示例中,消除以下feature-gram ′lik tw play outside a′ 所以,消除全部包括在至少具有出現(xiàn)的最低閾值頻率的其它CFS的所有CFS ′lik tw′;′I lik tw′;′lik tw play′;′I lik tw play′;′lik tw play outside′ 在該示例中,僅剩余的CFS是feature-gram ′I lik tw play outside′ 得到的矩陣按照表11所示出現(xiàn) 表11 上述示例說明了根據(jù)本發(fā)明的優(yōu)選實施例的矩陣的生成。在該示例中,很明顯,“l(fā)ike to”是優(yōu)選的備選校正??梢岳斫?,在現(xiàn)實中,選擇通常不是如此簡單。因此,在下文示出的其它示例中,提供了用于在備選校正中做更為困難的選擇的功能。
返回考慮子階段IIB,可選地,參照圖5按照上文描述的,為每個剩余的CFS計分。此外,包含在多個詞輸入的較早的校正迭代中引入的詞并且具有在預(yù)定的可信度閾值以下的可信度的CFS是消極有偏置的。
在通常的情況下,類似于在子階段IIC中上文描述的那樣,生成標(biāo)準(zhǔn)化頻率矩陣,其指示在互聯(lián)網(wǎng)語料庫中的每個CFS的標(biāo)準(zhǔn)化出現(xiàn)頻率。通過將每個CFS頻率除以有關(guān)簇備選詞的出現(xiàn)頻率的函數(shù),通常根據(jù)頻率矩陣生成標(biāo)準(zhǔn)化頻率矩陣。
標(biāo)準(zhǔn)化用于抵消在各種備選校正的總體普及度中的實質(zhì)差別的影響。適合的標(biāo)準(zhǔn)化因子是在不考慮特定CFS的情況下,基于在作為整體的語料庫中各種備選校正的總體出現(xiàn)頻率。
以下示例說明了標(biāo)準(zhǔn)化出現(xiàn)頻率矩陣的生成 提供以下輸入文本 footprints of a mysterious haund said to be six feet tall 使用參照圖6A上文描述的功能,為了校正選擇以下簇 haund 使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出) hound;hand;sound 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′a mysterious haund′;′haund said′ 使用參照本文的階段IIC上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成在表12所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率和標(biāo)準(zhǔn)化出現(xiàn)頻率的矩陣 表12
可以從上述示例中理解,由于在各種備選校正的總體普及度中的實質(zhì)差異,具有最高出現(xiàn)頻率的詞并非必然具有最高的標(biāo)準(zhǔn)化出現(xiàn)頻率。在上述示例中,“hound”具有最高的標(biāo)準(zhǔn)化出現(xiàn)頻率,并且從輸入文本的上下文顯然可以看出,“hound”是正確詞,而不是在互聯(lián)網(wǎng)語料庫中具有較高出現(xiàn)頻率的“hand”。
本發(fā)明的特定特征是,標(biāo)準(zhǔn)化出現(xiàn)頻率(其抵消在各種備選校正的總體普及度中的實質(zhì)差異)優(yōu)選地用于在備選校正中的選擇??梢岳斫猓霈F(xiàn)頻率的其它度量而不是標(biāo)準(zhǔn)化出現(xiàn)頻率可以可選地或額外地用作度量。在出現(xiàn)頻率相對低或特別地高的情況下,額外的或可選的度量是有益的。
根據(jù)以下的討論將可以理解,額外的功能通常在各種備選詞校正中選擇是有用的。下文描述了這些功能。
在子階段IID,消除根據(jù)以下兩種度量的、不優(yōu)選于另一個備選簇校正的每個備選簇校正 i、具有比其它備選簇校正低的詞相似性得分;以及 ii、對于所有CFS,比其它備選簇校正具有較低的出現(xiàn)頻率并且還優(yōu)選地具有較低的標(biāo)準(zhǔn)化的出現(xiàn)頻率。
以下示例說明了按照上文描述的備選校正的消除 提供了以下輸入文本; I leav un a big house 使用參照圖6A上文描述的功能,為校正選擇以下簇 leav un 使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出) leave in;live in;love in 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′I leav un a′;′leav un a big′ 使用參照本文的階段IIC上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表13所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率和標(biāo)準(zhǔn)化的出現(xiàn)頻率的矩陣 表13
在該示例中,如在表14中指示了備選簇校正的不基于上下文相似性得分 表14 因為“l(fā)ove in”比“l(fā)ive in”具有較低的相似性得分以及較低的出現(xiàn)頻率和較低的標(biāo)準(zhǔn)化出現(xiàn)頻率,所以消除備選簇校正“l(fā)ove in”。因為“l(fā)eave in”的相似性得分比“l(fā)ive in”的得分高,因此在該階段不消除備選簇校正“l(fā)eavein”。
從上述可以理解,階段IID的功能的操作的結(jié)果是減少的頻率矩陣并且優(yōu)選地也是減少的標(biāo)準(zhǔn)化頻率矩陣,所述矩陣指示了出現(xiàn)頻率并且優(yōu)選地還指示了減少的多個備選校正中的每個的標(biāo)準(zhǔn)化出現(xiàn)頻率,每個矩陣具有用于減少的多個CFS的每個的相似性得分。從以下示例可以看出,對于所有其它備選簇選擇功能,優(yōu)選地使用備選簇校正的減少的組。
對于在減少的頻率矩陣和優(yōu)選的在減少的標(biāo)準(zhǔn)化頻率矩陣中的每個備選校正,生成最終優(yōu)先選擇度量??梢允褂靡韵聜溥x度量中的一個或多個來生成用于每個備選校正的最終優(yōu)先選擇得分 下文使用的術(shù)語“頻率函數(shù)”指代頻率、標(biāo)準(zhǔn)化頻率或頻率和標(biāo)準(zhǔn)化頻率兩者的函數(shù)。
A、一種可能的優(yōu)先選擇度量是在減少的矩陣或多個矩陣中的任何CFS的減少的矩陣或多個矩陣中的每個備選簇校正的最高的出現(xiàn)頻率函數(shù)。例如,將按照如下來對各種備選簇校正計分 提供以下輸入文本 A big agle in the sky 使用參照圖6A上文描述的功能,為了校正選擇以下簇 agle 使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出) ogle;eagle;angel 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′big agle′;′agle in the sky′ 使用參照本文的階段IIC上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表15所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率和標(biāo)準(zhǔn)化的出現(xiàn)頻率的矩陣 表15
在該示例中,如在表16中指示了備選簇校正的不基于上下文相似性得分 表16 因為′eagle′具有最大出現(xiàn)頻率的CFS,所以選擇備選詞′eagle′。
B、另一個可能的優(yōu)先選擇度量是用于每個備選校正的所有CFS的平均出現(xiàn)頻率函數(shù)。例如,將按照如下對各種備選校正計分 提供以下輸入文本 A while ago sthe lived 3 dwarfs 使用參照圖6A上文描述的功能,為了校正選擇以下簇 sthe 使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出) the;they;she;there 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′ago sthe lived′;′sthe lived 3′ 使用參照本文的階段IIC上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表17和18所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率、標(biāo)準(zhǔn)化出現(xiàn)頻率和平均出現(xiàn)頻率的矩陣 表17
表18
應(yīng)當(dāng)注意,基于平均出現(xiàn)頻率來選擇“there”。
在該示例中,如在表19中指示了備選簇校正的不基于上下文相似性得分 表19 應(yīng)當(dāng)注意,不選擇具有最高相似性得分的備選簇校正。
C、其它可能優(yōu)先選擇度量是對于每個CFS的出現(xiàn)頻率函數(shù)的每個備選校正的所有CFS的加權(quán)和,其中所述每個CFS的出現(xiàn)頻率函數(shù)是在參照圖5上文描述的功能來計算時,通過乘以該CFS的得分得到的。
D、參照子階段iiE-iiG按照上文描述的,通過任意一個或多個,并且更優(yōu)選的以及最優(yōu)選的是,關(guān)于在減少的矩陣或多個矩陣中的備選校正的所有以下操作,生成特定備選校正/CFS優(yōu)先選擇度量 i、選擇具有不基于上下文相似性最高的得分的備選簇校正作為參考簇。
ii、產(chǎn)生修改的矩陣,其中,在每個優(yōu)先選擇矩陣中,在每個feature-gram中的每個備選校正的出現(xiàn)頻率函數(shù)由每個備選校正的出現(xiàn)頻率函數(shù)與參考簇的出現(xiàn)頻率函數(shù)之比來代替。
iii、進一步修改在ii中上文描述的類型的修改的矩陣,從而通過用于減少在比率中的很大差異的計算重要性的比率的函數(shù)來代替每個優(yōu)先選擇度量中的比率。合適的這種函數(shù)是對數(shù)函數(shù)。該操作的目的是不強調(diào)在最優(yōu)選的備選校正的最終優(yōu)先選擇得分中的出現(xiàn)頻率中的很大差異的重要性,而是維持在最終優(yōu)先選擇計分中的出現(xiàn)頻率中的很大差異,因此消除最不優(yōu)選的備選校正。
iv、通過將合適的比率或在每個優(yōu)先選擇度量中的比率的函數(shù)乘以合適的CFS得分,來額外地修改在ii或iii中上文描述的類型的修改的矩陣。這提供了基于正確語法使用和在CFS得分中反映的其它因素的強調(diào)。
v、通過生成合適的比率的函數(shù)、比率的函數(shù)、出現(xiàn)頻率和標(biāo)準(zhǔn)化的出現(xiàn)頻率,來額外地修改在ii、iii或iv中上文描述的類型的修改的矩陣。通過將合適的比率或在每個優(yōu)先選擇度量中的比率的函數(shù)乘以該CFS的出現(xiàn)頻率,來生成優(yōu)選的函數(shù)。
E、通過將備選校正的相似性得分乘以用于該備選校正的所有CFS的特定備選校正/CFS優(yōu)先選擇度量的和,基于在D中上文描述的特定備選校正/CFS優(yōu)先選擇度量,計算用于每個備選校正的最終優(yōu)先選擇度量。
說明了這種修改的矩陣的使用的示例如下 提供以下輸入文本 I will be able to tach base with you next week 使用參照圖6A上文描述的功能,為了校正選擇以下簇 tach 使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出) teach;touch 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′ago to tach′;′to tach base′ 使用參照上述子階段IIA和IIC上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表20所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率和標(biāo)準(zhǔn)化的出現(xiàn)頻率的矩陣 表20
應(yīng)當(dāng)注意,對于一個特征,“teach”的出現(xiàn)頻率和標(biāo)準(zhǔn)化出現(xiàn)頻率兩者都比“touch”的出現(xiàn)頻率和標(biāo)準(zhǔn)化出現(xiàn)頻率高,但是對于另一個特征,“touch”的出現(xiàn)頻率和標(biāo)準(zhǔn)化出現(xiàn)頻率兩者都比“teach”的出現(xiàn)頻率和標(biāo)準(zhǔn)化出現(xiàn)頻率高。為了做出備選校正的正確選擇,按照下文描述,優(yōu)選地使用參照子階段IIG上文描述的比率度量。
在該示例中,如在表21中指示了備選簇校正的不基于上下文相似性得分 表21 可以看出,因為“teach”具有最高相似性得分,所以參考簇是“teach”。盡管如此,基于上文描述的最終優(yōu)先選擇得分,還是選擇“touch”。這不是直覺,因為可以根據(jù)上述矩陣的考慮來理解,其中,所述矩陣指示了“teach”具有最高的出現(xiàn)頻率和最高的標(biāo)準(zhǔn)化出現(xiàn)頻率。在該示例中,因為用于其中有利于“touch”的特征的出現(xiàn)頻率的比率遠(yuǎn)高于用于其中有利于“teach”的特征的出現(xiàn)頻率的比率。
F、可選地,使用以下決定規(guī)則中的一個或多個,基于用于該備選校正和用于參考簇的頻率函數(shù)值和優(yōu)先選擇度量的比較,可以濾除備選校正 1、濾除具有低于預(yù)定閾值的相似性得分并且具有CFS頻率函數(shù)(所述CFS頻率函數(shù)比用于指示一個特征的參考簇的CFS頻率函數(shù)低,其中,所述至少一個特征具有比預(yù)定閾值高的CFS得分)的備選校正。
2、濾除具有低于預(yù)定閾值的相似性得分并且具有優(yōu)先選擇度量(所述優(yōu)先選擇度量比用于至少一個特征的預(yù)定閾值低,其中,所述特征具有比另一個預(yù)定閾值高的CFS得分)的備選校正。
3、a、確定每個CFS的CFS得分; b、對于每個CFS,確定用于參考簇和用于備選校正的CFS頻率函數(shù),由此確定參考簇或備選校正是否具有用于該CFS的較高頻率函數(shù); c、對備選校正具有比參考簇較高的頻率的CFS的CFS得分進行求和; d、對參考簇具有比備選校正較高的頻率的CFS的CFS得分進行求和;以及 e、如果c中的和比d中的和低,那么濾除備選校正。
以下示例說明了過濾上面描述的過濾功能。
提供了以下輸入文本 I am faelling en love 使用參照圖6A上文描述的功能,為了校正選擇以下簇 faelling en 使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出) falling on;falling in;feeling on;feeling in 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′am faelling en′;′faelling en love′;′am faelling en love′;′I am faelling en′ 使用參照本文子階段IIA上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表22所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率的矩陣 表22 消除全部包括在至少具有出現(xiàn)的最低閾值頻率的其它CFS的所有CFS。例如,消除以下feature-gram ′am faelling en′;′faelling en love′ 在該示例中,剩余的CFS是feature-gram ′am faelling en love′;′I am faelling en′ 在該示例中,如在表23中指示了備選簇校正的不基于上下文相似性得分 表23 濾除備選校正“falling on”、“feeling on”和“feeling in”,因為對于CFS中的一個,它們的出現(xiàn)頻率為0。
G、參照階段III按照上文所討論的,基于在A-E上文描述開發(fā)的最終優(yōu)先選擇度量,對在F中過濾后留下的備選校正建立排序。
H、如參照階段IV上文討論的,將可信度分配給選擇的備選校正?;谝韵聟?shù)中的一個或多個來計算該可信度 a、按照在上述子階段IIB中提供的選擇的CFS的數(shù)量、類型和得分; b、在CFS的情況下,各種備選簇連接的出現(xiàn)頻率的統(tǒng)計顯著性; c、基于每個CFS的優(yōu)先選擇度量和各種備選校正的詞相似性得分,同意備選校正的選擇的程度; d、在預(yù)定最低閾值以上的選擇的備選簇連接的不基于上下文的相似性得分(階段I)。
e、上下文數(shù)據(jù)可用的程度,由在減少的矩陣中的CFS的數(shù)量來指示,其中,所述矩陣具有在預(yù)定最小閾值以上的CFS得分并且比另一個預(yù)定閾值具有優(yōu)先選擇的得分。
如果可信度在預(yù)定的閾值以上,那么在沒有用戶交互的情況下實現(xiàn)選擇的備選校正。如果可信度在預(yù)定的閾值以下但是在較低預(yù)定的閾值以上,那么實現(xiàn)選擇的備選校正,但是引發(fā)了用戶交互。如果可信度在較低的預(yù)定閾值以下,那么引發(fā)基于備選校正的優(yōu)選的列表的用戶選擇。
以下示例是可信度得分的說明性使用 提供以下輸入文本 He was not feeling wehl when he returned 使用參照圖6A上文描述的功能,為了校正選擇以下簇 wehl 使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出) wale;well 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′was not feeling wehl′;′not feeling wehl when′;′feeling wehl when he′;′wehl when he returned′ 使用參照本文子階段IIA上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表24所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率的矩陣 表24 上述示例說明根據(jù)在上述H中闡述的所有標(biāo)準(zhǔn),選擇′well′而不是′wale′,因為′well′具有高的可信度。
在以下示例中,可信度有些低,這是由于以下事實備選校正′back′具有比在CFS′bech in the summer′中的′beach′較高的出現(xiàn)頻率,但是′beach′具有比在CFS′on the beech in′和′the bech in the′較高的出現(xiàn)頻率?;跇?biāo)準(zhǔn)H(c),選擇帶有中間可信度的備選校正′beach′。
提供以下輸入文本 I like to work on the bech in the summer 使用參照圖6A上文描述的功能,為了校正選擇以下簇 bech 使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出) beach;beech;back 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′on the bech in′;′the bech in the′;′bech in the summer′ 使用參照子階段IIA上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表25所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率的矩陣 表25 基于標(biāo)準(zhǔn)H(c),選擇帶有中間可信度的備選校正′beach′。
在以下示例中,基于標(biāo)準(zhǔn)H(a),可信度更低 接收以下輸入文本 Exarts are restoring the British Museum′s round reading room 使用參照圖6A上文描述的功能,為了校正選擇以下簇 Exarts 使用參照圖7A上文描述的功能,生成以下備選詞簇校正(部分地列出) Experts;Exerts;Exits 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′Exarts are′;′Exarts are restoring′;′Exarts are restoring the;′Exarts arerestoring the British′ 使用參照子階段IIA上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表26所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率的矩陣 表26 消除出現(xiàn)頻率為零的所有備選校正的所有CFS。在該示例中,消除以下feature-gram ′Exarts are restoring′;′Exarts are restoring the′;′Exarts are restoring theBritish′ 在該示例中,僅剩余的CFS是feature-gram ′Exarts are′ 從上述示例看出,在過濾過程中存留的CFS是“exart are”。因此,可信度相當(dāng)?shù)?,因為選擇僅基于單個CFS,其相對地短并且除了懷疑的詞之外僅包括一個詞,所述詞是經(jīng)常出現(xiàn)的詞。
現(xiàn)在參照圖9,其是說明了在圖3、10和11的誤用詞和預(yù)防校正功能中有用的并且也在圖4的詞匯增強功能中有用的各種備選詞校正的基于上下文和詞的基于相似性得分的功能的簡化的流程圖。
如圖9所示,各種備選詞校正的基于上下文和詞的基于相似性得分在以下大體的階段中進行 I、不基于上下文計分-按照詞的書寫外觀和發(fā)音相似性,基于與輸入文本中的簇的相似性來對各種簇備選詞計分。
II、使用互聯(lián)網(wǎng)語料庫的基于上下文計分-基于提取的上下文特征序列(CFS)(所述CFS是按照參照圖5上文描述來提供的),還對每個各種簇備選詞計分。該計分包括以下子階段 IIA、在參照圖5按照上文描述提取的CFS的情況下,在由圖7A或7B的功能產(chǎn)生的各種備選詞簇校正上,優(yōu)選地使用互聯(lián)網(wǎng)語料庫,來執(zhí)行出現(xiàn)頻率的分析。
IIB、具體地說是基于子階段IIA的出現(xiàn)頻率的分析結(jié)果來執(zhí)行各種CFS選擇并且權(quán)衡各種CFS。權(quán)衡還基于各種CFS的相對固有的重要性??梢岳斫?,可以對一些CFS給出零權(quán)重,因此不選擇它們。優(yōu)選地,對選擇的CFS給出相對的權(quán)重。
IIC、將出現(xiàn)頻率的度量分配到用于在子階段IIB中的每個選擇的CFS的每個備選校正。
IID、具體地說基于子階段IIA的出現(xiàn)頻率的分析結(jié)果、子階段IIC的出現(xiàn)頻率的度量、子階段IIB的CFS選擇和權(quán)重來生成備選簇校正的減少的組。
IIE、選擇輸入簇作為參考簇校正來使用。
IIF、將出現(xiàn)頻率的度量分配到用于在階段IIB中的每個選擇的CFS的子階段IIE的參考簇校正。
IIG、將比率度量分配到在子階段IIB中的每個選擇的CFS,所述比率度量代表對于該特征,每個備選校正的出現(xiàn)頻率的度量與分配給子階段IIB的參考簇的出現(xiàn)頻率的度量之比。
III、基于階段I的結(jié)果和階段II的結(jié)果來選擇最優(yōu)選的備選簇校正。
IV、將可信度等級得分分配到最優(yōu)選的備選簇校正。
IV、將可信度等級得分分配到最優(yōu)選的備選簇校正。
下文示出了在階段II-IV中上文描述的功能的更為詳細(xì)的描述 參照子階段IIA,按照圖5中上文描述來生成包括要被校正的簇的所有CFS。消除包含懷疑的錯誤而不是在輸入簇中的錯誤的CFS。
生成矩陣,其指示了在語料庫(優(yōu)選的是互聯(lián)網(wǎng)語料庫)中,用于每個CFS的簇的每個備選詞校正的出現(xiàn)頻率。消除用于出現(xiàn)頻率為零的所有備選校正的所有CFS。消除全部包括在至少具有出現(xiàn)的最低閾值頻率的其它CFS的所有CFS。
以下示例說明了出現(xiàn)頻率矩陣的產(chǎn)生 提供以下輸入文本 I lick two play outside a lot 使用參照圖6B上文描述的功能,為了校正選擇以下簇 lick two 使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出) like to;like two;lick two;lack two;lack true;like true 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ‘lick two’;‘I lick two’;‘lick two play’;‘I lick two play’;‘lick two playoutside’;‘I lick two play outside’;‘lick two play outside a’ 使用參照階段IIA上文描述的功能,為了在CFS的上述列表中的備選詞簇校正的上述列表,生成在表27中所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率矩陣 表27 消除用于出現(xiàn)頻率為0的所有備選校正的所有CFS。在該示例中,消除以下feature-gram ‘lick two play outside a′ 所以,消除全部包括在至少具有出現(xiàn)的最低閾值頻率的其它CFS的所有CFS ‘lick two′;‘I lick two′;‘lick two play′;‘I lick two play′;‘lick two play outside′ 在該示例中,僅剩余的CFS是feature-gram ‘I lick two play outside′ 得到的矩陣按照表28所示出現(xiàn) 表28 上述示例說明了根據(jù)本發(fā)明的優(yōu)選實施例的矩陣的生成。在該示例中,很明顯,“l(fā)ike to”是優(yōu)選的備選校正??梢岳斫猓诂F(xiàn)實中,選擇通常不是如此簡單。因此,在下文示出的其它示例中,提供了用于在備選校正中做更為困難的選擇的功能。
返回考慮子階段II B,可選地,參照圖5按照上文描述的,為每個剩余的CFS計分。此外,包含在多個詞輸入的較早的校正迭代中引入的詞并且具有在預(yù)定的可信度閾值以下的可信度的CFS是消極有偏置的。
在通常的情況下,類似于在子階段II C中上文描述的那樣,生成標(biāo)準(zhǔn)化頻率矩陣,其指示在互聯(lián)網(wǎng)語料庫中的每個CFS的標(biāo)準(zhǔn)化出現(xiàn)頻率。通過將每個CFS頻率除以有關(guān)簇備選詞的出現(xiàn)頻率的函數(shù),通常根據(jù)頻率矩陣生成標(biāo)準(zhǔn)化頻率矩陣。
標(biāo)準(zhǔn)化用于抵消在各種備選校正的總體普及度中的實質(zhì)差別的影響。適合的標(biāo)準(zhǔn)化因子是在不考慮特定CFS的情況下,基于在作為整體的語料庫中各種備選校正的總體出現(xiàn)頻率。
以下示例說明了標(biāo)準(zhǔn)化出現(xiàn)頻率矩陣的生成 提供以下輸入文本 footprints of a mysterious[hound/hand]said to be six feet tall 使用參照圖6B上文描述的功能,為了校正選擇以下簇 hound 使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出) hound;hand;sound 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′a mysterious hound′;′hound said′ 使用參照本文的階段IIC上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成在表29所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率和標(biāo)準(zhǔn)化出現(xiàn)頻率的矩陣 表29
可以從上述示例中理解,由于在各種備選校正的總體普及度中的實質(zhì)差異,具有最高出現(xiàn)頻率的詞并非必然具有最高的標(biāo)準(zhǔn)化出現(xiàn)頻率。在上述示例中,“hound”具有最高的標(biāo)準(zhǔn)化出現(xiàn)頻率,并且從輸入文本的上下文顯然可以看出,“hound”是正確詞,而不是在互聯(lián)網(wǎng)語料庫中具有較高出現(xiàn)頻率的“hand”。
本發(fā)明的特定特征是,標(biāo)準(zhǔn)化頻率(其抵消在各種備選校正的總體普及度中的實質(zhì)差異)優(yōu)選地用于在備選校正中的選擇。可以理解,出現(xiàn)頻率的其它度量而不是標(biāo)準(zhǔn)化出現(xiàn)頻率可以可選地或額外地用作度量。在出現(xiàn)頻率相對低或特別地高的情況下,額外的或可選的度量是有益的。
根據(jù)以下的討論將可以理解,額外的功能通常在各種備選詞校正中選擇是有用的。下文描述了這些功能。
在子階段IID,消除根據(jù)以下兩種度量的、不優(yōu)選于另一個備選簇校正的每個備選簇校正 i、具有比其它備選簇校正低的詞相似性得分;以及 ii、對于所有CFS,比其它備選簇校正具有較低的出現(xiàn)頻率并且還優(yōu)選地具有較低的標(biāo)準(zhǔn)化的出現(xiàn)頻率。
以下示例說明了按照上文描述的備選校正的消除 提供了以下輸入文本; I leave on a big house 使用參照圖6B上文描述的功能,為校正選擇以下簇 leave on 使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出) leave in;live in;love in;leave on 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′I leave on a′;′leave on a big′ 使用參照本文的階段IIE上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表30所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率和標(biāo)準(zhǔn)化的出現(xiàn)頻率的矩陣 表30
在該示例中,如在表31中指示了備選簇校正的不基于上下文相似性得分 表31 因為“l(fā)ove in”比“l(fā)ive in”具有較低的相似性得分以及較低的出現(xiàn)頻率和較低的標(biāo)準(zhǔn)化出現(xiàn)頻率,所以消除備選簇校正“l(fā)ove in”。因為“l(fā)eave in”的相似性得分比“l(fā)ive in”的得分高,因此在該階段不消除備選簇校正“l(fā)eavein”。
從上述可以理解,階段IID的功能的操作的結(jié)果是減少的頻率矩陣并且優(yōu)選地也是減少的標(biāo)準(zhǔn)化頻率矩陣,所述矩陣指示了出現(xiàn)頻率并且優(yōu)選地還指示了減少的多個備選校正中的每個的標(biāo)準(zhǔn)化出現(xiàn)頻率,每個矩陣具有用于減少的多個CFS的每個的相似性得分。從以下示例可以看出,對于所有其它備選簇選擇功能,優(yōu)選地使用備選簇校正的減少的組。
對于在減少的頻率矩陣和優(yōu)選的在減少的標(biāo)準(zhǔn)化頻率矩陣中的每個備選校正,生成最終優(yōu)先選擇度量??梢允褂靡韵聜溥x度量中的一個或多個來生成用于每個備選校正的最終優(yōu)先選擇得分 下文使用的術(shù)語“頻率函數(shù)”指代頻率、標(biāo)準(zhǔn)化頻率或頻率和標(biāo)準(zhǔn)化頻率兩者的函數(shù)。
A、一種可能的優(yōu)先選擇度量是在減少的矩陣或多個矩陣中的任何CFS的減少的矩陣或多個矩陣中的每個備選簇校正的最高的出現(xiàn)頻率函數(shù)。例如,將按照如下來對各種備選簇校正計分 提供以下輸入文本 I am vary satisfied with your work 使用參照圖6B上文描述的功能,為了校正選擇以下簇 vary 使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出) vary;very 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′am vary′;′vary satisfied′;′I am vary satisfied with′ 使用參照本文的階段IIC上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表32和33所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率和標(biāo)準(zhǔn)化的出現(xiàn)頻率的矩陣 表32
表33
可以看出,在該示例中,根據(jù)出現(xiàn)頻率和標(biāo)準(zhǔn)化出現(xiàn)頻率兩者,“very”具有最高出現(xiàn)頻率函數(shù)。
B、另一個可能的優(yōu)先選擇度量是用于每個備選校正的所有CFS的平均出現(xiàn)頻率函數(shù)。例如,將按照如下對各種備選校正計分 提供以下輸入文本 A while ago the lived 3 dwarfs 使用參照圖6B上文描述的功能,為了校正選擇以下簇 the 使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出) the;they;she;there 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′ago sthe lived′;′sthe lived 3′ 使用參照本文的階段IIC上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表34和35所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率、標(biāo)準(zhǔn)化出現(xiàn)頻率和平均出現(xiàn)頻率的矩陣 表34
表35
應(yīng)當(dāng)注意,盡管“there”具有其在矩陣中最大的出現(xiàn)頻率的CFS,但是基于平均出現(xiàn)頻率來選擇“they”。
在該示例中,如在表36中指示了備選簇校正的不基于上下文相似性得分 表36 應(yīng)當(dāng)注意,不選擇具有最高相似性得分的備選簇校正。
C、其它可能優(yōu)先選擇度量是對于每個CFS的出現(xiàn)頻率函數(shù)的每個備選校正的所有CFS的加權(quán)和,其中所述每個CFS的出現(xiàn)頻率函數(shù)是在參照圖5上文描述的功能來計算時,通過乘以該CFS的得分得到的。
D、參照子階段IIE-IIG按照上文描述的,通過任意一個或多個,并且更優(yōu)選的以及最優(yōu)選的是,關(guān)于在減少的矩陣或多個矩陣中的備選校正的所有以下操作,生成特定備選校正/CFS優(yōu)先選擇度量 i、選擇來自被旋轉(zhuǎn)用于校正的原始輸入文本的簇作為參考簇。
ii、產(chǎn)生修改的矩陣,其中,在每個優(yōu)先選擇矩陣中,在每個feature-gram中的每個備選校正的出現(xiàn)頻率函數(shù)由每個備選校正的出現(xiàn)頻率函數(shù)與參考簇的出現(xiàn)頻率函數(shù)之比來代替。
iii、進一步修改在ii中上文描述的類型的修改的矩陣,從而通過用于減少在比率中的很大差異的計算重要性的比率的函數(shù)來代替每個優(yōu)先選擇度量中的比率。合適的這種函數(shù)是對數(shù)函數(shù)。該操作的目的是不強調(diào)在最優(yōu)選的備選校正的最終優(yōu)先選擇得分中的出現(xiàn)頻率中的很大差異的重要性,而是維持在最終優(yōu)先選擇計分中的出現(xiàn)頻率中的很大差異,因此消除最不優(yōu)選的備選校正。
iv、通過將合適的比率或在每個優(yōu)先選擇度量中的比率的函數(shù)乘以合適的CFS得分,來額外地修改在ii或iii中上文描述的類型的修改的矩陣。這提供了基于正確語法使用和在CFS得分中反映的其它因素的強調(diào)。
v、通過將每個優(yōu)先選擇矩陣中的合適的比率或比率的函數(shù)乘以用戶不確定度量的函數(shù),來額外地修改在ii、iii或iv中上文描述的類型的修改的矩陣。用戶輸入不確定度量的一些示例包括與在詞處理器中執(zhí)行的輸入詞或簇有關(guān)的編輯操作的數(shù)量,與文檔的其它詞有關(guān)的編輯操作;在詞處理器中執(zhí)行的輸入詞或簇的寫入的時序,與文檔的其它詞的寫入的有關(guān)時間以及在語音識別輸入功能中執(zhí)行的輸入詞或簇的說的時序,與該用戶說的其它詞有關(guān)的時間。用戶輸入不確定度度量提供了某用戶如何選擇該詞的指示。該步驟得到參考簇的計算偏值并且由關(guān)于該簇的用戶的確定度或不確定度的函數(shù)來修改。
vi、通過生成合適的比率的函數(shù)、比率的函數(shù)、出現(xiàn)頻率和標(biāo)準(zhǔn)化的出現(xiàn)頻率,來額外地修改在ii、iii或iv中上文描述的類型的修改的矩陣。通過將合適的比率或在每個優(yōu)先選擇度量中的比率的函數(shù)乘以該CFS的出現(xiàn)頻率,來生成優(yōu)選的函數(shù)。
E、通過將備選校正的相似性得分乘以用于該備選校正的所有CFS的特定備選校正/CFS優(yōu)先選擇度量的和,基于在D中上文描述的特定備選校正/CFS優(yōu)先選擇度量,計算用于每個備選校正的最終優(yōu)先選擇度量。
說明了這種修改的矩陣的使用的示例如下 提供以下輸入文本 I will be able to teach base with you next week 使用參照圖6B上文描述的功能,為了校正選擇以下簇 teach 使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出) teach;touch 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′ago to tach′;′to tach base′ 使用參照上述子階段IIA和IIC上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表37所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率和標(biāo)準(zhǔn)化的出現(xiàn)頻率的矩陣 表37
應(yīng)當(dāng)注意,對于一個特征,“teach”的出現(xiàn)頻率和標(biāo)準(zhǔn)化出現(xiàn)頻率兩者都比“touch”的出現(xiàn)頻率和標(biāo)準(zhǔn)化出現(xiàn)頻率高,但是對于另一個特征,“touch”的出現(xiàn)頻率和標(biāo)準(zhǔn)化出現(xiàn)頻率兩者都比“teach”的出現(xiàn)頻率和標(biāo)準(zhǔn)化出現(xiàn)頻率高。為了做出備選校正的正確選擇,按照下文描述,優(yōu)選地使用參照子階段IIG上文描述的比率度量。
在該示例中,如在表38中指示了備選簇校正的不基于上下文相似性得分 表38 可以看出,因為“teach”具有最高相似性得分,所以參考簇是“teach”。盡管如此,基于上文描述的最終優(yōu)先選擇得分,還是選擇“touch”。這不是直覺,因為可以根據(jù)上述矩陣的考慮來理解,其中,所述矩陣指示了“teach”具有最高的出現(xiàn)頻率和最高的標(biāo)準(zhǔn)化出現(xiàn)頻率。在該示例中,因為用于其中有利于“touch”的特征的出現(xiàn)頻率的比率遠(yuǎn)高于用于其中有利于“teach”的特征的出現(xiàn)頻率的比率。
F、可選地,使用以下決定規(guī)則中的一個或多個,基于用于該備選校正和用于參考簇的頻率函數(shù)值和優(yōu)先選擇度量的比較,可以濾除備選校正 1、濾除具有低于預(yù)定閾值的相似性得分并且具有CFS頻率函數(shù)(所述CFS頻率函數(shù)比用于指示一個特征的參考簇的CFS頻率函數(shù)低,其中,所述至少一個特征具有比預(yù)定閾值高的CFS得分)的備選校正。
2、濾除具有低于預(yù)定閾值的相似性得分并且具有優(yōu)先選擇度量(所述優(yōu)先選擇度量比用于至少一個特征的預(yù)定閾值低,其中,所述特征具有比另一個預(yù)定閾值高的CFS得分)的備選校正。
3、a、確定每個CFS的CFS得分; b、對于每個CFS,確定用于參考簇和用于備選校正的CFS頻率函數(shù),由此確定參考簇或備選校正是否具有用于該CFS的較高頻率函數(shù); c、對備選校正具有比參考簇較高的頻率的CFS的CFS得分進行求和; d、對參考簇具有比備選校正較高的頻率的CFS的CFS得分進行求和;以及 e、如果c中的和比d中的和低,那么濾除備選校正。
以下示例說明了過濾上面描述的過濾功能。
提供了以下輸入文本,通常是由語音識別功能輸入 I want[two/to/too]item,please 使用參照圖6B上文描述的功能,為了校正選擇以下簇 [two/to/too] 使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出) too;to;two 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′I want two′;′want two items′ 使用參照本文子階段IIA上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表39所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率的矩陣 表39 盡管“to”具有一個CFS的最高出現(xiàn)頻率,但是因為它對另一個CFS來說出現(xiàn)頻率為零,所以濾除備選詞校正“too”和“to”。
G、參照階段III按照上文所討論的,基于在A-E上文描述開發(fā)的最終優(yōu)先選擇度量,對在F中過濾后留下的備選校正建立排序。
H、如參照階段IV上文討論的,將可信度分配給選擇的備選校正?;谝韵聟?shù)中的一個或多個來計算該可信度 a、按照在上述子階段IIB中提供的選擇的CFS的數(shù)量、類型和得分; b、在CFS的情況下,各種備選簇連接的出現(xiàn)頻率的統(tǒng)計顯著性; c、基于每個CFS的優(yōu)先選擇度量和各種備選校正的詞相似性得分,同意備選校正的選擇的程度; d、在預(yù)定最低閾值以上的選擇的備選簇連接的不基于上下文的相似性得分(階段I)。
e、上下文數(shù)據(jù)可用的程度,由在減少的矩陣中的CFS的數(shù)量來指示,其中,所述矩陣具有在預(yù)定最小閾值以上的CFS得分并且比另一個預(yù)定閾值具有優(yōu)先選擇的得分。
如果可信度在預(yù)定的閾值以上,那么在沒有用戶交互的情況下實現(xiàn)選擇的備選校正。如果可信度在預(yù)定的閾值以下但是在較低預(yù)定的閾值以上,那么實現(xiàn)選擇的備選校正,但是引發(fā)了用戶交互。如果可信度在較低的預(yù)定閾值以下,那么引發(fā)基于備選校正的優(yōu)選的列表的用戶選擇。
以下示例是可信度得分的說明性使用 提供以下輸入文本 He was not feeling wale when he returned 使用參照圖6B上文描述的功能,為了校正選擇以下簇 wale 使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出) wale;well 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′was not feeling wale′;′not feeling wale when′;′feeling wale when he′;′walewhen he returned′ 使用參照本文子階段IIA上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表40所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率的矩陣 表40 上述示例說明根據(jù)在上述H中闡述的所有標(biāo)準(zhǔn),選擇′well′而不是′wale′,因為′well′具有高的可信度。
在以下示例中,可信度有些低,這是由于以下事實備選校正′back′具有比在CFS′bech in the summer′中的′beach′較高的出現(xiàn)頻率,但是′beach′具有比在CFS′on the beech in′和′the bech in the′較高的出現(xiàn)頻率?;跇?biāo)準(zhǔn)H(c),選擇帶有中間可信度的備選校正′beach′。
提供以下輸入文本 I like to work on the beech in the summer 使用參照圖6B上文描述的功能,為了校正選擇以下簇 beech 使用參照圖7A上文描述的功能,生成以下備選簇校正(部分地列出) beach;beech;back 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′on the beech in′;′the beech in the′;′beech in the summer′ 使用參照子階段IIA上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表41所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率的矩陣 表41 基于標(biāo)準(zhǔn)H(c),選擇帶有中間可信度的備選校正′beach′。
在以下示例中,基于標(biāo)準(zhǔn)H(a),可信度更低 接收以下輸入文本 Exarts are restoring the British Museum′s round reading room 使用參照圖6B上文描述的功能,為了校正選擇以下簇 Exarts 使用參照圖7A上文描述的功能,生成以下備選詞簇校正(部分地列出) Experts;Exerts;Exits 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′Exarts are′;′Exarts are restoring′;′Exarts are restoring the;′Exarts arerestoring the British′ 使用參照子階段IIA上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表42所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率的矩陣 表42 消除出現(xiàn)頻率為零的所有備選校正的所有CFS。在該示例中,消除以下feature-gram ′Exarts are restoring′;′Exarts are restoring the′;′Exarts are restoring theBritish′ 在該示例中,僅剩余的CFS是feature-gram ′Exarts are′ 從上述示例看出,在過濾過程中存留的CFS是“Exart are”。因此,可信度相當(dāng)?shù)?,因為選擇僅基于單個CFS,其相對地短并且除了懷疑的詞之外僅包括一個詞,所述詞是經(jīng)常出現(xiàn)的詞。
以下示例說明了在上述階段D和E中描述的最終優(yōu)先選擇得分度量的使用。
提供了一些輸入文本 Some kids don′t do any sport and sit around doing nothing and getting fastso you will burn some calories and get a lot fitter if you exercise. 使用參照圖6B上文描述的功能,為了校正選擇以下簇 fast 使用參照圖7A上文描述的功能,生成以下備選詞簇校正(部分地列出) fat;fast 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′and getting fast′;′getting fast so′;′fast so you′;′fast so you will′ 使用參照本文的子階段IIA上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表43所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率的矩陣 表43 在該示例中,在表44中指示了備選簇校正的不基于上下文得分 表44 使用在上述階段D和E中描述的最終優(yōu)先選擇得分度量,選擇帶有低可信度的備選詞校正“fat”。
現(xiàn)在參照圖10,其是說明了丟失項目校正功能的操作的詳細(xì)的流程圖。丟失項目校正功能用于校正丟失的冠詞、介詞、標(biāo)點和在輸入文本中主要是語法功能的其它項目。該功能優(yōu)選地對從圖1的拼寫校正功能輸出的拼寫校正輸入文本進行操作。
以如下方式優(yōu)選地執(zhí)行懷疑的丟失項目的識別 初始,生成用于拼寫校正輸入文本的feature-gram。確定在語料庫(優(yōu)選地是互聯(lián)網(wǎng)語料庫)中拼寫校正輸入中的每個feature-gram的出現(xiàn)頻率(FREQ F-G)。
按照如下來計算每個feature-gram的期望的出現(xiàn)頻率(EFREQ F-G) 假定feature-gram包含n個詞,被識別為W1-Wn。
Wi代表feature-gram中的第i個詞。
給定的feature-gram的期望的出現(xiàn)頻率被認(rèn)為是基于feature-gram中的詞分配到隨后的詞W1...W(n-1)的每個的兩個連續(xù)的部分的該feature-gram的最高期望的頻率。
按照如下可以表示基于feature-gram中的詞分配到隨后的詞Wi的兩個連續(xù)的部分的feature-gram的期望的頻率 關(guān)于Wi的EFREQ F-G=(FREQ(W1-Wi)*FREQ(Wi+1-Wn))/(互聯(lián)網(wǎng)語料庫中的所有詞的總頻率) 計算基于feature-gram中的詞分配到兩個連續(xù)的部分的所有可能的每個feature-gram的期望的頻率。
如果關(guān)于Wi的FREQ F-G/EFREQ F-G比預(yù)定的閾值低,那么從以下方面來說在該feature-gram中,在Wi與Wi+1之間有丟失的冠詞、介詞或標(biāo)點,認(rèn)為關(guān)于Wi的feature-gram是懷疑的。
優(yōu)選地通過嘗試找到由最大量的不懷疑的上下文數(shù)據(jù)所包圍的詞的聯(lián)結(jié)點,為了校正選擇在拼寫校正輸入文本中的兩個連續(xù)詞之間的懷疑詞聯(lián)結(jié)點。優(yōu)選地,選擇在其附近具有不懷疑的詞的聯(lián)結(jié)點的最長序列或多個序列。
優(yōu)選地基于可能丟失的標(biāo)點、冠詞、介詞、連詞或其它項目(其通常不包括名詞、動詞或形容詞)的預(yù)定義的組,為每個詞聯(lián)結(jié)點生成一個或優(yōu)選地多個備選詞插入。
優(yōu)選地基于參照圖9和下文、上文描述的校正備選詞計分算法,來提供各種備選詞插入的至少部分地基于上下文和詞的基于相似性得分。
以下示例是說明性的 提供以下輸入文本 I can′t read please help me 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) I can′t read;can′t read please;read please help;please help me 使用參照上文描述的功能,為了通常像表45那樣出現(xiàn)的feature-gram的上述列表,生成在互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率的矩陣 表45 根據(jù)以下表示,為了關(guān)于feature-gram中的每個詞Wi的每個feature-gram,計算期望的出現(xiàn)頻率 關(guān)于Wi的EFREQ F-G=(FREQ(W1-Wi)*FREQ(Wi+1-Wn))/(互聯(lián)網(wǎng)語料庫中的所有詞的總頻率) 在表46和47中可以看出一些這些計算的示例性的結(jié)果 表46 表47 從上述結(jié)果可以看出,每個feature-gram的實際出現(xiàn)頻率比其期望的出現(xiàn)頻率低。這指示了懷疑缺少了項目,例如標(biāo)點。
生成在詞“read”之后的備選插入的列表。該列表優(yōu)選地包括標(biāo)點、冠詞、連詞和介詞的預(yù)定的列表。具體地說,它將包括句號“.”。
備選的部分列表是 ′read please′;′read.Please′;′read of please′;′read a please′ 使用參照圖5上文描述的功能,生成以下CFS ′I can′t read[?]′;′read[?]please help′;,[?]please help me′ 使用在圖9的階段IIA中描述的功能,為了CFS的上述列表中備選詞簇校正的上述列表,生成表48中所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率的矩陣 當(dāng)“.”包括在簇中時,對于在′.′之前和之后的文本分別地檢索包括帶有′.′的簇。即,feature-gram“can’t read.Please”將不生成,因為它包括兩個分離的語法分析短語。
表48 *當(dāng)計算在語料庫中詞的出現(xiàn)頻率時,從feature-gram的開始忽略了′.′。例如,“.Please help me”的頻率等于“Please help me”的頻率。
使用在圖9的階段D和E中描述的功能,最終優(yōu)先選擇度量選擇備選校正“read.Please”并且校正的輸入文本是 I can′t read.Please help me 以下示例說明了增加丟失的介詞的功能。
提供以下輸入文本 I sit the sofa 使用下文描述的功能,為了校正選擇以下簇 ′sit the′ 使用上文描述的功能,生成以下備選簇校正(部分地列出) sit on the;sit of the;sit the 使用參考圖5上文描述的功能,生成以下CFS ′I sit the′;′sit the sofa′ 使用參照圖9在子階段IIA中描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表49所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率的矩陣 表49 使用在圖9的階段IID和IIE中描述的功能,最終優(yōu)先選擇度量選擇備選校正“sit on the”并且校正輸入文本是 I sit on the sofa. 現(xiàn)在參照圖11,其是說明了冗余項目校正功能的操作的詳細(xì)的流程圖。冗余項目校正功能用于校正冗余的冠詞、介詞、標(biāo)點和在輸入文本中主要具有語法功能的其它項目。該功能優(yōu)選地對從圖1的拼寫校正功能輸出的拼寫校正輸入文本進行操作。
可以理解,圖11的功能可以與圖10的功能組合或者可選地與圖10的功能并行地執(zhí)行、在其操作之前或之后執(zhí)行。
以如下方式優(yōu)選地執(zhí)行懷疑的冗余項目的識別 執(zhí)行關(guān)于拼寫校正輸入文本的搜索以識別屬于可能的冗余標(biāo)點、冠詞、介詞、連詞的預(yù)定義的組的項目和其它項目(所述其它項目通常不包括名詞、動詞或形容詞)。
對于每個這種項目,為了誤用詞和語法校正、包含這種項目的拼寫校正輸入文本的所有部分,生成feature-gram。計算每個這種feature-gram和其中項目被忽略的對應(yīng)的feature-gram的出現(xiàn)頻率。
如果其中項目被忽略的feature-gram的出現(xiàn)頻率超過其中項目出現(xiàn)的對應(yīng)的feature-gram的出現(xiàn)頻率,那么項目被認(rèn)為是懷疑的。
優(yōu)選地通過嘗試找到由最長的不懷疑的上下文數(shù)據(jù)包圍的項目,來選擇用于校正的在誤用詞和語法校正、拼寫校正輸入文本中的懷疑的項。優(yōu)選地,選擇具有在其附近具有最長的不懷疑的詞的序列或多個序列的項目。
為每個懷疑的項目生成可能的項目刪除。優(yōu)選地基于參照圖9和下文、上文描述的校正備選得分算法,來提供各種備選詞的至少部分的基于上下文和詞的基于相似性得分,即,項目的刪除或項目的不刪除。
以下示例是說明性的。
提供以下輸入文本 It is a nice,thing to wear. 搜索輸入文本來識別屬于普通的冗余項目(例如,標(biāo)點、介詞、連詞和冠詞)的預(yù)定的列表的任意項目。
在該示例中,逗號“,”被識別為屬于這種列表。
使用參照圖5上文描述的功能,生成包括逗號“,”的、在表50所示的feature-gram并且還生成沒有逗號的相同的feature-gram(部分地列出) 表50 使用上文描述的功能,為了通常如表51所示出現(xiàn)的feature-gram的上述列表,生成互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率的矩陣 表51 如上述矩陣中所示,忽略“,”的feature-gram的出現(xiàn)頻率超過出現(xiàn)“,”的對應(yīng)的feature-gram的出現(xiàn)頻率。因此,“,”被懷疑是冗余的。
基于保留逗號和忽略逗號的以下備選詞的基于上下文的得分,考慮逗號的可能的刪除 ′nice,′;′nice′ 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′a nice,′;′nice,thing′;′is a nice,′;′a nice,thing′;′nice,thing to′ 使用參照圖9上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表52所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率的矩陣 表52 消除全部包括在至少具有出現(xiàn)的最低閾值頻率的其它CFS的所有CFS。例如,消除以下feature-gram ′a nice,′;′nice,thing′ 在該示例中,剩余的CFS是feature-gram ′is a nice,′;′a nice,thing′;′nice,thing to′ 使用在上述圖9的階段D和E中描述的最終優(yōu)先選擇得分,來選擇沒有逗號的備選校正“nice”。在逗號刪除后的輸入文本是 It is a nice thing to wear 以下示例說明了刪除冗余冠詞的功能。
提供以下輸入文本 We should provide them a food and water 使用參照圖11上文描述的功能,為了校正選擇以下簇 a food 使用參照圖11上文描述的功能,生成以下備選簇校正(部分地列出) a food;food 使用參照圖5上文描述的功能,生成以下CFS(部分地列出) ′provide them a food′;′them a food and′;′a food and water′ 使用參照本文子階段IIA上文描述的功能,為了在CFS的上述列表中的備選簇校正的上述列表,生成表53所示的互聯(lián)網(wǎng)語料庫中的出現(xiàn)頻率的矩陣 表53 使用在圖9中描述的計分功能,最終優(yōu)先選擇度量選擇備選校正“food”并且校正輸入文本是 We should provide them food and water. 本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,本發(fā)明并不限于特定地示出并且在上文描述的內(nèi)容。而是,本發(fā)明的范圍包括本領(lǐng)域的技術(shù)人員在閱讀上述內(nèi)容時想到的并且不在現(xiàn)有技術(shù)范圍內(nèi)的、上文描述和示出的各種特征的組合和子組合以及其修改。
權(quán)利要求
1.一種計算機輔助語言校正系統(tǒng),包括
備選詞生成器,基于輸入句子,生成為所述句子中的多個詞中的每一個提供多個備選詞的基于文本的表示;
選擇器,用于至少部分地基于互聯(lián)網(wǎng)語料庫,針對所述句子中的所述多個詞中的每一個,在至少所述多個備選詞中進行選擇;以及
校正生成器,用于基于所述選擇器做出的選擇來提供校正輸出。
2.根據(jù)權(quán)利要求1所述的計算機輔助語言校正系統(tǒng),其中,所述選擇器用于,基于以下校正功能中的至少一個來做出所述選擇
拼寫校正;
誤用詞校正;
語法校正;以及
詞匯增強。
3.根據(jù)權(quán)利要求1所述的計算機輔助語言校正系統(tǒng),其中,所述選擇器用于,基于以下校正功能中的至少兩個來做出所述選擇
拼寫校正;
誤用詞校正;
語法校正;以及
詞匯增強。
4.根據(jù)權(quán)利要求3所述的計算機輔助語言校正系統(tǒng),并且其中,所述選擇器用于,基于校正的以下時間順序中的至少一個來做出所述選擇
先于誤用詞校正、語法校正和詞匯增強中的至少一個的拼寫校正;以及
先于詞匯增強的誤用詞校正和語法校正。
5.根據(jù)權(quán)利要求2-4中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中
由以下功能中的一個來提供所述輸入句子
詞處理器功能;
機器翻譯功能;
語音到文本轉(zhuǎn)換功能;
光學(xué)字符識別功能;以及
即時通信功能;以及
所述選擇器用于,基于以下校正功能中的至少一個來做出所述選擇
誤用詞校正;
語法校正;以及
詞匯增強。
6.根據(jù)權(quán)利要求2-5中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述校正生成器包括校正語言輸入生成器,用于在不需要用戶干預(yù)的情況下,基于所述選擇器做出的選擇,提供校正語言輸出。
7.根據(jù)權(quán)利要求2-6中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述語法校正功能包括標(biāo)點、動詞變形、單數(shù)/復(fù)數(shù)、冠詞和介詞校正功能中的至少一個。
8.根據(jù)權(quán)利要求2-7中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述語法校正功能包括替換、插入和省略校正功能中的至少一個。
9.根據(jù)權(quán)利要求1-8中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述選擇器包括基于上下文計分功能,用于至少部分地基于在互聯(lián)網(wǎng)語料庫中的上下文特征序列(CFS)出現(xiàn)的頻率,來排序所述多個備選詞。
10.根據(jù)權(quán)利要求9所述的計算機輔助語言校正系統(tǒng)并且其中,所述基于上下文計分功能還用于至少部分地基于在所述互聯(lián)網(wǎng)語料庫中的標(biāo)準(zhǔn)化CFS出現(xiàn)的頻率,來排序所述多個備選詞。
11.一種計算機輔助語言校正系統(tǒng),包括以下各項中的至少一個
拼寫校正功能;
誤用詞校正功能;
語法校正功能;以及
詞匯增強功能;以及
與以下各項中的至少一個協(xié)作并且使用互聯(lián)網(wǎng)語料庫的上下文特征序列功能所述拼寫校正功能;所述誤用詞校正功能、語法校正功能和所述詞匯增強功能。
12.根據(jù)權(quán)利要求11所述的計算機輔助語言校正系統(tǒng)并且其中,所述語法校正功能包括標(biāo)點、動詞變形、單數(shù)/復(fù)數(shù)、冠詞和介詞校正功能中的至少一個。
13.根據(jù)權(quán)利要求11或權(quán)利要求12所述的計算機輔助語言校正系統(tǒng)并且其中,所述語法校正功能包括替換、插入和省略校正功能中的至少一個。
14.根據(jù)權(quán)利要求11-13中的任意一項所述的計算機輔助語言校正系統(tǒng)并且包括以下各項中的至少兩個
所述拼寫校正功能;
所述誤用詞校正功能;
所述語法校正功能;以及
所述詞匯增強功能;以及
其中,所述上下文特征序列功能與以下各項中的至少兩個進行合作并且使用互聯(lián)網(wǎng)語料庫所述拼寫校正功能;所述誤用詞校正功能,所述語法校正功能和所述詞匯增強功能。
15.根據(jù)權(quán)利要求11-13中的任意一項所述的計算機輔助語言校正系統(tǒng)并且包括以下各項中的至少三個
所述拼寫校正功能;
所述誤用詞校正功能;
所述語法校正功能;
所述詞匯增強功能;以及
其中,所述上下文特征序列功能與以下各項中的至少三個進行合作并且使用互聯(lián)網(wǎng)語料庫所述拼寫校正功能;所述誤用詞校正功能,所述語法校正功能和所述詞匯增強功能。
16.根據(jù)權(quán)利要求11-13中的任意一項所述的計算機輔助語言校正系統(tǒng)并且包括
所述拼寫校正功能;
所述誤用詞校正功能;
所述語法校正功能;以及
所述詞匯增強功能;以及
其中,所述上下文特征序列功能與以下各項功能進行合作并且使用互聯(lián)網(wǎng)語料庫所述拼寫校正功能;所述誤用詞校正功能,所述語法校正功能和所述詞匯增強功能。
17.根據(jù)權(quán)利要求11-16中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述校正生成器包括校正語言生成器,用于在不需要用戶干預(yù)的情況下,基于所述選擇器做出的選擇,提供校正語言輸出。
18.一種計算機輔助語言校正系統(tǒng),包括
備選詞生成器,基于語言輸入,生成為所述句子中的多個詞中的每一個提供多個備選詞的基于文本的表示;
選擇器,用于至少部分地基于為所述語言輸入中的所述多個詞中的至少一些選擇的所述多個備選詞中的多個之間的關(guān)系,為所述語言輸入中的所述多個詞中的每一個,在至少所述多個備選詞之間進行選擇;以及
校正生成器,用于基于由所述選擇器做出的選擇,來提供校正輸出。
19.根據(jù)權(quán)利要求18所述的計算機輔助語言校正系統(tǒng)并且其中,所述語言輸入包括輸入句子和輸入文本中的至少一個。
20.根據(jù)權(quán)利要求18或權(quán)利要求19所述的計算機輔助語言校正系統(tǒng)并且其中,所述語言輸入是語音并且所述生成器將語音中的所述語言輸入轉(zhuǎn)換為為所述語言輸入中的多個詞提供多個備選詞的基于文本的表示。
21.根據(jù)權(quán)利要求18或權(quán)利要求19所述的計算機輔助語言校正系統(tǒng)并且其中
所述語言輸入是以下各項中的至少一個
文本輸入;
光學(xué)字符識別功能的輸出;
機器翻譯功能的輸出;以及
詞處理功能的輸出;以及
所述生成器將文本中的所述語言輸入轉(zhuǎn)換為為所述語言輸入中的多個詞提供多個備選詞的基于文本的表示。
22.根據(jù)權(quán)利要求18-21中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述選擇器,用于基于以下校正功能中的至少兩個,做出所述選擇
拼寫錯誤;
誤用詞校正;
語法校正;以及
詞匯增強。
23.根據(jù)權(quán)利要求22所述的計算機輔助語言校正系統(tǒng)并且其中,所述選擇器用于,基于校正的以下時間順序中的至少一個來做出所述選擇
先于誤用詞校正、語法校正和詞匯增強中的至少一個的拼寫校正;以及
先于詞匯增強的誤用詞校正和語法校正。
24.根據(jù)權(quán)利要求18-20中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述語言輸入是語音并且所述選擇器用于基于以下校正功能中的至少一個來做出所述選擇
誤用詞校正;
語法校正;以及
詞匯增強。
25.根據(jù)權(quán)利要求18-24中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述選擇器用于通過執(zhí)行以下功能中的至少兩個來做出所述選擇
選擇包括比初始選擇的所述語言輸入中的所有所述多個詞少的第一組詞或詞的組合;
之后對所述第一組詞或詞的組合的元素進行排序以建立選擇的優(yōu)先級;以及
之后為了所述第一組詞的元素,當(dāng)在所述多個備選詞之間選擇時,選擇其它詞而不是所有所述多個詞作為上下文來影響所述選擇。
26.根據(jù)權(quán)利要求18-25中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述選擇器用于通過執(zhí)行以下功能來做出所述選擇
當(dāng)選擇具有至少兩個詞的元素時,結(jié)合用于所述至少兩個詞彼此的所述多個備選詞的每個來評估用于所述至少兩個詞的每個的所述多個備選詞的每個。
27.根據(jù)權(quán)利要求18-26中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述校正生成器包括校正語言輸入生成器,用于在不需要用戶干預(yù)的情況下,基于所述選擇器做出的選擇,提供校正語言輸出。
28.一種計算機輔助語言校正系統(tǒng),包括
誤用詞懷疑器,基于所述語言輸入的上下文中詞的合適度來評估語言輸入中的至少大部分詞;以及
校正生成器,用于至少部分地基于由所述懷疑器執(zhí)行的評估,來提供校正輸出。
29.根據(jù)權(quán)利要求28所述的計算機輔助語言校正系統(tǒng)并且還包括
備選詞生成器,基于所述語言輸入,生成為所述語言輸入中的所述至少大部分詞中的至少一個提供多個備選詞的基于文本的表示;以及
選擇器,用于為所述語言輸入中的所述至少大部分的詞中的所述至少一個中的每一個,在至少所述多個備選詞中進行選擇,并且其中
所述校正生成器,用于基于所述檢測器做出的選擇,來提供所述校正輸出。
30.根據(jù)權(quán)利要求28或29所述的計算機輔助語言校正系統(tǒng)并且還包括
懷疑詞輸出指示器,其指示所述語言輸入中的所述詞的所述至少大部分中的至少一些被懷疑為誤用詞的程度。
31.根據(jù)權(quán)利要求28-30中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述校正生成器包括自動校正語言生成器,用于在不需要用戶干預(yù)的情況下,至少部分地基于由所述懷疑器執(zhí)行的評估,來提供校正文本輸出。
32.根據(jù)權(quán)利要求28-31中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述語言輸入是語音并且所述選擇器用于,基于以下校正功能中的至少一個,來做出所述選擇
誤用詞校正;
語法校正;以及
詞匯增強。
33.一種計算機輔助語言校正系統(tǒng),包括
誤用詞懷疑器,用于評估語言輸入中的詞;
備選詞生成器,為由所述懷疑器評估為懷疑詞的、所述語言輸入中的至少一些詞生成多個備選詞,所述語言輸入中的詞的所述多個備選詞中的至少一個與互聯(lián)網(wǎng)語料庫中所述語言輸入中的所述詞的上下文特征一致;
選擇器,用于在至少所述多個備選詞之間進行選擇;以及
校正生成器,用于至少部分地基于由所述選擇器做出的選擇,提供校正輸出。
34.一種計算機輔助語言校正系統(tǒng),包括
誤用詞懷疑器,評估語言輸入中的詞并且識別懷疑的詞;
備選詞生成器,生成用于所述懷疑詞的多個備選詞;
選擇器,根據(jù)多個選擇標(biāo)準(zhǔn)對每個所述懷疑詞以及為此由所述備選詞生成器生成的所述多個備選詞的一個進行評級,并且應(yīng)用與為此由所述備選詞生成器生成的所述多個備選詞中的一個有關(guān)的所述懷疑的詞有利的偏值;以及
校正生成器,用于至少部分地基于由所述選擇器做出的選擇,提供校正輸出。
35.一種計算機輔助語言校正系統(tǒng),包括
備選詞生成器,基于輸入為所述輸入中的至少一個詞生成多個備選詞;
選擇器,根據(jù)多個選擇標(biāo)準(zhǔn)對每個所述至少一個詞以及為此由所述備選詞生成器生成的所述多個備選詞中的多個進行評級,并且應(yīng)用與為此由所述備選詞生成器生成的所述多個備選詞中的一個有關(guān)的所述至少一個詞有利的偏值,所述偏值是指示提供了輸入的人的不確定度的所述輸入不確定度度量的函數(shù);以及
校正生成器,用于基于所述選擇器做出的選擇,提供校正輸出。
36.一種計算機輔助語言校正系統(tǒng),包括
不正確詞懷疑器,評估語言輸入中的詞的至少大部分,所述懷疑器至少部分地響應(yīng)于指示提供了輸入的人的不確定度的輸入不確定度度量,所述懷疑器提供懷疑的不正確詞輸出;以及
備用詞生成器,為由所述懷疑的不正確詞輸出所識別的懷疑的不正確詞生成多個備選詞;
選擇器,用于在每個懷疑的不正確詞和由所述備選詞生成器生成的所述多個備選詞中進行選擇;以及
用于基于所述選擇器做出的選擇,提供校正輸出的校正生成器。
37.一種計算機輔助語言校正系統(tǒng),包括
接收多個詞輸入并且提供校正輸出的拼寫校正模塊、誤用詞校正模塊、語法校正模塊和詞匯增強模塊中的至少一個,拼寫校正模塊、誤用詞校正模塊、語法校正模塊和詞匯增強模塊中的所述至少一個中的每一個包括
備選詞候選生成器,包括
語音相似性功能,用于基于與所述輸入中的詞的語音相似性,提出備選詞,并且用于指示語音相似性的度量;以及
字符串相似性功能,用于基于與所述輸入中的詞的字符串相似性,來提出備選詞,并且指示用于每個備選詞的字符串相似性的度量;以及
選擇器,用于通過使用所述語音相似性和字符串相似性度量以及基于上下文選擇功能,選擇所述輸出中的詞或由所述備選詞候選者生成器提出的備選詞候選者。
38.一種計算機輔助語言校正系統(tǒng),包括
懷疑詞識別功能,接收多個詞語言輸入并且提供指示懷疑詞的懷疑詞輸出;
特征識別功能,用于識別包括所述懷疑詞的特征;
備選詞選擇器,識別用于所述懷疑詞的備選詞;
特征出現(xiàn)功能,使用語料庫并提供出現(xiàn)輸出,關(guān)于在所述語料庫中的使用頻率來排序包括所述備選詞的各種特征;以及
選擇器,使用所述出現(xiàn)輸出來提供校正輸出,
所述特征識別功能包括特征過濾功能,所述特征過濾功能包括以下中的至少一個
用于消除包含懷疑的錯誤的特征的功能;
用于消極地偏置包含在所述多個詞輸入的較早的校正迭代中引入的詞并且具有在可信度預(yù)定的閾值以下的可信度的特征的功能;以及
用于消除包含在具有在預(yù)定的頻率閾值之上的出現(xiàn)頻率的另一個特征中所包含的特征的功能。
39.根據(jù)權(quán)利要求33-38中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述選擇器用于至少基于以下校正功能的兩個來做該選擇
拼寫校正;
誤用詞校正;
語法校正;以及
詞匯增強。
40.根據(jù)權(quán)利要求39所述的計算機輔助語言校正系統(tǒng)并且其中,所述選擇器用于基于校正的以下時間順序中的至少一個來做出所述選擇
先于誤用詞校正、語法校正和詞匯增強中的至少一個的拼寫校正;以及
先于詞匯增強的誤用詞校正和語法校正。
41.根據(jù)權(quán)利要求33-40中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述語言輸入是語音并且所述選擇器用于基于以下校正功能中的至少一個來做出所述選擇
語法校正;以及
誤用詞校正;以及
詞匯增強。
42.根據(jù)權(quán)利要求33-41中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述校正生成器包括校正語言輸入生成器,用于在不需要用戶干預(yù)的情況下,基于所述選擇器做出的選擇,提供校正語言輸出。
43.根據(jù)權(quán)利要求33-34和37-42中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述選擇器還用于,至少部分地基于用戶輸入不確定度度量來做出所述選擇。
44.根據(jù)權(quán)利要求43所述的計算機輔助語言校正系統(tǒng)并且其中,所述用戶輸入不確定度度量是基于提供了所述輸入的人的不確定度的測量的函數(shù)。
45.根據(jù)權(quán)利要求33-44中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述選擇器還使用用戶輸入歷史學(xué)習(xí)功能。
46.一種計算機輔助語言校正系統(tǒng),包括
懷疑詞識別功能,接收多個詞語言輸入并且提供指示懷疑詞的懷疑詞輸出;
特征識別功能,用于識別包括所述懷疑詞的特征;
備選詞選擇器,識別用于所述懷疑詞的備選詞;
出現(xiàn)功能,使用語料庫并提供出現(xiàn)輸出,關(guān)于在所述語料庫中的使用頻率來排序包括所述備選詞的特征;以及
校正輸出生成器,使用所述出現(xiàn)輸出以提供校正輸出,
所述特征識別功能包括以下各項中的至少一個
N-gram識別功能;以及
共同出現(xiàn)識別功能;以及
以下各項中的至少一個
skip-gram識別功能;
switch-gram識別功能;以及
之前由用戶使用的特征識別功能。
47.一種計算機輔助語言校正系統(tǒng),包括
語法錯誤懷疑器,基于在所述語言輸入的上下文中詞的適合度,評估語言輸入中所述詞的至少大部分;以及
校正生成器,用于至少部分地基于由所述懷疑器執(zhí)行的評估,提供校正輸出。
48.根據(jù)權(quán)利要求47所述的計算機輔助語言校正系統(tǒng)并且還包括
備選詞生成器,基于所述語言輸入,生成為所述語言輸入中的所述至少大部分詞中的至少一個提供多個備選詞的基于文本的表示;以及
選擇器,用于為所述語言輸入中的所述至少大部分詞中的所述至少一個中的每一個,在至少所述多個備選詞中進行選擇,并且其中,
所述校正生成器,用于基于由所述選擇器做出的選擇,提供所述校正輸出。
49.根據(jù)權(quán)利要求47或48所述的計算機輔助語言校正系統(tǒng)并且還包括
懷疑詞輸出指示器,其指示所述語言輸入中的所述詞的所述至少大部分中的至少一些被懷疑為包含語法錯誤的程度。
50.根據(jù)權(quán)利要求47-49中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述校正生成器包括自動校正語言生成器,用于在不需要用戶干預(yù)的情況下,至少部分地基于由所述懷疑器執(zhí)行的評估,提供校正文本輸出。
51.一種計算機輔助語言校正系統(tǒng),包括
語法錯誤懷疑器,評估語言輸入中的詞;
備選詞生成器,為由所述懷疑器評估為懷疑詞的所述語言輸入中的至少一些詞生成多個備選詞,用于所述語言輸入中的詞的所述多個備選詞的至少一個與所述語言輸入中的所述詞的上下文特征一致;
選擇器,用于在至少所述多個備選詞之間進行選擇;以及
校正生成器,用于至少部分地基于由所述選擇器做出的選擇,提供校正輸出。
52.一種計算機輔助語言校正系統(tǒng),包括
語法錯誤懷疑器,評估語言輸入中的詞并且識別懷疑的詞;
備選生成器,生成用于所述懷疑詞的多個備選詞;
選擇器,根據(jù)多個選擇標(biāo)準(zhǔn)對每個所述懷疑的詞以及為此由所述備選詞生成器生成的所述多個備選詞的一個進行評級,并且應(yīng)用與為此由所述備選詞生成器生成的所述多個備選詞中的一個有關(guān)的所述懷疑的詞有利的偏值;以及
校正生成器,用于至少部分地基于由所述選擇器做出的選擇,提供校正輸出。
53.根據(jù)權(quán)利要求51或權(quán)利要求52所述的計算機輔助語言校正系統(tǒng)并且其中,所述校正生成器包括校正語言輸入生成器,用于在不需要用戶干預(yù)的情況下,基于由所述選擇器做出的選擇,提供校正語言輸出。
54.一種包括各種備選詞校正的基于上下文計分的計算機輔助語言校正系統(tǒng),至少部分地基于在互聯(lián)網(wǎng)語料庫中上下文特征序列(CFS)出現(xiàn)的頻率。
55.根據(jù)權(quán)利要求54所述的計算機輔助語言校正系統(tǒng)并且還包括以下各項中的至少一個
與所述基于上下文計分協(xié)作的
拼寫校正功能;
誤用詞校正功能;
語法校正功能;以及
詞匯增強功能。
56.根據(jù)權(quán)利要求54或權(quán)利要求55所述的計算機輔助語言校正系統(tǒng)并且其中,所述基于上下文計分還至少部分地基于在互聯(lián)網(wǎng)語料庫中的標(biāo)準(zhǔn)化CFS出現(xiàn)的頻率。
57.根據(jù)權(quán)利要求54-56中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述基于上下文計分還至少部分地基于CFS重要性得分。
58.根據(jù)權(quán)利要求54-57中的任意一項所述的計算機輔助語言校正系統(tǒng)并且其中,所述CFS重要性得分是以下各項中的至少一個的函數(shù)
詞性標(biāo)注和句子分析功能的操作;CFS長度;在CFS和CFS類型中的每個詞的出現(xiàn)的頻率。
59.一種包括詞匯增強功能的計算機輔助語言校正系統(tǒng),包括
詞匯挑戰(zhàn)的詞識別功能;
備選詞詞匯增強生成功能;以及
基于上下文計分功能,其至少部分地基于在互聯(lián)網(wǎng)語料庫中上下文特征序列(CFS)出現(xiàn)的頻率,
所述備選詞詞匯增強生成功能,其包括詞典預(yù)處理功能,用于生成備選詞詞匯增強。
60.一種計算機輔助語言校正系統(tǒng),包括
備選詞生成器,基于輸入句子,生成為所述句子中的多個詞中的每一個提供多個備選詞的基于文本的表示;
選擇器,為了所述句子中的所述多個詞中的每一個,在至少所述多個備選詞中選擇;
可信度分配器,用于將可信度分配到來自所述多個備選詞的選擇的備選詞;以及
校正生成器,用于基于所述選擇器做出的選擇并且至少部分地基于所述可信度,提供校正輸出。
61.根據(jù)權(quán)利要求60所述的計算機輔助語言校正系統(tǒng)并且其中,基于上下文特征序列(CFS)來評估所述多個備選詞,并且所述可信度是基于以下參數(shù)中的至少一個
選擇的CFS的數(shù)量、類型和得分;
在CFS上下文中,所述多個備選詞的出現(xiàn)的頻率的統(tǒng)計顯著性的測量;
基于每個所述CFS的優(yōu)先選擇度量和所述多個備選詞的詞相似性得分,選擇所述多個備選詞中的一個的一致性程度;
所述多個備選詞中的所述一個的不基于上下文相似性得分在第一預(yù)定的最低閾值以上;以及
基于上下文數(shù)據(jù)可用性的程度,其由所述CFS的數(shù)量來指示,其中,所述CFS具有在第二預(yù)定最低閾值以上并且具有在第三預(yù)定閾值之上的優(yōu)先選擇得分。
62.一種計算機輔助語言校正系統(tǒng),包括
標(biāo)點錯誤懷疑器,基于語言輸入的上下文中的合適度,評估所述語言輸入中的所述詞和標(biāo)點中的至少一些,其中,所述語言輸入的合適度是基于互聯(lián)網(wǎng)語料庫中所述語言輸入的feature-gram的出現(xiàn)的頻率;以及
校正生成器,用于至少部分地基于由所述懷疑器執(zhí)行的評估,提供校正輸出。
63.根據(jù)權(quán)利要求62所述的計算機輔助語言校正系統(tǒng)并且其中,所述校正生成器包括丟失標(biāo)點校正功能、冗余標(biāo)點校正功能和標(biāo)點替換校正功能中的至少一個。
64.一種計算機輔助語言校正系統(tǒng),包括
語法元素錯誤懷疑器,基于語言輸入的上下文中的合適度,評估所述語言輸入中的所述詞中的至少一些,其中,所述語言輸入的上下文合適度是基于互聯(lián)網(wǎng)語料庫中所述語言輸入的feature-gram的出現(xiàn)的頻率;以及
校正生成器,用于至少部分地基于由所述懷疑器執(zhí)行的評估,提供校正輸出。
65.根據(jù)權(quán)利要求64所述的計算機輔助語言校正系統(tǒng)并且其中,所述校正生成器至少包括丟失語法元素校正功能、冗余語法元素校正功能和語法元素替換校正功能中的至少一個。
66.根據(jù)權(quán)利要求64或權(quán)利要求65所述的計算機輔助語言校正系統(tǒng)并且其中,所述語法元素是冠詞、介詞和連詞中的一個。
全文摘要
一種計算機輔助語言校正系統(tǒng),其包括使用互聯(lián)網(wǎng)語料庫的利用上下文特征序列功能的拼寫校正功能、誤用詞校正功能、語法校正功能和詞匯增強功能。
文檔編號G06F17/00GK101802812SQ200880101405
公開日2010年8月11日 申請日期2008年7月31日 優(yōu)先權(quán)日2007年8月1日
發(fā)明者Y·卡羅夫贊格威爾, A·贊格威爾 申請人:金格軟件有限公司