国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      文本模板生成器、文本生成設(shè)備、文本檢驗(yàn)設(shè)備及其方法

      文檔序號(hào):6615923閱讀:208來(lái)源:國(guó)知局
      專利名稱:文本模板生成器、文本生成設(shè)備、文本檢驗(yàn)設(shè)備及其方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及自然語(yǔ)言處理的技術(shù)領(lǐng)域,更具體地,涉及一種文本模板生成器及其方法,文本生成設(shè)備及其方法,用于檢驗(yàn)文本是否是習(xí)慣用法文本的文本檢驗(yàn)設(shè)備及其方法和用于生成習(xí)慣用法文本的系統(tǒng)及其方法。

      背景技術(shù)
      隨著計(jì)算機(jī)的廣泛采用以及因特網(wǎng)應(yīng)用的日益增長(zhǎng),在各個(gè)領(lǐng)域中計(jì)算機(jī)變得越來(lái)越普及。大量的日常使用的應(yīng)用采用了自然語(yǔ)言處理技術(shù),例如,文本分類系統(tǒng)和文本搜索引擎。
      文本分類系統(tǒng)將文本分類為不同的類別,其中屬于同一類的文本具有共同的特征。在不同應(yīng)用的情況下,可以被分類的文本包括文章,電子郵件,短消息,句子,短語(yǔ)等等,分類的特征可以是語(yǔ)義,格式,文法等等。例如,反垃圾電子郵件系統(tǒng),可以識(shí)別并阻攔垃圾電子郵件,就是一種文本分類系統(tǒng)。短消息標(biāo)記系統(tǒng)也是一種文本分類系統(tǒng),可以將發(fā)送或接收的短消息加上不同的標(biāo)記,例如,緊急,垃圾郵件,私人等等。根據(jù)短消息的特定標(biāo)簽可以執(zhí)行特定操作。例如,移動(dòng)電話在接收到標(biāo)簽為緊急的短消息之后,一直響鈴。沒(méi)有輸入正確的密碼,則標(biāo)簽為私人的短消息不能夠被瀏覽。訓(xùn)練樣本的數(shù)量是影響文本分類系統(tǒng)的關(guān)鍵因素,通常,系統(tǒng)使用的訓(xùn)練語(yǔ)料越多,系統(tǒng)將會(huì)越精確。因此,為文本分類系統(tǒng)構(gòu)建足夠的訓(xùn)練語(yǔ)料很重要。訓(xùn)練語(yǔ)料構(gòu)建的工作耗時(shí)且令人厭煩,因此,生成習(xí)慣用法的文本作為訓(xùn)練語(yǔ)料將非常有用。
      文本搜索引擎搜索與輸入查詢文本相關(guān)的所有文檔。一般地,搜索引擎僅搜索準(zhǔn)確包括查詢文本的文檔,即,不能夠找到雖然沒(méi)有包括查詢文本但是與查詢文本緊密相關(guān)的文檔。因此,能夠產(chǎn)生相關(guān)查詢文本的生成方法將增強(qiáng)搜索引擎的性能。
      通常,習(xí)慣用法文本的生成處理包括兩個(gè)主要步驟文本生成步驟和習(xí)慣用法文本檢驗(yàn)步驟。
      已有的文本生成方法包括基于語(yǔ)法的方法,基于模板的方法以及基于統(tǒng)計(jì)的方法。
      基于語(yǔ)法的方法首先確定生成文本應(yīng)該敘述什么(即概念,一個(gè)概念就是一個(gè)語(yǔ)義構(gòu)成);其次,計(jì)算概念之間的關(guān)系;第三,根據(jù)關(guān)系產(chǎn)生生成的文本的語(yǔ)法結(jié)構(gòu);第四,生成描述各個(gè)概念的文本;之后,根據(jù)語(yǔ)法結(jié)構(gòu)生成實(shí)際的文本。已經(jīng)采用的語(yǔ)法有標(biāo)準(zhǔn)化語(yǔ)法;短語(yǔ)結(jié)構(gòu)語(yǔ)法;系統(tǒng)語(yǔ)法;相鄰樹語(yǔ)法,一般擴(kuò)充轉(zhuǎn)換網(wǎng)絡(luò)語(yǔ)法,分類語(yǔ)法等?;谡Z(yǔ)法的方法比較有效,但是很難構(gòu)建且依賴于語(yǔ)言。
      基于模板的方法用于經(jīng)常生成結(jié)構(gòu)類似的消息的環(huán)境下。一般地,生成的文本的結(jié)構(gòu)是固定的或者給定原型文本,并按照特定的限定方式填充一些開放字段。典型的環(huán)境是生成天氣預(yù)報(bào)的文本。例如“今天是_度,天氣為_?!边@種方法很容易實(shí)現(xiàn),但是只能用于特定環(huán)境。
      基于統(tǒng)計(jì)的方法根據(jù)語(yǔ)言統(tǒng)計(jì)信息生成文本,例如,N元模型,熵信息等。這種方法逐概念地生成文本,即,每次生成描述一個(gè)概念的文本。如果可以利用多種類型的描述來(lái)描述一個(gè)概念,則根據(jù)之前生成的文本以及仍然需要利用語(yǔ)言統(tǒng)計(jì)信息生成的概念選擇最有可能的描述。選擇最有可能的描述文本的方法是獨(dú)立于語(yǔ)言且容易實(shí)施,但是生成概念描述的方法是依賴于語(yǔ)言且很難實(shí)施的。
      現(xiàn)有的習(xí)慣用法文本檢驗(yàn)方法包括基于語(yǔ)義的方法和基于詞類別搭配的方法。
      基于語(yǔ)義的方法使用語(yǔ)義詞典來(lái)檢驗(yàn)詞搭配是否合理。例如,“觀看電視”是合理的搭配,但是“吃電視”就不是合理的搭配。
      基于詞類別搭配的方法根據(jù)詞類別搭配信息檢驗(yàn)合理性。例如,詞性是一種詞類別,搭配模式是“動(dòng)詞+名詞”則是合理的,但是搭配模式為“形容詞+動(dòng)詞”就不是合理搭配。
      日本專利申請(qǐng)JP11328180提出了一種方法,用于支持使用句子結(jié)構(gòu)框架在目標(biāo)語(yǔ)言中的句子生成,以及使用與句子結(jié)構(gòu)框架對(duì)應(yīng)的示例句子的句子生成。當(dāng)輸入了充當(dāng)用戶要生成的句子的主要?jiǎng)釉~的謂語(yǔ)時(shí),句子結(jié)構(gòu)框架檢索部分檢索句子結(jié)構(gòu)框架,其中謂語(yǔ)可以從句子結(jié)構(gòu)框架數(shù)據(jù)庫(kù)存儲(chǔ)部分獲取,之后對(duì)句子結(jié)構(gòu)框架進(jìn)行列表并顯示。當(dāng)從列表中選出一個(gè)句子結(jié)構(gòu)框架的槽以及輸入了名詞短語(yǔ)時(shí),名詞短語(yǔ)分析部分從名詞短語(yǔ)提取關(guān)鍵詞,從用于分析的語(yǔ)法詞典存儲(chǔ)部分獲取關(guān)鍵詞的語(yǔ)義信息,并將其傳送到語(yǔ)義信息匹配部分。當(dāng)來(lái)自名詞短語(yǔ)分析部分的語(yǔ)義信息與槽的語(yǔ)義限制信息匹配時(shí),編輯控制部分確定槽的名詞短語(yǔ),以及當(dāng)確定了所有槽的名詞短語(yǔ)時(shí),完成目標(biāo)句子的生成。總而言之,該專利申請(qǐng)中生成的文本是與輸入句子具有相同結(jié)構(gòu)的句子。其中采用了語(yǔ)法和基于模板的文本生成方法,因?yàn)楦鶕?jù)結(jié)構(gòu)信息分析了句子結(jié)構(gòu)并生成了句子,以及采用了基于詞分類搭配的習(xí)慣用法文本,因?yàn)椴捎昧嗽~性搭配信息和詞分類語(yǔ)義分配信息。
      日本專利申請(qǐng)JP2064859提出一種除了呈現(xiàn)同義功能之外,當(dāng)文本構(gòu)成元素用作習(xí)慣用法表述的一部分時(shí),呈現(xiàn)用于習(xí)慣用法表述的同義表述來(lái)有效地重寫文本的方法,其中采用了習(xí)慣用法表達(dá)詞典以及同義表達(dá)詞典來(lái)重寫日文句子。該專利申請(qǐng)中生成的文本是輸入句子的同義表述,因?yàn)閮H能夠改變一些短語(yǔ)的同義表述,所以該專利申請(qǐng)采用了基于模板的文本生成方法,由于使用了習(xí)慣用法表述詞典和同義表述詞典,所以該專利申請(qǐng)采用了基于語(yǔ)義的習(xí)慣用法文本檢驗(yàn)方法。
      論文(Use of statistical N-gram models in natural languagegeneration for machine translation.Fu-Hua Liu,Liang Gu,Yuqing Gao,Picheny,M.IBM T.J.Watson Res.Center,Yorktown Heights,NY,USA.Proceedings of 2003 IEEE International Conference on Acoustics,Speech,and Signal Processing,2003,page I-636-I-639 vol.1)描述了在語(yǔ)音一語(yǔ)音翻譯系統(tǒng)中存在的各種語(yǔ)言建模問(wèn)題。在該論文中,當(dāng)使用了基于最大熵的統(tǒng)計(jì)自然語(yǔ)言生成模型來(lái)生成目標(biāo)語(yǔ)言句子作為翻譯輸出時(shí),出現(xiàn)了各種詞性變化和同義詞問(wèn)題,因?yàn)樵谡Z(yǔ)義表示中使用了折衷的方案以避免數(shù)據(jù)稀少問(wèn)題。該論文使用了N元模型作為后處理步驟來(lái)增強(qiáng)生成性能。其中,生成的文本是用于機(jī)器翻譯目的的句子或短語(yǔ),由于使用了最大熵和N元模型,采用了基于統(tǒng)計(jì)的文本生成方法以及使用了基于語(yǔ)義的習(xí)慣用法文本檢驗(yàn)方法。
      總之,對(duì)于文本生成方法,基于語(yǔ)法的方法可以有多種應(yīng)用,但是語(yǔ)法很難構(gòu)建且依據(jù)語(yǔ)言的不同而不同?;诮y(tǒng)計(jì)的方法雖然獨(dú)立于語(yǔ)言,但是生成的文本的質(zhì)量較低?;谀0宓姆椒ㄟm用于有限的情況,例如,生成的文本結(jié)構(gòu)是固定的或者提供了示例文本?;谀0宓姆椒▋H能夠生成滿足固定模板(約束條件)的文本。沒(méi)有相應(yīng)的方法來(lái)改變或生成模板(約束條件)。
      對(duì)于習(xí)慣用法文本的檢驗(yàn)方法,基于語(yǔ)義的方法較為有用,但是語(yǔ)義詞典的構(gòu)建非常昂貴。基于詞分類搭配的方法較為粗糙,且需要語(yǔ)言學(xué)家將詞劃分為類并構(gòu)建搭配詞典。不能夠準(zhǔn)確確定文本是否符合習(xí)慣用法。


      發(fā)明內(nèi)容
      為了解決上述問(wèn)題,提出了本發(fā)明,可以根據(jù)約束條件生成文本模板以及可以檢驗(yàn)文本是否符合習(xí)慣用法,還可以生成符合習(xí)慣用法的文本。
      根據(jù)本發(fā)明的第一方面,提出了一種文本模板生成器,包括 槽位置確定單元,用于根據(jù)約束條件確定輸入的文本中需要被替換的詞的位置,作為槽位置;以及 目標(biāo)替換確定單元,用于根據(jù)約束條件確定替換槽位置的對(duì)象,從而生成包括對(duì)象的文本模板。
      根據(jù)本發(fā)明的第二方面,提出了一種文本模板生成方法,包括 槽位置確定步驟,根據(jù)約束條件確定輸入的文本中需要被替換的詞的位置,作為槽位置; 目標(biāo)替換確定步驟,根據(jù)約束條件確定替換槽位置的對(duì)象,從而生成包括對(duì)象的文本模板。
      根據(jù)本發(fā)明的第三方面,提出了一種文本生成設(shè)備,包括 文本模板生成器,用于根據(jù)約束條件使用分析后的文本生成文本模板; 基于詞替換的文本生成裝置,用于根據(jù)文本模板利用與約束條件相關(guān)聯(lián)的詞典生成文本。
      根據(jù)本發(fā)明的第四方面,提出了一種文本生成方法,包括 文本模板生成步驟,根據(jù)約束條件使用分析后的文本生成文本模板; 基于詞替換的文本生成步驟,根據(jù)文本模板利用與約束條件相關(guān)聯(lián)的詞典生成文本。
      根據(jù)本發(fā)明的第五方面,提出了一種文本檢驗(yàn)設(shè)備,用于檢驗(yàn)文本是否符合習(xí)慣用法,包括 詞篩選單元,用于從已經(jīng)分割的文本中選擇要檢驗(yàn)的詞; 詞對(duì)生成單元,用于生成與要檢驗(yàn)的詞中的每一個(gè)詞相關(guān)的詞對(duì); 詞習(xí)慣用法強(qiáng)度計(jì)算單元,用于根據(jù)各個(gè)詞對(duì)的出現(xiàn)次數(shù)計(jì)算從文本中篩選的要檢驗(yàn)的詞的詞習(xí)慣用法強(qiáng)度;以及 文本習(xí)慣用法強(qiáng)度計(jì)算單元,用于根據(jù)詞習(xí)慣用法強(qiáng)度計(jì)算文本的文本習(xí)慣用法強(qiáng)度。
      根據(jù)本發(fā)明的第六方面,提出了一種文本檢驗(yàn)方法,用于檢驗(yàn)文本是否符合習(xí)慣用法,包括 詞篩選步驟,從已經(jīng)分割的文本中選擇要檢驗(yàn)的詞; 詞對(duì)生成步驟,生成與要檢驗(yàn)的詞中的每一個(gè)詞相關(guān)的詞對(duì); 詞習(xí)慣用法強(qiáng)度計(jì)算步驟,根據(jù)各個(gè)詞對(duì)的出現(xiàn)次數(shù)計(jì)算從文本中篩選的要檢驗(yàn)的詞的詞習(xí)慣用法強(qiáng)度;以及 文本習(xí)慣用法強(qiáng)度計(jì)算步驟,根據(jù)詞習(xí)慣用法強(qiáng)度計(jì)算文本的文本習(xí)慣用法強(qiáng)度。
      根據(jù)本發(fā)明第七方面,提出了一種用于生成習(xí)慣用法文本的系統(tǒng),包括 根據(jù)本發(fā)明的文本生成設(shè)備,用于生成文本;以及 根據(jù)本發(fā)明的文本檢驗(yàn)設(shè)備,用于判斷生成的文本是否是習(xí)慣用法文本;以及 文本選擇設(shè)備,用于根據(jù)判斷結(jié)果選擇習(xí)慣用法文本。
      根據(jù)本發(fā)明第八方面,提出了一種用于生成習(xí)慣用法文本的方法,其中包括步驟 通過(guò)根據(jù)本發(fā)明的文本生成方法生成文本;以及 通過(guò)根據(jù)本發(fā)明的文本檢驗(yàn)方法判斷生成的文本是否是習(xí)慣用法文本; 根據(jù)判斷結(jié)果選擇習(xí)慣用法文本。



      圖1a是示出了根據(jù)本發(fā)明的利用輸入文本和約束條件生成文本的文本生成設(shè)備的示意圖; 圖1b是示出了根據(jù)本發(fā)明的利用輸入文本生成文本習(xí)慣用法強(qiáng)度的文本檢驗(yàn)設(shè)備的示意圖; 圖1c是示出了根據(jù)本發(fā)明的利用輸入文本和約束條件生成符合習(xí)慣用法的習(xí)慣用法文本生成系統(tǒng)的示意圖; 圖2是示出了根據(jù)本發(fā)明的用于生成習(xí)慣用法文本的示例系統(tǒng)的硬件結(jié)構(gòu)圖; 圖3是示出了根據(jù)本發(fā)明的文本生成設(shè)備的結(jié)構(gòu)圖; 圖4是示出了根據(jù)本發(fā)明的文本生成設(shè)備的文本分析器的結(jié)構(gòu)圖; 圖5a是示出了根據(jù)本發(fā)明的文本生成設(shè)備的文本模板生成器的結(jié)構(gòu)圖; 圖5b示出了根據(jù)文本模板生成器生成文本模板的流程圖; 圖6是示出了根據(jù)本發(fā)明的文本生成設(shè)備的基于詞替換的文本生成裝置的示意圖; 圖7是示出了根據(jù)本發(fā)明的基于詞替換的文本生成方法的流程圖; 圖8是示出了根據(jù)本發(fā)明的文本檢驗(yàn)設(shè)備的具體結(jié)構(gòu)圖; 圖9是示出了根據(jù)本發(fā)明的文本檢驗(yàn)設(shè)備檢驗(yàn)文本的流程圖; 圖10是示出了根據(jù)本發(fā)明的詞對(duì)搜索單元的示意圖; 圖11是示出了根據(jù)本發(fā)明的詞對(duì)搜索單元執(zhí)行詞對(duì)搜索的流程圖; 圖12示出了本發(fā)明的一個(gè)應(yīng)用的示意圖; 圖13示出了根據(jù)本發(fā)明另一個(gè)應(yīng)用的示意圖。

      具體實(shí)施例方式 下面,將參考附圖描述本發(fā)明的優(yōu)選實(shí)施例。在附圖中,相同的元件將由相同的參考符號(hào)或數(shù)字表示。此外,在本發(fā)明的下列描述中,將省略對(duì)已知功能和配置的具體描述,以避免使本發(fā)明的主題不清楚。
      圖1a示出了根據(jù)本發(fā)明的利用輸入文本生成文本習(xí)慣用法強(qiáng)度的文本生成設(shè)備的示意圖。參考圖1a,由根據(jù)本發(fā)明的文本生成設(shè)備110根據(jù)輸入文本901和文本生成約束條件902來(lái)生成滿足約束條件的文本904。文本可以是詞,短語(yǔ)或句子。
      圖1b示出了根據(jù)本發(fā)明的利用輸入文本生成文本習(xí)慣用法強(qiáng)度的文本檢驗(yàn)設(shè)備的示意圖。參考圖1b,由根據(jù)本發(fā)明的文本檢驗(yàn)設(shè)備220對(duì)輸入文本901進(jìn)行檢驗(yàn),并輸出與輸入文本對(duì)應(yīng)的文本習(xí)慣用法強(qiáng)度905,從而根據(jù)習(xí)慣用法強(qiáng)度來(lái)確定輸入的文本是否符合習(xí)慣用法。
      圖1c示出了根據(jù)本發(fā)明的利用輸入文本和約束條件生成符合習(xí)慣用法的習(xí)慣用法文本生成系統(tǒng)的示意圖。參考圖1c,文本生成設(shè)備110生成滿足預(yù)定的約束條件的文本904,并提供給文本檢驗(yàn)設(shè)備220,文本檢驗(yàn)設(shè)備220對(duì)文本生成器110中生成的文本904是否符合習(xí)慣用法進(jìn)行檢驗(yàn);文本選擇設(shè)備230從文本檢驗(yàn)設(shè)備220的檢驗(yàn)結(jié)果中選出符合習(xí)慣用法的文本,并輸出符合習(xí)慣用法的文本。
      圖2是示出了圖1c的用于生成習(xí)慣用法文本的系統(tǒng)的硬件結(jié)構(gòu)圖。該系統(tǒng)例如可以是運(yùn)行特定程序的計(jì)算機(jī)系統(tǒng)。其中09指示了該系統(tǒng)的關(guān)鍵部件。所述系統(tǒng)包括CPU 01,用于對(duì)應(yīng)用程序提供計(jì)算功能;內(nèi)部總線04,所述系統(tǒng)通過(guò)內(nèi)部總線04在內(nèi)存06和永久存儲(chǔ)器07(可以是硬盤和閃存)之間交換數(shù)據(jù);輸入裝置03,例如可以是用于按鍵輸入的鍵盤或用于語(yǔ)音輸入的麥克風(fēng)等等,用于接受用戶輸入文本901以及文本生成約束條件902;輸出裝置(未示出)和輔助組件02。存儲(chǔ)器07存儲(chǔ)有操作系統(tǒng)文件071,習(xí)慣用法文本生成系統(tǒng)文件073,生成的文本904,關(guān)系詞典52,本地?cái)?shù)據(jù)庫(kù)53,本地語(yǔ)料56以及輔助系統(tǒng)工作的其它文件072。所述內(nèi)存06包括操作系統(tǒng)061,習(xí)慣用法文本生成系統(tǒng)063以及其它的應(yīng)用程序062。所述系統(tǒng)還包括網(wǎng)卡05和因特網(wǎng)搜索引擎55。所述系統(tǒng)通過(guò)網(wǎng)卡05與因特網(wǎng)08進(jìn)行交互,以通過(guò)因特網(wǎng)搜索引擎55來(lái)搜索網(wǎng)頁(yè)或者其它網(wǎng)站081。根據(jù)圖1c,利用該系統(tǒng)可以生成符合習(xí)慣用法的文本。
      圖3示出了根據(jù)本發(fā)明的文本生成設(shè)備的具體結(jié)構(gòu)圖。該文本生成設(shè)備110包括文本分析器11,用于對(duì)輸入文本901進(jìn)行例如分詞,加詞性標(biāo)記,語(yǔ)法分析之類的分析;文本模板生成器12,用于基于輸入的文本生成約束條件902利用文本分析器11分析的文本和關(guān)系詞典52生成滿足約束條件的文本模板并激活詞典133;基于詞替換的文本生成裝置131,用于利用詞典133對(duì)文本模板中的預(yù)定詞進(jìn)行替換;以及存儲(chǔ)生成的文本的存儲(chǔ)器134。關(guān)系詞典52可以包括同義詞典,反義詞典,Wordnet詞典,Hownet詞典以及其它的特定詞典。詞典133可以包括多個(gè)詞典,例如同義詞典,翻譯詞典等。其中,所述約束條件可以包括要生成的文本的期望數(shù)目,要替換的哪種詞性的詞的有關(guān)信息;要生成的哪種文法的有關(guān)信息以及要生成哪種文本的有關(guān)信息,等等。在本實(shí)施例中,可以由基于詞替換的文本生成裝置131根據(jù)輸入的文本生成約束條件來(lái)激活詞典133,而不是由文本模板生成器激活詞典133。此外文本生成設(shè)備可以不包括存儲(chǔ)器134,而是將生成的文本直接輸出。
      參考圖4,示出了文本分析器的一個(gè)示例。該文本分析器11包括分詞單元111;詞性(POS)標(biāo)記單元112;語(yǔ)義分析單元113以及文法分析單元114。所述文本分析器11是依賴于語(yǔ)言的,對(duì)接收的輸入文本901進(jìn)行分析以輸出文本分析結(jié)果。一般地,所述文本分析器11所包括的分詞單元111將輸入文本901分成詞的序列,POS標(biāo)記單元112對(duì)每個(gè)詞的詞性進(jìn)行標(biāo)記。分詞結(jié)果和詞性標(biāo)記結(jié)果可以互相影響。然后,語(yǔ)義分析單元113和文法分析單元114分別對(duì)輸入的文本執(zhí)行語(yǔ)義分析和文法分析,并將文本分析結(jié)果輸出。本發(fā)明中,所述的文本分析器11也可以不包括分詞單元111,例如,當(dāng)輸入是英文文本時(shí),不需要對(duì)其進(jìn)行分詞。所述的文本分析器11也可以只包括語(yǔ)義分析單元113和文法分析單元114兩者之一。
      下列的表1和表2分別示出了利用文本分析器11對(duì)英文例句“Iam very happy to meet you”和中文例句“你可能會(huì)偶爾想起他來(lái)”的分析結(jié)果。

      表1

      表2 參考圖5a,文本模板生成器12包括槽位置確定單元50,目標(biāo)替換確定單元52,詞典激活單元54以及模板知識(shí)數(shù)據(jù)庫(kù)124。雖然圖5a中示出了文本模板生成器12包括詞典激活單元54,但是,很明顯地,文本模板生成器12也可以不包括詞典激活單元54,而是直接輸出生成的文本模板。
      圖5b示出了根據(jù)文本模板生成器生成文本模板的流程圖。在S511,文本模板生成器12的槽位置確定單元50根據(jù)輸入的約束條件,確定分析后的輸入文本中所需要替換的詞的位置,作為槽的位置。其中,每個(gè)需要被替換的位置就是一個(gè)槽的位置。對(duì)槽的位置的確定方法包括下列三種(1)如果輸入的約束條件明確了要求替換的詞性或詞,比如“替換詞性動(dòng)詞”,“替換詞可能”,就可以根據(jù)輸入的文本分析結(jié)果直接確定輸入文本中可以替換的詞的位置。(2)如果輸入的約束條件明確了要求替換的詞類,比如“替換詞類運(yùn)動(dòng)”,就根據(jù)語(yǔ)義詞典(關(guān)系詞典的一種),比如Hownet,確定需要替換的詞的位置。(3)如果輸入的約束條件沒(méi)有明確要求替換的詞性、詞類或者詞,比如給出的約束條件是“同義文本”,就根據(jù)預(yù)先設(shè)定好的模版知識(shí)數(shù)據(jù)庫(kù)124確定允許替換的詞性、詞類或者詞,以此確定槽位置。以上幾種約束條件可以組合使用以及本發(fā)明的槽的位置的確定方法并不局限于上述三種情況。
      在S512,文本模板生成器12的目標(biāo)替換確定單元52根據(jù)輸入的約束條件,確定每個(gè)槽的目標(biāo)替換。該槽的目標(biāo)替換指在步驟S511中確定的槽可以被替換成的詞性、詞類或者詞。如果輸入的約束條件明確了目標(biāo)詞性或詞,比如“目標(biāo)詞性名詞”,“目標(biāo)詞足球”,就可以直接確定該槽的目標(biāo)替換。如果輸入的約束條件明確了目標(biāo)詞類,比如“目標(biāo)詞類休閑”,就根據(jù)語(yǔ)義詞典,比如Hownet,確定可以被替換的目標(biāo)詞。如果輸入的約束條件沒(méi)有明確的目標(biāo),比如“同義文本”,就從預(yù)先設(shè)定好的模版知識(shí)數(shù)據(jù)庫(kù)中得到目標(biāo)詞性、詞類或者詞。之后,在S513,根據(jù)輸入的約束條件,激活相應(yīng)的詞典。比如,當(dāng)約束條件是“同義文本”時(shí),就激活同義詞典。在S514,輸出產(chǎn)生的文本模板。
      參考圖6,基于詞替換的文本生成裝置包括輸入單元62,用于接收文本模板;槽填充單元64,用于利用詞典133對(duì)文本模板中的槽的位置進(jìn)行填充;以及輸出單元66,用于輸出生成的文本。
      下面將結(jié)合圖7對(duì)基于詞替換的文本生成裝置生成基于詞替換的文本的流程進(jìn)行描述。首先,在S611,輸入單元62接收文本模板。在S612,槽填充單元64從激活的詞典133中選出符合槽的替換條件的詞并填充。在S613,槽填充單元64判斷是否還有未填充的槽,如果存在,則執(zhí)行S612,否則,在S614,由輸出單元66輸出生成的文本。
      下列表3給出了在給出輸入文本和約束條件之后,生成模板和激活詞典以及最終生成的文本的示例。
      表3

      圖8示出了根據(jù)本發(fā)明的文本檢驗(yàn)設(shè)備。該文本檢驗(yàn)設(shè)備220用于對(duì)輸入的文本進(jìn)行校驗(yàn),計(jì)算輸入的文本的習(xí)慣用法的強(qiáng)度值,從而可以確定輸入的文本是否符合表述習(xí)慣。文本的習(xí)慣用法強(qiáng)度值越大,則表明該文本越符合表述習(xí)慣。
      該文本檢驗(yàn)設(shè)備220包括用于接收輸入的文本輸入單元(未示出);用于對(duì)文本進(jìn)行分割的文本分詞器82;用于從分割的文本中選擇要檢驗(yàn)的詞的選詞單元84;用于生成與要檢驗(yàn)的詞中的每一個(gè)詞相關(guān)的詞對(duì)的詞對(duì)生成單元86;用于計(jì)算詞對(duì)出現(xiàn)次數(shù)的詞對(duì)搜索單元92;用于計(jì)算詞的習(xí)慣用法強(qiáng)度的詞習(xí)慣用法強(qiáng)度計(jì)算單元88;用于計(jì)算文本的習(xí)慣用法強(qiáng)度的文本習(xí)慣用法強(qiáng)度計(jì)算單元90以及用于輸出文本的習(xí)慣用法強(qiáng)度的輸出單元(未示出)。
      下面將具體描述該文本檢驗(yàn)設(shè)備220如何檢驗(yàn)輸入的文本是否符合習(xí)慣用法。參考圖9,在S911,輸入單元接收輸入的文本。在S912,文本分詞器82將文本分為多個(gè)詞。之后,在S913,選詞單元84從文本中選出要檢驗(yàn)的詞。選擇的方式可以包括下列之一,但不局限于此1)依次選擇每個(gè)詞;2)僅選擇非停止詞;3)僅選擇預(yù)定詞。
      在S914,詞對(duì)生成單元86生成與要檢驗(yàn)的詞相關(guān)的詞對(duì)。利用搜索窗生成相關(guān)的詞對(duì)。假設(shè)當(dāng)前的檢驗(yàn)詞是Wj,設(shè)定搜索窗為(n,m),其表示詞Wj前面的n個(gè)詞和詞Wj后面的m個(gè)詞與詞Wj相關(guān)。利用搜索窗一共可以搜索到檢驗(yàn)詞Wj的m+n+2(n和m分別大于1)個(gè)相關(guān)詞對(duì)。對(duì)于搜索窗為(n,m)(n和m分別等于1),則可以搜索到3個(gè)相關(guān)詞對(duì)。寬度為(n,m)的搜索窗,可以包含如下搜索詞對(duì)當(dāng)前詞;當(dāng)前詞之前的第一個(gè)詞和當(dāng)前詞組成的字符串;當(dāng)前詞之前的第二個(gè)詞直至第n個(gè)詞分別與任意詞和當(dāng)前詞組成的字符串;當(dāng)前詞和當(dāng)前詞之后的第一個(gè)詞組成的字符串;當(dāng)前詞之后的第二個(gè)詞直至第m個(gè)詞分別與任意詞和當(dāng)前詞組成的字符串;當(dāng)前詞之前第一個(gè)詞、當(dāng)前詞和當(dāng)前詞之后第一個(gè)詞組成的字符串。
      下列表4示出了搜索出的m+n+2個(gè)詞對(duì)。


      表5示出了當(dāng)給定的輸入文本是“A little boy was standing out infront of a store window”時(shí),使用搜索窗(2,2)和搜索窗(1,1)搜索到的檢驗(yàn)詞“boy”的相關(guān)詞對(duì)。

      在生成了詞對(duì)之后,在S915,在語(yǔ)料中搜索每個(gè)詞對(duì),并求出詞對(duì)的出現(xiàn)次數(shù)。在S916,根據(jù)公式1計(jì)算檢驗(yàn)詞的習(xí)慣用法強(qiáng)度Idiomatic(Wj),其中利用公式2將m+n+2個(gè)詞對(duì)對(duì)應(yīng)的出現(xiàn)次數(shù)映射到(0,1)上。 公式1 P(Ni)是一個(gè)映射函數(shù), 公式2 其中wi是權(quán)重,滿足是第i個(gè)詞對(duì)的出現(xiàn)次數(shù).如果搜索窗是(1,1),則公式1可以簡(jiǎn)化為 Idiomatic(W)=0.25×P(N1)+0.25×P(N2)+0.5×P(N3). 下列表6給出了計(jì)算詞習(xí)慣用法強(qiáng)度的示例。
      其中,對(duì)于不同的輸入文本中的檢驗(yàn)詞“boy”和“eating”,其詞習(xí)慣用法強(qiáng)度各不相同。
      之后,在S917判斷是否需要對(duì)另一個(gè)詞進(jìn)行檢驗(yàn),如果是,則執(zhí)行S913—S916,否則,執(zhí)行S918。在S918,當(dāng)已經(jīng)對(duì)所有要檢驗(yàn)的詞求出詞習(xí)慣用法強(qiáng)度之后,根據(jù)公式3—5之一來(lái)計(jì)算文本的習(xí)慣用法強(qiáng)度。
      (公式3) 其中,文本習(xí)慣用法強(qiáng)度由所檢驗(yàn)的詞中具有最小習(xí)慣用法的詞的強(qiáng)度決定。
      (公式4),其中qi是權(quán)重,滿足qi可以由Wi的用法決定,比如詞性等; (公式5) 雖然詞對(duì)計(jì)算單元僅搜索本地?cái)?shù)據(jù)庫(kù)來(lái)查找詞對(duì)并獲得每個(gè)詞對(duì)的出現(xiàn)次數(shù)的過(guò)程會(huì)非常快速,但是如果希望獲得大量的詞對(duì)以及準(zhǔn)確的詞對(duì)出現(xiàn)次數(shù),可以搜索因特網(wǎng)以及搜索本地的語(yǔ)料來(lái)獲得有關(guān)詞對(duì)的出現(xiàn)次數(shù)。在S919,輸出生成的文本習(xí)慣用法強(qiáng)度,從而決定文本是否符合習(xí)慣用法。
      圖10是詞對(duì)搜索單元的一個(gè)示例。該詞對(duì)搜索單元包括執(zhí)行本地搜索的本地搜索單元101;本地?cái)?shù)據(jù)庫(kù)102;判斷單元103;語(yǔ)料搜索單元104;搜索因特網(wǎng)08的因特網(wǎng)搜索引擎55;以及搜索本地語(yǔ)料108的本地搜索引擎106。
      參考圖11,在S1111,在詞對(duì)搜索單元接收到與要檢驗(yàn)的詞相關(guān)的詞對(duì)之后,本地搜索單元101搜索本地?cái)?shù)據(jù)庫(kù)102,以搜索詞對(duì)出現(xiàn)次數(shù)。在S1112,如果找到了相關(guān)詞對(duì)的出現(xiàn)次數(shù),則執(zhí)行S1115。如果判斷單元103判斷出本地?cái)?shù)據(jù)庫(kù)102中并沒(méi)有找到相關(guān)的詞對(duì),則在S1113,利用語(yǔ)料搜索單元104執(zhí)行進(jìn)一步的搜索。語(yǔ)料搜索單元104使用因特網(wǎng)搜索引擎55和本地搜索引擎106來(lái)分別搜索因特網(wǎng)08和本地語(yǔ)料108中的至少一個(gè),從而獲得詞對(duì)的出現(xiàn)次數(shù)。在S1114,在獲得詞對(duì)的出現(xiàn)次數(shù)之后,將其寫入本地?cái)?shù)據(jù)庫(kù)102。在S1115,輸出該詞對(duì)出現(xiàn)次數(shù)。
      圖12是本發(fā)明的一個(gè)應(yīng)用的示意圖。本發(fā)明可以應(yīng)用于自動(dòng)短消息分類器系統(tǒng)。該系統(tǒng)包括兩個(gè)階段訓(xùn)練階段和分類階段。
      在訓(xùn)練階段,每個(gè)短消息(short message,簡(jiǎn)稱SM)被手工標(biāo)簽。標(biāo)簽可以包括個(gè)人、緊急、垃圾郵件等等。由于手工標(biāo)簽較昂貴且費(fèi)時(shí),采用本發(fā)明的習(xí)慣用法文本生成設(shè)備生成符合習(xí)慣用法的短消息。每次,將加標(biāo)簽的短消息發(fā)送到文本生成設(shè)備并將生成的約束條件信息設(shè)置為同義,那么所有生成的短消息將與輸入的短消息具有相同的標(biāo)簽。手工的加標(biāo)簽的短消息和生成的短消息用來(lái)訓(xùn)練短消息分類器。訓(xùn)練的數(shù)據(jù)越多,分類器的性能越好。
      圖13是本發(fā)明的另一個(gè)應(yīng)用的示意圖。該系統(tǒng)采用了本發(fā)明的習(xí)慣用法文本生成設(shè)備用于增強(qiáng)文本搜索引擎。首先,將查詢串和查詢串的擴(kuò)展方式(即,約束條件)發(fā)送到習(xí)慣用法文本生成設(shè)備,以生成多個(gè)擴(kuò)展的查詢串。將原始的查詢串和擴(kuò)展的查詢串發(fā)送到搜索引擎來(lái)搜索相關(guān)的文本。雖然以中英文為例,對(duì)本發(fā)明進(jìn)行了說(shuō)明,但是,很明顯地,本發(fā)明可以應(yīng)用于其它的語(yǔ)言的文本生成以及檢驗(yàn)。
      盡管已經(jīng)參照具體實(shí)施例,對(duì)本發(fā)明進(jìn)行了描述,但本發(fā)明不應(yīng)當(dāng)由這些實(shí)施例來(lái)限定,而應(yīng)當(dāng)僅由所附權(quán)利要求來(lái)限定。應(yīng)當(dāng)清楚,在不偏離本發(fā)明的范圍和精神的前提下,本領(lǐng)域普通技術(shù)人員可以對(duì)實(shí)施例進(jìn)行改變或修改。
      權(quán)利要求
      1.一種文本模板生成器,包括
      槽位置確定單元,用于根據(jù)約束條件確定輸入的文本中需要被替換的詞的位置,作為槽位置;以及
      目標(biāo)替換確定單元,用于根據(jù)約束條件確定替換槽位置的對(duì)象,從而生成包括對(duì)象的文本模板。
      2.一種文本模板生成方法,包括
      槽位置確定步驟,根據(jù)約束條件確定輸入的文本中需要被替換的詞的位置,作為槽位置;
      目標(biāo)替換確定步驟,根據(jù)約束條件確定替換槽位置的對(duì)象,從而生成包括對(duì)象的文本模板。
      3.一種文本生成設(shè)備,包括
      文本模板生成器,用于根據(jù)約束條件使用分析后的文本生成文本模板;
      基于詞替換的文本生成裝置,用于根據(jù)文本模板利用與約束條件相關(guān)聯(lián)的詞典生成文本。
      4.如權(quán)利要求3所述的設(shè)備,其中所述分析后的文本是由文本分析器分析的。
      5.如權(quán)利要求4所述的設(shè)備,其中文本分析器包括
      詞性POS標(biāo)記單元,用于對(duì)文本中的詞的詞性POS進(jìn)行標(biāo)記;
      語(yǔ)義分析單元,用于對(duì)標(biāo)記后的詞的語(yǔ)義進(jìn)行分析。
      6.如權(quán)利要求4所述的設(shè)備,其中文本分析器包括
      詞性POS標(biāo)記單元,用于對(duì)文本中的詞的詞性POS進(jìn)行標(biāo)記;
      文法分析單元,用于分析標(biāo)記后的文本的文法。
      7.如權(quán)利要求4所述的設(shè)備,其中文本分析器包括
      詞性POS標(biāo)記單元,用于對(duì)文本中的詞的詞性POS進(jìn)行標(biāo)記;
      語(yǔ)義分析單元,用于對(duì)標(biāo)記后的詞的語(yǔ)義進(jìn)行分析;以及
      文法分析單元,用于對(duì)語(yǔ)義分析單元輸出的文本的文法進(jìn)行分析。
      8.如權(quán)利要求5至7之一所述的設(shè)備,其中文本分析器還包括
      分詞單元,用于將輸入的文本分割為詞。
      9.如權(quán)利要求3所述的設(shè)備,其中文本模板生成器包括
      槽位置確定單元,用于根據(jù)約束條件確定輸入的文本中需要被替換的詞的位置,作為槽位置;以及
      目標(biāo)替換確定單元,用于根據(jù)約束條件確定替換槽位置的對(duì)象,從而生成包括對(duì)象的文本模板。
      10.如權(quán)利要求9所述的設(shè)備,其中當(dāng)約束條件限定了要被替換的詞性POS或詞時(shí),槽位置確定單元使用分析后的文本確定槽位置。
      11.如權(quán)利要求9所述的設(shè)備,其中當(dāng)約束條件限定了要替換的詞的類別時(shí),槽位置確定單元和目標(biāo)替換確定單元分別通過(guò)使用文法詞典確定槽位置以及可以替換槽位置的詞。
      12.如權(quán)利要求9所述的設(shè)備,其中當(dāng)約束條件限定了要被替換的文本的特征時(shí),槽位置確定單元和目標(biāo)替換確定單元分別確定槽位置和可以用于替換槽位置的詞,詞性POS或詞類別。
      13.如權(quán)利要求3所述的設(shè)備,其中基于詞替換的文本生成裝置從詞典中選擇作為替換對(duì)象的詞并填充詞位置,從而生成填充后的文本。
      14.一種文本生成方法,包括
      文本模板生成步驟,根據(jù)約束條件使用分析后的文本生成文本模板;
      基于詞替換的文本生成步驟,根據(jù)文本模板利用與約束條件相關(guān)聯(lián)的詞典生成文本。
      15.如權(quán)利要求14所述的方法,其中所述方法還包括文本分析步驟,分析輸入的文本。
      16.如權(quán)利要求15所述的方法,其中文本分析步驟包括
      詞性POS標(biāo)記步驟,對(duì)文本中的詞的詞性POS進(jìn)行標(biāo)記;
      語(yǔ)義分析步驟,對(duì)標(biāo)記后的詞的語(yǔ)義進(jìn)行分析。
      17.如權(quán)利要求15所述的方法,其中文本分析步驟包括
      詞性POS標(biāo)記步驟,對(duì)文本中的詞的詞性POS進(jìn)行標(biāo)記;
      文法分析步驟,分析標(biāo)記后的文本的文法。
      18.如權(quán)利要求15所述的方法,其中文本分析步驟包括
      詞性POS標(biāo)記步驟,對(duì)文本中的詞的詞性POS進(jìn)行標(biāo)記;
      語(yǔ)義分析步驟,對(duì)標(biāo)記后的詞的語(yǔ)義進(jìn)行分析;以及
      文法分析步驟,對(duì)語(yǔ)義分析步驟獲得的文本的文法進(jìn)行分析。
      19.如權(quán)利要求16至18之一所述的方法,其中文本分析步驟還包括
      分詞步驟,將輸入的文本分割為詞。
      20.如權(quán)利要求14所述的方法,其中文本模板生成步驟包括
      槽位置確定步驟,根據(jù)約束條件確定輸入的文本中需要被替換的詞的位置,作為槽位置;以及
      目標(biāo)替換確定步驟,根據(jù)約束條件確定替換槽位置的對(duì)象,從而生成包括對(duì)象的文本模板。
      21.如權(quán)利要求20所述的方法,其中當(dāng)約束條件限定了要被替換的詞性POS或詞時(shí),槽位置確定步驟包括使用分析后的文本確定槽位置的步驟。
      22.如權(quán)利要求20所述的方法,其中當(dāng)約束條件限定了要替換的詞的類別時(shí),槽位置確定步驟包括通過(guò)使用文法詞典確定槽位置的步驟,以及目標(biāo)替換確定步驟包括以及通過(guò)使用文法詞典確定可以替換槽位置的詞的步驟。
      23.如權(quán)利要求20所述的方法,其中當(dāng)約束條件限定了要被替換的文本的特征時(shí),槽位置確定步驟包括確定槽位置的步驟,以及目標(biāo)替換確定步驟包括確定可以用于替換槽位置的詞,詞性POS或詞類別的步驟。
      24.如權(quán)利要求14所述的方法,其中基于詞替換的文本生成步驟包括從詞典中選擇作為替換對(duì)象的詞并填充詞位置,從而生成填充后的文本的步驟。
      25.一種文本檢驗(yàn)設(shè)備,用于檢驗(yàn)文本是否符合習(xí)慣用法,包括
      詞篩選單元,用于從已經(jīng)分割的文本中選擇要檢驗(yàn)的詞;
      詞對(duì)生成單元,用于生成與要檢驗(yàn)的詞中的每一個(gè)詞相關(guān)的詞對(duì);
      詞習(xí)慣用法強(qiáng)度計(jì)算單元,用于根據(jù)各個(gè)詞對(duì)的出現(xiàn)次數(shù)計(jì)算從文本中篩選的要檢驗(yàn)的詞的詞習(xí)慣用法強(qiáng)度;以及
      文本習(xí)慣用法強(qiáng)度計(jì)算單元,用于根據(jù)詞習(xí)慣用法強(qiáng)度計(jì)算文本的文本習(xí)慣用法強(qiáng)度。
      26.如權(quán)利要求25所述的設(shè)備,其中
      詞篩選單元根據(jù)下列方式之一選擇要檢驗(yàn)的詞順序地選擇每一個(gè)詞,選擇非停止詞以及選擇預(yù)定詞。
      27.如權(quán)利要求25所述的設(shè)備,其中
      詞對(duì)搜索單元利用搜索窗搜索與要檢驗(yàn)的詞相關(guān)的每個(gè)詞對(duì)的出現(xiàn)次數(shù),其中搜索窗是(m,n),表示要檢驗(yàn)的詞之前的m個(gè)詞以及要檢驗(yàn)的詞之后的n個(gè)詞與要檢驗(yàn)的詞有關(guān)。
      28.如權(quán)利要求25所述的設(shè)備,其中
      詞對(duì)搜索單元利用搜索窗可以搜索到m+n+2個(gè)詞對(duì)。
      29.如權(quán)利要求25所述的設(shè)備,其中詞對(duì)搜索單元包括
      本地搜索單元,用于搜索本地?cái)?shù)據(jù)庫(kù),以獲得詞對(duì)出現(xiàn)次數(shù);以及
      語(yǔ)料搜索單元,用于在本地?cái)?shù)據(jù)庫(kù)中沒(méi)有搜索到詞對(duì)的出現(xiàn)次數(shù)時(shí),搜索因特網(wǎng)和本地語(yǔ)料中至少一個(gè),以獲得詞對(duì)出現(xiàn)次數(shù),并添加到本地?cái)?shù)據(jù)庫(kù)中。
      30.如權(quán)利要求25所述的設(shè)備,其中
      詞習(xí)慣用法強(qiáng)度計(jì)算單元利用第一預(yù)定權(quán)重以及將各個(gè)詞對(duì)的出現(xiàn)次數(shù)映射到(0,1)區(qū)間上的值來(lái)計(jì)算各個(gè)詞的詞習(xí)慣用法強(qiáng)度。
      31.如權(quán)利要求25所述的設(shè)備,其中
      文本習(xí)慣用法強(qiáng)度計(jì)算單元將要檢驗(yàn)的詞的詞習(xí)慣用法強(qiáng)度中最小的詞習(xí)慣用法強(qiáng)度作為文本的習(xí)慣用法強(qiáng)度。
      32.如權(quán)利要求25所述的設(shè)備,其中
      文本習(xí)慣用法強(qiáng)度計(jì)算單元用于根據(jù)第二預(yù)定權(quán)重和詞習(xí)慣用法強(qiáng)度來(lái)計(jì)算文本習(xí)慣用法強(qiáng)度。
      33.如權(quán)利要求25所述的設(shè)備,其中
      文本習(xí)慣用法強(qiáng)度計(jì)算單元用于根據(jù)詞習(xí)慣用法強(qiáng)度來(lái)計(jì)算文本習(xí)慣用法強(qiáng)度。
      34.一種文本檢驗(yàn)方法,用于檢驗(yàn)文本是否符合習(xí)慣用法,包括
      詞篩選步驟,從已經(jīng)分割的文本中選擇要檢驗(yàn)的詞;
      詞對(duì)生成步驟,生成與要檢驗(yàn)的詞中的每一個(gè)詞相關(guān)的詞對(duì);
      詞習(xí)慣用法強(qiáng)度計(jì)算步驟,根據(jù)各個(gè)詞對(duì)的出現(xiàn)次數(shù)計(jì)算從文本中篩選的要檢驗(yàn)的詞的詞習(xí)慣用法強(qiáng)度;以及
      文本習(xí)慣用法強(qiáng)度計(jì)算步驟,根據(jù)詞習(xí)慣用法強(qiáng)度計(jì)算文本的文本習(xí)慣用法強(qiáng)度。
      35.如權(quán)利要求34所述的方法,其中
      詞篩選步驟包括根據(jù)下列方式之一選擇要檢驗(yàn)的詞的步驟順序地選擇每一個(gè)詞,選擇非停止詞以及選擇預(yù)定詞。
      36.如權(quán)利要求34所述的方法,其中
      詞對(duì)搜索步驟包括利用搜索窗搜索與要檢驗(yàn)的詞相關(guān)的每個(gè)詞對(duì)的出現(xiàn)次數(shù)的步驟,其中搜索窗是(m,n),表示要檢驗(yàn)(統(tǒng)一為要檢驗(yàn))的詞之前的m個(gè)詞以及要檢驗(yàn)的詞之后的n個(gè)詞與要檢驗(yàn)的詞有關(guān)。
      37.如權(quán)利要求36所述的方法,其中
      詞對(duì)搜索步驟利用搜索窗可以搜索到m+n+2個(gè)詞對(duì)。
      38.如權(quán)利要求34所述的方法,其中詞對(duì)搜索步驟包括
      本地搜索步驟,搜索本地?cái)?shù)據(jù)庫(kù),以獲得詞對(duì)出現(xiàn)次數(shù);以及
      語(yǔ)料搜索步驟,在本地?cái)?shù)據(jù)庫(kù)中沒(méi)有搜索到詞對(duì)的出現(xiàn)次數(shù)時(shí),搜索因特網(wǎng)和本地語(yǔ)料中至少一個(gè),以獲得詞對(duì)出現(xiàn)次數(shù),并添加到本地?cái)?shù)據(jù)庫(kù)中。
      39.如權(quán)利要求34所述的方法,其中
      詞習(xí)慣用法強(qiáng)度計(jì)算步驟包括利用第一預(yù)定權(quán)重以及將各個(gè)詞對(duì)的出現(xiàn)次數(shù)映射到(0,1)區(qū)間上的值來(lái)計(jì)算各個(gè)詞的詞習(xí)慣用法強(qiáng)度的步驟。
      40.如權(quán)利要求34所述的方法,其中
      文本習(xí)慣用法強(qiáng)度計(jì)算步驟包括將要檢驗(yàn)的詞的詞習(xí)慣用法強(qiáng)度中最小的詞習(xí)慣用法強(qiáng)度作為文本的習(xí)慣用法強(qiáng)度的步驟。
      41.如權(quán)利要求34所述的方法,其中
      文本習(xí)慣用法強(qiáng)度計(jì)算步驟包括根據(jù)第二預(yù)定權(quán)重和詞習(xí)慣用法強(qiáng)度來(lái)計(jì)算文本習(xí)慣用法強(qiáng)度的步驟。
      42.如權(quán)利要求34所述的方法,其中
      文本習(xí)慣用法強(qiáng)度計(jì)算步驟包括根據(jù)詞習(xí)慣用法強(qiáng)度來(lái)計(jì)算文本習(xí)慣用法強(qiáng)度的步驟。
      43.一種用于生成習(xí)慣用法文本的系統(tǒng),包括
      如權(quán)利要求3的文本生成設(shè)備,用于生成文本;以及
      如權(quán)利要求25的文本檢驗(yàn)設(shè)備,用于判斷生成的文本是否是習(xí)慣用法文本;以及
      文本選擇設(shè)備,用于根據(jù)判斷結(jié)果選擇習(xí)慣用法文本。
      44.一種用于生成習(xí)慣用法文本的方法,其中包括步驟
      通過(guò)使用如權(quán)利要求14的文本生成方法生成文本;以及
      通過(guò)使用如權(quán)利要求34所述的文本檢驗(yàn)方法判斷生成的文本是否是習(xí)慣用法文本;
      根據(jù)判斷結(jié)果選擇習(xí)慣用法文本。
      全文摘要
      本發(fā)明涉及一種文本模板生成器、文本生成設(shè)備、文本檢驗(yàn)設(shè)備及其方法,其中該文本模板生成器包括槽位置確定單元,用于根據(jù)約束條件確定輸入的文本中需要被替換的詞的位置,作為槽位置;以及目標(biāo)替換確定單元,用于根據(jù)約束條件確定替換槽位置的對(duì)象,從而生成包括對(duì)象的文本模板。由此可以根據(jù)不同的約束條件生成符合要求的模板。以及提供了一種文本生成設(shè)備及其方法、一種用于檢驗(yàn)文本是否符合習(xí)慣用法的文本檢驗(yàn)設(shè)備及其方法,以及提供了一種用于生成習(xí)慣用法文本的系統(tǒng)及其方法,從而可以確定輸入的文本是否符合習(xí)慣用法,并輸出符合習(xí)慣用法的文本。
      文檔編號(hào)G06F17/27GK101470700SQ20071030662
      公開日2009年7月1日 申請(qǐng)日期2007年12月28日 優(yōu)先權(quán)日2007年12月28日
      發(fā)明者靳簡(jiǎn)明, 吳根清, 許荔秦 申請(qǐng)人:日電(中國(guó))有限公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1