專利名稱:支持基于有限狀態(tài)機(jī)的語義規(guī)則的文本分析器及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語言處理過程,更具體地,涉及支持基于有限狀態(tài)機(jī) 的語義規(guī)則的文本分析器及其方法以及短消息智能處理系統(tǒng)及其方法。
背景技術(shù):
自然語言處理是一個(gè)非常熱門的研究領(lǐng)域,該領(lǐng)域產(chǎn)生了很多重要的 工業(yè)應(yīng)用。由于語言是用以通信的主要工具以及文化的主要載體,因此, 對(duì)人類語言進(jìn)行分析是非常有益和重要的。隨著計(jì)算機(jī)科技的發(fā)展,逐漸 可以開發(fā)出用于自動(dòng)分析人類語言的工具,語言分析器正是這樣一種或多 或少理解語言的工具。由此非常明顯的是,自然語言分析是自然語言處理 的基礎(chǔ)技術(shù)之一。性能良好的分析器可以廣泛用于諸多方面,例如自然語 言理解、文檔分類、機(jī)器翻譯等等。
我們都知道,語言是世界上最復(fù)雜的系統(tǒng)之一,對(duì)于本地人來說,誤 解語句是非常正常的,更不用說是計(jì)算機(jī)了。而最重要的一點(diǎn)則是如何用 計(jì)算機(jī)語言表述人類語言知識(shí)以及如何使計(jì)算機(jī)理解這種語言。通常,人 們嘗試讓計(jì)算機(jī)以語言學(xué)方式來理解人類語言,或者嘗試讓計(jì)算機(jī)理解語 句的語法結(jié)構(gòu)以及詞在語句中的語法作用。由此,自然語言分析器常被用 于分析語句(或文檔)結(jié)構(gòu)和為文本標(biāo)記標(biāo)簽,例如主語、謂語、賓語等 等。例如,在英漢機(jī)器翻譯系統(tǒng)中,使用分析器來提取英文語句中的語法 元素,而系統(tǒng)則采用中文形式來重組這些元素。
分析器的目的(或任務(wù))是提取文本串中的特定元素,換句話說,對(duì) 分析器而言,輸入是文本,輸出的則是結(jié)構(gòu)信息,這其中包括分詞、詞的 詞性標(biāo)簽以及某些可被稱為語義規(guī)則的高級(jí)標(biāo)記。可以看到,分詞是基本 功能,基于分詞給出詞性標(biāo)記,此外,基于詞及其詞性標(biāo)簽提取高級(jí)語義對(duì)語言分析器來說,其最重要的一點(diǎn)是設(shè)計(jì)分析框架,這樣做將會(huì)確 定可處理信息的類型、處理效率以及輸出性能。此外,語義規(guī)則表述模式 同樣是一個(gè)有影響的因素。
語言分析器是一個(gè)很復(fù)雜的模塊。關(guān)于分析器的現(xiàn)有解決方案大多數(shù)
是以Chomsky的形式語言理論及其后續(xù)研究為基礎(chǔ)的。對(duì)自然語言分析 器來說,有兩種因素是非常重要的, 一個(gè)是語法,另一個(gè)則是分析算法。 語法是關(guān)于語言的可允許結(jié)構(gòu)的形式規(guī)定。隨著手動(dòng)注解了自身結(jié)構(gòu)的語 言建模文本主體(語料庫)的出現(xiàn),現(xiàn)在可以對(duì)形式語法迸行歸納,以便 包含精確的概率。此外,在一句話中,詞之間的概率關(guān)系可以用所謂的隨 機(jī)語言模型而直接從語料庫中推導(dǎo)和模擬,例如n元(n-gram),由此可 以排除對(duì)于創(chuàng)建廣義覆蓋語法的需要。 一般來說,分析算法提供了一個(gè)程 序,該程序?qū)τ糜诮M合語法語義規(guī)則的不同方式進(jìn)行搜索,以便找出產(chǎn)生 了用于描述輸入語句結(jié)構(gòu)的樹圖的組合方式。在沒有統(tǒng)計(jì)語言模型的情況 下,傳統(tǒng)的分析算法使用的是圖表分析模式,該模式可以采用自頂向下或 自底向上模式來分析句子,隨著統(tǒng)計(jì)語言模型的出現(xiàn),可以使用維特比算 法而從各種用于組合語法語義規(guī)則的方式中選擇得分最高的方式。
但是,現(xiàn)有解決方案都是以多步框架為基礎(chǔ)的。在這種框架中,處理 過程分為若干個(gè)單獨(dú)步驟,前一個(gè)步驟的輸出將會(huì)是下一個(gè)步驟的輸入。 更詳細(xì)的說,系統(tǒng)首先嘗試將文本串分成詞,然后則嘗試為詞給出詞性標(biāo) 簽,最后則應(yīng)用某些語義規(guī)則來匹配和提取語義規(guī)則。可以看出,傳統(tǒng)的 分析框架既沒有將分析過程視為一個(gè)整體,也沒有將這個(gè)過程視為是不可 分的,這種設(shè)計(jì)降低了系統(tǒng)復(fù)雜度,但是由于在從一個(gè)步驟到另一個(gè)步驟 的過程中丟棄某些有用的信息,因此這種設(shè)計(jì)是無法實(shí)現(xiàn)最佳性能的。
此外,某些現(xiàn)有分析器只實(shí)施了某些過程步驟,例如,某些分析器并 沒有考慮分詞子任務(wù),并且它們是無法在沒有詞邊界的語言中使用的,例 如中文和日文。
專利文獻(xiàn)US2006095250給出了一種由計(jì)算機(jī)實(shí)施并用于開發(fā)分 析器的方法。該方法包括訪問語句語料庫,通過分析語句來產(chǎn)生每個(gè)句 子的結(jié)構(gòu)描述。該分析器是基于每個(gè)句子的結(jié)構(gòu)描述來訓(xùn)練的。
該文獻(xiàn)僅僅用于英語之類的基于詞的語言,此外,由于在詞之間具有充當(dāng)?shù)诉吔绲目崭褡址?,因此,該文獻(xiàn)并未提供用于分詞的組件。該發(fā) 明的詳細(xì)描述表明它是逐步執(zhí)行詞性標(biāo)記、名詞短語提取以及動(dòng)詞短語提 取的。
專利文獻(xiàn)US2003233225提供了一種用于分析語句的方法、計(jì)算 機(jī)程序產(chǎn)品和設(shè)備,其中包括對(duì)某個(gè)語句進(jìn)行分析,其中包括符號(hào)標(biāo)記 該語句中的詞,并使之經(jīng)過迭代式歸納處理器。該處理器至少使用第一和 第二規(guī)則集合。這些規(guī)則將會(huì)縮減句子中的詞的可能句法解釋的范圍。在 窮舉了第一規(guī)則集的應(yīng)用之后,該程序?qū)?huì)移至第二語義規(guī)則集。這個(gè)程 序?qū)?huì)在這些語義規(guī)則集之間來回迭代,直至無法進(jìn)一步簡化句法解釋為 止。此后,如有必要將會(huì)執(zhí)行一個(gè)演繹性的標(biāo)記合并處理。該文獻(xiàn)提供了 表示句法解釋(可以看作某種語義規(guī)則)的更為復(fù)雜的框架,但是也將整 個(gè)過程分割為多個(gè)單獨(dú)的步驟。
對(duì)當(dāng)前的語言分析器來說,其主要問題如下所述。
首先,整個(gè)過程分成了若干個(gè)單獨(dú)的步驟,并且系統(tǒng)是逐一執(zhí)行這些 步驟的。很明顯,這種設(shè)計(jì)會(huì)使分析處理非常不便。前一個(gè)步驟完成其工 作并產(chǎn)生其輸出,然后則將其輸出發(fā)送到下一個(gè)步驟。由此,相鄰步驟之 間的通信將會(huì)受限;它們將無法共享某些有用的信息。
其次,傳統(tǒng)的框架可以確保最終的輸出是所有可能性中的最優(yōu)候選 者。我們知道,對(duì)中文和日文這類沒有詞邊界的語言來說,如果給出語句, 那么分段結(jié)果可能有很多種;如果給出的是詞,則可以有多種有效的詞性 候選詞,以及如果給出的是詞的詞性類型,那么有可能存在一種以上的方 式來將其與其他詞相結(jié)合。傳統(tǒng)的解析框架會(huì)將整個(gè)過程分成若干個(gè)步
驟,并且每一個(gè)步驟都會(huì)獨(dú)立完成其工作,由此整個(gè)解碼過程將會(huì)喪失其 連續(xù)性,并且前一個(gè)步驟帶來的差錯(cuò)會(huì)使后續(xù)步驟的工作喪失意義。舉例 來說,如果先前的分詞步驟給出的是不正確的分詞,那么基于這個(gè)不正確 的中間結(jié)果的所有工作都會(huì)變得毫無意義。
在專利文獻(xiàn)US2003233225中,雖然引用了多組規(guī)則來匹配句法 解釋,但是其語義規(guī)則設(shè)計(jì)并不靈活,并且它會(huì)在獨(dú)立的步驟中執(zhí)行字元 化工作以及句法信息提取,依照先前的分析,這種處理非常低效和不合理, 甚至是不恰當(dāng)?shù)?。此外,傳統(tǒng)的分析框架并未提供用于句法實(shí)體提取的靈活機(jī)制。現(xiàn)有
技術(shù)中的專利文獻(xiàn)US2006095250則是這樣一個(gè)用于對(duì)句法實(shí)體進(jìn)行 拙劣處理的專利。
發(fā)明內(nèi)容
為了解決上述問題,本發(fā)明提供了用于給出句法解釋(可以被視為是 某種語義規(guī)則)的更復(fù)雜框架。
本發(fā)明采用了一體化分析設(shè)計(jì)方式。在這種設(shè)計(jì)中使用解碼框架,以 此來替換傳統(tǒng)的單維特比組件框架。在這個(gè)框架中,其中分別為句法實(shí)體 和普通詞設(shè)計(jì)了兩個(gè)解碼組件。在分析過程中,當(dāng)輸入(或是從語句中讀 取)新字符時(shí),這時(shí)將會(huì)使用用于詞處理的解碼器來產(chǎn)生可能的詞(分詞
子任務(wù))并且給出可能的POS;然后,用于句法實(shí)體提取的解碼器將搜 索可能的語義規(guī)則。在這個(gè)過程中,全局搜索路徑將被擴(kuò)展。這個(gè)過程將 會(huì)隨著字符輸入而重復(fù)執(zhí)行,換句話說,這兩個(gè)解碼器將會(huì)輪流負(fù)責(zé)該解 碼過程,并且在整體上,所有可能的路徑都會(huì)延伸,由此最終結(jié)果將會(huì)是 最優(yōu)的。
其次,為了構(gòu)造雙解碼器,本發(fā)明采用了一種名為基于規(guī)則表述框架 的有限狀態(tài)機(jī)的語義實(shí)體框架。這種框架不但可以用于表示基于詞的語義 元素,而且還可以表示某些作為詞和非詞成分組合的實(shí)體,例如標(biāo)點(diǎn)符號(hào)、 語句邊界、段落邊界等等;此外,這種框架可以表述那些區(qū)間很長的語義
現(xiàn)象。此外,其基于有限狀態(tài)機(jī)的規(guī)則表述框架被設(shè)計(jì)為符合正常的詞表 述,并且將會(huì)允許分析器以相同方式來對(duì)其進(jìn)行管理,這樣將會(huì)減少系統(tǒng)
內(nèi)存和CPU需求。語義實(shí)體表述設(shè)計(jì)確保了兩個(gè)維特比組件可以完美地
在一起工作。
本發(fā)明可以用于所有的文檔分析,其中對(duì)短文本分析而言則尤為有
效。由于其對(duì)內(nèi)存和CPU的需求很低,因此它特別適合計(jì)算能力低下的
系統(tǒng),例如移動(dòng)電話等等。
根據(jù)本發(fā)明第一方面,提出了一種文本分析器,包括 第一解碼器,用于通過利用詞搜索樹對(duì)輸入的文本中的每個(gè)字符依次
進(jìn)行第一路徑擴(kuò)展,獲得與每次第一路徑擴(kuò)展對(duì)應(yīng)的詞;以及第二解碼器,用于通過利用語義規(guī)則搜索樹對(duì)第一解碼器每次進(jìn)行第 一路徑擴(kuò)展獲得的詞依次進(jìn)行第二路徑擴(kuò)展,獲得與每次第二路徑擴(kuò)展對(duì) 應(yīng)的語義規(guī)則。
根據(jù)本發(fā)明第二方面,提出了一種文本分析方法,包括
第一解碼步驟,包括
接收輸入的文本;
從文本中按照順序獲取一個(gè)字符;
利用搜索樹對(duì)當(dāng)前的字符進(jìn)行第一路徑擴(kuò)展,獲得與第一路徑擴(kuò)展對(duì)
應(yīng)的當(dāng)前詞;以及
第二解碼步驟,包括 接收第一路徑擴(kuò)展獲得的當(dāng)前詞;
利用語義規(guī)則搜索樹對(duì)當(dāng)前詞進(jìn)行第二路徑擴(kuò)展,獲得與第二路徑擴(kuò)
展對(duì)應(yīng)的語義規(guī)則;以及
重復(fù)執(zhí)行第一解碼步驟以及第二解碼步驟,直到對(duì)文本中的所有字符
執(zhí)行了第一路徑擴(kuò)展和第二路徑擴(kuò)展。
根據(jù)本發(fā)明第三方面,提出了一種短消息智能處理系統(tǒng),包括 短消息上下文檢索器,用于從輸入的短消息中檢索上下文信息; 根據(jù)本發(fā)明的文本分析器,用于對(duì)短消息文本進(jìn)行分析; 分類器,用于對(duì)文本分析器的輸出進(jìn)行分類;
短消息標(biāo)記器,用于利用標(biāo)簽對(duì)來自文本分類器和短消息上下文檢索
器的輸出進(jìn)行標(biāo)記;
短消息管理器,用于根據(jù)加標(biāo)簽的輸出,對(duì)短消息進(jìn)行管理。 根據(jù)本發(fā)明第四方面,提出了一種短消息智能處理方法,包括 短消息上下文檢索步驟,從輸入的短消息中檢索上下文信息; 根據(jù)本發(fā)明所述的文本分析方法,對(duì)短消息文本進(jìn)行分析; 分類步驟,對(duì)文本分析方法分析的結(jié)果迸行分類; 短消息標(biāo)記步驟,利用標(biāo)簽對(duì)來自文本分類步驟和短消息上下文檢索
步驟的輸出進(jìn)行標(biāo)記;
短消息管理步驟,根據(jù)加標(biāo)簽的輸出,對(duì)短消息進(jìn)行管理。 與常規(guī)的文本分析器不同,根據(jù)本發(fā)明的文本分析器具有如下特點(diǎn):1. 雙解碼器分析框架會(huì)使分析處理更為有效,它提高了分析過程的 速度,并且降低了系統(tǒng)需求;
2. 雙解碼器分析框架保證了最終結(jié)果是所有可能結(jié)果中的最佳選擇, 由此提高了了分析處理的精度;
3. 基于有限狀態(tài)機(jī)的語義規(guī)則表述方法是用于雙解碼器框架的重要 補(bǔ)充。它提供了用于支持嵌套規(guī)則、長區(qū)間規(guī)則和具有非詞成分的規(guī)則的 靈活機(jī)制。
通過以下參照附圖對(duì)優(yōu)選實(shí)施例的詳細(xì)描述,本發(fā)明的這些和其他方
案、特征和優(yōu)點(diǎn)將變得更加清楚。
圖1是示出了根據(jù)本發(fā)明的文本分析器的硬件結(jié)構(gòu)圖2是示出了包括本發(fā)明的文本分析器中的搜索樹構(gòu)造裝置與第一
解碼器和第二解碼器之間的交互協(xié)作的示意圖3示出了本發(fā)明的基于有限狀態(tài)機(jī)的語義規(guī)則的一個(gè)示例;
圖4a是示出了本發(fā)明的詞搜索樹構(gòu)造裝置的示意圖4b是示出了本發(fā)明的語義規(guī)則搜索樹構(gòu)造裝置的示意圖5a是示出了本發(fā)明的詞搜索樹構(gòu)造方法的流程圖5b是示出了本發(fā)明的語義規(guī)則搜索樹構(gòu)造方法的流程圖6a示出了中文詞典排序表;
圖6b是示出了搜索樹的一個(gè)示例的結(jié)構(gòu)圖6c示出了英文詞典排序表;
圖6d, 6e是示出了搜索樹的另一個(gè)示例的結(jié)構(gòu)圖7a示出了基于有限狀態(tài)機(jī)的語義規(guī)則的一個(gè)示例表;
圖7b示出了基于有限狀態(tài)機(jī)的語義規(guī)則的搜索樹的一個(gè)示例的結(jié)構(gòu)
圖8a是示出了本發(fā)明的一個(gè)實(shí)施例的第一解碼器和第二解碼器的示
意圖8b是示出了本發(fā)明的一個(gè)實(shí)施例的文本分析方法的流程圖8c是示出了本發(fā)明的另一實(shí)施例的第一解碼器和第二解碼器的示意圖8d示出了本發(fā)明的另一實(shí)施例的文本分析方法的流程圖9示出了利用本發(fā)明的文本分析器執(zhí)行分析獲得的結(jié)果的示意圖io示出了本發(fā)明的文本分析器的另一個(gè)實(shí)施例的示意圖。
圖11示出了應(yīng)用了根據(jù)本發(fā)明的文本分析器的短消息智能處理系統(tǒng) 的示意圖。
圖12示出了短消息智能處理系統(tǒng)執(zhí)行的處理方法的流程圖。
具體實(shí)施例方式
下面,將參考附圖描述本發(fā)明的優(yōu)選實(shí)施例。在附圖中,相同的元件 將由相同的參考符號(hào)或數(shù)字表示。此外,在本發(fā)明的下列描述中,將省略 對(duì)已知功能和配置的具體描述,以避免使本發(fā)明的主題不清楚。
圖1是示出了包括本發(fā)明的文本分析器的硬件結(jié)構(gòu)圖。該文本分析器
例如可以是運(yùn)行特定程序的計(jì)算機(jī)系統(tǒng)。其中16指示了該系統(tǒng)的關(guān)鍵部 件。所述系統(tǒng)包括CPUOl,用于對(duì)應(yīng)用程序提供計(jì)算功能;內(nèi)部總線02, 所述系統(tǒng)通過內(nèi)部總線02在內(nèi)存12和永久性存儲(chǔ)器05 (可以是硬盤和 閃存)之間交換數(shù)據(jù);用戶接口 03,例如可以是用于按鍵輸入的鍵盤或 用于語音輸入的麥克風(fēng)等等,外圍設(shè)備04;以及內(nèi)存12。
永久性存儲(chǔ)器05包括分析資源06以及其它的存儲(chǔ)器。分析資源包括 普通詞詞匯07,基于有限狀態(tài)機(jī)(FSM)的語義規(guī)則定義08,語言模型 09和詞性信息10。其中語言模型(LM) 09與詞性信息IO是可選的,此
外也可以使用一元語言模型來減少存儲(chǔ)器成本。其它存儲(chǔ)器11用于存儲(chǔ) 其它的數(shù)據(jù)。內(nèi)存12包括多個(gè)組件,操作系統(tǒng)13;其它應(yīng)用程序14,以 及自然語言處理相關(guān)應(yīng)用程序15,該應(yīng)用程序使用了支持基于有限狀態(tài) 機(jī)的語義規(guī)則的綜合文本分析器16,綜合文本分析器16包括兩個(gè)關(guān)鍵部 件,部件161是一個(gè)多資源組織器和存取器,它對(duì)所有用于分析的資源進(jìn) 行管理,并且對(duì)其進(jìn)行組織,以便保證本發(fā)明的一次通過式的分析處理; 部件162是雙解碼器,包括第一解碼器和第二解碼器,它接收來自自然語 言處理相關(guān)應(yīng)程序的輸入文檔17,并且借助部件161來使用所有分析資 源,以及采用一次通過的方式產(chǎn)生分析結(jié)果18,然后將結(jié)分析結(jié)果發(fā)送到自然語言處理相關(guān)應(yīng)用程序15。
圖2是示出了本發(fā)明的文本分析器中的搜索樹構(gòu)造裝置與第一解碼
器和第二解碼器之間的交互關(guān)系的示意圖。參考圖2,多資源組織器和存 取器16具有與永久性存儲(chǔ)器中的資源相連的四個(gè)數(shù)據(jù)管道。包括詞搜索 樹構(gòu)造裝置1611,用于加載來自永久性存儲(chǔ)器的普通詞詞匯07并且將其 構(gòu)造成詞搜索樹1614;語義規(guī)則搜索樹構(gòu)造裝置1612,用于加載基于有 限狀態(tài)機(jī)的語義規(guī)則定義08,并且將其構(gòu)造成語義規(guī)則搜索樹1615;詞 性信息存取器1613以及LM存取器1616。如果詞性信息和語言模型很小, 那么它們會(huì)分別由詞性信息存取器1613和LM存取器1616加載到內(nèi)存 中,如果其對(duì)內(nèi)存的消耗很大,那么詞性信息存取器1613和LM存取器 將在必要的運(yùn)行時(shí)間局部加載這些信息和模型。雙解碼器包括第一解碼器 1621與第二解碼器1622,第一解碼器1621用于對(duì)輸入文本中的詞進(jìn)行處 理,第二解碼器1622用于對(duì)輸入文本中的語義規(guī)則進(jìn)行提取,以及第一 解碼器與第二解碼器相互協(xié)作,隨后將會(huì)對(duì)第一解碼器與第二解碼器之間
的交互工作進(jìn)行描述。優(yōu)選地,第一解碼器和第二解碼器是分別利用維特 比解碼器來實(shí)現(xiàn)的。
本發(fā)明采用了基于語義規(guī)則表述框架的有限狀態(tài)機(jī)的語義規(guī)則框架。 這種框架不但可以用于表示基于詞的語義元素,而且還可以表示某些作為 詞和非詞成分組合的實(shí)體,例如標(biāo)點(diǎn)符號(hào)、語句邊界、段落邊界等等;此 外,這種框架可以表述那些區(qū)間很長的語義現(xiàn)象。此外,其基于有限狀態(tài) 機(jī)的語義規(guī)則表述框架被設(shè)計(jì)為符合正常的詞表述,并且這樣將會(huì)允許分 析器以相同方式來對(duì)其進(jìn)行管理,這樣將會(huì)減少系統(tǒng)內(nèi)存和CPU需求。 語義規(guī)則表述設(shè)計(jì)使得第一解碼器與第二解碼器一起協(xié)調(diào)工作。
圖3示出了本發(fā)明的基于有限狀態(tài)機(jī)的語義規(guī)則的一個(gè)示例?;谟?限狀態(tài)機(jī)的語義規(guī)則是由一些節(jié)點(diǎn)(與狀態(tài)相對(duì)應(yīng))以及變換弧線組成的。 數(shù)字071表示語義規(guī)則中的起始節(jié)點(diǎn),數(shù)字074則表示結(jié)束節(jié)點(diǎn)。每一 個(gè)語義規(guī)則都從起始節(jié)點(diǎn)開始,并且被用于匹配一個(gè)文檔。如果文檔到達(dá) 語義規(guī)則中的結(jié)束節(jié)點(diǎn),那么這意味著該文檔包含了相應(yīng)語義規(guī)則的實(shí) 例。數(shù)字072指示了一個(gè)表示正常詞匯中的詞的節(jié)點(diǎn)。實(shí)際上,圖3中有 兩個(gè)普通節(jié)點(diǎn)。數(shù)字073是表示嵌套式的基于有限狀態(tài)機(jī)的語義規(guī)則,它充當(dāng)?shù)氖钱?dāng)前語義規(guī)則的狀態(tài)。通過使用嵌套機(jī)制,語義規(guī)則的表述能力
將會(huì)在相當(dāng)程度上得到擴(kuò)展。數(shù)字075指示了緊密的鏈接弧線,它意味著 在弧線的兩個(gè)節(jié)點(diǎn)之間沒有任何無用詞。而數(shù)字076則是一個(gè)松散的鏈接 弧線,它意味著在弧線的兩個(gè)節(jié)點(diǎn)之間存在長距離的區(qū)間并且某些無用詞 (這些詞并不被關(guān)注)可以填充這個(gè)區(qū)間。數(shù)字077指示的是一個(gè)開始點(diǎn) 與結(jié)束點(diǎn)都是相同節(jié)點(diǎn)的弧線。這個(gè)弧線可用于表述某些重復(fù)詞,例如組 成數(shù)字的重復(fù)數(shù)位。
根據(jù)本發(fā)明,所采用的基于有限狀態(tài)機(jī)的語義規(guī)則可以滿足下列條
件
1. 基于有限狀態(tài)機(jī)的語義規(guī)則與有限狀態(tài)機(jī)對(duì)應(yīng),其中節(jié)點(diǎn)可以是 詞典中的詞或者是另一個(gè)有限狀態(tài)機(jī)的語義規(guī)則。即,如果需要的話,基 于有限狀態(tài)機(jī)的語義規(guī)則是可以嵌套的。
2. 兩個(gè)節(jié)點(diǎn)之間的鏈接弧線可以是緊密弧線或松散弧線。對(duì)緊密弧 線來說,第一節(jié)點(diǎn)即為前一個(gè)節(jié)點(diǎn),而對(duì)松散鏈接來說,在兩個(gè)節(jié)點(diǎn)之間 可以存在某些不相關(guān)的詞或語義規(guī)則;
3. 來自某個(gè)節(jié)點(diǎn)的鏈接弧線可以引導(dǎo)到同一個(gè)節(jié)點(diǎn)。也就是說,該 鏈接弧線代表的是當(dāng)前節(jié)點(diǎn)的一個(gè)或多次重復(fù)。這個(gè)特性對(duì)數(shù)字表示而言 是非常重要的。
下面將首先對(duì)如何生成本發(fā)明的詞搜索樹以及語義規(guī)則搜索樹進(jìn)行 描述,之后將結(jié)合生成的詞搜索樹以及語義規(guī)則搜索樹對(duì)本發(fā)明的第一解 碼器和第二解碼器的交互工作進(jìn)行描述。
圖4a示出了本發(fā)明的詞搜索樹構(gòu)造裝置的示意圖。參考圖4,詞搜 索樹構(gòu)造裝置1611包括字典排序單元41,用于根據(jù)讀取的字典中的詞串 對(duì)詞進(jìn)行排序;詞ID分配單元42,用于對(duì)排序后的每個(gè)詞分配一個(gè)唯一 的詞ID;以及詞搜索樹構(gòu)造單元44,用于利用排序后的詞與分配的詞ID 構(gòu)造一個(gè)詞搜索樹。
圖5a示出了本發(fā)明的詞搜索樹的構(gòu)造方法的流程圖。在S501,字典 排序單元41將讀取的字典根據(jù)詞串來對(duì)字典中的詞進(jìn)行排序。在S502, 詞ID分配單元42為排序后的每一個(gè)詞給出一個(gè)唯一的詞ID。在S503, 詞搜索樹構(gòu)造單元44將經(jīng)過排序的字典中的詞構(gòu)造成詞搜索樹。圖4b示出了本發(fā)明的語義規(guī)則搜索樹構(gòu)造裝置的示意圖。參考圖4b, 該語義規(guī)則搜索樹構(gòu)造裝置包括語義規(guī)則排序單元46,用于對(duì)有限狀態(tài)
機(jī)的語義規(guī)則中的所有語義規(guī)則進(jìn)行排序。可以按照預(yù)定的方式對(duì)語義規(guī)
則進(jìn)行排序,例如R1, R2, R3…等;語義規(guī)則ID分配單元48,用于對(duì) 排序后的每一個(gè)語義規(guī)則分配一個(gè)唯一的ID;以及根據(jù)排序結(jié)果來構(gòu)造 語義規(guī)則搜索樹的語義規(guī)則搜索樹構(gòu)造單元50。其中有限狀態(tài)機(jī)的語義 規(guī)則中的語義規(guī)則是與字典中的詞對(duì)應(yīng)的,因此,需要在構(gòu)造語義規(guī)則搜 索樹之前構(gòu)造詞搜索樹。
圖5b示出了本發(fā)明的語義規(guī)則搜索樹構(gòu)造方法的流程圖。在S504, 語義規(guī)則排序單元46對(duì)有限狀態(tài)機(jī)的語義規(guī)則進(jìn)行排序。在S505,語義 規(guī)則ID分配單元48為排序后的語義規(guī)則分配一個(gè)唯一的ID。語義規(guī)則 的ID與詞的ID不同,以免沖突。在S506,語義規(guī)則搜索樹構(gòu)造單元根 據(jù)排序后的語義規(guī)則來構(gòu)造語義規(guī)則搜索樹。
圖6a中的排序表顯示了普通中文字典的排序結(jié)果。這些詞是按照其 字符串代碼來進(jìn)行排序的。由于每一個(gè)中文字符都可以看作為單個(gè)的詞, 因此在本實(shí)例中,所有出現(xiàn)在多字符詞中的所有中文字符都被添加到了字 *巾。
圖6b示出了搜索樹的一個(gè)示例結(jié)構(gòu)。參考圖6b,每一個(gè)節(jié)點(diǎn)只保存 了當(dāng)前節(jié)點(diǎn)的字符,以及從根節(jié)點(diǎn)到當(dāng)前節(jié)點(diǎn)的字符串則代表的是一個(gè) 詞。具有實(shí)線圓圈的節(jié)點(diǎn)是一個(gè)停止節(jié)點(diǎn),它意味著來自根節(jié)點(diǎn)的字符串 可以在這個(gè)節(jié)點(diǎn)中停止,或者從根節(jié)點(diǎn)到當(dāng)前節(jié)點(diǎn)的字符串是一個(gè)有效的 詞。具有虛線圓圈的節(jié)點(diǎn)是非停止節(jié)點(diǎn),它意味著從根節(jié)點(diǎn)到當(dāng)前節(jié)點(diǎn)的 字串不是有效詞。非停止節(jié)點(diǎn)不能是葉節(jié)點(diǎn)。在本實(shí)例中,"艾"、"艾滋 病"、"艾滋病毒,,都是有效詞,但是"艾滋"在這里則不是有效詞,因此非 停止節(jié)點(diǎn)用于表示字串"艾滋"。在本實(shí)例中,搜索樹只用于描述邏輯結(jié)構(gòu)。 實(shí)際上,還可以采用其它的實(shí)際的樹結(jié)構(gòu)來實(shí)現(xiàn)這種搜索樹。如果字典很 大,并且大多數(shù)非葉節(jié)點(diǎn)都具有一個(gè)以上的子節(jié)點(diǎn),那么在這種情況下, 采用TRIE樹將會(huì)非常適合。如果有很多只具有單個(gè)子節(jié)點(diǎn)的非葉和非停 止節(jié)點(diǎn),那么可以使用PAT樹來將該節(jié)點(diǎn)連同其單個(gè)子節(jié)點(diǎn)一起整合到 一個(gè)節(jié)點(diǎn)中,以使所述樹更為緊湊。在該圖中顯示的樹是一個(gè)TRIE樹。由于只有一個(gè)節(jié)點(diǎn)是可以壓縮的,因此在這里沒有必要使用PAT樹,以 免帶來額外的存儲(chǔ)器消耗。
圖6c示出了英文字典排序表。其中英文字典借助字串來進(jìn)行排序。
字典中的某些單詞實(shí)際上是包含了空格字符的短語。
圖6d和6e示出了與英文字典排序表對(duì)應(yīng)的搜索樹的示例結(jié)構(gòu)圖。該 圖與圖6a非常相似,但是圖6d和6e分別具有兩種類型的樹結(jié)構(gòu)。由于 存在很多分別只具有單個(gè)子節(jié)點(diǎn)的非葉非停止節(jié)點(diǎn),因此如PAT樹所示, 該TRIE樹可以被有效壓縮。
圖7a示出了基于有限狀態(tài)機(jī)的語義規(guī)則的一個(gè)示例表。在該圖中列 舉了四個(gè)語義規(guī)則,第一個(gè)語義規(guī)則Rl具有兩個(gè)實(shí)例0和1。第二個(gè)語 義規(guī)則R2是一個(gè)或多個(gè)重復(fù)的"R1",因此R2可以用于表示二進(jìn)制字串, 例如"1001101010"。語義規(guī)則R3是兩個(gè)詞語義規(guī)則,并且這兩個(gè)詞之間 的鏈接是松散鏈接,或者在這兩個(gè)詞之間可以存在某些無用的詞。語義規(guī) 則R4是一個(gè)緊密鏈接,它意味著在該鏈接的兩個(gè)部分之間沒有任何無用 信息??梢允褂肨R正或PAT樹表示這種結(jié)構(gòu),并且節(jié)點(diǎn)需要一些額外比 特來表示重復(fù)特性以及緊密或松散鏈接。
圖7b示出了基于有限狀態(tài)機(jī)的語義規(guī)則的搜索樹的一個(gè)示例的結(jié)構(gòu) 圖。其中按照語義規(guī)則R1, R2, R3和R4的順序來對(duì)圖7a的表中的語義
規(guī)則進(jìn)行排序。
下面將結(jié)合生成的詞搜索樹和語義規(guī)則搜索樹來描述本發(fā)明的文本 分析器的第一解碼器和第二解碼器如何對(duì)輸入的文本進(jìn)行分析。
圖8a是示出了本發(fā)明的第一解碼器和第二解碼器之間交互協(xié)作對(duì)輸 入的文本分析的示意圖。第一解碼器1621包括利用詞搜索樹對(duì)輸入的文 本中的每個(gè)字符依次進(jìn)行路徑擴(kuò)展以獲得搜索的詞(與每條路徑對(duì)應(yīng)的 詞)的第一路徑擴(kuò)展單元81,用于對(duì)搜索的詞進(jìn)行記錄的詞記錄單元82, 用于對(duì)搜索的詞的詞性進(jìn)行標(biāo)記的詞性標(biāo)記單元83以及用于從第二解碼 器分析后的詞和語義規(guī)則序列中選取合適的詞和語義規(guī)則序列的詞和語 義規(guī)則序列選取單元84。第二解碼器1622包括利用語義規(guī)則搜索樹對(duì)第 一解碼器每次搜索到的詞進(jìn)行路徑擴(kuò)展以搜索到與之完全匹配的語義規(guī)
則的第二路徑擴(kuò)展單元86,對(duì)利用語義規(guī)則搜索樹搜索到的語義規(guī)則進(jìn)行記錄的語義規(guī)則記錄單元87以及用于對(duì)獲得的詞和語義規(guī)則序列進(jìn)行
排序的詞和語義規(guī)則序列排序單元88。通過采用兩個(gè)解碼器分別從詞和 語義上對(duì)輸入的文本進(jìn)行分析,從而可以將文本解碼成詞和語義規(guī)則序 列。第一解碼器和第二解碼器可以是維特比解碼器,根據(jù)輸入文本中的每 個(gè)字符來記錄所有維特比狀態(tài)。維特比狀態(tài)表示當(dāng)輸入該字符時(shí)所有可能 的詞序列或者潛在的詞序列。
圖8b示出本發(fā)明的文本分析方法的流程圖。在步驟16201,當(dāng)接收 到輸入的文本之后,例如一句話,第一路徑擴(kuò)展單元81從句子中每次取 出一個(gè)字符執(zhí)行步驟16202, 1621, 1622直到16203的分析。例如,對(duì)于 輸入的句子"我今天走了",將作為字符序列"我-今-天-走-了"輸入到第一路 徑擴(kuò)展單元81。
在步驟16202,判斷是否能夠取出一個(gè)字符。如果不成功,則轉(zhuǎn)到步 驟16204。如果成功,則執(zhí)行步驟16211。
在步驟16211,第一路徑擴(kuò)展單元81使用輸入的這一個(gè)字符對(duì)其在 詞搜索樹中可能存在的所有路徑進(jìn)行擴(kuò)展。例如,當(dāng)輸入"我"時(shí),對(duì)詞搜 索樹執(zhí)行搜索,搜索到"我"這個(gè)節(jié)點(diǎn)并記錄下從根節(jié)點(diǎn)到該節(jié)點(diǎn)的路徑, 在對(duì)當(dāng)前詞"我"執(zhí)行完步驟16202, 1621, 1622直到16203之后,輸入了 "今",第一路徑擴(kuò)展單元81從現(xiàn)有的路徑"我"繼續(xù)進(jìn)行搜索,但是由于 不能將現(xiàn)有的路徑"我"擴(kuò)展為"我今"(詞搜索樹中并不存在這樣的一個(gè) 詞),所以將從現(xiàn)有路徑中刪除這一路徑。以及將"今"擴(kuò)展為搜索詞匯樹 中的當(dāng)前路徑,。因此,現(xiàn)有的路徑包括從根節(jié)點(diǎn)到"今"的這一條路徑。 在對(duì)當(dāng)前詞"今,,執(zhí)行完步驟16202, 1621, 1622直到16203之后,輸入了 "天",通過搜索詞搜索樹,可以找到從根節(jié)點(diǎn)經(jīng)過節(jié)點(diǎn)"今"到葉節(jié)點(diǎn)"天" 的路徑,因此,"天"可以被擴(kuò)展為詞搜索樹中的路徑"今天"。此外,可以 將"天,,自身擴(kuò)展為路徑"天"。之后,當(dāng)輸入"走"時(shí),搜索詞搜索樹,可以 發(fā)現(xiàn)該詞"走"并不能夠被擴(kuò)展為"今天走"(詞典中并不存在這個(gè)詞),因 此,刪除現(xiàn)有路徑"今天"。以及"走"可以被擴(kuò)展為當(dāng)前路徑。最后,當(dāng)輸 入"了"時(shí),搜索詞搜索樹,發(fā)現(xiàn)可以從詞搜索樹中找到路徑"走了",因此, 可以記錄當(dāng)前路徑。
在步驟16212,詞記錄單元82確定哪條路徑對(duì)應(yīng)了完整的詞(到達(dá)詞邊界),如果完整,則將其作為與搜索到的路徑對(duì)應(yīng)的當(dāng)前詞并記錄。 例如,對(duì)于第一個(gè)字符"我",記錄為當(dāng)前詞"我"。對(duì)于第二個(gè)字符"今", 記錄為當(dāng)前詞"今",對(duì)于第三個(gè)字符"天",記錄為當(dāng)前詞"天"和"今天"。 最終記錄的詞包括我,今,天,今天,走,走了。
在步驟16213,詞性標(biāo)記單元83對(duì)記錄的當(dāng)前詞的詞性進(jìn)行標(biāo)記,
并將該當(dāng)前詞輸入到步驟16221。
在步驟16221,第二解碼器中的第二路徑擴(kuò)展單元86通過搜索語義 規(guī)則搜索樹,對(duì)輸入的當(dāng)前詞在語義規(guī)則搜索樹中的所有可能的路徑進(jìn)行 擴(kuò)展。第二路徑搜索單元將輸入的當(dāng)前詞與語義規(guī)則搜索樹中的語義規(guī)則 進(jìn)行匹配,如果輸入的詞可以與語義規(guī)則搜索樹中的某一語義規(guī)則的至少 一部分匹配,則當(dāng)前詞在語義規(guī)則搜索樹中具有可擴(kuò)展的路徑,以及記錄 下該路徑。
在步驟16222,語義規(guī)則記錄單元87判斷語義規(guī)則搜索樹中的擴(kuò)展 的路徑中對(duì)應(yīng)的語義規(guī)則是否是完整的語義規(guī)則,如果是,則記錄該完整 的語義規(guī)則。
在步驟16203,語義規(guī)則排序單元88對(duì)當(dāng)前獲得的所有可能詞和語 義規(guī)則序列進(jìn)行排序。步驟16203可以采用不同的方法對(duì)詞和語義規(guī)則序 列進(jìn)行排序。方法可以采用將較大的數(shù)值分配給最有可能的詞序列。例如, 在輸入"天"之后,兩個(gè)可能的詞序列是"我"-"今"-"天","我"-"今天".可以 定義針對(duì)每個(gè)可能的詞序列的數(shù)值的計(jì)算方法并根據(jù)計(jì)算的數(shù)值對(duì)每個(gè) 可能的詞序列進(jìn)行排序。例如,采用計(jì)算每個(gè)詞(單元)的概率的相乘的 方法。如果對(duì)于詞"我","今,,,"天","今天",其單元(unigram)分別是0.1, 0.01,0.02, 0.2,則第一詞序列的概率是0.1*0.01*0.02=0.00002而第二詞序 列的概率是is 0.1*0.2=0.02。因此,第二詞序列將被排序在第一位置處。
之后,轉(zhuǎn)向步驟16201,來順序獲取下一個(gè)字符。當(dāng)在步驟16202判 斷已經(jīng)對(duì)輸入的句子的所有字符進(jìn)行了分析之后,則進(jìn)行到步驟16204, 從排序后的詞和語義規(guī)則序列中選出第一個(gè)詞和語義規(guī)則,作為最終的分 析結(jié)果。
繼續(xù)以輸入為"我今天走了"為例,描述第二解碼器執(zhí)行的處理。在步 驟16221,當(dāng)接收到標(biāo)記詞性后的詞"我"之后,第二路徑擴(kuò)展單元86搜索語義規(guī)則搜索樹,査找與詞"我"可以匹配的語義規(guī)則。假設(shè)語義規(guī)則搜索 樹中存在語義規(guī)則R1:我…走了,則詞"我"可以與語義規(guī)則R1部分匹配。 第二路徑擴(kuò)展單元86將詞"我"擴(kuò)展為語義規(guī)則搜索樹中的路徑"我"。之
后,執(zhí)行后續(xù)處理16222以及16203。當(dāng)在步驟16201獲取詞"今,,后,執(zhí) 行與詞"我"的類似的處理。在步驟16221,第二路徑擴(kuò)展單元86搜索語義 規(guī)則搜索樹,查找到路徑可以擴(kuò)展為語義規(guī)則搜索樹中的一部分語義規(guī)則 Rl"我..."。對(duì)于詞"天"和"走",執(zhí)行與詞"今"類似的處理過程。最終當(dāng)輸 入詞"了"之后,在步驟16221接收到的詞包括"走了"和"了",第二路徑擴(kuò) 展單元86將詞"走了"擴(kuò)展為語義規(guī)則搜索樹中的路徑"我...走了"。在步 驟16222,如果16221所擴(kuò)展的路徑與語義規(guī)則搜索樹中的某個(gè)語義規(guī)則 完全一致,則記錄該語義規(guī)則。對(duì)于上述例子,僅當(dāng)輸入了"了"之后,才 記錄該完整的語義規(guī)則。
圖8c是示出了根據(jù)本發(fā)明的另一實(shí)施例的第一解碼器和第二解碼器 的示意圖。與圖8a相比,其區(qū)別在于第一解碼器包括用于在對(duì)所有字符 進(jìn)行了路徑擴(kuò)展之后,對(duì)詞序列進(jìn)行排序的詞序列排序單元84',而不是 詞和語義規(guī)則序列選取單元。以及第二解碼器包括在對(duì)所有詞進(jìn)行第二路 徑擴(kuò)展之后,對(duì)語義規(guī)則排序的語義規(guī)則排序單元88',而不是詞和語義 規(guī)則序列排序單元。
圖8d示出了根據(jù)本發(fā)明的另一實(shí)施例的文本分析方法的流程圖,其 與圖8b所示的流程類似,區(qū)別在于在步驟16204,第一解碼器對(duì)獲得的 詞進(jìn)行排序。以及在步驟16203,第二解碼器對(duì)所有語義規(guī)則進(jìn)行排序。
圖9示出了本發(fā)明的文本分析器的分析結(jié)果的一個(gè)示例。當(dāng)輸入的文 本句子是"下午三點(diǎn)三十分開會(huì)"時(shí),采用根據(jù)本發(fā)明的分析器的最終分析 的結(jié)果包括語義規(guī)則R8和詞"開會(huì)",其中語義規(guī)則R8是有關(guān)時(shí)間的描 述"下午三點(diǎn)三十分開會(huì)"。
圖IO示出了本發(fā)明的文本分析器的另一個(gè)實(shí)施例的示意圖。參考圖 10,除了該文本分析器并不包括詞搜索樹構(gòu)造裝置1611,語言語義規(guī)則 搜索樹構(gòu)造裝置1612,詞性信息存取器1613以及LM存取器1616之外, 其結(jié)構(gòu)與圖2所示的文本分析器類似。該文本分析器包括第一解碼器 1621和第二解碼器1622,通過采用己經(jīng)生成的詞搜索樹和語義規(guī)則搜索樹來對(duì)輸入的文本執(zhí)行分析。其方法流程與圖8b所示的類似。
圖11示出了短消息智能處理系統(tǒng)的示意圖。在該系統(tǒng)中,采用了本 發(fā)明的文本分析器。該系統(tǒng)包括輸入裝置171,用于輸入短消息;短消 息上下文檢索器19;文本分析器16;分類器20;短消息標(biāo)記器21以及
短消息管理器22。其中,短消息上下文檢索器19,用于從輸入的短消息
中檢索上下文信息,其中短消息上下文包括發(fā)送方/接收方的電話號(hào)碼、 發(fā)送/接收時(shí)間、該號(hào)碼是否處于地址列表中等等;文本分析器16,用于 對(duì)短消息的純文本進(jìn)行分析,并輸出分析后的語義規(guī)則和詞;分類器20, 用于對(duì)文本分析器的輸出進(jìn)行分類;短消息標(biāo)記器21,接收來自文本分 類器和短消息上下文檢索器的輸出,并利用特定標(biāo)簽對(duì)該短消息進(jìn)行標(biāo) 記,特定標(biāo)簽例如可以是"隱私性"、"家庭"、"工作"等等。短消息管理器 22用于根據(jù)短消息標(biāo)記后的結(jié)果對(duì)短消息進(jìn)行管理。
圖12示出了短消息智能處理系統(tǒng)執(zhí)行的處理方法的流程圖。參考圖 12,在步驟1201,接收輸入的短消息。在步驟1202,短消息內(nèi)容檢索器 19從輸入的短消息中檢索上下文信息。在步驟1203,文本分析器16對(duì)短 消息的文本執(zhí)行分析,以得到語義規(guī)則和詞。在步驟1204,分類器20對(duì) 分析后的短消息執(zhí)行分類。在步驟1205,短消息標(biāo)記器21根據(jù)短消息上 下文檢索器從輸入的短消息中檢索到的上下文信息以及分類器20分類的 結(jié)果對(duì)短消息加標(biāo)簽。在步驟1206,短消息管理器22根據(jù)短消息的標(biāo)簽 對(duì)短消息進(jìn)行管理。
由于本發(fā)明的分析器具有很高的效率,且可以獲得較高精度的分析結(jié) 果,因此,根據(jù)本發(fā)明的文本分析器除了可以應(yīng)用在移動(dòng)電話上對(duì)輸入的 短消息進(jìn)行文本分析之外,還可以應(yīng)用于其它對(duì)文本分析要求較高的系統(tǒng) 中。此外,根據(jù)本發(fā)明,可知本發(fā)明不僅可以對(duì)中文文本進(jìn)行分析,而且 可以對(duì)包括英文文本的其它種類的語言文本執(zhí)行分析。
盡管已經(jīng)參照附圖,對(duì)示例實(shí)施例進(jìn)行了描述,應(yīng)當(dāng)理解的是,本發(fā) 明并不局限于這些實(shí)施例,本領(lǐng)域的普通技術(shù)人員可以對(duì)其進(jìn)行多種其它 變化和修改,而不偏離本發(fā)明的范圍或精神。所有這些變化和修改包括在 所附權(quán)利要求所限定的本發(fā)明的范圍內(nèi)。
權(quán)利要求
1. 一種文本分析器,包括第一解碼器,用于通過利用詞搜索樹對(duì)輸入的文本中的每個(gè)字符依次進(jìn)行第一路徑擴(kuò)展,獲得與每次第一路徑擴(kuò)展對(duì)應(yīng)的詞;以及第二解碼器,用于通過利用語義規(guī)則搜索樹對(duì)第一解碼器每次進(jìn)行第一路徑擴(kuò)展獲得的詞依次進(jìn)行第二路徑擴(kuò)展,獲得與每次第二路徑擴(kuò)展對(duì)應(yīng)的語義規(guī)則。
2. 如權(quán)利要求1所述的文本分析器,其中第二解碼器在每次第二路徑擴(kuò)展結(jié)束之后,對(duì)獲得的詞和語義規(guī)則的 序列進(jìn)行排序;以及第一解碼器在已經(jīng)對(duì)所有的字符順序進(jìn)行了第一路徑擴(kuò)展之后,從第 二解碼器排序后的詞和語義規(guī)則序列選擇出所需的詞和語義規(guī)則序列,作 為分析結(jié)果。
3. 如權(quán)利要求2所述的文本分析器,其中第一解碼器包括 第一路徑擴(kuò)展單元,用于利用詞搜索樹對(duì)輸入的文本中的每個(gè)字符依次進(jìn)行第一路徑擴(kuò)展,獲得與每次第一路徑擴(kuò)展對(duì)應(yīng)的詞;詞記錄單元,用于對(duì)獲得的與每條路徑對(duì)應(yīng)的詞進(jìn)行記錄;以及 詞和語義規(guī)則序列選取單元,用于在已經(jīng)對(duì)所有的字符順序進(jìn)行了第一路徑擴(kuò)展之后,從第二解碼器排序后的詞和語義規(guī)則序列中選取合適的詞和語義規(guī)則序列。
4. 如權(quán)利要求3所述的文本分析器,其中第一解碼器還包括 詞性標(biāo)記單元,用于對(duì)每次第一路徑擴(kuò)展獲得的詞的詞性進(jìn)行標(biāo)記。
5. 如權(quán)利要求2所述的文本分析器,其中第二解碼器包括 第二路徑擴(kuò)展單元,用于利用語義規(guī)則搜索樹對(duì)第一解碼器每次進(jìn)行第一路徑擴(kuò)展獲得的詞依次進(jìn)行第二路徑擴(kuò)展,獲得與每次第二路徑擴(kuò)展對(duì)應(yīng)的語義規(guī)則;語義規(guī)則記錄單元,用于對(duì)獲得的語義規(guī)則進(jìn)行記錄;以及 詞和語義規(guī)則序列排序單元,用于對(duì)獲得的詞和語義規(guī)則序列進(jìn)行排序。
6. 如權(quán)利要求2所述的文本分析器,其中第二解碼器通過對(duì)詞序列中的每個(gè)詞序列計(jì)算詞單元來對(duì)詞序列進(jìn) 行排序。
7. 如權(quán)利要求所述的文本分析器,還包括 詞搜索樹構(gòu)造裝置,包括詞典排序單元,用于對(duì)詞典中的詞進(jìn)行排序;詞ID分配單元,用于為每個(gè)排序后的詞分配一個(gè)唯一的詞ID;以及 詞搜索樹構(gòu)造單元,用于利用排序后的詞和相應(yīng)的詞ID構(gòu)造詞搜索樹。
8. 如權(quán)利要求1所述的文本分析器,還包括 語義規(guī)則搜索樹構(gòu)造裝置,包括 語義規(guī)則排序單元,用于對(duì)語義規(guī)則進(jìn)行排序;語義規(guī)則ID分配單元,用于為排序后的每個(gè)語義規(guī)則分配一個(gè)唯一 的語義規(guī)則ID;以及語義規(guī)則搜索樹構(gòu)造單元,用于利用排序后的語義規(guī)則和相應(yīng)的語義 規(guī)則ID構(gòu)造語義規(guī)則搜索樹。
9. 如權(quán)利要求1所述的文本分析器,其中所述的語義規(guī)則是基于有 限狀態(tài)機(jī)的語義規(guī)則。
10. 如權(quán)利要求6所述的文本分析器,其中語義規(guī)則可以是詞或者是 一個(gè)嵌套的語義規(guī)則。
11. 如權(quán)利要求l所述的文本分析器,其中第一解碼器在對(duì)輸入的文本中的所有字符依次進(jìn)行了第一路徑擴(kuò)展 之后,對(duì)所獲得的詞的詞序列進(jìn)行排序;以及第二解碼器在對(duì)第一路徑擴(kuò)展獲得的所有詞依次進(jìn)行第二路徑擴(kuò)展 之后,對(duì)獲得的與每次第二路徑擴(kuò)展對(duì)應(yīng)的語義規(guī)則迸行排序。
12. 如權(quán)利要求ll所述的文本分析器,其中第一路徑擴(kuò)展單元,用于利用詞搜索樹對(duì)輸入的文本中的每個(gè)字符依 次進(jìn)行第一路徑擴(kuò)展,獲得與每次第一路徑擴(kuò)展對(duì)應(yīng)的詞;詞記錄單元,用于對(duì)獲得的與每條路徑對(duì)應(yīng)的詞進(jìn)行記錄;以及詞序列排序單元,用于在已經(jīng)對(duì)所有的字符依次進(jìn)行了第一路徑擴(kuò)展 之后,對(duì)獲得的詞的詞序列進(jìn)行排序。
13. 如權(quán)利要求ll所述的文本分析器,其中第二解碼器包括 第二路徑擴(kuò)展單元,用于利用語義規(guī)則搜索樹對(duì)第一解碼器每次進(jìn)行第一路徑擴(kuò)展獲得的詞依次進(jìn)行第二路徑擴(kuò)展,獲得與每次第二路徑擴(kuò)展對(duì)應(yīng)的語義規(guī)則;語義規(guī)則記錄單元,用于對(duì)獲得的語義規(guī)則進(jìn)行記錄;以及 語義規(guī)則序列排序單元,用于對(duì)獲得的語義規(guī)則序列進(jìn)行排序。
14. 如權(quán)利要求1所述的文本分析器,其中 第一解碼器和第二解碼器分別是維特比解碼器。
15. —種文本分析方法,包括 第一解碼步驟,包括 接收輸入的文本; 從文本中按照順序獲取一個(gè)字符;利用搜索樹對(duì)當(dāng)前的字符進(jìn)行第一路徑擴(kuò)展,獲得與第一路徑擴(kuò)展對(duì) 應(yīng)的當(dāng)前詞;以及第二解碼步驟,包括 接收第一路徑擴(kuò)展獲得的當(dāng)前詞;利用語義規(guī)則搜索樹對(duì)當(dāng)前詞進(jìn)行第二路徑擴(kuò)展,獲得與第二路徑擴(kuò) 展對(duì)應(yīng)的語義規(guī)則;以及重復(fù)執(zhí)行第一解碼步驟以及第二解碼步驟,直到對(duì)文本中的所有字符 執(zhí)行了第一路徑擴(kuò)展和第二路徑擴(kuò)展。
16. 根據(jù)權(quán)利要求15所述的方法,其中第二解碼步驟還包括在執(zhí)行 完第二路徑擴(kuò)展之后,對(duì)當(dāng)前詞和語義規(guī)則序列進(jìn)行排序的步驟;以及在對(duì)文本中的所有字符執(zhí)行了第一路徑擴(kuò)展和第二路徑擴(kuò)展之后,第 一解碼步驟還包括從排序后的詞和語義規(guī)則序列中選擇所需的詞和語義 規(guī)則序列的步驟。
17. 根據(jù)權(quán)利要求15所述的方法,其中第一解碼步驟還包括在對(duì)輸 入的文本中的所有字符依次進(jìn)行了第一路徑擴(kuò)展之后,對(duì)所獲得的詞的詞 序列進(jìn)行排序的步驟;以及第二解碼步驟還包括在對(duì)第一路徑擴(kuò)展獲得的所有詞依次進(jìn)行第二 路徑擴(kuò)展之后,對(duì)獲得的語義規(guī)則進(jìn)行排序的步驟。
18. 如權(quán)利要求16所述的文本分析方法,其中 第二解碼步驟通過對(duì)詞序列中的每個(gè)詞序列計(jì)算詞單元來對(duì)詞序列進(jìn)行排序。
19. 如權(quán)利要求15所述的文本分析方法,其中第一解碼步驟還包括詞記錄步驟,對(duì)當(dāng)前詞進(jìn)行記錄。
20. 如權(quán)利要求18所述的文本分析方法,其中第一解碼步驟還包括詞性標(biāo)記步驟,對(duì)當(dāng)前詞的詞性進(jìn)行標(biāo)記。
21. 如權(quán)利要求15所述的文本分析方法,其中第二解碼步驟還包括在執(zhí)行第二路徑擴(kuò)展之后,對(duì)獲得的語義規(guī)則進(jìn)行記錄的步驟。
22. 如權(quán)利要求15所述的文本分析方法,還包括第一構(gòu)造步驟,包括詞典排序步驟,對(duì)詞典中的詞進(jìn)行排序;詞ID分配步驟,為每個(gè)排序后的詞分配一個(gè)唯一的詞ID;以及詞搜索樹構(gòu)造步驟,利用排序后的詞和相應(yīng)的詞ID構(gòu)造詞搜索樹。
23. 如權(quán)利要求15所述的文本分析方法,還包括 第二構(gòu)造步驟,包括礙義規(guī)則排序步驟,對(duì)語義規(guī)則進(jìn)行排序;語義規(guī)則ID分配步驟,為排序后的每個(gè)語義規(guī)則分配一個(gè)唯一的語 義規(guī)則ID;以及語義規(guī)則搜索樹構(gòu)造步驟,利用排序后的語義規(guī)則和相應(yīng)的語義規(guī)則 ID構(gòu)造語義規(guī)則搜索樹。
24. 如權(quán)利要求15所述的文本分析方法,其中所述的語義規(guī)則是基于有限狀態(tài)機(jī)的語義規(guī)則。
25. 如權(quán)利要求15所述的文本分析方法,其中語義規(guī)則可以是詞或者是一個(gè)嵌套的語義規(guī)則。
26. —種短消息智能處理系統(tǒng),包括短消息上下文檢索器,用于從輸入的短消息中檢索上下文信息; 根據(jù)本發(fā)明權(quán)利要求1所述的文本分析器,用于對(duì)短消息文本進(jìn)行分析;分類器,用于對(duì)文本分析器的輸出進(jìn)行分類;短消息標(biāo)記器,用于利用標(biāo)簽對(duì)來自文本分類器和短消息上下文檢索 器的輸出進(jìn)行標(biāo)記;短消息管理器,用于根據(jù)加標(biāo)簽的輸出,對(duì)短消息進(jìn)行管理。
27. —種短消息智能處理方法,包括短消息上下文檢索步驟,從輸入的短消息中檢索上下文信息; 根據(jù)本發(fā)明權(quán)利要求15所述的文本分析方法,對(duì)短消息文本進(jìn)行分析;分類步驟,對(duì)文本分析方法分析的結(jié)果進(jìn)行分類; 短消息標(biāo)記步驟,利用標(biāo)簽對(duì)來自文本分類步驟和短消息上下文檢索 步驟的輸出進(jìn)行標(biāo)記;短消息管理步驟,根據(jù)加標(biāo)簽的輸出,對(duì)短消息進(jìn)行管理。
全文摘要
本發(fā)明提供一種文本分析器,包括第一解碼器,用于通過利用詞搜索樹對(duì)輸入的文本中的每個(gè)字符依次進(jìn)行第一路徑擴(kuò)展,獲得與每次第一路徑擴(kuò)展對(duì)應(yīng)的詞;以及第二解碼器,用于通過利用語義規(guī)則搜索樹對(duì)第一解碼器每次進(jìn)行第一路徑擴(kuò)展獲得的詞依次進(jìn)行第二路徑擴(kuò)展,獲得與每次第二路徑擴(kuò)展對(duì)應(yīng)的語義規(guī)則。以及本發(fā)明提供了一種文本分析方法,以及一種應(yīng)用本發(fā)明分析器的短消息智能處理系統(tǒng)及其方法。
文檔編號(hào)G06F17/27GK101470701SQ20071030663
公開日2009年7月1日 申請(qǐng)日期2007年12月29日 優(yōu)先權(quán)日2007年12月29日
發(fā)明者吳根清, 許荔秦, 靳簡明 申請(qǐng)人:日電(中國)有限公司