支持基于有限狀態(tài)機(jī)的語義規(guī)則的文本分析器及其方法

文檔序號(hào)：6616054閱讀：266來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：支持基于有限狀態(tài)機(jī)的語義規(guī)則的文本分析器及其方法
技術(shù)領(lǐng)域：
本發(fā)明涉及自然語言處理過程，更具體地，涉及支持基于有限狀態(tài)機(jī) 的語義規(guī)則的文本分析器及其方法以及短消息智能處理系統(tǒng)及其方法。
背景技術(shù)：
自然語言處理是一個(gè)非常熱門的研究領(lǐng)域，該領(lǐng)域產(chǎn)生了很多重要的工業(yè)應(yīng)用。由于語言是用以通信的主要工具以及文化的主要載體，因此，對(duì)人類語言進(jìn)行分析是非常有益和重要的。隨著計(jì)算機(jī)科技的發(fā)展，逐漸可以開發(fā)出用于自動(dòng)分析人類語言的工具，語言分析器正是這樣一種或多或少理解語言的工具。由此非常明顯的是，自然語言分析是自然語言處理的基礎(chǔ)技術(shù)之一。性能良好的分析器可以廣泛用于諸多方面，例如自然語言理解、文檔分類、機(jī)器翻譯等等。
我們都知道，語言是世界上最復(fù)雜的系統(tǒng)之一，對(duì)于本地人來說，誤解語句是非常正常的，更不用說是計(jì)算機(jī)了。而最重要的一點(diǎn)則是如何用計(jì)算機(jī)語言表述人類語言知識(shí)以及如何使計(jì)算機(jī)理解這種語言。通常，人們嘗試讓計(jì)算機(jī)以語言學(xué)方式來理解人類語言，或者嘗試讓計(jì)算機(jī)理解語句的語法結(jié)構(gòu)以及詞在語句中的語法作用。由此，自然語言分析器常被用于分析語句(或文檔)結(jié)構(gòu)和為文本標(biāo)記標(biāo)簽，例如主語、謂語、賓語等等。例如，在英漢機(jī)器翻譯系統(tǒng)中，使用分析器來提取英文語句中的語法元素，而系統(tǒng)則采用中文形式來重組這些元素。
分析器的目的(或任務(wù))是提取文本串中的特定元素，換句話說，對(duì) 分析器而言，輸入是文本，輸出的則是結(jié)構(gòu)信息，這其中包括分詞、詞的詞性標(biāo)簽以及某些可被稱為語義規(guī)則的高級(jí)標(biāo)記。可以看到，分詞是基本功能，基于分詞給出詞性標(biāo)記，此外，基于詞及其詞性標(biāo)簽提取高級(jí)語義對(duì)語言分析器來說，其最重要的一點(diǎn)是設(shè)計(jì)分析框架，這樣做將會(huì)確定可處理信息的類型、處理效率以及輸出性能。此外，語義規(guī)則表述模式同樣是一個(gè)有影響的因素。
語言分析器是一個(gè)很復(fù)雜的模塊。關(guān)于分析器的現(xiàn)有解決方案大多數(shù)
是以Chomsky的形式語言理論及其后續(xù)研究為基礎(chǔ)的。對(duì)自然語言分析器來說，有兩種因素是非常重要的，一個(gè)是語法，另一個(gè)則是分析算法。語法是關(guān)于語言的可允許結(jié)構(gòu)的形式規(guī)定。隨著手動(dòng)注解了自身結(jié)構(gòu)的語言建模文本主體(語料庫)的出現(xiàn)，現(xiàn)在可以對(duì)形式語法迸行歸納，以便包含精確的概率。此外，在一句話中，詞之間的概率關(guān)系可以用所謂的隨機(jī)語言模型而直接從語料庫中推導(dǎo)和模擬，例如n元(n-gram)，由此可以排除對(duì)于創(chuàng)建廣義覆蓋語法的需要。一般來說，分析算法提供了一個(gè)程序，該程序?qū)τ糜诮M合語法語義規(guī)則的不同方式進(jìn)行搜索，以便找出產(chǎn)生了用于描述輸入語句結(jié)構(gòu)的樹圖的組合方式。在沒有統(tǒng)計(jì)語言模型的情況下，傳統(tǒng)的分析算法使用的是圖表分析模式，該模式可以采用自頂向下或自底向上模式來分析句子，隨著統(tǒng)計(jì)語言模型的出現(xiàn)，可以使用維特比算法而從各種用于組合語法語義規(guī)則的方式中選擇得分最高的方式。
但是，現(xiàn)有解決方案都是以多步框架為基礎(chǔ)的。在這種框架中，處理過程分為若干個(gè)單獨(dú)步驟，前一個(gè)步驟的輸出將會(huì)是下一個(gè)步驟的輸入。更詳細(xì)的說，系統(tǒng)首先嘗試將文本串分成詞，然后則嘗試為詞給出詞性標(biāo) 簽，最后則應(yīng)用某些語義規(guī)則來匹配和提取語義規(guī)則。可以看出，傳統(tǒng)的分析框架既沒有將分析過程視為一個(gè)整體，也沒有將這個(gè)過程視為是不可分的，這種設(shè)計(jì)降低了系統(tǒng)復(fù)雜度，但是由于在從一個(gè)步驟到另一個(gè)步驟的過程中丟棄某些有用的信息，因此這種設(shè)計(jì)是無法實(shí)現(xiàn)最佳性能的。
此外，某些現(xiàn)有分析器只實(shí)施了某些過程步驟，例如，某些分析器并沒有考慮分詞子任務(wù)，并且它們是無法在沒有詞邊界的語言中使用的，例如中文和日文。
專利文獻(xiàn)US2006095250給出了一種由計(jì)算機(jī)實(shí)施并用于開發(fā)分析器的方法。該方法包括訪問語句語料庫，通過分析語句來產(chǎn)生每個(gè)句子的結(jié)構(gòu)描述。該分析器是基于每個(gè)句子的結(jié)構(gòu)描述來訓(xùn)練的。
該文獻(xiàn)僅僅用于英語之類的基于詞的語言，此外，由于在詞之間具有充當(dāng)?shù)诉吔绲目崭褡址?，因此，該文獻(xiàn)并未提供用于分詞的組件。該發(fā) 明的詳細(xì)描述表明它是逐步執(zhí)行詞性標(biāo)記、名詞短語提取以及動(dòng)詞短語提取的。
專利文獻(xiàn)US2003233225提供了一種用于分析語句的方法、計(jì)算機(jī)程序產(chǎn)品和設(shè)備，其中包括對(duì)某個(gè)語句進(jìn)行分析，其中包括符號(hào)標(biāo)記該語句中的詞，并使之經(jīng)過迭代式歸納處理器。該處理器至少使用第一和第二規(guī)則集合。這些規(guī)則將會(huì)縮減句子中的詞的可能句法解釋的范圍。在窮舉了第一規(guī)則集的應(yīng)用之后，該程序?qū)?huì)移至第二語義規(guī)則集。這個(gè)程序?qū)?huì)在這些語義規(guī)則集之間來回迭代，直至無法進(jìn)一步簡化句法解釋為止。此后，如有必要將會(huì)執(zhí)行一個(gè)演繹性的標(biāo)記合并處理。該文獻(xiàn)提供了表示句法解釋(可以看作某種語義規(guī)則)的更為復(fù)雜的框架，但是也將整個(gè)過程分割為多個(gè)單獨(dú)的步驟。
對(duì)當(dāng)前的語言分析器來說，其主要問題如下所述。
首先，整個(gè)過程分成了若干個(gè)單獨(dú)的步驟，并且系統(tǒng)是逐一執(zhí)行這些步驟的。很明顯，這種設(shè)計(jì)會(huì)使分析處理非常不便。前一個(gè)步驟完成其工作并產(chǎn)生其輸出，然后則將其輸出發(fā)送到下一個(gè)步驟。由此，相鄰步驟之間的通信將會(huì)受限；它們將無法共享某些有用的信息。
其次，傳統(tǒng)的框架可以確保最終的輸出是所有可能性中的最優(yōu)候選者。我們知道，對(duì)中文和日文這類沒有詞邊界的語言來說，如果給出語句，那么分段結(jié)果可能有很多種；如果給出的是詞，則可以有多種有效的詞性候選詞，以及如果給出的是詞的詞性類型，那么有可能存在一種以上的方式來將其與其他詞相結(jié)合。傳統(tǒng)的解析框架會(huì)將整個(gè)過程分成若干個(gè)步
驟，并且每一個(gè)步驟都會(huì)獨(dú)立完成其工作，由此整個(gè)解碼過程將會(huì)喪失其連續(xù)性，并且前一個(gè)步驟帶來的差錯(cuò)會(huì)使后續(xù)步驟的工作喪失意義。舉例來說，如果先前的分詞步驟給出的是不正確的分詞，那么基于這個(gè)不正確的中間結(jié)果的所有工作都會(huì)變得毫無意義。
在專利文獻(xiàn)US2003233225中，雖然引用了多組規(guī)則來匹配句法解釋，但是其語義規(guī)則設(shè)計(jì)并不靈活，并且它會(huì)在獨(dú)立的步驟中執(zhí)行字元化工作以及句法信息提取，依照先前的分析，這種處理非常低效和不合理，甚至是不恰當(dāng)?shù)?。此外，傳統(tǒng)的分析框架并未提供用于句法實(shí)體提取的靈活機(jī)制。現(xiàn)有
技術(shù)中的專利文獻(xiàn)US2006095250則是這樣一個(gè)用于對(duì)句法實(shí)體進(jìn)行拙劣處理的專利。

發(fā)明內(nèi)容
為了解決上述問題，本發(fā)明提供了用于給出句法解釋(可以被視為是某種語義規(guī)則)的更復(fù)雜框架。
本發(fā)明采用了一體化分析設(shè)計(jì)方式。在這種設(shè)計(jì)中使用解碼框架，以此來替換傳統(tǒng)的單維特比組件框架。在這個(gè)框架中，其中分別為句法實(shí)體和普通詞設(shè)計(jì)了兩個(gè)解碼組件。在分析過程中，當(dāng)輸入(或是從語句中讀取)新字符時(shí)，這時(shí)將會(huì)使用用于詞處理的解碼器來產(chǎn)生可能的詞(分詞
子任務(wù))并且給出可能的POS;然后，用于句法實(shí)體提取的解碼器將搜索可能的語義規(guī)則。在這個(gè)過程中，全局搜索路徑將被擴(kuò)展。這個(gè)過程將會(huì)隨著字符輸入而重復(fù)執(zhí)行，換句話說，這兩個(gè)解碼器將會(huì)輪流負(fù)責(zé)該解碼過程，并且在整體上，所有可能的路徑都會(huì)延伸，由此最終結(jié)果將會(huì)是最優(yōu)的。
其次，為了構(gòu)造雙解碼器，本發(fā)明采用了一種名為基于規(guī)則表述框架的有限狀態(tài)機(jī)的語義實(shí)體框架。這種框架不但可以用于表示基于詞的語義元素，而且還可以表示某些作為詞和非詞成分組合的實(shí)體，例如標(biāo)點(diǎn)符號(hào)、語句邊界、段落邊界等等；此外，這種框架可以表述那些區(qū)間很長的語義
現(xiàn)象。此外，其基于有限狀態(tài)機(jī)的規(guī)則表述框架被設(shè)計(jì)為符合正常的詞表述，并且將會(huì)允許分析器以相同方式來對(duì)其進(jìn)行管理，這樣將會(huì)減少系統(tǒng)
內(nèi)存和CPU需求。語義實(shí)體表述設(shè)計(jì)確保了兩個(gè)維特比組件可以完美地
在一起工作。
本發(fā)明可以用于所有的文檔分析，其中對(duì)短文本分析而言則尤為有
效。由于其對(duì)內(nèi)存和CPU的需求很低，因此它特別適合計(jì)算能力低下的
系統(tǒng)，例如移動(dòng)電話等等。
根據(jù)本發(fā)明第一方面，提出了一種文本分析器，包括第一解碼器，用于通過利用詞搜索樹對(duì)輸入的文本中的每個(gè)字符依次
進(jìn)行第一路徑擴(kuò)展，獲得與每次第一路徑擴(kuò)展對(duì)應(yīng)的詞；以及第二解碼器，用于通過利用語義規(guī)則搜索樹對(duì)第一解碼器每次進(jìn)行第一路徑擴(kuò)展獲得的詞依次進(jìn)行第二路徑擴(kuò)展，獲得與每次第二路徑擴(kuò)展對(duì) 應(yīng)的語義規(guī)則。
根據(jù)本發(fā)明第二方面，提出了一種文本分析方法，包括
第一解碼步驟，包括
接收輸入的文本；
從文本中按照順序獲取一個(gè)字符；
利用搜索樹對(duì)當(dāng)前的字符進(jìn)行第一路徑擴(kuò)展，獲得與第一路徑擴(kuò)展對(duì)
應(yīng)的當(dāng)前詞；以及
第二解碼步驟，包括接收第一路徑擴(kuò)展獲得的當(dāng)前詞；
利用語義規(guī)則搜索樹對(duì)當(dāng)前詞進(jìn)行第二路徑擴(kuò)展，獲得與第二路徑擴(kuò)
展對(duì)應(yīng)的語義規(guī)則；以及
重復(fù)執(zhí)行第一解碼步驟以及第二解碼步驟，直到對(duì)文本中的所有字符
執(zhí)行了第一路徑擴(kuò)展和第二路徑擴(kuò)展。
根據(jù)本發(fā)明第三方面，提出了一種短消息智能處理系統(tǒng)，包括短消息上下文檢索器，用于從輸入的短消息中檢索上下文信息；根據(jù)本發(fā)明的文本分析器，用于對(duì)短消息文本進(jìn)行分析；分類器，用于對(duì)文本分析器的輸出進(jìn)行分類；
短消息標(biāo)記器，用于利用標(biāo)簽對(duì)來自文本分類器和短消息上下文檢索
器的輸出進(jìn)行標(biāo)記；
短消息管理器，用于根據(jù)加標(biāo)簽的輸出，對(duì)短消息進(jìn)行管理。根據(jù)本發(fā)明第四方面，提出了一種短消息智能處理方法，包括短消息上下文檢索步驟，從輸入的短消息中檢索上下文信息；根據(jù)本發(fā)明所述的文本分析方法，對(duì)短消息文本進(jìn)行分析；分類步驟，對(duì)文本分析方法分析的結(jié)果迸行分類；短消息標(biāo)記步驟，利用標(biāo)簽對(duì)來自文本分類步驟和短消息上下文檢索
步驟的輸出進(jìn)行標(biāo)記；
短消息管理步驟，根據(jù)加標(biāo)簽的輸出，對(duì)短消息進(jìn)行管理。與常規(guī)的文本分析器不同，根據(jù)本發(fā)明的文本分析器具有如下特點(diǎn):1. 雙解碼器分析框架會(huì)使分析處理更為有效，它提高了分析過程的速度，并且降低了系統(tǒng)需求；
2. 雙解碼器分析框架保證了最終結(jié)果是所有可能結(jié)果中的最佳選擇，由此提高了了分析處理的精度；
3. 基于有限狀態(tài)機(jī)的語義規(guī)則表述方法是用于雙解碼器框架的重要補(bǔ)充。它提供了用于支持嵌套規(guī)則、長區(qū)間規(guī)則和具有非詞成分的規(guī)則的靈活機(jī)制。

通過以下參照附圖對(duì)優(yōu)選實(shí)施例的詳細(xì)描述，本發(fā)明的這些和其他方
案、特征和優(yōu)點(diǎn)將變得更加清楚。
圖1是示出了根據(jù)本發(fā)明的文本分析器的硬件結(jié)構(gòu)圖2是示出了包括本發(fā)明的文本分析器中的搜索樹構(gòu)造裝置與第一
解碼器和第二解碼器之間的交互協(xié)作的示意圖3示出了本發(fā)明的基于有限狀態(tài)機(jī)的語義規(guī)則的一個(gè)示例；
圖4a是示出了本發(fā)明的詞搜索樹構(gòu)造裝置的示意圖4b是示出了本發(fā)明的語義規(guī)則搜索樹構(gòu)造裝置的示意圖5a是示出了本發(fā)明的詞搜索樹構(gòu)造方法的流程圖5b是示出了本發(fā)明的語義規(guī)則搜索樹構(gòu)造方法的流程圖6a示出了中文詞典排序表；
圖6b是示出了搜索樹的一個(gè)示例的結(jié)構(gòu)圖6c示出了英文詞典排序表；
圖6d， 6e是示出了搜索樹的另一個(gè)示例的結(jié)構(gòu)圖7a示出了基于有限狀態(tài)機(jī)的語義規(guī)則的一個(gè)示例表；
圖7b示出了基于有限狀態(tài)機(jī)的語義規(guī)則的搜索樹的一個(gè)示例的結(jié)構(gòu)
圖8a是示出了本發(fā)明的一個(gè)實(shí)施例的第一解碼器和第二解碼器的示
意圖8b是示出了本發(fā)明的一個(gè)實(shí)施例的文本分析方法的流程圖8c是示出了本發(fā)明的另一實(shí)施例的第一解碼器和第二解碼器的示意圖8d示出了本發(fā)明的另一實(shí)施例的文本分析方法的流程圖9示出了利用本發(fā)明的文本分析器執(zhí)行分析獲得的結(jié)果的示意圖io示出了本發(fā)明的文本分析器的另一個(gè)實(shí)施例的示意圖。
圖11示出了應(yīng)用了根據(jù)本發(fā)明的文本分析器的短消息智能處理系統(tǒng) 的示意圖。
圖12示出了短消息智能處理系統(tǒng)執(zhí)行的處理方法的流程圖。
具體實(shí)施例方式
下面，將參考附圖描述本發(fā)明的優(yōu)選實(shí)施例。在附圖中，相同的元件將由相同的參考符號(hào)或數(shù)字表示。此外，在本發(fā)明的下列描述中，將省略對(duì)已知功能和配置的具體描述，以避免使本發(fā)明的主題不清楚。
圖1是示出了包括本發(fā)明的文本分析器的硬件結(jié)構(gòu)圖。該文本分析器
例如可以是運(yùn)行特定程序的計(jì)算機(jī)系統(tǒng)。其中16指示了該系統(tǒng)的關(guān)鍵部件。所述系統(tǒng)包括CPUOl，用于對(duì)應(yīng)用程序提供計(jì)算功能；內(nèi)部總線02，所述系統(tǒng)通過內(nèi)部總線02在內(nèi)存12和永久性存儲(chǔ)器05 (可以是硬盤和閃存)之間交換數(shù)據(jù)；用戶接口 03，例如可以是用于按鍵輸入的鍵盤或用于語音輸入的麥克風(fēng)等等，外圍設(shè)備04;以及內(nèi)存12。
永久性存儲(chǔ)器05包括分析資源06以及其它的存儲(chǔ)器。分析資源包括普通詞詞匯07，基于有限狀態(tài)機(jī)(FSM)的語義規(guī)則定義08，語言模型 09和詞性信息10。其中語言模型(LM) 09與詞性信息IO是可選的，此
外也可以使用一元語言模型來減少存儲(chǔ)器成本。其它存儲(chǔ)器11用于存儲(chǔ) 其它的數(shù)據(jù)。內(nèi)存12包括多個(gè)組件，操作系統(tǒng)13;其它應(yīng)用程序14，以及自然語言處理相關(guān)應(yīng)用程序15，該應(yīng)用程序使用了支持基于有限狀態(tài) 機(jī)的語義規(guī)則的綜合文本分析器16，綜合文本分析器16包括兩個(gè)關(guān)鍵部件，部件161是一個(gè)多資源組織器和存取器，它對(duì)所有用于分析的資源進(jìn) 行管理，并且對(duì)其進(jìn)行組織，以便保證本發(fā)明的一次通過式的分析處理；部件162是雙解碼器，包括第一解碼器和第二解碼器，它接收來自自然語言處理相關(guān)應(yīng)程序的輸入文檔17，并且借助部件161來使用所有分析資源，以及采用一次通過的方式產(chǎn)生分析結(jié)果18，然后將結(jié)分析結(jié)果發(fā)送到自然語言處理相關(guān)應(yīng)用程序15。
圖2是示出了本發(fā)明的文本分析器中的搜索樹構(gòu)造裝置與第一解碼
器和第二解碼器之間的交互關(guān)系的示意圖。參考圖2，多資源組織器和存取器16具有與永久性存儲(chǔ)器中的資源相連的四個(gè)數(shù)據(jù)管道。包括詞搜索樹構(gòu)造裝置1611，用于加載來自永久性存儲(chǔ)器的普通詞詞匯07并且將其構(gòu)造成詞搜索樹1614;語義規(guī)則搜索樹構(gòu)造裝置1612，用于加載基于有限狀態(tài)機(jī)的語義規(guī)則定義08，并且將其構(gòu)造成語義規(guī)則搜索樹1615;詞性信息存取器1613以及LM存取器1616。如果詞性信息和語言模型很小，那么它們會(huì)分別由詞性信息存取器1613和LM存取器1616加載到內(nèi)存中，如果其對(duì)內(nèi)存的消耗很大，那么詞性信息存取器1613和LM存取器將在必要的運(yùn)行時(shí)間局部加載這些信息和模型。雙解碼器包括第一解碼器 1621與第二解碼器1622，第一解碼器1621用于對(duì)輸入文本中的詞進(jìn)行處理，第二解碼器1622用于對(duì)輸入文本中的語義規(guī)則進(jìn)行提取，以及第一解碼器與第二解碼器相互協(xié)作，隨后將會(huì)對(duì)第一解碼器與第二解碼器之間
的交互工作進(jìn)行描述。優(yōu)選地，第一解碼器和第二解碼器是分別利用維特比解碼器來實(shí)現(xiàn)的。
本發(fā)明采用了基于語義規(guī)則表述框架的有限狀態(tài)機(jī)的語義規(guī)則框架。這種框架不但可以用于表示基于詞的語義元素，而且還可以表示某些作為詞和非詞成分組合的實(shí)體，例如標(biāo)點(diǎn)符號(hào)、語句邊界、段落邊界等等；此外，這種框架可以表述那些區(qū)間很長的語義現(xiàn)象。此外，其基于有限狀態(tài) 機(jī)的語義規(guī)則表述框架被設(shè)計(jì)為符合正常的詞表述，并且這樣將會(huì)允許分析器以相同方式來對(duì)其進(jìn)行管理，這樣將會(huì)減少系統(tǒng)內(nèi)存和CPU需求。語義規(guī)則表述設(shè)計(jì)使得第一解碼器與第二解碼器一起協(xié)調(diào)工作。
圖3示出了本發(fā)明的基于有限狀態(tài)機(jī)的語義規(guī)則的一個(gè)示例?；谟?限狀態(tài)機(jī)的語義規(guī)則是由一些節(jié)點(diǎn)(與狀態(tài)相對(duì)應(yīng))以及變換弧線組成的。數(shù)字071表示語義規(guī)則中的起始節(jié)點(diǎn)，數(shù)字074則表示結(jié)束節(jié)點(diǎn)。每一個(gè)語義規(guī)則都從起始節(jié)點(diǎn)開始，并且被用于匹配一個(gè)文檔。如果文檔到達(dá) 語義規(guī)則中的結(jié)束節(jié)點(diǎn)，那么這意味著該文檔包含了相應(yīng)語義規(guī)則的實(shí) 例。數(shù)字072指示了一個(gè)表示正常詞匯中的詞的節(jié)點(diǎn)。實(shí)際上，圖3中有兩個(gè)普通節(jié)點(diǎn)。數(shù)字073是表示嵌套式的基于有限狀態(tài)機(jī)的語義規(guī)則，它充當(dāng)?shù)氖钱?dāng)前語義規(guī)則的狀態(tài)。通過使用嵌套機(jī)制，語義規(guī)則的表述能力
將會(huì)在相當(dāng)程度上得到擴(kuò)展。數(shù)字075指示了緊密的鏈接弧線，它意味著在弧線的兩個(gè)節(jié)點(diǎn)之間沒有任何無用詞。而數(shù)字076則是一個(gè)松散的鏈接弧線，它意味著在弧線的兩個(gè)節(jié)點(diǎn)之間存在長距離的區(qū)間并且某些無用詞 (這些詞并不被關(guān)注)可以填充這個(gè)區(qū)間。數(shù)字077指示的是一個(gè)開始點(diǎn) 與結(jié)束點(diǎn)都是相同節(jié)點(diǎn)的弧線。這個(gè)弧線可用于表述某些重復(fù)詞，例如組成數(shù)字的重復(fù)數(shù)位。
根據(jù)本發(fā)明，所采用的基于有限狀態(tài)機(jī)的語義規(guī)則可以滿足下列條
件
1. 基于有限狀態(tài)機(jī)的語義規(guī)則與有限狀態(tài)機(jī)對(duì)應(yīng)，其中節(jié)點(diǎn)可以是詞典中的詞或者是另一個(gè)有限狀態(tài)機(jī)的語義規(guī)則。即，如果需要的話，基于有限狀態(tài)機(jī)的語義規(guī)則是可以嵌套的。
2. 兩個(gè)節(jié)點(diǎn)之間的鏈接弧線可以是緊密弧線或松散弧線。對(duì)緊密弧線來說，第一節(jié)點(diǎn)即為前一個(gè)節(jié)點(diǎn)，而對(duì)松散鏈接來說，在兩個(gè)節(jié)點(diǎn)之間可以存在某些不相關(guān)的詞或語義規(guī)則；
3. 來自某個(gè)節(jié)點(diǎn)的鏈接弧線可以引導(dǎo)到同一個(gè)節(jié)點(diǎn)。也就是說，該鏈接弧線代表的是當(dāng)前節(jié)點(diǎn)的一個(gè)或多次重復(fù)。這個(gè)特性對(duì)數(shù)字表示而言是非常重要的。
下面將首先對(duì)如何生成本發(fā)明的詞搜索樹以及語義規(guī)則搜索樹進(jìn)行描述，之后將結(jié)合生成的詞搜索樹以及語義規(guī)則搜索樹對(duì)本發(fā)明的第一解碼器和第二解碼器的交互工作進(jìn)行描述。
圖4a示出了本發(fā)明的詞搜索樹構(gòu)造裝置的示意圖。參考圖4，詞搜索樹構(gòu)造裝置1611包括字典排序單元41，用于根據(jù)讀取的字典中的詞串對(duì)詞進(jìn)行排序；詞ID分配單元42，用于對(duì)排序后的每個(gè)詞分配一個(gè)唯一的詞ID;以及詞搜索樹構(gòu)造單元44，用于利用排序后的詞與分配的詞ID 構(gòu)造一個(gè)詞搜索樹。
圖5a示出了本發(fā)明的詞搜索樹的構(gòu)造方法的流程圖。在S501，字典排序單元41將讀取的字典根據(jù)詞串來對(duì)字典中的詞進(jìn)行排序。在S502, 詞ID分配單元42為排序后的每一個(gè)詞給出一個(gè)唯一的詞ID。在S503，詞搜索樹構(gòu)造單元44將經(jīng)過排序的字典中的詞構(gòu)造成詞搜索樹。圖4b示出了本發(fā)明的語義規(guī)則搜索樹構(gòu)造裝置的示意圖。參考圖4b，該語義規(guī)則搜索樹構(gòu)造裝置包括語義規(guī)則排序單元46，用于對(duì)有限狀態(tài)
機(jī)的語義規(guī)則中的所有語義規(guī)則進(jìn)行排序。可以按照預(yù)定的方式對(duì)語義規(guī)
則進(jìn)行排序，例如R1， R2， R3…等；語義規(guī)則ID分配單元48，用于對(duì) 排序后的每一個(gè)語義規(guī)則分配一個(gè)唯一的ID;以及根據(jù)排序結(jié)果來構(gòu)造語義規(guī)則搜索樹的語義規(guī)則搜索樹構(gòu)造單元50。其中有限狀態(tài)機(jī)的語義規(guī)則中的語義規(guī)則是與字典中的詞對(duì)應(yīng)的，因此，需要在構(gòu)造語義規(guī)則搜索樹之前構(gòu)造詞搜索樹。
圖5b示出了本發(fā)明的語義規(guī)則搜索樹構(gòu)造方法的流程圖。在S504，語義規(guī)則排序單元46對(duì)有限狀態(tài)機(jī)的語義規(guī)則進(jìn)行排序。在S505，語義規(guī)則ID分配單元48為排序后的語義規(guī)則分配一個(gè)唯一的ID。語義規(guī)則的ID與詞的ID不同，以免沖突。在S506，語義規(guī)則搜索樹構(gòu)造單元根據(jù)排序后的語義規(guī)則來構(gòu)造語義規(guī)則搜索樹。
圖6a中的排序表顯示了普通中文字典的排序結(jié)果。這些詞是按照其字符串代碼來進(jìn)行排序的。由于每一個(gè)中文字符都可以看作為單個(gè)的詞，因此在本實(shí)例中，所有出現(xiàn)在多字符詞中的所有中文字符都被添加到了字 *巾。
圖6b示出了搜索樹的一個(gè)示例結(jié)構(gòu)。參考圖6b，每一個(gè)節(jié)點(diǎn)只保存了當(dāng)前節(jié)點(diǎn)的字符，以及從根節(jié)點(diǎn)到當(dāng)前節(jié)點(diǎn)的字符串則代表的是一個(gè) 詞。具有實(shí)線圓圈的節(jié)點(diǎn)是一個(gè)停止節(jié)點(diǎn)，它意味著來自根節(jié)點(diǎn)的字符串可以在這個(gè)節(jié)點(diǎn)中停止，或者從根節(jié)點(diǎn)到當(dāng)前節(jié)點(diǎn)的字符串是一個(gè)有效的詞。具有虛線圓圈的節(jié)點(diǎn)是非停止節(jié)點(diǎn)，它意味著從根節(jié)點(diǎn)到當(dāng)前節(jié)點(diǎn)的字串不是有效詞。非停止節(jié)點(diǎn)不能是葉節(jié)點(diǎn)。在本實(shí)例中，"艾"、"艾滋病"、"艾滋病毒，，都是有效詞，但是"艾滋"在這里則不是有效詞，因此非停止節(jié)點(diǎn)用于表示字串"艾滋"。在本實(shí)例中，搜索樹只用于描述邏輯結(jié)構(gòu)。實(shí)際上，還可以采用其它的實(shí)際的樹結(jié)構(gòu)來實(shí)現(xiàn)這種搜索樹。如果字典很大，并且大多數(shù)非葉節(jié)點(diǎn)都具有一個(gè)以上的子節(jié)點(diǎn)，那么在這種情況下，采用TRIE樹將會(huì)非常適合。如果有很多只具有單個(gè)子節(jié)點(diǎn)的非葉和非停止節(jié)點(diǎn)，那么可以使用PAT樹來將該節(jié)點(diǎn)連同其單個(gè)子節(jié)點(diǎn)一起整合到一個(gè)節(jié)點(diǎn)中，以使所述樹更為緊湊。在該圖中顯示的樹是一個(gè)TRIE樹。由于只有一個(gè)節(jié)點(diǎn)是可以壓縮的，因此在這里沒有必要使用PAT樹，以免帶來額外的存儲(chǔ)器消耗。
圖6c示出了英文字典排序表。其中英文字典借助字串來進(jìn)行排序。
字典中的某些單詞實(shí)際上是包含了空格字符的短語。
圖6d和6e示出了與英文字典排序表對(duì)應(yīng)的搜索樹的示例結(jié)構(gòu)圖。該圖與圖6a非常相似，但是圖6d和6e分別具有兩種類型的樹結(jié)構(gòu)。由于存在很多分別只具有單個(gè)子節(jié)點(diǎn)的非葉非停止節(jié)點(diǎn)，因此如PAT樹所示，該TRIE樹可以被有效壓縮。
圖7a示出了基于有限狀態(tài)機(jī)的語義規(guī)則的一個(gè)示例表。在該圖中列舉了四個(gè)語義規(guī)則，第一個(gè)語義規(guī)則Rl具有兩個(gè)實(shí)例0和1。第二個(gè)語義規(guī)則R2是一個(gè)或多個(gè)重復(fù)的"R1"，因此R2可以用于表示二進(jìn)制字串，例如"1001101010"。語義規(guī)則R3是兩個(gè)詞語義規(guī)則，并且這兩個(gè)詞之間的鏈接是松散鏈接，或者在這兩個(gè)詞之間可以存在某些無用的詞。語義規(guī) 則R4是一個(gè)緊密鏈接，它意味著在該鏈接的兩個(gè)部分之間沒有任何無用信息?？梢允褂肨R正或PAT樹表示這種結(jié)構(gòu)，并且節(jié)點(diǎn)需要一些額外比特來表示重復(fù)特性以及緊密或松散鏈接。
圖7b示出了基于有限狀態(tài)機(jī)的語義規(guī)則的搜索樹的一個(gè)示例的結(jié)構(gòu) 圖。其中按照語義規(guī)則R1， R2， R3和R4的順序來對(duì)圖7a的表中的語義
規(guī)則進(jìn)行排序。
下面將結(jié)合生成的詞搜索樹和語義規(guī)則搜索樹來描述本發(fā)明的文本分析器的第一解碼器和第二解碼器如何對(duì)輸入的文本進(jìn)行分析。
圖8a是示出了本發(fā)明的第一解碼器和第二解碼器之間交互協(xié)作對(duì)輸入的文本分析的示意圖。第一解碼器1621包括利用詞搜索樹對(duì)輸入的文本中的每個(gè)字符依次進(jìn)行路徑擴(kuò)展以獲得搜索的詞(與每條路徑對(duì)應(yīng)的詞)的第一路徑擴(kuò)展單元81，用于對(duì)搜索的詞進(jìn)行記錄的詞記錄單元82，用于對(duì)搜索的詞的詞性進(jìn)行標(biāo)記的詞性標(biāo)記單元83以及用于從第二解碼器分析后的詞和語義規(guī)則序列中選取合適的詞和語義規(guī)則序列的詞和語義規(guī)則序列選取單元84。第二解碼器1622包括利用語義規(guī)則搜索樹對(duì)第一解碼器每次搜索到的詞進(jìn)行路徑擴(kuò)展以搜索到與之完全匹配的語義規(guī)
則的第二路徑擴(kuò)展單元86，對(duì)利用語義規(guī)則搜索樹搜索到的語義規(guī)則進(jìn)行記錄的語義規(guī)則記錄單元87以及用于對(duì)獲得的詞和語義規(guī)則序列進(jìn)行
排序的詞和語義規(guī)則序列排序單元88。通過采用兩個(gè)解碼器分別從詞和語義上對(duì)輸入的文本進(jìn)行分析，從而可以將文本解碼成詞和語義規(guī)則序列。第一解碼器和第二解碼器可以是維特比解碼器，根據(jù)輸入文本中的每個(gè)字符來記錄所有維特比狀態(tài)。維特比狀態(tài)表示當(dāng)輸入該字符時(shí)所有可能的詞序列或者潛在的詞序列。
圖8b示出本發(fā)明的文本分析方法的流程圖。在步驟16201，當(dāng)接收到輸入的文本之后，例如一句話，第一路徑擴(kuò)展單元81從句子中每次取出一個(gè)字符執(zhí)行步驟16202， 1621， 1622直到16203的分析。例如，對(duì)于輸入的句子"我今天走了"，將作為字符序列"我-今-天-走-了"輸入到第一路徑擴(kuò)展單元81。
在步驟16202，判斷是否能夠取出一個(gè)字符。如果不成功，則轉(zhuǎn)到步驟16204。如果成功，則執(zhí)行步驟16211。
在步驟16211，第一路徑擴(kuò)展單元81使用輸入的這一個(gè)字符對(duì)其在詞搜索樹中可能存在的所有路徑進(jìn)行擴(kuò)展。例如，當(dāng)輸入"我"時(shí)，對(duì)詞搜索樹執(zhí)行搜索，搜索到"我"這個(gè)節(jié)點(diǎn)并記錄下從根節(jié)點(diǎn)到該節(jié)點(diǎn)的路徑，在對(duì)當(dāng)前詞"我"執(zhí)行完步驟16202， 1621， 1622直到16203之后，輸入了 "今"，第一路徑擴(kuò)展單元81從現(xiàn)有的路徑"我"繼續(xù)進(jìn)行搜索，但是由于不能將現(xiàn)有的路徑"我"擴(kuò)展為"我今"(詞搜索樹中并不存在這樣的一個(gè) 詞)，所以將從現(xiàn)有路徑中刪除這一路徑。以及將"今"擴(kuò)展為搜索詞匯樹中的當(dāng)前路徑，。因此，現(xiàn)有的路徑包括從根節(jié)點(diǎn)到"今"的這一條路徑。在對(duì)當(dāng)前詞"今，，執(zhí)行完步驟16202， 1621， 1622直到16203之后，輸入了 "天"，通過搜索詞搜索樹，可以找到從根節(jié)點(diǎn)經(jīng)過節(jié)點(diǎn)"今"到葉節(jié)點(diǎn)"天" 的路徑，因此，"天"可以被擴(kuò)展為詞搜索樹中的路徑"今天"。此外，可以將"天，，自身擴(kuò)展為路徑"天"。之后，當(dāng)輸入"走"時(shí)，搜索詞搜索樹，可以發(fā)現(xiàn)該詞"走"并不能夠被擴(kuò)展為"今天走"(詞典中并不存在這個(gè)詞)，因此，刪除現(xiàn)有路徑"今天"。以及"走"可以被擴(kuò)展為當(dāng)前路徑。最后，當(dāng)輸入"了"時(shí)，搜索詞搜索樹，發(fā)現(xiàn)可以從詞搜索樹中找到路徑"走了"，因此，可以記錄當(dāng)前路徑。
在步驟16212，詞記錄單元82確定哪條路徑對(duì)應(yīng)了完整的詞(到達(dá)詞邊界)，如果完整，則將其作為與搜索到的路徑對(duì)應(yīng)的當(dāng)前詞并記錄。例如，對(duì)于第一個(gè)字符"我"，記錄為當(dāng)前詞"我"。對(duì)于第二個(gè)字符"今"，記錄為當(dāng)前詞"今"，對(duì)于第三個(gè)字符"天"，記錄為當(dāng)前詞"天"和"今天"。最終記錄的詞包括我，今，天，今天，走，走了。
在步驟16213，詞性標(biāo)記單元83對(duì)記錄的當(dāng)前詞的詞性進(jìn)行標(biāo)記，
并將該當(dāng)前詞輸入到步驟16221。
在步驟16221,第二解碼器中的第二路徑擴(kuò)展單元86通過搜索語義規(guī)則搜索樹，對(duì)輸入的當(dāng)前詞在語義規(guī)則搜索樹中的所有可能的路徑進(jìn)行擴(kuò)展。第二路徑搜索單元將輸入的當(dāng)前詞與語義規(guī)則搜索樹中的語義規(guī)則進(jìn)行匹配，如果輸入的詞可以與語義規(guī)則搜索樹中的某一語義規(guī)則的至少一部分匹配，則當(dāng)前詞在語義規(guī)則搜索樹中具有可擴(kuò)展的路徑，以及記錄下該路徑。
在步驟16222，語義規(guī)則記錄單元87判斷語義規(guī)則搜索樹中的擴(kuò)展的路徑中對(duì)應(yīng)的語義規(guī)則是否是完整的語義規(guī)則，如果是，則記錄該完整的語義規(guī)則。
在步驟16203，語義規(guī)則排序單元88對(duì)當(dāng)前獲得的所有可能詞和語義規(guī)則序列進(jìn)行排序。步驟16203可以采用不同的方法對(duì)詞和語義規(guī)則序列進(jìn)行排序。方法可以采用將較大的數(shù)值分配給最有可能的詞序列。例如，在輸入"天"之后，兩個(gè)可能的詞序列是"我"-"今"-"天"，"我"-"今天".可以定義針對(duì)每個(gè)可能的詞序列的數(shù)值的計(jì)算方法并根據(jù)計(jì)算的數(shù)值對(duì)每個(gè) 可能的詞序列進(jìn)行排序。例如，采用計(jì)算每個(gè)詞(單元)的概率的相乘的方法。如果對(duì)于詞"我"，"今，，,"天"，"今天"，其單元(unigram)分別是0.1， 0.01,0.02, 0.2，則第一詞序列的概率是0.1*0.01*0.02=0.00002而第二詞序列的概率是is 0.1*0.2=0.02。因此，第二詞序列將被排序在第一位置處。
之后，轉(zhuǎn)向步驟16201，來順序獲取下一個(gè)字符。當(dāng)在步驟16202判斷已經(jīng)對(duì)輸入的句子的所有字符進(jìn)行了分析之后，則進(jìn)行到步驟16204，從排序后的詞和語義規(guī)則序列中選出第一個(gè)詞和語義規(guī)則，作為最終的分析結(jié)果。
繼續(xù)以輸入為"我今天走了"為例，描述第二解碼器執(zhí)行的處理。在步驟16221，當(dāng)接收到標(biāo)記詞性后的詞"我"之后，第二路徑擴(kuò)展單元86搜索語義規(guī)則搜索樹，査找與詞"我"可以匹配的語義規(guī)則。假設(shè)語義規(guī)則搜索樹中存在語義規(guī)則R1:我…走了，則詞"我"可以與語義規(guī)則R1部分匹配。第二路徑擴(kuò)展單元86將詞"我"擴(kuò)展為語義規(guī)則搜索樹中的路徑"我"。之
后，執(zhí)行后續(xù)處理16222以及16203。當(dāng)在步驟16201獲取詞"今，，后，執(zhí) 行與詞"我"的類似的處理。在步驟16221，第二路徑擴(kuò)展單元86搜索語義規(guī)則搜索樹，查找到路徑可以擴(kuò)展為語義規(guī)則搜索樹中的一部分語義規(guī)則 Rl"我..."。對(duì)于詞"天"和"走"，執(zhí)行與詞"今"類似的處理過程。最終當(dāng)輸入詞"了"之后，在步驟16221接收到的詞包括"走了"和"了"，第二路徑擴(kuò) 展單元86將詞"走了"擴(kuò)展為語義規(guī)則搜索樹中的路徑"我...走了"。在步驟16222，如果16221所擴(kuò)展的路徑與語義規(guī)則搜索樹中的某個(gè)語義規(guī)則完全一致，則記錄該語義規(guī)則。對(duì)于上述例子，僅當(dāng)輸入了"了"之后，才記錄該完整的語義規(guī)則。
圖8c是示出了根據(jù)本發(fā)明的另一實(shí)施例的第一解碼器和第二解碼器的示意圖。與圖8a相比，其區(qū)別在于第一解碼器包括用于在對(duì)所有字符進(jìn)行了路徑擴(kuò)展之后，對(duì)詞序列進(jìn)行排序的詞序列排序單元84'，而不是詞和語義規(guī)則序列選取單元。以及第二解碼器包括在對(duì)所有詞進(jìn)行第二路徑擴(kuò)展之后，對(duì)語義規(guī)則排序的語義規(guī)則排序單元88'，而不是詞和語義規(guī)則序列排序單元。
圖8d示出了根據(jù)本發(fā)明的另一實(shí)施例的文本分析方法的流程圖，其與圖8b所示的流程類似，區(qū)別在于在步驟16204，第一解碼器對(duì)獲得的詞進(jìn)行排序。以及在步驟16203，第二解碼器對(duì)所有語義規(guī)則進(jìn)行排序。
圖9示出了本發(fā)明的文本分析器的分析結(jié)果的一個(gè)示例。當(dāng)輸入的文本句子是"下午三點(diǎn)三十分開會(huì)"時(shí)，采用根據(jù)本發(fā)明的分析器的最終分析的結(jié)果包括語義規(guī)則R8和詞"開會(huì)"，其中語義規(guī)則R8是有關(guān)時(shí)間的描述"下午三點(diǎn)三十分開會(huì)"。
圖IO示出了本發(fā)明的文本分析器的另一個(gè)實(shí)施例的示意圖。參考圖 10，除了該文本分析器并不包括詞搜索樹構(gòu)造裝置1611，語言語義規(guī)則搜索樹構(gòu)造裝置1612，詞性信息存取器1613以及LM存取器1616之外，其結(jié)構(gòu)與圖2所示的文本分析器類似。該文本分析器包括第一解碼器 1621和第二解碼器1622，通過采用己經(jīng)生成的詞搜索樹和語義規(guī)則搜索樹來對(duì)輸入的文本執(zhí)行分析。其方法流程與圖8b所示的類似。
圖11示出了短消息智能處理系統(tǒng)的示意圖。在該系統(tǒng)中，采用了本發(fā)明的文本分析器。該系統(tǒng)包括輸入裝置171，用于輸入短消息；短消息上下文檢索器19;文本分析器16;分類器20;短消息標(biāo)記器21以及
短消息管理器22。其中，短消息上下文檢索器19，用于從輸入的短消息
中檢索上下文信息，其中短消息上下文包括發(fā)送方/接收方的電話號(hào)碼、發(fā)送/接收時(shí)間、該號(hào)碼是否處于地址列表中等等；文本分析器16，用于對(duì)短消息的純文本進(jìn)行分析，并輸出分析后的語義規(guī)則和詞；分類器20，用于對(duì)文本分析器的輸出進(jìn)行分類；短消息標(biāo)記器21，接收來自文本分類器和短消息上下文檢索器的輸出，并利用特定標(biāo)簽對(duì)該短消息進(jìn)行標(biāo) 記，特定標(biāo)簽例如可以是"隱私性"、"家庭"、"工作"等等。短消息管理器 22用于根據(jù)短消息標(biāo)記后的結(jié)果對(duì)短消息進(jìn)行管理。
圖12示出了短消息智能處理系統(tǒng)執(zhí)行的處理方法的流程圖。參考圖 12，在步驟1201，接收輸入的短消息。在步驟1202，短消息內(nèi)容檢索器 19從輸入的短消息中檢索上下文信息。在步驟1203，文本分析器16對(duì)短消息的文本執(zhí)行分析，以得到語義規(guī)則和詞。在步驟1204，分類器20對(duì) 分析后的短消息執(zhí)行分類。在步驟1205，短消息標(biāo)記器21根據(jù)短消息上下文檢索器從輸入的短消息中檢索到的上下文信息以及分類器20分類的結(jié)果對(duì)短消息加標(biāo)簽。在步驟1206，短消息管理器22根據(jù)短消息的標(biāo)簽對(duì)短消息進(jìn)行管理。
由于本發(fā)明的分析器具有很高的效率，且可以獲得較高精度的分析結(jié) 果，因此，根據(jù)本發(fā)明的文本分析器除了可以應(yīng)用在移動(dòng)電話上對(duì)輸入的短消息進(jìn)行文本分析之外，還可以應(yīng)用于其它對(duì)文本分析要求較高的系統(tǒng) 中。此外，根據(jù)本發(fā)明，可知本發(fā)明不僅可以對(duì)中文文本進(jìn)行分析，而且可以對(duì)包括英文文本的其它種類的語言文本執(zhí)行分析。
盡管已經(jīng)參照附圖，對(duì)示例實(shí)施例進(jìn)行了描述，應(yīng)當(dāng)理解的是，本發(fā) 明并不局限于這些實(shí)施例，本領(lǐng)域的普通技術(shù)人員可以對(duì)其進(jìn)行多種其它變化和修改，而不偏離本發(fā)明的范圍或精神。所有這些變化和修改包括在所附權(quán)利要求所限定的本發(fā)明的范圍內(nèi)。
權(quán)利要求
1. 一種文本分析器，包括第一解碼器，用于通過利用詞搜索樹對(duì)輸入的文本中的每個(gè)字符依次進(jìn)行第一路徑擴(kuò)展，獲得與每次第一路徑擴(kuò)展對(duì)應(yīng)的詞；以及第二解碼器，用于通過利用語義規(guī)則搜索樹對(duì)第一解碼器每次進(jìn)行第一路徑擴(kuò)展獲得的詞依次進(jìn)行第二路徑擴(kuò)展，獲得與每次第二路徑擴(kuò)展對(duì)應(yīng)的語義規(guī)則。
2. 如權(quán)利要求1所述的文本分析器，其中第二解碼器在每次第二路徑擴(kuò)展結(jié)束之后，對(duì)獲得的詞和語義規(guī)則的序列進(jìn)行排序；以及第一解碼器在已經(jīng)對(duì)所有的字符順序進(jìn)行了第一路徑擴(kuò)展之后，從第二解碼器排序后的詞和語義規(guī)則序列選擇出所需的詞和語義規(guī)則序列，作為分析結(jié)果。
3. 如權(quán)利要求2所述的文本分析器，其中第一解碼器包括第一路徑擴(kuò)展單元，用于利用詞搜索樹對(duì)輸入的文本中的每個(gè)字符依次進(jìn)行第一路徑擴(kuò)展，獲得與每次第一路徑擴(kuò)展對(duì)應(yīng)的詞；詞記錄單元，用于對(duì)獲得的與每條路徑對(duì)應(yīng)的詞進(jìn)行記錄；以及詞和語義規(guī)則序列選取單元，用于在已經(jīng)對(duì)所有的字符順序進(jìn)行了第一路徑擴(kuò)展之后，從第二解碼器排序后的詞和語義規(guī)則序列中選取合適的詞和語義規(guī)則序列。
4. 如權(quán)利要求3所述的文本分析器，其中第一解碼器還包括詞性標(biāo)記單元，用于對(duì)每次第一路徑擴(kuò)展獲得的詞的詞性進(jìn)行標(biāo)記。
5. 如權(quán)利要求2所述的文本分析器，其中第二解碼器包括第二路徑擴(kuò)展單元，用于利用語義規(guī)則搜索樹對(duì)第一解碼器每次進(jìn)行第一路徑擴(kuò)展獲得的詞依次進(jìn)行第二路徑擴(kuò)展，獲得與每次第二路徑擴(kuò)展對(duì)應(yīng)的語義規(guī)則；語義規(guī)則記錄單元，用于對(duì)獲得的語義規(guī)則進(jìn)行記錄；以及詞和語義規(guī)則序列排序單元，用于對(duì)獲得的詞和語義規(guī)則序列進(jìn)行排序。
6. 如權(quán)利要求2所述的文本分析器，其中第二解碼器通過對(duì)詞序列中的每個(gè)詞序列計(jì)算詞單元來對(duì)詞序列進(jìn) 行排序。
7. 如權(quán)利要求所述的文本分析器，還包括詞搜索樹構(gòu)造裝置，包括詞典排序單元，用于對(duì)詞典中的詞進(jìn)行排序；詞ID分配單元，用于為每個(gè)排序后的詞分配一個(gè)唯一的詞ID;以及詞搜索樹構(gòu)造單元，用于利用排序后的詞和相應(yīng)的詞ID構(gòu)造詞搜索樹。
8. 如權(quán)利要求1所述的文本分析器，還包括語義規(guī)則搜索樹構(gòu)造裝置，包括語義規(guī)則排序單元，用于對(duì)語義規(guī)則進(jìn)行排序；語義規(guī)則ID分配單元，用于為排序后的每個(gè)語義規(guī)則分配一個(gè)唯一的語義規(guī)則ID;以及語義規(guī)則搜索樹構(gòu)造單元，用于利用排序后的語義規(guī)則和相應(yīng)的語義規(guī)則ID構(gòu)造語義規(guī)則搜索樹。
9. 如權(quán)利要求1所述的文本分析器，其中所述的語義規(guī)則是基于有限狀態(tài)機(jī)的語義規(guī)則。
10. 如權(quán)利要求6所述的文本分析器，其中語義規(guī)則可以是詞或者是一個(gè)嵌套的語義規(guī)則。
11. 如權(quán)利要求l所述的文本分析器，其中第一解碼器在對(duì)輸入的文本中的所有字符依次進(jìn)行了第一路徑擴(kuò)展之后，對(duì)所獲得的詞的詞序列進(jìn)行排序；以及第二解碼器在對(duì)第一路徑擴(kuò)展獲得的所有詞依次進(jìn)行第二路徑擴(kuò)展之后，對(duì)獲得的與每次第二路徑擴(kuò)展對(duì)應(yīng)的語義規(guī)則迸行排序。
12. 如權(quán)利要求ll所述的文本分析器，其中第一路徑擴(kuò)展單元，用于利用詞搜索樹對(duì)輸入的文本中的每個(gè)字符依次進(jìn)行第一路徑擴(kuò)展，獲得與每次第一路徑擴(kuò)展對(duì)應(yīng)的詞；詞記錄單元，用于對(duì)獲得的與每條路徑對(duì)應(yīng)的詞進(jìn)行記錄；以及詞序列排序單元，用于在已經(jīng)對(duì)所有的字符依次進(jìn)行了第一路徑擴(kuò)展之后，對(duì)獲得的詞的詞序列進(jìn)行排序。
13. 如權(quán)利要求ll所述的文本分析器，其中第二解碼器包括第二路徑擴(kuò)展單元，用于利用語義規(guī)則搜索樹對(duì)第一解碼器每次進(jìn)行第一路徑擴(kuò)展獲得的詞依次進(jìn)行第二路徑擴(kuò)展，獲得與每次第二路徑擴(kuò)展對(duì)應(yīng)的語義規(guī)則；語義規(guī)則記錄單元，用于對(duì)獲得的語義規(guī)則進(jìn)行記錄；以及語義規(guī)則序列排序單元，用于對(duì)獲得的語義規(guī)則序列進(jìn)行排序。
14. 如權(quán)利要求1所述的文本分析器，其中第一解碼器和第二解碼器分別是維特比解碼器。
15. —種文本分析方法，包括第一解碼步驟，包括接收輸入的文本；從文本中按照順序獲取一個(gè)字符；利用搜索樹對(duì)當(dāng)前的字符進(jìn)行第一路徑擴(kuò)展，獲得與第一路徑擴(kuò)展對(duì) 應(yīng)的當(dāng)前詞；以及第二解碼步驟，包括接收第一路徑擴(kuò)展獲得的當(dāng)前詞；利用語義規(guī)則搜索樹對(duì)當(dāng)前詞進(jìn)行第二路徑擴(kuò)展，獲得與第二路徑擴(kuò) 展對(duì)應(yīng)的語義規(guī)則；以及重復(fù)執(zhí)行第一解碼步驟以及第二解碼步驟，直到對(duì)文本中的所有字符執(zhí)行了第一路徑擴(kuò)展和第二路徑擴(kuò)展。
16. 根據(jù)權(quán)利要求15所述的方法，其中第二解碼步驟還包括在執(zhí)行完第二路徑擴(kuò)展之后，對(duì)當(dāng)前詞和語義規(guī)則序列進(jìn)行排序的步驟；以及在對(duì)文本中的所有字符執(zhí)行了第一路徑擴(kuò)展和第二路徑擴(kuò)展之后，第一解碼步驟還包括從排序后的詞和語義規(guī)則序列中選擇所需的詞和語義規(guī)則序列的步驟。
17. 根據(jù)權(quán)利要求15所述的方法，其中第一解碼步驟還包括在對(duì)輸入的文本中的所有字符依次進(jìn)行了第一路徑擴(kuò)展之后，對(duì)所獲得的詞的詞序列進(jìn)行排序的步驟；以及第二解碼步驟還包括在對(duì)第一路徑擴(kuò)展獲得的所有詞依次進(jìn)行第二路徑擴(kuò)展之后，對(duì)獲得的語義規(guī)則進(jìn)行排序的步驟。
18. 如權(quán)利要求16所述的文本分析方法，其中第二解碼步驟通過對(duì)詞序列中的每個(gè)詞序列計(jì)算詞單元來對(duì)詞序列進(jìn)行排序。
19. 如權(quán)利要求15所述的文本分析方法，其中第一解碼步驟還包括詞記錄步驟，對(duì)當(dāng)前詞進(jìn)行記錄。
20. 如權(quán)利要求18所述的文本分析方法，其中第一解碼步驟還包括詞性標(biāo)記步驟，對(duì)當(dāng)前詞的詞性進(jìn)行標(biāo)記。
21. 如權(quán)利要求15所述的文本分析方法，其中第二解碼步驟還包括在執(zhí)行第二路徑擴(kuò)展之后，對(duì)獲得的語義規(guī)則進(jìn)行記錄的步驟。
22. 如權(quán)利要求15所述的文本分析方法，還包括第一構(gòu)造步驟，包括詞典排序步驟，對(duì)詞典中的詞進(jìn)行排序；詞ID分配步驟，為每個(gè)排序后的詞分配一個(gè)唯一的詞ID;以及詞搜索樹構(gòu)造步驟，利用排序后的詞和相應(yīng)的詞ID構(gòu)造詞搜索樹。
23. 如權(quán)利要求15所述的文本分析方法，還包括第二構(gòu)造步驟，包括礙義規(guī)則排序步驟，對(duì)語義規(guī)則進(jìn)行排序；語義規(guī)則ID分配步驟，為排序后的每個(gè)語義規(guī)則分配一個(gè)唯一的語義規(guī)則ID;以及語義規(guī)則搜索樹構(gòu)造步驟，利用排序后的語義規(guī)則和相應(yīng)的語義規(guī)則 ID構(gòu)造語義規(guī)則搜索樹。
24. 如權(quán)利要求15所述的文本分析方法，其中所述的語義規(guī)則是基于有限狀態(tài)機(jī)的語義規(guī)則。
25. 如權(quán)利要求15所述的文本分析方法，其中語義規(guī)則可以是詞或者是一個(gè)嵌套的語義規(guī)則。
26. —種短消息智能處理系統(tǒng)，包括短消息上下文檢索器，用于從輸入的短消息中檢索上下文信息；根據(jù)本發(fā)明權(quán)利要求1所述的文本分析器，用于對(duì)短消息文本進(jìn)行分析；分類器，用于對(duì)文本分析器的輸出進(jìn)行分類；短消息標(biāo)記器，用于利用標(biāo)簽對(duì)來自文本分類器和短消息上下文檢索器的輸出進(jìn)行標(biāo)記；短消息管理器，用于根據(jù)加標(biāo)簽的輸出，對(duì)短消息進(jìn)行管理。
27. —種短消息智能處理方法，包括短消息上下文檢索步驟，從輸入的短消息中檢索上下文信息；根據(jù)本發(fā)明權(quán)利要求15所述的文本分析方法，對(duì)短消息文本進(jìn)行分析；分類步驟，對(duì)文本分析方法分析的結(jié)果進(jìn)行分類；短消息標(biāo)記步驟，利用標(biāo)簽對(duì)來自文本分類步驟和短消息上下文檢索步驟的輸出進(jìn)行標(biāo)記；短消息管理步驟，根據(jù)加標(biāo)簽的輸出，對(duì)短消息進(jìn)行管理。
全文摘要
本發(fā)明提供一種文本分析器，包括第一解碼器，用于通過利用詞搜索樹對(duì)輸入的文本中的每個(gè)字符依次進(jìn)行第一路徑擴(kuò)展，獲得與每次第一路徑擴(kuò)展對(duì)應(yīng)的詞；以及第二解碼器，用于通過利用語義規(guī)則搜索樹對(duì)第一解碼器每次進(jìn)行第一路徑擴(kuò)展獲得的詞依次進(jìn)行第二路徑擴(kuò)展，獲得與每次第二路徑擴(kuò)展對(duì)應(yīng)的語義規(guī)則。以及本發(fā)明提供了一種文本分析方法，以及一種應(yīng)用本發(fā)明分析器的短消息智能處理系統(tǒng)及其方法。
文檔編號(hào)G06F17/27GK101470701SQ20071030663
公開日2009年7月1日申請(qǐng)日期2007年12月29日優(yōu)先權(quán)日2007年12月29日
發(fā)明者吳根清, 許荔秦, 靳簡明申請(qǐng)人:日電(中國)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳根清;許荔秦;靳簡明
技術(shù)所有人：日電（中國）有限公司
我是此專利的發(fā)明人

上一篇：基于需求的處理資源分配的制作方法
上一篇：對(duì)周邊裝置的檢測(cè)系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本語義分析相關(guān)技術(shù)

語義文本分析工具在線相關(guān)技術(shù)

語義規(guī)則相關(guān)技術(shù)

文本語義相似度計(jì)算相關(guān)技術(shù)

文本語義理解相關(guān)技術(shù)

短文本語義分析相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

支持基于有限狀態(tài)機(jī)的語義規(guī)則的文本分析器及其方法