緩存深度結(jié)構(gòu)以用于有效解析的方法和系統(tǒng)的制作方法
【專利摘要】一種解析方法和系統(tǒng)。所述方法包括生成域的n元語法模型和計(jì)算與所述n元語法模型的n元語法相關(guān)聯(lián)的tf-idf頻率。生成基于所述tf-idf頻率的包括頻繁出現(xiàn)的n元語法組的列表。所述頻繁出現(xiàn)的n元語法組被傳送到深度解析器組件并生成來自深度解析器組件的深度解析輸出。所述深度解析輸出被存儲(chǔ)在緩存內(nèi),并且處理器驗(yàn)證所述深度解析輸出的指定文本字序列在緩存中是否可用。
【專利說明】緩存深度結(jié)構(gòu)以用于有效解析的方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明的一個(gè)或多個(gè)實(shí)施例一般涉及緩存(caching)深度結(jié)構(gòu)的方法,具體地,涉及解析所緩存的深度結(jié)構(gòu)的方法和相關(guān)系統(tǒng)。
【背景技術(shù)】
[0002]對(duì)數(shù)據(jù)進(jìn)行分類包括具有很少靈活性的不準(zhǔn)確的進(jìn)程。檢索已分類的數(shù)據(jù)可能包括耗時(shí)且需要大量資源的復(fù)雜的進(jìn)程。相應(yīng)地,本領(lǐng)域存在克服上述缺陷和限制中的至少一些的需求。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的第一實(shí)施例提供了一種方法,包括:由計(jì)算系統(tǒng)的計(jì)算機(jī)處理器生成域的η元語法模型(n-gram model);由所述計(jì)算機(jī)處理器計(jì)算與所述η元語法模型的η元語法相關(guān)聯(lián)的tf-1df頻率;由所述計(jì)算機(jī)處理器基于所述tf-1df頻率確定所述η元語法的頻繁出現(xiàn)的η元語法組;由所述計(jì)算機(jī)處理器生成包含所述頻繁出現(xiàn)的η元語法組的列表;由所述計(jì)算機(jī)處理器將所述頻繁出現(xiàn)的η元語法組傳送至所述計(jì)算系統(tǒng)的深度解析器組件;通過關(guān)于所述頻繁出現(xiàn)的η元語法組執(zhí)行深度解析器組件的所述計(jì)算機(jī)處理器生成深度解析輸出,該深度解析輸出包含關(guān)于所述頻繁出現(xiàn)的η元語法組執(zhí)行深度解析器組件的結(jié)果;由計(jì)算機(jī)處理器將所述深度解析輸出存儲(chǔ)在緩存(cache)中;以及由所述計(jì)算機(jī)處理器驗(yàn)證所述深度解析輸出的指定文本字(word)序列在所述緩存中是否可用。
[0004]本發(fā)明的第二實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,包括存儲(chǔ)計(jì)算機(jī)可讀程序代碼的計(jì)算機(jī)可讀硬件存儲(chǔ)設(shè)備,所述計(jì)算機(jī)可讀程序代碼包括當(dāng)由計(jì)算機(jī)系統(tǒng)的計(jì)算機(jī)處理器執(zhí)行時(shí)實(shí)現(xiàn)方法的算法,所述方法包括:由所述計(jì)算機(jī)處理器生成域的η元語法模型;由所述計(jì)算機(jī)處理器計(jì)算與所述η元語法模型的η元語法相關(guān)聯(lián)的tf-1df頻率;由所述計(jì)算機(jī)處理器基于所述tf-1df頻率確定所述η元語法的頻繁出現(xiàn)的η元語法組;由所述計(jì)算機(jī)處理器生成包含所述頻繁出現(xiàn)的η元語法組的列表;由所述計(jì)算機(jī)處理器將所述頻繁出現(xiàn)的η元語法組傳送至所述計(jì)算系統(tǒng)的深度解析器組件;通過關(guān)于所述頻繁出現(xiàn)的η元語法組執(zhí)行深度解析器組件的所述計(jì)算機(jī)處理器生成深度解析輸出,該深度解析輸出包含關(guān)于所述頻繁出現(xiàn)的η元語法組執(zhí)行深度解析器組件的結(jié)果;由計(jì)算機(jī)處理器將所述深度解析輸出存儲(chǔ)在緩存中;以及由所述計(jì)算機(jī)處理器驗(yàn)證所述深度解析輸出的指定文本字序列在所述緩存中是否可用。
[0005]本發(fā)明的第三實(shí)施例提供了一種包括與計(jì)算機(jī)可讀存儲(chǔ)器單元耦接的計(jì)算機(jī)處理器的計(jì)算機(jī)系統(tǒng),所述存儲(chǔ)器單元包括當(dāng)由計(jì)算機(jī)處理器執(zhí)行時(shí)實(shí)現(xiàn)方法的指令,所述方法包括:由所述計(jì)算機(jī)處理器生成域的η元語法模型;由所述計(jì)算機(jī)處理器計(jì)算與所述η元語法模型的η元語法相關(guān)聯(lián)的tf-1df頻率;由所述計(jì)算機(jī)處理器基于所述tf-1df頻率確定所述η元語法的頻繁出現(xiàn)的η元語法組;由所述計(jì)算機(jī)處理器生成包含所述頻繁出現(xiàn)的η元語法組的列表;由所述計(jì)算機(jī)處理器將所述頻繁出現(xiàn)的η元語法組傳送至所述計(jì)算系統(tǒng)的深度解析器組件;通過關(guān)于所述頻繁出現(xiàn)的η元語法組執(zhí)行深度解析器組件的所述計(jì)算機(jī)處理器生成深度解析輸出,該深度解析輸出包含關(guān)于所述頻繁出現(xiàn)的η元語法組執(zhí)行深度解析器組件的結(jié)果;由計(jì)算機(jī)處理器將所述深度解析輸出存儲(chǔ)在緩存中;以及由所述計(jì)算機(jī)處理器驗(yàn)證所述深度解析輸出的指定文本字序列在所述緩存中是否可用。
[0006]本發(fā)明的第四實(shí)施例提供了一種支持計(jì)算基礎(chǔ)架構(gòu)的進(jìn)程(process),所述進(jìn)程包括:為在包括計(jì)算機(jī)處理器的計(jì)算機(jī)中創(chuàng)建、整合、主持(hosting)、維護(hù)和部署計(jì)算機(jī)可讀代碼中的至少一個(gè)提供至少一個(gè)支持服務(wù),其中所述計(jì)算機(jī)處理器執(zhí)行包含在所述代碼中的指令以使得計(jì)算機(jī)執(zhí)行包括以下步驟的方法:由所述計(jì)算機(jī)處理器生成域的η元語法模型;由所述計(jì)算機(jī)處理器計(jì)算與所述η元語法模型的η元語法相關(guān)聯(lián)的tf-1df頻率;由所述計(jì)算機(jī)處理器基于所述tf-1df頻率確定所述η元語法的頻繁出現(xiàn)的η元語法組;由所述計(jì)算機(jī)處理器生成包含所述頻繁出現(xiàn)的η元語法組的列表;由所述計(jì)算機(jī)處理器將所述頻繁出現(xiàn)的η元語法組傳送至所述計(jì)算系統(tǒng)的深度解析器組件;通過關(guān)于所述頻繁出現(xiàn)的η元語法組執(zhí)行深度解析器組件的所述計(jì)算機(jī)處理器生成深度解析輸出,該深度解析輸出包含關(guān)于所述頻繁出現(xiàn)的η元語法組執(zhí)行深度解析器組件的結(jié)果;由計(jì)算機(jī)處理器將所述深度解析輸出存儲(chǔ)在緩存中;以及由所述計(jì)算機(jī)處理器驗(yàn)證所述深度解析輸出的指定文本字序列在所述緩存中是否可用。
[0007]本發(fā)明有利地提供了能夠分類數(shù)據(jù)的簡單方法和相關(guān)系統(tǒng)。
【專利附圖】
【附圖說明】
[0008]圖1表示根據(jù)本發(fā)明實(shí)施例的用于緩存使能有效解析進(jìn)程的深度結(jié)構(gòu)的系統(tǒng)2。
[0009]圖2表示根據(jù)本發(fā)明實(shí)施例的與樣本輸入文本相關(guān)聯(lián)的樹型庫(treebank)。
[0010]圖3表示根據(jù)本發(fā)明實(shí)施例的詳細(xì)說明由圖1的系統(tǒng)使能的進(jìn)程流程的算法。
[0011]圖4表示根據(jù)本發(fā)明實(shí)施例的、用于緩存使能有效解析進(jìn)程的深度結(jié)構(gòu)的、由圖1的系統(tǒng)使用的計(jì)算機(jī)設(shè)備。
【具體實(shí)施方式】
[0012]圖1表示根據(jù)本發(fā)明的實(shí)施例的、用于緩存使能有效解析進(jìn)程的深度結(jié)構(gòu)的系統(tǒng)
2。系統(tǒng)2使能自然語言處理(NLP)進(jìn)程。NLP進(jìn)程這里被定義為攝取和理解非結(jié)構(gòu)數(shù)據(jù)的技術(shù)。NLP進(jìn)程使能NLP解析器,以提供深度解析進(jìn)程。深度解析進(jìn)程包括為輸入文本創(chuàng)建樹型庫(樹結(jié)構(gòu))。
[0013]圖1的系統(tǒng)2包括通過網(wǎng)絡(luò)7連接至計(jì)算系統(tǒng)14的計(jì)算機(jī)5a…5n。網(wǎng)絡(luò)7可以包括任意類型的網(wǎng)絡(luò)和其他事物,包括局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、因特網(wǎng)、無線網(wǎng)等等。計(jì)算機(jī)5a…5n可以包括任意類型的計(jì)算系統(tǒng)和其他事物,包括計(jì)算機(jī)(PC)、膝上計(jì)算機(jī)、平板計(jì)算機(jī)、服務(wù)器、PDA、智能手機(jī)等等。計(jì)算系統(tǒng)14可以包括任意類型的計(jì)算系統(tǒng)和其他事物,包括計(jì)算機(jī)(PC)、膝上計(jì)算機(jī)、平板計(jì)算機(jī)、服務(wù)器等等。計(jì)算系統(tǒng)14包括存儲(chǔ)器系統(tǒng)8。存儲(chǔ)器系統(tǒng)8可以包括單一存儲(chǔ)器系統(tǒng)?;蛘?存儲(chǔ)器系統(tǒng)8可以包括多個(gè)存儲(chǔ)器系統(tǒng)。存儲(chǔ)器系統(tǒng)8包括軟件17,軟件17包括解析器組件17a。軟件17使能深度解析進(jìn)程。
[0014]經(jīng)由域的η元語法分析驅(qū)動(dòng)緩存進(jìn)程(由系統(tǒng)2使能)。N元語法分析包括定位令牌序列和相關(guān)頻率的語言建模的表格。例如,系統(tǒng)2可以確定諸如“the happy dog (快樂狗)”或“brown fox (棕色的狐貍)”(如,分別是三元和二元)的序列在一個(gè)域內(nèi)非常常見。一旦構(gòu)建了相關(guān)聯(lián)的語言模型,系統(tǒng)2定位最頻繁的η元語法,并將其通過解析器組件17a來運(yùn)行。深度解析進(jìn)程的結(jié)果被存儲(chǔ)在緩存(如,數(shù)據(jù)庫緩存,文件支持的緩存,等等),并由所述η元語法索引。在運(yùn)行時(shí),解析器組件17a將每個(gè)識(shí)別到的令牌序列與所述緩存內(nèi)容相比較。如果所述緩存包括預(yù)計(jì)算的結(jié)構(gòu),所述預(yù)計(jì)算的結(jié)構(gòu)會(huì)被解析器組件17a使用,而不是在運(yùn)行時(shí)被創(chuàng)建。另外,系統(tǒng)2使用語言模型來預(yù)緩存頻繁的η元語法的變化。例如,在語義疊加的場景(如,rat1nal software architect (合理軟件建造者))中,系統(tǒng)2會(huì)選擇最長的可應(yīng)用的序列。在建模域(和事先計(jì)算預(yù)緩存結(jié)構(gòu))的進(jìn)程期間,系統(tǒng)2可以識(shí)別序列:“Rat1nal Software Architect”作為常見的三元,并計(jì)算所述結(jié)構(gòu)。另外,系統(tǒng)2可以識(shí)別序列:“Rat1nal Software Architect for Web8.0.3”作為常見的六兀,并計(jì)算這個(gè)序列的結(jié)構(gòu)。因此,在運(yùn)行時(shí),如果用戶鍵入序列“rat1nal software architect forWeb”,所述序列不會(huì)被緩存執(zhí)行。所述緩存可以檢索這個(gè)實(shí)體的前三個(gè)令牌的結(jié)構(gòu),并部分分解要求的計(jì)算結(jié)構(gòu)。所述整個(gè)結(jié)構(gòu)在緩存機(jī)制中是不可檢索的,因?yàn)檫@個(gè)實(shí)體不包括版本令牌:(8.0.3)。另外,系統(tǒng)2可以引入域特定的變化。例如,如果確定所檢索的產(chǎn)品可以包括后綴,該后綴包括版本令牌,所述緩存可以被預(yù)加載不包括令牌的序列的變型。通過使用這個(gè)技術(shù)計(jì)算所述緩存中預(yù)計(jì)算的結(jié)構(gòu)的可能變型,系統(tǒng)2可以以更精確的方式解釋用戶輸入的變型。
[0015]圖2表示根據(jù)本發(fā)明的實(shí)施例的、與樣本輸入文本相關(guān)聯(lián)的樹型庫200。所述樣本輸入文本包括序列:“The Quick Brown Fox jumped over the happy dog (快速的棕色狐貍從快樂狗的身上跳過)”。塊202a-202f包括指示短語的首字母縮略詞(如,塊202b包括NP=名詞短語,塊202c包括VP=動(dòng)詞短語,等等)。塊205a-205h包括每個(gè)令牌旁的語音的實(shí)際部分(如,塊205f包括DT=限定詞,塊205g包括JJ=形容詞,塊205h包括NN=名詞)。圖1的系統(tǒng)2可以使能計(jì)算文集內(nèi)高頻η元語法、結(jié)構(gòu)化η元語法、緩存η元語法和在應(yīng)用運(yùn)行時(shí)從緩存檢索所述η元語法的進(jìn)程,以應(yīng)用于樹型庫200。這個(gè)進(jìn)程的使用消除了計(jì)算高頻出現(xiàn)的序列的結(jié)構(gòu)(即,通過解析器)的需要。
[0016]圖3表示根據(jù)本發(fā)明的實(shí)施例的、詳細(xì)說明由圖1的系統(tǒng)2使能的、用于為有效解析進(jìn)程而緩存深度結(jié)構(gòu)的進(jìn)程流程的算法。圖3的算法中的每個(gè)步驟可以被執(zhí)行計(jì)算機(jī)代碼的計(jì)算機(jī)處理器使能和執(zhí)行。在步驟300,生成域的η元語法模型。η元語法模型這里被定義為預(yù)測序列中的下一個(gè)條目的概率語言模型,其包括(η-1)階Markov模型的形式。在步驟302,計(jì)算與(在步驟300生成的)n元語法模型的η元語法相關(guān)聯(lián)的詞條頻率-反轉(zhuǎn)文檔頻率(tf-1df)。tf-1df頻率這里被定義為反映字(word)關(guān)于集合或文集中的文檔的重要性的數(shù)值統(tǒng)計(jì)。tf-1df頻率可以被用作信息檢索和文本挖掘中的加權(quán)因子。tf-1df值與字在文檔中出現(xiàn)的次數(shù)呈正比地增加,但被字在文集中的頻率補(bǔ)償(offset)。tf-1df包括兩個(gè)統(tǒng)計(jì)量的乘積:詞條頻率和反轉(zhuǎn)文檔頻率。詞條頻率tf (t, d)可以通過確定詞條在文檔中的原始頻率(即,詞條t在文檔d中出現(xiàn)的次數(shù))而確定。如果t的原始頻率被定義為f (t, d),則條目頻率tf (t, d)包括:tf (t, d) =f (t, d) o idf包括一個(gè)詞條在所有文檔之間是否常見或稀少的測度。idf可以通過用包括詞條的文檔個(gè)數(shù)除文檔的總數(shù)并對(duì)得到的商取對(duì)數(shù)得到。
[0017]在步驟304,基于所述tf-1df頻率確定(步驟302的η元語法的)頻繁出現(xiàn)的η元語法組。在步驟308,生成包括頻繁出現(xiàn)的η元語法組的列表。在步驟310,所述頻繁出現(xiàn)的η元語法組被傳送到計(jì)算系統(tǒng)的深度解析器組件。在步驟314,生成深度解析輸出。所述深度解析輸出包括關(guān)于所述頻繁出現(xiàn)的η元語法組執(zhí)行深度解析器組件的結(jié)果。在步驟318,所述深度解析輸出被存儲(chǔ)。在步驟324,驗(yàn)證所述深度解析輸出的指定文本字序列在緩存中是否可用。如果在步驟324,驗(yàn)證所述深度解析輸出的指定文本字序列在所述緩存中可用,則在步驟328中,從所述緩存檢索所述指定的文本字序列,以及在步驟330,應(yīng)用所述指定的文本字序列至解析樹。如果在步驟324,驗(yàn)證所述深度解析輸出的指定文本字序列在緩存中不可用,則在步驟332,深度解析所述指定的文本字序列。
[0018]圖4表示根據(jù)本發(fā)明的實(shí)施例的、用于緩存使能有效解析進(jìn)程的深度結(jié)構(gòu)的、由圖1的系統(tǒng)2使用的計(jì)算機(jī)設(shè)備90 (如,圖1的計(jì)算系統(tǒng)14)。所述計(jì)算系統(tǒng)90包括處理器91、與處理器91耦接的輸入設(shè)備92、與處理器91耦接的輸出設(shè)備93以及分別與處理器91耦接的存儲(chǔ)器設(shè)備94和95。所述輸入設(shè)備92可以是鍵盤、鼠標(biāo),等等。所述輸出設(shè)備93可以是打印機(jī)、繪圖機(jī)、計(jì)算機(jī)屏幕、磁帶、可移除硬盤、軟盤等等。所述存儲(chǔ)器設(shè)備94和95可以是硬盤、軟盤、磁帶、諸如光盤(CD)或數(shù)字視頻盤(DVD)的光存儲(chǔ)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)(DRAM)、只讀存儲(chǔ)器(ROM)等等。所述存儲(chǔ)器設(shè)備95包括計(jì)算機(jī)代碼97。所述計(jì)算機(jī)代碼97包括緩存使能有效解析進(jìn)程的深度結(jié)構(gòu)的算法(如,圖3的算法)。所述處理器91執(zhí)行計(jì)算機(jī)代碼97。所述存儲(chǔ)器設(shè)備94包括輸入數(shù)據(jù)96。所述輸入數(shù)據(jù)96包括計(jì)算機(jī)代碼97要求的輸入。所述輸出設(shè)備93顯示來自計(jì)算機(jī)代碼97的輸出。存儲(chǔ)器設(shè)備94和95中的一個(gè)或兩個(gè)(或者圖4中未顯示的一個(gè)或多個(gè)附加的存儲(chǔ)設(shè)備)可以包括圖3中的算法,以及可以被用作計(jì)算機(jī)可用介質(zhì)(或計(jì)算機(jī)可讀介質(zhì)或程序存儲(chǔ)設(shè)備),其中存儲(chǔ)有計(jì)算機(jī)可讀程序代碼和/或存儲(chǔ)的其他數(shù)據(jù),其中所述計(jì)算機(jī)可讀程序代碼包括計(jì)算機(jī)代碼97。一般地,計(jì)算機(jī)系統(tǒng)90的計(jì)算機(jī)程序產(chǎn)品(或替代地,產(chǎn)品)可以包括計(jì)算機(jī)可用介質(zhì)(或程序存儲(chǔ)設(shè)備)。
[0019]然而,本發(fā)明的任意組件可以由向緩存提供使能有效解析進(jìn)程的深度結(jié)構(gòu)的服務(wù)提供者創(chuàng)建、整合、主持、維持、部署、管理、服務(wù)等等。因此,本發(fā)明公開了用于部署、創(chuàng)建、整合、主持、維持的進(jìn)程,和/或整合計(jì)算基礎(chǔ)架構(gòu),包括整合計(jì)算機(jī)可讀代碼到計(jì)算機(jī)系統(tǒng)90,其中所述代碼與計(jì)算機(jī)系統(tǒng)90結(jié)合能夠執(zhí)行緩存使能有效解析進(jìn)程的深度結(jié)構(gòu)的方法。在另一個(gè)實(shí)施例中,本發(fā)明提供了在訂閱、廣告和/或費(fèi)用基礎(chǔ)上執(zhí)行本發(fā)明的進(jìn)程步驟的商業(yè)方法。也即,服務(wù)提供者,諸如解決方案集成商,可以向緩存提供使能有效的解析進(jìn)程的深度結(jié)構(gòu)。在這種情況下,服務(wù)提供者可以為一個(gè)或多個(gè)客戶創(chuàng)建、維護(hù)、支持執(zhí)行本發(fā)明的進(jìn)程步驟的計(jì)算機(jī)基礎(chǔ)架構(gòu)。作為回報(bào),所述服務(wù)提供者可以在訂閱和/或費(fèi)用協(xié)議下接收來自客戶的費(fèi)用,和/或所述服務(wù)提供者可以從將廣告內(nèi)容銷售給一個(gè)或多個(gè)第三方而接收付款。
[0020]雖然圖4顯示了計(jì)算機(jī)系統(tǒng)90作為具體的硬件和軟件配置,但是本領(lǐng)域的技術(shù)人員所知的任意硬件和軟件配置都可以聯(lián)合圖4的具體計(jì)算機(jī)系統(tǒng)90來用于前述目的。例如,存儲(chǔ)器設(shè)備94和95可以是單個(gè)存儲(chǔ)器設(shè)備的一部分,而不是各個(gè)獨(dú)立的存儲(chǔ)器設(shè)備。
[0021]盡管這里已經(jīng)為說明的目的而描述了本發(fā)明的各個(gè)實(shí)施例,但是許多變化和修改對(duì)本領(lǐng)域的技術(shù)人員來說都是明顯的。因此,所附的權(quán)利要求意欲包含這些修改和變化,它們落入本發(fā)明的真實(shí)的精神和范圍內(nèi)。
【權(quán)利要求】
1.一種方法,包括: 由計(jì)算系統(tǒng)的計(jì)算機(jī)處理器生成域的η元語法模型; 由所述計(jì)算機(jī)處理器計(jì)算與所述η元語法模型的η元語法相關(guān)聯(lián)的tf-1df頻率; 由所述計(jì)算機(jī)處理器基于所述tf-1df頻率確定所述η元語法的頻繁出現(xiàn)的η元語法組; 由所述計(jì)算機(jī)處理器生成包含所述頻繁出現(xiàn)的η元語法組的列表; 由所述計(jì)算機(jī)處理器將所述頻繁出現(xiàn)的η元語法組傳送至所述計(jì)算系統(tǒng)的深度解析器組件; 通過關(guān)于所述頻繁出現(xiàn)的η元語法組執(zhí)行所述深度解析器組件的所述計(jì)算機(jī)處理器生成深度解析輸出,所述深度解析輸出包含所述關(guān)于所述頻繁出現(xiàn)的η元語法組執(zhí)行所述深度解析器組件的結(jié)果; 由計(jì)算機(jī)處理器將所述深度解析輸出存儲(chǔ)在緩存中;以及 由所述計(jì)算機(jī)處理器驗(yàn)證所述深度解析輸出的指定文本字序列在所述緩存中是否可用。
2.如權(quán)利要求1所述 的方法,其中所述驗(yàn)證的結(jié)果指示所述指定文本字序列在所述緩存中可用,以及其中所述方法還包括: 由所述計(jì)算機(jī)處理器從所述緩存中檢索所述指定文本字序列;以及 由所述計(jì)算機(jī)處理器應(yīng)用所述指定文本字序列至解析樹。
3.如權(quán)利要求1所述的方法,其中所述驗(yàn)證的結(jié)果指示所述指定文本字序列在所述緩存中不可用,以及其中所述方法還包括: 由計(jì)算機(jī)處理器深度解析所述指定文本字序列。
4.如權(quán)利要求1所述的方法,其中所述頻繁出現(xiàn)的η元語法組的每個(gè)η元語法包括緩存關(guān)鍵字。
5.如權(quán)利要求1所述的方法,其中深度解析輸出包括緩存值。
6.一種計(jì)算機(jī)系統(tǒng),包括與計(jì)算機(jī)可讀存儲(chǔ)器單元耦接的計(jì)算機(jī)處理器,所述存儲(chǔ)器單元包括當(dāng)由計(jì)算機(jī)處理器執(zhí)行時(shí)實(shí)現(xiàn)方法的指令,所述方法包括: 由所述計(jì)算機(jī)處理器生成域的η元語法模型; 由所述計(jì)算機(jī)處理器計(jì)算與所述η元語法模型的η元語法相關(guān)聯(lián)的tf-1df頻率; 由所述計(jì)算機(jī)處理器基于所述tf-1df頻率確定所述η元語法的頻繁出現(xiàn)的η元語法組; 由所述計(jì)算機(jī)處理器生成包含所述頻繁出現(xiàn)的η元語法組的列表; 由所述計(jì)算機(jī)處理器將所述頻繁出現(xiàn)的η元語法組傳送至所述計(jì)算系統(tǒng)的深度解析器組件; 通過關(guān)于所述頻繁出現(xiàn)的η元語法組執(zhí)行所述深度解析器組件的所述計(jì)算機(jī)處理器生成深度解析輸出,所述深度解析輸出包含所述關(guān)于所述頻繁出現(xiàn)的η元語法組執(zhí)行所述深度解析器組件的結(jié)果; 由計(jì)算機(jī)處理器將所述深度解析輸出存儲(chǔ)在緩存中;以及 由所述計(jì)算機(jī)處理器驗(yàn)證所述深度解析輸出的指定文本字序列在所述緩存中是否可用。
7.如權(quán)利要求6所述的計(jì)算機(jī)系統(tǒng),其中所述驗(yàn)證的結(jié)果指示所述指定文本字序列在所述緩存中可用,以及其中所述方法還包括: 由所述計(jì)算機(jī)處理器從所述緩存中檢索所述指定文本字序列;以及 由所述計(jì)算機(jī)處理器應(yīng)用所述指定文本字序列至解析樹。
8.如權(quán)利要求6所述的計(jì)算機(jī)系統(tǒng),其中所述驗(yàn)證的結(jié)果指示所述指定文本字序列在所述緩存中不可用,以及其中所述方法還包括: 由所述計(jì)算機(jī)處理器深度解析所述指定文本字序列。
9.如權(quán)利要求6所述的計(jì)算機(jī)系統(tǒng),其中所述頻繁出現(xiàn)的η元語法組的每個(gè)η元語法包括緩存關(guān)鍵字。
10.如權(quán)利要求6所述的計(jì)算機(jī)系統(tǒng),其中深度解析輸出包括緩存值。
11.一種用于支持計(jì)算基礎(chǔ)架構(gòu)的進(jìn)程,所述進(jìn)程包括為在包括計(jì)算機(jī)處理器的計(jì)算機(jī)中創(chuàng)建、整合、主持、維護(hù)和部署計(jì)算機(jī)可讀代碼中的至少一個(gè)而提供至少一個(gè)支持服務(wù),其中所述計(jì)算機(jī)處理器執(zhí)行包含在所述代碼中的指令以引起計(jì)算機(jī)執(zhí)行包括以下步驟的方法: 由所述計(jì)算機(jī)處理器生成域的η元語法模型; 由所述計(jì)算機(jī)處理器計(jì)算與所述η元語法模型的η元語法相關(guān)聯(lián)的tf-1df頻率; 由所述計(jì)算機(jī)處理器基于所述tf-1df頻率確定所述η元語法的頻繁出現(xiàn)的η元語法組; 由所述計(jì)算機(jī)處理器生成包含所述頻繁出現(xiàn)的η元語法組的列表; 由所述計(jì)算機(jī)處理器將所述頻繁出現(xiàn)的η元語法組傳送至所述計(jì)算系統(tǒng)的深度解析器組件; 通過關(guān)于所述頻繁出現(xiàn)的η元語法組執(zhí)行所述深度解析器組件的所述計(jì)算機(jī)處理器生成深度解析輸出,所述深度解析輸出包含所述關(guān)于所述頻繁出現(xiàn)的η元語法組執(zhí)行所述深度解析器組件的結(jié)果; 由計(jì)算機(jī)處理器將所述深度解析輸出存儲(chǔ)在緩存中;以及 由所述計(jì)算機(jī)處理器驗(yàn)證所述深度解析輸出的指定文本字序列在所述緩存中是否可用。
12.如權(quán)利要求11所述的進(jìn)程,其中所述驗(yàn)證的結(jié)果指示所述指定文本字序列在所述緩存中可用,以及其中所述方法還包括: 由所述計(jì)算機(jī)處理器從所述緩存中檢索所述指定文本字序列;以及 由所述計(jì)算機(jī)處理器應(yīng)用所述指定文本字序列至解析樹。
13.如權(quán)利要求11所述的進(jìn)程,其中所述驗(yàn)證的結(jié)果指示所述指定文本字序列在所述緩存中不可用,以及其中所述方法還包括: 由所述計(jì)算機(jī)處理器深度解析所述指定文本字序列。
14.如權(quán)利要求11所述的進(jìn)程,其中所述頻繁出現(xiàn)的η元語法組的每個(gè)η元語法包括緩存關(guān)鍵字。
15.如權(quán)利要求11所述的進(jìn)程,其中深度解析輸出包括緩存值。
【文檔編號(hào)】G06F12/08GK104050096SQ201410087802
【公開日】2014年9月17日 申請(qǐng)日期:2014年3月11日 優(yōu)先權(quán)日:2013年3月11日
【發(fā)明者】M.布德羅, B.穆爾, A.莫薩德, C.M.特里姆 申請(qǐng)人:國際商業(yè)機(jī)器公司