国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      句法分析裝置及句法分析方法

      文檔序號(hào):6576890閱讀:222來(lái)源:國(guó)知局

      專利名稱::句法分析裝置及句法分析方法
      技術(shù)領(lǐng)域
      :本發(fā)明涉及句法分析技術(shù),用于從輸入的自然語(yǔ)言句子中識(shí)別出句子的語(yǔ)法成份及成份之間的關(guān)系。更具體地說(shuō),本發(fā)明涉及一種使用正則表達(dá)式的句法分析裝置及句法分析方法,其應(yīng)用正則表達(dá)式形式的句法分析規(guī)則和句法分析算法去分析輸入句子的語(yǔ)法成份并輸出句法分析樹。
      背景技術(shù)
      :識(shí)別自然語(yǔ)言的語(yǔ)法成份及成份間的關(guān)系是處理自然語(yǔ)言的難點(diǎn)和重要任務(wù)。關(guān)于這方面的研究已經(jīng)公開了多篇論文和相關(guān)專利,例如,美國(guó)專利US5,386,556A公開了一種自然語(yǔ)目分析裝直禾口方法(Naturallanguageanalyzingapparatusandmethod),而美國(guó)專利US5,930,746A則公開了一種自動(dòng)解析和翻譯自然語(yǔ)言的裝置和方法(Parsingandtranslatingnaturallanguagesentencesautomatically)。在對(duì)自然語(yǔ)言的處理過(guò)程中,進(jìn)行句法分析時(shí)需要使用句法分析規(guī)則庫(kù),句法分析規(guī)則庫(kù)的質(zhì)量和能力是影響句法分析結(jié)果的最關(guān)鍵原因。但是,在現(xiàn)有的自然語(yǔ)言分析裝置和方法中,由于句法分析規(guī)則的表達(dá)能力有限,因此不能靈活高效地應(yīng)用句法規(guī)則描述自然語(yǔ)言的語(yǔ)法特征,相應(yīng)地也不能有效準(zhǔn)確地識(shí)別出輸入句子的句法成份。
      發(fā)明內(nèi)容鑒于上述情況,本發(fā)明提出一種使用正則表達(dá)式描述句法分析規(guī)則的句法分析裝置及句法分析方法,用以對(duì)輸入的自然語(yǔ)言進(jìn)行句法成份及成份間關(guān)系的識(shí)別。根據(jù)本發(fā)明的句法分析裝置及句法分析方法,能夠應(yīng)用正則表達(dá)式形式的句法分析規(guī)則和句法分析算法去分析輸入句子的語(yǔ)法成份并輸出句法分析樹,從而增強(qiáng)描述自然語(yǔ)言規(guī)律的能力。根據(jù)本發(fā)明的一個(gè)方面,提供一種句法分析裝置,包括規(guī)則獲取模塊,配置為從已經(jīng)標(biāo)注好的訓(xùn)練樹庫(kù)學(xué)習(xí)句法分析規(guī)則以生成包含正則表達(dá)式形式的產(chǎn)生式規(guī)則集,其中對(duì)于產(chǎn)生式規(guī)則的后項(xiàng)中的重復(fù)部分用正則表達(dá)式來(lái)表示;規(guī)則應(yīng)用模塊,配置為使用規(guī)則獲取模塊獲得的產(chǎn)生式規(guī)則集對(duì)輸入句子進(jìn)行分析,識(shí)別出輸入句子的成份及成份間的關(guān)系;以及句法樹生成模塊,配置為根據(jù)規(guī)則應(yīng)用模塊輸出的輸入句子的語(yǔ)法成份及成份間的關(guān)系,生成輸入句子的依存句法關(guān)系圖或者短語(yǔ)結(jié)構(gòu)型句法分析樹。根據(jù)本發(fā)明的一個(gè)實(shí)施例的句法分析裝置,規(guī)則獲取模塊包括樹片段分解部,配置為將訓(xùn)練樹庫(kù)中的每棵句法樹分解為作為產(chǎn)生式規(guī)則的樹片段,以形成樹片段集;重復(fù)片段檢測(cè)部,配置為檢測(cè)樹片段分解部分解得到的樹片段集中的產(chǎn)生式規(guī)則的后項(xiàng)中是否有重復(fù)的結(jié)點(diǎn)序列,并將具有重復(fù)的結(jié)點(diǎn)序列的產(chǎn)生式規(guī)則表示為正則表達(dá)式形式的產(chǎn)生式規(guī)則;以及重復(fù)規(guī)則合并部,配置為將重復(fù)片段檢測(cè)部生成的形式相同的產(chǎn)生式規(guī)則合并為一個(gè)產(chǎn)生式規(guī)則,以形成產(chǎn)生式規(guī)則集。優(yōu)選地,規(guī)則獲取模塊還包括規(guī)則選擇部,配置為根據(jù)選擇策略對(duì)重復(fù)規(guī)則合并部所生成的產(chǎn)生式規(guī)則進(jìn)行選擇,以生成縮減的產(chǎn)生式規(guī)則集。根據(jù)本發(fā)明的一個(gè)實(shí)施例,樹片段分解部分解得到的樹片段表示為<freq:xx>{<f1>...<fn>}P-Y1Y2...Yn,η為大于等于1的正整數(shù),其中<freq:XX>為頻度信息,表示該樹片段在訓(xùn)練樹庫(kù)中的出現(xiàn)次數(shù);<fi>為屬性特征,用于描述使用該產(chǎn)生式規(guī)則時(shí)的上下文信息、詞匯或語(yǔ)義特點(diǎn),i為從1至η的任一整數(shù);P表示該樹片段的上位結(jié)點(diǎn),為一個(gè)短語(yǔ)標(biāo)記Ji表示P結(jié)點(diǎn)的子結(jié)點(diǎn),為一個(gè)短語(yǔ)標(biāo)記或一個(gè)詞匯標(biāo)記;“Kf1X··<fn>}P—Y1Y2.··Yn”表示在出現(xiàn)了<f!>.··<fn>屬性的情況下,短語(yǔ)P可以由Y1Y2.··Yn構(gòu)成。重復(fù)規(guī)則合并部在將重復(fù)片段檢測(cè)部生成的形式相同的產(chǎn)生式規(guī)則合并為一個(gè)產(chǎn)生式規(guī)則時(shí),將產(chǎn)生式規(guī)則的頻度進(jìn)行相應(yīng)合并。另外,在產(chǎn)生式規(guī)則中屬性特征為可選。優(yōu)選地,產(chǎn)生式規(guī)則包括單結(jié)點(diǎn)重復(fù)型規(guī)則,為產(chǎn)生式規(guī)則的后項(xiàng)中的某一成份重復(fù)二次以上的產(chǎn)生式規(guī)則;多結(jié)點(diǎn)重復(fù)型規(guī)則,為產(chǎn)生式規(guī)則的后項(xiàng)中的某一片段重復(fù)二次以上的產(chǎn)生式規(guī)則;混合重復(fù)型規(guī)則,為產(chǎn)生式規(guī)則的后項(xiàng)中既包含單結(jié)點(diǎn)重復(fù)部分也包含多結(jié)點(diǎn)重復(fù)部分的產(chǎn)生式規(guī)則;以及無(wú)重復(fù)型規(guī)則,為產(chǎn)生式規(guī)則的后項(xiàng)中沒(méi)有重復(fù)部分的產(chǎn)生式規(guī)則。根據(jù)本發(fā)明的一個(gè)實(shí)施例的句法分析裝置,規(guī)則應(yīng)用模塊包括規(guī)則編譯部,配置為將規(guī)則獲取模塊生成的產(chǎn)生式規(guī)則集編譯成句法分析規(guī)則的規(guī)則查詢表;規(guī)則查詢部,配置為查詢規(guī)則編譯部編譯的規(guī)則查詢表;以及句法分析部,配置為通過(guò)規(guī)則查詢部在規(guī)則查詢表中查詢能夠應(yīng)用于輸入句子的句法分析規(guī)則,根據(jù)句法分析規(guī)則識(shí)別輸入句子的語(yǔ)法成份及成份間的關(guān)系。優(yōu)選地,規(guī)則應(yīng)用模塊還包括歧義消解部,配置為從句法分析部生成的局部分析候選中選擇最優(yōu)的局部分析結(jié)果;以及句法分析部對(duì)歧義消解部選擇的局部分析結(jié)果進(jìn)行進(jìn)一步的句法分析,以輸出滿足要求的最終分析結(jié)果。根據(jù)本發(fā)明的一個(gè)實(shí)施例,規(guī)則編譯部為產(chǎn)生式規(guī)則集中包含正則表達(dá)式的部分增加中間生成標(biāo)記和中間生成規(guī)則,并用中間生成標(biāo)記替換產(chǎn)生式規(guī)則中正則表達(dá)式表示的部分,中間生成標(biāo)記并入句法分析規(guī)則集的短語(yǔ)標(biāo)記集,中間生成規(guī)則并入句法分析規(guī)則集;以及句法分析部按照與識(shí)別短語(yǔ)標(biāo)記相同的方式識(shí)別中間生成標(biāo)記,通過(guò)規(guī)則查詢部查詢所有適合當(dāng)前輸入句子的包括中間生成規(guī)則的句法分析規(guī)則,以識(shí)別輸入句子的語(yǔ)法成份及成份間的關(guān)系。優(yōu)選地,歧義消解部按照下式通過(guò)計(jì)算句法分析樹的概率P(S,t)來(lái)確定使用的最優(yōu)產(chǎn)生式規(guī)則,以選擇最優(yōu)的局部分析結(jié)果尸ΠP^reD{T)其中S為輸入句子,t為句法分析樹,r為句法分析過(guò)程中使用的一條句法分析規(guī)貝U,D(T)為生成句法分析樹t使用的全部句法分析規(guī)則,而p(r)為針對(duì)句法分析規(guī)則r的規(guī)則概率。根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,中間生成標(biāo)記的規(guī)則概率的計(jì)算與句法分析中存在的短語(yǔ)符號(hào)的規(guī)則概率的計(jì)算相同,中間生成規(guī)則的規(guī)則概率的計(jì)算與非中間生成規(guī)則的規(guī)則概率的計(jì)算相同;以及對(duì)于含有正則表達(dá)式的產(chǎn)生式規(guī)則用公式Α")=ΓΙMd計(jì)算規(guī)則概率,其中A為轉(zhuǎn)化該含有正則表達(dá)式的規(guī)則時(shí)用到的一條中間生成規(guī)則,而P(A)為針對(duì)該中間生成規(guī)則A的規(guī)則概率,η為大于等于1的正整數(shù),i為從1至η的任一整數(shù)。根據(jù)本發(fā)明的一個(gè)實(shí)施例的句法分析裝置,句法樹生成模塊包括中間標(biāo)記清理部,配置為清除在句法分析過(guò)程中使用的中間生成標(biāo)記;以及短語(yǔ)結(jié)構(gòu)生成部,配置為根據(jù)中間標(biāo)記清理部輸出的清除中間生成標(biāo)記之后的輸入句子的語(yǔ)法成份及成份間的關(guān)系,生成短語(yǔ)結(jié)構(gòu)型句法分析樹。根據(jù)本發(fā)明的另一個(gè)實(shí)施例的句法分析裝置,句法樹生成模塊也可以包括中間標(biāo)記清理部,配置為清除在句法分析過(guò)程中使用的中間生成標(biāo)記;核心結(jié)點(diǎn)標(biāo)注部,配置為根據(jù)中間標(biāo)記清理部輸出的清除中間生成標(biāo)記之后的輸入句子的語(yǔ)法成份及成份間的關(guān)系進(jìn)行核心結(jié)點(diǎn)標(biāo)注;以及依存結(jié)構(gòu)生成部,配置為根據(jù)核心結(jié)點(diǎn)標(biāo)注部標(biāo)注的核心結(jié)點(diǎn)生成輸入句子的依存句法關(guān)系圖。根據(jù)本發(fā)明的另一個(gè)方面,提供一種句法分析方法,包括規(guī)則獲取步驟,從已經(jīng)標(biāo)注好的訓(xùn)練樹庫(kù)學(xué)習(xí)句法分析規(guī)則以生成包含正則表達(dá)式形式的產(chǎn)生式規(guī)則集,其中對(duì)于產(chǎn)生式規(guī)則的后項(xiàng)中的重復(fù)部分用正則表達(dá)式來(lái)表示;規(guī)則應(yīng)用步驟,使用規(guī)則獲取步驟獲得的產(chǎn)生式規(guī)則集對(duì)輸入句子進(jìn)行分析,識(shí)別出輸入句子的成份及成份間的關(guān)系;以及句法樹生成步驟,根據(jù)規(guī)則應(yīng)用步驟輸出的輸入句子的語(yǔ)法成份及成份間的關(guān)系,生成輸入句子的依存句法關(guān)系圖或者短語(yǔ)結(jié)構(gòu)型句法分析樹。根據(jù)本方明提出的句法分析裝置和句法分析方法,可以使用正則表達(dá)式形式的句法分析規(guī)則,增加了句法分析規(guī)則的描述能力,克服了現(xiàn)有方法中存在的規(guī)則表達(dá)不靈活,表達(dá)能力不強(qiáng)的缺點(diǎn)。本發(fā)明提出的句法規(guī)則獲取方法及句法分析算法,可以形成一個(gè)支持正則表達(dá)式規(guī)則的句法分析器,從而實(shí)現(xiàn)高效正確的句法分析。另外,本發(fā)明還提供用于實(shí)現(xiàn)上述字符識(shí)別方法的計(jì)算機(jī)程序。此外,本發(fā)明也提供至少計(jì)算機(jī)可讀介質(zhì)形式的計(jì)算機(jī)程序產(chǎn)品,其上記錄有用于實(shí)現(xiàn)上述字符識(shí)別方法的計(jì)算機(jī)程序代碼。參照下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例的說(shuō)明,會(huì)更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。在附圖中,相同的或?qū)?yīng)的技術(shù)特征或部件將采用相同或?qū)?yīng)的附圖標(biāo)記來(lái)表示。附圖中圖1示出根據(jù)本發(fā)明實(shí)施例的使用正則表達(dá)式規(guī)則的句法分析裝置的結(jié)構(gòu)示意圖;圖2示出根據(jù)本發(fā)明實(shí)施例的圖1所示的規(guī)則獲取模塊的結(jié)構(gòu)方框圖;圖3示出根據(jù)本發(fā)明實(shí)施例的圖1所示的規(guī)則應(yīng)用模塊的結(jié)構(gòu)方框圖;圖4示出根據(jù)本發(fā)明實(shí)施例的圖1所示的句法樹生成模塊的結(jié)構(gòu)方框圖;圖5是用于說(shuō)明上位結(jié)點(diǎn)和下位結(jié)點(diǎn)的示意圖;圖6是用于說(shuō)明規(guī)則獲取模塊獲取句法規(guī)則時(shí)所使用的示例句法樹Sl;圖7是用于說(shuō)明規(guī)則獲取模塊獲取句法規(guī)則時(shí)所使用的另一示例句法樹S2;圖8示出根據(jù)本發(fā)明的一個(gè)實(shí)施例由句法分析模塊對(duì)輸入句子進(jìn)行分析后輸出的最終句法分析結(jié)果;圖9示出根據(jù)本發(fā)明的一個(gè)實(shí)施例由句法樹生成模塊的中間標(biāo)記清理部對(duì)圖8所示的最終句法分析結(jié)果進(jìn)行中間結(jié)點(diǎn)清除后的結(jié)果;圖10示出根據(jù)本發(fā)明一個(gè)實(shí)施例的句法分析方法的流程圖;圖11示出根據(jù)本發(fā)明一個(gè)實(shí)施例在圖10所示的規(guī)則獲取步驟中執(zhí)行的處理方法的詳細(xì)流程圖;圖12示出根據(jù)本發(fā)明一個(gè)實(shí)施例在圖10所示的規(guī)則應(yīng)用步驟中執(zhí)行的處理方法的詳細(xì)流程圖;圖13示出根據(jù)本發(fā)明一個(gè)實(shí)施例圖10所示的句法樹生成步驟中執(zhí)行的處理方法的詳細(xì)流程圖;以及圖14示出用于實(shí)施根據(jù)本發(fā)明的句法分析方法的信息處理設(shè)備的結(jié)構(gòu)方塊圖。具體實(shí)施例方式下面參照附圖來(lái)說(shuō)明本發(fā)明的實(shí)施例。應(yīng)當(dāng)注意,為了清楚的目的,附圖和說(shuō)明中省略了與本發(fā)明無(wú)關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。這里,首先給出在本發(fā)明中應(yīng)用到的單結(jié)點(diǎn)重復(fù)型規(guī)則、多結(jié)點(diǎn)重復(fù)型規(guī)則、混合重復(fù)型規(guī)則和無(wú)重復(fù)型規(guī)則的定義、以及上位結(jié)點(diǎn)和下位結(jié)點(diǎn)的定義,以便更好地對(duì)本發(fā)明的原理進(jìn)行闡述。定義1單結(jié)點(diǎn)重復(fù)型規(guī)則,產(chǎn)生式規(guī)則的后項(xiàng)的某一成份重復(fù)二次以上的規(guī)則定義為單結(jié)點(diǎn)重復(fù)型規(guī)則。定義2多結(jié)點(diǎn)重復(fù)型規(guī)則,產(chǎn)生式規(guī)則的后項(xiàng)的某一片段重復(fù)二次以上的規(guī)則定義為多結(jié)點(diǎn)重復(fù)型規(guī)則。定義3混合重復(fù)型規(guī)則,產(chǎn)生式規(guī)則的后項(xiàng)中既包含單結(jié)點(diǎn)重復(fù)部分也包含多結(jié)點(diǎn)重復(fù)部分的規(guī)則定義為混合重復(fù)型規(guī)則。定義4:無(wú)重復(fù)型規(guī)則,產(chǎn)生式規(guī)則的后項(xiàng)中沒(méi)有重復(fù)部分的規(guī)則定義為無(wú)重復(fù)型規(guī)則。下面給出各種類型的產(chǎn)生式規(guī)則的一些實(shí)例,以進(jìn)一步說(shuō)明上面定義的單結(jié)點(diǎn)重復(fù)型規(guī)則、多結(jié)點(diǎn)重復(fù)型規(guī)則、混合重復(fù)型規(guī)則和無(wú)重復(fù)型規(guī)則。(1)單結(jié)點(diǎn)重復(fù)型規(guī)則例如,RLl=P—AAABC,其中“AAA”部分為單結(jié)點(diǎn)重復(fù)部分,則用本發(fā)明的正則表達(dá)式規(guī)則表示方法表示為P—A*BC。再例如,RL2=P—ABBCCD,其中包含有兩組單結(jié)點(diǎn)重復(fù)部分“BB”和“CC”,則用本發(fā)明的正則表達(dá)式規(guī)則表示方法表示為P—AB*C*D。(2)多結(jié)點(diǎn)重復(fù)型規(guī)則例如,RL3:P—ABABC,其中“AB”部分為多結(jié)點(diǎn)重復(fù)部分,則用本發(fā)明的正則表達(dá)式規(guī)則表示法表示為P—[AB]+C。再例如,RL4:P—ABCBCDEFDEFG,其中“BCBC”和“DEFDEF”為多結(jié)點(diǎn)重復(fù)部分,貝丨J用本發(fā)明的正則表達(dá)式規(guī)則表示法表示為P—A[BC]+[DEF]+G。(3)混合重復(fù)型規(guī)則例如,RL5=P—AAAB⑶BOTE,包含單結(jié)點(diǎn)重復(fù)型和多結(jié)點(diǎn)重復(fù)型,其中“AAA”部分為單結(jié)點(diǎn)重復(fù)部分,“BCDBCD”部分為多結(jié)點(diǎn)重復(fù)部分,則用本發(fā)明的正則表達(dá)式規(guī)則表示法表示為P—A*[BCD]+E。(4)無(wú)重復(fù)型規(guī)則例如,RL6=P—AB⑶EABC,既不包含單結(jié)點(diǎn)重復(fù)型,也不包含多結(jié)點(diǎn)重復(fù)型,因此為無(wú)重復(fù)型規(guī)則。接著定義上位結(jié)點(diǎn)和下位結(jié)點(diǎn)。定義5上位結(jié)點(diǎn),在樹結(jié)構(gòu)中包含子結(jié)點(diǎn)的結(jié)點(diǎn)定義為上位結(jié)點(diǎn)。定義6下位結(jié)點(diǎn),在樹結(jié)構(gòu)中有父結(jié)點(diǎn)的結(jié)點(diǎn)定義為下位結(jié)點(diǎn)。上位結(jié)點(diǎn)和下位結(jié)點(diǎn)相對(duì)于所關(guān)注的樹的不同部分而變化,同一棵樹的同一個(gè)結(jié)點(diǎn),既可以做上位結(jié)點(diǎn),有時(shí)也可以做下位結(jié)點(diǎn)。例如,如圖5所示的句法樹中A2、B3、C1這三個(gè)結(jié)點(diǎn),其中Cl是B3、A2的下位結(jié)點(diǎn),A2是B3、Cl的上位結(jié)點(diǎn),B3是Cl的上位結(jié)點(diǎn)并且是A2的下位結(jié)點(diǎn)。接下來(lái)將參考附圖,特別是圖1至圖4,描述根據(jù)本發(fā)明實(shí)施例的句法分析裝置的一般工作原理。如圖1所示,根據(jù)本發(fā)明實(shí)施例的使用正則表達(dá)式規(guī)則的句法分析裝置包括訓(xùn)練樹庫(kù)101、規(guī)則獲取模塊102、規(guī)則應(yīng)用模塊103、句法樹生成模塊104、以及規(guī)則集105。規(guī)則獲取模塊102通過(guò)例如統(tǒng)計(jì)學(xué)習(xí)的方法從已經(jīng)標(biāo)注好的訓(xùn)練樹庫(kù)101學(xué)習(xí)句法分析規(guī)則,生成在對(duì)輸入句子進(jìn)行分析時(shí)使用的規(guī)則集105。對(duì)于產(chǎn)生式規(guī)則的后項(xiàng)中的重復(fù)部分,規(guī)則獲取模塊102應(yīng)用在上文中所定義的正則表達(dá)式形式來(lái)進(jìn)行相應(yīng)的表述。因此,規(guī)則集105為包含正則表達(dá)式形式的產(chǎn)生式規(guī)則的集合。另外,規(guī)則獲取模塊102所學(xué)習(xí)的句法分析規(guī)則還可以包含上下文信息。規(guī)則應(yīng)用模塊103使用規(guī)則獲取模塊102學(xué)習(xí)獲得的句法分析規(guī)則集105分析輸入句子,識(shí)別出輸入句子的成份及成份間的關(guān)系。句法樹生成模塊104根據(jù)規(guī)則應(yīng)用模塊103輸出的分析結(jié)果,按照用戶的需求生成輸入句子的依存句法關(guān)系圖或者短語(yǔ)結(jié)構(gòu)型句法分析樹。下面對(duì)本發(fā)明的句法分析裝置的三個(gè)主要模塊規(guī)則獲取模塊102、規(guī)則應(yīng)用模塊103和句法樹生成模塊104進(jìn)行具體說(shuō)明。圖2示出根據(jù)本發(fā)明實(shí)施例的圖1所示的規(guī)則獲取模塊102的結(jié)構(gòu)方框圖。如圖2所示,根據(jù)該實(shí)施例的規(guī)則獲取模塊102包括句法分析樹庫(kù)201、樹片段分解部202、分解參數(shù)輸入單元203、樹片段集204、重復(fù)片段檢測(cè)部205、無(wú)重復(fù)型規(guī)則單元206、單結(jié)點(diǎn)重復(fù)型規(guī)則單元207、多結(jié)點(diǎn)重復(fù)型規(guī)則單元208、混合重復(fù)型規(guī)則單元209、重復(fù)規(guī)則合并部211、以及產(chǎn)生式規(guī)則集213。句法分析樹庫(kù)201為用于學(xué)習(xí)的句法分析樹庫(kù),即圖1中所示的訓(xùn)練樹庫(kù)101,其中標(biāo)示了用于訓(xùn)練的句子的語(yǔ)法成份及成份間的嵌套關(guān)系。本發(fā)明分別在兩個(gè)樹庫(kù)英文PennTreebank和中文PermTreebank上進(jìn)行了實(shí)際應(yīng)用,但是應(yīng)該指出的是本發(fā)明所提出的句法分析裝置和句法分析方法與語(yǔ)言無(wú)關(guān),任何語(yǔ)言只要標(biāo)注了句子的語(yǔ)法成份和成份間的嵌套關(guān)系,就可以用本發(fā)明的技術(shù)方案獲取句法分析規(guī)則,并隨后對(duì)輸入句子進(jìn)行句法分析。樹片段分解部202根據(jù)分解參數(shù)輸入單元203輸入的分解參數(shù),將句法分析樹庫(kù)201即訓(xùn)練樹庫(kù)101中的每棵句法樹分解為若干較小的子樹或樹片段。樹片段的表示格式如下。<formula>formulaseeoriginaldocumentpage12</formula>其中,<freq:XX>為頻度信息,表示該樹片段在訓(xùn)練樹庫(kù)中的出現(xiàn)次數(shù)。為屬性特征,主要用來(lái)描述使用該規(guī)則時(shí)的上下文信息、詞匯或語(yǔ)義特點(diǎn)。屬性特征根據(jù)分解參數(shù)輸入單元203所輸入的分解參數(shù)確定,規(guī)則可以包含屬性特征,也可以不包含。P表示該樹片段的上位結(jié)點(diǎn),為一個(gè)短語(yǔ)標(biāo)記。Yi表示P結(jié)點(diǎn)的子結(jié)點(diǎn),為一個(gè)短語(yǔ)標(biāo)記或一個(gè)詞匯標(biāo)記?!癒f1X··<fn>}P—Y1Y2.··Yn"表示在出現(xiàn)了<f!>.··<fn>屬性的情況下,短語(yǔ)P可以由Y1Y2...Yn構(gòu)成。由樹片段的表示格式可知,一個(gè)樹片段即為一個(gè)產(chǎn)生式形式的規(guī)則。句法分析樹庫(kù)201中的每棵句法樹可以分解為若干樹片段,所有分解結(jié)果均存入樹片段集204中,形成產(chǎn)生式形式的規(guī)則集。然后,樹片段集(即,產(chǎn)生式規(guī)則集)輸入重復(fù)片段檢測(cè)部205。重復(fù)片段檢測(cè)部205檢測(cè)所輸入的樹片段中的"Y1Y2...Y/部分是否有重復(fù)的結(jié)點(diǎn)序列。根據(jù)結(jié)點(diǎn)重復(fù)的形式,樹片段集被分為如上定義的單結(jié)點(diǎn)重復(fù)型規(guī)則單元207、多結(jié)點(diǎn)重復(fù)型規(guī)則單元208、混合重復(fù)型規(guī)則單元209和無(wú)重復(fù)型規(guī)則單元206。包含重復(fù)結(jié)點(diǎn)序列的規(guī)則,將用正則表達(dá)式符號(hào)“*”或“+”來(lái)表示。在引入正則表達(dá)式之后,將轉(zhuǎn)化出一些形式相同的規(guī)則。例如,“規(guī)則R1P—ABBBC"和“規(guī)則R2=P—ABBC”用正則表達(dá)式形式表示時(shí)均表達(dá)為P—AB*C。因此,將所有規(guī)則轉(zhuǎn)化為正則表達(dá)式形式后,需要對(duì)重復(fù)的形式相同的規(guī)則進(jìn)行去除?;诖?,重復(fù)規(guī)則合并部211將形式相同的規(guī)則合并為一個(gè)規(guī)則,同時(shí)將規(guī)則的頻度進(jìn)行相應(yīng)合并。由此,可以直接生成用于對(duì)輸入句子進(jìn)行句法分析的產(chǎn)生式規(guī)則集213。另外,為了提高句法分析的效率,根據(jù)本發(fā)明一個(gè)實(shí)施例的規(guī)則獲取模塊102還可以包括選擇策略單元210和規(guī)則選擇部212。規(guī)則選擇部212根據(jù)選擇策略單元212提供的選擇策略,對(duì)重復(fù)規(guī)則合并部211所生成的產(chǎn)生式規(guī)則進(jìn)行選擇,從而生成縮減的高效產(chǎn)生式規(guī)則集213,以便提高句法分析的效率。以下通過(guò)具體實(shí)例說(shuō)明規(guī)則獲取模塊102的操作過(guò)程。圖6和圖7是用于說(shuō)明規(guī)則獲取模塊102在獲取句法規(guī)則時(shí)所使用的兩個(gè)示例句法樹Sl和S2。規(guī)則獲取模塊102從句法樹Sl和S2中獲取句法分析規(guī)則的過(guò)程如下。首先,樹片段分解部202根據(jù)分解參數(shù)輸入單元203提供的分解參數(shù)對(duì)句法樹Sl和S2進(jìn)行分解。在本實(shí)例中假設(shè)分解參數(shù)為將樹分解為上下文無(wú)關(guān)的短語(yǔ),則將圖6和圖7所示的句法樹Sl和S2分解后所形成的樹片段集如下表1所示。表1樹片段集<table>tableseeoriginaldocumentpage13</column></row><table>然后,將表1所示的分解片段集進(jìn)入重復(fù)片段檢測(cè)部205,在此檢測(cè)是否有重復(fù)結(jié)點(diǎn)。在該示例中片段集β2、β4、&、&、RM-^中包含有重復(fù)結(jié)點(diǎn)。重復(fù)部分采用正則表達(dá)式形式表示后,根據(jù)重復(fù)的類型分別送入單元206至單元209。上面表1所示的片段集用正則表達(dá)式表示后的結(jié)果如下表2所示。表2正則表達(dá)式表示的規(guī)則集<table>tableseeoriginaldocumentpage13</column></row><table>用正則表達(dá)式表示后的片段將作為句法分析規(guī)則候選輸入到重復(fù)規(guī)則合并部211,在此進(jìn)行重復(fù)規(guī)則的合并。上面表2所示的規(guī)則經(jīng)過(guò)重復(fù)規(guī)則合并部211合并后形成的規(guī)則集共包含9條規(guī)則,其中對(duì)規(guī)則“X—a*”進(jìn)行了重復(fù)合并。重復(fù)規(guī)則合并部211的輸出結(jié)果如下表3所示。表3重復(fù)規(guī)則合并后的規(guī)則集<table>tableseeoriginaldocumentpage14</column></row><table>之后,重復(fù)規(guī)則合并部211的輸出結(jié)果進(jìn)入規(guī)則選擇部212,按照選擇策略進(jìn)行選擇,最終形成規(guī)則應(yīng)用模塊103進(jìn)行句法分析所需要的句法分析規(guī)則集,并作為產(chǎn)生式規(guī)則集213輸入規(guī)則應(yīng)用模塊103。圖3示出根據(jù)本發(fā)明實(shí)施例的圖1所示的規(guī)則應(yīng)用模塊103的結(jié)構(gòu)方框圖。規(guī)則應(yīng)用模塊103應(yīng)用圖2所示的規(guī)則獲取模塊102形成的句法分析規(guī)則集,即產(chǎn)生式規(guī)則集對(duì)輸入句子進(jìn)行句法分析,輸出輸入句子的語(yǔ)法成份及成份間的關(guān)系。如圖3所示,根據(jù)該實(shí)施例的規(guī)則應(yīng)用模塊103包括產(chǎn)生式規(guī)則集302、規(guī)則編譯部303、規(guī)則查詢表304、規(guī)則查詢部305、句法分析部306、歧義消解部308等。產(chǎn)生式規(guī)則集302為規(guī)則獲取模塊102形成的產(chǎn)生式規(guī)則集213,首先進(jìn)入規(guī)則編譯部303。規(guī)則編譯部303將產(chǎn)生式規(guī)則集302編譯形成能被規(guī)則查詢部305使用的規(guī)則查詢表304。輸入句子301輸入句法分析部306后,由句法分析部306通過(guò)規(guī)則查詢部305在規(guī)則查詢表304中查詢可以應(yīng)用于該輸入句子301的句法分析規(guī)則,根據(jù)句法分析規(guī)則識(shí)別輸入句子301的語(yǔ)法成份,并輸出分析結(jié)果。句法分析的過(guò)程采用CYK算法從輸入句子301的詞結(jié)點(diǎn)開始,規(guī)則查詢的過(guò)程從1個(gè)結(jié)點(diǎn)擴(kuò)展到2個(gè)結(jié)點(diǎn),至止覆蓋整個(gè)句子。句法分析規(guī)則可能給出多個(gè)局部分析候選307,歧義消解部308從中選擇最優(yōu)的局部分析結(jié)果309。歧義消解部308選擇的局部分析結(jié)果309進(jìn)入句法分析部306進(jìn)行進(jìn)一步的句法分析,直至句法分析部306輸出滿意的最終分析結(jié)果310。對(duì)于在規(guī)則獲取模塊102中生成的含有正則表達(dá)式形式的產(chǎn)生式句法分析規(guī)則,根據(jù)本發(fā)明的實(shí)施例,通過(guò)對(duì)產(chǎn)生式句法分析規(guī)則中含有正則表達(dá)式的部分增加中間生成結(jié)果,由規(guī)則編譯部303、規(guī)則查詢部305、句法分析部306解決了在句法分析過(guò)程中使用包含正則表達(dá)式的句法分析規(guī)則的問(wèn)題。其具體的操作過(guò)程如下。規(guī)則編譯部303為產(chǎn)生式規(guī)則集中包含正則表達(dá)式的部分增加中間生成標(biāo)記和中間生成規(guī)則,并用中間生成標(biāo)記去替換規(guī)則中該正則表達(dá)式表示的部分。具體來(lái)說(shuō),對(duì)于χ*型片段,增加中間生成標(biāo)記<x>及中間生成規(guī)則<x>—XX和<χ>—<χ>χ。對(duì)于[χ..y]+型片段,增加中間生成標(biāo)記[X..y]及中間生成規(guī)則[x..y]—χ..yx...y禾口[χ··y]—[χ··y]χ…y。例如,規(guī)則"R2:X—a*”中的“a*”含有正則表達(dá)式,則為“a*”增加中間生成標(biāo)記“<a>”及兩條中間生成規(guī)則“<a>—aa”和“<a>—<a>a”。用中間生成標(biāo)記替換規(guī)則中的正則表達(dá)式部分,將規(guī)則R2轉(zhuǎn)化為X—<a>。表3所示的重復(fù)規(guī)則合并部211的輸出結(jié)果,在增加中間生成標(biāo)記和中間生成規(guī)則后的結(jié)果如下表4所示,所使用的中間標(biāo)記和中間生成規(guī)則如表5所示,其中引入6條中間生成規(guī)則,分別用R13R17表示。表4重復(fù)規(guī)則合并部211的輸出結(jié)果增加中間標(biāo)記后的結(jié)果<table>tableseeoriginaldocumentpage15</column></row><table>表5轉(zhuǎn)化重復(fù)規(guī)則合并部211的輸出結(jié)果時(shí)用到的中間標(biāo)記和中間生成規(guī)則<table>tableseeoriginaldocumentpage15</column></row><table>在規(guī)則編譯過(guò)程中,中間標(biāo)記并入規(guī)則集的短語(yǔ)標(biāo)記集,中間生成規(guī)則并入句法分析規(guī)則集,規(guī)則編譯部303統(tǒng)一組織所有規(guī)則和標(biāo)記,生成便于查詢的規(guī)則查詢表304。句法分析部306在分析過(guò)程中,按照與識(shí)別短語(yǔ)相同的方式識(shí)別中間標(biāo)記,采用CYK算法通過(guò)規(guī)則查詢部305查詢所有適合當(dāng)前輸入句子301的句法分析規(guī)則(包含中間生成規(guī)則),生成句法分析結(jié)果。下面通過(guò)使用表4和表5中的規(guī)則分析輸入句子“aaababababcaa”,舉例說(shuō)明規(guī)則應(yīng)用模塊103的操作過(guò)程。表6分析句子使用規(guī)則示例<table>tableseeoriginaldocumentpage16</column></row><table>這里應(yīng)該指出的是,上述示例僅是作為舉例給出了一種使用句法分析規(guī)則的方式,并非最優(yōu)或唯一。該示例的目的在于說(shuō)明如何通過(guò)引入中間符號(hào)和中間分析規(guī)則,在句法分析的過(guò)程中使用含有正則表達(dá)式的句法分析規(guī)則。在規(guī)則使用的過(guò)程中,同一狀態(tài)可能會(huì)出現(xiàn)若干可用的分析規(guī)則,即出現(xiàn)分析歧義。規(guī)則查詢部305查詢得到的多種生成規(guī)則候選307將輸入到歧義消解部308,由歧義消解部308選擇最優(yōu)規(guī)則進(jìn)行應(yīng)用,從而生成局部分析結(jié)果309。根據(jù)本發(fā)明的一個(gè)實(shí)施例,歧義消解部308通過(guò)計(jì)算句法分析樹的概率P(S,t)選擇使用的最優(yōu)規(guī)則,進(jìn)而輸出最優(yōu)句法分析結(jié)果309。其基本的計(jì)算公式如下<formula>formulaseeoriginaldocumentpage16</formula>其中S為輸入句子,t為句法分析樹,r為句法分析過(guò)程中使用的一條句法分析規(guī)貝U,D(T)為生成句法分析樹t使用的全部句法分析規(guī)則,而p(r)為針對(duì)句法分析規(guī)則r的規(guī)則概率。在計(jì)算規(guī)則概率時(shí),中間符號(hào)與句法分析中存在的短語(yǔ)符號(hào)等同,中間分析規(guī)則與非中間分析規(guī)則等同。已有的各種計(jì)算句法分析規(guī)則的方法均可以用來(lái)計(jì)算在根據(jù)本發(fā)明的處理中獲取的句法分析規(guī)則。其規(guī)則的概率估計(jì)方法簡(jiǎn)單總結(jié)如下1.非正則表達(dá)式規(guī)則規(guī)則概率估計(jì)與已有方法相同。2.中間生成規(guī)則將中間符號(hào)做為短語(yǔ)對(duì)待,采用已有方法估計(jì)規(guī)則概率。3.含有正則表達(dá)式的規(guī)則=FfAM,其中ri為轉(zhuǎn)化該含有正則表達(dá)式的<formula>formulaseeoriginaldocumentpage16</formula>規(guī)則時(shí)用到的一條中間規(guī)則,而P(A)為針對(duì)該中間句法分析規(guī)則Α的規(guī)則概率。在根據(jù)本發(fā)明該實(shí)施例的規(guī)則應(yīng)用模塊103中,通過(guò)引入中間符號(hào)和中間生成規(guī)貝1J,解決了如何使用正則表達(dá)式規(guī)則的問(wèn)題。通過(guò)將中間符號(hào)和中間生成規(guī)則與短語(yǔ)符號(hào)和一般的規(guī)則同等對(duì)待,解決了計(jì)算正則表達(dá)式規(guī)則的概率估計(jì)問(wèn)題。通過(guò)使用表6的規(guī)則,對(duì)輸入句子“aaababababcaa”進(jìn)行句法分析后得到的最終輸出的句法分析結(jié)果如圖8所示。規(guī)則應(yīng)用模塊103輸出的句法分析結(jié)果,例如如圖8所示的句法分析結(jié)果將輸入句法樹生成模塊104,在此根據(jù)用戶的需求生成依存句法關(guān)系圖或短語(yǔ)結(jié)構(gòu)型句法分析樹。圖4示出根據(jù)本發(fā)明實(shí)施例的圖1所示的句法樹生成模塊104的結(jié)構(gòu)方框圖。如圖4所示,根據(jù)本發(fā)明該實(shí)施例的句法樹生成模塊104包括中間標(biāo)記清理部402、核心結(jié)點(diǎn)標(biāo)注部403、依存結(jié)構(gòu)生成部404和短語(yǔ)結(jié)構(gòu)生成部405。圖4所示的最終分析結(jié)果401既是規(guī)則應(yīng)用模塊103輸出的句法分析結(jié)果310。最終分析結(jié)果401首先輸入中間標(biāo)記清理部402,清除在句法分析過(guò)程中使用的中間標(biāo)記。在清除中間標(biāo)記之后,如果需要生成短語(yǔ)結(jié)構(gòu)型句法分析樹,則由短語(yǔ)結(jié)構(gòu)生成部405生成短語(yǔ)結(jié)構(gòu)樹。如果需要生成依存句法關(guān)系圖,則將清除中間標(biāo)記之后的分析結(jié)果輸入核心結(jié)點(diǎn)標(biāo)注部403進(jìn)行核心結(jié)點(diǎn)標(biāo)注,之后由依存結(jié)構(gòu)生成部404生成依存關(guān)系。根據(jù)本發(fā)明的一個(gè)實(shí)施例,中間標(biāo)記清理部402清理中間結(jié)點(diǎn)的步驟用遞歸函數(shù)描述如下所述。FunctionCleanTags(Iii)BeginForeachSi,whereSie{sonsofnjCleanTagS(Si)//如果Si為中間符號(hào)IfSiisasemi-finishedlabel//si的所有兒子上升作為ni的兒子moveupallthesonsofSiasthesonsofIiiEndifEndforEnd圖8所示的句法分析模塊103的最終分析結(jié)果310通過(guò)中間標(biāo)記清理部402進(jìn)行中間結(jié)點(diǎn)清除后的結(jié)果如圖9所示。以上描述了根據(jù)本發(fā)明實(shí)施例的句法分析裝置的結(jié)構(gòu)及其工作原理。下面將結(jié)合附圖1013描述根據(jù)本發(fā)明實(shí)施例的上述句法分析裝置所應(yīng)用的句法分析方法。圖10示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的句法分析方法的流程圖。如圖10所示,根據(jù)該實(shí)施例的句法分析方法包括規(guī)則獲取步驟S1001、規(guī)則應(yīng)用步驟S1003和句法樹生成步驟S1005。首先,在規(guī)則獲取步驟S1001中,從已經(jīng)標(biāo)注好的訓(xùn)練樹庫(kù),例如圖1所示的訓(xùn)練樹庫(kù)101,學(xué)習(xí)句法分析規(guī)則以生成包含正則表達(dá)式形式的產(chǎn)生式規(guī)則集,其中對(duì)于產(chǎn)生式規(guī)則的后項(xiàng)中的重復(fù)部分用正則表達(dá)式來(lái)表示。然后,在規(guī)則應(yīng)用步驟S1003中,使用規(guī)則獲取步驟S1001獲得的產(chǎn)生式規(guī)則集對(duì)輸入句子進(jìn)行分析,識(shí)別出輸入句子的成份及成份間的關(guān)系。最后,在句法樹生成步驟S1005中,根據(jù)規(guī)則應(yīng)用步驟S1003所輸出的輸入句子的成份及成份間的關(guān)系,生成輸入句子的依存句法關(guān)系圖或者短語(yǔ)結(jié)構(gòu)型句法分析樹。圖11示出根據(jù)本發(fā)明一個(gè)實(shí)施例在圖10所示的規(guī)則獲取步驟S1001中執(zhí)行的處理方法的詳細(xì)流程圖。如圖10所示,根據(jù)該實(shí)施例的規(guī)則獲取方法包括樹片段分解步驟S1101、重復(fù)片段檢測(cè)步驟S1103、重復(fù)規(guī)則合并步驟S1105和規(guī)則選擇步驟S1107。首先,在樹片段分解步驟SllOl中,將訓(xùn)練樹庫(kù)例如圖1所示的訓(xùn)練樹庫(kù)101中的每棵句法樹分解為作為產(chǎn)生式規(guī)則的樹片段,以形成樹片段集,例如圖2中所示的樹片段集204。接著,在重復(fù)片段檢測(cè)步驟S1103中,檢測(cè)樹片段分解步驟SllOl得到的樹片段集中的產(chǎn)生式規(guī)則的后項(xiàng)中是否有重復(fù)的結(jié)點(diǎn)序列,并將具有重復(fù)的結(jié)點(diǎn)序列的產(chǎn)生式規(guī)則表示為正則表達(dá)式形式的產(chǎn)生式規(guī)則。然后,在重復(fù)規(guī)則合并步驟S1105中,將重復(fù)片段檢測(cè)步驟S1103生成的形式相同的產(chǎn)生式規(guī)則合并為一個(gè)產(chǎn)生式規(guī)則,以形成產(chǎn)生式規(guī)則集。優(yōu)選地,為了提高句法分析的效率,根據(jù)本發(fā)明一個(gè)實(shí)施例的規(guī)則獲取方法還包括規(guī)則選擇步驟S1107,根據(jù)事先設(shè)定的選擇策略對(duì)重復(fù)規(guī)則合并步驟S1105所生成的產(chǎn)生式規(guī)則進(jìn)行選擇,以生成縮減的產(chǎn)生式規(guī)則集,比如圖2所示的產(chǎn)生式規(guī)則集213。樹片段分解步驟分解得到的樹片段可以表示為<freq:xx>{<f1>.··<fn>}P—Y1Y2...Yn,n為大于等于1的正整數(shù)。其中<freq:xx>為頻度信息,表示該樹片段在訓(xùn)練樹庫(kù)中的出現(xiàn)次數(shù);<fi>為屬性特征,用于描述使用該產(chǎn)生式規(guī)則時(shí)的上下文信息、詞匯或語(yǔ)義特點(diǎn),i為從1至η的任一整數(shù);P表示該樹片段的上位結(jié)點(diǎn),為一個(gè)短語(yǔ)標(biāo)記Ji表示P結(jié)點(diǎn)的子結(jié)點(diǎn),為一個(gè)短語(yǔ)標(biāo)記或一個(gè)詞匯標(biāo)記;“Kf1X..<fn>}P—Y1Y2...Yn”表示在出現(xiàn)了<f\>...<fn>屬性的情況下,短語(yǔ)P可以由Y1Y2...Yn構(gòu)成。值得指出的是,重復(fù)規(guī)則合并步驟S1105在將重復(fù)片段檢測(cè)步驟S1103生成的形式相同的產(chǎn)生式規(guī)則合并為一個(gè)產(chǎn)生式規(guī)則時(shí),還將產(chǎn)生式規(guī)則的頻度進(jìn)行相應(yīng)合并。圖12示出根據(jù)本發(fā)明一個(gè)實(shí)施例在圖10所示的規(guī)則應(yīng)用步驟S1003中執(zhí)行的處理方法的詳細(xì)流程圖。如圖12所示,首先在規(guī)則編譯步驟S1201,將規(guī)則獲取步驟S1001生成的產(chǎn)生式規(guī)則集編譯成句法分析規(guī)則的規(guī)則查詢表,例如如圖3中所示的規(guī)則查詢表304。然后,在句法分析步驟S1203中,通過(guò)規(guī)則查詢步驟S1205在規(guī)則查詢表304中查詢能夠應(yīng)用于輸入句子的句法分析規(guī)則,根據(jù)句法分析規(guī)則識(shí)別輸入句子的語(yǔ)法成份及成份間的關(guān)系。這里,規(guī)則查詢步驟S1205用于查詢規(guī)則編譯步驟S1201所編譯的規(guī)則查詢表304。接下來(lái),在歧義消解步驟S1207中從句法分析步驟S1203和規(guī)則查詢步驟S1205生成的局部分析候選中選擇最優(yōu)的局部分析結(jié)果。然后,在步驟S1209判斷所得到的分析結(jié)果是否滿足要求。如果不滿足要求,則返回句法分析步驟S1203,對(duì)歧義消解步驟S1207選擇的局部分析結(jié)果進(jìn)行進(jìn)一步的句法分析。如果在步驟S1209中判斷經(jīng)過(guò)歧義消解后得到的分析結(jié)果滿足要求,則處理流程前進(jìn)到步驟S1211,輸出最終的句法分析結(jié)果。根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例,在規(guī)則編譯步驟S1201中,為產(chǎn)生式規(guī)則集中包含正則表達(dá)式的部分增加中間生成標(biāo)記和中間生成規(guī)則,并用中間生成標(biāo)記替換產(chǎn)生式規(guī)則中正則表達(dá)式表示的部分,中間生成標(biāo)記并入句法分析規(guī)則集的短語(yǔ)標(biāo)記集,中間生成規(guī)則并入句法分析規(guī)則集。在句法分析步驟S1203中,按照與識(shí)別短語(yǔ)標(biāo)記相同的方式識(shí)別中間生成標(biāo)記,通過(guò)規(guī)則查詢步驟S1205查詢所有適合當(dāng)前輸入句子的包括中間生成規(guī)則的句法分析規(guī)則以識(shí)別輸入句子的語(yǔ)法成份及成份間的關(guān)系。在歧義消解步驟S1207中,按照下面的公式通過(guò)計(jì)算句法分析樹的概率P(S,t)來(lái)確定使用的最優(yōu)產(chǎn)生式規(guī)則,以選擇最優(yōu)的局部分析結(jié)果=<formula>formulaseeoriginaldocumentpage19</formula>其中S為輸入句子,t為句法分析樹,r為句法分析過(guò)程中使用的一條句法分析規(guī)貝U,D(T)為生成句法分析樹t使用的全部句法分析規(guī)則,而p(r)為針對(duì)句法分析規(guī)則r的規(guī)則概率。中間生成標(biāo)記的規(guī)則概率的計(jì)算與句法分析中存在的短語(yǔ)符號(hào)的規(guī)則概率的計(jì)算相同,中間生成規(guī)則的規(guī)則概率的計(jì)算與非中間生成規(guī)則的規(guī)則概率的計(jì)算相同。對(duì)于含有正則表達(dá)式的產(chǎn)生式規(guī)則用公式M")=計(jì)算規(guī)則概率,其中rii=l"η為轉(zhuǎn)化該含有正則表達(dá)式的規(guī)則時(shí)用到的一條中間生成規(guī)則,而P(A)為針對(duì)該中間生成規(guī)則A的規(guī)則概率,η為大于等于1的正整數(shù),i為從1至η的任一整數(shù)。圖13示出根據(jù)本發(fā)明一個(gè)實(shí)施例圖10所示的句法樹生成步驟S1005中執(zhí)行的處理方法的詳細(xì)流程圖。如圖13所示,首先在中間標(biāo)記清理步驟S1301中,清除在句法分析過(guò)程中使用的中間生成標(biāo)記。然后,在步驟S1303中判斷是要生成依存句法關(guān)系圖還是要生成短語(yǔ)結(jié)構(gòu)型句法分析樹。如果在步驟S1303中判斷需要生成短語(yǔ)結(jié)構(gòu)型句法分析樹,則處理流程前進(jìn)到短語(yǔ)結(jié)構(gòu)生成步驟S1305,在此根據(jù)中間標(biāo)記清理步驟S1301輸出的清除中間生成標(biāo)記之后的輸入句子的成份及成份間的關(guān)系,生成短語(yǔ)結(jié)構(gòu)型句法分析樹,并將生成的輸入句子的短語(yǔ)結(jié)構(gòu)型句法分析樹輸出。如果在步驟S1303中判斷需要生成輸入句子的依存句法關(guān)系圖,則處理流程前進(jìn)到核心結(jié)點(diǎn)標(biāo)注步驟S1307,根據(jù)中間標(biāo)記清理步驟S1301輸出的清除中間生成標(biāo)記之后的輸入句子的成份及成份間的關(guān)系進(jìn)行核心結(jié)點(diǎn)標(biāo)注。然后在依存結(jié)構(gòu)生成步驟S1309中,根據(jù)核心結(jié)點(diǎn)標(biāo)注步驟S1307標(biāo)注的核心結(jié)點(diǎn)生成輸入句子的依存句法關(guān)系圖,并將生成的輸入句子的依存句法關(guān)系圖。以上結(jié)合附圖詳細(xì)描述了本發(fā)明的句法分析裝置和句法分析方法的具體實(shí)施例。從以上描述中可以看出,根據(jù)本發(fā)明的句法分析裝置和句法分析方法,通過(guò)使用正則表達(dá)式形式的句法分析規(guī)則,增加了句法分析規(guī)則的描述能力,克服了現(xiàn)有方法中存在的規(guī)則表達(dá)不靈活,表達(dá)能力不強(qiáng)的缺點(diǎn)。本發(fā)明提出的句法規(guī)則獲取方法及句法分析算法,可以形成一個(gè)支持正則表達(dá)式規(guī)則的句法分析器,實(shí)現(xiàn)高效、正確的句法分析。此外,根據(jù)本發(fā)明的句法分析裝置和句法分析方法,在產(chǎn)生式句法分析規(guī)則中引入正則表達(dá)式時(shí),給出了一種描述文法結(jié)構(gòu)中重復(fù)部分的方法,重復(fù)片段的重復(fù)次數(shù)可以不受限制,同一個(gè)句法分析規(guī)則,可以分析不同長(zhǎng)度一類短語(yǔ)。通過(guò)本發(fā)明提出的句法分析裝置和句法分析方法,可以更靈活地描述文法,既可以描述文法中各成份的位置關(guān)系,又可以描述語(yǔ)法結(jié)構(gòu)中局部成份可以重復(fù)的特性,因此用本發(fā)明獲得的規(guī)則具有更強(qiáng)的通用性,更魯棒。另外,由于在學(xué)習(xí)的訓(xùn)練樹庫(kù)中,包含較多成分的短語(yǔ)(即結(jié)點(diǎn)較多的長(zhǎng)短語(yǔ),本文稱為長(zhǎng)短語(yǔ))出現(xiàn)的頻度較低,這部分短語(yǔ)用已有的句法分析規(guī)則描述時(shí)通常將被忽略,這樣在句法分析時(shí)如果出現(xiàn)長(zhǎng)短語(yǔ)將不能分析,會(huì)出現(xiàn)規(guī)則稀疏的問(wèn)題。而長(zhǎng)短語(yǔ)通常都包含有可重復(fù)的部分,使用本發(fā)明的句法分析裝置和句法分析方法,通過(guò)將長(zhǎng)短語(yǔ)中重復(fù)的部分進(jìn)行合并,不管短語(yǔ)中重復(fù)的部分重復(fù)多少次,都可以用同一個(gè)句法分析規(guī)則表示出來(lái),可以一定程度地解決規(guī)則的稀疏問(wèn)題。此外,根據(jù)本發(fā)明的句法分析裝置和句法分析方法,在進(jìn)行句法分析時(shí),通過(guò)對(duì)規(guī)則中含有正則表達(dá)式的部分增加中間生成結(jié)果,從而解決了在句法分析過(guò)程中使用包含正則表達(dá)式的句法分析規(guī)則的問(wèn)題。上文中以從漢語(yǔ)抽象出的句法樹作為具體實(shí)例闡述了本發(fā)明的基本工作原理,但是,使用本發(fā)明描述的句法分析裝置及其句法分析方法可同樣對(duì)其他各種語(yǔ)言中的語(yǔ)法或語(yǔ)義成份進(jìn)行識(shí)別。另外,本發(fā)明方法也可用于對(duì)基因組序列的分析或類似的從輸入符號(hào)序列中識(shí)別某類成份的任務(wù)。因此可以理解,凡應(yīng)用于其它語(yǔ)言或符號(hào)系統(tǒng),不超出本發(fā)明的構(gòu)思要領(lǐng)的變化都應(yīng)歸于本發(fā)明的保護(hù)范圍之中。以上結(jié)合具體實(shí)施例描述了本發(fā)明的基本原理,但是,需要指出的是,對(duì)本領(lǐng)域的普通技術(shù)人員而言,能夠理解本發(fā)明的方法和裝置的全部或者任何步驟或者部件,可以在任何計(jì)算裝置(包括處理器、存儲(chǔ)介質(zhì)等)或者計(jì)算裝置的網(wǎng)絡(luò)中,以硬件、固件、軟件或者它們的組合加以實(shí)現(xiàn),這是本領(lǐng)域普通技術(shù)人員在閱讀了本發(fā)明的說(shuō)明的情況下運(yùn)用他們的基本編程技能就能實(shí)現(xiàn)的。因此,本發(fā)明的目的還可以通過(guò)在任何計(jì)算裝置上運(yùn)行一個(gè)程序或者一組程序來(lái)實(shí)現(xiàn)。所述計(jì)算裝置可以是公知的通用裝置。因此,本發(fā)明的目的也可以僅僅通過(guò)提供包含實(shí)現(xiàn)所述方法或者裝置的程序代碼的程序產(chǎn)品來(lái)實(shí)現(xiàn)。也就是說(shuō),這樣的程序產(chǎn)品也構(gòu)成本發(fā)明,并且存儲(chǔ)有這樣的程序產(chǎn)品的存儲(chǔ)介質(zhì)也構(gòu)成本發(fā)明。顯然,所述存儲(chǔ)介質(zhì)可以是任何公知的存儲(chǔ)介質(zhì)或者將來(lái)所開發(fā)出來(lái)的任何存儲(chǔ)介質(zhì)。在通過(guò)軟件和/或固件實(shí)現(xiàn)本發(fā)明的實(shí)施例的情況下,從存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計(jì)算機(jī),例如圖14所示的通用個(gè)人計(jì)算機(jī)700安裝構(gòu)成該軟件的程序,該計(jì)算機(jī)在安裝有各種程序時(shí),能夠執(zhí)行各種功能等等。在圖14中,中央處理單元(CPU)701根據(jù)只讀存儲(chǔ)器(ROM)702中存儲(chǔ)的程序或從存儲(chǔ)部分708加載到隨機(jī)存取存儲(chǔ)器(RAM)703的程序執(zhí)行各種處理。在RAM703中,也根據(jù)需要存儲(chǔ)當(dāng)CPU701執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。CPU70UROM702和RAM703經(jīng)由總線704彼此連接。輸入/輸出接口705也連接到總線704。下述部件連接到輸入/輸出接口705輸入部分706,包括鍵盤、鼠標(biāo)等等;輸出部分707,包括顯示器,比如陰極射線管(CRT)、液晶顯示器(IXD)等等,和揚(yáng)聲器等等;存儲(chǔ)部分708,包括硬盤等等;和通信部分709,包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等等。通信部分709經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動(dòng)器710也連接到輸入/輸出接口705。可拆卸介質(zhì)711比如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等根據(jù)需要被安裝在驅(qū)動(dòng)器710上,使得從中讀出的計(jì)算機(jī)程序根據(jù)需要被安裝到存儲(chǔ)部分708中。在通過(guò)軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲(chǔ)介質(zhì)比如可拆卸介質(zhì)711安裝構(gòu)成軟件的程序。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲(chǔ)介質(zhì)不局限于圖14所示的其中存儲(chǔ)有程序、與裝置相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)711。可拆卸介質(zhì)711的例子包含磁盤(包含軟盤(注冊(cè)商標(biāo)))、光盤(包含光盤只讀存儲(chǔ)器(⑶-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊(cè)商標(biāo)))和半導(dǎo)體存儲(chǔ)器?;蛘?,存儲(chǔ)介質(zhì)可以是ROM702、存儲(chǔ)部分708中包含的硬盤等等,其中存有程序,并且與包含它們的裝置一起被分發(fā)給用戶。還需要指出的是,在本發(fā)明的裝置和方法中,顯然,各部件或各步驟是可以分解和/或重新組合的。這些分解和/或重新組合應(yīng)視為本發(fā)明的等效方案。并且,執(zhí)行上述系列處理的步驟可以自然地按照說(shuō)明的順序按時(shí)間順序執(zhí)行,但是并不需要一定按照時(shí)間順序執(zhí)行。某些步驟可以并行或彼此獨(dú)立地執(zhí)行。雖然已經(jīng)詳細(xì)說(shuō)明了本發(fā)明及其優(yōu)點(diǎn),但是應(yīng)當(dāng)理解在不脫離由所附的權(quán)利要求所限定的本發(fā)明的精神和范圍的情況下可以進(jìn)行各種改變、替代和變換。而且,本申請(qǐng)的術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者裝置不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者裝置所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)......”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者裝置中還存在另外的相同要素。權(quán)利要求一種句法分析裝置,包括規(guī)則獲取模塊,配置為從已經(jīng)標(biāo)注好的訓(xùn)練樹庫(kù)學(xué)習(xí)句法分析規(guī)則以生成包含正則表達(dá)式形式的產(chǎn)生式規(guī)則集,其中對(duì)于產(chǎn)生式規(guī)則的后項(xiàng)中的重復(fù)部分用正則表達(dá)式來(lái)表示;規(guī)則應(yīng)用模塊,配置為使用規(guī)則獲取模塊獲得的產(chǎn)生式規(guī)則集對(duì)輸入句子進(jìn)行分析,識(shí)別出輸入句子的語(yǔ)法成份及成份間的關(guān)系;以及句法樹生成模塊,配置為根據(jù)規(guī)則應(yīng)用模塊輸出的輸入句子的語(yǔ)法成份及成份間的關(guān)系,生成輸入句子的依存句法關(guān)系圖或者短語(yǔ)結(jié)構(gòu)型句法分析樹。2.根據(jù)權(quán)利要求1所述的句法分析裝置,其中規(guī)則獲取模塊包括樹片段分解部,配置為將訓(xùn)練樹庫(kù)中的每棵句法樹分解為作為產(chǎn)生式規(guī)則的樹片段,以形成樹片段集;重復(fù)片段檢測(cè)部,配置為檢測(cè)樹片段分解部分解得到的樹片段集中的產(chǎn)生式規(guī)則的后項(xiàng)中是否有重復(fù)的結(jié)點(diǎn)序列,并將具有重復(fù)的結(jié)點(diǎn)序列的產(chǎn)生式規(guī)則表示為正則表達(dá)式形式的產(chǎn)生式規(guī)則;以及重復(fù)規(guī)則合并部,配置為將重復(fù)片段檢測(cè)部生成的形式相同的產(chǎn)生式規(guī)則合并為一個(gè)產(chǎn)生式規(guī)則,以形成產(chǎn)生式規(guī)則集。3.根據(jù)權(quán)利要求2所述的句法分析裝置,其中規(guī)則獲取模塊還包括規(guī)則選擇部,配置為根據(jù)選擇策略對(duì)重復(fù)規(guī)則合并部所生成的產(chǎn)生式規(guī)則進(jìn)行選擇,以生成縮減的產(chǎn)生式規(guī)則集。4.根據(jù)權(quán)利要求3所述的句法分析裝置,其中樹片段分解部分解得到的樹片段表示為<freq:xx>{<f1>...<fn>}P-Y1Y2...Υη,η為大于等于1的正整數(shù),其中<freq:xx>為頻度信息,表示該樹片段在訓(xùn)練樹庫(kù)中的出現(xiàn)次數(shù);<fi>為屬性特征,用于描述使用該產(chǎn)生式規(guī)則時(shí)的上下文信息、詞匯或語(yǔ)義特點(diǎn),i為從1至η的任一整數(shù);P表示該樹片段的上位結(jié)點(diǎn),為一個(gè)短語(yǔ)標(biāo)記;Yi表示P結(jié)點(diǎn)的子結(jié)點(diǎn),為一個(gè)短語(yǔ)標(biāo)記或一個(gè)詞匯標(biāo)記;“{f1X··<fn>}P—Y1Y2.··Yn”表示在出現(xiàn)了<f1>.··<fn>屬性的情況下,短語(yǔ)P可以由Y1Y2.··Yn構(gòu)成;以及其中,重復(fù)規(guī)則合并部在將重復(fù)片段檢測(cè)部生成的形式相同的產(chǎn)生式規(guī)則合并為一個(gè)產(chǎn)生式規(guī)則時(shí),將產(chǎn)生式規(guī)則的頻度進(jìn)行相應(yīng)合并;在產(chǎn)生式規(guī)則中屬性特征<fi>為可選。5.根據(jù)權(quán)利要求4所述的句法分析裝置,其中產(chǎn)生式規(guī)則包括單結(jié)點(diǎn)重復(fù)型規(guī)則,為產(chǎn)生式規(guī)則的后項(xiàng)中的某一成份重復(fù)二次以上的產(chǎn)生式規(guī)則;多結(jié)點(diǎn)重復(fù)型規(guī)則,為產(chǎn)生式規(guī)則的后項(xiàng)中的某一片段重復(fù)二次以上的產(chǎn)生式規(guī)則;混合重復(fù)型規(guī)則,為產(chǎn)生式規(guī)則的后項(xiàng)中既包含單結(jié)點(diǎn)重復(fù)部分也包含多結(jié)點(diǎn)重復(fù)部分的產(chǎn)生式規(guī)則;以及無(wú)重復(fù)型規(guī)則,為產(chǎn)生式規(guī)則的后項(xiàng)中沒(méi)有重復(fù)部分的產(chǎn)生式規(guī)則。6.根據(jù)權(quán)利要求1至5之任意一項(xiàng)所述的句法分析裝置,其中規(guī)則應(yīng)用模塊包括規(guī)則編譯部,配置為將規(guī)則獲取模塊生成的產(chǎn)生式規(guī)則集編譯成句法分析規(guī)則的規(guī)則查詢表;規(guī)則查詢部,配置為查詢規(guī)則編譯部編譯的規(guī)則查詢表;以及句法分析部,配置為通過(guò)規(guī)則查詢部在規(guī)則查詢表中查詢能夠應(yīng)用于輸入句子的句法分析規(guī)則,根據(jù)句法分析規(guī)則識(shí)別輸入句子的語(yǔ)法成份及成份間的關(guān)系。7.根據(jù)權(quán)利要求6所述的句法分析裝置,其中規(guī)則應(yīng)用模塊還包括歧義消解部,配置為從句法分析部生成的局部分析候選中選擇最優(yōu)的局部分析結(jié)果;以及句法分析部對(duì)歧義消解部選擇的局部分析結(jié)果進(jìn)行進(jìn)一步的句法分析,以輸出滿足要求的最終分析結(jié)果。8.根據(jù)權(quán)利要求7所述的句法分析裝置,其中規(guī)則編譯部為產(chǎn)生式規(guī)則集中包含正則表達(dá)式的部分增加中間生成標(biāo)記和中間生成規(guī)則,并用中間生成標(biāo)記替換產(chǎn)生式規(guī)則中正則表達(dá)式表示的部分,中間生成標(biāo)記并入句法分析規(guī)則集的短語(yǔ)標(biāo)記集,中間生成規(guī)則并入句法分析規(guī)則集;以及句法分析部按照與識(shí)別短語(yǔ)標(biāo)記相同的方式識(shí)別中間生成標(biāo)記,通過(guò)規(guī)則查詢部查詢所有適合當(dāng)前輸入句子的包括中間生成規(guī)則的句法分析規(guī)則,以識(shí)別輸入句子的語(yǔ)法成份及成份間的關(guān)系。9.根據(jù)權(quán)利要求8所述的句法分析裝置,其中歧義消解部按照下式通過(guò)計(jì)算句法分析樹的概率P(S,t)來(lái)確定使用的最優(yōu)產(chǎn)生式規(guī)則,以選擇最優(yōu)的局部分析結(jié)果<formula>formulaseeoriginaldocumentpage3</formula>其中S為輸入句子,t為句法分析樹,r為句法分析過(guò)程中使用的一條句法分析規(guī)則,D(T)為生成句法分析樹t使用的全部句法分析規(guī)則,而p(r)為針對(duì)句法分析規(guī)則r的規(guī)則概率。10.根據(jù)權(quán)利要求9所述的句法分析裝置,其中中間生成標(biāo)記的規(guī)則概率的計(jì)算與句法分析中存在的短語(yǔ)符號(hào)的規(guī)則概率的計(jì)算相同,中間生成規(guī)則的規(guī)則概率的計(jì)算與非中間生成規(guī)則的規(guī)則概率的計(jì)算相同;以及對(duì)于含有正則表達(dá)式的產(chǎn)生式規(guī)則用公式<formula>formulaseeoriginaldocumentpage3</formula>計(jì)算規(guī)則概率,其中ri為轉(zhuǎn)化該含有正則表達(dá)式的規(guī)則時(shí)用到的一條中間生成規(guī)則,而P(A)為針對(duì)該中間生成規(guī)則A的規(guī)則概率,η為大于等于1的正整數(shù),i為從1至η的任一整數(shù)。11.根據(jù)權(quán)利要求8至10之任意一項(xiàng)所述的句法分析裝置,其中句法樹生成模塊包括中間標(biāo)記清理部,配置為清除在句法分析過(guò)程中使用的中間生成標(biāo)記;以及短語(yǔ)結(jié)構(gòu)生成部,配置為根據(jù)中間標(biāo)記清理部輸出的清除中間生成標(biāo)記之后的輸入句子的語(yǔ)法成份及成份間的關(guān)系,生成短語(yǔ)結(jié)構(gòu)型句法分析樹。12.根據(jù)權(quán)利要求8至10之任意一項(xiàng)所述的句法分析裝置,其中句法樹生成模塊包括中間標(biāo)記清理部,配置為清除在句法分析過(guò)程中使用的中間生成標(biāo)記;核心結(jié)點(diǎn)標(biāo)注部,配置為根據(jù)中間標(biāo)記清理部輸出的清除中間生成標(biāo)記之后的輸入句子的語(yǔ)法成份及成份間的關(guān)系進(jìn)行核心結(jié)點(diǎn)標(biāo)注;以及依存結(jié)構(gòu)生成部,配置為根據(jù)核心結(jié)點(diǎn)標(biāo)注部標(biāo)注的核心結(jié)點(diǎn)生成輸入句子的依存句法關(guān)系圖。13.—種句法分析方法,包括規(guī)則獲取步驟,從已經(jīng)標(biāo)注好的訓(xùn)練樹庫(kù)學(xué)習(xí)句法分析規(guī)則以生成包含正則表達(dá)式形式的產(chǎn)生式規(guī)則集,其中對(duì)于產(chǎn)生式規(guī)則的后項(xiàng)中的重復(fù)部分用正則表達(dá)式來(lái)表示;規(guī)則應(yīng)用步驟,使用規(guī)則獲取步驟獲得的產(chǎn)生式規(guī)則集對(duì)輸入句子進(jìn)行分析,識(shí)別出輸入句子的語(yǔ)法成份及成份間的關(guān)系;以及句法樹生成步驟,根據(jù)規(guī)則應(yīng)用步驟輸出的輸入句子的語(yǔ)法成份及成份間的關(guān)系,生成輸入句子的依存句法關(guān)系圖或者短語(yǔ)結(jié)構(gòu)型句法分析樹。14.根據(jù)權(quán)利要求13所述的句法分析方法,其中規(guī)則獲取步驟包括樹片段分解步驟,將訓(xùn)練樹庫(kù)中的每棵句法樹分解為作為產(chǎn)生式規(guī)則的樹片段,以形成樹片段集;重復(fù)片段檢測(cè)步驟,檢測(cè)樹片段分解步驟分解得到的樹片段集中的產(chǎn)生式規(guī)則的后項(xiàng)中是否有重復(fù)的結(jié)點(diǎn)序列,并將具有重復(fù)的結(jié)點(diǎn)序列的產(chǎn)生式規(guī)則表示為正則表達(dá)式形式的產(chǎn)生式規(guī)則;以及重復(fù)規(guī)則合并步驟,將重復(fù)片段檢測(cè)步驟生成的形式相同的產(chǎn)生式規(guī)則合并為一個(gè)產(chǎn)生式規(guī)則,以形成產(chǎn)生式規(guī)則集。15.根據(jù)權(quán)利要求14所述的句法分析方法,其中規(guī)則獲取步驟還包括規(guī)則選擇步驟,根據(jù)選擇策略對(duì)重復(fù)規(guī)則合并步驟所生成的產(chǎn)生式規(guī)則進(jìn)行選擇,以生成縮減的產(chǎn)生式規(guī)則集。16.根據(jù)權(quán)利要求15所述的句法分析方法,其中樹片段分解步驟分解得到的樹片段表示為Cfreq=XOKf1X-^fnMPjY1Y2...Υη,η為大于等于1的正整數(shù),其中<freq:xx>為頻度信息,表示該樹片段在訓(xùn)練樹庫(kù)中的出現(xiàn)次數(shù);<fi>為屬性特征,用于描述使用該產(chǎn)生式規(guī)則時(shí)的上下文信息、詞匯或語(yǔ)義特點(diǎn),i為從1至η的任一整數(shù);P表示該樹片段的上位結(jié)點(diǎn),為一個(gè)短語(yǔ)標(biāo)記;Yi表示P結(jié)點(diǎn)的子結(jié)點(diǎn),為一個(gè)短語(yǔ)標(biāo)記或一個(gè)詞匯標(biāo)記;<formula>formulaseeoriginaldocumentpage4</formula>表示在出現(xiàn)了<f1>.··<fn>屬性的情況下,短語(yǔ)P可以由Y1Y2.··Yn構(gòu)成;以及其中,重復(fù)規(guī)則合并步驟在將重復(fù)片段檢測(cè)步驟生成的形式相同的產(chǎn)生式規(guī)則合并為一個(gè)產(chǎn)生式規(guī)則時(shí),將產(chǎn)生式規(guī)則的頻度進(jìn)行相應(yīng)合并;在產(chǎn)生式規(guī)則中屬性特征<fi>為可選。17.根據(jù)權(quán)利要求16所述的句法分析方法,其中產(chǎn)生式規(guī)則包括單結(jié)點(diǎn)重復(fù)型規(guī)則,為產(chǎn)生式規(guī)則的后項(xiàng)中的某一成份重復(fù)二次以上的產(chǎn)生式規(guī)則;多結(jié)點(diǎn)重復(fù)型規(guī)則,為產(chǎn)生式規(guī)則的后項(xiàng)中的某一片段重復(fù)二次以上的產(chǎn)生式規(guī)則;混合重復(fù)型規(guī)則,為產(chǎn)生式規(guī)則的后項(xiàng)中既包含單結(jié)點(diǎn)重復(fù)部分也包含多結(jié)點(diǎn)重復(fù)部分的產(chǎn)生式規(guī)則;以及無(wú)重復(fù)型規(guī)則,為產(chǎn)生式規(guī)則的后項(xiàng)中沒(méi)有重復(fù)部分的產(chǎn)生式規(guī)則。18.根據(jù)權(quán)利要求13至17之任意一項(xiàng)所述的句法分析方法,其中規(guī)則應(yīng)用步驟包括規(guī)則編譯步驟,將規(guī)則獲取步驟生成的產(chǎn)生式規(guī)則集編譯成句法分析規(guī)則的規(guī)則查詢表;規(guī)則查詢步驟,查詢規(guī)則編譯步驟編譯的規(guī)則查詢表;以及句法分析步驟,通過(guò)規(guī)則查詢步驟在規(guī)則查詢表中查詢能夠應(yīng)用于輸入句子的句法分析規(guī)則,根據(jù)句法分析規(guī)則識(shí)別輸入句子的語(yǔ)法成份及成份間的關(guān)系。19.根據(jù)權(quán)利要求18所述的句法分析方法,其中規(guī)則應(yīng)用步驟還包括歧義消解步驟,從句法分析步驟生成的局部分析候選中選擇最優(yōu)的局部分析結(jié)果;以及句法分析步驟對(duì)歧義消解步驟選擇的局部分析結(jié)果進(jìn)行進(jìn)一步的句法分析,以輸出滿足要求的最終分析結(jié)果。20.根據(jù)權(quán)利要求19所述的句法分析方法,其中規(guī)則編譯步驟為產(chǎn)生式規(guī)則集中包含正則表達(dá)式的部分增加中間生成標(biāo)記和中間生成規(guī)則,并用中間生成標(biāo)記替換產(chǎn)生式規(guī)則中正則表達(dá)式表示的部分,中間生成標(biāo)記并入句法分析規(guī)則集的短語(yǔ)標(biāo)記集,中間生成規(guī)則并入句法分析規(guī)則集;以及句法分析步驟按照與識(shí)別短語(yǔ)標(biāo)記相同的方式識(shí)別中間生成標(biāo)記,通過(guò)規(guī)則查詢步驟查詢所有適合當(dāng)前輸入句子的包括中間生成規(guī)則的句法分析規(guī)則,以識(shí)別輸入句子的語(yǔ)法成份及成份間的關(guān)系。21.根據(jù)權(quán)利要求20所述的句法分析方法,其中歧義消解步驟按照下式通過(guò)計(jì)算句法分析樹的概率P(S,t)來(lái)確定使用的最優(yōu)產(chǎn)生式規(guī)則,以選擇最優(yōu)的局部分析結(jié)果<formula>formulaseeoriginaldocumentpage5</formula>其中S為輸入句子,t為句法分析樹,r為句法分析過(guò)程中使用的一條句法分析規(guī)則,D(T)為生成句法分析樹t使用的全部句法分析規(guī)則,而p(r)為針對(duì)句法分析規(guī)則r的規(guī)則概率。22.根據(jù)權(quán)利要求21所述的句法分析方法,其中中間生成標(biāo)記的規(guī)則概率的計(jì)算與句法分析中存在的短語(yǔ)符號(hào)的規(guī)則概率的計(jì)算相同,中間生成規(guī)則的規(guī)則概率的計(jì)算與非中間生成規(guī)則的規(guī)則概率的計(jì)算相同;以及對(duì)于含有正則表達(dá)式的產(chǎn)生式規(guī)則用公式A")=ΓAO計(jì)算規(guī)則概率,其中ri為轉(zhuǎn)<formula>formulaseeoriginaldocumentpage5</formula>化該含有正則表達(dá)式的規(guī)則時(shí)用到的一條中間生成規(guī)則,而P(A)為針對(duì)該中間生成規(guī)則A的規(guī)則概率,η為大于等于1的正整數(shù),i為從1至η的任一整數(shù)。23.根據(jù)權(quán)利要求20至22之任意一項(xiàng)所述的句法分析方法,其中句法樹生成步驟包括中間標(biāo)記清理步驟,清除在句法分析過(guò)程中使用的中間生成標(biāo)記;以及短語(yǔ)結(jié)構(gòu)生成步驟,根據(jù)中間標(biāo)記清理步驟輸出的清除中間生成標(biāo)記之后的輸入句子的語(yǔ)法成份及成份間的關(guān)系,生成短語(yǔ)結(jié)構(gòu)型句法分析樹。24.根據(jù)權(quán)利要求20至22之任意一項(xiàng)所述的句法分析方法,其中句法樹生成步驟包括中間標(biāo)記清理步驟,清除在句法分析過(guò)程中使用的中間生成標(biāo)記;核心結(jié)點(diǎn)標(biāo)注步驟,根據(jù)中間標(biāo)記清理步驟輸出的清除中間生成標(biāo)記之后的輸入句子的語(yǔ)法成份及成份間的關(guān)系進(jìn)行核心結(jié)點(diǎn)標(biāo)注;以及依存結(jié)構(gòu)生成步驟,根據(jù)核心結(jié)點(diǎn)標(biāo)注步驟標(biāo)注的核心結(jié)點(diǎn)生成輸入句子的依存句法關(guān)系圖。全文摘要本發(fā)明公開了一種句法分析裝置和句法分析方法。根據(jù)本發(fā)明的使用正則表達(dá)式規(guī)則的句法分析裝置包括訓(xùn)練樹庫(kù)、規(guī)則獲取模塊、規(guī)則應(yīng)用模塊、句法樹生成模塊和規(guī)則集。規(guī)則獲取模塊通過(guò)統(tǒng)計(jì)學(xué)習(xí)的方法從已經(jīng)標(biāo)注好的訓(xùn)練樹庫(kù)學(xué)習(xí)句法分析規(guī)則,生成在對(duì)輸入句子進(jìn)行分析時(shí)使用的規(guī)則集。對(duì)于產(chǎn)生式規(guī)則的后項(xiàng)中的重復(fù)部分,規(guī)則獲取模塊應(yīng)用正則表達(dá)式來(lái)表示。規(guī)則獲取模塊所學(xué)習(xí)的句法分析規(guī)則還可以包含上下文信息。規(guī)則應(yīng)用模塊使用規(guī)則獲取模塊學(xué)習(xí)獲得的句法分析規(guī)則集分析輸入句子,識(shí)別出輸入句子的語(yǔ)法成份及成份間的關(guān)系。句法樹生成模塊根據(jù)規(guī)則應(yīng)用模塊輸出的分析結(jié)果,按照用戶的需求生成輸入句子的依存句法關(guān)系圖或者短語(yǔ)結(jié)構(gòu)型句法分析樹。文檔編號(hào)G06F17/27GK101814065SQ20091011810公開日2010年8月25日申請(qǐng)日期2009年2月23日優(yōu)先權(quán)日2009年2月23日發(fā)明者于浩,孟遙申請(qǐng)人:富士通株式會(huì)社
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1