国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      語(yǔ)法創(chuàng)造中的分段歧義的自動(dòng)解析的制作方法

      文檔序號(hào):6399485閱讀:204來(lái)源:國(guó)知局
      專利名稱:語(yǔ)法創(chuàng)造中的分段歧義的自動(dòng)解析的制作方法
      背景技術(shù)
      本發(fā)明涉及語(yǔ)法創(chuàng)造。更具體地說(shuō),本發(fā)明涉及自動(dòng)語(yǔ)法創(chuàng)造系統(tǒng)中的分段歧義消除。
      為了推動(dòng)能夠應(yīng)用及服務(wù)的語(yǔ)言的發(fā)展,基于語(yǔ)義的加強(qiáng)理解系統(tǒng)當(dāng)前處于研發(fā)狀態(tài)下。這種系統(tǒng)被廣泛地用在會(huì)話式的研究系統(tǒng)中。但是,在傳統(tǒng)系統(tǒng)的執(zhí)行中,對(duì)于傳統(tǒng)的研發(fā)者的使用來(lái)說(shuō),它們并不是特別實(shí)用。
      在很大程度上,這種執(zhí)行已依賴于特定領(lǐng)域語(yǔ)法的人工研發(fā)。而這個(gè)任務(wù)不僅耗時(shí)、易出錯(cuò)而且還需要領(lǐng)域中的大量專門技術(shù)。
      為了推進(jìn)能夠應(yīng)用及服務(wù)的語(yǔ)言的發(fā)展,已經(jīng)提出了基于實(shí)例的語(yǔ)法寫作工具。該工具通稱為“SGStudio”,其進(jìn)一步被描述在Y.Wang和A.Acero所著的“GRAMMAR LEARNING FOR SPOKEN LANGUAGE UNDERSTANDING”(IEEE Workshop on Automatic Speech Recognition and Understanding、MadonnaD.Campiglio Italy、2001)和“EVALUATION OF SPOKEN LAGUAGEGRAMMAR LEARNING IN ATIS DOMAIN”(Proceeding of ICASSP,Orlando,F(xiàn)L2002)中。這個(gè)工具通過(guò)利用先前信息的許多不同的資源,極大地減輕了語(yǔ)法開(kāi)發(fā)的負(fù)擔(dān)。該工具還允許稍微具有語(yǔ)言知識(shí)的普通研發(fā)者為口語(yǔ)理解構(gòu)造語(yǔ)義語(yǔ)法。該系統(tǒng)推進(jìn)了具有少數(shù)數(shù)據(jù)的相對(duì)高質(zhì)量語(yǔ)義語(yǔ)法的半自動(dòng)生成。而且,該工具不但顯著地減少了涉及發(fā)展語(yǔ)法的努力,而且遍及不同領(lǐng)域地改善了理解準(zhǔn)確性。
      但是,可以改善這個(gè)工具。當(dāng)必須解決歧義時(shí),該工具常常求助于使用者,以便歸納語(yǔ)法規(guī)則。這是一種干擾,并且可減慢語(yǔ)法開(kāi)發(fā)的速度。
      發(fā)明綜述生成基于規(guī)則的語(yǔ)法。在訓(xùn)練數(shù)據(jù)中識(shí)別分段歧義。列舉歧義的分段的重寫規(guī)則,并且為每個(gè)重寫規(guī)則產(chǎn)生概率?;谠摳怕式鉀Q歧義。在一個(gè)具體實(shí)施例中,通過(guò)應(yīng)用期望值最大(EM)算法來(lái)進(jìn)行。
      附圖摘要

      圖1為在其中可以使用本發(fā)明的一個(gè)典型環(huán)境的結(jié)構(gòu)圖。
      圖2A為根據(jù)本發(fā)明一個(gè)具體實(shí)施例的模型創(chuàng)造部件的一個(gè)具體實(shí)施例的結(jié)構(gòu)圖。
      圖2B說(shuō)明實(shí)例圖解。
      圖2C說(shuō)明為實(shí)例圖解產(chǎn)生的一實(shí)例組規(guī)則。
      圖2D說(shuō)明已注釋語(yǔ)句的實(shí)例。
      圖2E說(shuō)明實(shí)例語(yǔ)法分析樹(shù)。
      圖2F說(shuō)明用于實(shí)例中的單詞的可能前終端的表格。
      圖2G為與計(jì)數(shù)和概率關(guān)聯(lián)的重寫規(guī)則的表格。
      圖3A詳細(xì)地示出語(yǔ)法寫作組件的機(jī)構(gòu)圖。
      圖3B為說(shuō)明圖3B所示的語(yǔ)法創(chuàng)造部件的操作的流程圖。
      示例性具體實(shí)施例的詳述本發(fā)明涉及語(yǔ)法創(chuàng)造工具。更具體地說(shuō),本發(fā)明涉及在語(yǔ)法創(chuàng)造期間分段歧義的自動(dòng)消除。然而,在詳述本發(fā)明之前,將描述在其中可以使用本發(fā)明的一個(gè)典型環(huán)境。
      圖1說(shuō)明適當(dāng)計(jì)算系統(tǒng)環(huán)境100的實(shí)例,在該環(huán)境中可以執(zhí)行本發(fā)明。該計(jì)算系統(tǒng)環(huán)境100只是適當(dāng)計(jì)算環(huán)境中的一個(gè)實(shí)例,因此其并不趨向于是對(duì)本發(fā)明的使用或功能的任何限制。不應(yīng)將計(jì)算環(huán)境100解釋為具有關(guān)于典型操作環(huán)境100所示部件的任何一個(gè)或組合的任何從屬或要求。
      本發(fā)明可與各種其它通用或?qū)S糜?jì)算環(huán)境或結(jié)構(gòu)一起操作。公知的可適于與本發(fā)明一起使用的計(jì)算系統(tǒng)、環(huán)境和/或結(jié)構(gòu)包括(但不限于)個(gè)人電腦、服務(wù)器計(jì)算機(jī)、手持式或膝上型電腦、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)電子產(chǎn)品、網(wǎng)絡(luò)PC、微電腦、大型計(jì)算機(jī)、分布式計(jì)算環(huán)境,等等。分布式計(jì)算環(huán)境包括上述任何系統(tǒng)或裝置。
      能以計(jì)算機(jī)可執(zhí)行指令的通用上下文關(guān)系的方式來(lái)描述本發(fā)明,諸如由計(jì)算機(jī)執(zhí)行的編程模塊。編程模塊通常包括例行程序,程序、對(duì)象、部件、數(shù)據(jù)結(jié)構(gòu)等,它們執(zhí)行特定的任務(wù)或執(zhí)行特定的抽象數(shù)據(jù)類型。也可以在分布式計(jì)算環(huán)境中實(shí)施本發(fā)明,在該環(huán)境中由通過(guò)通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備來(lái)執(zhí)行任務(wù)。在分布式計(jì)算機(jī)環(huán)境中,編程模塊可以位于包括存儲(chǔ)器裝置的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。
      請(qǐng)參考圖1,執(zhí)行本發(fā)明的典型系統(tǒng)包括以計(jì)算機(jī)100的形式出現(xiàn)的通用計(jì)算設(shè)備110。計(jì)算機(jī)110的組件包括(但不限于)處理單元120、系統(tǒng)存儲(chǔ)器130以及將各種系統(tǒng)組件(包括系統(tǒng)存儲(chǔ)器)連接至處理單元120的系統(tǒng)總線121。系統(tǒng)總線121能以幾種總線結(jié)構(gòu)中的任何一種總線結(jié)構(gòu),包括存儲(chǔ)器總線或存儲(chǔ)器控制器、外圍總線和使用任何一種總線體系結(jié)構(gòu)的本地總線。舉例而言(但不限于),這種體系結(jié)構(gòu)包括工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(ISA)總線,微通道結(jié)構(gòu)(MCA)總線、擴(kuò)展工業(yè)標(biāo)準(zhǔn)結(jié)構(gòu)(EISA)總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(VESA)本地總線,以及外設(shè)部件互連(PCI)總線。該外設(shè)部件互連(PCI)總線也稱為附加板總線。
      計(jì)算機(jī)110通常包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可為任何可用的介質(zhì),其可由計(jì)算機(jī)110訪問(wèn)并且包括易失性和非易失性、可移動(dòng)和固定介質(zhì)兩者。舉例而言(但不限于),計(jì)算機(jī)可讀介質(zhì)包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括易失性和非易失性、可移動(dòng)和固定介質(zhì)兩者。該等介質(zhì)是為存儲(chǔ)信息而以各種方法或技術(shù)實(shí)現(xiàn)的,該信息諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、編程模塊或其它數(shù)據(jù)。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括(但不限于)RAM、ROM、EEPROM、閃存或其它存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字化視頻光盤(DVD)或其它磁盤存儲(chǔ)器,或者其它的可以用于存儲(chǔ)所期望信息且可由計(jì)算機(jī)100訪問(wèn)的介質(zhì)。通信介質(zhì)一般具體化為有計(jì)算機(jī)可讀指令,數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它以調(diào)制數(shù)據(jù)信號(hào)形式出現(xiàn)的數(shù)據(jù),諸如載體WAV或其它傳輸機(jī)制。通信介質(zhì)包括任何信息發(fā)布介質(zhì)。術(shù)語(yǔ)“調(diào)制數(shù)據(jù)信號(hào)”意指一種信號(hào),該信號(hào)具有一個(gè)或多個(gè)特征集合或以將信息編碼在信號(hào)中的方式來(lái)變化。舉例而言(但不限于),通信介質(zhì)包括有線媒體(諸如有線網(wǎng)絡(luò)或直接的有線接頭)和無(wú)線網(wǎng)絡(luò),諸如傳音、FR、紅外線和其它無(wú)線媒體。上述任意的組合也應(yīng)包括在計(jì)算機(jī)可讀介質(zhì)中。
      系統(tǒng)存儲(chǔ)器130包括易失和/或非易失存儲(chǔ)器形式的計(jì)算機(jī)可讀介質(zhì),諸如只讀存儲(chǔ)器(ROM)131和隨機(jī)存取存儲(chǔ)器(RAM)132。包含有基本例行程序的基本輸入/輸出系統(tǒng)133(BIOS)諸如在啟動(dòng)期間幫助計(jì)算機(jī)110中的元件之間的信息傳輸,其一般存儲(chǔ)在ROM 131中。RAM 132一般包括數(shù)據(jù)和/或程序模塊,該等數(shù)據(jù)和/或程序模塊可即時(shí)訪問(wèn)和/或隨后不久由處理單元120操作。舉例而言(但不限于),圖1說(shuō)明操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137。
      計(jì)算機(jī)110還可以包括其它移動(dòng)/固定、易失/非易失計(jì)算機(jī)介質(zhì)。僅舉例而言,圖1說(shuō)明了硬盤驅(qū)動(dòng)器141、磁盤驅(qū)動(dòng)器151和光盤驅(qū)動(dòng)器155。其中硬盤驅(qū)動(dòng)器141從移動(dòng)、非易失磁介質(zhì)讀取數(shù)據(jù)或?qū)?shù)據(jù)寫入;而磁盤驅(qū)動(dòng)器151從移動(dòng)、非易失磁盤152讀取數(shù)據(jù)或?qū)?shù)據(jù)寫入;光盤驅(qū)動(dòng)器155從諸如CD-ROM或其它介質(zhì)此類的移動(dòng)、非易失光盤156讀取數(shù)據(jù)或?qū)?shù)據(jù)寫入。其它的移動(dòng)/固定、易失/非易失計(jì)算機(jī)存儲(chǔ)介質(zhì)包括(但不限于)磁帶、閃存卡、數(shù)字視頻光盤、數(shù)字視頻帶、靜態(tài)RAM、靜態(tài)ROM等。硬盤驅(qū)動(dòng)器141通常通過(guò)固定存儲(chǔ)器接口連接于系統(tǒng)總線121,而光盤驅(qū)動(dòng)器155通常通過(guò)移動(dòng)存儲(chǔ)器接口而連接于系統(tǒng)總線121,諸如通過(guò)接口150。
      圖1所示的和以上描述的該等驅(qū)動(dòng)器以及與其關(guān)聯(lián)的計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)用于計(jì)算機(jī)100的計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)。例如,在圖1中,被說(shuō)明的硬盤驅(qū)動(dòng)器141存儲(chǔ)操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147。應(yīng)注意這些組件可以相同也可以不同于操作系統(tǒng)134、應(yīng)用程序135、其它程序模塊136和程序數(shù)據(jù)137。在此給予操作系統(tǒng)144、應(yīng)用程序145、其它程序模塊146和程序數(shù)據(jù)147以不同編號(hào),以便說(shuō)明它們至少是不同的版本。
      用戶可以通過(guò)輸入裝置將命令和信息輸入計(jì)算機(jī)110中,輸入裝置諸如為鍵盤162、麥克風(fēng)163以及諸如鼠標(biāo)、跟蹤球或觸摸板之類的指示裝置。其它輸入裝置(未示出)包括游戲柄、游戲板、圓盤式衛(wèi)星天線、掃描儀等。這些或其它輸入裝置通常通過(guò)用戶輸入接口連接于耦合系統(tǒng)總線的處理單元120,而且通過(guò)其它接口和總線結(jié)構(gòu)也可以連接,其它接口或總線結(jié)構(gòu)諸如為并口、游戲口或通用串行總線(USB)。顯示器191或其它類型的顯示裝置同樣經(jīng)由接口連接于系統(tǒng)總線121,諸如經(jīng)由視頻接口190連接。除了顯示器之外,計(jì)算機(jī)還可以包括其它外設(shè)輸出裝置,諸如揚(yáng)聲器197和打印機(jī)196、可以通過(guò)輸出外設(shè)接口190連接。
      計(jì)算機(jī)110可以在使用邏輯連接至一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī)(諸如遠(yuǎn)程計(jì)算機(jī)180)的網(wǎng)絡(luò)環(huán)境中操作。該遠(yuǎn)程計(jì)算機(jī)180可以為個(gè)人電腦、手持式裝置、服務(wù)器、路由器、網(wǎng)絡(luò)PC、對(duì)等裝置或其它公共網(wǎng)絡(luò)節(jié)點(diǎn),并且其包括一些或全部的關(guān)于計(jì)算機(jī)110所述的元件。圖1所描述的本地連接包括區(qū)域網(wǎng)(LAN)171和廣域網(wǎng)(WAN)173,而且還可以包括其它網(wǎng)絡(luò)。這種網(wǎng)絡(luò)環(huán)境在辦公室是很平常的,如企業(yè)寬帶計(jì)算機(jī)網(wǎng)絡(luò)、企業(yè)內(nèi)部網(wǎng)和因特網(wǎng)。
      當(dāng)在LAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)110通過(guò)LAN171連接于網(wǎng)絡(luò)接口或適配器170。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)110一般包括調(diào)制解調(diào)器172或用于在WAN173上建立連接的其它方式,例如互聯(lián)網(wǎng)。調(diào)制解調(diào)器172(可以是內(nèi)置的或外置的)可以經(jīng)由用戶接口160或其它適當(dāng)機(jī)制連接于系統(tǒng)總線121。在網(wǎng)絡(luò)環(huán)境中,相對(duì)于計(jì)算機(jī)110或其中一部分所描述的程序模塊可以存儲(chǔ)在遠(yuǎn)程存儲(chǔ)器裝置中。舉例而言(但不限于),圖1說(shuō)明遠(yuǎn)程應(yīng)用程序185駐留在遠(yuǎn)程計(jì)算機(jī)180上。應(yīng)理解示出的網(wǎng)絡(luò)連接為范例性的,可以使用在計(jì)算機(jī)之間建立通信鏈接的其它方式。
      應(yīng)注意,本發(fā)明雖然可以在計(jì)算機(jī)系統(tǒng)上執(zhí)行,諸如參考圖1所描述的系統(tǒng)。但是,本發(fā)明仍可以在服務(wù)器、致力于信息處理的計(jì)算機(jī)或分布式系統(tǒng)上執(zhí)行,在分布式系統(tǒng)中,在分布式計(jì)算系統(tǒng)的不同部分上執(zhí)行本發(fā)明的不同部分。
      圖2A為根據(jù)本發(fā)明的一個(gè)具體實(shí)施例的模型創(chuàng)造系統(tǒng)200。模型創(chuàng)造系統(tǒng)200包括模型創(chuàng)造組件202和可選用戶接口204。圖2A還示出了模型創(chuàng)造組件202接收作為輸入的大綱206、一組訓(xùn)練實(shí)例文本串和注釋208、可選語(yǔ)法庫(kù)209,并且基于規(guī)則的語(yǔ)法(諸如上下文無(wú)關(guān)文法或CFG)210??蛇x語(yǔ)法庫(kù)209包括域非獨(dú)立概念和域獨(dú)立概念的定義。其中域非獨(dú)立概念諸如為日期和時(shí)間,而域獨(dú)立概念諸如為城市名、航線等,其可從應(yīng)用數(shù)據(jù)庫(kù)獲取。下面將以較大的篇幅來(lái)詳述系統(tǒng)200的操作。然而,簡(jiǎn)單地說(shuō),用戶給模型創(chuàng)造組件202提供大綱206和訓(xùn)練實(shí)例文本串208。這可通過(guò)可選用戶接口204或通過(guò)其它輸入機(jī)制,或通過(guò)自動(dòng)方式來(lái)進(jìn)行。模型創(chuàng)造組件202接收輸入并基于該等輸入產(chǎn)生基于規(guī)則的語(yǔ)法210。基于規(guī)則的語(yǔ)法210的一個(gè)實(shí)例為上下文無(wú)關(guān)文法(或CFG),該文法允許計(jì)算機(jī)將輸入映射到正文的語(yǔ)義表現(xiàn)。
      大綱206例證性地為被模仿的域的語(yǔ)義說(shuō)明。圖2B示出了大綱的一個(gè)例證。圖2B說(shuō)明極大簡(jiǎn)化的大綱212,其可以由研發(fā)者輸入系統(tǒng)200中。大綱212為表示來(lái)自于用戶輸入的各種文本串的含義的大綱,其示出飛離或到達(dá)不同城市的航班并且具有不同的起飛和飛抵時(shí)間。大綱212表明示出的航班命令(ShowFlight)包括作為slot的航班的語(yǔ)義類別。大綱221還以較大篇幅地說(shuō)明航班的語(yǔ)義類別,其表明該航班具有4個(gè)時(shí)段,該4個(gè)時(shí)段分別相應(yīng)于起飛時(shí)間、飛抵時(shí)間、離開(kāi)的城市和到達(dá)的城市。
      從大綱212中,大綱創(chuàng)造組件202可以產(chǎn)生一組規(guī)則,其在圖2C中示出。規(guī)則一示出ShowFlight語(yǔ)句將通常具有命令部分ShowFlightCmd,其將由屬性部分ShowFlightProperties跟隨。
      規(guī)則二表明ShowFlightProperties部分中可以具有一個(gè)或多個(gè)屬性。例如,規(guī)則二表明ShowFlightProperties部分包括至少一個(gè)ShowFlightProperty,其跟隨有可選ShowFlightProperties。這個(gè)ShowFlightProperties的遞歸定義簡(jiǎn)化了表達(dá)式并且允許其具有一個(gè)或多個(gè)屬性。
      規(guī)則三示出ShowFlightProperty部分包括ShowFlightPreFlight部分、Flight部分和ShowFlightPostFlight部分。這表明大綱中的slot Flight可以具有上文和下文兩者。
      第四個(gè)規(guī)則表明大綱中的對(duì)象航班不具有命令部分而只有屬性部分(FlightProperties),這是由于當(dāng)ShowFlight為命令時(shí),航班為大綱中的對(duì)象。規(guī)則五示出將FlightProperties部分再次遞歸定義以包括至少一個(gè)由可選FlightProperties跟隨的FlightProperty。
      規(guī)則六-九相應(yīng)于圖2B所示大綱212中的四個(gè)slot。規(guī)則六將第一屬性定義為離開(kāi)城市slot,其在上文(FlightPreDepartureCity)之后下文(FlightPostDepartureCity)之前。規(guī)則七以相同方式定義到達(dá)的城市,并且規(guī)則八和規(guī)則九以相同的方式分別定義起飛時(shí)間和到達(dá)時(shí)間。
      即使給出了由模型創(chuàng)造組件202自動(dòng)地從大綱212中產(chǎn)生圖2C所表明的所有規(guī)則的這樣的事實(shí),但是仍然不存在表明具體的單詞如何實(shí)際上映射到具體的前終端(pre-terminals)(命令語(yǔ)義類,以及用于slot的上文和下文)。例如,不存在表明將短語(yǔ)“please show me the flights...”映射到ShowFlightCmd的規(guī)則。同樣的,不存在表明那個(gè)單詞將具體地映射(例如)FlightPreArrivalcity的上文等。所以研發(fā)者還要輸入訓(xùn)練實(shí)例文本串和注釋208,如此模型創(chuàng)造組件202也可以學(xué)習(xí)這些重寫規(guī)則。
      圖2D說(shuō)明實(shí)例文本串213“Flight from Seattle to Boston”和相應(yīng)于文本串213的語(yǔ)義注釋214的實(shí)例。語(yǔ)義注釋214由研發(fā)者提供,并且其表明字符串213的語(yǔ)義意義。語(yǔ)義注釋214例如示出輸入文本串213相應(yīng)于ShowFlight命令,該命令具有slot Flight,而slot Flight本身具有兩個(gè)都是城市的slot。在Flight slot中的兩個(gè)slot之間的區(qū)別只是slot的名稱。一個(gè)稱為“Arrival”城市而另一個(gè)稱為“Departure”城市。語(yǔ)義注釋214還將單詞“Boston”映射到“Arrival”城市slot以及將單詞“Seattle”映射到“Departure”城市slot。因此,基于注釋214,模型創(chuàng)造組件202將知道將那個(gè)slot映射到單詞“Seattle”和“Boston”。
      從注釋實(shí)例和圖2C所示的模板語(yǔ)法規(guī)則中,模型創(chuàng)造組件可以生成基于規(guī)則的語(yǔ)法(或CFG)分析樹(shù),諸如圖2E所示的分析樹(shù)216。分析樹(shù)216的第一級(jí)218(示出ShowFlight由跟隨ShowFlightProperties的ShowFlightCmd構(gòu)成的部分)根據(jù)圖2C中的規(guī)則生成。
      第二級(jí)220(表明ShowFlightProperties由ShowFlightProperty構(gòu)成的部分)根據(jù)規(guī)則2構(gòu)成,其中不使用可選ShowFlightProperties。
      下一級(jí)222(表明ShowFlightProperty由跟隨有Flight的ShowFlightPreFlight構(gòu)成,而Flight跟隨有ShowFlightPostFlight)根據(jù)圖2C中的規(guī)則3生成。
      下一級(jí)224(表明航班對(duì)象由FlightProperties部分構(gòu)成)根據(jù)圖2C中的規(guī)則4生成。
      下一級(jí)226(該部分表明FlightProperties部分由跟隨有FlightProperties部分的FlightProperty部分構(gòu)成)根據(jù)圖2C中的規(guī)則5生成。
      下一級(jí)228(該級(jí)表明FlightProperties部分由跟隨有城市slot的FlightPreDepartureCity部分構(gòu)成,F(xiàn)lightPreDepartureCity部分跟隨有FlightPreDepartureCity的下文)根據(jù)規(guī)則6生成,而且下一級(jí)230(該級(jí)示出FlightProperties由FlightPreArrivalCity的上文、城市slot和FlightPostArrivalCity下文構(gòu)成)根據(jù)規(guī)則7構(gòu)成。
      最后,表示將單詞“Seattle”映射到級(jí)228之下的城市slot以及將表示單詞“Boston”映射到級(jí)230之下的城市slot的級(jí)根據(jù)語(yǔ)義注釋214生成,其同樣由用戶輸入。因此,模型創(chuàng)造組件202可以學(xué)習(xí)如何將輸入語(yǔ)句中的單詞“Seattle”和“Boston”映射進(jìn)CFG分析樹(shù)中以及映射進(jìn)圖2C中的規(guī)則中。應(yīng)注意,城市規(guī)則還可以從代替注釋數(shù)據(jù)的庫(kù)語(yǔ)法(可以通過(guò)從指定域的數(shù)據(jù)庫(kù)中獲取數(shù)據(jù)來(lái)依次構(gòu)建)中獲取。
      但是,在輸入語(yǔ)句中仍然存在還沒(méi)有映射到樹(shù)的若干單詞。這些單詞包括“Flight”、“from”和“to”。由于單詞“Flight”和“from”在單詞“Seattle”之前,所以它們可以映射到分析樹(shù)216中的各種前終端(preterminal),包括FlightCmd、ShowFlightPreFlight和FlightPreDepartureCity。同樣,由于單詞“to”位于輸入文本串213中的單詞“Seattle”和“Boston”之間,所以單詞“to”可以映射到FlightPostDepartureCity或FlightPreArrivalCity。
      由于已知單詞“to”為介詞,所以必須對(duì)緊隨其后的單詞進(jìn)行修改。因此,可以確定單詞“to”映射到分析樹(shù)216中的FlightPreArrivalCity的前終端。
      但是,仍然不知道單詞“Flight”和“from”應(yīng)居于分析樹(shù)216中的什么位置上。同樣,也不知道兩個(gè)單詞的具體分段。例如,在一個(gè)可能性中,可以將單詞“Flight”映射到ShowFlightCmd而將單詞“from”映射到ShowFlightPreFlight。在這種情況下,前終端FlightPreDepatureCity映射到空集。
      根據(jù)另一個(gè)可能性,將單詞“Flight”和“from”兩個(gè)都映射到ShowFlightCmd而將其它前終端ShowFlightPreFlight和FlightPreDepatureCity映射到空集。
      在另一可能性中,將“Flight”映射到ShowFlightCmd并且將“from”映射到FlightPreDepatureCity,而將剩余的前終端ShowFlightPreFlight映射到空集。
      這表現(xiàn)出了分段歧義,其在歷史上還沒(méi)有解決附加信息的缺乏,該附加信息來(lái)自于研發(fā)者。在一些已有系統(tǒng)中,每個(gè)可能的分段將簡(jiǎn)單地顯示給用戶,并且允許選擇這些分段中選擇一個(gè)。
      但是,這也導(dǎo)致許多問(wèn)題。首先,與用戶交互的這種類型既擾亂又耗時(shí)。同樣,如果存在更多的可能前終端以及在輸入文本串中存在更多未調(diào)整的單詞,那么必須表示給用戶的概率量將會(huì)顯著地上升。如果不能忍受,那么難于有效地將所有這樣的候選分段顯示以供用戶選擇,用戶將常常在分段上犯錯(cuò)或不一致地對(duì)類似的文本串進(jìn)行分段。
      根據(jù)本發(fā)明的一個(gè)具體實(shí)施例,將期望值最大(EM)算法應(yīng)用于模型組件202中的分段歧義上,以便消除分段選擇的歧義。當(dāng)模型包含不可觀察到的隱藏的變量時(shí),EM算法一般為用于使用極大似然估計(jì)量來(lái)計(jì)算模型參數(shù)。
      圖3A示出以較大篇幅說(shuō)明模型創(chuàng)造組202的結(jié)構(gòu)圖。圖3A示出模型創(chuàng)造組件202例證性地包括模板語(yǔ)法生成器300、分段EM應(yīng)用組件302和剪除組件304。模板語(yǔ)法生成器300接收大綱206和在語(yǔ)法庫(kù)209中的任何規(guī)則并且生成模板語(yǔ)法。語(yǔ)法庫(kù)209由大綱206中語(yǔ)義分類參考,而模板語(yǔ)法包括所有能夠從大綱206和可選語(yǔ)法庫(kù)209中學(xué)習(xí)或搜集的所有規(guī)則。然后,模板語(yǔ)法由EM分段EM部件將其作為輸入與訓(xùn)練數(shù)據(jù)(文本串和它們的注釋)一起獲取。EM分段組件302將使用模板語(yǔ)法以在訓(xùn)練數(shù)據(jù)中找到分段歧義。然后部件302操作以消除任何分段歧義?;谶@個(gè)歧義性,可使用剪除組件304從語(yǔ)法中剪除重寫規(guī)則以提供基于規(guī)則的語(yǔ)法210。
      為了進(jìn)一步說(shuō)明EM分段組件302的操作,因此圖2F和2G提供了范例表。圖2F示出包括一組實(shí)例的表格。該表格第一項(xiàng)示出單詞“from”可能映射到前終端ShowFlightCmd或前終端FlightPreDepatureCity。實(shí)例可由組件302從實(shí)例語(yǔ)句“From Seattle to Boston”中獲得實(shí)例。第二個(gè)實(shí)例表示單詞“Flight from”可映射到前終端ShowFlightCmd和FlightPreDepatureCity。該實(shí)例可由組件302從類似于“From Seattle to Boston”的實(shí)例語(yǔ)句中獲得。第三個(gè)實(shí)例說(shuō)明單詞“Flight to”可映射到前終端ShowFlightCmd和FlightPreArrivalCity,該單詞可由組件302從類似于“From Seattle on Boston”的語(yǔ)句中獲得。然而,這些實(shí)例的分段帶有歧義。換句話說(shuō),還不清楚是否已將第一實(shí)例中的單詞“from”映射到前終端ShowFlightCmd或映射到前終端FlightPreDepatureCity。同樣地,不清楚如何將單詞“Flight from”映射在前終端ShowFlightCmd和FlightPreDepatureCity之間。另外,當(dāng)然,也不清楚如何將“Flight to”映射到可能的前終端ShowFlightCmd和FlightPreArrivalCity之間。
      圖2G為進(jìn)一步說(shuō)明EM算法應(yīng)用組件203操作的表格。圖3B為說(shuō)明組件203操作的流程圖并且其與圖2F和2G一起來(lái)描述。
      首先,組件302列舉所有可能的分段。這在圖2G的左列上,標(biāo)記為可能的重寫規(guī)則。在圖2G的重寫規(guī)則中,簡(jiǎn)寫了一些構(gòu)成前終端名稱的單詞。因此,舉例而言,重寫規(guī)則SFCmd→ε表示其中將ShowFlightCmd(簡(jiǎn)寫為SFCmd)前終端映射到空集的分段。同樣地,重寫規(guī)則SFCmd→from表示其中將單詞“from”映射到前終端ShowFlightCmd的分段。進(jìn)一步地,F(xiàn)PDCity→ε表示其中將前終端FlightPreArrivalCity(簡(jiǎn)寫為FPACity)映射到空集的分段。根據(jù)這些實(shí)例,圖2G所示的重寫規(guī)則部分中的其它符號(hào)為自我說(shuō)明的。足以說(shuō)列舉了圖2F所示實(shí)例的每個(gè)可能的分段。
      根據(jù)圖2的第一實(shí)例,一個(gè)分段表示單詞“from”映射到ShowFlightCmd而另一個(gè)分段表示單詞“from”映射到FlightPreDepatureCity。
      圖2F的第二實(shí)例支持同樣交替的若干不同分段。例如,根據(jù)分段替換,單詞“Flight from”都映射到前終端ShowFlightCmd并且前終端FlightPreDepatureCity映射到ε。在另一個(gè)分段替換中,單詞“Flight from”都映射到前終端FlightPreDepatureCity并且前終端“ShowFlightCmd”映射到ε。在另一個(gè)替換中,單詞“Filight”和“from”被分開(kāi),如此單詞“Filight”映射到前終端ShowFlightCmd而單詞“from”映射到前終端FlightPreDepatureCity。這些分段中的每個(gè)分段同樣示出在圖2G所列舉的重寫規(guī)則中。
      第三個(gè)實(shí)例能以類似于第二實(shí)例的方式而被分段,在其中單詞“Flight to”可以映射到前終端ShowFlightCmd或前終端FlightPreArrivalCity,而其它前終端映射到ε,或者可以在前終端ShowFlightCmd和FlightPreArrivalCity之間將單詞“Flight to”分開(kāi)。再次,這些分段中的每個(gè)分段都被表示在圖2G所示的重寫規(guī)則中。
      由圖3B的流程圖中的塊306表示列舉所有可能的分段。
      一旦列舉了支持分段的重寫規(guī)則,就給它們中的每一個(gè)分配概率。最初,給圖2G所示的所有分段分配了相同的概率。這由圖3B中的塊308表示。
      接著,組件302分配新的期望的計(jì)數(shù)給已列舉的重寫規(guī)則,這是根據(jù)圖2F所示實(shí)例中這些計(jì)數(shù)可能出現(xiàn)的機(jī)會(huì)進(jìn)行的。這由塊310表示。例如,根據(jù)第一實(shí)例,存在兩個(gè)可能的分段,其中之一將單詞“from”映射到ShowFlightCmd并且將前終端FlightPreDepatureCity映射到ε,而另一個(gè)分段將ShowFlightCmd映射到ε并且將單詞“from”映射到前終端FlightPreDepatureCity。第一個(gè)重寫規(guī)則說(shuō)明ShowFlightCmd前終端映射到ε(空集)。因此,實(shí)例1中的一半分段實(shí)例支持圖2G的表格所示的第一個(gè)重寫規(guī)則。因此,根據(jù)第一個(gè)實(shí)例,將給第一個(gè)重寫規(guī)則(ShowFlightCmd→ε)分配二分之一的計(jì)數(shù)。
      如上所述,第二個(gè)實(shí)例支持三個(gè)不同的分段,其中之一將單詞“Flight from”分配到前終端ShowFlightCmd和將前終端FlightPreDepatureCity分配到ε,另一個(gè)將單詞“Flight”映射到前終端ShowFlightCmd并且將單詞“from”映射到前終端FlightPreDepatureCity,最后一個(gè)分段將前終端ShowFlightCmd映射到ε并且將單詞“Flight from”都映射到前終端FlightPreDepatureCity。這三個(gè)分段中,一個(gè)支持第一個(gè)重寫規(guī)則(SFCmd→ε)。因此,根據(jù)第二個(gè)實(shí)例,給第一個(gè)重寫規(guī)則分配三分之一的計(jì)數(shù)。
      在相同的方式中,第三個(gè)實(shí)例具有三個(gè)可能的分段,其中之一將前終端ShowFlightCmd映射到ε。因此,根據(jù)第三個(gè)實(shí)例,再給圖2G所示的第一個(gè)重寫規(guī)則分配三分之一的計(jì)數(shù)。
      使用這類1/2分析,可以理解第二個(gè)重寫規(guī)則(SFCmd→ε)只受第一個(gè)實(shí)例的支持。因此,雖然第一實(shí)例具有兩個(gè)可能的分段,而且其中之一支持第二個(gè)重寫規(guī)則,所以給第二個(gè)重寫規(guī)則(SFCmd→from)分配二分之一的計(jì)數(shù)。
      第三個(gè)重寫規(guī)則(SFCmd→Flight)只受圖2F所示第二和第三個(gè)實(shí)例中一個(gè)分段的支持。從而,由于這些實(shí)例中的每一個(gè)都具有三個(gè)可能的分段、所以從每一個(gè)實(shí)例中給第三個(gè)重寫規(guī)則(SFCmd→Flight)分配三分之一的計(jì)數(shù)。
      組件302以這種方式將計(jì)數(shù)分配給圖2中所列舉重寫規(guī)則中的每一個(gè)重寫規(guī)則,而且這些計(jì)數(shù)在圖2G所示表格中的第二列中被說(shuō)明。將計(jì)數(shù)全部轉(zhuǎn)換,以使它們具有公分母,然后為每個(gè)前終端標(biāo)準(zhǔn)化該等計(jì)數(shù),以便取得概率。換句話說(shuō),ShowFlightCmd的概率總量必須加至1。因此,每個(gè)重寫規(guī)則的計(jì)數(shù)將與標(biāo)準(zhǔn)化因數(shù)相乘,以便獲得與重寫規(guī)則相關(guān)的概率。
      例如,可以理解前終端ShowFlightCmd的計(jì)數(shù)的總數(shù)目為3。因此,第一重寫規(guī)則(SFCmd→ε)的概率為7/18。同樣地,第二重寫規(guī)則(SFCmd→from)的概率為3/18等。組件302對(duì)每個(gè)重寫規(guī)則和每個(gè)前終端的計(jì)數(shù)進(jìn)行處理,以便獲得這個(gè)概率。
      同樣可以理解,對(duì)于前終端FPDCity來(lái)說(shuō),在所有不同規(guī)則上的計(jì)數(shù)總和為2,因此標(biāo)準(zhǔn)化因數(shù)為1/2。對(duì)于最后的前終端FPDCity來(lái)說(shuō),只有一個(gè)計(jì)數(shù),因此標(biāo)準(zhǔn)化因數(shù)為1。從而可以理解,組件302將與每個(gè)重寫規(guī)則相關(guān)的概率重置為1,其能更準(zhǔn)確地反映由實(shí)例支持的重寫規(guī)則的出現(xiàn)率。對(duì)計(jì)數(shù)標(biāo)準(zhǔn)化的目的是獲得由圖3B中的塊312所表示的新的概率。
      組件302在這個(gè)處理(再估算計(jì)數(shù)和獲得新的概率)上重復(fù)直到計(jì)數(shù)和概率收斂于一點(diǎn)(converge)。這由塊314表示。例如,為了獲得第一個(gè)重寫規(guī)則的新計(jì)數(shù)C,組件302執(zhí)行方程式1,其第一個(gè)找到觀測(cè)給定的非結(jié)束符序列ShowFlightCmd和FDCity的單詞“from”的總似然性,其如下方程式1P(from\ShowFlightCmd FPDCity)-P(ε\ShowFlightCmd)*P(from\FPDCity)+P(from\ShowFlightCmd)*P(ε\FPDCity)-[(7/18)×(5/12)]+[(3/18)×(5/12)]=50/216
      在這個(gè)數(shù)量之外,將空字符串調(diào)整到ShowFlightCmd以及將“from”調(diào)整到FPDCity的分段的比例將成為新的期望的計(jì)數(shù)C方程式2C&OverBar;(e|ShowFlightCmd)=P(e|ShowFlightCmd)*P(form|FPDCity)P(from|ShowFlightCmdFPDCity)]]>=718&times;51250216=3521650216=3550=710]]>同樣地,第二重寫規(guī)則(SFCmd→from)的新的C如下計(jì)算方程式3C&OverBar;(from|cmd)=P(from|ShowFlightCmd)*P(e|FPDCity)P(from|ShowFightCmdFDPCity)]]>=318&times;51250216=1521650216=310]]>對(duì)每個(gè)重寫規(guī)則繼續(xù)這個(gè)處理,以便從每個(gè)實(shí)例中收集計(jì)數(shù)C。然后,將新計(jì)數(shù)與標(biāo)準(zhǔn)化因數(shù)相乘獲得新概率。如圖2B所示,部件302在這個(gè)處理上重復(fù)進(jìn)行。再次列舉新計(jì)數(shù)和新概率直到概率收斂于一點(diǎn)。
      一旦重復(fù)完畢,組件302將已計(jì)算出與每個(gè)列舉重寫規(guī)則相關(guān)的新計(jì)數(shù)和新概率。雖然其由于已將每個(gè)分段的概率分配給相應(yīng)于不同分段(再訓(xùn)練期間獲得的)的規(guī)則而十分有益,但是這可能不是最期望的最終結(jié)果。例如,一些分析器不能利用概率。同樣,在一些分析組件中,大量的規(guī)則致使分析器變得低效。
      因此,根據(jù)本發(fā)明的一個(gè)具體實(shí)施例,組件302將規(guī)則和關(guān)聯(lián)的概率提供給剪除組件304,在這里將剪除規(guī)則。這由圖3B中的塊316和318表示。剪除組件304可以若干不同方式之一來(lái)剪除規(guī)則(如塊320表示)。例如,剪除組件304可以簡(jiǎn)單地剪除出概率低于期望閾級(jí)的規(guī)則。然后,組件304將剩余的規(guī)則列入基于規(guī)則的語(yǔ)法210中。
      根據(jù)另一個(gè)具體實(shí)施例,剪除組件304去除除了預(yù)定數(shù)量的具有高似然性的相應(yīng)于每個(gè)實(shí)例的分段之外的所有分段,并且根據(jù)剩余的分段,只將重寫規(guī)則列入語(yǔ)法中。例如,組件304可以去除所有相應(yīng)于每個(gè)實(shí)例的分段,除了具有最高概率的分段。因此,例如1,假定將單詞“from”映射到前終端FlightPreDepatureCity的分段具有比將單詞“from”分配到前終端ShowFlightCmd的分段高的概率。在這個(gè)例子中,將去除第二個(gè)分段(將“from”映射到ShowFlightCmd)。在這種情況下,支持已選分段的兩個(gè)重寫規(guī)則增加到語(yǔ)法上。因此,重寫規(guī)則“SFCmd→ε”和重寫規(guī)則“SFCmd→from”都將加到語(yǔ)法上。
      同樣地,不受任何實(shí)例的最佳分段支持的規(guī)則可從圖2G所示的列出的規(guī)則中去除。從而,由于“SFCmd→from”只受已去除的實(shí)例1的分段的支持,所以可以去除規(guī)則“SFCmd→from”。
      現(xiàn)在將以更正式的數(shù)學(xué)術(shù)語(yǔ)的形式來(lái)描述以這種方式應(yīng)用的EM算法。分段歧義解析可被形式化為查找單詞序列w=w1、w2、...wn的m個(gè)分塊π=α1、α2、...、αm,以將每個(gè)塊調(diào)整至序列N=NT1、NT2、...NTm。每個(gè)塊可包含有有0個(gè)或多個(gè)w中的單詞。
      如果我們使用方程式4建立π、N和w的聯(lián)合概率的模型方程式4P(&pi;,N,w)=&Pi;i=1mP(NTi&RightArrow;&alpha;i)]]>然后給出的N和w,可以如下獲得最可能的分段方程式5&pi;&OverBar;=argmax&pi;P(&pi;,N,w)=argmax&pi;=&alpha;1,&alpha;m&Pi;i=1mp(NTi&RightArrow;&alpha;i)]]>這種分割可以使用維特比搜索來(lái)找到。因此剩下的問(wèn)題只是為每個(gè)前終端(或概念)NT和單詞序列α估算模型參數(shù)P(NT→α)。如果訓(xùn)練數(shù)據(jù)為與每個(gè)前終端的單詞序列配對(duì)的前終端列表,那么這可使用最大似然(EM)估算來(lái)完成。無(wú)論如何,經(jīng)由創(chuàng)造工具從用戶獲得的訓(xùn)練實(shí)例例證性地為一對(duì)前終端語(yǔ)句和終端語(yǔ)句。該分割或分段為隱藏的變量并且對(duì)于該工具是未知的。
      EM算法最初為模型設(shè)置參數(shù)PΦ,然后反復(fù)修改參數(shù)直至PΦ`,這樣增加了觀測(cè)D的似然性。
      為了找到這種PΦ`,我們以(6)的形式定義了輔助函數(shù)Q方程式6
      其為L(zhǎng)(D|PΦ`)-L(D|PΦ)的下限,即兩個(gè)模型參數(shù)化之間的訓(xùn)練數(shù)據(jù)的記錄似然性差異。根據(jù)前終端的的所有可能的概率必須共計(jì)至1的限制,EM算法通過(guò)最大化Q將參數(shù)PΦ`重置,以便通過(guò)新參數(shù)化法來(lái)最大化地增加訓(xùn)練采樣似然性。因此,對(duì)于每個(gè)規(guī)則NT→α,它的新概率可以通過(guò)解算下列方程式來(lái)獲得方程式7 方程式8 因此,概率應(yīng)被重置到預(yù)期的計(jì)數(shù)乘以標(biāo)準(zhǔn)化因數(shù)-1/λ方程式9 為了計(jì)算期望的計(jì)數(shù),應(yīng)注意方程式10
      因此方程式11 使Eijk=(N&DoubleRightArrow;w1,...,wi-1,NTk,wj-1,...,wn)]]>為將前終端序列N重寫到單詞序列w的處理中的事件,規(guī)則NT→α用于N中的第k個(gè)前終端以便生成子序列α=wI、...、wj,并且使λst(p,q)為序列N中的位置為s到t的前終端代替終端單詞wp、...、wq-1的概率。因此方程式12 因此,如果我們可以計(jì)算出λst(p,q),那么我們可以組合方程式(9)、(11)和(13)來(lái)獲得期望的計(jì)數(shù)并重置模型參數(shù)。實(shí)際上λst(p,q)可使用根據(jù)方程式(14)的動(dòng)態(tài)規(guī)劃法計(jì)算,其中ε為空字符方程式14 應(yīng)注意,P&Phi;(N,W)=&lambda;1m(1,n+1)]]>可以用在等式中。
      因此,本發(fā)明的一個(gè)方面將EM算法應(yīng)用于分段歧義的消除上。這可以完全自動(dòng)開(kāi)始語(yǔ)法創(chuàng)造處理,因而減少了研發(fā)者干預(yù)的必要性。它還執(zhí)行一致的歧義消除并且自動(dòng)地執(zhí)行歧義消除,即使存在大量的在模板語(yǔ)法生成之后未分配的前終端和單詞。
      盡管已參考特定的具體實(shí)施例描述了本發(fā)明,但是本領(lǐng)域熟練的技術(shù)人員將意識(shí)到在不脫離本發(fā)明的精神和范圍的情況下可以做出形式和細(xì)節(jié)上的變化。
      權(quán)利要求
      1.一種用于自然語(yǔ)言處理的生成基于規(guī)則的語(yǔ)法的方法識(shí)別訓(xùn)練數(shù)據(jù)中的分段歧義,其中訓(xùn)練數(shù)據(jù)的分段是有歧義的;列舉所有歧義分段的重寫規(guī)則;以及通過(guò)基于由訓(xùn)練數(shù)據(jù)所支持的重寫規(guī)則的發(fā)生來(lái)生成每個(gè)列舉的重寫規(guī)則的概率,從而自動(dòng)解析分段歧義。
      2.根據(jù)權(quán)利要求1的方法,其中自動(dòng)解析分段歧義包括基于由訓(xùn)練數(shù)據(jù)支持的列舉的重寫規(guī)則的出現(xiàn),估算每個(gè)所列舉的重寫規(guī)則的計(jì)數(shù);基于已估算的計(jì)數(shù),生成每個(gè)列舉的重寫規(guī)則的概率;基于已獲得的每個(gè)重寫規(guī)則的概率,重新估算已列舉的重寫規(guī)則的計(jì)數(shù);以及繼續(xù)獲得概率和重新估算計(jì)數(shù)的步驟,直到獲得已期望的收斂。
      3.根據(jù)權(quán)利要求2的方法,還包括接收訓(xùn)練數(shù)據(jù)。
      4.根據(jù)權(quán)利要求3的方法,其中接收訓(xùn)練數(shù)據(jù)包括接收大綱和一個(gè)或多個(gè)語(yǔ)義注釋文本串。
      5.根據(jù)權(quán)利要求4的方法,其中識(shí)別分段歧義包括從訓(xùn)練數(shù)據(jù)中生成模板語(yǔ)法,該模板語(yǔ)法包括重寫規(guī)則。
      6.根據(jù)權(quán)利要求5的方法,其中識(shí)別分段歧義包括從大綱、重寫規(guī)則和注釋文本串中生成分析樹(shù)。
      7.根據(jù)權(quán)利要求6的方法,其中每個(gè)重寫規(guī)則將分析樹(shù)的端結(jié)點(diǎn)映射到文本串部分,并且其中識(shí)別分段歧義包括識(shí)別文本串的歧義部分,所述文本串可被映射到一個(gè)以上的可能的分析樹(shù)的端結(jié)點(diǎn)。
      8.根據(jù)權(quán)利要求7的方法,其中列舉所有歧義分段的重寫規(guī)則包括列舉將文本串的歧義部分映射到分析樹(shù)的每個(gè)端結(jié)點(diǎn)的重寫規(guī)則。
      9.根據(jù)權(quán)利要求8的方法,其中生成每個(gè)列舉的重寫規(guī)則的概率包括標(biāo)準(zhǔn)化應(yīng)用到相同端結(jié)點(diǎn)上的每個(gè)重寫規(guī)則的計(jì)數(shù)。
      10.根據(jù)權(quán)利要求2的方法,還包括在估算計(jì)數(shù)之前,將分段歧義實(shí)例的每個(gè)可能的分段的概率設(shè)置成相同值。
      11.根據(jù)權(quán)利要求2的方法,其中自動(dòng)解析分段歧義包括基于生成的概率,剪除列舉的分段歧義。
      12.根據(jù)權(quán)利要求11的方法,其中剪除包括確定為每個(gè)重寫規(guī)則生成的概率是否滿足閾值;以及基于該確定,剪除重寫規(guī)則。
      13.根據(jù)權(quán)利要求12的方法,其中剪除包括剪除不滿足閾值的重寫規(guī)則。
      14.根據(jù)權(quán)利要求11的方法,其中剪除包括剪除已不受分段歧義的所有訓(xùn)練實(shí)例的最相似的分段支持的重寫規(guī)則。
      15.一種計(jì)算機(jī)執(zhí)行的語(yǔ)法創(chuàng)造系統(tǒng),用于創(chuàng)造基于規(guī)則的語(yǔ)法,包括模板語(yǔ)法生成器,配置其以接收訓(xùn)練數(shù)據(jù)并生成模板語(yǔ)法,該模板語(yǔ)法包括相應(yīng)于訓(xùn)練數(shù)據(jù)中的分段歧義的歧義重寫規(guī)則;消除歧義組件,耦合于模板語(yǔ)法生成器,接收歧義重寫規(guī)則并且配置其以生成歧義重寫規(guī)則的概率;以及剪除組件,耦合于消除歧義組件,配置其以基于所生成的概率來(lái)剪除歧義重寫規(guī)則。
      16.根據(jù)權(quán)利要求15的語(yǔ)法創(chuàng)造系統(tǒng),其中每個(gè)歧義重寫規(guī)則都相應(yīng)于一組歧義分段中的一個(gè)可能的分段。
      17.根據(jù)權(quán)利要求16的語(yǔ)法創(chuàng)造系統(tǒng),其中消除歧義組件包括估算最大化(EM)算法應(yīng)用組件,配置其以應(yīng)用EM算法生成與每個(gè)可能的分段相關(guān)的概率。
      全文摘要
      生成基于規(guī)則的語(yǔ)法。在訓(xùn)練數(shù)據(jù)中識(shí)別分段歧義。列舉歧義分段的重寫規(guī)則并且為其每一個(gè)生成概率?;谠摳怕蕘?lái)解析歧義。在一個(gè)具體實(shí)施例中,通過(guò)應(yīng)用期望最大(EM)算法來(lái)進(jìn)行。
      文檔編號(hào)G06F17/28GK1542650SQ20041003522
      公開(kāi)日2004年11月3日 申請(qǐng)日期2004年4月5日 優(yōu)先權(quán)日2003年4月3日
      發(fā)明者王野翊, A·埃西羅, 髀 申請(qǐng)人:微軟公司
      網(wǎng)友詢問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1