国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      自然語言生成語句的優(yōu)化方法及裝置與流程

      文檔序號:12363736閱讀:361來源:國知局
      自然語言生成語句的優(yōu)化方法及裝置與流程
      本公開涉及計算機應(yīng)用
      技術(shù)領(lǐng)域
      ,尤其涉及一種自然語言生成語句的優(yōu)化方法及裝置。
      背景技術(shù)
      :隨著深度學(xué)習(xí)在自然語言處理中的應(yīng)用,眼下關(guān)于自然語言生成語句的研究也是日益火熱。深度學(xué)習(xí)的各種模型多為基于概率模型,由概率統(tǒng)計得到的自然語言生成語句的準確性遠不如人為規(guī)則生成的語句,即自然語言生成語句的準確性還不夠高,可能得到某些不通順或者語法不合理的自然語言生成語句。例如,“美好多么的時光”、“我告訴右邊舍不得離開”等等。為了提高自然語言生成語句的準確性,還需要對自然語言生成語句作進一步地優(yōu)化。目前,優(yōu)化的方法多是基于人為規(guī)則或者語法依存關(guān)系,然而,由于自然語言具有多變性和復(fù)雜性,使得人為規(guī)則的適用性較差,語法依存關(guān)系的準確性又不夠高,往往會導(dǎo)致優(yōu)化過程中自然語言生成語句被錯誤地舍棄。例如,“美好多么的時光”和“我告訴右邊舍不得離開”即會被視為不符合人為規(guī)則或者不存在語法依存關(guān)系而被舍棄。然而,可以理解,“美好多么的時光”經(jīng)過詞語重組可以得到合理語句“多么美好的時光”,而“我告訴右邊舍不得離開”經(jīng)過詞語過濾則可以得到合理語句“我舍不得離開”。在優(yōu)化過程中,倘若將該些可能成為合理語句的自然語言生成語句舍棄,將會導(dǎo)致上下文不連貫等問題。因此,如何提高自然語言生成語句的優(yōu)化效率,以解決自然語言生成語句在優(yōu)化過程中被錯誤地舍棄的問題。技術(shù)實現(xiàn)要素:基于此,本公開的一個目的在于提供一種自然語言生成語句的優(yōu)化方法及裝置,用于解決現(xiàn)有技術(shù)中自然語言生成語句的優(yōu)化效率較低的問題。為了解決上述技術(shù)問題,本公開所采用的技術(shù)方案為:一種自然語言生成語句的優(yōu)化方法,包括:基于所述多元文法統(tǒng)計模型計算神經(jīng)網(wǎng)絡(luò)中自然語言生成語句的聯(lián)合概率;根據(jù)所述自然語言生成語句的聯(lián)合概率篩選所述自然語言生成語句,得到聯(lián)合概率為零的不合理語句;根據(jù)所述多元文法統(tǒng)計模型的知識圖譜對所述不合理語句進行路徑搜索,并根據(jù)搜索結(jié)果映射得到所述不合理語句的優(yōu)化結(jié)果;所述知識圖譜是由收集到的文本語料預(yù)先構(gòu)建的。一種自然語言生成語句的優(yōu)化裝置,包括:概率計算單元,用于基于所述多元文法統(tǒng)計模型計算神經(jīng)網(wǎng)絡(luò)中自然語言生成語句的聯(lián)合概率;語句篩選單元,用于根據(jù)所述自然語言生成語句的聯(lián)合概率篩選所述自然語言生成語句,得到聯(lián)合概率為零的不合理語句;語句優(yōu)化單元,用于根據(jù)所述多元文法統(tǒng)計模型的知識圖譜對所述不合理語句進行路徑搜索,并根據(jù)搜索結(jié)果映射得到所述不合理語句的優(yōu)化結(jié)果;所述知識圖譜是由收集到的文本語料預(yù)先構(gòu)建的。與現(xiàn)有技術(shù)相比,本公開具有以下有益效果:通過基于多元文法統(tǒng)計模型計算神經(jīng)網(wǎng)絡(luò)中自然語言生成語句的聯(lián)合概率,篩選得到聯(lián)合概率為零的不合理語句,進而根據(jù)該多元文法統(tǒng)計模型的知識圖譜對該不合理語句進行路徑搜索,由搜索結(jié)果映射得到該不合理語句的優(yōu)化結(jié)果。其中,多元文法統(tǒng)計模型的知識圖譜是由收集到的文本語料預(yù)先構(gòu)建的。也就是說,本公開并非基于人為規(guī)則或者語法依存關(guān)系,而是利用多元文法統(tǒng)計模型的知識圖譜將自然語言生成語句的優(yōu)化過程轉(zhuǎn)化為路徑搜索的過程,進而通過路徑搜索的過程對不合理語句中的詞進行詞語重組或者詞語過濾,使得不合理語句有機會被映射為合理語句,避免了自然語言生成語句在優(yōu)化過程中被錯誤地舍棄,以此提高了自然語言生成語句的優(yōu)化效率。應(yīng)當(dāng)理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。附圖說明此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本公開的實施例,并于說明書一起用于解釋本公開的原理。圖1是根據(jù)一示例性實施例示出的一種服務(wù)器的框圖;圖2是根據(jù)一示例性實施例示出的一種自然語言生成語句的優(yōu)化方法的流程圖;圖3是根據(jù)本公開所涉及的知識圖譜的示意圖;圖4是根據(jù)一示例性實施例示出的另一種自然語言生成語句的優(yōu)化方法的流程圖;圖5是圖4對應(yīng)實施例中步驟430在一個實施例的流程圖;圖6是圖2對應(yīng)實施例中步驟350在一個實施例的流程圖;圖7是根據(jù)本公開所涉及的知識圖譜的示意圖;圖8是根據(jù)一示例性實施例示出的另一種自然語言生成語句的優(yōu)化方法的流程圖;圖9是根據(jù)本公開所涉及的知識圖譜的示意圖;圖10是根據(jù)本公開所涉及的知識圖譜的示意圖;圖11是根據(jù)一示例性實施例示出的一種自然語言生成語句的優(yōu)化裝置的框圖;圖12是根據(jù)一示例性實施例示出的另一種自然語言生成語句的優(yōu)化裝置的框圖;圖13是圖12對應(yīng)實施例中詞典構(gòu)建單元在一個實施例的框圖;圖14是圖11對應(yīng)實施例中語句優(yōu)化單元在一個實施例的框圖;圖15是圖11對應(yīng)實施例中語句優(yōu)化單元在另一個實施例的框圖;。通過上述附圖,已示出本公開明確的實施例,后文中將有更詳細的描述,這些附圖和文字描述并不是為了通過任何方式限制本公開構(gòu)思的范圍,而是通過參考特定實施例為本領(lǐng)域技術(shù)人員說明本公開的概念。具體實施方式這里將詳細地對示例性實施例執(zhí)行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本公開相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本公開的一些方面相一致的裝置和方法的例子。本公開實施例提供了一種自然語言生成語句的優(yōu)化方法,該方法的執(zhí)行主體為終端或服務(wù)器,該終端可以為電腦、智能手機、智能電視等。圖1是根據(jù)一示例性實施例示出的一種服務(wù)器的框圖。該硬件結(jié)構(gòu)只是一個適用本公開的示例,不能認為是對本公開的使用范圍的任何限制,也不能解釋為本公開需要依賴于該服務(wù)器100。該服務(wù)器100可因配置或者性能的不同而產(chǎn)生較大的差異,如圖1所示,服務(wù)器100包括:電源110、接口130、至少一存儲介質(zhì)150、以及至少一中央處理器(CPU,CentralProcessingUnits)170。其中,電源110用于為服務(wù)器100上的各硬件設(shè)備提供工作電壓。接口130包括至少一有線或無線網(wǎng)絡(luò)接口131、至少一串并轉(zhuǎn)換接口133、至少一輸入輸出接口135以及至少一USB接口137等,用于與外部設(shè)備通信。存儲介質(zhì)150作為資源存儲的載體,可以是隨機存儲介質(zhì)、磁盤或者光盤等,其上所存儲的資源包括操作系統(tǒng)151、應(yīng)用程序153及數(shù)據(jù)155等,存儲方式可以是短暫存儲或者永久存儲。其中,操作系統(tǒng)151用于管理與控制服務(wù)器100上的各硬件設(shè)備以及應(yīng)用程序153,以實現(xiàn)中央處理器170對海量數(shù)據(jù)155的計算與處理,其可以是WindowsServerTM、MacOSXTM、UnixTM、LinuxTM、FreeBSDTM等。應(yīng)用程序153是基于操作系統(tǒng)151之上完成至少一項特定工作的計算機程序,其可以包括至少一模塊(圖示未示出),每個模塊都可以分別包含有對服務(wù)器100的一系列操作指令。數(shù)據(jù)155可以是存儲于磁盤中的照片、圖片、文本等等。中央處理器170可以包括一個或多個以上的處理器,并設(shè)置為通過總線與存儲介質(zhì)150通信,用于運算與處理存儲介質(zhì)150中的海量數(shù)據(jù)155。如上面所詳細描述的,適用本公開的服務(wù)器100將對神經(jīng)網(wǎng)絡(luò)中自然語言生成語句進行優(yōu)化,即通過中央處理器170讀取存儲介質(zhì)150中存儲的一系列操作指令的形式來實現(xiàn)自然語言生成語句的優(yōu)化方法。此外,通過硬件電路或者硬件電路結(jié)合軟件指令也能同樣實現(xiàn)本公開,因此,實現(xiàn)本公開并不限于任何特定硬件電路、軟件以及兩者的組合。請參閱圖2,在一示例性實施例中,一種自然語言生成語句的優(yōu)化方法適用于圖1所示的服務(wù)器100,該種自然語言生成語句的優(yōu)化方法可以由服務(wù)器100執(zhí)行,可以包括以下步驟:步驟310,基于多元文法統(tǒng)計模型計算神經(jīng)網(wǎng)絡(luò)中自然語言生成語句的聯(lián)合概率。神經(jīng)網(wǎng)絡(luò)通過對收集的文本語料進行訓(xùn)練,使機器學(xué)習(xí)到語言的各項特征,進而使得機器能夠在無人工干預(yù)的前提下生成自然語言生成語句。然而,由于神經(jīng)網(wǎng)絡(luò)是基于概率模型,其中生成的自然語言生成語句的準確性還不夠高,可能會生成某些不通順或者語法不合理的自然語言生成語句。為此,在對生成的自然語言生成語句進行優(yōu)化之前,需要對其準確性進行評估,以利于該些不通順或者語法不合理的自然語言生成語句的獲取。由于語言模型是通過收集的文本語料對語言本身的概率分布進行建模和訓(xùn)練得到的,其可反映出語言出現(xiàn)的概率,為此,本實施例中,評估自然語言生成語句的準確性通過利用語言模型對自然語言生成語句的聯(lián)合概率進行計算實現(xiàn)。進一步地,自然語言生成語句的聯(lián)合概率通過語言模型中的多元文法統(tǒng)計模型計算得到。其中,多元文法統(tǒng)計模型假設(shè)第n個詞的出現(xiàn)只與其前面的n-1個詞相關(guān),而與其它任何詞都不相關(guān),進而通過n個詞同時出現(xiàn)的概率反映出由該n個詞所構(gòu)成的語句的聯(lián)合概率??梢岳斫?,若語句的聯(lián)合概率越大,則表示語句出現(xiàn)的概率越大,即語句的準確性越高。具體地,多元文法統(tǒng)計模型計算語句的聯(lián)合概率如以下公式所示:p(x1,x2,…,xn)=p(xn|xn-1,xn-2,…,x1)…p(x3|x1,x2)p(x2|x1)p(x1)。其中,p(x1,x2,…,xn)表示n個詞同時出現(xiàn)的概率,亦即由該n個詞所構(gòu)成的語句的聯(lián)合概率,p(x1)表示第1個詞出現(xiàn)的概率,p(x2|x1)表示第2個詞與第1個詞同時出現(xiàn)的概率,以此類推。p(x1)、p(x2|x1)等概率則可進一步地通過在收集的文本語料中統(tǒng)計該些詞同時出現(xiàn)的次數(shù)得到。更進一步地,根據(jù)實際的應(yīng)用場景,多元文法統(tǒng)計模型中的n可以選取不同的數(shù)值。例如收集的文本語料有限時,多元文法統(tǒng)計模型可以是n=2的二元文法統(tǒng)計模型(Bi-Gram),還可以是n=3的三元文法統(tǒng)計模型(Tri-Gram)。以二元文法統(tǒng)計模型為例,二元文法統(tǒng)計模型假設(shè)一個詞的出現(xiàn)僅與其前面的一個詞相關(guān),其計算語句的聯(lián)合概率如以下公式所示:p(x1,x2,…,xn)=p(xn|xn-1)p(xn-1|xn-2)…p(x2|x1)p(x1)。通過采用二元文法統(tǒng)計模型對自然語言生成語句進行聯(lián)合概率的計算,不僅能夠避免收集的文本語料的全面性不足而導(dǎo)致語言模型對自然語言生成語句的準確性進行評估的有效性,而且有利于降低語言模型對聯(lián)合概率計算的復(fù)雜度。步驟330,根據(jù)自然語言生成語句的聯(lián)合概率篩選自然語言生成語句,得到聯(lián)合概率為零的不合理語句。不合理語句指的是不通順或者語法不合理的自然語言生成語句。應(yīng)當(dāng)理解,不合理語句是由于語句中存在至少兩個詞搭配不合理,例如,“美好多么的時光”中的“美好”和“多么”就屬于搭配不合理。換而言之,該兩個詞以“美好多么”的方式不可能存在原先收集到的文本語料中,亦即該兩個詞以“美好多么”的方式在原先收集到的文本語料中被統(tǒng)計到同時出現(xiàn)的次數(shù)為零?;诖?,在計算得到自然語言生成語句的聯(lián)合概率之后,按照聯(lián)合概率為零的原則即可由生成的自然語言生成語句中篩選出不合理語句,從而有利于后續(xù)對不通順或者語法不合理的自然語言生成語句進行優(yōu)化。步驟350,根據(jù)多元文法統(tǒng)計模型的知識圖譜對不合理語句進行路徑搜索,并根據(jù)搜索結(jié)果映射得到不合理語句的優(yōu)化結(jié)果。所謂的知識圖譜是指顯示知識結(jié)構(gòu)關(guān)系的圖形,進而通過可視化技術(shù)描述知識及其載體之間的相互聯(lián)系。由此可知,多元文法統(tǒng)計模型的知識圖譜是顯示語句結(jié)構(gòu)關(guān)系的圖形,其本質(zhì)是一種語義網(wǎng)絡(luò),網(wǎng)絡(luò)中的各節(jié)點表示語句中的各個詞語,網(wǎng)絡(luò)中連接各節(jié)點的邊則表示各個詞語之間的搭配關(guān)系,進而通過可視化技術(shù)描述語句及其載體詞之間的相互聯(lián)系,即通過可視化技術(shù)描述詞是如何構(gòu)成語句的。也就是說,在多元文法統(tǒng)計模型的知識圖譜中,通過節(jié)點及連接節(jié)點的邊所構(gòu)成的路徑即可映射出一句合理語句,例如圖3中的合理語句“你為什么不能堅持”,即是由“你”、“為什么”、“不能”和“堅持”等四個節(jié)點及相應(yīng)的邊所構(gòu)成的路徑映射得到的。基于此,通過該知識圖譜對不合理語句進行路徑搜索,將得到包含至少一條路徑的搜索結(jié)果,在得到搜索結(jié)果之后,即可根據(jù)知識圖譜中路徑與合理語句之間存在的映射關(guān)系,將搜索結(jié)果中的至少一條路徑映射得到至少一句合理語句,并以該合理語句作為不合理語句的優(yōu)化結(jié)果。需要說明的是,本實施例中,多元文法統(tǒng)計模型的知識圖譜是由收集到的文本語料預(yù)先構(gòu)建的。其中,文本語料可以通過例如網(wǎng)站爬取進行收集,以獲取盡可能多的新聞、小說、文章等文本語料,從而有利于語言模型、知識圖譜等的構(gòu)建和訓(xùn)練。通過如上所述的過程,實現(xiàn)了基于路徑搜索的自然語言生成語句的優(yōu)化,避免采用現(xiàn)有技術(shù)中基于人為規(guī)則或者語法依存關(guān)系對自然語言生成語句進行的優(yōu)化,以此降低了優(yōu)化過程中自然語言生成語句被錯誤地舍棄的機率,從而提高了自然語言生成語句的優(yōu)化效率。請參閱圖4,在一示例性實施例中,多元文法統(tǒng)計模型為二元文法統(tǒng)計模型。如前所述,一方面,受限于收集的文本語料的全面性,若n取值過大,由n個詞所構(gòu)成的語句即使是一合理語句,但是由于其可能并未存在于該收集的文本語料中,而導(dǎo)致計算出的自然語言生成語句的聯(lián)合概率為零,進而降低了多元文法統(tǒng)計模型的評估有效性;另一方面,n取值過大時,之前n-1個詞對第n個詞出現(xiàn)的影響是微乎其微的,反而增加了多元文法統(tǒng)計模型計算自然語言生成語句的聯(lián)合概率的復(fù)雜度。為此,本實施例中,令n=2,采用二元文法統(tǒng)計模型對自然語言生成語句的聯(lián)合概率進行計算,并基于此進行相應(yīng)知識圖譜的預(yù)先構(gòu)建。進一步地,如上所述的方法還可以包括以下步驟:步驟410,利用二元文法統(tǒng)計模型對文本語料進行分詞處理,獲取相鄰詞間的搭配信息。如前所述,多元文法統(tǒng)計模型的知識圖譜的各節(jié)點標識語句中的各詞,邊則表示各詞之間的搭配關(guān)系?;诖耍瑸榱藰?gòu)建二元文法統(tǒng)計模型的知識圖譜,需要先由收集到的文本語料中獲取語句中的相鄰詞以及相鄰詞之間的搭配關(guān)系,即相鄰詞間的搭配信息。應(yīng)當(dāng)理解,相鄰詞之間的搭配關(guān)系指的是兩個詞語按照前后順序進行的合理搭配,例如,“多么”和“美好”為相鄰詞,二者的合理搭配為“多么美好”,則二者的搭配關(guān)系是“多么”在“美好”之前。故而,相鄰詞間的搭配信息是能夠反映相鄰詞以及相鄰詞之間的搭配關(guān)系的,即通過相鄰詞間的搭配信息,能夠了解到其中包含的兩個相鄰詞、以此該兩個相鄰詞是按照何種前后順序進行合理搭配的。本實施例中,對文本語料的分詞處理由二元文法統(tǒng)計模型實現(xiàn)。具體地,通過二元文法統(tǒng)計模型計算分詞處理的語句中相鄰詞同時出現(xiàn)的概率,并根據(jù)計算得出的最大概率,即可獲取到最為合適的相鄰詞間的搭配信息。例如,“多么”和“美好”為相鄰詞,若二者按照“多么美好”的搭配順序同時出現(xiàn),則二元文法統(tǒng)計模型對此計算得出的概率較大,若二者按照“美好多么”的搭配順序同時出現(xiàn),則二元文法統(tǒng)計模型對此計算得出的概率為零。由此,依照概率大的原則,得到“多么”和“美好”兩個相鄰詞間的搭配信息為“多么美好”,即相鄰詞“多么”和“美好”是按照“多么”在前,“美好”在后的順序進行合理搭配的。其中,二元文法統(tǒng)計模型計算相鄰詞同時出現(xiàn)的概率的方法與其計算自然語言生成語句的聯(lián)合概率的方法類似,在此不再贅述。步驟430,根據(jù)搭配信息構(gòu)建二元文法統(tǒng)計模型對應(yīng)的詞典。二元文法統(tǒng)計模型對應(yīng)的詞典是用以提供相鄰詞間的搭配信息的,故而,在獲取到相鄰詞間的搭配信息之后,該詞典即可完成構(gòu)建。進一步地,詞典中還可以包含相鄰詞按照搭配關(guān)系同時出現(xiàn)的概率,以此反映搭配信息中包含的相鄰詞的出現(xiàn)頻率。舉例來說,搭配信息為“多么美好”,則相應(yīng)地,詞典中包含的概率是相鄰詞“多么”和“美好”按照“多么”在前,“美好”在后的搭配關(guān)系同時出現(xiàn)在文本語料中的概率。若概率越大,則表示該相鄰詞按照該搭配關(guān)系在文本語料中的出現(xiàn)頻率越高。步驟450,圖形化重構(gòu)詞典,得到二元文法統(tǒng)計模型的知識圖譜。由于二元文法統(tǒng)計模型的知識圖譜是圖形的形式,如圖3所示,因此,在構(gòu)建得到對應(yīng)的詞典之后,還需要對該詞典進行圖形化重構(gòu)。進一步地,通過詞典中包含的相鄰詞間的搭配信息進行圖形化重構(gòu)。例如,以搭配信息中包含的相鄰詞作為節(jié)點。連接節(jié)點的邊則表示相鄰詞之間的搭配關(guān)系。更進一步地,圖形化重構(gòu)還可以利用詞典中包含的相鄰詞按照搭配關(guān)系同時出現(xiàn)的概率或者頻次。例如,以相鄰詞按照搭配關(guān)系同時出現(xiàn)的概率或者頻次標識邊。如圖3所示,知識圖譜中,例如,節(jié)點有“我”和“堅持”,該兩節(jié)點作為相鄰詞所形成的邊表示了二者之間的搭配關(guān)系,即通過箭頭所指示的方向,表示了“我”在前,“堅持”在后的搭配關(guān)系。而邊上的數(shù)字16表示該兩相鄰詞按照該搭配關(guān)系同時出現(xiàn)在文本語料中的頻次。通過如上所述的過程,實現(xiàn)二元文法統(tǒng)計模型的知識圖譜的構(gòu)建,不僅避免了n取值過大時存在的不足,相較于n>2的多元文法統(tǒng)計模型,例如N元文法統(tǒng)計模型(N-Gram),具有更強的通用性和適用性,而且對文本語料的全面性要求也有所降低,從而更有利于提高自然語言生成語句的優(yōu)化效率。請參閱圖5,在一示例性實施例中,步驟430可以包括以下步驟:步驟431,根據(jù)搭配信息遍歷文本語料,計算搭配信息的詞頻。如前所述,相鄰詞間的搭配信息是能夠反映相鄰詞以及相鄰詞之間的搭配關(guān)系的,即通過相鄰詞間的搭配信息,能夠了解到其中包含的兩個相鄰詞、以此該兩個相鄰詞是按照何種前后順序進行合理搭配的。由此,詞頻表示的是搭配信息中相鄰詞按照搭配關(guān)系同時出現(xiàn)的次數(shù),為此,按照搭配信息遍歷文本語料,即按照搭配信息中的相鄰詞以及相鄰詞之間的搭配關(guān)系遍歷文本語料的所有語句中的相鄰詞,并統(tǒng)計該搭配信息中相鄰詞按照搭配關(guān)系在文本語料中同時出現(xiàn)的次數(shù),即可計算得到該搭配信息的詞頻。步驟433,建立搭配信息與詞頻的對應(yīng)關(guān)系,并保存對應(yīng)關(guān)系形成詞典。在得到搭配信息的詞頻之后,即可建立并保存二者之間的對應(yīng)關(guān)系,形成例如下表1所示的詞典。表1二元文法統(tǒng)計模型對應(yīng)的詞典當(dāng)然,根據(jù)實際的應(yīng)用場景,詞典的存儲形式可以是查找表,也可以是存儲器,本實施例中并未對此加以限制。在一示例性實施例中,步驟450可以包括以下步驟:以詞典中搭配信息包含的相鄰詞作為兩相鄰節(jié)點,按照相鄰詞的搭配關(guān)系連接兩相鄰節(jié)點形成邊,并以搭配信息的詞頻標識邊,構(gòu)建得到知識圖譜。在構(gòu)建得到詞典之后,即可由詞典中獲取到搭配信息及其詞頻。如前所述,多元文法統(tǒng)計模型的知識圖譜的各節(jié)點表示語句中的各詞,邊則表示各詞之間的搭配關(guān)系。為此,本實施例中,基于二元文法統(tǒng)計模型,相鄰兩節(jié)點用以表示搭配信息中的相鄰詞,連接相鄰兩節(jié)點所形成的邊則用以表示相鄰詞的搭配關(guān)系,即通過搭配信息中相鄰詞同時出現(xiàn)的概率標識邊,構(gòu)建得到二元文法統(tǒng)計模型的知識圖譜。其中,由于邊是按照相鄰詞的搭配關(guān)系連接兩相鄰節(jié)點形成的,因此,邊是具有方向性的,并且該方向性與相鄰詞的搭配關(guān)系緊密相關(guān)。舉例來說,相鄰詞“多么”和“美好”,二者之間的搭配關(guān)系為“多么美好”,故而,該相鄰詞對應(yīng)邊所具有的方向為由節(jié)點“多么”指向節(jié)點“美好”。進一步地,由于聯(lián)合概率不為零的合理語句取決于該合理語句中詞同時出現(xiàn)的概率,基于二元文法統(tǒng)計模型,則是取決于搭配信息中相鄰詞同時出現(xiàn)的概率??梢岳斫猓噜徳~同時出現(xiàn)的概率為正,而用以表示相鄰詞同時出現(xiàn)的次數(shù)的詞頻也大于零,因此,在上述知識圖譜的構(gòu)建基礎(chǔ)上,將通過搭配信息的詞頻取代相鄰詞同時出現(xiàn)的概率對邊進行標識。通過如上所述的過程,以搭配信息中相鄰詞同時出現(xiàn)的次數(shù)替代該相鄰詞同時出現(xiàn)的概率,有利于簡化自然語言生成語句在優(yōu)化過程中的計算復(fù)雜度,進而有利于進一步地提高自然語言生成語句的優(yōu)化效率。請參閱圖6,在一示例性實施例中,步驟350可以包括以下步驟:步驟351,以不合理語句中的每一個詞作為路徑起點,按照知識圖譜中邊的輸出方向搜索得到多條路徑。應(yīng)當(dāng)理解,兩相鄰節(jié)點按照相鄰詞的搭配關(guān)系具有前后關(guān)系,例如,相鄰節(jié)點“多么”和“美好”,按照相鄰詞的搭配關(guān)系,可知,節(jié)點“多么”為在前節(jié)點,而節(jié)點“美好”為在后節(jié)點。由此,本實施例中,知識圖譜中邊的輸出方向指的是由在前節(jié)點指向在后節(jié)點,例如,“多么->美好”,進一步地,路徑的搜索方向則是由作為路徑起點的節(jié)點按照邊的輸出方向逐漸指向作為路徑終點的節(jié)點。舉例來說,神經(jīng)網(wǎng)絡(luò)中自然語言生成語句為“美好多么的時光”,該自然語言生成語句的聯(lián)合概率為零。根據(jù)圖7所示的二元文法統(tǒng)計模型的知識圖譜,以聯(lián)合概率為零的不合理語句中的每一個詞作為路徑起點,則有節(jié)點“美好”、“多么”、“的”和“時光”。請繼續(xù)參閱圖7,按照知識圖譜中邊的輸出方向,例如,“多么->美好”、“多么->的”,搜索得到多條路徑。該多條路徑包括:“多么,美好,的,時光”、“多么,的,時光”、“多么,的,美好,時光”、“多么,美好,時光”、“美好,的,時光”、“美好,時光”、“的,美好,時光”、“的,時光”??梢岳斫?,以不合理語句中的詞“時光”作為路徑起點的,由于其不存在邊的輸出方向,故而,在搜索得到的路徑中并沒有與其對應(yīng)的路徑。步驟353,計算每一條路徑包含的所有邊的詞頻總和。由于所有邊都標識有搭配信息的詞頻,以此代表搭配信息中相鄰詞同時出現(xiàn)的概率。因此,在搜索得到路徑之后,即可根據(jù)知識圖譜中標識的詞頻,計算出每一條路徑包含的所有邊的詞頻總和。如圖7所示,搜索得到的多條路徑及其所對應(yīng)的詞頻總和如下表2所示:表2搜索結(jié)果步驟355,將詞頻總和最大的路徑所包含的各節(jié)點映射為自然語言語句,該自然語言語句即為優(yōu)化結(jié)果。由上表2可知,詞頻總和969最大的路徑為“多么,美好,的,時光”,因此,通過該路徑所包含的各節(jié)點映射得到的不合理語句的優(yōu)化結(jié)果為“多么美好的時光”。通過如上所述的過程,實現(xiàn)了對不合理語句中詞的重組,進而避免了該不合理語句被錯誤地舍棄,以此提高了自然語言生成語句的優(yōu)化效率。進一步地,請參閱圖8,在一示例性實施例中,步驟353之前,如上所述的方法還可以包括以下步驟:步驟510,確定多條路徑中每一條路徑中的節(jié)點數(shù)量。步驟530,判斷多條路徑中每一條路徑中的節(jié)點數(shù)量是否大于預(yù)設(shè)閾值。應(yīng)當(dāng)理解,若搜索得到的路徑數(shù)量過多,對每一條路徑包含的所有邊的詞頻總和進行計算將產(chǎn)生龐大的計算任務(wù),進而可能占用服務(wù)器較多的內(nèi)存,而影響服務(wù)器對其他任務(wù)的處理效率。為此,將對搜索得到的多條路徑進行篩選,通過篩選保留較有可能映射為合理語句的路徑,以基于篩選后的路徑進行計算。由于文本語料中詞同時出現(xiàn)的不確定性,將有可能出現(xiàn)由較少詞構(gòu)成的語句的詞頻總和反而要大于由較多詞構(gòu)成的語句的詞頻總和,因此,考慮到盡量少的過濾不合理語句中的詞,本實施例中,以深度優(yōu)先的原則進行路徑篩選,即在確定路徑中節(jié)點數(shù)量之后,判斷路徑中節(jié)點數(shù)量與預(yù)設(shè)閾值的比較結(jié)果,進而通過比較結(jié)果進行路徑篩選,最終保留節(jié)點數(shù)量超過預(yù)設(shè)閾值的路徑。進一步地,預(yù)設(shè)閾值設(shè)置為不合理語句中詞數(shù)量的一半,若路徑中節(jié)點數(shù)量不足不合理語句中詞數(shù)量的一半,則舍棄該路徑。通過如此設(shè)置,在有效地減少服務(wù)器的計算量的同時,還考慮了對不合理語句中詞的過濾的合理性,使得不合理語句中的詞不至于被大量的過濾掉,進而有利于進一步地提高自然語言生成語句的優(yōu)化效率。當(dāng)然,在其他實施例中,預(yù)設(shè)閾值也可以設(shè)置為不合理語句中詞數(shù)量中的其他任意值,本公開并未對此加以限制。相應(yīng)地,步驟353則進一步地包括:計算多條路徑中節(jié)點數(shù)量大于預(yù)設(shè)閾值的每一條路徑包含的所有邊的詞頻總和。舉例來說,神經(jīng)網(wǎng)絡(luò)中自然語言生成語句為“自然不會音樂每天他”,該自然語言生成語句的聯(lián)合概率為零。根據(jù)圖9所示的二元文法統(tǒng)計模型的知識圖譜,對上述聯(lián)合概率為零的不合理語句進行路徑搜索,即得到搜索結(jié)果如下表3:表3搜索結(jié)果路徑詞頻總和自然,不會56音樂,不會7他,今天118他,不會42由于搜索得到的所有路徑中節(jié)點數(shù)量(2)均為超過不合理語句中詞數(shù)量的一半(2.5),因此,搜索得到的所有路徑均被舍棄,進而使得該生成的自然語言生成語句也被舍棄。又例如,神經(jīng)網(wǎng)絡(luò)中自然語言生成語句為“我告訴右邊舍不得離開”,該自然語言生成語句的聯(lián)合概率為零。根據(jù)圖10所示的二元文法統(tǒng)計模型的知識圖譜,對上述聯(lián)合概率為零的不合理語句進行路徑搜索,即得到搜索結(jié)果如下表4:表4搜索結(jié)果路徑詞頻總和我,舍不得,離開88我,右邊16我,告訴172由于搜索得到的路徑中僅有“我,舍不得,離開”的節(jié)點數(shù)量(3)超過不合理語句中詞數(shù)量的一半(2.5),因此,僅有該路徑得以保留,進而通過該路徑所包含的各節(jié)點映射得到的不合理語句的優(yōu)化結(jié)果為“我舍不得離開”。通過如上所述的過程,實現(xiàn)了對不合理語句中詞的過濾,并在保證生成的自然語言生成語句不會被錯誤地舍棄的前提下,同時實現(xiàn)了對搜索得到的路徑的篩選,有效地減少了服務(wù)器的計算量,降低了服務(wù)器被占用的內(nèi)存,不僅有利于進一步地提升服務(wù)器對自然語言生成語句的優(yōu)化效率,而且有利于提升服務(wù)器處理其他任務(wù)的處理效率。下述為本公開裝置實施例,可以用于執(zhí)行本公開所涉及的自然語言生成語句的優(yōu)化方法。對于本公開裝置實施例中未披露的細節(jié),請參照本公開所涉及的自然語言生成語句的優(yōu)化方法的實施例。請參閱圖11,在一示例性實施例中,一種自然語言生成語句的優(yōu)化裝置700包括但不限于:概率計算單元710、語句篩選單元730和語句優(yōu)化單元750。其中,概率計算單元710用于基于多元文法統(tǒng)計模型計算神經(jīng)網(wǎng)絡(luò)中自然語言生成語句的聯(lián)合概率。語句篩選單元730用于根據(jù)自然語言生成語句的聯(lián)合概率篩選自然語言生成語句,得到聯(lián)合概率為零的不合理語句。語句優(yōu)化單元750用于根據(jù)多元文法統(tǒng)計模型的知識圖譜對不合理語句進行路徑搜索,并根據(jù)搜索結(jié)果映射得到不合理語句的優(yōu)化結(jié)果。知識圖譜是由收集到的文本語料預(yù)先構(gòu)建的。請參閱圖12,在一示例性實施例中,多元文法統(tǒng)計模型為二元文法統(tǒng)計模型,進一步地,如上所述的裝置700還可以包括但不限于:信息獲取單元810、詞典構(gòu)建單元830和圖譜構(gòu)建單元850。其中,信息獲取單元810用于利用二元文法統(tǒng)計模型對文本語料進行分詞處理,獲取相鄰詞間的搭配信息。詞典構(gòu)建單元830用于根據(jù)搭配信息構(gòu)建二元文法統(tǒng)計模型對應(yīng)的詞典。圖譜構(gòu)建單元850用于圖形化重構(gòu)詞典,得到二元文法統(tǒng)計模型的知識圖譜。請參閱圖13,在一示例性實施例中,詞典構(gòu)建單元830包括但不限于:信息遍歷模塊831和對應(yīng)模塊833。其中,信息遍歷模塊831用于根據(jù)搭配信息遍歷文本語料,計算搭配信息的詞頻。對應(yīng)模塊833用于建立搭配信息與詞頻的對應(yīng)關(guān)系,并保存對應(yīng)關(guān)系形成詞典。在一示例性實施例中,圖譜構(gòu)建單元850包括但不限于:詞典重構(gòu)模塊。其中,詞典重構(gòu)模塊用于以詞典中搭配信息包含的相鄰詞作為兩相鄰節(jié)點,按照相鄰詞的搭配關(guān)系連接兩相鄰節(jié)點形成邊,并以搭配信息的詞頻標識邊,構(gòu)建得到知識圖譜。請參閱圖14,在一示例性實施例中,語句優(yōu)化單元750包括但不限于:路徑搜索模塊751、詞頻計算模塊753和語句映射模塊755。其中,路徑搜索模塊751用于以不合理語句中的每一個詞作為路徑起點,按照知識圖譜中邊的輸出方向搜索得到多條路徑。詞頻計算模塊753用于計算每一條路徑包含的所有邊的詞頻總和。語句映射模塊755用于將詞頻總和最大的路徑所包含的各節(jié)點映射為自然語言語句,該自然語言語句即為優(yōu)化結(jié)果。請參閱圖15,在一示例性實施例中,語句優(yōu)化單元750還包括但不限于:節(jié)點數(shù)量確定模塊910和節(jié)點數(shù)量判斷模塊930。其中,節(jié)點數(shù)量確定模塊910用于確定多條路徑中每一條路徑中的節(jié)點數(shù)量。節(jié)點數(shù)量判斷模塊930用于判斷多條路徑中每一條路徑中的節(jié)點數(shù)量是否大于預(yù)設(shè)閾值。相應(yīng)的,詞頻計算模塊753用于計算多條路徑中節(jié)點數(shù)量大于預(yù)設(shè)閾值的每一條路徑包含的所有邊的詞頻總和。需要說明的是,上述實施例所提供的自然語言生成語句的優(yōu)化裝置在優(yōu)化自然語言生成語句時,僅以上述各功能模塊的劃分進行舉例說明,實際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模塊完成,即服務(wù)器的內(nèi)部結(jié)構(gòu)將劃分為不同的功能模塊,以完成以上描述的全部或者部分功能。另外,上述實施例所提供的自然語言生成語句的優(yōu)化裝置與自然語言生成語句的優(yōu)化方法的實施例屬于同一構(gòu)思,其中各個模塊執(zhí)行操作的具體方式已經(jīng)在方法實施例中進行了詳細描述,此處不再贅述。上述內(nèi)容,僅為本公開的較佳示例性實施例,并非用于限制本公開的實施方案,本領(lǐng)域普通技術(shù)人員根據(jù)本公開的主要構(gòu)思和精神,可以十分方便地進行相應(yīng)的變通或修改,故本公開的保護范圍應(yīng)以權(quán)利要求書所要求的保護范圍為準。當(dāng)前第1頁1 2 3 
      當(dāng)前第1頁1 2 3 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點贊!
      1