国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      用于使用多個(gè)所選知識(shí)庫來回答自然語言問題的設(shè)備和方法

      文檔序號:9422795閱讀:284來源:國知局
      用于使用多個(gè)所選知識(shí)庫來回答自然語言問題的設(shè)備和方法
      【技術(shù)領(lǐng)域】
      [0001]本發(fā)明涉及用于使用多個(gè)所選知識(shí)庫來自動(dòng)回答自然語言問題的設(shè)備和方法。
      【背景技術(shù)】
      [0002]當(dāng)今的企業(yè)需要基于分析來自海量且異構(gòu)的數(shù)據(jù)庫或源的信息而做出決策。對機(jī)器或技術(shù)安裝進(jìn)行控制的越來越多方面由數(shù)據(jù)驅(qū)動(dòng),并且作為結(jié)果,越來越多的操作者需要訪問數(shù)據(jù)。
      [0003]構(gòu)建工業(yè)等級的問題回答(QA)系統(tǒng)的挑戰(zhàn)是成許多倍的,這不僅是由于底層知識(shí)庫的領(lǐng)域特異性,而且還因?yàn)榕c系統(tǒng)的用戶交互,所述用戶交互需要涵蓋寬范圍的查詢。
      [0004]—個(gè)挑戰(zhàn)是在商用硬件上的運(yùn)行時(shí)性能。例如,可接受的速度可以被定義為在800ms內(nèi)計(jì)算回答表示。
      [0005]系統(tǒng)應(yīng)當(dāng)是可伸縮的,因?yàn)轫憫?yīng)時(shí)間不應(yīng)當(dāng)與正訪問的數(shù)據(jù)的大小成比例。
      [0006]企業(yè)數(shù)據(jù)是異構(gòu)且動(dòng)態(tài)的。QA系統(tǒng)需要集成這些源并且適應(yīng)它們變化的性質(zhì)。集成過程的部分包括提供用于數(shù)據(jù)的統(tǒng)一語義學(xué)。
      [0007]此外,不同的用戶需要訪問企業(yè)數(shù)據(jù),他們中的大多數(shù)知道他們想要什么但是不確切知道如何得到它。工業(yè)QA系統(tǒng)需要允許它們?nèi)菀椎乇硎霾樵?,盡可能地接近自然語言。
      [0008]該要求被以下事實(shí)所復(fù)雜化:大多數(shù)使用與其數(shù)據(jù)有關(guān)的領(lǐng)域特定的術(shù)語和概念。在問題回答過程中需要捕獲和使用該術(shù)語學(xué)??紤]到操作者多么習(xí)慣于以自然語言進(jìn)行會(huì)話,這樣的系統(tǒng)必須提供直觀的接口用于更正錯(cuò)誤,即觸及問題的正確含義并且使隨后的回答可視化。
      [0009]也就是說,系統(tǒng)用戶不僅要求使用(有效的)自然語言問題(例如向我示出在中國的所有活動(dòng)的單位)、查詢語言構(gòu)造,例如通過按容量降序排序的性能而選擇單位名稱),而且還要求使用(傳統(tǒng))關(guān)鍵詞搜索(例如,st rna ksp),或者這些的混合。這可能是重要的,因?yàn)槌R?guī)的語法驅(qū)動(dòng)的方法,例如通過它們的解析樹來標(biāo)識(shí)關(guān)系(de Marneffe、MacCartney、和Manning,2006))幾乎不能用作參考。
      [0010]安全性是在工業(yè)設(shè)置中訪問數(shù)據(jù)的重要方面。特別地,要求以下認(rèn)證:即發(fā)問者能夠訪問所涉及的所有數(shù)據(jù)片段。
      [0011]自然語言理解(NLU)已經(jīng)長期都是人工智能(Al)的目標(biāo)??紤]Al完成任務(wù),其包括將自然語言語句映射成以支持其它任務(wù)(諸如自動(dòng)化的推理、或問題回答)的形式化語言表述的完整的、無歧義的、形式化含義表示。
      [0012]對數(shù)據(jù)庫的自然語言訪問(NLIDB)是NLU任務(wù),其中目標(biāo)語言是結(jié)構(gòu)化查詢語言(例如SQL)。NLIDB已經(jīng)存在了很長時(shí)間,其開始于LUNAR系統(tǒng)(Woods 1970)。早期NLIDB系統(tǒng)主要米取手動(dòng)構(gòu)建的、基于語法的方法(Woods 1970 ;Warren和Pereira 1982 ;Dowding等,1993 ;Bos等,1996),所述方法經(jīng)證明不僅是勞動(dòng)力密集的而且還是脆弱的。
      [0013]開發(fā)了許多學(xué)習(xí)方法(Zelle和Mooney 1996 ;Miller等,1996)以及更新近地有(Kate、Wong 和 Mooney 2005 ;Kate 和 Mooney 2006 ;Zettlemoyer 和 Collins 2005 ;Wong 和Mooney 2006 ;2007)和(Lu 等,2008)。其中有兩個(gè)例外(Miller 等,1996)和(Zettlemoyer和Collins 2005),它們都采用語義驅(qū)動(dòng)的方法。
      [0014]學(xué)術(shù)上的問題回答系統(tǒng)示出了很大的希望:(Gunning等,2012)示出了具有很少訓(xùn)練并且沒有底層知識(shí)庫的知識(shí)的領(lǐng)域?qū)<铱梢允褂眠@樣的系統(tǒng)來回答在比如化學(xué)、生物和物理之類的科學(xué)領(lǐng)域中的復(fù)雜問題。
      [0015]近來,已經(jīng)存在來自工業(yè)部門的新興的興趣來使計(jì)算機(jī)系統(tǒng)不僅分析大量的相關(guān)信息(Ferrucci等,2010),而且還提供直觀的用戶接口來以交互式的對話方式、用自然語言提出問題(Sonntag 2009 ;Waltinger、Breuing 和 Wachsmuth 2012)。
      [0016]問題回答的若干工業(yè)應(yīng)用已經(jīng)提起了關(guān)于問題回答作為有效方式來與系統(tǒng)交互的興趣和認(rèn)知:IBM Watson的Jeopardy挑戰(zhàn)(Ferrucci等,2010)示出了能夠準(zhǔn)確地并且成規(guī)模地完成開放域QA。以Mathematica為中心的Wolfram Alpha的知識(shí)引擎是Apple的Siri后的引擎,其已經(jīng)證明是用于移動(dòng)設(shè)備的成功交互介質(zhì)。
      [0017]因此,本發(fā)明的目的是改進(jìn)對自然語言問題的自動(dòng)回答。

      【發(fā)明內(nèi)容】

      [0018]根據(jù)第一方面,提供了一種用于使用多個(gè)所選的數(shù)據(jù)庫來回答自然語言問題的自然語言問題回答設(shè)備。所述自然語言問題回答設(shè)備包括候選搜索實(shí)體、假說(hypthesis)生成實(shí)體、假說排列(ranking)實(shí)體以及知識(shí)庫路由實(shí)體。
      [0019]候選搜索實(shí)體被配置成提供針對所接收的自然語言問題的信息單元的多個(gè)面向三分法(trichotomy-oriented)的表示,其中面向三分法的表示中的每一個(gè)包括用于面向三分法的表示的知識(shí)庫特定的概念、概念實(shí)例、概念實(shí)例關(guān)系以及概率值。
      [0020]假說生成實(shí)體被配置成生成關(guān)于在概念、概念實(shí)例和概念實(shí)例關(guān)系之間的鏈接的多個(gè)假說。
      [0021]假說排列實(shí)體被配置成基于用所生成的假說來查詢輔知識(shí)庫以及面向三分法的表示的概率值而對所生成的假說進(jìn)行排列。
      [0022]知識(shí)庫路由實(shí)體被配置成基于經(jīng)排列的假說而從多個(gè)可用的知識(shí)庫中選擇多個(gè)知識(shí)庫。
      [0023]借助于用于輸入的問題的信息單元的本面向三分法的表示以及關(guān)于其鏈接的隨后的假說,對所述輔知識(shí)庫、特別是不同的輔知識(shí)庫進(jìn)行查詢得以改進(jìn)。
      [0024]本自然語言問題回答設(shè)備(在下文中也為:設(shè)備)的總體語義原理是在概念、實(shí)例以及連接它們的關(guān)系的表示內(nèi)的三分法。也就是說,給定輸入的問題,所述設(shè)備的目的首先在于標(biāo)識(shí)表示領(lǐng)域特定的或數(shù)據(jù)庫特定的概念的那些信息單元,并且然后第二是表示該概念的關(guān)聯(lián)值或?qū)嵗男畔l目。第三,所述設(shè)備目標(biāo)在于檢測在所標(biāo)識(shí)的對象之間是否存在關(guān)系,即概念實(shí)例關(guān)系。
      [0025]本三分法方法是有益的,因?yàn)橛稍O(shè)備消耗的數(shù)據(jù)可以附加地包括(半)結(jié)構(gòu)化鍵值(key-value)關(guān)聯(lián),其被存儲(chǔ)在多個(gè)數(shù)據(jù)庫視圖內(nèi),例如多個(gè)oracle數(shù)據(jù)庫視圖??紤]到半結(jié)構(gòu)屬性,因?yàn)樗紤]的信息單元不僅是單個(gè)日期、數(shù)字、溫度或?qū)嶓w,而且還是整個(gè)語句、短語或注釋塊。由于目標(biāo)應(yīng)用的面向數(shù)據(jù)庫的性質(zhì),預(yù)期的回答類型還可以與傳統(tǒng)的(大多地基于仿真陳述的(factoid_based))QA系統(tǒng)不同。更確切地,本設(shè)備(其也可以稱作QA設(shè)備或QA系統(tǒng))被提供為語義層,所述語義層連接并且操縱現(xiàn)有的查詢接口以及相應(yīng)的相關(guān)聯(lián)的知識(shí)或數(shù)據(jù)庫。所述設(shè)備的相應(yīng)回答因而主要是基于列表的,其附加地涉及多個(gè)數(shù)據(jù)庫表的聯(lián)結(jié)。
      [0026]根據(jù)實(shí)施例,自然語言問題回答設(shè)備的實(shí)體形成流水線或處理流水線。例如,候選搜索實(shí)體、假說生成實(shí)體、假說排列實(shí)體以及知識(shí)庫路由實(shí)體耦合到彼此并且形成所述處理流水線。
      [0027]例如,自然語言問題回答設(shè)備的處理流水線可以如下工作:每個(gè)輸入的問題通過標(biāo)識(shí)其語義概念表示而被處理。語義概念表示可以被定義為輸入的問題的代表性表示。
      [0028]隨后,生成相應(yīng)的解釋簽名(例如1968 {日期(1968);數(shù)字(1968);……})。
      [0029]在那之后,可以構(gòu)造回答簽名?;卮鸷灻ɑ卮痤愋?例如,直接的回答或基于SQL)、回答屬性(例如,數(shù)值的、日期)以及其中可以找到回答的預(yù)期的數(shù)據(jù)庫字段,例如,最確信的解釋被選擇并且組合成單獨(dú)排列的回答簽名。
      [0030]基于單獨(dú)的回答簽名,所述設(shè)備構(gòu)造回答文檔(例如報(bào)告)、回答查詢(例如,SQL語句)或產(chǎn)生直接的回答(例如仿真陳述回答短語),其最終被發(fā)送到輸出組件。集成組件中的每一個(gè)可以產(chǎn)生用于存儲(chǔ)單獨(dú)的解釋的置信度值。
      [0031]在候選搜索實(shí)體內(nèi),所述設(shè)備目的在于標(biāo)識(shí)和解析可能與彼此相互鏈接的不同概念。在面向三分法的表示之后,設(shè)備嘗試搜索并且區(qū)分概念(稱為回答字段(answerField)——例如PAC日期)、概念值實(shí)例(稱為搜索字段(searchField)——例如操作)或已經(jīng)擴(kuò)充的鍵值對(稱為領(lǐng)域字段(domainField)——例如,國家名稱:中國)。另夕卜,候選搜索實(shí)體可以給鍵值對之間的關(guān)系屬性進(jìn)行注解并且在查詢內(nèi)標(biāo)識(shí)時(shí)間和日期參考。也就是說,每個(gè)時(shí)間參考,諸如表達(dá)式,可以由例如其在Oracle時(shí)間戳方面的時(shí)間值來進(jìn)行注解。查詢擴(kuò)展模塊可以查詢SPARQL端點(diǎn),其嘗試收集單個(gè)實(shí)體的不同表面形式(例如GE vs.通用電氣)。開放領(lǐng)域知識(shí)模塊可以收集如在DBpedia數(shù)據(jù)集(Auer等,2008)內(nèi)聚集的數(shù)據(jù)。對于每個(gè)對應(yīng)的實(shí)體,UIMA注解器可以被合并在總體QA處理流水線中。
      [0032]根據(jù)實(shí)施例,假說生成實(shí)體被配置成針對概念、概念實(shí)例和概念實(shí)例關(guān)系的每個(gè)可能的組合而生成一個(gè)假說。
      [0033]作為該實(shí)施例的結(jié)果,借助于每個(gè)可能的假說,從知識(shí)庫中收集附加信息。因而,用于回答輸入的問題的查詢得以改進(jìn)。
      [0034]假說生成實(shí)體可以生成不同的問題解釋(S卩,問題可能意指什么的假說)。更確切地,基于候選搜索實(shí)體的輸出,它生成對回答字段(概念)和搜索字段(實(shí)例)如何連接到彼此(例如直接或隱式)(關(guān)系)的不同假說:
      c
      當(dāng)前第1頁1 2 3 4 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
      1