專利名稱:使用候選答案邏輯綜合提供問題答案的制作方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及信息檢索。更具體地說,本發(fā)明涉及問答。再具體地說,本發(fā)明涉及問/答系統(tǒng)以及通過產(chǎn)生和評估多個候選答案,執(zhí)行并行分析以提供問題答案的方法。
背景技術(shù):
一般而言,問答(QA)是一種信息檢索。在給定檔案集合(例如,萬維網(wǎng)或本地集合)的情況下,QA系統(tǒng)應(yīng)該能夠檢索以自然語言提出的問題的答案。QA被認(rèn)為需要比諸如文檔檢索之類的其他信息檢索類型更復(fù)雜的自然語言處理(NLP)技術(shù),QA有時被視為超越搜索引擎的下一步。QA研究嘗試處理大范圍的問題類型,其包括:事實、列表、定義、方式、原因、假設(shè)、語義約束和跨語言問題。從小型本地文檔集合到內(nèi)部組織文檔,到編譯的新聞專線報道,再到萬維網(wǎng),搜索集合均有所不同。閉域問答處理特定域下的問題(例如,醫(yī)藥和汽車維修),并且可被視為較輕松的任務(wù),因為NLP系統(tǒng)可利用經(jīng)常以本體形式化的域特定知識。備選地,閉域可能指示其中僅接受有限類型問題(例如,查詢描述性信息而非程序性信息的問題)的情況。開域問答處理有關(guān)幾乎任何事情的問題,可以僅依賴于一般本體和世界知識。但是開域Q/A系統(tǒng)通常具有更多可從中提取答案的可用數(shù)據(jù)。
對信息的訪問目前主要包括兩個范式:數(shù)據(jù)庫查詢,所述數(shù)據(jù)庫查詢回答有關(guān)結(jié)構(gòu)化記錄集合之內(nèi)的問題;以及搜索,所述搜索響應(yīng)于對非結(jié)構(gòu)化數(shù)據(jù)集合的查詢而傳送文檔鏈接集合(文本、html等)。此類信息查詢范式的主要挑戰(zhàn)在于提供能夠根據(jù)大文檔集合(所有種類的文檔,包括結(jié)構(gòu)化文檔和非結(jié)構(gòu)化文檔)中包括的信息回答事實問題的計算機(jī)程序。此類答案的范圍寬到諸如“缺乏維生素K有哪些危害”,窄到諸如“希拉里.克林頓父親出生在何時、何地”。用戶與此類計算機(jī)程序的交互可以是單次用戶-計算機(jī)交換,也可以是用戶與計算機(jī)系統(tǒng)之間的多輪對話。此類對話可以涉及一種或多種形式(文本、語音、觸覺、手勢等)。此類交互的實例包括這樣一種情形:其中電話用戶使用語音提問,接收語音、文本和圖像(例如,帶有文本注釋的圖)及語音(計算機(jī)產(chǎn)生的)解釋組合而成的答案。另一實例是用戶與視頻游戲進(jìn)行交互,并使用機(jī)器可識別的手勢拒絕或接受答案,或者是計算機(jī)產(chǎn)生指示用戶的觸覺輸出。構(gòu)建此類計算機(jī)系統(tǒng)的挑戰(zhàn)在于理解查詢,查找可能包含答案的相應(yīng)文檔,以及提取要提供給用戶的正確答案。目前,理解查詢是一個公開的難題,因為計算機(jī)不具備人類理解自然語言的能力,也沒有從當(dāng)前(非常初級的)自然語言理解系統(tǒng)可產(chǎn)生的許多可能解釋中做出選擇的常識。通過一輪或多輪對話回答事實查詢的能力具有巨大的潛在價值,因為它允許實時存取準(zhǔn)確的信息。例如,提高現(xiàn)有問答技術(shù)水平具有巨大商業(yè)價值,因為這樣可以實時了解業(yè)務(wù)狀況、競爭對手、經(jīng)濟(jì)條件等。即使QA采取最初級的形式,也可以將信息工作者的生產(chǎn)效率提高好幾個量級。在此全部納入作為參考的編號為12/152,441的美國專利的公開描述了一種QA系統(tǒng),包括產(chǎn)生候選答案以及從一組候選答案中選擇最終答案(或?qū)ψ罱K答案的列表進(jìn)行排序)。但是在某些情況下,通過將問題分解為不同的方面或組件,然后根據(jù)針對不同組件的答案或響應(yīng)綜合最終答案,可以更好地解決問題。
發(fā)明內(nèi)容
本發(fā)明的實施例提供一種產(chǎn)生問題答案的方法、系統(tǒng)和計算機(jī)過程產(chǎn)品。在一個實施例中,所述方法包括接收輸入查詢;將所述輸入查詢分解為多個不同的子查詢;在一個或多個數(shù)據(jù)源中執(zhí)行搜索以識別每個所述子查詢的至少一個候選答案。將候選排序函數(shù)應(yīng)用于每個所述候選答案以判定所述每個所述候選答案的排序;針對每個所述子查詢,根據(jù)所述一個所述候選答案的所述排序選擇所述子查詢的所述候選答案之一。應(yīng)用邏輯綜合組件以根據(jù)所述子查詢的所述選定候選答案綜合所述輸入查詢的候選答案。在一個實施例中,所述邏輯綜合組件用于根據(jù)所述子查詢的所述選定候選答案綜合所述輸入查詢的所述候選答案的過程通過所述輸入查詢判定。在一個實施例 中,在分解所述輸入查詢時判定該綜合所述輸入查詢的所述候選答案的過程。在一個實施例中,使用自然語言處理分解所述輸入查詢,該自然語言處理還用于判定根據(jù)所述子查詢的所述選定候選答案綜合所述輸入查詢的所述候選答案的過程。在一個實施例中,針對所述子查詢的每個所述候選答案產(chǎn)生一個或多個評分,然后將排序函數(shù)應(yīng)用于所述一個或多個評分以判定所述每個候選答案的所述排序。在一個實施例中,所述邏輯綜合組件對所述選定候選答案中的數(shù)據(jù)執(zhí)行數(shù)學(xué)運算以綜合所述輸入查詢的所述候選答案。在一個實施例中,所述邏輯綜合組件形成所述選定候選答案的交集以綜合所述輸入查詢的所述候選答案。在一個實施例中,所述邏輯綜合組件形成所述選定候選答案的并集以綜合所述輸入查詢的所述候選答案。在一個實施例中,所述邏輯綜合組件組合所述選定答案中的文本以綜合所述輸入查詢的所述候選答案。在一個實施例中,所述候選排序函數(shù)還應(yīng)用于所述輸入查詢的所述綜合候選答案以判定該綜合候選答案的排序。
本發(fā)明的目標(biāo)、特征和優(yōu)點在下面列出的本發(fā)明具體實施例的上下文中理解。本發(fā)明具體實施例在附圖的上下文中理解,所述附圖形成本公開的一個材料部分,其中:圖1示出顯示本發(fā)明的實施例的高級邏輯架構(gòu)和問答方法的系統(tǒng)圖表。圖2示出圖1中的架構(gòu)的變形,其中證據(jù)收集模塊包括兩個子模塊:支持段落檢索和候選答案評分。圖3示出圖1中的查詢分析模塊和候選答案產(chǎn)生模塊的更詳細(xì)的圖表。圖4示出圖1和2中的候選答案評分模塊和答案排序模塊的更詳細(xì)的圖表。圖5是示出根據(jù)本發(fā)明的實施例處理問題并提供答案的方法步驟的流程圖實例。圖6示出提供一類用于處理CAS數(shù)據(jù)結(jié)構(gòu)的分析引擎的ΠΜΑ框架實現(xiàn)的一方面。
具體實施例方式如在此使用的那樣,單詞“問題”和“查詢”及其擴(kuò)展詞可以互換地使用并指示同一概念,即,信息請求。此類請求通常以疑問句表達(dá),但是可以通過其他形式表達(dá),例如采取提供感興趣實體描述的陳述句形式(其中可通過上下文推斷出實體識別請求)?!敖Y(jié)構(gòu)化信息”(來自“結(jié)構(gòu)化信息源”)在此被定義為其表達(dá)的含義很明確,并通過數(shù)據(jù)結(jié)構(gòu)或格式(例如,數(shù)據(jù)庫表)明確表示的信息。“非結(jié)構(gòu)化信息”(來自“非結(jié)構(gòu)化信息源”)在此被定義為其表達(dá)的含義僅通過其內(nèi)容(例如,自然語言文檔)暗示的信息?!鞍虢Y(jié)構(gòu)化信息”指示其某些含義在數(shù)據(jù)格式中明確表示的數(shù)據(jù),例如文檔的一部分可被標(biāo)記為“標(biāo)題”。圖1示出本發(fā)明的實施例的高級邏輯架構(gòu)10和方法的系統(tǒng)圖表。如圖1所示,架構(gòu)10包括查詢分析模塊20,該模塊實現(xiàn)接收和分析用戶查詢或問題的功能。根據(jù)本發(fā)明的一個實施例,“用戶”指的是與系統(tǒng)交互的一個或多個人,術(shù)語“用戶查詢”指的是用戶提出的查詢(及其上下文)19。但是將理解,可以構(gòu)建其他實施例,其中術(shù)語“用戶”指的是通過機(jī)械手段產(chǎn)生查詢的計算機(jī)系統(tǒng)22,其中術(shù)語“用戶查詢”指的是此類以機(jī)械方式產(chǎn)生的查詢及其上下文19’。提供候選答案產(chǎn)生模塊30以實現(xiàn)通過遍歷主源模塊11和答案源知識庫模塊21 (包含從主源提取的關(guān)系和列表的集合)中包含的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化源搜索候選答案。所有信息源均可存儲在本地或通過包括因特網(wǎng)的網(wǎng)絡(luò)進(jìn)行分發(fā)。候選答案產(chǎn)生模塊30根據(jù)分析已檢索的數(shù)據(jù),產(chǎn)生多個包含候選答案的輸出數(shù)據(jù)結(jié)構(gòu)。在圖1中,所示的實施例包括與主源11和知識庫21連接,以同時執(zhí)行以下并行處理操作的證據(jù)收集模塊50:根據(jù)包含候選答案的段落分析證據(jù),以及對每個候選答案進(jìn)行評分。在一個實施例中,可以采用利用公共分析系統(tǒng)(CAS)候選答案結(jié)構(gòu),以及實現(xiàn)支持段落檢索的架構(gòu),本文下面將更具體地進(jìn)行描述。此處理在圖2中示出,其中證據(jù)收集模塊50包括支持段落檢索40A和候選答案評分40B作為獨立的處理模塊以同時執(zhí)行并行處理操作:分析段落以及對每個候選答案進(jìn)行評分。答案源知識庫21可以包括一個或多個包括關(guān)系集合(例如,類型化列表)結(jié)構(gòu)化或半結(jié)構(gòu)化源(預(yù)計算的或其他源)數(shù)據(jù)庫。在實現(xiàn)實例中,答案源知識庫可以包括存儲在記憶存儲系統(tǒng)(例如,硬盤)中的數(shù)據(jù)庫。答案排序模塊60提供對候選答案進(jìn)行排序以及判定響應(yīng)99的功能,所述響應(yīng)通過用戶的計算機(jī)顯示界面(未示出)返回給用戶或返回給計算機(jī)系統(tǒng)22。所述響應(yīng)可以是響應(yīng)于問題的答案,也可以是以說明為目的的對現(xiàn)有答案或請求的詳述(如果未找到高質(zhì)量答案)。
將理解,本領(lǐng)域的技術(shù)人員可以實現(xiàn)對圖1所示系統(tǒng)的進(jìn)一步擴(kuò)展以根據(jù)但不限于文本、音頻、視頻、手勢、觸覺輸入和輸出等形式采用一個或多個模塊啟用用戶或計算機(jī)系統(tǒng)與系統(tǒng)10之間的I/O通信。因此,在一個實施例中,輸入查詢和所產(chǎn)生的查詢響應(yīng)均可根據(jù)包括文本、語音、圖像、視頻、觸覺或手勢的多種形式中的一種或多種提供。圖1和2所示的處理可以在本地執(zhí)行、在服務(wù)器上執(zhí)行或在服務(wù)器集群上執(zhí)行、在企業(yè)內(nèi)執(zhí)行,或者備選地,可以通過公共或?qū)S盟阉饕孢M(jìn)行分發(fā),或與其集成,或以其他方式與其結(jié)合執(zhí)行操作,從而以上述方式增強(qiáng)問答功能。因此,本發(fā)明的實施例可以被提供為包括處理設(shè)備可執(zhí)行指令的計算機(jī)過程產(chǎn)品,或者被提供為部署計算機(jī)過程產(chǎn)品的服務(wù)。所述架構(gòu)采用搜索引擎(文檔檢索系統(tǒng))作為候選答案產(chǎn)生模塊30的一部分,模塊30可以專注于因特網(wǎng)、公用數(shù)據(jù)庫、 網(wǎng)站(例如,IMDB.com)或?qū)S脭?shù)據(jù)庫。數(shù)據(jù)庫可以存儲在任何存儲系統(tǒng)中,例如存儲在硬盤或閃存中,也可以通過網(wǎng)絡(luò)或不通過網(wǎng)絡(luò)進(jìn)行分發(fā)。如上所述,本發(fā)明的實施例使用公共分析系統(tǒng)(CAS)、處理各種ΠΜΑ組件(例如,分析引擎和非結(jié)構(gòu)化信息管理應(yīng)用)之間數(shù)據(jù)交換的非結(jié)構(gòu)化信息管理架構(gòu)(UIMA)的子系統(tǒng)。CAS通過獨立于過程設(shè)計語言的類型系統(tǒng)支持?jǐn)?shù)據(jù)建模,通過強(qiáng)大的索引機(jī)制提供數(shù)據(jù)訪問,以及支持創(chuàng)建文本數(shù)據(jù)注釋,例如(http://www.research, ibm.com/journal/sj/433/gotz.html)中描述的那樣,此網(wǎng)頁內(nèi)容在此納入作為參考,就像在此列出一樣。CAS還允許文檔與其注釋之間具有多個鏈接定義,這對于分析圖像、視頻或其他非文本形式有用。在一個實施例中,ΠΜΑ可以被提供為中間件,用于通過廣泛的信息源有效地管理和交換非結(jié)構(gòu)化信息。該架構(gòu)一般包括搜索引擎,數(shù)據(jù)存儲、包含流水線文檔注釋器和各種適配器的分析引擎。ΠΜΑ系統(tǒng)、方法和計算機(jī)過程可用于產(chǎn)生輸入查詢的答案。所述方法包括輸入文檔和操作至少一個文本分析引擎,該引擎包括多個相連的注釋器以標(biāo)記文檔以及識別和注釋特定類型的語義內(nèi)容。因此可用于分析問題以及從一系列文檔中提取有可能是問題答案的實體。在一個非限制性實施例中,公共分析系統(tǒng)(CAS)數(shù)據(jù)結(jié)構(gòu)形式根據(jù)編號為7,139,752的美國專利中描述實現(xiàn),該專利的全部內(nèi)容及其公開在此納入作為參考,就像完全在此列出一樣。如圖3中更詳細(xì)的邏輯架構(gòu)圖表中更詳細(xì)地所示,“查詢分析”模塊20接收包括查詢19的輸入,該查詢例如由用戶通過其基于Web的瀏覽設(shè)備輸入。輸入查詢19可以包括諸如“誰是最高的美國總統(tǒng)? ”之類的字符串。備選地,問題可以由字符串和暗示的上下文(例如,“誰是最矮的美國總統(tǒng)? ”)構(gòu)成。在該實例中,上下文的范圍可以從另一簡單字符串(例如,“美國總統(tǒng)”或“誰是最高的美國總統(tǒng)”)擴(kuò)展到任何數(shù)據(jù)結(jié)構(gòu),例如處理上一字符串的所有中間結(jié)果——例如,在多輪對話中發(fā)生情況。輸入查詢由查詢分析模塊20接收,該模塊包括但不限于下面的一個或多個子過程:分析和預(yù)測論證結(jié)構(gòu)方塊202 ;重點段、重點和修改符方塊204 ;詞匯回答類型方塊206 ;問題分解方塊208 ;詞匯和語義關(guān)系模塊210 ;問題分類方塊212 ;以及問題難度模塊214。分析和預(yù)測論證結(jié)構(gòu)方塊202實現(xiàn)功能和程序設(shè)計接口以將輸入查詢分解為語法和語義分量,例如名詞短語、動詞短語和預(yù)測/論證結(jié)構(gòu)??墒褂?English SlotGrammar:英文槽文法)ESG類型分析器實現(xiàn)方塊202。重點段、重點和修改符方塊204用于計算問題的重點和重點修改符,將在下面進(jìn)一步描述。詞匯回答類型(LAT)方塊206實現(xiàn)功能和程序設(shè)計接口以提供對答案類型(詞匯)的額外約束,本文下面將更詳細(xì)地進(jìn)行描述。問題分解方塊208實現(xiàn)功能和程序設(shè)計接口以分析輸入問題來判定有關(guān)目標(biāo)答案的問題指定的約束集。這些約束有多種相互關(guān)聯(lián)的方法:1)嵌套式約束;2)冗余約束;以及3)三角剖分。借助嵌套式約束,“內(nèi)部”問題的答案實例化“外部”問題。例如,“佛羅里達(dá)的哪個城市以從西班牙手里奪取佛羅里達(dá)的將軍名字命名? ”。借助冗余約束,一個約束唯一地識別答案。例如,“最高的哺乳動物每小時奔跑30英里,這是什么動物? ”借助三角剖分,每個約束產(chǎn)生一組答案并且正確的答案同時位于兩個(或多個)集合中。例如,在“猜謎式”問題“什么是一組同類型事物,或針對戲劇表演構(gòu)建的場景”中。詞匯和語義關(guān)系模塊210用于檢測查詢中的詞匯和語義關(guān)系(例如,預(yù)測-論證關(guān)系),問題分類模塊212也具有此功能,該模塊采用提供信息訪問的主題分類器,例如問題涉及哪個方面?問題難度模塊214執(zhí)行提供確定問題難度手段的方法,例如,向問題應(yīng)用可讀性矩陣。將理解,圖3所示的一個或多個查詢/問題分析處理方塊可以針對特定實現(xiàn)進(jìn)行選擇。分析和預(yù)測論證結(jié)構(gòu)方塊202實現(xiàn)功能和過程設(shè)計接口以通過執(zhí)行本領(lǐng)域公知的詞匯處理和句法與預(yù)測論證結(jié)構(gòu)分析將輸入分解為其語法分量。對于查詢實例:“在1960年代,這個最大的堪薩斯城市成為世界最大的通用航空飛機(jī)生產(chǎn)基地”。分析和預(yù)測論證 方塊202將在下面產(chǎn)生分析搜索結(jié)果樹結(jié)構(gòu)實例,其中噠提供樹中的索引,例如單詞“become”為e8 (結(jié)果樹的第8個結(jié)構(gòu),e7索引結(jié)果樹結(jié)構(gòu)的第7個單詞),其中7表示單詞“city”,它是“become”的第一論證,el3 (索引結(jié)果數(shù)結(jié)構(gòu)的第13個單詞)是“producer”,它是“become”在語義結(jié)構(gòu)中的第二論證,如下所示:in (el, e3, e8)the (e2, e3)1960s (e3,u)this (e4, e7)large (e5, e7)Kansas (e6, e7)city (e7, u)become (e8, e7, el3)the(e9, elO)world (elO, u, el3)aposts (ell, elO)large (el2, el3)producer(e 13,of:e 17)general (el5, el7)aviation (el6, u, el7)aircraft (el7)重點段、重點和修改符方塊204檢測重點段,該段是問題中被正確答案替換的文本跨度。例如,在下面的查詢中,斜體字表示查詢中的重點段:“在I960年代,這個最大的堪薩斯城市成為世界最大的通用航空飛機(jī)生產(chǎn)基地”。
為了檢測重點段,針對預(yù)測論證結(jié)構(gòu)和ESG分析實現(xiàn)一組規(guī)則,該組規(guī)則與預(yù)測論證結(jié)構(gòu)(PAS)中的模式匹配。所述模式的實例包括例如,名詞短語“什么/哪個/這個/這些X”,其中X是另一對象;“誰/什么/何時/何地/為何/這個/這些”;無指示代詞。下面是代詞模式實例,其中代詞以斜體表示:作為一個男孩,他創(chuàng)建了模型風(fēng)車;他的微積分對手戈特弗里德.萊布尼茲成年之后才設(shè)計出這樣的模型風(fēng)車?,F(xiàn)在參考詞匯回答類型(LAT)方塊206,LAT是識別正確答案語義類型的問題詞。下面段落中的斜體單詞表示以下查詢中的LAT:“哪個堪薩斯城市是世界最大的通用航空飛機(jī)生產(chǎn)基地”。LAT可在更改含義時包括修改符。例如,斜體單詞表示以下查詢中的LAT:喬利埃特和科發(fā)現(xiàn)密西西比河注入什么水體?現(xiàn)在參考圖3,問題/查詢分析方塊20的輸出29包括查詢分析結(jié)果數(shù)據(jù)結(jié)構(gòu)(CAS結(jié)構(gòu))。在該實施例中,輸出 數(shù)據(jù)結(jié)構(gòu)問題/查詢分析方塊20和候選答案產(chǎn)生方塊30可以實現(xiàn)為根據(jù)ΠΜΑ開源平臺在模塊之間傳遞數(shù)據(jù)?!昂蜻x答案產(chǎn)生”模塊30接收來自問題/查詢分析方塊20的CAS型查詢結(jié)果數(shù)據(jù)結(jié)構(gòu)29輸出,然后根據(jù)主源11和答案源KB21中存儲的文檔產(chǎn)生一組候選答案?!昂蜻x答案產(chǎn)生”模塊30包括但不限于以下一個或多個功能性子處理模塊:詞語加權(quán)和查詢擴(kuò)展模塊302 ;文檔標(biāo)題(在標(biāo)題源中檢索文檔)模塊304 ;檢索段落中實體模塊308 ;以及結(jié)構(gòu)源知識庫實體模塊310。詞語加權(quán)和查詢擴(kuò)展模塊302實現(xiàn)根據(jù)模塊11和21創(chuàng)建查詢的功能(部分查詢產(chǎn)生),其中包括實現(xiàn)查詢擴(kuò)展的實施例(請參閱例如:http://en.wikipedia.0rg/wiki/Query_expansion)。文檔標(biāo)題(在標(biāo)題源中檢索文檔)模塊304實現(xiàn)檢測候選答案的功能(從源11和21)。檢索段落中實體模塊308實現(xiàn)在文本段落中檢測候選答案的功能,例如根據(jù)段落和查詢的語法和語義結(jié)構(gòu)。結(jié)構(gòu)源知識庫實體模塊310實現(xiàn)根據(jù)查詢中的實體與答案源知識庫21中的實體之間關(guān)系間的匹配檢索候選答案的功能(例如實現(xiàn)為SQL查詢)。作為實現(xiàn)候選答案產(chǎn)生方塊30的功能模塊的結(jié)果,創(chuàng)建查詢并針對(本地或分布式)源數(shù)據(jù)庫或類似的記憶存儲器件中的所有結(jié)構(gòu)化和非結(jié)構(gòu)化主數(shù)據(jù)源11運行查詢。可針對結(jié)構(gòu)化(KB)、半結(jié)構(gòu)化(例如,維基百科、頂DB數(shù)據(jù)庫、XBRL中的SEC filings集合等)或非結(jié)構(gòu)化數(shù)據(jù)(文本庫)運行查詢以產(chǎn)生候選答案列表39 (也作為CAS,或現(xiàn)有CAS的擴(kuò)展)。應(yīng)該理解,在一個實施例中,針對所列主源數(shù)據(jù)庫的本地副本運行查詢,也可訪問公用的公共數(shù)據(jù)庫源。而且可以理解,在一個實施例中,并非查詢中的所有詞需要用于搜索答案——因此需要根據(jù)查詢分析結(jié)果創(chuàng)建查詢。例如,在回答問題“波蘭首都名稱中的前五個字母”時,查詢的一部分中不應(yīng)包含“五個字母”。如圖3進(jìn)一步所示,答案源知識庫21被示出為與結(jié)構(gòu)源實體模塊310相連,模塊310包括類型化列表(例如,世界上所有國家的列表)、已提取的精確一元體(例如,國家)、二元體(例如,國家+國家元首)、三元體(例如,國家+國家元首+元首夫人)、n元體關(guān)系等?,F(xiàn)在參考圖2和4,“候選答案評分”模塊40B從例如證據(jù)收集方塊50的支持段落檢索(SPR)方塊40A接收CAS型數(shù)據(jù)結(jié)構(gòu)49 (B卩,一個或多個CAS)?!昂蜻x答案評分”模塊40B包括但不限于以下一個或多個功能性子處理模塊:段落中詞匯與語義關(guān)系模塊402 ;文本對齊模塊405 ;段落中查詢詞匹配模塊407 ;語法關(guān)系方塊410 ;知識庫中答案查找模塊413 ;以及候選答案類型分析模塊415。段落中詞匯與語義關(guān)系模塊402實現(xiàn)計算候選答案段落中的語義(預(yù)測/論證)關(guān)系滿足程度(答案評分的一部分)的功能。文本對齊模塊405實現(xiàn)對齊查詢(或其中的某些部分)與答案段落以及計算描述對齊程度的評分(例如,當(dāng)對齊引用的答案時)的功能。段落中查詢詞匹配模塊407實現(xiàn)將查詢段落的匹配程度與候選答案段落中的詞進(jìn)行關(guān)聯(lián)的功能(答案評分的一部分)。語法關(guān)系方塊410實現(xiàn)檢測候選答案之間的語法關(guān)系(可歸入段落中詞匯與語義關(guān)系模塊402之下)的功能。知識庫中答案查找模塊413實現(xiàn)根據(jù)評分排序檢測候選答案的功能。候選答案類型分析模塊415例如根據(jù)對出現(xiàn)候選答案的文檔執(zhí)行語法和語義分析產(chǎn)生測量候選答案為正確答案的概率?!昂蜻x答案評分”模塊40B的輸出為CAS結(jié)構(gòu),此結(jié)構(gòu)包含一系列評分由模塊給定的答案。如此出描述的那樣,可實現(xiàn)多個并行操作模塊以計算候選答案的評分,其中所述評分根據(jù)上述標(biāo)準(zhǔn)在CAS型數(shù)據(jù)結(jié)構(gòu)59中提供。例如,答案是否滿足類似的詞匯和語義關(guān)系(例如,對于有關(guān)電影女明星的查詢,答案是否為女性,候選是否滿足電影演員關(guān)系?),答案與查詢的對齊程度;詞語的匹配程度以及詞語是否以類似的順序存在。因此,將理解,多個模塊用于處理不同的候選答案,因此,可能根據(jù)可能的評分模塊數(shù)量提供許多評分。參考圖2和4,“答案排序”模塊60因此從證據(jù)收集方塊50 (包括實現(xiàn)SPR40A和候選答案評分40B)接收多個CAS型數(shù)據(jù)結(jié)構(gòu)59輸出,并針對每個候選答案產(chǎn)生評分。圖4示出機(jī)器學(xué)習(xí)實現(xiàn),其中“ 答案排序”模塊60包括使用機(jī)器學(xué)習(xí)技術(shù),根據(jù)現(xiàn)有數(shù)據(jù)產(chǎn)生的訓(xùn)練模型組件71?,F(xiàn)有數(shù)據(jù)可以編碼有關(guān)候選答案的特征、候選答案所在段落的特征、候選答案評分模塊40B賦予候選答案的評分,以及候選答案是否正確的信息。機(jī)器學(xué)習(xí)算法可應(yīng)用于CAS的全部內(nèi)容以及有關(guān)候選答案正確性的信息。此類現(xiàn)有數(shù)據(jù)例如可隨時用于技術(shù)服務(wù)支持功能,或者隨時可用于因特網(wǎng)(其中許多網(wǎng)站列出帶有正確答案的問題)上更一般的設(shè)置。模型對預(yù)測功能進(jìn)行編碼,此功能輸入到“學(xué)習(xí)特征組合”模塊73。因此,在圖4所示的實施例中,將作為CAS的一系列候選答案以及存儲在訓(xùn)練模型子模塊71中并且其參數(shù)依賴于查詢類型的訓(xùn)練模型輸入到答案排序模塊60。答案排序模塊60包括學(xué)習(xí)特征組合子方塊73,方塊73實現(xiàn)產(chǎn)生答案排序列表75的功能。答案排序模塊60的輸出包括查詢答案(一個或一系列),還可以選擇性地包括說明性問題(如果系統(tǒng)參與對話或者如果所產(chǎn)生的答案沒有高排序)。學(xué)習(xí)特征組合子方塊73應(yīng)用訓(xùn)練模型71產(chǎn)生的預(yù)測功能,例如實現(xiàn)根據(jù)訓(xùn)練模型對候選答案評分進(jìn)行加權(quán)的方法。訓(xùn)練方塊71和學(xué)習(xí)特征組合73可以參考Ittycheriah,A等人在2001年的文本檢索會議上發(fā)表的標(biāo)題為“{IBM}’s Statistical Question Answering System-{TREC} ” 的文章,地址位于:http://citeseer.1st.psu.edu/cache/papers/cs2/7/http:zSzzSztrec.nist.govzSzpubszSztreclOzSz.zSzpaperszSztrec2001.pdf/ittycheriahOlibms.pdf。機(jī)器學(xué)習(xí)訓(xùn)練模型71以及學(xué)習(xí)特征組合73的應(yīng)用將在下面更詳細(xì)地進(jìn)行描述。在一個實施例中,實現(xiàn)由兩部分構(gòu)成的任務(wù)以:(I)識別候選中的最佳答案,以及(2)判定最佳答案的置信度。根據(jù)此處理,每個問題候選對包括一個實例,從大范圍的特征中獲取評分,例如,答案與查詢詞的共現(xiàn)、候選是否匹配問題類型,以及搜索引擎排名。因此,對于問題實例:“從濃縮蔗汁中去除糖晶體之后,還剩什么液體? ”諸如下面的表I所示的評分實例根據(jù)但不限于以下項產(chǎn)生:類型分析、對齊、搜索引擎排名等。TypeAgreement是表示段落中候選答案的詞匯形式是否對應(yīng)于問題中感興趣的實體詞匯類型的評分。Textual Alignment對問題與答案段落之間的對齊進(jìn)行評分。表I
權(quán)利要求
1.一種產(chǎn)生問題答案的方法,包括: 接收輸入查詢; 將所述輸入查詢分解為多個不同的子查詢; 在一個或多個數(shù)據(jù)源中執(zhí)行搜索以識別每個所述子查詢的至少一個候選答案; 針對每個所述子查詢的每個所述候選答案,應(yīng)用候選排序函數(shù)以判定所述每個所述候選答案的排序; 針對每個所述子查詢,根據(jù)所述一個所述候選答案的所述排序選擇所述候選答案之一;以及 應(yīng)用邏輯綜合組件以根據(jù)所述子查詢的所述選定候選答案綜合所述輸入查詢的候選答案。
2.根據(jù)權(quán)利要求1的方法,其中所述應(yīng)用邏輯綜合組件包括通過所述輸入查詢判定根據(jù)所述子查詢的所述選定候選答案綜合所述輸入查詢的所述候選答案的過程。
3.根據(jù)權(quán)利要求2的方法,其中所述判定綜合所述輸入查詢的所述候選答案的過程包括在分解所述輸入查詢時判定所述過程。
4.根據(jù)權(quán)利要求3的方法,其中: 所述分解所述輸入查詢包括使用自然語言處理分解所述輸入查詢;以及 所述判定綜合所述候選答 案的所述過程包括使用所述自然語言處理判定所述過程。
5.根據(jù)權(quán)利要求1的方法,其中所述應(yīng)用所述排序函數(shù)包括:針對所述子查詢的每個所述候選答案,產(chǎn)生所述每個候選答案的一個或多個評分,然后將所述排序函數(shù)應(yīng)用于所述一個或多個評分以判定所述每個候選答案的所述排序。
6.根據(jù)權(quán)利要求1的方法,其中所述使用所述邏輯綜合組件包括使用所述邏輯綜合組件對所述選定候選答案中的數(shù)據(jù)執(zhí)行數(shù)學(xué)運算以綜合所述輸入查詢的所述候選答案。
7.根據(jù)權(quán)利要求1的方法,其中所述使用所述邏輯綜合組件包括使用所述邏輯綜合組件形成所述選定候選答案的交集以綜合所述輸入查詢的所述候選答案。
8.根據(jù)權(quán)利要求1的方法,其中所述使用所述邏輯綜合組件包括使用所述邏輯綜合組件形成所述選定候選答案的并集以綜合所述輸入查詢的所述候選答案。
9.根據(jù)權(quán)利要求1的方法,其中所述使用所述邏輯綜合組件包括使用所述邏輯綜合組件組合所述選定答案中的文本以綜合所述輸入查詢的所述候選答案。
10.根據(jù)權(quán)利要求1的方法,進(jìn)一步包括將所述候選排序函數(shù)應(yīng)用于所述輸入查詢的所述候選答案以判定所述輸入查詢的所述候選答案的排序。
11.一種產(chǎn)生問題答案的系統(tǒng),包括: 計算機(jī)設(shè)備,所述計算機(jī)設(shè)備包括至少一個獨立軟件模塊,每個獨立軟件模塊包含在有形的計算機(jī)可讀介質(zhì)中;存儲器;以及至少一個與所述存儲器相連并可通過運行執(zhí)行以下步驟的處理器: 接收輸入查詢; 將所述輸入查詢分解為多個不同的子查詢; 在一個或多個數(shù)據(jù)源中執(zhí)行搜索以識別每個所述子查詢的至少一個候選答案; 針對每個所述子查詢的每個所述候選答案,應(yīng)用候選排序函數(shù)以判定所述每個所述候選答案的排序;針對每個所述子查詢,根據(jù)所述一個所述候選答案的所述排序選擇所述候選答案之一;以及 應(yīng)用邏輯綜合組件以根據(jù)所述子查詢的所述選定候選答案綜合所述輸入查詢的候選答案。
12.根據(jù)權(quán)利要求11的系統(tǒng),其中所述應(yīng)用邏輯綜合組件包括通過所述輸入查詢判定根據(jù)所述子查詢的所述選定候選答案綜合所述輸入查詢的所述候選答案的過程。
13.根據(jù)權(quán)利要求12的系統(tǒng),其中: 所述分解所述輸入查詢包括使用自然語言處理分解所述輸入查詢;以及所述判定綜合所述候選答案的所述過程包括在分解所述輸入查詢時使用所述自然語言處理判定所述過程。
14.根據(jù)權(quán)利要求11的系統(tǒng),其中所述使用所述邏輯綜合組件包括使用所述邏輯綜合組件對所述選定候選答案中的數(shù)據(jù)執(zhí)行數(shù)學(xué)運算以綜合所述輸入查詢的所述候選答案。
15.根據(jù)權(quán)利要求11的系統(tǒng),其中所述使用所述邏輯綜合組件包括使用所述邏輯綜合組件組合所述選定答案中的文本以綜合所述輸入查詢的所述候選答案。
16.一種制造品,包括: 至少一個有形的計算機(jī)可讀介質(zhì),所述介質(zhì)包括產(chǎn)生問題答案的計算機(jī)可讀程序代碼邏輯,所述計算機(jī)可讀程序代碼邏輯當(dāng)被執(zhí)行時,執(zhí)行以下步驟: 接收輸入查詢; 將所述輸入查詢分解為多個不同的子查詢; 在一個或多個數(shù)據(jù)源中執(zhí)行搜索以識別每個所述子查詢的至少一個候選答案; 針對每個所述子查詢的每個所述候選答案,應(yīng)用候選排序函數(shù)以判定所述每個所述候選答案的排序; 針對每個所述子查詢,根據(jù)所述一個所述候選答案的所述排序選擇所述候選答案之一;以及 應(yīng)用邏輯綜合組件以根據(jù)所述子查詢的所述選定候選答案綜合所述輸入查詢的候選答案。
17.根據(jù)權(quán)利要求16的制造品,其中: 所述分解所述輸入查詢包括使用自然語言處理分解所述輸入查詢;以及所述應(yīng)用邏輯綜合器包括在分解所述輸入查詢時使用所述自然語言處理判定根據(jù)所述子查詢的所述選定候選答案綜合所述輸入查詢的所述候選答案的過程。
18.根據(jù)權(quán)利要求16的制造品,其中所述應(yīng)用所述排序函數(shù)包括: 針對所述子查詢的每個所述候選答案,產(chǎn)生所述每個候選答案的一個或多個評分,然后將所述排序函數(shù)應(yīng)用于所述一個或多個評分以判定所述每個候選答案的所述排序。
19.根據(jù)權(quán)利要求16的制造品,其中所述使用所述邏輯綜合組件包括使用所述邏輯綜合組件形成所述選定候選答案的交集以綜合所述輸入查詢的所述候選答案。
20.根據(jù)權(quán)利要求16的制造品,其中所述使用所述邏輯綜合組件包括使用所述邏輯綜合組件形成所述選定候選答案的并集以綜合所述輸入查詢的所述候選答案。
21.—種產(chǎn)生問題答案的方法,包括: 接收多個輸入 查詢;使用自然語言處理將至少一個所述輸入查詢分解為多個不同的子查詢; 在一個或多個數(shù)據(jù)源中執(zhí)行搜索以識別每個所述輸入查詢的候選答案,其中包括識別每個所述子查詢的候選答案; 針對每個所述候選答案,將候選排序函數(shù)應(yīng)用于每個所述候選答案以判定所述每個所述候選答案的排序; 應(yīng)用邏輯綜合組件以根據(jù)每個所述子查詢的至少一個所述候選答案綜合所述至少一個所述輸入查詢的最終候選答案;以及 將所述候選排序函數(shù)應(yīng)用于所述最終候選答案以判定所述至少一個所述輸入查詢的所述最終候選答案的排序。
22.根據(jù)權(quán) 利要求21的方法,其中所述應(yīng)用邏輯綜合組件包括通過所述輸入查詢判定根據(jù)每個所述子查詢的所述至少一個所述候選答案綜合所述輸入查詢的所述最終候選答案的過程。
23.根據(jù)權(quán)利要求22的方法,其中所述判定綜合所述候選答案的所述過程包括在分解所述至少一個所述輸入查詢時使用所述自然語言處理判定所述過程。
24.一種產(chǎn)生問題答案的系統(tǒng),包括: 計算機(jī)設(shè)備,所述計算機(jī)設(shè)備包括至少一個獨立軟件模塊,每個獨立軟件模塊包含在有形的計算機(jī)可讀介質(zhì)中;存儲器;以及至少一個與所述存儲器相連并可通過運行執(zhí)行以下步驟的處理器: 接收多個輸入查詢; 使用自然語言處理將至少一個所述輸入查詢分解為多個不同的子查詢; 在一個或多個數(shù)據(jù)源中執(zhí)行搜索以識別每個所述輸入查詢的候選答案,其中包括識別每個所述子查詢的候選答案; 針對每個所述候選答案,將候選排序函數(shù)應(yīng)用于每個所述候選答案以判定所述每個所述候選答案的排序; 應(yīng)用邏輯綜合組件以根據(jù)每個所述子查詢的至少一個所述候選答案綜合所述至少一個所述輸入查詢的最終候選答案;以及 將所述候選排序函數(shù)應(yīng)用于所述最終候選答案以判定所述至少一個所述輸入查詢的所述最終候選答案的排序。
25.根據(jù)權(quán)利要求21的方法,其中所述應(yīng)用邏輯綜合組件包括通過所述輸入查詢判定根據(jù)每個所述子查詢的所述至少一個所述候選答案綜合所述輸入查詢的所述最終候選答案的過程。
全文摘要
一種產(chǎn)生問題答案的方法、系統(tǒng)和計算機(jī)程序產(chǎn)品。在一個實施例中,所述方法包括接收輸入查詢;將所述輸入查詢分解為多個不同的子查詢;在一個或多個數(shù)據(jù)源中執(zhí)行搜索以識別每個所述子查詢的至少一個候選答案。將排序函數(shù)應(yīng)用于每個所述候選答案以判定所述每個所述候選答案的排序;以及針對每個所述子查詢,根據(jù)該排序選擇所述子查詢的所述候選答案之一。應(yīng)用邏輯綜合組件以根據(jù)所述子查詢的所述選定候選答案綜合所述輸入查詢的候選答案。在一個實施例中,通過所述輸入查詢判定所述邏輯綜合組件用于綜合所述輸入查詢的所述候選答案的過程。
文檔編號G06F17/27GK103229162SQ201180056974
公開日2013年7月31日 申請日期2011年9月22日 優(yōu)先權(quán)日2010年9月28日
發(fā)明者E·W·布朗, J·舒-卡羅爾, D·A·弗魯茨, A·P·拉利, J·W·默多克四世, J·M·普拉格爾 申請人:國際商業(yè)機(jī)器公司