專利名稱:標識間接引語中的語義關(guān)系的制作方法
標識間接引語中的語義關(guān)系 背景 在線搜索引擎已經(jīng)成為用于進行搜索或?qū)Ш娇山?jīng)由因特網(wǎng)訪問的文檔的日益重 要的工具。通常,在線搜索引擎使用用戶所提交的查詢來執(zhí)行用于檢測可能的文檔或這些 文檔中的文本的匹配進程。最初,由諸如Google (谷歌)或Yahoo (雅虎)所維護的常規(guī)在 線搜索引擎提供的匹配進程允許用戶在查詢中指定一個或多個關(guān)鍵詞以描述她/他正在 查找的信息。接著,常規(guī)在線搜索引擎繼續(xù)進行來查找包含該關(guān)鍵詞的精確匹配的所有文 檔,但這些文檔通常不會提供響應(yīng)該查詢的相關(guān)或有意義的結(jié)果。 現(xiàn)有常規(guī)在線搜索引擎受限于除了匹配進程所產(chǎn)生的精確匹配以外它們不識別 所搜索的文檔中對應(yīng)于查詢中的關(guān)鍵詞的詞語。同樣,常規(guī)在線搜索引擎因用戶受限于查 詢中要匹配的關(guān)鍵詞而受到限制,并且因此如果不知道該關(guān)鍵詞則不允許用戶精確地表達 所需信息。因此,只有實現(xiàn)識別查詢的關(guān)鍵詞與所搜索的文檔中的詞語之間的語義關(guān)系的 自然語言搜索引擎才會增加搜索結(jié)果的精確度。
概述 提供本概述以便以簡化的形式介紹在以下詳細描述中進一步描述的一系列概念。 本概述并不旨在標識所要求保護的主題的關(guān)鍵特征或必要特征,也不旨在用作幫助確定所 要求保護的主題的范圍。 本發(fā)明的各實施例涉及一種用于發(fā)展從web或某些其他儲存庫檢索到的文檔的 內(nèi)容中找到的各個詞語以及查詢搜索項之間的關(guān)聯(lián)的計算機實現(xiàn)的方法和計算機可讀介 質(zhì)。可以用語義表示的內(nèi)容可以是間接引語或其他態(tài)度報告,這樣可以將內(nèi)容的語義表示 與接收到的自然語言查詢作比較以便向用戶提供有意義的且高度相關(guān)的結(jié)果??梢栽谔囟?元素或搜索項之間標識諸如"關(guān)于"關(guān)系等語義關(guān)系以便允許形成特定詞語關(guān)聯(lián)。 一旦形 成語義關(guān)系,可以為文檔中的內(nèi)容生成語義表示并且可以為搜索查詢生成建議,這兩者允 許將該建議與一個或多個語義關(guān)系進行快速比較以便確定最相關(guān)的搜索結(jié)果。
附圖簡述 以下參考附圖詳細描述了本發(fā)明的各實施例,附圖中
圖1是適用于實現(xiàn)本發(fā)明的各實施例的示例性計算環(huán)境的框圖;
圖2是適用于實現(xiàn)本發(fā)明的各實施例的示例性系統(tǒng)體系結(jié)構(gòu)的示意圖;
圖3是根據(jù)本發(fā)明的一實施例從文檔內(nèi)的文本部分生成的語義表示的示圖
圖4是根據(jù)本發(fā)明的一實施例從文檔內(nèi)的文本部分生成的語義表示的示圖
圖5是根據(jù)本發(fā)明的一實施例從文檔內(nèi)的文本部分生成的語義表示的示圖
圖6是根據(jù)本發(fā)明的一實施例從文檔內(nèi)的文本部分生成的語義表示的示圖
圖7是根據(jù)本發(fā)明的一實施例從搜索查詢生成的建議的示圖;
圖8是根據(jù)本發(fā)明的一實施例從文檔內(nèi)的文本部分生成的語義表示的示圖,該文 本部分包括兩個句子; 圖9是示出根據(jù)本發(fā)明的一實施例的用于發(fā)展從文檔的內(nèi)容中提煉的元素之間 的語義關(guān)系的方法的流程 圖10是示出根據(jù)本發(fā)明的一實施例的用于響應(yīng)于接收到查詢來創(chuàng)建從該查詢提 煉的各個項之間的關(guān)聯(lián)以便生成建議的方法的流程圖;以及 圖11是示出根據(jù)本發(fā)明的一實施例的用于發(fā)展從文檔的內(nèi)容提煉的各元素之間
的語義關(guān)系的方法的流程圖。
詳細描述 此處用細節(jié)來描述本發(fā)明的主題以滿足法定的要求。然而,描述本身并非旨在限 制本專利的范圍。相反,發(fā)明人設(shè)想所要求保護的主題還可結(jié)合其他當前或未來技術(shù)按照 其他方式來具體化,以包括不同的步驟或類似于本文中所描述的步驟的步驟組合。此外,盡 管術(shù)語"步驟"和/或"框"可在此處用于指示所采用的方法的不同元素,但除非而且僅當 明確描述了各個步驟的次序時,該術(shù)語不應(yīng)被解釋為意味著此處公開的各個步驟之中或之 間的任何特定次序。 因此,在一個方面,提供了一種用于發(fā)展從文檔的內(nèi)容提煉的各元素之間的語義 關(guān)系以生成該內(nèi)容的語義表示來進行索引的計算機實現(xiàn)的方法。最初,該方法包括標識要 索引的文檔的文本部分并確定在該文本部分中標識的多個元素的語義信息。該語義信息可 以包括所標識的元素的含義或所標識的各元素之間的語法和/或語義關(guān)系中的一個或兩 者。所標識的元素中的至少一個可以被標識為與發(fā)言報告或態(tài)度報告相對應(yīng)的報告動作。 該方法還包括基于所確定的所標識元素的語義信息來將所標識的元素相關(guān)聯(lián),以使得所標 識的元素的每個關(guān)聯(lián)都表示特定語義關(guān)系。此外,該方法包括生成包括所標識的元素的關(guān) 聯(lián)的語義表示。 在另一方面,提供了一種用于響應(yīng)于接收到自然語言查詢來創(chuàng)建從該查詢提煉的 各個項之間的關(guān)聯(lián)以生成建議的計算機實現(xiàn)的方法。該建議可用于詢問來自存儲在語義索 引中的文檔的內(nèi)容的語義表示以便提供相關(guān)搜索結(jié)果。該方法還包括確定在該查詢中找到 的一個或多個搜索項的相關(guān)聯(lián)的語義信息??梢栽谠摬樵儍?nèi)確定第一報告動作,而可以基 于所確定的關(guān)于搜索項的至少一個的語義信息來在第一報告動作和該搜索項之間形成語 義關(guān)系。在第一報告動作和該搜索項之間創(chuàng)建的關(guān)聯(lián)是通過描述該語義關(guān)系的相關(guān)元素來 作出的。最后,可以生成包括所形成的關(guān)聯(lián)的建議并且將其與語義表示做進一步的比較以 便確定高度相關(guān)的搜索結(jié)果。 在又一方面,提供了其上包含用于執(zhí)行一種發(fā)展從文檔的內(nèi)容提煉的各元素之間
的語義關(guān)系以便生成要索引的內(nèi)容的語義表示的方法的計算機可使用指令的一個或多個
計算機可讀介質(zhì)。最初,該方法包括標識要索引的文檔的至少一部分(即文本部分)。隨
后可以解析該文本部分以標識要用語義表示的元素。除了確定文本部分內(nèi)一個或多個關(guān)聯(lián)
級別之外,還確定所標識的元素潛在含義和它們之間的語法或語義關(guān)系。該方法還包括在
文本部分內(nèi)為所確定的一個或多個關(guān)聯(lián)級別中的每一個標識報告動作,以使得第一報告動
作可以與所標識的第一組元素相關(guān)聯(lián)。該第一報告動作可以與第一關(guān)聯(lián)級別相關(guān)聯(lián)。相似
地,第二關(guān)聯(lián)動作可以與所標識的第二組元素相關(guān)聯(lián),該第二報告動作與第二關(guān)聯(lián)級別相
關(guān)聯(lián)。此外,可以通過描述針對第一報告動作的所標識的第一組元素與針對第二報告動作
的所標識的第二組元素之間的關(guān)聯(lián)的相關(guān)元素來生成包括各個關(guān)聯(lián)的語義表示。 在簡要描述了本發(fā)明的各實施例的概覽及其某些特征之后,以下描述適用于實現(xiàn)
本發(fā)明的示例性操作環(huán)境。
—般地參考附圖并最初具體參考圖l,示出用于實現(xiàn)本發(fā)明的各實施例的示例性操作環(huán)境,并將其概括指定為計算設(shè)備100。計算設(shè)備100只是合適的計算環(huán)境的一個示例,并且不旨在對本發(fā)明的使用范圍或功能提出任何限制。也不應(yīng)該將計算設(shè)備100解釋為對所示出的任一組件或其組合有任何依賴性或要求。 本發(fā)明可以在計算機代碼或機器可使用指令的一般上下文中描述,機器可使用指令包括由計算機或諸如個人數(shù)據(jù)助理或其它手持式設(shè)備等其它機器執(zhí)行的諸如程序模塊等的計算機可執(zhí)行指令。 一般而言,包括例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等的程序組件指的是執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的代碼。本發(fā)明的各實施例可以在各種系統(tǒng)配置中實施,這些系統(tǒng)配置包括手持式設(shè)備、消費電子產(chǎn)品、通用計算機、專用計算設(shè)備等等。本發(fā)明的各實施例也可以在其中任務(wù)由通過通信網(wǎng)絡(luò)鏈接的遠程處理設(shè)備執(zhí)行的分布式計算環(huán)境中實施。 繼續(xù)參考圖l,計算設(shè)備100包括直接或間接耦合以下設(shè)備的總線110 :存儲器112、一個或多個處理器114、一個或多個呈現(xiàn)組件116、輸入/輸出(I/O)端口 118、輸入/輸出組件120和說明性電源122??偩€110可以是一條或多條總線(諸如地址總線、數(shù)據(jù)總線、或其組合)。盡管為了清楚起見用線條示出了圖1的各框,但是在實際上,各組件的輪廓并不是那樣清楚,并且按比喻的說法,線條更精確地將是灰色的和模糊的。例如,可以將諸如顯示設(shè)備等呈現(xiàn)組件認為是I/0組件。同樣,處理器具有存儲器。本發(fā)明的發(fā)明人認識到,這是本領(lǐng)域的特性,并且重申,圖1的圖示只是例示可結(jié)合本發(fā)明的一個或多個實施例來使用的示例性計算設(shè)備。在諸如"工作站"、"服務(wù)器"、"膝上型計算機"、"手持式設(shè)備"等分類之間沒有區(qū)別,它們?nèi)慷急徽J為是在圖1的范圍之內(nèi)的并且被稱為"計算機"或"計算設(shè)備"。 計算設(shè)備IOO通常包括各種計算機可讀介質(zhì)。作為示例而非限制,計算機可讀介質(zhì)可以包括隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、閃存或其它存儲器技術(shù);CDROM、數(shù)字多功能盤(DVD)或其它光或全息介質(zhì);磁帶盒、磁帶、磁盤存儲或其它磁存儲設(shè)備;或可用于對所需信息進行編碼并且可由計算設(shè)備IOO訪問的任何其它介質(zhì)。 存儲器112包括易失性和/或非易失性存儲器形式的計算機存儲介質(zhì)。存儲器可以是可移動的、不可移動的、或其組合。示例性硬件設(shè)備包括固態(tài)存儲器、硬盤驅(qū)動器、光盤驅(qū)動器等。計算設(shè)備100包括從諸如存儲器112或I/O組件120等各種實體讀取數(shù)據(jù)的一個或更多個處理器。呈現(xiàn)組件116向用戶或其它設(shè)備呈現(xiàn)數(shù)據(jù)指示。示例性呈現(xiàn)組件包括顯示設(shè)備、揚聲器、打印組件、振動組件等等。1/0端口 118允許計算設(shè)備100在邏輯上耦合至包括1/0組件120的其他設(shè)備,其中某些設(shè)備可以是內(nèi)置的。說明性組件包括話筒、操縱桿、游戲手柄、圓盤式衛(wèi)星天線、掃描儀、打印機、無線設(shè)備等等。 現(xiàn)在轉(zhuǎn)向圖2,示出了根據(jù)本發(fā)明的實施例的適用于實現(xiàn)本發(fā)明的各實施例的示例性系統(tǒng)體系結(jié)構(gòu)200的示意圖。本領(lǐng)域普通技術(shù)人員可以明白和理解,圖2中所示的示例性系統(tǒng)體系結(jié)構(gòu)200只是合適的計算環(huán)境的一個示例,并且不旨在對本發(fā)明的使用范圍或功能提出任何限制。也不應(yīng)該將示例性系統(tǒng)體系結(jié)構(gòu)200解釋為對其中所示出的任何單個組件或各組件的組合有任何依賴性或要求。 如所示的,系統(tǒng)體系結(jié)構(gòu)200可以包括分布式計算環(huán)境,其中客戶機設(shè)備215可以在操作上耦合到自然語言引擎290,后者進而在操作上耦合到數(shù)據(jù)存儲220。在在分布式
計算環(huán)境中實現(xiàn)的本發(fā)明的各實施例中,在操作上耦合是指通過適當?shù)倪B接將客戶機設(shè)備215和數(shù)據(jù)存儲220鏈接到自然語言引擎290和其他在線組件。這些連接可以是有線的或無線的。本發(fā)明的范圍內(nèi)的具體有線實施例的示例包括USB連接和通過網(wǎng)絡(luò)的電纜連接(未示出)或互連單個機器內(nèi)的各組件的總線或其他信道。本發(fā)明的范圍內(nèi)的具體無線實施例包括近程無線網(wǎng)絡(luò)和射頻技術(shù)。 應(yīng)該明白和理解,"近程無線網(wǎng)絡(luò)"的名稱不旨在是限制性的,并且應(yīng)該被寬泛地解釋為至少包括以下技術(shù)協(xié)商無線外圍(麗P)設(shè)備;近程無線空氣干擾網(wǎng)絡(luò)(例如無線個人區(qū)域網(wǎng)(wPAN))、無線局域網(wǎng)(wLAN)、無線廣域網(wǎng)(wWAN)、藍牙TM等);無線對等通信(例如超寬帶);以及支持設(shè)備之間的數(shù)據(jù)的無線通信的任何協(xié)議。此外,熟悉本發(fā)明的領(lǐng)域的人員會認識到,近程無線網(wǎng)絡(luò)可以用各種數(shù)據(jù)傳輸方法(例如衛(wèi)星傳輸、電信網(wǎng)絡(luò)等)來實現(xiàn)。因此,要強調(diào)的是,在客戶機設(shè)備215、數(shù)據(jù)存儲220和自然語言引擎290之間的連接的各實施例不限于例如所描述的示例,而是涵蓋各種各樣的通信方法。在另一實施例中,計算設(shè)備可以在內(nèi)部接納語義解釋組件250的功能,由此減輕對無線或有線連接的依賴。
示例性系統(tǒng)體系結(jié)構(gòu)200包括部分地支持呈現(xiàn)設(shè)備275的操作的客戶機設(shè)備215。在其中客戶機設(shè)備215例如是移動設(shè)備的示例性實施例中,呈現(xiàn)設(shè)備(例如觸摸屏顯示器)可以被設(shè)置在客戶機設(shè)備215上。此外,客戶機設(shè)備215可以采用各種類型的計算設(shè)備的形式。僅作為示例,客戶機設(shè)備215可以是個人計算設(shè)備(例如圖1的計算設(shè)備100)、手持式設(shè)備(例如個人數(shù)字助理)、移動設(shè)備(例如膝上型計算機、蜂窩電話、媒體播放器)、消費電子設(shè)備、各種服務(wù)器等等。此外,計算設(shè)備可以包括被配置成在其間共享信息的兩個或多個電子設(shè)備。 在各實施例中,如上所述,客戶機設(shè)備215包括或在操作上耦合到被配置成在呈現(xiàn)設(shè)備275上呈現(xiàn)UI顯示295的呈現(xiàn)設(shè)備275。呈現(xiàn)設(shè)備275可以被配置成能夠向用戶呈現(xiàn)信息的任何顯示設(shè)備,諸如監(jiān)視器、電子顯示面板、觸摸屏、液晶顯示器(LCD)、等離子顯示器、一個或多個發(fā)光二極管(LED)、白熾燈泡、激光器、電熒光光源、化學光源、彎曲燈線、和/或熒光燈或任何其他顯示器類型,或者可以包括在其上投影視覺信息的反射面。雖然以上描述了呈現(xiàn)設(shè)備275的若干個不同配置,但是本領(lǐng)域普通技術(shù)人員應(yīng)該明白和理解,可采用呈現(xiàn)信息的各種類型的呈現(xiàn)設(shè)備作為呈現(xiàn)設(shè)備275,并且本發(fā)明的各實施例并不限于所示和所描述的這些呈現(xiàn)設(shè)備275。 在一個示例性實施例中,由呈現(xiàn)設(shè)備275呈現(xiàn)的UI顯示295被配置成呈現(xiàn)與自然語言引擎290和/或內(nèi)容發(fā)布者相關(guān)聯(lián)的網(wǎng)頁(未示出)。在各實施例中,網(wǎng)頁可以展示接收查詢的搜索輸入?yún)^(qū)域和通過使用該查詢搜索語義索引而發(fā)現(xiàn)的搜索結(jié)果。查詢可以由用戶在搜索輸入?yún)^(qū)域手動地提供,或者可以由軟件自動生成。此外,如以下更全面討論的,查詢可以包括一個或多個關(guān)鍵詞,當提交時該關(guān)鍵詞時調(diào)用自然語言引擎290來標識最響應(yīng)該查詢中的關(guān)鍵詞的適當?shù)乃阉鹘Y(jié)果。 圖2中所示的自然語言引擎290可以采用諸如例如以上參考圖1所描述的計算設(shè)備100等各種類型的計算設(shè)備的形式。僅作為示例而非限制,自然語言引擎290可以是個人計算機、臺式計算機、膝上型計算機、消費電子設(shè)備、手持式設(shè)備(例如個人數(shù)字助理)、各種遠程服務(wù)器(例如在線服務(wù)器云)、處理設(shè)備等。然而,應(yīng)該注意,本發(fā)明并不限于在這些計算設(shè)備上實現(xiàn),而是可以在處于本發(fā)明的各實施例范圍內(nèi)的各種不同類型的計算設(shè)備中的任何一個上實現(xiàn)。 此外,在一個實例中,自然語言引擎290被配置成搜索引擎,其被設(shè)計成響應(yīng)于經(jīng)由客戶機設(shè)備215提交的查詢來在因特網(wǎng)和/或數(shù)據(jù)存儲220上搜索信息以及在搜索范圍內(nèi)從該信息收集搜索結(jié)果。在一個實施例中,搜索引擎包括挖掘可經(jīng)由因特網(wǎng)訪問的可用數(shù)據(jù)(例如新聞組、數(shù)據(jù)庫、開放目錄、數(shù)據(jù)存儲220等)并構(gòu)建包含web地址以及網(wǎng)頁或以有意義的格式存儲的其他文檔的主題的語義索引260的一個或多個web爬行器。在另一實施例中,搜索引擎可用于便于從與所提交的查詢內(nèi)的搜索項相關(guān)的語義索引中標識和檢索搜索結(jié)果(例如列表、表、順序排列的web地址等)。搜索引擎可由因特網(wǎng)用戶通過設(shè)置在客戶機設(shè)備215上web瀏覽器應(yīng)用程序訪問。因此,用戶可以通過在搜索輸入?yún)^(qū)域(例如,出現(xiàn)在由與搜索引擎相關(guān)聯(lián)的恥b瀏覽器應(yīng)用程序生成的UI顯示295上)處提交搜索項來進行因特網(wǎng)搜索。在另一配置中,可以進行搜索,其中查詢被提交給一個或多個系統(tǒng)索弓I以便從諸如用戶的硬盤等本地信息存儲檢索內(nèi)容。 數(shù)據(jù)存儲220 —般被配置成存儲與具有與之相關(guān)聯(lián)的可搜索內(nèi)容的在線項和/或
材料相關(guān)聯(lián)的信息(例如包括Wikipedia(維基百科)網(wǎng)站的文檔)。在各個實施例中,這
種信息可以包括但不限于可經(jīng)由因特網(wǎng)、本地內(nèi)聯(lián)網(wǎng)、用戶的機器的存儲器或硬盤訪問的文檔、網(wǎng)頁/網(wǎng)站的內(nèi)容、電子材料;以及對搜索引擎可用的其他典型資源。此外,數(shù)據(jù)存儲
220可以被配置成可被搜索以獲取對所存儲信息的合適訪問。在一個實例中,允許合適訪問
包括根據(jù)向其提供的準則來選擇或過濾數(shù)據(jù)存儲中的文檔的子集。 例如,可以搜索數(shù)據(jù)存儲220以選出由自然語言引擎290處理的一個或多個文檔。在各實施例中,允許自然語言引擎290自由地檢查數(shù)據(jù)存儲以獲取最近添加或修改的文檔以更新語義索引。該檢查過程可以持續(xù)地執(zhí)行、按照預定的間隔進行、或者在指示聚集在數(shù)據(jù)存儲220處的一個或多個文檔發(fā)生改變時執(zhí)行。本領(lǐng)域普通技術(shù)人員將明白和理解,存儲在數(shù)據(jù)存儲220中的信息可以是可配置的,并且可以包括在線搜索范圍內(nèi)的任何信息。這一信息的內(nèi)容和量決不旨在限制本發(fā)明的各實施例的范圍。此外,雖然數(shù)據(jù)存儲220被示為單個獨立的組件,但是實際上數(shù)據(jù)存儲220可以是多個數(shù)據(jù)庫,例如數(shù)據(jù)庫簇,其各部分可以駐留在客戶機設(shè)備215、自然語言引擎290、另一外部計算設(shè)備(未示出)、和/或其任何組合上。 —般而言,自然語言引擎290提供了一種用于對希望瀏覽并尋找在線信息的用戶進行幫助的工具。在各實施例中,該工具通過應(yīng)用自然語言處理技術(shù)來計算諸如從數(shù)據(jù)存儲220得到的文檔等文檔集中的各段落的含義來操作。這些含義被存儲在當執(zhí)行索引時進行引用的語義索引260中。最初,當用戶將查詢輸入到搜索輸入?yún)^(qū)域中時,查詢搜索流水線205分析用戶的查詢(例如字符串、完整詞語、短語、字母數(shù)字組合、符號、或問題)并且使用語義關(guān)系將該查詢轉(zhuǎn)換成結(jié)構(gòu)表示。該表示(下文中被稱為"建議")可以被用于詢問存儲在語義索引260中的信息以獲取相關(guān)搜索結(jié)果。 在一個實例中,存儲在語義索引260中的信息包括從在數(shù)據(jù)存儲220處維護的文檔或涵蓋在在線搜索的范圍內(nèi)的任何其他材料中提取的表示。該表示(下文中稱為"語義表示")涉及從普通文本提煉的內(nèi)容的直觀含義,并且可以被存儲在語義索引260中。在各實施例中,該語義表示是利用一系列有序的項重寫規(guī)則或相關(guān)領(lǐng)域公知的任何其他試探法來從語義結(jié)構(gòu)中導出的。在各實施例中,"語義結(jié)構(gòu)"是由部分地利用詞匯語義語法規(guī)則將
文檔的內(nèi)容轉(zhuǎn)換成該語義結(jié)構(gòu)的文檔解析組件在分析流水線的中間階段生成的。 語義索引260的體系結(jié)構(gòu)允許將所存儲的語義表示和所導出的建議進行快速比
較以找出匹配該建議的語義表示并且檢索映射到與所提交的查詢相關(guān)的語義表示的文檔。
因此,自然語言引擎290可以從提交到搜索界面(例如,出現(xiàn)在UI顯示295上的搜索輸入
區(qū)域)的查詢中確定用戶的查詢要求的含義,并接著篩選大量的信息以找出滿足這些要求
的對應(yīng)的搜索結(jié)果。 在各實施例中,以上過程可以由執(zhí)行用于發(fā)現(xiàn)相關(guān)搜索結(jié)果的一個或多個步驟的 各種功能元件來實現(xiàn)。這些功能元件包括查詢解析組件235、文檔解析組件240、語義解釋 組件245、語義解釋組件250、語法規(guī)范組件255、語義索引260、匹配組件265、和排序組件 270。這些功能組件235、240、245、250、255、260、265和270 —般指動態(tài)地鏈接和預備與其 他組件或設(shè)備一起使用的各個模塊化軟件例程及其相關(guān)聯(lián)的硬件。 最初,數(shù)據(jù)存儲220、文檔解析組件240和語義解釋組件250構(gòu)成索引流水線210。 在操作中,索引流水線210用于從在數(shù)據(jù)存儲220處訪問的文檔內(nèi)的內(nèi)容中提煉語義表示, 并且在收集這些語義表示后構(gòu)造語義索引260。如上所述,當被聚集以形成語義索引260 時,語義表示可以保留到從中導出它們的文檔230和/或文檔230內(nèi)的內(nèi)容的位置的映射。 換言之,語義索引260對語義解釋組件250所生成和傳達的(從在文檔解析組件240處創(chuàng)建 的語義結(jié)構(gòu)導出的)語義表示進行編碼。然而,在其他實施例中,文檔解析組件240和語義 解釋組件250可以被配置成不將自然語言處理分成兩個階段(即LFG解析和語義解釋)的 單個元件,而是改為在單個步驟中產(chǎn)生語義表示,而沒有在其中產(chǎn)生語義結(jié)構(gòu)的分開階段。
—般而言,文檔解析組件240被配置成收集對自然語言引擎290可用的數(shù)據(jù)。在 一個實例中,收集數(shù)據(jù)包括檢查數(shù)據(jù)存儲220以掃描存儲在其中的文檔的230的內(nèi)容或其 他信息。因為數(shù)據(jù)存儲220內(nèi)的信息可以被持續(xù)地更新,所以可以按定期的間隔、連續(xù)地、 或在通知對文檔230中的一個或多個做出更新時執(zhí)行收集數(shù)據(jù)的過程。
當從文檔230或其他可用源收集內(nèi)容時,文檔解析組件240執(zhí)行各種過程以準備 對其進行語義分析的內(nèi)容。這些過程可以包括文本提取、實體識別、以及解析。文本提取 過程基本上涉及從文檔230的內(nèi)容提取數(shù)據(jù)的表、圖像、模板、以及文本部分,以及將它們 從原始在線格式轉(zhuǎn)換成可用格式(例如,超文本標記語言(HTML)),同時保存到從中提取它 們文檔230的鏈接以便于映射??捎酶袷降膬?nèi)容接著可以被拆分成各個句子。在一個實例 中,將內(nèi)容分成各個句子涉及將字符串組合成輸入、應(yīng)用一組規(guī)則以測試該字符串的具體 特性、并且基于該具體特性將內(nèi)容分成各個句子。僅作為示例,被測試的內(nèi)容的具體特性可 以包括標點符號和大寫以便確定句子的起始和結(jié)束。 一旦確定了一系列句子,則檢查每個 單獨句子以檢測其中的詞語并可能將每個詞語識別為賓語(例如"興登堡")、事件(例如 "第二次世界大戰(zhàn)")、時間(例如"九月")、動詞、或可用于提出詞語之間的區(qū)別或用于理解 本句的含義的詞語的任何其他的詞語類別。 實體識別過程協(xié)助識別哪些詞語是名稱,因為它們向查詢的問題相關(guān)關(guān)鍵詞(例 如誰、哪里、何時)提供具體答案。在各實施例中,識別詞語包括將詞語識別為名稱和使用 標簽來注釋該詞語以便于在詢問語義索引260時進行檢索。在一個實例中,將詞語標識為 名稱包括在預定義的名稱列表中查找這些詞語以確定是否存在匹配。如果不存在匹配,則
9可以使用統(tǒng)計信息來猜測該詞語是否是名稱。例如,統(tǒng)計信息可以協(xié)助識別諸如"USS企業(yè)" 等可具有若干常用拼寫變體的復雜名稱的變體。 解析過程在被實現(xiàn)時提供對以上所標識的句子的結(jié)構(gòu)的洞察。在一個實例中,這 些洞察是通過應(yīng)用在語法規(guī)范組件255的框架中維護的規(guī)則來提供的。當被應(yīng)用時,這些 規(guī)則或語法加速分析句子以提煉句子中的各詞語之間的關(guān)系表示。如上所述,這些表示被 稱為語義結(jié)構(gòu),并允許語義解釋組件250捕捉有關(guān)句子的語法結(jié)構(gòu)的關(guān)鍵信息(例如動詞、 主語、賓語等)。 語義解釋組件250 —般被配置成通過識別詞語之間的語義關(guān)系來診斷由文檔解 析組件240生成的語義結(jié)構(gòu)中的每個詞語的角色。最初,診斷可以包括分析語義結(jié)構(gòu)的語 法組織并且將其分成每一個都表達分立的觀點和具體事實的各個邏輯斷言??梢赃M一步分 析這些邏輯斷言以確定構(gòu)成斷言的詞語序列中的每一個詞語的功能。在一個實例中,確定 詞語序列的功能包括利用一系列有序的項重寫規(guī)則或相關(guān)領(lǐng)域公知的任何其他試探法。
如果適當,可以基于每個詞語的功能或角色來擴展詞語序列中的一個或多個詞語 以包括同義詞(即鏈接到對應(yīng)于所擴展的詞語的特定含義的其他詞語)或上位詞(即鏈接 到一般地涉及所擴展的詞語的一般含義的其他詞語)。這種對詞語的擴展、每個詞語在表 達式中起到的功能(如上所述)、詞語序列中的每一個詞語的語法關(guān)系、以及語義解釋組件 250所識別的有關(guān)語義表示的任何其他信息組成了可以作為語義表示來存儲在語義索引 260處的語義表示。 語義索引260用于存儲由索引流水線210的一個或多個組件所導出的語義表示并 且可以按相關(guān)領(lǐng)域中任何公知方式來配置。作為示例,語義索引可以被配置成在結(jié)構(gòu)上類 似于常規(guī)搜索引擎索引的倒排索引。在該示例性實施例中,倒排索引是其條目是具有指向 詞語所出現(xiàn)的文檔230以及其中位置的指針的那些詞語的可快速搜索的數(shù)據(jù)庫。因此,當 將語義結(jié)構(gòu)寫入到語義索引260中時,索引每個詞語和相關(guān)聯(lián)的功能連同指向其中出現(xiàn)語 義詞語的文檔中的句子的指針。語義索引260的該框架允許匹配組件265高效地訪問、導 航和匹配所存儲的信息以取得與所提交的查詢對應(yīng)的有意義的搜索結(jié)果。
客戶機設(shè)備215、查詢解析組件235、以及語義解釋組件245構(gòu)成查詢調(diào)節(jié)流水線 205。類似于索引流水線210,查詢調(diào)節(jié)流水線205從詞語序列中提煉有意義的信息。然而, 與處理文檔230內(nèi)的段落不同,查詢調(diào)節(jié)流水線205處理在查詢225中提交的詞語。例如, 查詢解析組件235接收查詢225并執(zhí)行準備詞語以對其進行語義分析的各種過程。這些過 程可類似于諸如文本提取、實體識別和解析等由文檔解析組件240采用的過程。此外,查詢 225的結(jié)構(gòu)可以通過應(yīng)用在語法規(guī)范組件225和語義解釋組件245的框架中維護的規(guī)則來 標識,由此導出查詢225的有意義的表示或建議。 在各實施例中,語義解釋組件245能以與語義解釋組件250解釋從文檔230中的 文本段落中導出語義結(jié)構(gòu)基本上相同的方式來處理查詢語義表示。在其他實施例中,語義 解釋組件245可以標識構(gòu)成查詢225的關(guān)鍵詞串(例如問題或短語)中的各關(guān)鍵詞的語法 和/或語義關(guān)系。作為示例,標識語法和/或語義關(guān)系包括標識詞語或短語是否擔當主語 (動作的施動者)、賓語、謂語、間接賓語、或查詢225的建議的時間地點。在另一實例中,評 估該建議以標識與每個關(guān)鍵詞相關(guān)聯(lián)的邏輯語言結(jié)構(gòu)。作為示例,評估可以包括以下步驟 中的一個或多個確定至少一個關(guān)鍵詞的功能;基于該功能,用涵蓋多個含義的邏輯變量
10替換關(guān)鍵詞(例如,將該功能與多個含義相關(guān)聯(lián));以及將這些含義寫入到查詢的建議中。 查詢225的該建議、關(guān)鍵詞、以及從該建議和/或關(guān)鍵詞提煉的信息接著被發(fā)送給匹配組件 265以供與從文檔230提取并且存儲在語義索引260中的語義表示作比較。
在一示例性實施例中,匹配組件265將查詢225的建議與語義索引260處的語義 表示作比較以查明相匹配的語義表示。通過關(guān)聯(lián)從中導出這些相匹配的語義表示的文檔 230和其中的位置,可以將這些語義表示映射回從中提取它們的文檔230。排序組件270搜 集并且排序由相關(guān)聯(lián)的位置瞄準的這些文檔230。排序能以相關(guān)領(lǐng)域中任何公知方法來執(zhí) 行,并且可以包括但不限于根據(jù)匹配的緊密程度進行排序、基于所返回的文檔230的流行 度來列出、或基于提交查詢225的用戶的屬性來排序。這些經(jīng)排序的文檔230包括搜索結(jié) 果285并且可以被傳達給呈現(xiàn)設(shè)備275以便以適當?shù)母袷匠尸F(xiàn)在UI顯示295上。
繼續(xù)參考圖2,該示例性系統(tǒng)體系結(jié)構(gòu)200僅是可以實現(xiàn)來執(zhí)行本發(fā)明的各方面 的合適環(huán)境的一個示例,而并非旨在對本發(fā)明的使用范圍或功能提出任何限制。也不應(yīng)將 所示的示例性系統(tǒng)體系結(jié)構(gòu)200或自然語言引擎290解釋為對所示出組件235、240、245、 250、255、260、265和270中的任一個或其組合有任何依賴性或要求。在某些實施例中,組 件235、240、245、250、255、260、265和270中的一個或多個可以被實現(xiàn)為獨立設(shè)備。在其他 實施例中,組件235、240、245、250、255、260、265和270中的一個或多個可以被直接集成到 客戶機設(shè)備215中。本領(lǐng)域普通技術(shù)人員可以理解,圖2中所示的組件235、240、245、250、 255、260、265和270在本質(zhì)上和數(shù)量上是示例性的并且不應(yīng)被解釋為限制性的。
因此,可采用任何數(shù)量的組件來實現(xiàn)本發(fā)明的各實施例的范圍內(nèi)的所需功能。盡 管為了清楚起見用線條示出了圖2的各組件,但是在實際上,各組件的輪廓并不是那樣清 楚,并且按比喻的說法,線條更精確地將是灰色的和模糊的。此外,雖然圖2的某些組件 被描述為單個框,但是這些描述在本質(zhì)上和數(shù)量上是示例性的,且并不被解釋為限制性的 (例如,雖然僅示出了一個呈現(xiàn)設(shè)備275,但是多得多的呈現(xiàn)設(shè)備可以在通信上耦合到客戶 機設(shè)備215)。 現(xiàn)在轉(zhuǎn)向圖3,示出了根據(jù)本發(fā)明的一實施例從文檔內(nèi)的文本部分生成的語義表 示的示圖300??梢詮睦绱鎯υ跀?shù)據(jù)存儲中以供在索引期間容易地訪問的一個或多個文 檔的內(nèi)容中提取文本部分。在一個實施例中,從中提取文本部分的文檔是web文檔,但是在 其他實施例中,文檔可以是來自任何類型的文檔集合的任何類型的基于文本的文檔。本領(lǐng) 域普通技術(shù)人員會清楚,可以檢索任何類型的文檔,諸如可以從任何文檔集合檢索的文檔 或者甚至是對于集合內(nèi)的具體文檔的分析。文本部分可以包括間接引語和其他態(tài)度報告, 其可以由在該文本部分找到的多個詞語來標識,諸如但當然不限于聲明公開指責、說、相 信、希望、拒絕等。在態(tài)度報告中標識這些詞語是因為它們描述了個人對特定主題的態(tài)度。 間接引語可以采用從個人直接引用的形式或者可以是第二手的間接引語。如以下示例所示 和所描述的,各種形式的間接引語和其他態(tài)度報告,包括上述間接引語和態(tài)度報告,會變得 顯而易見。 語義表示一般涵蓋三個主要目的,包括但不限于各個詞語的含義、詞語之間的關(guān) 系、以及上下文。語義表示允許對文本更加徹底的理解,而非僅依賴于例如來自與文檔(例 如web文檔)中的詞語相匹配的查詢的關(guān)鍵詞。此處,確定關(guān)系以允許對文本進行更深入 的分析。示圖300包括文本部分305、第一關(guān)聯(lián)級別310、第二關(guān)聯(lián)級別320和第三關(guān)聯(lián)級
11別330。關(guān)聯(lián)級別310、320和330中的每一個包含一個或多個元素和一個或多個相關(guān)元素。
在圖3的實施例中,相關(guān)元素由項312、314、316、322、332和334來表示。元素包括詞語"公
開指責"、"布什"、"華盛頓"、"呼吁"、"撤軍"、"美國"和"伊拉克"。也對每個關(guān)聯(lián)級別示出
了報告動作,此處為詞語"公開指責"、"呼吁"、"撤軍"。這樣,在某些實施例中,可以存在作
為元素但是也被分類成報告動作的某些詞語,諸如"公開指責"、"呼吁"和"撤軍"。 為了清楚地示出圖3的實施例,示出了文本部分305的語義表示,其如下所示"在
華盛頓,喬治布什公開指責美國從伊拉克撤軍的呼吁。"應(yīng)該注意,圖3是下文中再現(xiàn)的語
義表示的示圖。僅是出于說明的目的來同時以示圖格式和作為語義表示提供本示例。在某
些實施例中,語義表示被生成并存儲在諸如圖2的語義索引260等語義索引中,但是不生成
示圖。在這些實施例中,僅是為了說明和示例的目的而再現(xiàn)示圖。上下文(頂層)DNC(公開指責)施動者:B 上下文(頂層):DNC豐題:上下文(3) 上下文(頂層):DNC地點:W(華盛頓) 上下文(3) :CL(呼吁)^M :上下文(5) 上下文(5) :WTHD (撤軍)施動者:U (美國) 上下文(5) :WTHD地點:1 (伊拉克) 詞語B[喬治布什,人]上下文(頂層) 詞語DNC[公開指責,批評,說]上下文(頂層) 詞語W[華盛頓特區(qū)",城市,地點]上下文(頂層) 詞語CL[呼吁,說]上下文(3)上下文(5) 詞語U[美利堅合眾國,國家,地點]上下文(5) 詞語1[伊拉克,國家,地點]上下文(5) 如所示的,在文本部分(即圖3的項305)中標識了三個關(guān)聯(lián)級別,本文中也被稱 為上下文。這些關(guān)聯(lián)級別(即上下文)是上下文(頂層)、上下文(3)和上下文(5)。這些 關(guān)聯(lián)級別被標識為報告動作的主題,它們一般是動作詞語,并且在某些實施例中是動詞。此 處,"公開指責"是與第一關(guān)聯(lián)級別310相關(guān)聯(lián)的報告動作。第二關(guān)聯(lián)級別320可以被認為 是在第一關(guān)聯(lián)級別310中標識的報告動作"公開指責"的主題。相似地,第三關(guān)聯(lián)級別330 可以是在第二關(guān)聯(lián)級別320中標識的報告動作"呼吁"的主題。 形成各關(guān)聯(lián)級別以便將全部以相同的方式保持成立的大量關(guān)系聚集在一起。諸如 上下文(頂層)等頂層關(guān)聯(lián)級別可以是根據(jù)句子的每個問題都保持成立的關(guān)聯(lián)。例如,在 圖3的實施例中,布什在華盛頓做出聲明可能是真的,而不論他公開指責什么。布什公開指 責的聲明是嵌入上下文,而在該實施例中該嵌入上下文是"呼吁美國從伊拉克撤軍"。根據(jù) 該示例,因為從伊拉克撤軍沒有發(fā)生,所以該聲明位于第二關(guān)聯(lián)級別,其在此處可以被稱為 假設(shè)上下文。使用以上所概述的上下文結(jié)構(gòu)或關(guān)聯(lián)級別,可以將不同的語義關(guān)系標識為在 不同的情況下或以不同的方式保持成立。 可以基于多個因素來確定報告動作,并且可以為每個關(guān)聯(lián)級別標識報告動作。在 某些實例中,報告動作是動作詞語,諸如在圖3的實施例中的"公開指責"、"呼吁"和"撤軍"。 報告動作可以是例如動 、名詞等,并且通常由周圍文本或該詞語在句子中是如何使用的來確定。這種類型的語法信息可以例如通過應(yīng)用一組規(guī)則來確定,該組規(guī)則可以在例如圖 2的語法規(guī)范組件255的框架中維護。通過應(yīng)用一組規(guī)則或語法,確定詞語的關(guān)系,這導致 對報告動作的標識。 如圖3所示,報告動作被鏈接到諸如詞語或短語等元素或者可以被鏈接到不同的 關(guān)聯(lián)級別。報告動作被標識為事件的各個角色,這在該示例中可以被稱為公開指責事件。例 如,"公開指責"被標識為第一關(guān)聯(lián)級別310的報告動作。詞語"公開指責"被鏈接到詞"語 布什"和詞語"華盛頓",兩者都出現(xiàn)在被進行語義分析的文本部分中。由于布什實際上進 行了公開指責,所以"公開指責"被鏈接到"布什",因為"布什"是詞語"公開指責"的施動 者。因此,施動者312是將兩個詞語鏈接到一起并由此形成語義關(guān)系的相關(guān)元素。同樣,地 點314是將包括"公開指責"和"華盛頓"的兩個詞語鏈接在一起的相關(guān)元素。為了將相關(guān) 元素與不同層次的上下文內(nèi)的詞語相鏈接,可尋找將這兩者鏈接到一起的主題。例如,可確 定正在公開指責什么事件并且這可以是報告動作"公開指責"的主題。此處,呼吁某事可以 是"公開指責"的主題316,而進一步地,美國從伊拉克撤軍可以被標識為第二關(guān)聯(lián)級別內(nèi)的 報告動作"呼吁"的主題322(即呼吁事件。在第三關(guān)聯(lián)級別330中,"美國"被標識為撤軍 的施動者332,而"伊拉克"是撤軍的地點334。 元素是從原始內(nèi)容中解析的并且在此處包括諸如"公開指責"、"布什"、"華盛頓"、 "呼吁"、"撤軍"、"美國"和"伊拉克"等詞語。這些詞語中的一個或多個可以具有在語義表 示中由邏輯變量表示的相似含義。該邏輯變量可以表示具有與該元素相似的含義的多個同 義詞、該元素所適合的類別,并且也可以表示該元素可能具有的多個含義。某些元素比其他 元素更容易確定正確的含義。在一個實例中,可以基于該元素是如何在文本部分的上下文 中使用的來確定含義。如上所示,"布什"被標識為"喬治布什",其被標識為人。報告動作 "公開指責"與在此處僅為了示例性目的而提供的"批評"和"說"相關(guān)聯(lián)??梢源嬖诰哂信c "公開指責"相似含義的多個其他詞語并且該多個詞語也可被確定為與其相關(guān)聯(lián)。同樣,"華 盛頓"與包括城市和地點的類別相關(guān)聯(lián)。"撤軍"與"移動"相關(guān)聯(lián),而"美國"和"伊拉克" 兩者都被歸類為國家和地點。 諸如在圖3中所示的,語義表示允許在接收和分析用戶的查詢之后將更好、更精 確或更相關(guān)的搜索結(jié)果返回給用戶。例如,通過解析文本(例如目標語句)"在華盛頓,喬 治布什公開指責d美國從伊拉克撤軍的呼吁"并且如上所述發(fā)展語義關(guān)系,可以在接收到諸
如"布什關(guān)于伊拉克說了什么,"而非"布什關(guān)于華盛頓說了什么"的自然語言查詢時將該文 本返回給用戶。假設(shè)傳統(tǒng)的關(guān)鍵詞搜索可以將"公開指責"標識為一種形式的"說",則它將 給予目標句子中的項"華盛頓"、"美國"和"伊拉克"相同的突出性,從而導致它按諸如"說 布什華盛頓"等關(guān)鍵詞查詢來檢索。 一種將項"公開指責"鏈接到其直接論點"呼吁"而不 進一步深入的更高級的索引方案將不能檢測到該公開指責是關(guān)于伊拉克的。除了地點314 的報告動作之外,項"華盛頓"被排斥在鏈接到"公開指責"之外,因為它未被標識為嵌入在 正被分析的文本部分內(nèi)。 圖4是示出根據(jù)本發(fā)明的一實施例從文檔內(nèi)的文本部分生成的語義表示的示圖 400。同樣,文本部分可以包括間接引語和其他態(tài)度報告,它們可以由在文本部分中找到的 多個詞語來標識,這些詞語諸如但是當然不限于公開指責、說、相信、希望、拒絕等。雖然圖3 的實施例提供了語義表示作為分析詞語之間的語義關(guān)系的結(jié)果,但是該表示可以用有關(guān)動詞"公開指責"的哪些論點傳達該公開指責的內(nèi)容的信息來補充??梢蕴砑悠渌~匯信息 以指示該公開指責是關(guān)于什么的。以下是與圖3中所使用的同一文本的語義表示,其如下 "在華盛頓,喬治布什公開指責美國從伊拉克撤軍的呼吁"。然而,此處除了圖3的實施例中 形成的關(guān)系之外還形成了"關(guān)于(about)"關(guān)系以便在接收到查詢之后提供更加相關(guān)的搜索 結(jié)果。
上下文(頂層):DNC施動者:B
上下文(頂層):DNC豐題:上下文(3)
上下文(頂層):DNC地點:W
上下文(頂層):DNC關(guān)于:CL
上下文(頂層):DNC關(guān)于:WTHD 上下文(頂層):DNC關(guān)于:U
上下文(頂層):DNC關(guān)于:1
上下文(3) :CL豐題:上下文(5)
上下文(5) :WTHD施動者:U
上下文(5) :WTHD地點1 詞語B[喬治布什,人]上下文(頂層) 詞語DNC[公開指責,批評,說]上下文(頂層) 詞語W :[華盛頓特區(qū),城市,地點]上下文(頂層) 詞語CL[呼吁,說]上下文(3) 詞語WTHD[撤軍,移動]上下文(5) 詞語U[美利堅合眾國,國家,地點]上下文(5) 詞語1 [伊拉克,國家,地點]上下文(5) 存在多種可用于計算和記錄"關(guān)于性(aboutness)"鏈接的方法。 一種方式是計算 從主題論點開始的上下文和論點鏈接的傳遞閉包,并且將該閉包中的任何項標記為報告所 關(guān)于的項。這在以上的語義表示中示出,并且也在圖4中示出。 圖4示出了在語義上表示的文本部分405。與圖3—樣,圖4示出了三個關(guān)聯(lián)級 別,它們是第一關(guān)聯(lián)級別410、第二關(guān)聯(lián)級別430和第三關(guān)聯(lián)級別440。"公開指責"是第一 關(guān)聯(lián)級別410的報告動作,"呼吁"是第二關(guān)聯(lián)級別430的報告動作,而"撤軍"是第三關(guān)聯(lián) 級別440的報告動作。如所示的,"公開指責"現(xiàn)在比它在圖3的實施例中所具有的更多的 語義關(guān)系,如除了先前的關(guān)系之外現(xiàn)在示出的"關(guān)于"關(guān)系。已經(jīng)確定了"公開指責"與帶 有相關(guān)元素施動者412的"布什"、帶有相關(guān)元素地點414的"華盛頓"以及帶有該公開指責 事件的相關(guān)元素主題416第二關(guān)聯(lián)層430中的每一個之間的語義關(guān)系。此外,第三關(guān)聯(lián)層 440是呼吁的主題432,"美國"是撤軍的施動者442,而"伊拉克"是撤軍的地點444。
除了這些關(guān)系之外,示出了若干個"關(guān)于"關(guān)系,包括鏈接到第三關(guān)聯(lián)層440中的 "撤軍"的關(guān)于418、鏈接到第二關(guān)聯(lián)層430中的"呼吁"的關(guān)于420、鏈接到第三關(guān)聯(lián)層440 中的"美國"的關(guān)于422、以及鏈接到同樣在第三關(guān)聯(lián)層440中的"伊拉克"的關(guān)于424。這 樣,該公開指責事件是關(guān)于撤均的、是關(guān)于呼吁的、是關(guān)于美國的、以及是關(guān)于伊拉克的。如 所示的,該公開指責事件并非關(guān)于布什的,也不是關(guān)于華盛頓的。例如,確定這些"關(guān)于"關(guān) 系并且避免與布什和華盛頓的"關(guān)于"關(guān)系消除了將不相關(guān)的搜索結(jié)果返回給用戶。
參考圖5,示出根據(jù)本發(fā)明的一實施例從文檔內(nèi)的文本部分生成的語義表示的示
圖500。該實施例的語義表示在下文中是對于以下的文本部分505示出的"在華盛頓,喬
治布什公開指責美國從伊拉克撤軍的呼吁"。 上下文(頂層):DNC施動者:B 上下文(頂層):DNC豐題:上下文(3) 上下文(頂層):DNC地點:W 上下文(3) :CL豐題上下文(5) 上下文(3) :CL講話DNC 上下文(5) :WTHD施動者U 上下文(5) :WTHD地點1 上下文(5) :WTHD講話DNC 詞語B[喬治布什,人]上下文(頂層) 詞語DNC[公開指責,批評,說]上下文(頂層) 詞語W:[華盛頓特區(qū),城市,地點]上下文(頂層) 詞語CL[呼吁,說]上下文(3) 詞語WTHD[撤軍,移動]上下文(5) 詞語U[美利堅合眾國,國家,地點]上下文(5) 詞語1 [伊拉克,國家,地點]上下文(5) 如以上所示,索引僅標記每一報告事實的頭部,而非如圖4中的情況標記報告所關(guān)于的每個元素。例如,圖5示出了"公開指責"已經(jīng)被標識為第一關(guān)聯(lián)級別510的報告動作,并且被鏈接到各個元素,諸如由相關(guān)元素施動者512鏈接到"布什"以及由相關(guān)元素地點514鏈接到"華盛頓"。此外,"公開指責"的主題516被標識為"呼吁美國從伊拉克撤軍",其部分包含在第二關(guān)聯(lián)級別530內(nèi)并且部分包含在第三關(guān)聯(lián)級別540內(nèi)。"呼吁"由相關(guān)元素主題532鏈接到第三關(guān)聯(lián)級別540。在第三關(guān)聯(lián)級別540中,"撤軍"分別由相關(guān)元素施動者542和地點544鏈接到"美國"和"伊拉克"兩者。 作為以上定義的關(guān)系的補充并且作為"關(guān)于"關(guān)系的替換,存在兩個被稱為為講話(spoken)的元素,并且它們被示為鏈接到"撤軍"的講話518和鏈接到"呼吁"的講話520。該框架仍然允許在"公開指責"和"撤軍"、"美國"以及甚至是"伊拉克"之間的連接。不同之處在于圖5的實施例中的這些關(guān)系是間接關(guān)系而非直接關(guān)系。如上所述,使用該實施例的折衷是減少在索引內(nèi)對存儲器的使用,但是增加在接收到查詢之后用于計算所需的時間。繼續(xù)參考圖5,例如,示出了圖4的實施例的替換實施例,其示出了空間_時間折衷的概念。如可以通過比較圖4的示圖和圖5的示圖所看到的,圖5的示圖看起來較為簡單,因為它并不顯式地包含任何使用"關(guān)于"相關(guān)元素的"關(guān)于"關(guān)系。由于圖5包含較少的標識關(guān)系,因此它在索引內(nèi)占用較小量的空間,并且由此占用較小量的存儲該索引的數(shù)據(jù)存儲。雖然可以針對圖5的實施例使用較少的存儲器和存儲空間,但是可能需要更多的時間來將查詢建議于索引內(nèi)的語義表示相匹配,因為還未標識"關(guān)于"關(guān)系。換言之,沒有在索引內(nèi)顯式地對"關(guān)于"關(guān)系編碼以允許快速比較。這要求在后端進行多得多的計算,這樣對于用戶可能導致增加的等待時間。另選地,圖4的實施例在前端顯式地計算"關(guān)于"關(guān)系并且將這些關(guān)系存儲在索引中,這允許將查詢建議與語義表示進行快速比較,從而使得在用戶輸入查詢之后需要較少的時間來進行計算。 圖6示出根據(jù)本發(fā)明的一實施例從文檔內(nèi)的文本部分生成的語義表示的圖示
600。圖6的實施例示出了與圖3和圖4的實施例相似的、但更加簡單的示例。文本部分
605表述如下"約翰相信瑪麗去了華盛頓"。以下是文本部分605的語義表示。 上下文(頂層):BEL(相信)施動者.T(約翰) 上下文(頂層):BEL豐題:上下文(2) 上下文(頂層)BELJ^ :M (瑪麗) 上下文(頂層):BEL關(guān)于:W (華盛頓) 上下文(2) :G施動者M 上下文(2) :G地點W 詞語J[約翰,人]上下文(頂層) 詞語BEL[相信]上下文(頂層) 詞語W[華盛頓特區(qū),城市,地點]上下文(2) 詞語G[去,移動]上下文(2) 詞語M [瑪麗,人]上下文(2) 從原始內(nèi)容解析的元素包括"約翰"、"相信"、"去"、"瑪麗"以及"華盛頓"。"相 信"被標識為第一關(guān)聯(lián)級別610內(nèi)的報告動作,而"去"是第二關(guān)聯(lián)級別630內(nèi)的報告動作。 如上所定義的相關(guān)元素將各元素鏈接在一起并且描述關(guān)聯(lián)的類型,包括施動者612、主題 614、關(guān)于616、關(guān)于618、關(guān)于620、施動者632以及地點634。第二關(guān)聯(lián)級別630是"相信" 的主題,而存在"關(guān)于""相信"的報告動作的三個詞語。"相信"是關(guān)于"瑪麗"的,瑪麗"去 了"(例如,去)哪里以及瑪麗去了哪里(例如"華盛頓")。同樣,在某些實施例中,邏輯變 量可以用元素代替,并且該邏輯變量可以與多個同義詞、該元素或詞語的各個含義等相關(guān) 聯(lián)。 現(xiàn)在轉(zhuǎn)向圖7,示出了根據(jù)本發(fā)明的一實施例從搜索查詢生成的建議的示圖700。
以與語義表示類似的方式生成建議(例如從web文檔導出的內(nèi)容的表示)。此處,查詢705
如下所示"誰說了關(guān)于伊拉克的某事?"以下示出了建議。
上下文(頂層):SY-2(說)施動者P-2(人) 上下文(頂層):SY-2關(guān)于:1-2(伊拉克) 詞語P-2 [人]上下文(頂層) 詞語SY-2 [說]上下文(頂層) 詞語E-2[*]上下文(頂層) 詞語1_2[伊拉克,國家,地點]上下文(頂層) 解析查詢以及對其執(zhí)行語義分析通常比對文檔內(nèi)容執(zhí)行相同的分析要簡單得多, 因為查詢一般在長度上較短并且可能僅包含一個關(guān)聯(lián)級別,如圖7中所示。關(guān)聯(lián)級別710 包含已經(jīng)被解析和標識的多個元素,包括"人"、"說"以及"伊拉克"。存在附加元素,但是它 類似于通配符,因為它可以是許多事物而非僅僅是一個詞語。該附加元素表示來自該查詢 的詞語"某事"。在一個實施例中,當解析查詢時可以從該查詢中提取諸如"某事"等可以匹配任何事物的元素,以免在將建議與語義表示相匹配時造成限制。 除了若干個相關(guān)元素之外,圖7中所示的建議還包括報告動作"說"。施動者712 將"人"鏈接到"說"。關(guān)于714將"說"鏈接到"伊拉克",而主題716將"是"鏈接到通配符 元素,該通配符元素如上所述可以是任何事物。如所示的,詞語"誰"在建議中被"人"代替。
可以將諸如以上關(guān)于圖3和4所示的從文檔(例如web文檔)的內(nèi)容生成的語義 表示和從諸如以上關(guān)于圖6所示的從查詢生成的建議相匹配或鏈接,以從接收到的查詢中 確定最相關(guān)的搜索結(jié)果。例如,以下語義表示示出了語義表示和建議的匹配。各匹配被彼 此相鄰地示出。
上下文(頂層):DNC施動者:B上下文(頂層):SY-2施動者:P-2 [OH5] 上下文(頂層):DNC豐題:上下文(3) 上下文(頂層):SY-2豐題:E-2
上下文(頂層):DNC地點:W
上下文(頂層):DNC關(guān)于:CL
上下文(頂層):DNC關(guān)于:WTHD [OH9] 上下文(頂層):DNC關(guān)于:U 上下文(頂層)DNCJ^ :1 上下文(頂層)SY-2j^ :1-2 上下文(3) :CL豐題上下文(5)
上下文(5) :WTHD施動者U
上下文(5) :WTHD地點:1 詞語B[喬治布什,人]上下文(頂層)詞語P-2[人]上下文(頂層) 詞語DNC[公開指責,批評,說]上下文(頂層)詞語SY-2 [說]上下文(頂
層) 詞語W[華盛頓特區(qū),城市,地點]上下文(頂層) 詞語CL[呼吁,說]上下文(3)詞語E_2[*]上下文(頂層) 詞語WTHD [撤軍,移動]上下文(5) 詞語U[美利堅合眾國,國家,地點]上下文(5) 詞語I[伊拉克,國家,地點]上下文(5) 詞語1-2[伊拉克,國家,地點]上下 文(頂層) 如果存在相關(guān)元素的匹配,諸如施動者與施動者的匹配,則接著檢查與相關(guān)元素 相關(guān)聯(lián)的元素以便確定詞語是否相同或者甚至相似。以上,提到了"公開指責"與"說"相關(guān) 聯(lián)以便拓寬搜索,而出于相同的原因"布什"與"人"相關(guān)聯(lián)。因此,在上下文(頂層)DNC 施動者B和上下文(頂層):SY-2施動者P-2之間發(fā)現(xiàn)匹配。 圖8示出了根據(jù)本發(fā)明的一實施例從文檔內(nèi)的文本部分生成的語義表示的示圖 800,其中該文本部分包括兩個句子。圖8的實施例示出了可以在單個語義表示中表示不止 一個句子,尤其是在各句子相關(guān)的情況下。此處,兩個句子是由同一人布什創(chuàng)作的。因此,將 兩個句子放在單個表示中是有意義的且相關(guān)的。應(yīng)當注意,可以將任何數(shù)量的句子或甚至 短語分組在一起來生成語義表示。例如,解析從文檔(例如web文檔)提取的內(nèi)容的過程 可以通過應(yīng)用一組規(guī)則以測試字符串的諸如使用的標點符號和大寫等具體特性來執(zhí)行。通 過理解這些特性,這組規(guī)則能夠確定屬于一起的各個句子或短語,諸如在圖8中作為文本 部分805和810所示出的那些。該過程可以由諸如圖2的組件240等文檔解析組件執(zhí)行。
對于第一文本部分805,示出了兩個關(guān)聯(lián)級別。第一關(guān)聯(lián)級別820(例如頂層上下 文(t))和第二關(guān)聯(lián)級別840(例如上下文(上下文-7))由位于第一關(guān)聯(lián)級別820內(nèi)的報告 動作"說"直接鏈接。"說"和第二關(guān)聯(lián)級別840由主題相關(guān)元素824相關(guān)聯(lián),使得句子"呼 吁撤軍是有害的"成為布什所說的主題。還形成多個"關(guān)于"關(guān)系,并且如上所述,這些關(guān)系 允許搜索結(jié)果的更高準確度。在第一關(guān)聯(lián)級別830中,"說"通過施動者相關(guān)元素822鏈接 到"布什",因為布什是講或說這些詞語的人或施動者。此外,關(guān)于相關(guān)元素826、828和830 分別是從"說"鏈接到"撤軍"、"呼吁"和"有害的"。這些"關(guān)于"關(guān)系或關(guān)聯(lián)允許有效的且 高效的將這些關(guān)系與在查詢建議中找到的相似關(guān)系相匹配。此外,在第二關(guān)聯(lián)層840中,報 告動作"呼吁"由相關(guān)元素主題842直接鏈接到"撤軍",并且由相關(guān)元素修飾語844直接鏈 接到"有害的"。 應(yīng)當注意,存在多種可以通過與第一文本部分805相關(guān)聯(lián)的示圖向下操作的方 式。例如,為了到達"撤軍",一條路徑是通過使用"關(guān)于性"關(guān)系(例如相關(guān)元素關(guān)于826) 從"說"直接到"撤軍"。另一路徑通過首先使用相關(guān)元素關(guān)于828到達"呼吁",并接著由 相關(guān)元素主題842鏈接到"撤軍"來間接地到達"撤軍",因為"撤軍"是"呼吁"的主題。此 外,使用相關(guān)元素主題824,可以到達第二關(guān)聯(lián)層840,其中在該第二關(guān)聯(lián)層840中找到"撤 軍"。 與第一文本部分分開看第二文本部分810,為該文本部分標識報告動作"留"。該文 本部分相當?shù)睾唵吻液喍?,并且因此僅標識一個關(guān)聯(lián)級別850(例如上下文(上下文-12))。 "留"通過相關(guān)元素施動者858與"美國"相關(guān)聯(lián)或鏈接,并且通過相關(guān)元素地點862與"伊 拉克"相關(guān)聯(lián)。此外,在文本部分810內(nèi)找到項"應(yīng)當"。出于語言上的目的,"應(yīng)當"可以被 稱為語氣詞,其是寬泛地與可能性和必要性的概念相關(guān)聯(lián)的表達。這樣,在該實施例中,語 氣詞(例如,應(yīng)當)被用作相關(guān)元素860,并且與"留"相關(guān)聯(lián)?,F(xiàn)在可以將兩個文本部分 805和810纏結(jié)以確定第一文本部分805和第二文本部分810之間的"關(guān)于性"關(guān)系。圖8 示出了 "關(guān)于"關(guān)系是分別通過相關(guān)元素關(guān)于852、關(guān)于854和關(guān)于856在"說"和"美國"、 "留"以及"伊拉克"之間形成的。 現(xiàn)在參考圖9,示出了根據(jù)本發(fā)明的一實施例的一種用于發(fā)展從文檔的內(nèi)容提煉 的各元素之間的語義關(guān)系以生成該內(nèi)容的語義表示的方法。最初,在步驟910處標識文檔 的文本部分,這允許索引所標識的文本部分并將其存儲在例如圖2的語義索引260中。文 本部分可以從諸如網(wǎng)頁等一個或多個文檔的內(nèi)容中導出,該文檔可以存儲在諸如圖2的數(shù) 據(jù)存儲220等數(shù)據(jù)存儲中。當從文檔提取內(nèi)容時,該內(nèi)容的格式可以是需要轉(zhuǎn)換的原始在 線格式。在一個實施例中,該內(nèi)容從原始在線格式轉(zhuǎn)換成超文本標記語言(HTML)以生成文 本部分。內(nèi)容能以一個或多個句子或短語、表、模板或多個數(shù)據(jù)等形式來提取。文本部分可 以包括間接引語和其他態(tài)度報告,它們可以由在該文本部分中找到的多個詞語來標識,諸 如但當然不限于公開指責、說、相信、希望、拒絕等。在態(tài)度報告中標識這些詞語是因為它們 描述了個人對特定主題的態(tài)度。間接引語可以采用從個人直接引用的形式,或者可以是二 手的間接引語。 在一個實施例中,可以解析文本部分以便標識要在語義上表示以便進行進一步索 引的一個或多個元素。解析還可以包括文本提取和實體識別,其中實體是例如通過搜索存 儲在數(shù)據(jù)存儲220中的預定義的詞語列表來識別的。該過程協(xié)助識別可能是人或事物的名稱的詞語。在步驟920處,確定所標識的每個元素的語義信息。過語義信息可以包括其中 所標識的元素的一個或多個含義和/或語法功能。在一個實施例中,還可以確定同義詞或 上位詞,并且包括它們來作為語義信息。此外,在某些實施例中,一個或多個詞語可以具有 相似的含義,并且可以通過用邏輯變量替換特定元素來由該邏輯變量在語義表示中表示這 些詞語和含義。該邏輯變量可以表示具有與該元素相似含義的多個同義詞、元素所適合的 類別,并且還可以表示該元素可具有的多個含義,這允許擴展的但是更加精確的搜索。邏輯 變量可以存儲在數(shù)據(jù)存儲中。 在步驟930處,所標識的元素中的至少一個被標識為與發(fā)言報告或態(tài)度報告相對 應(yīng)的報告動作。步驟940指示所標識的元素彼此相關(guān)聯(lián)以便形成語義關(guān)系,并且所形成的 關(guān)聯(lián)是基于在以上步驟920處確定的語義信息的。在一個實施例中,可以確定一個或多個 關(guān)聯(lián)級別(即上下文),并且每個關(guān)聯(lián)級別可以包括所標識的元素中的一個或多個。不同關(guān) 聯(lián)級別內(nèi)的元素可以彼此相關(guān)聯(lián),并且可以經(jīng)由報告動作相關(guān)聯(lián)。報告動作可以是例如動 詞、名詞等,并且通常由周圍文本或詞語是如何在句子中使用的來確定。這種類型的語法信 息可以例如通過應(yīng)用一組規(guī)則來確定,該組規(guī)則可以在例如圖2的語法規(guī)范組件255的框 架中維護。僅出于示例性目的,假設(shè)文本部分敘述"在華盛頓,布什公開指責美國從伊拉克 撤軍的呼吁"。此處,可以標識三個關(guān)聯(lián)級別,每個關(guān)聯(lián)級別包含一報告動作。三個相應(yīng)的 關(guān)聯(lián)級別的報告動作可以被標識為"公開指責"、"呼吁"和"撤軍"。 除了關(guān)聯(lián)級別(例如上下文)和報告動作之外,還可以確定相關(guān)元素,這些元素描 述了報告動作與元素或關(guān)聯(lián)級別之間的關(guān)系。例如,繼續(xù)參考以上示例,"布什"可以通過相 關(guān)元素施動者來關(guān)聯(lián)或鏈接到"公開指責",因為布什是做出該公開指責的施動者。相關(guān)元 素可以采用各種形式的關(guān)系,但是可以是諸如但不限于施動者、地點、主題、或關(guān)于等詞語。 "關(guān)于"關(guān)系指示報告動作是指什么或它是關(guān)于什么的。在步驟950處,生成包括上述所標 識的元素的關(guān)聯(lián)的語義表示。該語義表示接著可以被存儲在諸如圖2的語義索引260等索 引中。 圖10展示了示出根據(jù)本發(fā)明的一實施例的一種用于響應(yīng)于接收到查詢來創(chuàng)建從 該查詢提煉的各個項之間的關(guān)聯(lián)以便生成建議的方法,該建議被用于詢問存儲在索引中的 信息以便提供相關(guān)搜索結(jié)果。建議是用于詢問來自文檔的內(nèi)容的語義表示所包含的語義關(guān) 系的查詢的概念含義的邏輯表示。從查詢生成建議的過程非常類似于此處所描述的用于生 成文檔的內(nèi)容的語義表示的過程。最初,接收來自用戶的查詢作為輸入,并且在一個實施例 中,解析所接收到的查詢以確定該查詢內(nèi)的一個或多個搜索項。搜索項類似于在文本部分 中標識的元素。 在步驟1010處,確定一個或多個搜索項的每一個的語義信息,并且該語義信息可 以包括其中的搜索項的一個或多個含義和/或語法功能。除了確定語義信息之外,可以標 識邏輯變量,并且可以將其與搜索項中的一個或多個相關(guān)聯(lián)或甚至可以替代搜索項中的一 個或多個。邏輯變量可以是數(shù)字、字母、或兩者的序列或組合,并且可以表示具有與搜索項 相似的含義的多個詞語。這允許將擴展的,然而更加相關(guān)的搜索結(jié)果返回給用戶。在步驟 1020處,在查詢內(nèi)標識第一報告動作。報告動作可以是動詞、名詞、或任何其他詞性,并且可 以包括諸如"是"、"呼吁"、"公開指責"、"相信"等動作。在一個實施例中,可以在查詢內(nèi)標 識不止一個報告動作,諸如第二報告動作。
19
可以確定每一報告動作與另一搜索項之間語義關(guān)系,以便創(chuàng)建詞語之間的關(guān)聯(lián), 其在步驟1030處示出。如上所述,語義關(guān)系可以是基于所確定的語義信息的。關(guān)聯(lián)由相關(guān) 元素鏈接,后者描述了諸如但不限于施動者、地點、主題、或關(guān)于等關(guān)聯(lián)。其他相關(guān)元素當然 也是構(gòu)想在本發(fā)明的范圍內(nèi)的。在步驟1040處,生成包括在每個報告動作與從查詢中解析 的搜索項中的一個或多個之間所形成的關(guān)聯(lián)的建議。 一旦生成建議,則將該建議(例如在 任務(wù)內(nèi)的關(guān)聯(lián))與例如存儲在語義索引260中的一個或多個語義表示做比較或做匹配,以 確定對于該建議而言最相關(guān)的匹配。在一個實施例中,如上所述,查詢可以包含不止一個關(guān) 聯(lián)級別,并且由此可以為每個關(guān)聯(lián)級別標識報告動作。 轉(zhuǎn)向圖ll,展現(xiàn)了根據(jù)本發(fā)明的一實施例的示出一種用于發(fā)展從文檔的內(nèi)容提煉 的各元素之間的語義關(guān)系以便生成該內(nèi)容的語義表示進而允許索引該內(nèi)容的的方法的流 程圖IIOO。在步驟1110處,標識要索引的文檔(例如web文檔)的至少一部分。在步驟 1120處示出解析該文檔的文本部分以標識要用語義表示的元素。在步驟1130處,訪問數(shù)據(jù) 存儲以確定所標識的元素的潛在含義和語法功能。 繼續(xù)參考圖ll,在步驟1140處,確定文本部分內(nèi)的一個或多個關(guān)聯(lián)級別。在步驟 1150處示出為一個或多個所確定的關(guān)聯(lián)級別的每一個標識文本部分內(nèi)的報告動作。接著在 步驟1160處,第一報告動作與第一組所標識的元素相關(guān)聯(lián),這是通過分析在以上步驟1120 處確定元素和所確定的報告動作之間的語義關(guān)系來確定的。第一報告動作與第一關(guān)聯(lián)級別 相關(guān)聯(lián)。在步驟1170處,第二報告動作與第二組所標識的元素相關(guān)聯(lián),而第二報告動作與 第二關(guān)聯(lián)級別相關(guān)聯(lián)。接著可以在步驟1180處生成關(guān)聯(lián)的語義表示,這樣使得它可以被存 儲在例如語義索引260中以供進一步分析,該分析包括如上所述的與查詢建議的比較。
參考各具體實施例描述了本發(fā)明,各具體實施例在所有方面都旨在是說明性的而 非限制性的。在不背離本發(fā)明范圍的情況下各替換實施例對本發(fā)明所屬領(lǐng)域的普通技術(shù)人 員將變得顯而易見。 從前述內(nèi)容可知,本發(fā)明很好地適用于實現(xiàn)前述的所有目的和目標,并且具有對 于該方法是顯而易見且固有的其它優(yōu)點。還可理解,特定的特征和子組合是有用的,并且可 以加以利用而無需參考其它特征和子組合。這落入在權(quán)利要求書的范圍內(nèi)并由其所構(gòu)想。
權(quán)利要求
一種用于發(fā)展從文檔的內(nèi)容提煉的各元素之間的語義關(guān)系以便生成所述內(nèi)容的語義表示的計算機實現(xiàn)的方法,所述方法包括標識910所述文檔的文本部分;為在所述文本部分中標識的多個元素確定920語義信息,所述語義信息包括所標識的元素的含義或所標識的元素的語法功能中的一個或多個;將所標識的元素中的至少一個標識930為與發(fā)言報告或態(tài)度報告相對應(yīng)的報告動作;基于為所標識的元素確定的語義信息,關(guān)聯(lián)940所標識的元素,以使得所標識的元素的每一關(guān)聯(lián)表示特定語義關(guān)系;以及生成950包括所標識的元素的關(guān)聯(lián)的語義表示。
2. 如權(quán)利要求1所述的方法,其特征在于,所述文本部分包括一個或多個句子、表、模 板、或多個數(shù)據(jù)中的至少一個。
3. 如權(quán)利要求l所述的方法,其特征在于,還包括訪問數(shù)據(jù)存儲以便從所述文檔檢索所述內(nèi)容的至少一部分。
4. 如權(quán)利要求l所述的方法,其特征在于,還包括解析所述文檔的文本部分以便標識要包括在所述語義表示中的多個元素。
5. 如權(quán)利要求l所述的方法,其特征在于,還包括識別所述文本部分內(nèi)的一個或多個實體,其中所述一個或多個實體是通過搜索存儲在 數(shù)據(jù)存儲中的預定義的詞語列表來識別的。
6. 如權(quán)利要求1所述的方法,其特征在于,還包括 將所標識的元素的每一個與具有相似含義的多個詞語相關(guān)聯(lián)。
7. 如權(quán)利要求1所述的方法,其特征在于,關(guān)聯(lián)所標識的元素包括標識所述文本部分 內(nèi)的一個或多個關(guān)聯(lián)級別,所述一個或多個關(guān)聯(lián)級別的每一個包括所標識的元素中的一個 或多個。
8. 如權(quán)利要求7所述的方法,其特征在于,還包括 為所述一個或多個關(guān)聯(lián)級別中的至少一個標識報告動作;以及將第一報告動作與第一組所標識的元素相關(guān)聯(lián),其中所述第一報告動作與第一關(guān)聯(lián)級 別相關(guān)聯(lián)。
9. 如權(quán)利要求8所述的方法,其特征在于,還包括將第二報告動作與第二組所標識的元素中的每一個相關(guān)聯(lián),其中所述第二報告動作與 第二關(guān)聯(lián)級別相關(guān)聯(lián)。
10. 如權(quán)利要求8所述的方法,其特征在于,所述第一報告動作和所述第一組所標識的 元素的每一個是通過描述所述關(guān)聯(lián)的相關(guān)元素來關(guān)聯(lián)的。
11. 如權(quán)利要求10所述的方法,其特征在于,還包括索引所述語義表示,其中包括所標識的元素和所述相關(guān)元素的所述語義表示被存儲在 索引中以供檢索,并且其中所述索引是可搜索的。
12. 如權(quán)利要求11所述的方法,其特征在于,所述索引包括從所述語義表示到存儲在 數(shù)據(jù)存儲中的其相關(guān)聯(lián)的文本部分的指針。
13. —種用于響應(yīng)于接收到查詢來創(chuàng)建從所述查詢提煉的各個項之間的關(guān)聯(lián)以便生成 建議的計算機實現(xiàn)的方法,所述建議被用于詢問來自存儲在語義索引中的文檔的內(nèi)容的語義表示以提供相關(guān)搜索結(jié)果,所述方法包括為一個或多個搜索項確定1010語義信息; 標識1020所述查詢內(nèi)的第一報告動作;基于為所述一個或多個搜索項確定的語義信息,確定1030所述第一報告動作與所述 一個或多個搜索項中的至少一個之間的語義關(guān)系,由此經(jīng)由描述所述語義關(guān)系的相關(guān)元素 來創(chuàng)建關(guān)聯(lián);以及生成1040所述建議,所述建議包括所述第一報告動作與所述一個或多個搜索項中的 至少一個之間的關(guān)聯(lián)。
14. 如權(quán)利要求13所述的方法,其特征在于,還包括解析所述查詢以確定其中的一個或多個搜索項。
15. 如權(quán)利要求13所述的方法,其特征在于,所述語義信息包括所標識的元素的含義 或所標識的元素的語法功能中的一個或多個。
16. 如權(quán)利要求13所述的方法,其特征在于,還包括將所述一個或多個搜索項的每一個與具有同所述一個或多個搜索項中的至少一個相 似含義的多個詞語相關(guān)聯(lián)。
17. 如權(quán)利要求13所述的方法,其特征在于,所述建議是用于詢問來自所述文檔的內(nèi) 容的語義表示內(nèi)所包含的語義關(guān)系的查詢的含義的邏輯表示。
18. 如權(quán)利要求13所述的方法,其特征在于,還包括 標識所述查詢內(nèi)的第二報告動作;以及基于為所述一個或多個搜索項確定的語義信息,確定所述第二報告動作與所述一個或 多個搜索項中的至少一個之間的語義關(guān)系,由此經(jīng)由描述所述語義關(guān)系的相關(guān)元素來創(chuàng)建 關(guān)聯(lián)。
19. 如權(quán)利要求13所述的方法,其特征在于,還包括將所述建議與存儲在所述語義索引中的所述語義表示中的一個或多個作比較,以便確 定一個或多個匹配對。
20. —個或多個其上包含用于執(zhí)行一種用于發(fā)展從文檔的內(nèi)容提煉的各元素之間的語 義關(guān)系以生成所述內(nèi)容的語義表示,進而允許索引所述內(nèi)容的方法的計算機可使用指令的 計算機可讀介質(zhì),,所述方法包括標識1110要索引的所述文檔的至少一部分,所述文檔的該至少一部分是文本部分; 解析1120所述文檔的文本部分以標識要用語義表示的元素; 訪問1130數(shù)據(jù)存儲以確定所標識的元素的潛在含義和語法功能; 確定1140所述文本部分內(nèi)的一個或多個關(guān)聯(lián)級別;為所確定的一個或多個關(guān)聯(lián)級別的每一個標識1150所述文本部分內(nèi)的報告動作;將第一報告動作與第一組所標識的元素相關(guān)聯(lián)1160,其中所述第一報告動作是第一關(guān) 聯(lián)級別相關(guān)聯(lián);將第二報告動作與第二組所標識的元素相關(guān)聯(lián)1170,其中所述第二報告動作是第二關(guān) 聯(lián)級別相關(guān)聯(lián);以及經(jīng)由描述針對所述第一報告動作的第一組所標識的元素與針對所述第二報告動作的 第二組所標識的元素之間的關(guān)聯(lián)的相關(guān)元素來生成1180包括所述關(guān)聯(lián)的語義表示。
全文摘要
提供了一種用于將從文檔的諸如間接引語或態(tài)度報告等內(nèi)容提煉的詞語或一組詞語相關(guān)聯(lián)以形成共同地用于生成該內(nèi)容的語義表示的語義關(guān)系的方法和計算機可讀介質(zhì)。語義表示可以包括從該內(nèi)容的文本部分所標識或解析的元素,其元素可以與共享語義關(guān)系的其他元素相關(guān)聯(lián),諸如施動者、地點、或主題關(guān)系。還可以通過關(guān)聯(lián)有關(guān)或關(guān)于一個元素的另一元素來發(fā)展關(guān)系,由此允許快速和有效地將在語義表示中找到的關(guān)聯(lián)與從查詢導出的關(guān)聯(lián)作比較。該語義關(guān)系可以基于諸如該內(nèi)容的文本部分內(nèi)的每個元素的潛在含義和語法功能等語義信息來確定。
文檔編號G06F17/27GK101796511SQ200880105617
公開日2010年8月4日 申請日期2008年8月29日 優(yōu)先權(quán)日2007年8月31日
發(fā)明者B·佩爾, D·安, G·L·蒂奧內(nèi), L·波拉尼, M·范登伯格, O·格爾維奇, R·克魯奇, S·普雷沃 申請人:微軟公司