專利名稱:知識相關(guān)性搜索引擎的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息技術(shù),尤其是涉及利用知識相關(guān)性的結(jié)果以識別 對任何給定的用戶問題、主題、或者數(shù)字信息對象的話題有意義的網(wǎng) 絡(luò)和/和因特網(wǎng)資源的搜索引擎。
背景技術(shù):
搜索引擎被廣泛公認為知識的信息檢索(IR)領(lǐng)域的一部分。IR 方法致力于定位與稱為查詢的問題有關(guān)的資源(典型地為文檔)。查 詢可以是從單個搜索術(shù)語到由諸如英語的自然語言組成的復雜句子的 范圍。被搜索的潛在的資源的集合被稱為語料庫(主體),而且已經(jīng) 開發(fā)了不同的技術(shù)以便搜索每一種類型的語料庫。例如,用于搜索包 含在數(shù)字化百科全書中的文章集合的技術(shù)不同于web搜索引擎所使用 的技術(shù)。不管所用的技術(shù)如何,IR中的核心要點是關(guān)聯(lián)性一即,被檢索的文檔與原始查詢的關(guān)聯(lián)性。形式度量被應用于比較各種IR方法 的效率。公共IR效率度量包括精確度,其是檢索的關(guān)聯(lián)文檔與所有 關(guān)聯(lián)文檔之比;檢索率,其是檢索的關(guān)聯(lián)文檔與語料庫中的所有關(guān)聯(lián) 文檔之比;以及錯檢率,其是檢索的不相關(guān)的文檔與語料庫中的所有 不相關(guān)的文檔之比。被認為是關(guān)聯(lián)的后檢索、文檔(在大多數(shù)IR系 統(tǒng)中)被再次利用各種技術(shù)來指定一個關(guān)聯(lián)性等級,并返回結(jié)果。盡 管大多數(shù)情況下查詢通常是由稱為用戶的人提交的一并返回結(jié)果給該 用戶,但是用戶可以是其它的軟件過程。
文本檢索是一種類型的IR,其典型地涉及定位由文本組成的關(guān) 聯(lián)文檔,而且文檔檢索涉及定位文本文檔的特定片段,尤其是那些由 非結(jié)構(gòu)化(或"自由")文本構(gòu)成的那些文檔。
數(shù)據(jù)檢索的相關(guān)知識領(lǐng)域與IR的區(qū)別在于,數(shù)據(jù)檢索涉及特定 數(shù)據(jù)項,例如來自SQL數(shù)據(jù)庫的記錄的快速而精確的檢索。
信息提取(IE)是另一種類型的IR,其目的在于將來自非結(jié)構(gòu) 化(通常為文本)文檔的信息自動提取到諸如名稱/值對的模板的數(shù)據(jù) 結(jié)構(gòu)中。根據(jù)這些模板可以對信息進行后續(xù)正確的更新或者將該信息 插入到關(guān)系數(shù)據(jù)庫中。
已經(jīng)在文獻中描述或披露作為軟件產(chǎn)品的搜索引擎使用多種形 式的輸入,其范圍從各種關(guān)鍵字到短語、句子、段落、概念、以及數(shù) 據(jù)對象。雖然關(guān)鍵字、句子以及段落的含義與這些術(shù)語通常的理解一 致,但短語、概念和數(shù)據(jù)對象的含義因具體實現(xiàn)而異。有時候,短語 在語法上被定義為使用其傳統(tǒng)意義。在這種用法中,短語的類型包括 介詞短語(PP)、名詞短語(NP)、動詞短語(VP)、形容詞短語 和副詞短語。對于其它實現(xiàn)而言,短語可以定義為各種固有名稱(例 如,紐約)。大部分的定義都要求一個短語包含多個單詞,雖然至少 有一個定義允許甚至是將單個單詞視為短語。有一些搜索引擎的實現(xiàn) 使用一個短語詞典(預固定的列表)。WordNet Lexical數(shù)據(jù)庫是一 個^^共短語源。
在與搜索引擎結(jié)合使用時,概念通常是指兩種構(gòu)造的其中之一。第一種構(gòu)造是作為有關(guān)單詞的聚集的概念,類似于類屬詞典,與關(guān)鍵 詞相關(guān)。在多種實現(xiàn)中,這種聚集被使得對用戶可用一通過圖形用戶
界面(GUI)用于修正和定制。用戶可以剪裁單詞的聚集直到結(jié)果產(chǎn) 生的概念最能夠代表用戶的理解和意圖。第二種構(gòu)造是作為圍繞關(guān)鍵 詞的有關(guān)單詞的局部語義網(wǎng)的概念。在此,考慮本地或者公共本體和 分類來創(chuàng)建圍繞關(guān)鍵詞的語義網(wǎng)。概念的一些實現(xiàn)包括圖像以及其它 非文本元素。
在實踐中,話題需要通過對文本主體施加特定的操作集合來識別 或"檢測"。文獻中已經(jīng)描述了用于識別和/或檢測話題的不同方法。使 用話題作為對搜索引擎的輸入因此通常意味著輸入了一個文本主體, 而且所需的話題識別或話題檢測功能被調(diào)用。根據(jù)結(jié)果產(chǎn)生的話題的 格式和長度然后可以通過搜索引擎來調(diào)用適當?shù)年P(guān)聯(lián)性功能。
數(shù)據(jù)對象作為對搜索引擎的輸入可以采取各種形式,包括自由格 式的句子的不同長度集合、全長度文本文檔、以及諸如XML文檔的 元數(shù)據(jù)文檔。面向?qū)ο?OO)范例指出OO系統(tǒng)接受對象作為輸入。 某些軟件功能幾乎總是需要處理輸入對象使得能夠繼續(xù)進行搜索引擎 的后續(xù)關(guān)聯(lián)性功能。
分級的結(jié)果集已經(jīng)是搜索引擎的市場成功的關(guān)鍵。Google搜索引 擎(Google公司的產(chǎn)品)的當前優(yōu)勢更多地歸因于Google中所使用 的PageRank (頁面分級)系統(tǒng),其使(基本上)給定文檔的流行度 來指示結(jié)果等級。Google實例中的流行度應用到鏈接的數(shù)量以及輸入 任何給定搜索術(shù)語或短語的Google用戶的偏愛。這些分級允i午Google 通過僅返回那些具有高于某一閾值(稱為k)的等級的文檔來優(yōu)化搜 索。Web搜索引擎使用的其它分級結(jié)果的方法包括"Hubs & Authorities",其對鏈接入/出給定web頁面或文檔的鏈接,馬爾可夫 (Markov)鏈,以及隨才幾游動。
發(fā)明內(nèi)容
本發(fā)明公開了 一種新的和新穎的搜索引擎形式,其利用 一種計算
7機實現(xiàn)的方法以識別至少一個資源,該資源通過其的唯一URI (統(tǒng)一 資源標識符)引用或者通過該資源的URL (統(tǒng)一資源定位符)來引用, 這種資源對于任何給定用戶問題、主題、或數(shù)字信息對象的題目有重 要意義。對于本發(fā)明,用戶問題或主題或題目均作為輸入。該輸入被 一個軟件功能使用,該軟件功能嘗試在數(shù)據(jù)對象的集合的范圍內(nèi)構(gòu)造 或發(fā)現(xiàn)邏輯結(jié)構(gòu),每個數(shù)據(jù)對象與提供該數(shù)據(jù)對象的資源相關(guān)聯(lián),而 且所構(gòu)造或發(fā)現(xiàn)的邏輯結(jié)構(gòu)與該輸入強相關(guān)。對于一個優(yōu)選實施例, 該軟件功能是如在所述序列號No. 11/273,568中描述的知識相關(guān)功能, 而該邏輯結(jié)構(gòu)是稱為路徑顫動(quiver)的有向非循環(huán)圖形式。如果 這種與輸入強相關(guān)的邏輯結(jié)構(gòu)被事實上構(gòu)造或發(fā)現(xiàn),則這種邏輯結(jié)構(gòu) 的數(shù)據(jù)對象成為一個答案空間(answer space)。利用該答案空間, 另 一個軟件功能于是能夠以高置信度來確定對該答案空間起作用的哪 一個資源是對該答案空間最為重要的,并由此識別出對該輸入問題、 主題或題目最為重要的URL和URI。最后, 一個軟件功能被用于以 對輸入的重要性來分級每一個對該答案空間提供數(shù)據(jù)對象的URL和 URI引用的資源。
本發(fā)明不同于現(xiàn)有的搜索引擎,因為本發(fā)明中所使用的如在所述 序列號No. 11/273,568中描述的知識相關(guān)過程試圖構(gòu)造路徑的窮舉集 合,以描述所有稱作X (或"起源")的一個術(shù)語、短語、或概念與稱 作Y (或"目標")的第二術(shù)語、短語或概念的最小值之間的連接-稱 為相關(guān)。如果事實上能夠構(gòu)造一個或多個這樣的相關(guān),則本發(fā)明識別 所有對構(gòu)造該相關(guān)起作用的所有資源是關(guān)聯(lián)的。與現(xiàn)有的搜索引擎不
同,本發(fā)明中的關(guān)聯(lián)性不是孤立地應用到單個術(shù)語、短語或概念,而 是應用到包括不僅X和Y而且在構(gòu)造該相關(guān)中遇到的所有術(shù)語、短語 和概念的相關(guān)性答案空間。由于這些新穎的特征,本發(fā)明唯一地能夠 滿足利用單個web頁面或文檔無法回答的用戶查詢。
本發(fā)明的輸入不同于當前所使用的,因為本發(fā)明的所有輸入方式 必須給出兩個(2)不相同的術(shù)語、短語、或概念的最小值。"不相同 的"在本應用中意指要求詞匯或語義的重疊或者分離。如在所述序列號No. 11/273,568中所描述的,最小的兩個術(shù)語、短語或概念被稱為X 和Y (或"起源"和"目標")。沒有輸入過程能夠產(chǎn)生同義、 一致、或 冪等的X和Y術(shù)語、短語或概念。如現(xiàn)有技術(shù)那樣,可以接受文本對 象和數(shù)據(jù)對象(在本發(fā)明中,如X或Y),而且題目和/或概念可以在 提交給知識相關(guān)過程之前被提取。然而,與大多數(shù)(如果不是全部的 話)現(xiàn)有搜索引擎不同的是,在本發(fā)明中并不限制輸入的形式(術(shù)語、 短語、概念或?qū)ο?。這是可能的,因為關(guān)聯(lián)功能(知識相關(guān))并不 利用相似性度量以建立關(guān)聯(lián)。這個特征將允許本發(fā)明與許多現(xiàn)有IR 應用無縫地集成。
不考慮輸入的形式或方法,本發(fā)明中的知識相關(guān)的目的是建立文 檔關(guān)聯(lián)。目前,利用三種常規(guī)方法在IR中建立關(guān)聯(lián)性通過集合表 示文檔的集合理論模型;將文檔表示為向量或矩陣的代數(shù)模型;以及 使用概率論以便學習文檔屬性(如題目)的概率模型。每一種模型都 提供一種確定一個或多個文檔是否相似以及由此是否與給定的輸入關(guān) 聯(lián)的手段。例如,最基本的集合理論模型使用標準Boolean方法確定 關(guān)聯(lián)性-輸入單詞是否出現(xiàn)在文檔中?如果是,則文檔相關(guān)。如果不 是,則文檔不相關(guān)。代數(shù)模型利用諸如向量空間模型的技術(shù),在此被 表示為術(shù)語向量的文檔與被表示為術(shù)語向量的輸入查詢相比較。向量 的相似性隱含了文檔的關(guān)聯(lián)性。對于概率模型,關(guān)聯(lián)性是通過比較輸 入和文檔的概率來確定的。
如上所述,本發(fā)明通過一種完全不同的過程,利用一種完全不同 于任何現(xiàn)有搜索引擎的準則建立關(guān)聯(lián)。然而,本發(fā)明依賴于語料庫內(nèi) "關(guān)聯(lián)"源的發(fā)現(xiàn)和采集(特別是如果該語料庫是WWW)。為此,如 在所述序列號No. 11/273,568中描述的,在發(fā)現(xiàn)階段可以不受限制地 利用現(xiàn)有技術(shù)的任何形式,以便幫助識別候選資源用于輸入到知識相 關(guān)過程。
對于所有的搜索引擎,簡單地確定給定文檔對給定輸入的關(guān)聯(lián)性 是必要的但不是足夠的。畢竟-以使用標準Boolean方法確定關(guān)聯(lián)性 為例-對于針對WWW的包含單詞"計算機"的任何查詢,可能有幾千萬的文檔都被認為是關(guān)聯(lián)的。如果用戶實際上僅對描述"計算機,,的特 定應用的文檔感興趣,如此大的結(jié)果集將證明是不可用的。作為一個 實際問題,用戶需要搜索引擎從最為相關(guān)到最不相關(guān)將他們的結(jié)果分 等級。典型地,用戶更愿意使關(guān)聯(lián)的文檔以關(guān)聯(lián)性降低的順序給出-首先是最為相關(guān)的結(jié)果。由于大多數(shù)關(guān)聯(lián)性功能產(chǎn)生真實的數(shù)值,一 種分級任何搜索引擎結(jié)果集的自然的方式是根據(jù)它們各自的關(guān)聯(lián)性分 數(shù)來將結(jié)果集的成員分等級。
本發(fā)明利用一種新穎的分級方法,因為其是給定文檔或資源對相
關(guān)"答案空間"所作的貢獻程度的函數(shù)。如在所述序列號No. 11/273,568 中所描述的,該答案空間根據(jù)稱為節(jié)點的數(shù)據(jù)結(jié)構(gòu)構(gòu)成,節(jié)點又通過 關(guān)聯(lián)資源的分解來創(chuàng)建。即使是本發(fā)明最為自然的分級功能-該功能 計數(shù)節(jié)點在答案空間內(nèi)出現(xiàn)的頻率-可以識別與原始用戶查詢唯一或 強烈關(guān)聯(lián)的文檔。下文中更為詳細地描述的本發(fā)明更為復雜的分級機 制改進了該結(jié)果。
圖l是示意根據(jù)本發(fā)明一個方面的搜索引擎的功能部件的框圖; 圖2是圖1的預搜索模塊的矢量圓圖2A是用于根據(jù)本發(fā)明一方面的關(guān)鍵字、短語、句子和概念的 示例性主題評估功能的一部分的框圖2B是用于根據(jù)本發(fā)明一方面的復合、復雜或正交主題以及用 于單個簡單web查詢的示例性主題評估功能的剩余部分的框圖2C是根據(jù)本發(fā)明 一方面的示例性題目檢測模塊和有關(guān)的適配 器的框圖2D是根據(jù)本發(fā)明一方面的問題生成功能的框圖; 圖3是序列號No. 11/273,568的圖1A的拷貝; 圖4是序列號No. 11/273,568的圖IB的拷貝; 圖5是序列號No. 11/273,568的圖1C的拷貝; 圖6是序列號No. 11/273,568的圖2A的拷貝;圖7是序列號No. 11/273,568的圖2E的拷貝; 圖8是圖1的后搜索模塊120的框圖。
具體實施例方式
圖l是被相關(guān)功能所接受的三個輸入實例的框圖。主題200通過 主題評估功能220來評估。數(shù)字信息對象230通過題目檢測才莫塊240 的適配器235針對某個題目執(zhí)行檢查。規(guī)范式問題生成功能250生成 問題260作為輸入。
在一個優(yōu)選實施例中,如在下文中進一步描述的任何形式的且來 自任何源的兩個輸入的最小值必須被提交給相關(guān)功能110。在那里有 一個稱為X或"起源"輸入的第一個這種輸入,而且在那里有一個稱為 Y或"目標"輸入的第二個這種輸入。因此,可接受的輸入必須包含兩 個主題200、數(shù)字信息對象230、或問題260的任意組合。
在如下文進一步描述的另一個實施例中,作為主題200、數(shù)字信 息對象230或問題260的一個X輸入的最小值被提交給相關(guān)功能110。 一個稱為終止相關(guān)條件的第二輸入被傳遞給相關(guān)功能110。作為相關(guān) 目標的所需的Y的實際值直到相關(guān)功能滿足終止相關(guān)功能為止保持未 知。沒有實際的Y輸入需要被作為輸入處理,但是需要滿足對相關(guān)目 標的要求。
圖1中舉例說明的第一個實例在圖1A中更加詳細地進行了說明。 在一個實施例中,主題200可能是一個單獨的關(guān)鍵字、短語、句子、 或概念。當主題200是一個單獨的關(guān)鍵字時,主題200不作進一步的 處理地被主題評估功能220直接傳遞給相關(guān)功能110。同樣,當主題 200是一個短語時,主題200不作進一步地處理地被主題評估功能220 直接傳遞給相關(guān)功能110。當主題200為一個句子時, 一個自然語言 分析器(NLP) 133將被調(diào)用以便執(zhí)行該句子的語法分析,以便以單 詞和/或短語的形式提取該句子的實際的主題200。這樣的單詞或短語 接著將被傳遞給相關(guān)功能110。可能從句子中提取附加的單詞或短語 并且提交給相關(guān)功能IIO作為上下文。如在所述序列號No. 11/23,568中所描述的,可以將除X或Y單詞或短語之外的任何數(shù)量的上下文單 詞或短語提交給相關(guān)功能110以便改進所述功能。選擇將從句子提取 什么單詞或短語(如果有的話)是基于NLP 133的任何詞典中的單詞 或短語的成員資;^的,而且缺少來自非用詞的公共列表的單詞。非用 詞在IR中是眾所周知的。這種單詞不能被用于建立IR的集合理論模 型中的關(guān)聯(lián)性,因此永遠不會被添加到為這種模型建立的索引中。
在句子是匹配一個規(guī)范式的問題250的情況下,主題評估功能 220將從該句子提取X和Y單詞和短語,并將它們提交給相關(guān)功能 110。當主題200是一個概念時,該概念單詞和短語將或者作為X或 者作為Y被提交給相關(guān)功能110,而且概念群集或映射中余下的術(shù)語 將被提交給相關(guān)功能110作為上下文單詞或短語。
在一個優(yōu)選實施例中,主題將由用戶借助于如序列號No. 11/273,568的圖2A的圖形用戶接口提供。在其它的實施例中,可以使 用任何眾所周知的輸入接口 (例如,文本輸入域,口頭輸入等等)。
在一個實施例中,參考圖1A,主題200將采取復雜主題的形式, 即由一個獨立的子句、以及一個或多個獨立的子句構(gòu)成的主題。例如, "regulation of pollution, given the effect of automobile pollution"。 在 其它的實施例中,主題200將釆取復合主題的形式,即由利用諸如 "and"、 "or"、 "not"的邏輯運算符連接的兩個或多個獨立的子句構(gòu)成 的主題。例如,"the Trilateral Commission and international NGOs not World Bank"。作為選擇,主題200將釆取由多部分的正交主題的形 式,即由兩個或多個未連接的而且可能是相對于彼此正交的獨立的子 句構(gòu)成的主題。例如,"poaching, endangered species, men,s health, government intervention",作為選擇,主題200將采取由多部分的正 交主題的形式,即由兩個或多個未連接的而且可能是相對于彼此正交 的獨立的子句構(gòu)成的主題。例如,"poaching, endangered species, men's health, government intervention". 在這些實施例中,將對主題 200應用用于子句識別的高級NLP方法(參見Hachey, B.C. 2002. Thesis:Recongnising Clauses Using Symbolic and Machine LearningApproaches. Univercity of Edinburgh ),以首先將主題200分解為子
句并從那里借助于語法分析分解為關(guān)鍵字和短語。子句識別^L術(shù)將被
用于在輸入到相關(guān)功能110的X、 Y、以及上下文之間進行判別。
在一個實施例中,主題評估功能220將確定用戶提供的主題200 是否將如大多數(shù)適當?shù)捻憫菢赢a(chǎn)生一個列表作為來自本發(fā)明的響 應。例如,參考圖1B,如果用戶提供的主題是"Italian restaurants Dover DE",主題評估功能220將識別出Dover的意大利餐廳的列表, Delaware被查找到。在此情況下,主題評估功能220將或者引導用戶 使用諸如Google( Google公司的產(chǎn)品)或Yahoo( Yahoo ^>司的產(chǎn)品) 的眾所周知的簡單web搜索引擎的其中之一,或者將直接調(diào)用那些簡 單搜索引擎的其中一個。作為選擇,主題評估功能220將確定用戶提 供的主題是否將如大多數(shù)適當?shù)捻憫菢赢a(chǎn)生單個web頁面作為響 應。例如,如果用戶提供的主題是"show times rialto theatre",主題 評估功能220將識別出查找Rialto Theatre的網(wǎng)站。在此情況下,主 題評估功能220將或者引導用戶使用諸如Google或Yahoo的眾所周 知的簡單web搜索引擎的其中一個,或者將直接調(diào)用Rialto Theatre 的網(wǎng)站,或者將直接調(diào)用上述指定的簡單搜索引擎的其中之一。這是 通過自動短語識別技術(shù)實現(xiàn)的(參見Kelledy, F., Smeaton, A.F. 1997 Automatic Phrase Recognition and Extraction from Text. Proceedings of the 19th Annual BCS畫IRSC Colloquium on IR Research ),該技術(shù) 利用了這樣的規(guī)則,即當兩個理想的短語正好包括主題220而且其中 一個短語是適當?shù)牡乩砻Q(例如,"New York City")或適—當?shù)拿Q ("Rialto Theatre"),而且其中一個短語為形容詞+名稱短語("show time,,或"Italian restaurants")時,則將調(diào)用簡單web搜索引擎???以容易地定義更為復雜的規(guī)則以便覆蓋大多數(shù)情況。
在專利申請序列號No. 11/273,568的圖2A中全面地"^兌明了圖1 中所示意的第三個模式,其中對相關(guān)功能110的輸入是一個用戶問題, 而該用戶問題將由不完全的規(guī)范式問題以及除此之外的一個或多個關(guān) 鍵字組成,其中該關(guān)鍵字完成該問題[與眾所周知的"填空"范例可相比。作為選擇,該不完全的問題將通過用戶顯式地選擇。在一個實施 例中,不完全的問題將通過用戶從所支持的規(guī)范式問題的列表或菜單 中選擇。另外,不完全支持的規(guī)范式問題的列表或菜單將是"靜態(tài)的" -即,在每次調(diào)用時該列表將不變化。作為選擇,不完全支持的規(guī)范 式問題的列表或菜單將是"動態(tài)的"-即,該列表在每次調(diào)用時變化。 參考圖1,不完全支持的規(guī)范式問題的動態(tài)列表或菜單將在每次調(diào)用
時借助于軟件功能生成,該軟件功能,規(guī)范式問題生成功能250,是 以計算機編程語言(例如,Java, Sun微系統(tǒng)公司的產(chǎn)品)編寫的軟 件程序組件。作為選擇,不完全的問題將是隱含的、通過軟件程序組 件,規(guī)范式問題生成功能250選擇的問題?;蛘?,將通過規(guī)范式問題 生成功能250選擇的不完全隱含的問題將是"靜態(tài)的"-即,在每次調(diào) 用時其將不變化。
在當前優(yōu)選的實施例中,靜態(tài)隱含選擇的問題是"What are the connections between [keywordland [keyword2?", 作為選捧,該靜 態(tài)隱含選擇的問題是"What are the connections between [keywordlj andkeyword2in the context of [keyword3
and/or [keyword4] and/or[keyword5?",或者,將通過規(guī)范式問題生成功能250選擇的 不完全隱含的問題將是"動態(tài)的"-即,在每次調(diào)用時其將變化。
在一個實施例中,用戶將提供數(shù)字信息對象230。數(shù)字信息對象 230將包括但不限于以下形式
(i) 文本(純文本)文件。
(ii) 普通文本格式(RTF )(由Microsoft />式開發(fā)的標準)。 一種可選的方法是首先通過中間使用RTF-文本轉(zhuǎn)換工具(例如, RTF-Parser-1.09, Pete Sergeant的產(chǎn)品)從RTF獲得干凈的文本。
(iii) 擴展標記語言(XML) ( WWW聯(lián)盟的項目)文件。
(iv) 任何形式的標記語言文件,包括但不限于超文本標記語 言(HTML)和可擴展超文本標記語言(XHTMLTM) (WWW聯(lián)盟 的項目),RuleML(RuleML發(fā)起的項目),標準通用標記語言(SGML )
(一種國際標準),以及可擴展樣式表語言(XSL) (WWW聯(lián)盟的項目)。
(v) 可移植文檔格式(PDF) ( Adobe公司的專有格式)文件 (借助于PDF-文本轉(zhuǎn)換工具的中間使用)。
(vi) MS WORD文件,例如用于由MS WORD ( Microsoft公 司的字處理軟件產(chǎn)品)存儲文檔的.DOC文件。本實施例有計劃地利 用 一個MS Word-文本語法分析器(例如,Apache POI項目,Apache 組織的產(chǎn)品)。POI項目API還允許有計劃地調(diào)用來自Microsoft Excel 電子表格文件(XLS)的文本析取。雖然XLS文件不能做到,MS Word 文件也可以由NLP處理作為包含特殊字符的純文本文件。
(vii) 事件-信息捕獲日志文件,包括但不限于事務日志、電 話呼叫記錄、雇員工作時間記錄單、以及計算機系統(tǒng)事件日志。
(viii) web頁面。
(ix) blog頁面。
(x) 關(guān)系數(shù)據(jù)庫行。
(xi) 關(guān)系數(shù)據(jù)庫視圖。
(xii) 關(guān)系數(shù)據(jù)庫表。
(xiii) 關(guān)系數(shù)據(jù)庫答案集(即,由關(guān)系代數(shù)運算產(chǎn)生的行的集合)。
數(shù)字信息對象230的題目將通過一個軟件程序組件,題目檢測功 能240的軟件功能來確定。這種題目檢測軟件的實例已經(jīng)在文獻(參 見 Chen, K. 1995. Topic Identification in Discourse. Morgan Kaufman )中較好地描述了 。題目檢測功能240將使用軟件適配器235 來實現(xiàn),軟件適配器235處理每種形式的數(shù)字信息對象230。這種軟 件適配器235是眾所周知的(作為 一 個例子,參見 h加〃www-306.ibm.coin/software/integration/wbiadapters/framewor Ji)。題目檢測功能的輸出將是關(guān)鍵字和/或短語,該關(guān)鍵字和短語將 接著被提交給相關(guān)功能110。
圖8是根據(jù)本發(fā)明的一個方面由知識相關(guān)功能110基于如圖1中 描述的輸入啟動的搜索引擎過程的流程圖,而且繼續(xù)直到將結(jié)果呈現(xiàn)
15給用戶。相關(guān)功能110將關(guān)聯(lián)數(shù)據(jù)結(jié)構(gòu)對象830、三元組835和有關(guān) 對象837放入到答案空間885。對象在答案空間885中的重要性是通 過重要性計算功能840確定的,重要性計算功能840為分級功能845 建立數(shù)據(jù)以便根據(jù)重要性進行分級。輸出接著被顯示給用戶。在相關(guān) 功能創(chuàng)建任何類型的定向非循環(huán)圖時,該圖可以在由分層布局功能 850針對布局進行組織之后被顯示給用戶。
本發(fā)明依賴于相關(guān)功能110的成功。下面來自專利申請序列號 No. 11/273,568的原文概括了在本發(fā)明中所使用的相關(guān)功能110 。注意, 下面的引號中對圖的所有引用僅應用于來自專利申請序列號No. 11/273,568的圖。
"在如圖1A表示的本發(fā)明的一個示例性實施例中,用戶通過使用 GUI接口輸入至少一個項。圖2A是用于接受用戶輸入的GUI組件的 屏幕捕獲。該接口中重要的字段是"X項"、"Y項"和"切線 (Tangents),,。如在下文中將更為詳細描述的, 一個和五個術(shù)語或短 語之間的用戶的入口對本發(fā)明的行為有顯著的影響。在如圖2A中所 示的一個優(yōu)選實施例中,用戶被要求提供至少兩個輸入術(shù)語或短語。 參考圖1A,通過輸入到圖2A的"X項"數(shù)據(jù)入口字段,用戶輸入100, "GOLD,,被捕獲作為可搜索的術(shù)語或短語110。通過輸入到圖2A的"Y 項"數(shù)據(jù)入口字段,用戶輸入100, "INFLATION"被捕獲作為可搜索 的術(shù)語或短語110。 一旦被用戶啟動,搜索120就負責識別有關(guān)所關(guān) 心的術(shù)語或短語的信息的真實和潛在的源。針對對該所關(guān)心的術(shù)語或 短語的關(guān)聯(lián)性125測試每個真實和潛在的源。在所搜索的源當中是計 算機文件系統(tǒng)、因特網(wǎng)、關(guān)系數(shù)據(jù)庫、電子郵件存儲庫、分類實例、 以及本體實例。被發(fā)現(xiàn)關(guān)聯(lián)的那些源被稱為資源128。對關(guān)聯(lián)資源128 的搜索120被稱為"發(fā)現(xiàn)(Discovery)"。來自每個資源128的信息被 分解130為稱為節(jié)點的數(shù)字信息對象138。參考圖1C,節(jié)點180A和 108B是包含任何傳達意義的數(shù)據(jù)結(jié)構(gòu)。每個節(jié)點都是自包含的。除傳 達意義之外不要求節(jié)點別的什么東西。再次參考圖1A,來自被成功分 解130的資源128的節(jié)點180A、 180B ,皮放入一個節(jié)點池140。節(jié)點池140是用于數(shù)據(jù)存取和檢索的邏輯結(jié)構(gòu)。資源128的捕獲以及分解 為節(jié)點180A、 180B被稱為"釆集"。然后利用節(jié)點池140中的稱為成 員節(jié)點的節(jié)點180A、 180B構(gòu)成一個相關(guān)155。參考圖1B,相關(guān)是從 節(jié)點池中明顯包含所關(guān)心的術(shù)語或短語的節(jié)點的其中之一開始的。這
樣的一個節(jié)點稱之為術(shù)語節(jié)點。當被用作相關(guān)中的第一個節(jié)點時,術(shù) 語節(jié)點被稱為原始節(jié)點152 (源)。相關(guān)是以節(jié)點鏈(路徑)的形式 構(gòu)成的。該路徑在原始節(jié)點152 (同義地參考作為路徑根)處開始。 該路徑通過在節(jié)點池140的節(jié)點成員151之中搜索可以與原始節(jié)點 152有關(guān)的成員節(jié)點151而被擴展。如果找到了這樣的一個節(jié)點(合 格成員151H),則該合格成員節(jié)點被鏈接到原始節(jié)點152,并且指定 為路徑的當前終點。該路徑通過與節(jié)點池的合格成員節(jié)點迭代相關(guān)聯(lián) 以及通過節(jié)點池的合格成員節(jié)點的相繼鏈接被進一步擴展到相繼指定 的路徑的當前終點,直到認為與該路徑的當前終點有關(guān)并添加的合格 成員節(jié)點是最終的節(jié)點(目標節(jié)點159),或者直到節(jié)點池中不再有 合格的成員節(jié)點為止。作為路徑的最終節(jié)點的目標節(jié)點159的關(guān)聯(lián)和 鏈接被稱為一次成功結(jié)果(目標狀態(tài)),在此情況下該路徑此后被稱 作為相關(guān)155,而且這種相關(guān)155被保存。節(jié)點池中不再有任何合格 成員節(jié)點并因此沒有可接受的目標節(jié)點的條件被認為是一次失敗的結(jié) 果(窮舉),該路徑被丟棄,并且不被稱作為一個相關(guān)。 一個完整的 相關(guān)155將原始節(jié)點152與該相關(guān)中的每一個其它的節(jié)點相關(guān)聯(lián),而 且特別是與該相關(guān)中的目標節(jié)點159相關(guān)聯(lián)。這個過程被稱為"相關(guān) (Correlation ),,。相關(guān)155因此形成了 一個橫跨來自搜索中識別的所 有源的信息并將信息綁在一起的知識橋。該知識橋是所發(fā)現(xiàn)的知識。" 如上所述,由于本發(fā)明依賴于相關(guān)功能535的成功,因此對應用 到潛在的源的關(guān)聯(lián)性測試(序列號No. 11/278,568圖1A項125)感興 趣。相關(guān)功能110的發(fā)現(xiàn)階段如上所述利用了關(guān)聯(lián)性測試(序列號No. 11/278,568圖1A項125)以便為后續(xù)的采集識別資源(序列號No. 11/278,568圖1A項128)。這些關(guān)聯(lián)性測試(序列號No. 11/278,568 圖1A項125)類似于在有關(guān)技術(shù)中描述的關(guān)聯(lián)性方法并與之交叉。注意這樣一個事實,即資源(序列號No. 11/278,568圖1A項128)被相 關(guān)功能110認為是與保證采集足夠的關(guān)聯(lián),并且不隱含或保證將發(fā)現(xiàn) 該資源(序列號No. 11/278,568圖1A項128 )以有意義的方式對答案 空間800有所貢獻。下面列表了序列號No. 11/278,568中列舉的關(guān)聯(lián) 性測試(序列號No. 11/278,568圖1A項125)。在本發(fā)明的一個實施 例中,在序列號No. 11/278,568中列舉的所有的關(guān)聯(lián)性測試(序列號 No. 11/278,568圖1A項125)以及有關(guān)技術(shù)領(lǐng)域中描述的所有關(guān)聯(lián)性 方法將被相關(guān)功能110使用,以選擇資源(序列號No. 11/278,568圖 IA項128)用以采集。
根據(jù)序列號No. 11/278,568的關(guān)聯(lián)性測試包括但不限于
(i) 潛在的源包含對所關(guān)心的術(shù)語或短語的單一或多種形式 的匹配。
(ii) 潛在的源包含對所關(guān)心的術(shù)語或短語的同義詞的匹配。
(iii) 潛在的源包含對所關(guān)心的術(shù)語或短語有關(guān)的單詞的匹配 (如可能通過一個類屬詞典提供的那樣相關(guān))。
(iv) 潛在的源包含對所關(guān)心的術(shù)語或短語有關(guān)的單詞的匹配, 在此潛在的源的內(nèi)容和所關(guān)心的術(shù)語或短語之間的關(guān)系是通過一個權(quán) 威的參考源建立的。
(v) 4吏用 諸如Merriam-Webster,s類屬詞 典 (Merriam-Webster公司的產(chǎn)品)的類屬詞典,確定是否有任何在搜
索期間定位的潛在的源的內(nèi)容是所關(guān)心的術(shù)語或短語的 一個同義詞或 與之有關(guān)。
(vi) 潛在的源包含對所關(guān)心的術(shù)語和/或短語的其中一個的權(quán)
威參考中的定義中出現(xiàn)的單詞的匹配。
(vii) 使用諸如Merriam-Webster,s字典(Merriam-Webster 公司的產(chǎn)品)的字典,確定是否有任何在搜索期間定位的潛在的源的 內(nèi)容出現(xiàn)在所關(guān)心的術(shù)語或短語的字典定義中,并因此與所關(guān)心的術(shù) 語或短語有關(guān)。
(viii) 潛在的源包含對出現(xiàn)在有關(guān)權(quán)威參考中所關(guān)心的術(shù)語或短語的討論中的單詞的匹配。
(ix) 使用諸如 Encyclopedia Britannica ( Encyclopedia Britannica公司的產(chǎn)品)的百科全書來確定是否有任何在搜索期間定 位的潛在的源的內(nèi)容出現(xiàn)在所關(guān)心的術(shù)語或短語的百科全書討論之 中,并因此與所關(guān)心的術(shù)語或短語有關(guān)。
(x) 潛在的源中包含的術(shù)語有一個與所關(guān)心的術(shù)語或短語有 關(guān)的父節(jié)點、子節(jié)點或同胞節(jié)點。
(xi) 使用分類確定潛在的源中包含的術(shù)語有一個與所關(guān)心的 術(shù)語或短語有關(guān)的父節(jié)點、子節(jié)點或同胞節(jié)點。在這個實施例中,包 含所關(guān)心的術(shù)語或短語的頂點在分類中被定位。這就是所關(guān)心的頂點。 對于在潛在的源的內(nèi)容中定位的每個單詞,通過追蹤從所關(guān)心的頂點 到所關(guān)心的頂點的父、同胞和子頂點的關(guān)系(鏈接),搜索分類的父、 同胞和子頂點。如果任何的父、同胞或子頂點包含來自該潛在的源的 內(nèi)容的單詞,則斷言一個匹配,而且該源被認為是有關(guān)所關(guān)心的術(shù)語 或短語的信息的實際的源。在這個實施例中, 一個稱為圖形遍歷功能 的軟件功能被用于定位和檢查所關(guān)心的術(shù)語或短語的父、同胞和子頂 點。
(xii) 所關(guān)心的術(shù)語或短語與該潛在的源中包含的術(shù)語距離一 個語義學距離的程度(長度)。
(xiii) 所關(guān)心的術(shù)語或短語與該潛在的源中包含的術(shù)語il巨離兩 個語義學距離的程度(長度)。
(xiv) 使用本體來確定一個語義學距離的程度(長度),將源和 所關(guān)心的術(shù)語或短語分隔開。在這個實施例中,包含所關(guān)心的術(shù)語或 短語的頂點在本體中被定位。這就是所關(guān)心的頂點。對于位于潛在的 源的內(nèi)容中的每個單詞,通過追蹤從所關(guān)心的該頂點到所有相鄰頂點 的關(guān)系(鏈接)搜索本體。如果有任何的相鄰頂點包含來自該潛在的 源的內(nèi)容的單詞,則斷言一個匹配,而且該源被認為是有關(guān)所關(guān)心的 術(shù)語或短語的信息的實際的源。
(xv) 使用本體確定兩個語義學距離的程度(長度),將源和所關(guān)心的術(shù)語或短語分隔開。在這個實施例中,包含所關(guān)心的術(shù)語或短 語的頂點在本體中被定位。這就是所關(guān)心的頂點。對于位于潛在的源 的內(nèi)容中的每個單詞,執(zhí)行針對一個語義學程度的關(guān)聯(lián)性測試。如果 這個測試失敗,則通過追蹤從與所關(guān)心的該頂點相鄰的頂點到所有相 應的相鄰頂點的關(guān)系(鏈接)搜索本體。這種頂點與所關(guān)心的頂點相 距兩個語義學程度。如果有任何的兩個語義學程度的頂點包含來自該 潛在的源的內(nèi)容的單詞,則斷言一個匹配,而且該源被認為是有關(guān)所 關(guān)心的術(shù)語或短語的信息的實際的源。
(xvi) 使用諸如CYC Ontology ( Cycory公司的產(chǎn)品)的通用本 體,確定從所關(guān)心的術(shù)語和/或短語的其中一個到在搜索期間定位的潛 在的源的任何內(nèi)容的語義學距離的程度(長度)。
(xvii) 使用諸如Gene Ontology ( Gene本體聯(lián)盟的項目)的專用 本體,確定從所關(guān)心的術(shù)語和/或短語的其中 一個到在搜索期間定位的 潛在的源的任何內(nèi)容的語義學距離的程度(長度)。
使用本體而且針對測試,利用本體語言(例如,Web Ontology Language) (OWL) (WWW聯(lián)盟的項目)訪問和導航該本體。
可能以這種方式被搜索的計算機包括個人計算機、網(wǎng)絡(luò)上的單 個計算機、網(wǎng)絡(luò)服務器計算機、網(wǎng)絡(luò)本體服務器計算機、網(wǎng)絡(luò)分類服 務器計算機、網(wǎng)絡(luò)數(shù)據(jù)庫服務器計算機、網(wǎng)絡(luò)電子郵件服務器計算機、 網(wǎng)絡(luò)文件服務器計算機。網(wǎng)絡(luò)本體服務器是致力于支持針對大的用戶 組的語義搜索功能的任務的專用類型的高性能計算機。網(wǎng)絡(luò)分類服務 器是致力于支持針對大的用戶組的分類搜索功能的任務的專用類型的 高性能計算機。網(wǎng)絡(luò)數(shù)據(jù)庫服務器是致力于支持針對大的用戶組的數(shù) 據(jù)庫功能的任務的專用類型的高性能計算機。網(wǎng)絡(luò)電子郵件服務器是 致力于支持針對大的用戶組的電子郵件功能的任務的專用類型的高性 能計算機。網(wǎng)絡(luò)文件服務器是致力于支持針對大的用戶組的文件持久 性和檢索功能的任務的專用類型的高性能計算機。計算機網(wǎng)絡(luò)最少有 兩個網(wǎng)絡(luò)節(jié)點而且網(wǎng)絡(luò)節(jié)點的最大數(shù)量是無限的。計算機文件系統(tǒng)有 最少兩個文件而且最大文件數(shù)量是無限的。在成功完成相關(guān)功能110之后將存在一個答案空間800。如在所 述序列號No. 11/273,568中描述以及圖8中示意的本申請,答案空間 800由各相關(guān)組成(序列號No. 11/278,568圖IB項155 )。圖5的各 相關(guān)(序列號No. 11/278,568圖IB項155)又由節(jié)點組成(序列號 No. 11/278,568圖1C項180A和180B )。圖4的由相關(guān)功能110產(chǎn)生 的成功的相關(guān)(序列號No. 11/278,568圖IB項155 ) —起構(gòu)成才莫型作 為一個優(yōu)選實施例中的各相關(guān)的定向圖(也稱為有向圖)。作為選擇, 圖4的由相關(guān)功能110產(chǎn)生的成功的相關(guān)(序列號No. 11/278,568圖 IB項155) —起構(gòu)成模型作為成功相關(guān)的路徑顫動。圖4的由相關(guān)功 能110產(chǎn)生的成功的相關(guān)(序列號No. 11/278,568圖IB項155),相 對于各相關(guān), 一起稱為答案空間800。在此相關(guān)功能IIO構(gòu)成路徑顫 動,其中路徑顫動中的每條路徑是一個成功的相關(guān),所有成功的相關(guān) 共享作為起始點的原始節(jié)點(序列號No. 11/278,568圖IB項152 ), 而且來自原始節(jié)點(序列號No. 11/278,568圖IB項152 )的所有可能 的相關(guān)(序列號No. 11/278,568圖IB項155)被構(gòu)造。從同一個原始 術(shù)語節(jié)點(序列號No. 11/278,568圖IB項152)開始并且以同一目標 術(shù)語節(jié)點(序列號No. 11/278,568圖IB項159)或有關(guān)的目標術(shù)語節(jié) 點(序列號No. 11/278,568圖IB項159 )的相同集合結(jié)束的所有的相 關(guān)(序列號No. 11/278,568圖IB項155)(路徑)組成一個相關(guān)集合。
在當前優(yōu)選的實施例中,答案空間800被存儲在計算機數(shù)字存儲 器中,或者存儲在計算機數(shù)字存儲介質(zhì)(例如硬盤)之上。這種數(shù)字 存儲器和數(shù)字存儲裝置是眾所周知的。答案空間800短暫性或者持久 駐留在計算裝置、計算機聯(lián)網(wǎng)的裝置、或者個人計算裝置之上。眾所 周知的計算裝置包括但不限于超級計算機,大型計算機,企業(yè)級計 算機,服務器,文件服務器,刀片式服務器,web服務器,部門服務 器,以及數(shù)據(jù)庫服務器。眾所周知的計算機聯(lián)網(wǎng)裝置包括但不限于 網(wǎng)關(guān)裝置,數(shù)據(jù)存儲裝置,家庭因特網(wǎng)設(shè)備,機頂盒,以及車載計算 平臺。眾所周知的個人計算裝置包括但不限于桌面?zhèn)€人計算機,膝 上型個人計算機,個人數(shù)字助理(PDA),高級顯示蜂窩電話,高級顯示尋呼機,以及高級顯示文本消息收發(fā)裝置。答案空間800包含兩 個節(jié)點(序列號No. 11/278,568圖1C項180A和180B )的最小值或 與之關(guān)聯(lián),而且節(jié)點(序列號No. 11/278,568圖1C項180A和180B ) 的最大數(shù)量是無限的。
由于節(jié)點(序列號No. 11/278,568圖1C項180A和180B)是對 通過相關(guān)功能110的發(fā)現(xiàn)階段所識別的資源(序列號No. 11/278,568 圖1A項128)應用分解功能(序列號No. 11/278,568圖IB項130 ) 的產(chǎn)品,所以節(jié)點(序列號No. 11/278,568圖1C項180A和180B ) 與節(jié)點(序列號No. 11/278,568圖1C項180A和180B )從其導出的 資源(序列號No. 11/278,568圖1A項128 )強相關(guān)。這種資源(序列 號No. 11/278,568圖1A項128 )在此被稱為起作用的(contributing ) 資源。此外,答案空間800與用戶查詢(表示為輸入主題200、數(shù)字 信息對象230、或問題250)強相關(guān),因為成功的相關(guān)(序列號No. 11/278,568圖IB項155)是一個存在的證明(存在的量化),即根據(jù) 語料庫的內(nèi)容可以滿足用戶查詢。本發(fā)明基于這樣的一種事實,即用 戶查詢與答案空間800的強烈關(guān)聯(lián)對資源(序列號No. 11/278,568圖 1A項128)是傳遞的,該資源提供節(jié)點(序列號No. 11/278,568圖1C 項180A和180B)給答案空間,因此使得本發(fā)明的知識相關(guān)搜索引擎 能夠交付與用戶查詢關(guān)聯(lián)的資源(序列號No. 11/278,568圖1A項128) 的高度準確的鏈接。
本發(fā)明的一個要求是提供節(jié)點(序列號No. 11/278,568圖1C項 180A和180B)給答案空間185的資源(序列號No. 11/278,568圖1A 項128)必須被識別(即,哪些是起作用的資源000 )。如可以在序 列號No. 11/278,568的圖1C中看出的,項l訓,節(jié)點(序列號No. 11/278,568圖1C項180B)的一個成員是該序列(源)(序列號No. 11/278,568圖1C項188)。該序列(序列號No. 11/278,568圖1C項 188)包含節(jié)點(序列號No. 11/278,568圖1C項180B )從其導出的資 源(序列號No. 11/278,568圖1A項128 )的URI (針對該節(jié)點(序列 號No. 11/278,568圖1C項188)起作用的資源128 )。因此,本發(fā)明
22可通過簡單地枚舉在答案空間185內(nèi)的所有節(jié)點(序列號No. 11/278,568圖1C項188)內(nèi)找到的所有資源(序列號No. 11/278,568 圖1A項128)的URI,識別與用戶查詢相關(guān)聯(lián)的起作用的資源128。 在一種改進的但仍然是基本的實施例中,可以檢查每一個相關(guān) (序列號No. 11/278,568圖IB項155),而且可以以一個直方圖捕獲 該相關(guān)(序列號No. 11/278,568圖IB項155)中起作用的資源128的 出現(xiàn)頻率。所有起作用的資源128的出現(xiàn)的累積計數(shù)然后可以被存儲。
呈現(xiàn)給用戶。對于這個實施例并且參^圖2,各相關(guān)(序列號No, 11/278,568圖IB項155)的檢查,起作用的資源128的出現(xiàn)頻率的捕 獲,以及將所捕獲的起作用的資源128的出現(xiàn)頻率放置到直方圖中是 由重要性計算功能540執(zhí)行的。針對所有起作用的資源128的出現(xiàn)的 累積計數(shù)的排序是由分級功能545執(zhí)行的,而將排序的結(jié)果呈現(xiàn)給用 戶是由分層布局功能550執(zhí)行的。
在另 一個基本的實例中,重要性計算功能842是一個基于通過每 個起作用的資源128對答案空間885作出貢獻的唯一節(jié)點(序列號No. 11/278,568圖1C項180B)的數(shù)量的統(tǒng)計功能。在這個實施例中,不 考慮答案空間885內(nèi)的任何相關(guān)(序列號No. 11/278,568圖1B項155 )。 重要性計算功能842首先列表答案空間885內(nèi)的唯一節(jié)點(序列號No. 11/278,568圖1C項180B),在該列表中對每一個節(jié)點(序列號No, 11/278,568圖1C項180B)有一個入口。然后,計數(shù)對每個起作用的 資源128的參考的頻率。利用標準的和眾所周知的統(tǒng)計準則和方法可 以度量統(tǒng)計的重要性,分級功能845所使用的k閾值被建立,而且最 為重要的起作用的資源128可以被識別并呈現(xiàn)給用戶。
對于另 一個實例,重要性計算功能842使簡單的出現(xiàn)頻率與簡單 的貢獻頻率值相關(guān),結(jié)果導致基本的重要性分數(shù)。如果使用分散繪圖 顯示這個數(shù)據(jù),則具有最高出現(xiàn)頻率和最高貢獻頻率的重要資源128 將被放置離右邊最遠處而且最靠近頂部。此外,至于下文中將進一步 進行描述的重要性計算功能842的所有變化的實施例,可以利用標準的和眾所周知的統(tǒng)計重要性度量來為分級功能845提供適當?shù)膋閾值 信息。如果需要的話,重要性計算功能842可以使用另外的統(tǒng)計技術(shù), 包括但不限于出現(xiàn)頻率和簡單的貢獻之間的線性(眾所周知的 Pearson r)相關(guān);繪圖數(shù)據(jù)的非線性相關(guān);諸如Kendall—致性系數(shù) 的非參數(shù)統(tǒng)計方法,計算相互間具有對數(shù)關(guān)系的數(shù)據(jù)的幾何平均,以 及其它眾所周知的技術(shù)來測量變量之間的關(guān)系。
在一個實施例中,可以通過利用諸如由該特定節(jié)點(序列號No. 11/278,568圖1C項180B)的起作用的資源128提供的節(jié)點(序列號 No. 11/278,568圖1C項180B )的數(shù)量之上的出現(xiàn)比例、頻率,或者 由所有起作用的資源128提供的節(jié)點(序列號No. 11/278,568圖1C項 180B)的平均數(shù)量之上的出現(xiàn)比例、頻率的測量來計算節(jié)點重要性分 數(shù)。為了改進重要性計算功能842的速度,節(jié)點重要性分數(shù)可以歸一 化為(0,1)或(-l,l),利用該可能性,因此可快速確定給定的起作 用的資源128對于答案空間是否重要或者不重要。
在另 一個實施例中,重要性計算功能842是一個鏈接分析功能, 該鏈接分析功能842將相關(guān)(序列號No. 11/278,568圖IB項155 )作 為輸入。相比web圖表,這利用了由相關(guān)功能110創(chuàng)建的相關(guān)(序列 號No. 11/278,568圖IB項155)之間的差異。重要性計算功能842作 為鏈接分析功能在答案空間128內(nèi)的每個節(jié)點(序列號No. 11/278,568 圖1C項180B )之上建立鏈接普及分數(shù)。該鏈接普及分數(shù)是通過對答 案空間885內(nèi)的每個節(jié)點(序列號No. 11/278,568圖1C項180B )的 入度鏈接的數(shù)量來確定的。然后將由起作用的資源128提供的所有節(jié) 點(序列號No. 11/278,568圖1C項180B )的普及分數(shù)值相加。在這 個實施例中,由起作用的資源128所貢獻的所有節(jié)點(序列號No. 11/278,568圖1C項180B)的合計的普及分數(shù)對該起作用的資源128 自身是過渡(transit)的。
在一個實施例中,重要性計算功能842作為鏈接分析功能在每個 節(jié)點(序列號No. 11/278,568圖1C項180B )之上建立重要性分數(shù)。 該重要性分數(shù)是通過眾所周知的Kleinberg Hubs和權(quán)限(Authorities )算法確定的。由起作用的資源128貢獻的所有節(jié)點(序列號No. 11/278,568圖1C項180B)的Hub或權(quán)限分數(shù)接著被相加。在這個實 施例中,由起作用的資源128貢獻的所有節(jié)點(序列號No. 11/278,568 圖1C項180B)的合計的Hub或權(quán)限分數(shù)對起作用的資源128是過>度 的。在一個實施例中,重要性分數(shù)是通過眾所周知的第2版的 PageRank算法確定的。由起作用的資源128提供的所有節(jié)點(序列 號No. 11/278,568圖1C項180B )的PageRank分數(shù)接著被相加。在 這個實施例中,由起作用的資源128貢獻的所有節(jié)點(序列號No. 11/278,568圖1C項180B)的合計的PageRank分數(shù)對起作用的資源 128是過渡的。
資源重要性計算功能842的結(jié)果將通過一個軟件功能,即分級功 能845而被分級,該軟件功能是一個軟件程序組件。在一個實施例中, 分級功能845實現(xiàn)了一個簡單的降序排序,由重要性計算功能842給 出最高值的起作用的資源128被分級功能845給予第一級,而其它起 作用的資源128的依次的等級根據(jù)它們在重要性值的排序列表中的相 對位置來指定。當重要性計算功能842是一個基于由每個起作用的資 源128貢獻給答案空間885的離散節(jié)點(序列號No, 11/278,568圖1C 項180B)的數(shù)量的統(tǒng)計功能時,以及當分級功能845實現(xiàn)了一個簡單 的降序排序時,分級功能被稱為按貢獻分級。當重要性計算功能842 是一個將計算由每個起作用的資源128提供給答案空間885的所有節(jié) 點(序列號No. 11/278,568圖1C項180B )的關(guān)聯(lián)性分數(shù)的和的統(tǒng)計 功能時,以及當分級功能845實現(xiàn)了一個簡單的降序排序時,分級功 能被稱為按關(guān)聯(lián)性分級。當重要性計算功能842是一個將計算由每個 起作用的資源128提供給答案空間885的所有節(jié)點(序列號No, 11/278,568圖1C項180B )的普及分數(shù)、Hub和權(quán)限分數(shù)、或PageRank 分數(shù)的和的統(tǒng)計功能時,以及當分級功能845實現(xiàn)了一個簡單的降序 排序時,分級功能被稱為按重要性分級。
在當前優(yōu)選的實施例中,至少有兩個類別的起作用的資源128貢 獻了節(jié)點(序列號No. 11/278,568圖1C項180B )給答案空間885。該兩個類別的起作用的資源在此被指定為主題資源和參考資源。主題
資源提供帶有對題目的顯式參考的節(jié)點(序列號No. 11/278,568圖1C 項180B ),例如三元組GLOBAL WARMING-AFFECTS-GLACIERS 。 參考資源提供錨固(anchor )支持主題資源節(jié)點(序列號No. 11/278,568 圖1C項180B)的知識中的基礎(chǔ)的節(jié)點(序列號No. 11/278,568圖1C 項 180B ), 例如三元組GLOBAL WARMING曙IS-CLIMATE CHANGE,或GLOBAL WARMING-FROM-EMISSIONS。
在一個實施例中,創(chuàng)建一個支持向量機(SVM )以便分類和分級 起作用的資源。依賴于起作用的資源125分類的特性和數(shù)量,利用了 SVM的變化,包括SVM-RFE (SVM-遞歸特征消除),以及R-SVM (減少的SVM)。在一個當前優(yōu)選的實施例中,需要將起作用的資源 128分類為主題資源和參考資源,分類和分級起作用的資源128的 SVM過程的應用基本上是一致的,SVM過程用作一個診斷分類器以 便從癌組織樣本中識別出健康的組織樣本。
在一個當前優(yōu)選的實施例中,由相關(guān)功能IIO構(gòu)造或發(fā)現(xiàn)的相關(guān) (序列號No. 11/278,568圖IB項155)可以被顯示給用戶。這種顯示 被稱為表示。在一個當前優(yōu)選的實施例中,將利用分層布局890實現(xiàn) 答案空間128的表示。在一個當前優(yōu)選的實施例中,將利用一個軟件 功能,即分層布局功能850來創(chuàng)建分層布局890,分層布局功能850 是一個軟件程序組件。分層布局功能850以這樣的一種方式在不同的 層上指定圖形節(jié)點即,圖中大多數(shù)的邊沿同一個方向流動而且最小 化相交的邊的數(shù)量。在一個當前優(yōu)選的實施例中,分層布局功能850 使用Sugiyama-布局算法。
盡管在此已經(jīng)詳細舉例說明了本發(fā)明的各種各樣的實施例,明顯 的是對于本領(lǐng)域的技術(shù)人員來說,可以對這些實施例進行修改和變型,
而不偏離下述權(quán)利要求書中闡明的本發(fā)明的范圍。
權(quán)利要求
1、一種搜索引擎,包括a.利用相關(guān)性的搜索過程,以及b.輸入評估功能,用于從用戶提供的輸入中提取針對所述搜索過程的輸入,并將針對所述搜索的輸入提供給所述搜索過程。
2、 根據(jù)權(quán)利要求1的搜索引擎,其中所述輸入評估功能包括主 題評估功能,所述主題評估功能用于從關(guān)鍵字、短語、句子、概念、 復合、復雜或正交輸入或簡單web查詢中提取主題信息,并將所述主 題信息傳遞給所述搜索過程。
3、 根據(jù)權(quán)利要求2的搜索引擎,其中用于關(guān)鍵字和短語的主題 評估功能包括通過功能。
4、 根據(jù)權(quán)利要求2的搜索引擎,其中用于句子的主題評估功能 包括自然語言語法分析器。
5、 根據(jù)權(quán)利要求2的搜索引擎,其中用于概念的主題評估功能 包括主題、對象以及可選的上下文信息。
6、 根據(jù)權(quán)利要求2的搜索引擎,其中用于復合、復雜或正交輸 入的主題評估功能包括子句識別功能和自然語言語法分析器。
7、 根據(jù)權(quán)利要求2的搜索引擎,其中用于簡單web查詢的主題 評估功能包括短語識別過程。
8、 根據(jù)權(quán)利要求1的搜索引擎,其中所述輸入包括數(shù)字信息對 象,而且所述輸入評估功能包括題目檢測模塊適配器和題目檢測模塊。
9、 根據(jù)權(quán)利要求8的搜索引擎,還包括接收題目檢測模塊的輸 出的自然語言語法分析器。
10、 根據(jù)權(quán)利要求l的搜索引擎,其中所述輸入包括用于定義查 詢的問題生成功能。
11、 根據(jù)權(quán)利要求10的搜索引擎,其中所述問題生成功能創(chuàng)建 問題的靜態(tài)菜單。
12、 根據(jù)權(quán)利要求10的搜索引擎,其中所述問題生成功能創(chuàng)建 問題的動態(tài)菜單。
13、 根據(jù)權(quán)利要求10的搜索引擎,其中所述查詢是以規(guī)范的形 式給出。
14、 根據(jù)權(quán)利要求l的搜索引擎,其中所述搜索過程的輸出基于 答案空間。
15、 根據(jù)權(quán)利要求14的搜索引擎,其中所述搜索過程的輸出與 從所述答案空間識別的資源強相關(guān)。
16、 根據(jù)權(quán)利要求14的搜索引擎,其中所述輸出與用于創(chuàng)建所 述答案空間的資源強相關(guān)。
17、 根據(jù)權(quán)利要求14的搜索引擎,其中所述輸出與經(jīng)過用于創(chuàng) 建所述答案空間的資源的用戶輸入傳遞地相關(guān)。
18、 根據(jù)權(quán)利要求14的搜索引擎,其中資源與用戶輸入的關(guān)聯(lián)性由所述答案空間的存在來保證。
19、 根據(jù)權(quán)利要求14的搜索引擎,其不使用相似性測量來建立關(guān)聯(lián)。
20、 根據(jù)權(quán)利要求l的搜索引擎,其中所述搜索過程的輸出被應 用到后搜索過程用于確定呈現(xiàn)給用戶的順序。
全文摘要
子句對于諸如預測文本到語音合成的語法分析中的措辭以及推斷用于機器翻譯的文本對齊(Ejerhed 1988,Leffa 1998,Papageorgiou1997)的各種各樣的NLP任務是重要的。計算的自然語言學習2001共享任務(Sang & Déjean 2001)利用機器學習方法設(shè)置識別文本中的子句邊界的目的。為任務創(chuàng)建的系統(tǒng)為每個單詞預測一個標記,以指定在該句子中在該位置開始和結(jié)束的子句的數(shù)量,而不用區(qū)別子句類型。這種工作通過多種方式擴展了共享任務的這些內(nèi)容(1)研究性能邊界,(2)進行區(qū)別“主要”和“次要”子句的嘗試,以及(3)篩選和最大熵,對問題應用被證明在之前尚未針對該任務使用的相似域內(nèi)有效的模型類別。
文檔編號G06F17/30GK101310274SQ200680042357
公開日2008年11月19日 申請日期2006年6月28日 優(yōu)先權(quán)日2005年11月14日
發(fā)明者C·溫默, M·博比克 申請人:馬克森斯公司