国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      信息檢索系統(tǒng)中的短語(yǔ)識(shí)別的制作方法

      文檔序號(hào):6630625閱讀:228來(lái)源:國(guó)知局
      專(zhuān)利名稱(chēng):信息檢索系統(tǒng)中的短語(yǔ)識(shí)別的制作方法
      技術(shù)領(lǐng)域
      本發(fā)明涉及一種用于對(duì)諸如互聯(lián)網(wǎng)(Internet)的大規(guī)模語(yǔ)料庫(kù)中的文獻(xiàn)編制索引、搜索與分類(lèi)的信息檢索系統(tǒng)。
      背景技術(shù)
      信息檢索系統(tǒng)通常稱(chēng)作搜索引擎,如今它們是一種用于在諸如互聯(lián)網(wǎng)的大規(guī)模、多樣化并不斷增長(zhǎng)的語(yǔ)料庫(kù)中尋找信息的基本工具。一般來(lái)說(shuō),搜索引擎創(chuàng)建索引以使文獻(xiàn)(或“頁(yè)”)與各文獻(xiàn)中存在的個(gè)別字相關(guān)。響應(yīng)一含有多個(gè)查詢(xún)項(xiàng)的查詢(xún)來(lái)檢索文獻(xiàn),此通常是基于在文獻(xiàn)中存在一定數(shù)量的查詢(xún)項(xiàng)而實(shí)現(xiàn)的。根據(jù)諸如查詢(xún)項(xiàng)出現(xiàn)的頻率、主域、鏈接分析等其它統(tǒng)計(jì)度量來(lái)對(duì)檢索到的文獻(xiàn)分等級(jí)。然后,通常按分等級(jí)后的次序?qū)z索到的文獻(xiàn)呈現(xiàn)給用戶(hù),而不進(jìn)行任何其他分組或強(qiáng)制分級(jí)。在某些狀況下,僅呈現(xiàn)文獻(xiàn)文本的選定部分以便使用戶(hù)能夠粗略了解所述文獻(xiàn)的內(nèi)容。
      查詢(xún)項(xiàng)的直接“布爾(Boolean)”匹配具有多個(gè)熟知的限制,并且尤其無(wú)法識(shí)別那些不具有查詢(xún)項(xiàng)但具有相關(guān)字的文獻(xiàn)。舉例來(lái)說(shuō),在典型的布爾系統(tǒng)中,搜索“Australian Shepherds(澳大利亞牧羊犬)”時(shí)將不會(huì)返回不具有確切查詢(xún)項(xiàng)的關(guān)于其它herding dogs(牧羊犬)(例如,BorderCollies(博得牧羊犬))的文獻(xiàn)。反而,所述系統(tǒng)通??赡芡瑫r(shí)檢索到關(guān)于Australia(澳大利亞)(并且與dogs(狗)無(wú)關(guān))的文獻(xiàn)與關(guān)于“shepherds(牧羊犬)”的文獻(xiàn),并且將這些文獻(xiàn)排在較高等級(jí)。
      這里的問(wèn)題是傳統(tǒng)的系統(tǒng)是根據(jù)個(gè)別項(xiàng)而不是概念來(lái)編制文獻(xiàn)索引。概念通常以短語(yǔ)表示,如“Australian Shepherd(澳大利亞牧羊犬)”、“President of the United States(美國(guó)總統(tǒng))”或者“Sundance FilmFestival(圣丹斯電影節(jié))”等。某些現(xiàn)有系統(tǒng)最多是就預(yù)定且非常有限的“已知”短語(yǔ)集合來(lái)編制文獻(xiàn)索引,這些“已知”短語(yǔ)一般是由人工操作員選擇的。因?yàn)椴煊X(jué)到識(shí)別由(比如)三個(gè)、四個(gè)或五個(gè)或更多個(gè)字組成的所有可能的短語(yǔ)需要計(jì)算與存儲(chǔ)器,所以一般會(huì)避免對(duì)短語(yǔ)編制索引。舉例來(lái)說(shuō),如果假定任意五個(gè)字可構(gòu)成一個(gè)短語(yǔ)并且一個(gè)大的語(yǔ)料庫(kù)將具有至少200,000個(gè)唯一項(xiàng),那么將存在約3.2*1026個(gè)可能短語(yǔ),此明顯超出任何現(xiàn)有系統(tǒng)能夠存儲(chǔ)于存儲(chǔ)器中的量或者其可另外編程操縱的量。另一個(gè)問(wèn)題是短語(yǔ)不斷輸入并會(huì)超出其在詞典中的用法,此比發(fā)明新的個(gè)別字頻繁得多。新短語(yǔ)總是從諸如技術(shù)、藝術(shù)、世界事件與法律等來(lái)源中產(chǎn)生。其它短語(yǔ)將隨時(shí)間降低使用。
      某些現(xiàn)有信息檢索系統(tǒng)試圖通過(guò)使用個(gè)別字同時(shí)出現(xiàn)的模式來(lái)提供概念檢索。在這些系統(tǒng)中,搜索一個(gè)字,例如“President(總統(tǒng))”,將同時(shí)檢索到具有頻繁地與“President(總統(tǒng))”一起出現(xiàn)的其它字(如“White(白色)”及“House(房子)”)的文獻(xiàn)。盡管這種方法可能產(chǎn)生具有在個(gè)別字水平上概念性地相關(guān)的文獻(xiàn)的搜索結(jié)果,但其一般無(wú)法俘獲在同時(shí)出現(xiàn)的短語(yǔ)之間存在的主題關(guān)系。
      因此,需要一種信息檢索系統(tǒng)與方法,其能夠全面地識(shí)別大規(guī)模語(yǔ)料庫(kù)中的短語(yǔ)、根據(jù)短語(yǔ)編制文獻(xiàn)索引、根據(jù)其短語(yǔ)搜索文獻(xiàn)并將文獻(xiàn)分等級(jí)、并提供關(guān)于所述文獻(xiàn)的另外的群集與說(shuō)明性信息。

      發(fā)明內(nèi)容
      本發(fā)明涉及一種信息檢索系統(tǒng)與方法,其使用短語(yǔ)來(lái)對(duì)文獻(xiàn)庫(kù)中的文獻(xiàn)編制索引、進(jìn)行搜索、分等級(jí)及說(shuō)明。所述系統(tǒng)適合于識(shí)別那些在文獻(xiàn)庫(kù)中具有足夠頻繁及/或獨(dú)特用法的短語(yǔ)以指示其為“有效”或“好”短語(yǔ)。以此方式,可識(shí)別多字短語(yǔ),例如由四個(gè)、五個(gè)或更多項(xiàng)組成的短語(yǔ)。這就避免了必須識(shí)別由給定數(shù)量的字的所有可能序列所產(chǎn)生的每個(gè)可能的短語(yǔ)并對(duì)其編制索引的問(wèn)題。
      該系統(tǒng)還適合于根據(jù)短語(yǔ)預(yù)測(cè)文獻(xiàn)中存在其它短語(yǔ)的能力來(lái)識(shí)別彼此相關(guān)的短語(yǔ)。更具體地說(shuō),利用使兩個(gè)短語(yǔ)的實(shí)際同時(shí)出現(xiàn)率與這兩個(gè)短語(yǔ)的預(yù)期同時(shí)出現(xiàn)率相關(guān)的預(yù)測(cè)度量。一種此類(lèi)預(yù)測(cè)度量是信息增益,即實(shí)際同時(shí)出現(xiàn)率與預(yù)期同時(shí)出現(xiàn)率的比率。在預(yù)測(cè)度量超過(guò)一預(yù)定閾值時(shí),兩個(gè)短語(yǔ)相關(guān)。在那種狀況下,第二短語(yǔ)相對(duì)于第一短語(yǔ)具有顯著的信息增益。語(yǔ)義上,相關(guān)短語(yǔ)將是那些共同用來(lái)討論或描述一給定主題或概念的短語(yǔ),如“President of the United States(美國(guó)總統(tǒng))”與“White House(白宮)”。對(duì)于一給定短語(yǔ),相關(guān)短語(yǔ)可根據(jù)其相關(guān)性或有效性基于其各自的預(yù)測(cè)度量來(lái)定序。
      信息檢索系統(tǒng)通過(guò)有效或好短語(yǔ)來(lái)對(duì)文獻(xiàn)庫(kù)中的文獻(xiàn)編制索引。對(duì)于每一個(gè)短語(yǔ),一個(gè)記入列表識(shí)別那些含有所述短語(yǔ)的文獻(xiàn)。此外,對(duì)于一給定短語(yǔ),使用第二列表、向量或其它結(jié)構(gòu)來(lái)存儲(chǔ)指示在含有所述給定短語(yǔ)的每一文獻(xiàn)中還存在給定短語(yǔ)的哪些相關(guān)短語(yǔ)的數(shù)據(jù)。以此方式,所述系統(tǒng)不僅能夠響應(yīng)搜索查詢(xún)而輕易地識(shí)別出哪些文獻(xiàn)含有哪些短語(yǔ),而且能夠識(shí)別出哪些文獻(xiàn)還含有與查詢(xún)短語(yǔ)相關(guān)、并且因此更可能特定地關(guān)于查詢(xún)短語(yǔ)所表示的主題或概念的短語(yǔ)。
      使用短語(yǔ)與相關(guān)短語(yǔ)還創(chuàng)建并使用了相關(guān)短語(yǔ)的群集,其在語(yǔ)義上代表短語(yǔ)的有意義的分組。從在群集中的所有短語(yǔ)之間具有非常高的預(yù)測(cè)度量的相關(guān)短語(yǔ)來(lái)識(shí)別群集。群集可用來(lái)組織搜索結(jié)果,包括選擇搜索結(jié)果中包括哪些文獻(xiàn)及其次序,以及從搜索結(jié)果去除文獻(xiàn)。
      信息檢索系統(tǒng)還適合于在響應(yīng)查詢(xún)而搜索文獻(xiàn)時(shí)使用短語(yǔ)。處理查詢(xún)以便識(shí)別在查詢(xún)中存在的任何短語(yǔ),從而檢索查詢(xún)短語(yǔ)的相伴記入列表與相關(guān)短語(yǔ)信息。此外,在有些情況下,用戶(hù)可以在搜索查詢(xún)中輸入不完整的短語(yǔ),如“President of the(...總統(tǒng))”。可以識(shí)別象這樣的不完整短語(yǔ)并且用擴(kuò)展短語(yǔ)來(lái)代替,如“President of the United States(美國(guó)總統(tǒng))”。這有助于確保實(shí)際執(zhí)行用戶(hù)最有可能的搜索。
      系統(tǒng)也可使用相關(guān)短語(yǔ)信息來(lái)識(shí)別或選擇搜索結(jié)果中包括哪些文獻(xiàn)。對(duì)于一給定短語(yǔ)與一給定文獻(xiàn),相關(guān)短語(yǔ)信息指出在所述給定文獻(xiàn)中存在所述給定短語(yǔ)的哪些相關(guān)短語(yǔ)。因此,對(duì)于一含有兩個(gè)查詢(xún)短語(yǔ)的查詢(xún)來(lái)說(shuō),先處理第一查詢(xún)短語(yǔ)的記入列表以識(shí)別含有第一查詢(xún)短語(yǔ)的文獻(xiàn),接著處理相關(guān)短語(yǔ)信息以識(shí)別這些文獻(xiàn)中哪些文獻(xiàn)還含有第二查詢(xún)短語(yǔ)。接著,將后面這些文獻(xiàn)包括在搜索結(jié)果中。這就不需要系統(tǒng)接著單獨(dú)處理第二查詢(xún)短語(yǔ)的記入列表,由此提供更快的搜索時(shí)間。當(dāng)然,此方法也可以擴(kuò)展到查詢(xún)中有任意數(shù)量的短語(yǔ),從而能夠顯著節(jié)約計(jì)算與時(shí)間。
      系統(tǒng)還可適合于使用短語(yǔ)與相關(guān)短語(yǔ)信息來(lái)對(duì)一組搜索結(jié)果中的文獻(xiàn)分等級(jí)。一給定短語(yǔ)的相關(guān)短語(yǔ)信息較佳以諸如位向量的格式存儲(chǔ),其表示每一相關(guān)短語(yǔ)相對(duì)于所述給定短語(yǔ)的有效性。舉例來(lái)說(shuō),一個(gè)相關(guān)短語(yǔ)位向量對(duì)于給定短語(yǔ)的每一個(gè)相關(guān)短語(yǔ)均具有一個(gè)位,這些位根據(jù)相關(guān)短語(yǔ)的預(yù)測(cè)度量(例如,信息增益)來(lái)定序。相關(guān)短語(yǔ)位向量的最有效的位與具有最高預(yù)測(cè)度量的相關(guān)短語(yǔ)相關(guān),并且最低有效位與具有最低預(yù)測(cè)度量的相關(guān)短語(yǔ)相關(guān)。以此方式,對(duì)于一給定文獻(xiàn)與一給定短語(yǔ),相關(guān)短語(yǔ)信息可用來(lái)對(duì)文獻(xiàn)計(jì)分。位向量本身(作為一個(gè)值)的值可用作文獻(xiàn)分?jǐn)?shù),以此方式,含有查詢(xún)短語(yǔ)的高級(jí)相關(guān)短語(yǔ)的文獻(xiàn)比具有低級(jí)相關(guān)短語(yǔ)的文獻(xiàn)更可能在主題上與查詢(xún)相關(guān)。位向量值也可用作更復(fù)雜的計(jì)分函數(shù)中的一個(gè)分量,并且還可以加權(quán)。接著,可以根據(jù)文獻(xiàn)分?jǐn)?shù)來(lái)對(duì)文獻(xiàn)分等級(jí)。
      短語(yǔ)信息也可以用在信息檢索系統(tǒng)中以使用戶(hù)的搜索個(gè)性化。將用戶(hù)模擬為一個(gè)從(例如)所述用戶(hù)曾經(jīng)訪問(wèn)過(guò)(例如,在屏幕上看、打印、存儲(chǔ)等等)的文獻(xiàn)所獲得的短語(yǔ)集合。更特定地說(shuō),給定用戶(hù)訪問(wèn)過(guò)的文獻(xiàn),則在用戶(hù)模型或概況中就會(huì)包括在此文獻(xiàn)中存在的相關(guān)短語(yǔ)。在隨后的搜索期間,使用用戶(hù)模型中的短語(yǔ)來(lái)過(guò)濾搜索查詢(xún)的短語(yǔ)并對(duì)檢索到的文獻(xiàn)的文獻(xiàn)分?jǐn)?shù)加權(quán)。
      短語(yǔ)信息也可以用在信息檢索系統(tǒng)中以創(chuàng)建(例如)包括在一組搜索結(jié)果中的文獻(xiàn)的文獻(xiàn)說(shuō)明。給定一搜索查詢(xún),所述系統(tǒng)識(shí)別出查詢(xún)中存在的短語(yǔ)以及其相關(guān)短語(yǔ)與其擴(kuò)展短語(yǔ)。對(duì)于一給定文獻(xiàn),所述文獻(xiàn)的每一個(gè)句子都具有一個(gè)在句子中存在多少個(gè)查詢(xún)短語(yǔ)、相關(guān)短語(yǔ)與擴(kuò)展短語(yǔ)的計(jì)數(shù)??梢酝ㄟ^(guò)這些計(jì)數(shù)(個(gè)別或組合)來(lái)對(duì)文獻(xiàn)句子分等級(jí),并且選擇一定數(shù)量的最高等級(jí)的句子(例如,五個(gè)句子)來(lái)形成文獻(xiàn)說(shuō)明。當(dāng)搜索結(jié)果中包括所述文獻(xiàn)時(shí),可以接著向用戶(hù)呈現(xiàn)文獻(xiàn)說(shuō)明,使得相對(duì)于查詢(xún)用戶(hù)能夠更好地了解所述文獻(xiàn)。
      進(jìn)一步改進(jìn)這種產(chǎn)生文獻(xiàn)說(shuō)明的方法,以使系統(tǒng)能夠提供反映用戶(hù)興趣所在的個(gè)性化說(shuō)明。如上所述,用戶(hù)模型存儲(chǔ)了識(shí)別用戶(hù)感興趣的相關(guān)短語(yǔ)的信息。此用戶(hù)模型與一列與查詢(xún)短語(yǔ)相關(guān)的短語(yǔ)相交,以識(shí)別這兩組共有的短語(yǔ)。然后,根據(jù)相關(guān)短語(yǔ)信息來(lái)對(duì)所述共有集合定序。接著,使用所得相關(guān)短語(yǔ)集合來(lái)根據(jù)每一文獻(xiàn)中存在的這些相關(guān)短語(yǔ)的實(shí)例數(shù)來(lái)對(duì)文獻(xiàn)的句子分等級(jí)。選擇具有最高數(shù)量的共有相關(guān)短語(yǔ)的多個(gè)句子作為個(gè)性化文獻(xiàn)說(shuō)明。
      當(dāng)對(duì)文獻(xiàn)庫(kù)編制索引(爬行)或當(dāng)處理搜索查詢(xún)時(shí),信息檢索系統(tǒng)也可以使用短語(yǔ)信息來(lái)識(shí)別并去除重復(fù)文獻(xiàn)。對(duì)于一給定文獻(xiàn),所述文獻(xiàn)的每一個(gè)句子都具有一個(gè)在句子中存在多少個(gè)相關(guān)短語(yǔ)的計(jì)數(shù)??梢酝ㄟ^(guò)此計(jì)數(shù)來(lái)對(duì)文獻(xiàn)句子分等級(jí),并且選擇多個(gè)最高等級(jí)的句子(例如,五個(gè)句子)來(lái)形成文獻(xiàn)說(shuō)明。然后,將與文獻(xiàn)相關(guān)的此說(shuō)明存儲(chǔ)(例如)為所述句子的字符串或散列。在編制索引期間,以相同方式處理新爬行的文獻(xiàn)以產(chǎn)生文獻(xiàn)說(shuō)明。新的文獻(xiàn)說(shuō)明可與先前的文獻(xiàn)說(shuō)明匹配(例如,散列),并且如果發(fā)現(xiàn)匹配,那么這個(gè)新的文獻(xiàn)就是一個(gè)重復(fù)文獻(xiàn)。類(lèi)似地,在準(zhǔn)備搜索查詢(xún)的結(jié)果期間,可以處理搜索結(jié)果集合中的文獻(xiàn)以去除重復(fù)文獻(xiàn)。
      本發(fā)明的系統(tǒng)與軟件架構(gòu)、計(jì)算機(jī)程序產(chǎn)品及計(jì)算機(jī)實(shí)施的方法與計(jì)算機(jī)產(chǎn)生的用戶(hù)界面與呈現(xiàn)具有其它實(shí)施例。
      上文僅僅是基于短語(yǔ)的信息檢索系統(tǒng)與方法的一些特征。信息檢索領(lǐng)域的技術(shù)人員將了解,短語(yǔ)信息普遍性的靈活性使其能夠在文獻(xiàn)分析與處理的編制索引、文獻(xiàn)注釋、搜索、分等級(jí)與其它領(lǐng)域中廣泛使用與應(yīng)用。


      圖1是本發(fā)明的一個(gè)實(shí)施例的軟件架構(gòu)的方塊圖。
      圖2說(shuō)明一種用于識(shí)別文獻(xiàn)中的短語(yǔ)的方法。
      圖3說(shuō)明一具有短語(yǔ)窗口與二級(jí)窗口的文獻(xiàn)。
      圖4說(shuō)明一種用于識(shí)別相關(guān)短語(yǔ)的方法。
      圖5說(shuō)明一種對(duì)相關(guān)短語(yǔ)的文獻(xiàn)編制索引的方法。
      圖6說(shuō)明一種基于短語(yǔ)檢索文獻(xiàn)的方法。
      圖7說(shuō)明用于顯示搜索結(jié)果的顯示系統(tǒng)的操作。
      圖8a及圖8b說(shuō)明引用文獻(xiàn)與被引用文獻(xiàn)之間的關(guān)系。
      這些圖式僅僅是為了說(shuō)明的目的而描繪本發(fā)明的一較佳實(shí)施例。從以下討論,所屬技術(shù)領(lǐng)域的技術(shù)人員將容易地了解,在不偏離本文所述的本發(fā)明的原理下,可采用本文所述的結(jié)構(gòu)與方法的替代實(shí)施例。
      具體實(shí)施例方式
      I.系統(tǒng)概述現(xiàn)在參看圖1,其展示了根據(jù)本發(fā)明的一個(gè)實(shí)施例的搜索系統(tǒng)100的一實(shí)施例的軟件架構(gòu)。在此實(shí)施例中,系統(tǒng)包括一索引系統(tǒng)100、一搜索系統(tǒng)120、一顯示系統(tǒng)130與一前端服務(wù)器140。
      索引系統(tǒng)110負(fù)責(zé)識(shí)別文獻(xiàn)中的短語(yǔ)并根據(jù)其短語(yǔ)通過(guò)訪問(wèn)不同網(wǎng)站190與其它文獻(xiàn)庫(kù)來(lái)對(duì)文獻(xiàn)編制索引。前端服務(wù)器140從用戶(hù)端170的用戶(hù)接收查詢(xún),并且向搜索系統(tǒng)120提供那些查詢(xún)。搜索系統(tǒng)120負(fù)責(zé)搜索與搜索查詢(xún)相關(guān)的文獻(xiàn)(搜索結(jié)果),包括識(shí)別搜索查詢(xún)中的任何短語(yǔ),接著使用出現(xiàn)的短語(yǔ)對(duì)搜索結(jié)果中的文獻(xiàn)分等級(jí)以影響等級(jí)次序。搜索系統(tǒng)120向顯示系統(tǒng)130提供搜索結(jié)果。顯示系統(tǒng)130負(fù)責(zé)修正搜索結(jié)果(包括除去接近重復(fù)的文獻(xiàn)和產(chǎn)生文獻(xiàn)的主題說(shuō)明),并將修正后的搜索結(jié)果返回給前端服務(wù)器140,即將結(jié)果提供給用戶(hù)端170。系統(tǒng)100進(jìn)一步包括一用于存儲(chǔ)關(guān)于文獻(xiàn)的索引信息的索引150與一用于存儲(chǔ)短語(yǔ)與相關(guān)統(tǒng)計(jì)信息的短語(yǔ)數(shù)據(jù)存儲(chǔ)160。
      就本申請(qǐng)案而言,“文獻(xiàn)”應(yīng)理解為可以由搜索引擎編制索引并檢索的任何類(lèi)型的媒體,包括網(wǎng)頁(yè)文獻(xiàn)、圖像、多媒體文件、文本文獻(xiàn)、PDF或其它圖像格式的文件等等。一個(gè)文獻(xiàn)可以具有一或多個(gè)頁(yè)、分區(qū)、段或其他適合其內(nèi)容與類(lèi)型的組成部分。同等地,文獻(xiàn)可以稱(chēng)為“頁(yè)”,其常用來(lái)指互聯(lián)網(wǎng)上的文獻(xiàn)。使用通用術(shù)語(yǔ)“文獻(xiàn)”并不意味對(duì)本發(fā)明的范疇進(jìn)行任何限制。搜索系統(tǒng)100可對(duì)大的文獻(xiàn)語(yǔ)料庫(kù)進(jìn)行操作,如互聯(lián)網(wǎng)與萬(wàn)維網(wǎng),但其同樣可用于更有限的集合中,如用于圖書(shū)館或私營(yíng)企業(yè)的文獻(xiàn)庫(kù)。在任一情形下應(yīng)了解,文獻(xiàn)一般分布在許多不同的計(jì)算機(jī)系統(tǒng)與站點(diǎn)中。于是,不喪失一般性,不管格式或位置(例如,哪個(gè)網(wǎng)站或數(shù)據(jù)庫(kù)),將文獻(xiàn)統(tǒng)稱(chēng)為語(yǔ)料庫(kù)或文獻(xiàn)庫(kù)。每個(gè)文獻(xiàn)都具有一個(gè)唯一識(shí)別所述文獻(xiàn)的相伴識(shí)別符;所述識(shí)別符較佳為URL,但也可以使用其它類(lèi)型的識(shí)別符(例如,文獻(xiàn)號(hào))。在本揭示中,假定使用URL來(lái)識(shí)別文獻(xiàn)。
      II.索引系統(tǒng)在一實(shí)施例中,索引系統(tǒng)110提供三個(gè)主要功能性操作1)識(shí)別短語(yǔ)與相關(guān)短語(yǔ),2)關(guān)于短語(yǔ)對(duì)文獻(xiàn)編制索引,及3)產(chǎn)生并維持基于短語(yǔ)的分類(lèi)。所屬技術(shù)領(lǐng)域的技術(shù)人員將了解,在傳統(tǒng)索引功能的支持下,索引系統(tǒng)110還將執(zhí)行其它功能,因此本文不再進(jìn)一步說(shuō)明這些其它操作。索引系統(tǒng)110對(duì)短語(yǔ)數(shù)據(jù)的索引150與數(shù)據(jù)儲(chǔ)存庫(kù)160進(jìn)行操作。下文進(jìn)一步說(shuō)明這些數(shù)據(jù)儲(chǔ)存庫(kù)。
      1.短語(yǔ)識(shí)別索引系統(tǒng)110的短語(yǔ)識(shí)別操作識(shí)別文獻(xiàn)庫(kù)中的“好”與“壞”短語(yǔ),這些短語(yǔ)有助于對(duì)文獻(xiàn)編制索引并搜索。一方面,好短語(yǔ)是那些往往出現(xiàn)在文獻(xiàn)庫(kù)中超過(guò)某一百分比的文獻(xiàn)中的短語(yǔ),且/或表示為在所述文獻(xiàn)中具有不同的外觀,如由置標(biāo)標(biāo)簽或其它形態(tài)、格式或語(yǔ)法標(biāo)記來(lái)定界。好短語(yǔ)的另一方面是其能夠預(yù)測(cè)其它好短語(yǔ),而不僅僅是出現(xiàn)在詞典中的字序列。舉例來(lái)說(shuō),短語(yǔ)“President of the United States(美國(guó)總統(tǒng))”是一個(gè)預(yù)測(cè)諸如“George Bush(喬治·布什)”與“Bill Clinton(比爾·克林頓)”等其它短語(yǔ)的短語(yǔ)。然而,諸如“fell down the stairs”或“top of the morning”、“out of the blue”的其它短語(yǔ)不具預(yù)測(cè)性,這是因?yàn)橄筮@些的成語(yǔ)與習(xí)語(yǔ)往往與許多其它不同且無(wú)關(guān)的短語(yǔ)一起出現(xiàn)。因此,短語(yǔ)識(shí)別階段確定哪些短語(yǔ)是好短語(yǔ)而哪些是壞短語(yǔ)(即,缺乏預(yù)測(cè)能力)。
      現(xiàn)在參看圖2,短語(yǔ)識(shí)別過(guò)程具有以下功能性階段200收集可能且好的短語(yǔ),以及所述短語(yǔ)的頻率與同時(shí)出現(xiàn)的統(tǒng)計(jì)值;202基于頻率統(tǒng)計(jì)值將可能短語(yǔ)分為好短語(yǔ)或壞短語(yǔ);204基于從同時(shí)出現(xiàn)的統(tǒng)計(jì)值獲得的預(yù)測(cè)性度量來(lái)精簡(jiǎn)好短語(yǔ)列表。
      現(xiàn)在將進(jìn)一步詳細(xì)地說(shuō)明這些階段的每個(gè)階段。
      第一階段200是這樣一個(gè)過(guò)程,通過(guò)該過(guò)程,索引系統(tǒng)110爬行(crawl)文獻(xiàn)庫(kù)中的一組文獻(xiàn),隨時(shí)間形成所述文獻(xiàn)庫(kù)的多個(gè)重復(fù)分區(qū)。每遍處理一個(gè)分區(qū)。每遍爬行的文獻(xiàn)數(shù)可能變化,較佳為每個(gè)分區(qū)約1,000,000個(gè)文獻(xiàn)。較佳僅處理每個(gè)分區(qū)中先前未爬行的文獻(xiàn),直到處理完所有文獻(xiàn),或滿(mǎn)足某一其它終止準(zhǔn)則。實(shí)際上,由于新文獻(xiàn)不斷地添加到文獻(xiàn)庫(kù)中,所以爬行不斷繼續(xù)。索引系統(tǒng)110對(duì)爬行后的每個(gè)文獻(xiàn)采取下列步驟。
      以n的短語(yǔ)窗口長(zhǎng)度遍歷所述文獻(xiàn)的各字,其中n是期望的最大短語(yǔ)長(zhǎng)度。窗口的長(zhǎng)度一般為至少2項(xiàng),較佳為4或5項(xiàng)(字)。短語(yǔ)較佳包括短語(yǔ)窗口中的所有字,包括那些否則會(huì)被表征為結(jié)束字的字,如“a”、“the”等等。短語(yǔ)窗口可以由行尾、段落返回、置標(biāo)標(biāo)簽或其他內(nèi)容或格式變化的標(biāo)志來(lái)終止。
      圖3說(shuō)明遍歷期間文獻(xiàn)300的一部分,其展示短語(yǔ)窗口302從字“stock”開(kāi)始并向右擴(kuò)展5個(gè)字。窗口302中的第一個(gè)字是候選短語(yǔ)i,并且序列i+1、i+2、i+3、i+4與i+5中的每個(gè)短語(yǔ)同樣為候選短語(yǔ)。因此,在此實(shí)例中,候選短語(yǔ)為“stock”、“stock dogs”、“stock dogs for”、“stock dogsfor the”、“stock dogs for the Basque”與“stock dogs for the Basqueshepherds”。
      在每個(gè)短語(yǔ)窗口302中,依次檢查每個(gè)候選短語(yǔ)以確定其是否已經(jīng)存在于好短語(yǔ)列表208或可能短語(yǔ)列表206中。如果候選短語(yǔ)未出現(xiàn)在好短語(yǔ)列表208或可能短語(yǔ)列表206中,那就確定所述候選短語(yǔ)為“壞”短語(yǔ)并將其跳過(guò)。
      如果候選短語(yǔ)出現(xiàn)在好短語(yǔ)列表208中,如款目gj,那就更新短語(yǔ)gj的索引150款目以包括所述文獻(xiàn)(例如,其URL或其它文獻(xiàn)識(shí)別符),以指示此候選短語(yǔ)gj出現(xiàn)在當(dāng)前文獻(xiàn)中。短語(yǔ)gj的索引150中的款目(或項(xiàng))稱(chēng)作短語(yǔ)gj的記入列表。記入列表包括其中出現(xiàn)短語(yǔ)的一列文獻(xiàn)d(通過(guò)其文獻(xiàn)識(shí)別符,例如文獻(xiàn)號(hào)或者URL)。
      此外,如下文進(jìn)一步解釋?zhuān)峦瑫r(shí)出現(xiàn)矩陣212。在最初的第一遍中,好的與壞的列表都將為空,因此往往會(huì)將大多數(shù)短語(yǔ)添加到可能短語(yǔ)列表206中。
      如果候選短語(yǔ)沒(méi)有出現(xiàn)在好短語(yǔ)列表208中,那就將其添加到可能短語(yǔ)列表206中,除非其中已經(jīng)存在所述候短語(yǔ)??赡芏陶Z(yǔ)列表206上的每個(gè)款目p都具有三個(gè)相伴計(jì)數(shù)P(p)存在可能短語(yǔ)的文獻(xiàn)數(shù);S(p)可能短語(yǔ)的所有實(shí)例數(shù);及M(p)可能短語(yǔ)的引起注意的實(shí)例數(shù)。在可能短語(yǔ)與文獻(xiàn)中的相鄰內(nèi)容的不同之處在于語(yǔ)法或格式標(biāo)記,例如黑體或下劃線(xiàn)或?yàn)槌溄踊蛞?hào)中的錨文本時(shí),可能短語(yǔ)的實(shí)例“引起注意”。這些(與其它)區(qū)別外觀由各種HTML置標(biāo)語(yǔ)言標(biāo)簽與語(yǔ)法標(biāo)記來(lái)指示。當(dāng)一個(gè)短語(yǔ)被放在好短語(yǔ)列表208中時(shí),所述短語(yǔ)的這些統(tǒng)計(jì)值仍被保留。
      除了各列表外,還保留好短語(yǔ)的同時(shí)出現(xiàn)矩陣212(G)。矩陣G具有mxm維,其中m是好短語(yǔ)的數(shù)量。矩陣中的每個(gè)款目G(j,k)代表一對(duì)好短語(yǔ)(gj,gk)。同時(shí)出現(xiàn)矩陣212在邏輯上(但在物理上不一定)保留每對(duì)好短語(yǔ)(gj,gk)關(guān)于二級(jí)窗口304的三個(gè)獨(dú)立計(jì)數(shù),所述窗口304的中心位于當(dāng)前字i,并且擴(kuò)展+/-h個(gè)字。在一實(shí)施例中,例如如圖3所述,二級(jí)窗口304有30個(gè)字。因此,同時(shí)出現(xiàn)矩陣212保留R(j,k)原始的同時(shí)出現(xiàn)計(jì)數(shù),即短語(yǔ)gj與短語(yǔ)gk一起出現(xiàn)在二級(jí)窗口304中的次數(shù);D(j,k)分離的引起注意的計(jì)數(shù),即短語(yǔ)gj或短語(yǔ)gk作為特異文本出現(xiàn)在二級(jí)窗口中的次數(shù);及C(j,k)連接的引起注意的計(jì)數(shù),即短語(yǔ)gj與短語(yǔ)gk同時(shí)作為特異文本出現(xiàn)在二級(jí)窗口中的次數(shù)。使用連接的引起注意的計(jì)數(shù)尤其有利于避免短語(yǔ)(例如,版權(quán)通知)頻繁出現(xiàn)在側(cè)邊欄、頁(yè)腳或頁(yè)眉中并因此實(shí)際上無(wú)法預(yù)測(cè)其它文本的情形。
      參看圖3的實(shí)例,假定“stock dogs”以及短語(yǔ)“Australian Shepherd”與“Australian Shepard Club of America”都位于好短語(yǔ)列表208上。后兩個(gè)短語(yǔ)出現(xiàn)在二級(jí)窗口304內(nèi)當(dāng)前短語(yǔ)“stock dogs”周?chē)?。然而,短語(yǔ)“Australian Shepherd Club of America”作為網(wǎng)站的超鏈接(由下劃線(xiàn)指示)的錨文本出現(xiàn)。因此,所述對(duì){“stock dogs”,“Australian Shepherd”}的原始同時(shí)出現(xiàn)計(jì)數(shù)遞增,并且{“stock dogs”,“Australian ShepherdClub of America”}的原始同時(shí)出現(xiàn)計(jì)數(shù)和分離的引起注意的計(jì)數(shù)都遞增,這是因?yàn)楹笳呤亲鳛樘禺愇谋境霈F(xiàn)的。
      對(duì)分區(qū)中的每個(gè)文獻(xiàn)重復(fù)以序列窗口302與二級(jí)窗口304遍歷每個(gè)文獻(xiàn)的過(guò)程。
      在遍歷完分區(qū)中的文獻(xiàn)后,編制索引操作的下一階段就是從可能短語(yǔ)列表206更新202好短語(yǔ)列表208。如果可能短語(yǔ)列表206上的一個(gè)可能短語(yǔ)p的出現(xiàn)頻率與出現(xiàn)所述短語(yǔ)的文獻(xiàn)數(shù)指示其足夠用作語(yǔ)義上有意義的短語(yǔ),那就將所述短語(yǔ)移到好短語(yǔ)列表208中。
      在一實(shí)施例中,其測(cè)試如下。從可能短語(yǔ)列表206取一個(gè)可能短語(yǔ)p并且將其放在好短語(yǔ)列表208中,前提條件是a)P(p)>10并且S(p)>20(含有p的文獻(xiàn)數(shù)大于10,并且短語(yǔ)p的出現(xiàn)次數(shù)大于20);或者b)M(p)>5(短語(yǔ)p的引起注意的實(shí)例數(shù)大于5)。
      這些閾值與分區(qū)中的文獻(xiàn)數(shù)成比例;例如,如果一個(gè)分區(qū)中爬行2,000,000個(gè)文獻(xiàn),那閾值大約加倍。當(dāng)然,所屬技術(shù)領(lǐng)域的技術(shù)人員將了解,這些閾值的具體值或測(cè)試其的邏輯可隨需要而變化。
      如果短語(yǔ)p沒(méi)有資格進(jìn)入好短語(yǔ)列表208,則檢查其成為壞短語(yǔ)的資格。短語(yǔ)p是一個(gè)壞短語(yǔ)的條件是a)含有短語(yǔ)的文獻(xiàn)數(shù)P(p)<2;并且
      b)短語(yǔ)的引起注意的實(shí)例數(shù)M(p)=0。
      這些條件指示所述短語(yǔ)既不頻繁,也不能用來(lái)指示有效內(nèi)容,同樣地,這些閾值可與分區(qū)中的文獻(xiàn)數(shù)成比例。
      應(yīng)注意,如上所述,除了多字短語(yǔ)外,好短語(yǔ)列表208自然將包括個(gè)別字作為短語(yǔ)。這是因?yàn)槎陶Z(yǔ)窗口302中的每個(gè)第一字總是一個(gè)候選短語(yǔ),并且適當(dāng)?shù)膶?shí)例計(jì)數(shù)將累積。因此,索引系統(tǒng)110可以自動(dòng)地對(duì)個(gè)別字(即,具有單個(gè)字的短語(yǔ))與多字短語(yǔ)編制索引。好短語(yǔ)列表208也將比基于m個(gè)短語(yǔ)的所有可能組合的理論最大值短很多。在典型實(shí)施例中,好短語(yǔ)列表208將包括約6.5×105個(gè)短語(yǔ)。由于系統(tǒng)只需要明了可能短語(yǔ)和好短語(yǔ),所以不需要存儲(chǔ)壞短語(yǔ)列表。
      通過(guò)最后一遍檢查文獻(xiàn)庫(kù),由于大語(yǔ)料庫(kù)中短語(yǔ)使用的預(yù)期分布,所以可能短語(yǔ)的列表將相對(duì)較短。因此,如果在第10遍(例如,10,000,000個(gè)文獻(xiàn)),一個(gè)短語(yǔ)第一次出現(xiàn),那么其在那次中是極不可能成為一個(gè)好短語(yǔ)的。其可能是剛開(kāi)始使用的新短語(yǔ),因此在隨后爬行中變得越來(lái)越常見(jiàn)。在那種狀況下,其相應(yīng)計(jì)數(shù)將增大,并且可能最終滿(mǎn)足成為一個(gè)好短語(yǔ)的閾值。
      編制索引操作的第三階段是使用從同時(shí)出現(xiàn)矩陣212獲得的預(yù)測(cè)性度量來(lái)精簡(jiǎn)204好短語(yǔ)列表208。不經(jīng)過(guò)精減,好短語(yǔ)列表208很可能包括許多盡管合理地出現(xiàn)在字典中但本身無(wú)法充分預(yù)測(cè)其它短語(yǔ)的存在或本身是更長(zhǎng)短語(yǔ)的子序列的短語(yǔ)。除去這些較弱的好短語(yǔ)后更可能有力地獲得好短語(yǔ)。為了識(shí)別好短語(yǔ),使用一預(yù)測(cè)性度量,其表示給定一短語(yǔ)的存在,在文獻(xiàn)中出現(xiàn)另一短語(yǔ)的可能性增加。在一實(shí)施例中,此完成如下。
      如上所述,同時(shí)出現(xiàn)矩陣212是存儲(chǔ)與好短語(yǔ)相關(guān)聯(lián)的數(shù)據(jù)的m×m矩陣。矩陣中的每行j代表好短語(yǔ)gi,并且每列k代表好短語(yǔ)gk。對(duì)于每個(gè)好短語(yǔ)gj,計(jì)算期望值E(gj)。期望值E是庫(kù)中預(yù)期含有g(shù)j的文獻(xiàn)的百分比。例如,其計(jì)算為含有g(shù)j的文獻(xiàn)數(shù)與庫(kù)中已爬行的文獻(xiàn)總數(shù)T的比率P(j)/T。
      如上所述,當(dāng)gj每次出現(xiàn)在文獻(xiàn)中時(shí),即更新含有g(shù)j的文獻(xiàn)數(shù)。每次gj的計(jì)數(shù)增加時(shí)或在此第三階段期間,可更新E(gj)的值。
      接著,對(duì)于每個(gè)其它好短語(yǔ)gk(例如,矩陣的各列),確定gj是否預(yù)測(cè)了gk。gj的預(yù)測(cè)性度量的確定如下i)計(jì)算期望值E(gk)。如果gj與gk是無(wú)關(guān)短語(yǔ),則其預(yù)期同時(shí)出現(xiàn)率E(j,k)為E(gj)*E(gk);ii)計(jì)算gj與gk的實(shí)際同時(shí)出現(xiàn)率A(j,k)。即將原始同時(shí)出現(xiàn)計(jì)數(shù)R(j,k)除以文獻(xiàn)總數(shù)T;iii)據(jù)說(shuō)當(dāng)實(shí)際同時(shí)出現(xiàn)率A(j,k)超過(guò)預(yù)期同時(shí)出現(xiàn)率E(j,k)一臨界量時(shí),gj預(yù)測(cè)gk。
      在一實(shí)施例中,預(yù)測(cè)性度量為信息增益。因此,當(dāng)在短語(yǔ)gj面前另一短語(yǔ)gk的信息增益I超過(guò)一閾值時(shí),短語(yǔ)gj預(yù)測(cè)短語(yǔ)gk。在一實(shí)施例中,此計(jì)算如下I(j,k)=A(j,k)/E(j,k)。
      并且當(dāng)滿(mǎn)足下列條件時(shí),好短語(yǔ)gj預(yù)測(cè)好短語(yǔ)gkI(j,k)>信息增益閾值。
      在一實(shí)施例中,信息增益閾值為1.5,但較佳在1.1與1.7之間。將閾值升高到超過(guò)1.0是為了減少兩個(gè)原本無(wú)關(guān)的短語(yǔ)同時(shí)出現(xiàn)超過(guò)隨機(jī)預(yù)測(cè)的可能性。
      如上所述,相對(duì)于給定行j,對(duì)矩陣G的每列k重復(fù)信息增益的計(jì)算。在一行完成后,如果好短語(yǔ)gk中無(wú)一短語(yǔ)的信息增益超過(guò)信息增益閾值,那這就意味著短語(yǔ)gj無(wú)法預(yù)測(cè)任何其它好短語(yǔ)。在那種狀況下,從好短語(yǔ)列表208除去gj,其基本上就變?yōu)閴亩陶Z(yǔ)。注意,不除去短語(yǔ)gj的列j,因?yàn)檫@個(gè)短語(yǔ)本身可由其它好短語(yǔ)來(lái)預(yù)測(cè)。
      當(dāng)評(píng)估完同時(shí)出現(xiàn)矩陣212中的所有行后,結(jié)束這個(gè)步驟。
      該階段的最后一個(gè)步驟是精簡(jiǎn)好短語(yǔ)列表208以除去不完整短語(yǔ)。一個(gè)不完整短語(yǔ)是一個(gè)僅預(yù)測(cè)其擴(kuò)展短語(yǔ)并且從所述短語(yǔ)的最左側(cè)(即,短語(yǔ)的開(kāi)始處)開(kāi)始的短語(yǔ)。短語(yǔ)p的“擴(kuò)展短語(yǔ)”是一個(gè)以短語(yǔ)p開(kāi)始的超序列。舉例來(lái)說(shuō),短語(yǔ)“President of”預(yù)測(cè)“President of the United States”、“President of Mexico”、“President of AT&amp;T”等等。由于所有后面這些短語(yǔ)都是以“President of”開(kāi)始并且是其超序列,所以他們都是“Presidentof”的擴(kuò)展短語(yǔ)。
      因此,保留在好短語(yǔ)列表208上的每個(gè)短語(yǔ)gj都將基于前述信息增益閾值來(lái)預(yù)測(cè)一定量的其它短語(yǔ)?,F(xiàn)在,對(duì)于每個(gè)短語(yǔ)gj,索引系統(tǒng)110執(zhí)行其與其所預(yù)測(cè)的每個(gè)短語(yǔ)gk的字符串匹配。字符串匹配測(cè)試每個(gè)預(yù)測(cè)短語(yǔ)gk是否是短語(yǔ)gj的擴(kuò)展短語(yǔ)。如果所有預(yù)測(cè)短語(yǔ)gk都是短語(yǔ)gj的擴(kuò)展短語(yǔ),那么gj就不完整,將其從好短語(yǔ)列表208中除去并添加到不完整短語(yǔ)列表216中。因此,如果存在至少一個(gè)不是gj的擴(kuò)展短語(yǔ)的短語(yǔ)gk,那gj就是完整的,并且會(huì)保留在好短語(yǔ)列表208中。于是舉例來(lái)說(shuō),當(dāng)“President of the United”所預(yù)測(cè)的唯一其它短語(yǔ)是“President of theUnited States”并且這個(gè)預(yù)測(cè)短語(yǔ)是所述短語(yǔ)的擴(kuò)展短語(yǔ)時(shí),“Presidentof the United”就是一個(gè)不完整短語(yǔ)。
      不完整短語(yǔ)列表216本身在實(shí)際搜索過(guò)程中非常有用。當(dāng)接收到搜索查詢(xún)時(shí),可將其與不完整列表216比較。如果所述查詢(xún)(或其一部分)與所述列表中的一個(gè)款目匹配,那搜索系統(tǒng)120就可以查找這個(gè)不完整短語(yǔ)的最可能的擴(kuò)展短語(yǔ)(給定不完整短語(yǔ),具有最高信息增益的擴(kuò)展短語(yǔ)),并且向用戶(hù)建議此短語(yǔ)或?qū)U(kuò)展短語(yǔ)自動(dòng)搜索。例如,如果搜索查詢(xún)是“Presidentof the United”,那搜索系統(tǒng)120可以自動(dòng)向用戶(hù)建議“President of theUnited States”作為搜索查詢(xún)。
      在完成編制索引過(guò)程的最后一個(gè)階段后,好短語(yǔ)列表208將含有在語(yǔ)料庫(kù)中發(fā)現(xiàn)的大量好短語(yǔ)。這些好短語(yǔ)中的每一個(gè)短語(yǔ)都將預(yù)測(cè)至少一個(gè)不是其擴(kuò)展短語(yǔ)的其它短語(yǔ)。即,每一個(gè)好短語(yǔ)都以足夠的頻率使用,并且獨(dú)立代表語(yǔ)料庫(kù)中所表示的有意義的概念或思想。與使用預(yù)定或人工選擇的短語(yǔ)的現(xiàn)有系統(tǒng)不同,好短語(yǔ)列表反映了語(yǔ)料庫(kù)中正在實(shí)際使用的短語(yǔ)。此外,由于新文獻(xiàn)添加到文獻(xiàn)庫(kù)中使得周期性地重復(fù)上述爬行與編制索引過(guò)程,所以索引系統(tǒng)110在新短語(yǔ)進(jìn)入詞典時(shí)自動(dòng)檢測(cè)所述新短語(yǔ)。
      2.識(shí)別相關(guān)短語(yǔ)與相關(guān)短語(yǔ)的群集參看圖4,相關(guān)短語(yǔ)識(shí)別過(guò)程包括以下功能性操作400識(shí)別具有高信息增益值的相關(guān)短語(yǔ);402識(shí)別相關(guān)短語(yǔ)的群集;404存儲(chǔ)群集位向量與群集號(hào)。
      現(xiàn)在詳細(xì)描述這些操作中的每一個(gè)操作。
      首先回想,同時(shí)出現(xiàn)矩陣212含有好短語(yǔ)gj,其中每一個(gè)短語(yǔ)都預(yù)測(cè)至少一個(gè)具有大于信息增益閾值的信息增益的其它好短語(yǔ)gk。然后,為了識(shí)別400相關(guān)短語(yǔ),對(duì)于每一對(duì)好短語(yǔ)(gj,gk),將信息增益與相關(guān)短語(yǔ)閾值(例如,100)進(jìn)行比較。即,當(dāng)I(gj,gk)>100時(shí),gj與gk是相關(guān)短語(yǔ)。
      使用此高閾值來(lái)識(shí)別很好地超過(guò)統(tǒng)計(jì)期望率的好短語(yǔ)的同時(shí)出現(xiàn)。在統(tǒng)計(jì)上,其意指短語(yǔ)gj與gk同時(shí)出現(xiàn)率超過(guò)預(yù)期同時(shí)出現(xiàn)率的100倍。舉例來(lái)說(shuō),給定文獻(xiàn)中的短語(yǔ)“Monica Lewinsky”,如果短語(yǔ)“Bill Clinton”在相同文獻(xiàn)中更可能出現(xiàn)率是其100倍,則短語(yǔ)“Bill Clinton”可能出現(xiàn)在任意隨機(jī)選擇的文獻(xiàn)中。因?yàn)槌霈F(xiàn)率是100∶1,所以另一種表述方式是預(yù)測(cè)精確度為99.999%。
      因此,將小于相關(guān)短語(yǔ)閾值的任何款目(gj,gk)調(diào)零,以指示短語(yǔ)gj,gk不相關(guān)。現(xiàn)在,同時(shí)出現(xiàn)矩陣212中任何剩余款目都指示所有相關(guān)短語(yǔ)。
      接著,通過(guò)信息增益值I(gj,gk)來(lái)對(duì)同時(shí)出現(xiàn)矩陣212的各行g(shù)j中的列g(shù)k排序,使得首先列出具有最高信息增益的相關(guān)短語(yǔ)gk。因此,此排序?yàn)橐唤o定短語(yǔ)gj識(shí)別出按照信息增益哪些其它短語(yǔ)最可能相關(guān)。
      下一步驟是確定402哪些相關(guān)短語(yǔ)一起形成相關(guān)短語(yǔ)群集。群集是相關(guān)短語(yǔ)的集合,其中每個(gè)短語(yǔ)相對(duì)于至少一個(gè)其它短語(yǔ)而具有高信息增益。在一實(shí)施例中,群集的識(shí)別如下。
      在矩陣的每行g(shù)j中,將存在一或多個(gè)與短語(yǔ)gj相關(guān)的其它短語(yǔ)。這個(gè)集合就是相關(guān)短語(yǔ)集合Rj,其中R={gk,gl...gm)。
      對(duì)于Rj中的每個(gè)相關(guān)短語(yǔ)m,索引系統(tǒng)110確定R中的各其它相關(guān)短語(yǔ)是否也與gj相關(guān)。因此,如果I(gk,gl)也非零,那gj、gk與gl是群集的一部分。對(duì)R中的每一對(duì)(gl,gm)重復(fù)此群集測(cè)試。
      舉例來(lái)說(shuō),假定好短語(yǔ)“Bill Clinton”與短語(yǔ)“President”、“MonicaLewinsky”相關(guān),這是因?yàn)槊恳粋€(gè)這些短語(yǔ)相對(duì)于“Bill Clinton”的信息增益都超過(guò)相關(guān)短語(yǔ)閾值。另外,假定短語(yǔ)“Monica Lewinsky”與短語(yǔ)“pursedesigner”相關(guān)。這些短語(yǔ)于是形成集合R。為確定群集,索引系統(tǒng)110通過(guò)確定這些短語(yǔ)的相應(yīng)信息增益來(lái)評(píng)估每個(gè)短語(yǔ)相對(duì)于其它短語(yǔ)的信息增益。因此,索引系統(tǒng)110確定R中的所有對(duì)短語(yǔ)的信息增益I(“President”,“Monica Lewinsky”)、I(“President”,“purse designer”)等等。在此實(shí)例中,“Bill Clinton”、“President”與“Monica Lewinsky”形成一群集,“Bill Clinton”與“President”形成第二群集,并且“Monica Lewinsky”與“purse designer”形成第三群集,并且“Monica Lewinsky”、“BillClinton”與“purse designer”形成第四群集。這是因?yàn)楸M管“Bill Clinton”沒(méi)有足夠的信息增益來(lái)預(yù)測(cè)“purse designer”,但“Monica Lewinsky”仍預(yù)測(cè)這兩個(gè)短語(yǔ)。
      為記錄404群集信息,向每一個(gè)群集指派一個(gè)唯一的群集號(hào)(群集ID)。然后,結(jié)合每一個(gè)好短語(yǔ)gj一起記錄此信息。
      在一實(shí)施例中,群集號(hào)是由群集位向量來(lái)確定,群集位向量還指示短語(yǔ)之間的正交關(guān)系。群集位向量是長(zhǎng)度為n的位的序列,其中n是好短語(yǔ)列表208中的好短語(yǔ)的數(shù)量。對(duì)于一給定好短語(yǔ)gj,位位置對(duì)應(yīng)于gj的排序后的相關(guān)短語(yǔ)R。如果R中的相關(guān)短語(yǔ)gk與短語(yǔ)gj在同一個(gè)群集中,則設(shè)定一個(gè)位。更一般來(lái)說(shuō),這意味著如果在gj與gk之間的任一方向上存在信息增益,則設(shè)定群集位向量中的相應(yīng)位。
      于是,群集號(hào)就是所得位串的值。此實(shí)施例具有這樣一個(gè)特性,即具有多向或單向信息增益的相關(guān)短語(yǔ)出現(xiàn)在相同群集中。
      如下是使用上述短語(yǔ)的群集位向量的一個(gè)實(shí)例

      于是概述之,在此過(guò)程后,將為每一個(gè)好短語(yǔ)gj識(shí)別一組相關(guān)短語(yǔ)R,其按照信息增益I(gj,gk)從高到低的次序排列。此外,對(duì)于每一個(gè)好短語(yǔ)gj,都將有一個(gè)群集位向量,其值是一個(gè)用于識(shí)別短語(yǔ)gj所屬的主要群集的群集號(hào),且其正交值(對(duì)于每個(gè)位位置為1或0)指示R中的相關(guān)短語(yǔ)中哪個(gè)短語(yǔ)與gj處于共同群集中。因此,在上述實(shí)例中,“Bill Clinton”、“President”與“Monica Lewinsky”處于基于短語(yǔ)“Bill Clinton”的行中的位的值的群集14中。
      為存儲(chǔ)此信息,可使用兩種基本表示法。第一,如上所述,可將信息存儲(chǔ)在同時(shí)出現(xiàn)矩陣212中,其中款目G[行j,列k]=(I(j,k),群集號(hào),群集位向量)。
      或者,可避免矩陣表示法,而將所有信息存儲(chǔ)在好短語(yǔ)列表208中,其中每行代表一個(gè)好短語(yǔ)gj;短語(yǔ)行j=列表[短語(yǔ)gk,(I(j,k),群集號(hào),群集位向量)]。
      此方法提供了一種有用的群集組織法。首先,此方法不是一個(gè)嚴(yán)格并且通常任意界定的主題與概念的分級(jí),而是認(rèn)可相關(guān)短語(yǔ)所示的主題形成一個(gè)復(fù)雜的關(guān)系表,其中某些短語(yǔ)與許多其它短語(yǔ)相關(guān),并且某些短語(yǔ)的范圍更有限,并且其中各關(guān)系可能是相互的(每個(gè)短語(yǔ)預(yù)測(cè)其它短語(yǔ))或單向的(一個(gè)短語(yǔ)預(yù)測(cè)其它短語(yǔ),但反之則不可)。結(jié)果是可將群集表征成對(duì)每個(gè)好短語(yǔ)來(lái)說(shuō)是“局部”的,于是某些群集將由于具有一或多個(gè)共同的相關(guān)短語(yǔ)而重疊。
      于是對(duì)于一個(gè)給定的好短語(yǔ)gj,相關(guān)短語(yǔ)按照信息增益的定序提供了一種用來(lái)命名短語(yǔ)群集的分類(lèi)法群集名是群集中具有最高信息增益的相關(guān)短語(yǔ)的名稱(chēng)。
      上述方法提供了一種用于識(shí)別出現(xiàn)在文獻(xiàn)庫(kù)中的有效短語(yǔ)的非常有力的方式以及這些相關(guān)短語(yǔ)在實(shí)際實(shí)施中一起用在自然“群集”中的方式。因此,對(duì)相關(guān)短語(yǔ)的此數(shù)據(jù)驅(qū)動(dòng)群集避免了許多系統(tǒng)中常見(jiàn)的相關(guān)術(shù)語(yǔ)與概念的任何人工導(dǎo)向的“編輯”選擇所固有的偏差。
      3.以短語(yǔ)與相關(guān)短語(yǔ)對(duì)文獻(xiàn)編制索引給定包括關(guān)于相關(guān)短語(yǔ)與群集的信息的好短語(yǔ)列表208,索引系統(tǒng)110的下一個(gè)功能性操作是關(guān)于好短語(yǔ)與群集來(lái)對(duì)文獻(xiàn)庫(kù)中的文獻(xiàn)編制索引,并將更新后的信息存儲(chǔ)在索引150中。圖5說(shuō)明此過(guò)程,其中包括編制文獻(xiàn)索引的下列功能性階段500將文獻(xiàn)記入在文獻(xiàn)中所發(fā)現(xiàn)的好短語(yǔ)的記入列表中;502更新相關(guān)短語(yǔ)與二級(jí)相關(guān)短語(yǔ)的實(shí)例計(jì)數(shù)與相關(guān)短語(yǔ)位向量;504以相關(guān)短語(yǔ)信息來(lái)注釋文獻(xiàn);506根據(jù)記入列表大小來(lái)對(duì)索引款目重新定序。
      現(xiàn)在將更詳細(xì)地描述這些階段。
      如上所述,遍歷或爬行一文獻(xiàn)集合;此可以是相同或不同的文獻(xiàn)集合。對(duì)于一給定文獻(xiàn)d,以上述方式從位置i開(kāi)始,以長(zhǎng)度為n的序列窗口302逐字遍歷500文獻(xiàn)。
      在一給定短語(yǔ)窗口302中,從位置i開(kāi)始識(shí)別窗口中的所有好短語(yǔ)。每個(gè)好短語(yǔ)都表示為gi。因此,g1是第一個(gè)好短語(yǔ),g2是第二個(gè)好短語(yǔ),依此類(lèi)推。
      對(duì)于每個(gè)好短語(yǔ)gi(實(shí)例g1“President”與g4“President of ATT”),將文獻(xiàn)識(shí)別符(例如,URL)記入到索引150中的好短語(yǔ)gi的記入列表中。此更新識(shí)別出,在此特定文獻(xiàn)中出現(xiàn)好短語(yǔ)gi。
      在一實(shí)施例中,短語(yǔ)gj的記入列表采用以下邏輯形式短語(yǔ)gj列表(文獻(xiàn)d,[列表相關(guān)短語(yǔ)計(jì)數(shù)][相關(guān)短語(yǔ)信息])。
      對(duì)于每個(gè)短語(yǔ)gj,都有一個(gè)出現(xiàn)所述短語(yǔ)的文獻(xiàn)d列表。對(duì)于每個(gè)文獻(xiàn),都有一個(gè)同樣出現(xiàn)在文獻(xiàn)d中的短語(yǔ)gj的相關(guān)短語(yǔ)R的出現(xiàn)次數(shù)的計(jì)數(shù)列表。
      在一實(shí)施例中,相關(guān)短語(yǔ)信息是一個(gè)相關(guān)短語(yǔ)位向量。此位向量可表征為一個(gè)“雙位”向量,這是因?yàn)閷?duì)于每個(gè)相關(guān)短語(yǔ)gk,都有兩個(gè)位位置gk-1與gk-2。第一位位置存儲(chǔ)一指示在文獻(xiàn)d中是否存在相關(guān)短語(yǔ)gk的標(biāo)號(hào)(即,文獻(xiàn)d中的gk的計(jì)數(shù)大于0)。第二位位置存儲(chǔ)一指示在文獻(xiàn)d中是否也存在短語(yǔ)gk的相關(guān)短語(yǔ)gl的標(biāo)號(hào)。短語(yǔ)gj的相關(guān)短語(yǔ)gk的相關(guān)短語(yǔ)gl在本文中稱(chēng)作“gj的二級(jí)相關(guān)短語(yǔ)”。所述計(jì)數(shù)與位位置對(duì)應(yīng)于R中短語(yǔ)的規(guī)范次序(按照遞減的信息增益的次序排列)。此排序次序產(chǎn)生這樣一個(gè)效果,即使得gj最高度預(yù)測(cè)的相關(guān)短語(yǔ)gk與相關(guān)短語(yǔ)位向量的最有效位相關(guān),而gj最少預(yù)測(cè)的相關(guān)短語(yǔ)gl與最低有效位相關(guān)。
      比較有用的是注意到對(duì)于一給定短語(yǔ)g,就所有含有g(shù)的文獻(xiàn)而言,相關(guān)短語(yǔ)位向量的長(zhǎng)度以及相關(guān)短語(yǔ)與所述向量的個(gè)別位之間的締合都相同。此實(shí)施例具有以下特性,即使系統(tǒng)容易地比較含有g(shù)的任何(或所有)文獻(xiàn)的相關(guān)短語(yǔ)位向量,以觀察哪些文獻(xiàn)具有給定的相關(guān)短語(yǔ)。這有利于促進(jìn)搜索過(guò)程響應(yīng)搜索查詢(xún)來(lái)識(shí)別文獻(xiàn)。因此,給定文獻(xiàn)將出現(xiàn)在許多不同短語(yǔ)的記入列表中,并且在每個(gè)此類(lèi)記入列表中,所述文獻(xiàn)的相關(guān)短語(yǔ)向量將專(zhuān)用于擁有所述記入列表的短語(yǔ)。這方面保持了相關(guān)短語(yǔ)位向量相對(duì)于個(gè)別短語(yǔ)與文獻(xiàn)的局部性。
      因此,下一階段502包括遍歷文獻(xiàn)中的當(dāng)前索引位置的二級(jí)窗口304(如前所述,+/-K項(xiàng)(例如30項(xiàng))的二級(jí)窗口),例如從i-K到i+K。對(duì)于出現(xiàn)在二級(jí)窗口304中的gi的每個(gè)相關(guān)短語(yǔ)gk,索引系統(tǒng)110相對(duì)于相關(guān)短語(yǔ)計(jì)數(shù)中的文獻(xiàn)d來(lái)使gk的計(jì)數(shù)遞增。如果gi稍后出現(xiàn)在文獻(xiàn)中并且在稍后的二級(jí)窗口中再次發(fā)現(xiàn)相關(guān)短語(yǔ),則再次遞增計(jì)數(shù)。
      如上所述,基于計(jì)數(shù)來(lái)設(shè)定相關(guān)短語(yǔ)位映射中的相應(yīng)第一位gk-1,如果gk的計(jì)數(shù)>0,則將位設(shè)置為1,或如果所述計(jì)數(shù)等于0,則將其設(shè)置為0。
      接著,在索引150中查找相關(guān)短語(yǔ)gk,在gk的記入列表中識(shí)別文獻(xiàn)d的款目,然后檢查gk的任何相關(guān)短語(yǔ)的二級(jí)相關(guān)短語(yǔ)計(jì)數(shù)(或位),從而設(shè)定第二位gk-2。如果設(shè)定了任何這些二級(jí)相關(guān)短語(yǔ)計(jì)數(shù)/位,則此指示在文獻(xiàn)d中還存在gj的二級(jí)相關(guān)短語(yǔ)。
      當(dāng)以此方式完全處理完文獻(xiàn)d時(shí),索引系統(tǒng)110將已經(jīng)識(shí)別出i)文獻(xiàn)d中的每個(gè)好短語(yǔ)gj;ii)為每個(gè)好短語(yǔ)gj識(shí)別出在文獻(xiàn)d中存在其哪些相關(guān)短語(yǔ)gk;iii)為存在于文獻(xiàn)d中的每個(gè)相關(guān)短語(yǔ)gk識(shí)別出在文獻(xiàn)d中還存在其哪些相關(guān)短語(yǔ)gl(gj的二級(jí)相關(guān)短語(yǔ))。
      a)確定文獻(xiàn)主題通過(guò)短語(yǔ)對(duì)文獻(xiàn)編制索引并使用群集信息提供了索引系統(tǒng)110的另一個(gè)優(yōu)點(diǎn),即能夠基于相關(guān)短語(yǔ)信息來(lái)確定文獻(xiàn)的主題。
      假定對(duì)于一給定短語(yǔ)gj與一給定文獻(xiàn)d,記入列表款目如下gj文獻(xiàn)d相關(guān)短語(yǔ)計(jì)數(shù)={3,4,3,0,0,2,1,1,0}
      相關(guān)短語(yǔ)位向量={11 11 10 00 00 10 10 10 01}其中,相關(guān)短語(yǔ)位向量展示為雙位對(duì)。
      從相關(guān)短語(yǔ)位向量,我們可以確定文獻(xiàn)d的一級(jí)與二級(jí)主題。一級(jí)主題由位對(duì)(1,1)指示,而二級(jí)主題由位對(duì)(1,0)指示。相關(guān)短語(yǔ)位對(duì)(1,1)指示文獻(xiàn)d中同時(shí)存在所述位對(duì)的相關(guān)短語(yǔ)gk以及二級(jí)相關(guān)短語(yǔ)gl。此可以解釋為意味在撰寫(xiě)所述文獻(xiàn)d時(shí)文獻(xiàn)的作者一起使用了若干相關(guān)短語(yǔ)gj、gk與gl。位對(duì)(1,0)指示同時(shí)存在gj與gk,但不存在gk的任何其他二級(jí)相關(guān)短語(yǔ),因此這是一個(gè)不那么有效的主題。
      b)改善分等級(jí)的文獻(xiàn)注釋索引系統(tǒng)110的另一方面是能夠在編制索引過(guò)程中用使得隨后搜索期間的分等級(jí)改善的信息注釋504每個(gè)文獻(xiàn)d。注釋過(guò)程506如下。
      文獻(xiàn)庫(kù)中的給定文獻(xiàn)d可以具有一定數(shù)量的對(duì)其它文獻(xiàn)的外鏈接。每個(gè)外鏈接(超鏈接)都包括錨文本與目標(biāo)文獻(xiàn)的文獻(xiàn)識(shí)別符。為了解釋?zhuān)瑢⒄谔幚淼漠?dāng)前文獻(xiàn)d稱(chēng)作URL0,并且將文獻(xiàn)d上的外鏈接的目標(biāo)文獻(xiàn)稱(chēng)作URL1。為了稍候用于對(duì)搜索結(jié)果中的文獻(xiàn)分等級(jí),對(duì)于指向某些其它URLi的URL0中的每個(gè)鏈接,索引系統(tǒng)110創(chuàng)建所述鏈接相對(duì)于URL0的錨短語(yǔ)的外鏈接分?jǐn)?shù)與所述錨短語(yǔ)相對(duì)于URLi的內(nèi)鏈接分?jǐn)?shù)。即,文獻(xiàn)庫(kù)中的每個(gè)鏈接都有一對(duì)分?jǐn)?shù),即一個(gè)外鏈接分?jǐn)?shù)與一個(gè)內(nèi)鏈接分?jǐn)?shù)。這些分?jǐn)?shù)的計(jì)算如下。
      在給定文獻(xiàn)URL0上,索引系統(tǒng)110識(shí)別對(duì)另一文獻(xiàn)URL1的每個(gè)外鏈接,其中錨文本A是在好短語(yǔ)列表208中的一個(gè)短語(yǔ)。圖8a示意性地說(shuō)明此關(guān)系,其中文獻(xiàn)URL0中的錨文本“A”用于超鏈接800中。
      在短語(yǔ)A的記入列表中,將URL0作為短語(yǔ)A的外鏈接記入,并且將URL1作為短語(yǔ)A的內(nèi)鏈接記入。對(duì)于URL0,如上所述來(lái)完成相關(guān)短語(yǔ)位向量,以識(shí)別URL0中存在的A的相關(guān)短語(yǔ)與二級(jí)相關(guān)短語(yǔ)。將此相關(guān)短語(yǔ)位向量用作從URL0到含有錨短語(yǔ)A的URL1的鏈接的外鏈接分?jǐn)?shù)。
      接著,如下確定內(nèi)鏈接分?jǐn)?shù)。對(duì)于對(duì)含有錨短語(yǔ)A的URL1的每個(gè)內(nèi)鏈接,索引系統(tǒng)110掃描URL1,并且確定在URL1的主體中是否出現(xiàn)短語(yǔ)A。如果短語(yǔ)A不僅指向URL1(通過(guò)URL0上的外鏈接),而且出現(xiàn)在URL1本身的內(nèi)容中,那此就表明URL1可稱(chēng)作與短語(yǔ)A所代表的概念內(nèi)部相關(guān)。圖8b說(shuō)明了此狀況,其中短語(yǔ)A出現(xiàn)在URL0(作為錨文本)與URL1的主體中。在此狀況下,將URL1的短語(yǔ)A的相關(guān)短語(yǔ)位向量用作從URL0到含有短語(yǔ)A的URL1的鏈接的內(nèi)鏈接分?jǐn)?shù)。
      如果錨短語(yǔ)A沒(méi)有出現(xiàn)在URL1的主體中(如圖8a),則就采取不同的步驟來(lái)確定內(nèi)鏈接分?jǐn)?shù)。在此狀況下,索引系統(tǒng)110創(chuàng)建用于短語(yǔ)A的URL1的相關(guān)短語(yǔ)位向量(就好像在URL1中存在短語(yǔ)A),其指示短語(yǔ)A的哪些相關(guān)短語(yǔ)出現(xiàn)在URL1中。接著,將此相關(guān)短語(yǔ)位向量用作從URL0到URL1的鏈接的內(nèi)鏈接分?jǐn)?shù)。
      舉例來(lái)說(shuō),假定在URL0與URL1中最初存在以下短語(yǔ)

      (在上述與以下表中,未展示二級(jí)相關(guān)短語(yǔ))。URL0行是來(lái)自錨文本A的鏈接的外鏈接分?jǐn)?shù),并且URL1行是所述鏈接的內(nèi)鏈接分?jǐn)?shù)。這里,URL0含有目標(biāo)為URL1的錨短語(yǔ)“Australian Shepard”。在“Australian Shepard”的五個(gè)相關(guān)短語(yǔ)中,僅一個(gè)“Aussie”出現(xiàn)在URL0中。于是直觀地,URL0與Australian Shepards僅弱相關(guān)。通過(guò)比較,URL1不僅具有存在于文獻(xiàn)主體中的短語(yǔ)“Australian Shepherd”,而且還具有多個(gè)相關(guān)短語(yǔ)“bluemerle”、“red merle”與“tricolor”。因此,由于錨短語(yǔ)“AustralianShepard”出現(xiàn)在URL0與URL1中,所以URL0的外鏈接分?jǐn)?shù)與URL1的內(nèi)鏈接分?jǐn)?shù)是上述相應(yīng)行。
      上述第二種狀況是指URL1中沒(méi)有出現(xiàn)錨短語(yǔ)A的情形。在那種狀況下,索引系統(tǒng)110掃描URL1并確定在URL1中存在相關(guān)短語(yǔ)“Aussie”、“bluemerle”、“red merle”、“tricolor”與“agility training”中的哪些短語(yǔ),并因此產(chǎn)生一個(gè)相關(guān)短語(yǔ)位向量,例如

      這里,此表明URL1不含有錨短語(yǔ)“Australian Shepard”,但含有相關(guān)短語(yǔ)“blue merle”、“red merle”與“tricolor”。
      此方法有利于完全防止對(duì)網(wǎng)頁(yè)(一類(lèi)文獻(xiàn))進(jìn)行某些類(lèi)型的歪曲搜索結(jié)果的操縱。通過(guò)人工創(chuàng)建大量具有指向所要頁(yè)的給定錨文本的頁(yè)可以“轟擊”使用有賴(lài)于指向給定文獻(xiàn)的鏈接數(shù)的分等級(jí)算法來(lái)對(duì)所述文獻(xiàn)分等級(jí)的搜索引擎。因此,當(dāng)輸入使用錨文本的搜索查詢(xún)時(shí),通常會(huì)返回所要頁(yè),即使實(shí)際上此頁(yè)與錨文本幾乎或完全沒(méi)有關(guān)系。將相關(guān)位向量從目標(biāo)文獻(xiàn)URL1輸入到文獻(xiàn)URL0的短語(yǔ)A的相關(guān)短語(yǔ)位向量中消除了搜索系統(tǒng)對(duì)指向URL1以作為有效性的指示的URL0中或URL1中的短語(yǔ)A與錨文本短語(yǔ)之間的關(guān)系的依賴(lài)性。
      基于索引150中的每個(gè)短語(yǔ)在語(yǔ)料庫(kù)中的出現(xiàn)頻率,亦為各短語(yǔ)賦予一個(gè)短語(yǔ)號(hào)。短語(yǔ)越常見(jiàn),其在索引中接收的短語(yǔ)號(hào)就越低。接著,索引系統(tǒng)110根據(jù)每個(gè)記入列表中的短語(yǔ)號(hào)所列出的文獻(xiàn)數(shù)來(lái)對(duì)索引150中的所有記入列表降序排序506,使得首先列出最頻繁出現(xiàn)的短語(yǔ)。于是,可以使用短語(yǔ)號(hào)來(lái)查找特定短語(yǔ)。
      III.搜索系統(tǒng)搜索系統(tǒng)120用于接收查詢(xún)并搜索與所述查詢(xún)相關(guān)的文獻(xiàn),并且在搜索結(jié)果集合中提供這些文獻(xiàn)的列表(以及這些文獻(xiàn)的鏈接)。圖6說(shuō)明搜索系統(tǒng)120的主要功能性操作600識(shí)別查詢(xún)中的短語(yǔ);602檢索與查詢(xún)短語(yǔ)相關(guān)的文獻(xiàn);604根據(jù)短語(yǔ)對(duì)搜索結(jié)果中的文獻(xiàn)分等級(jí)。
      這些階段中的每一階段的細(xì)節(jié)如下。
      1.識(shí)別查詢(xún)及展開(kāi)查詢(xún)中的短語(yǔ)搜索系統(tǒng)120的第一階段600是識(shí)別查詢(xún)中存在的任何短語(yǔ)以便有效地搜索其索引。在這部分中使用下列術(shù)語(yǔ)q所輸入的并由搜索系統(tǒng)120接收的查詢(xún);Qp所述查詢(xún)中存在的短語(yǔ);QrQp的相關(guān)短語(yǔ);QeQp的擴(kuò)展短語(yǔ);QQp和Qr的并集。
      從用戶(hù)端190接收查詢(xún)q,所述查詢(xún)q具有至多某一最大數(shù)量的字符或字。
      搜索系統(tǒng)120使用大小為N(例如5)的短語(yǔ)窗口來(lái)遍歷所述查詢(xún)q的各項(xiàng)。所述短語(yǔ)窗口先從所述查詢(xún)的第一項(xiàng)開(kāi)始,然后向右擴(kuò)展N項(xiàng)。然后,這個(gè)窗口向右移動(dòng)M-N次,其中M是所述查詢(xún)的項(xiàng)數(shù)。
      在每個(gè)窗口位置,窗口中都將存在N項(xiàng)(或更少項(xiàng))。這些項(xiàng)構(gòu)成一個(gè)可能的查詢(xún)短語(yǔ)。在好短語(yǔ)列表208中查找可能短語(yǔ),判斷它是不是一個(gè)好短語(yǔ)。如果好短語(yǔ)列表208中有這個(gè)可能短語(yǔ),那么給短語(yǔ)返回一個(gè)短語(yǔ)號(hào);現(xiàn)在,這個(gè)可能短語(yǔ)就是一個(gè)候選短語(yǔ)。
      在測(cè)試完每個(gè)窗口中的所有可能短語(yǔ)以判斷它們是否是好的候選短語(yǔ)后,搜索系統(tǒng)120將為查詢(xún)中的對(duì)應(yīng)短語(yǔ)賦予一組短語(yǔ)號(hào)。接著,將這些短語(yǔ)號(hào)排序(降序)。
      從作為第一候選短語(yǔ)的最高短語(yǔ)號(hào)開(kāi)始,搜索系統(tǒng)120判斷在排序后的列表中的固定數(shù)字距離內(nèi)是否有另一個(gè)候選短語(yǔ),即短語(yǔ)號(hào)之間的差值在(例如)20,000的臨界量?jī)?nèi)。如果有,那么選擇查詢(xún)中最左邊的短語(yǔ)作為有效的查詢(xún)短語(yǔ)Qp。從候選短語(yǔ)列表中除去這個(gè)查詢(xún)短語(yǔ)及其所有子短語(yǔ),并且將所述列表重新排序并重復(fù)上述過(guò)程。這個(gè)過(guò)程的結(jié)果是一組有效查詢(xún)短語(yǔ)Qp。
      例如,假定搜索查詢(xún)是“Hillary Rodham Clinton Bill on the SenateFloor(參議院議員希拉里·羅德翰·克林頓·比爾)”。搜索系統(tǒng)120會(huì)識(shí)別下列候選短語(yǔ)“Hillary Rodham Clinton Bill on”、“Hillary Rodham ClintonBill”及“Hillary Rodham Clinton”。刪除前兩個(gè),而保持最后一個(gè)作為有效查詢(xún)短語(yǔ)。接著,搜索系統(tǒng)120會(huì)識(shí)別“參議院議員比爾(Bill on theSenate Floor)”和子短語(yǔ)“Bill on the Senate”、“Bill on the”、“Billon”、“Bill”,并且會(huì)選擇“Bill”作為有效查詢(xún)短語(yǔ)Qp。最后,搜索系統(tǒng)120會(huì)分解“on the Senate Floor”,并識(shí)別“Senate Floor”作為有效查詢(xún)短語(yǔ)。
      然后,搜索系統(tǒng)120調(diào)整有效短語(yǔ)Qp的首字母大寫(xiě)。在分解查詢(xún)時(shí),搜索系統(tǒng)120識(shí)別每個(gè)有效短語(yǔ)中的潛在首字母大寫(xiě)。此可以通過(guò)利用已知的首字母大寫(xiě)表(例如,“united states”的首字母大寫(xiě)為“United States”)或利用以語(yǔ)法為基礎(chǔ)的首字母大寫(xiě)算法來(lái)完成。此產(chǎn)生適當(dāng)首字母大寫(xiě)的查詢(xún)短語(yǔ)集合。
      接著,當(dāng)該集合中同時(shí)存在短語(yǔ)及其子短語(yǔ)時(shí),搜索系統(tǒng)120會(huì)第二遍檢查首字母大寫(xiě)的短語(yǔ),并且只選擇那些短語(yǔ)的最左邊字母將其變成大寫(xiě)。例如,對(duì)“president of the united states”的搜索的大寫(xiě)將為“Presidentof the United States”。
      在下一階段,搜索系統(tǒng)120識(shí)別602那些與查詢(xún)短語(yǔ)Q相關(guān)的文獻(xiàn)。搜索系統(tǒng)120接著檢索查詢(xún)短語(yǔ)Q的記入列表,并且使這些列表相交以判斷哪些文獻(xiàn)出現(xiàn)在查詢(xún)短語(yǔ)的所有(或一些)記入列表上。如果查詢(xún)中的短語(yǔ)Q中有一組擴(kuò)展短語(yǔ)Qe(下文中將進(jìn)一步解釋),那么搜索系統(tǒng)120首先形成所述擴(kuò)展短語(yǔ)的記入列表的并集,然后使其與這些記入列表相交。如上所述,搜索系統(tǒng)120通過(guò)在不完整短語(yǔ)列表216中查找每個(gè)查詢(xún)短語(yǔ)Q來(lái)識(shí)別擴(kuò)展短語(yǔ)。
      相交的結(jié)果是一組與查詢(xún)相關(guān)的文獻(xiàn)。通過(guò)短語(yǔ)和相關(guān)短語(yǔ)編制文獻(xiàn)索引,識(shí)別查詢(xún)中的短語(yǔ)Q,然后將查詢(xún)展開(kāi)到包括擴(kuò)展短語(yǔ),從而產(chǎn)生一組比傳統(tǒng)的基于布爾的搜索系統(tǒng)更與查詢(xún)相關(guān)的文獻(xiàn)的選集,在傳統(tǒng)的基于布爾的搜索系統(tǒng)中,只選擇那些含有所述查詢(xún)項(xiàng)的文獻(xiàn)。
      在一實(shí)施例中,搜索系統(tǒng)120可以使用一優(yōu)化機(jī)制來(lái)響應(yīng)查詢(xún)識(shí)別文獻(xiàn)而不一定使查詢(xún)短語(yǔ)Q的所有記入列表相交。由于索引150的結(jié)構(gòu),所以對(duì)于每一個(gè)短語(yǔ)gj,其相關(guān)短語(yǔ)gk均知曉,并且在gk的相關(guān)短語(yǔ)位向量中識(shí)別。因此,此信息可用于簡(jiǎn)化其中兩個(gè)或兩個(gè)以上查詢(xún)短語(yǔ)是彼此相關(guān)的短語(yǔ)或具有共同的相關(guān)短語(yǔ)的相交過(guò)程。在那些情況下,相關(guān)短語(yǔ)位向量可直接存取然后用于接著檢索相應(yīng)文獻(xiàn)。下文更全面地描述此方法。
      給定任意兩個(gè)查詢(xún)短語(yǔ)Q1和Q2,會(huì)有三種可能的相關(guān)情形1)Q2是Q1的相關(guān)短語(yǔ);2)Q2不是Q1的相關(guān)短語(yǔ),且其各自的相關(guān)短語(yǔ)Qr1和Qr2不相交(即,沒(méi)有共同的相關(guān)短語(yǔ));及3)Q2不是Q1的相關(guān)短語(yǔ),但其各自的相關(guān)短語(yǔ)Qr1和Qr2相交。
      對(duì)于每一對(duì)查詢(xún)短語(yǔ),搜索系統(tǒng)120通過(guò)查找查詢(xún)短語(yǔ)Qp的相關(guān)短語(yǔ)位向量來(lái)確定適當(dāng)?shù)那樾巍?br> 搜索系統(tǒng)120繼續(xù)為查詢(xún)短語(yǔ)Q1檢索包括那些含有Q1的文獻(xiàn)的記入列表,并為這些文獻(xiàn)中的每個(gè)文獻(xiàn)檢索相關(guān)短語(yǔ)位向量。Q1的相關(guān)短語(yǔ)位向量將指示短語(yǔ)Q2(若有,則還包括剩余查詢(xún)短語(yǔ)中的每個(gè)短語(yǔ))是否是Q1的相關(guān)短語(yǔ)且是否存在于該文獻(xiàn)中。
      如果第一種情況適用于Q2,那么搜索系統(tǒng)120掃描Q1記入列表中的每個(gè)文獻(xiàn)的相關(guān)短語(yǔ)位向量,以便判斷其中是否設(shè)有Q2的位。如果Q1記入列表中的文獻(xiàn)d沒(méi)有設(shè)這個(gè)位,那么就意味Q2沒(méi)有出現(xiàn)在那個(gè)文獻(xiàn)中。因此,可以立即將這個(gè)文獻(xiàn)排除在考慮之外。然后,可以對(duì)剩余文獻(xiàn)計(jì)分。這還意味著搜索系統(tǒng)120無(wú)需處理Q2的記入列表來(lái)查看它還存在于哪些文獻(xiàn)中,從而節(jié)省了計(jì)算時(shí)間。
      如果第二種情況適用于Q2,那么這兩個(gè)短語(yǔ)彼此無(wú)關(guān)。例如,查詢(xún)“cheapbolt action rifle(便宜的手動(dòng)槍栓步槍)”有兩個(gè)短語(yǔ)“cheap”和“boltaction rifle”。這些短語(yǔ)無(wú)一相關(guān),另外,這些短語(yǔ)中的每個(gè)短語(yǔ)的相關(guān)短語(yǔ)都不重疊;即“cheap”的相關(guān)短語(yǔ)有“l(fā)ow cost”、“inexpensive”、“discount”、“bargain basement”和“l(fā)ousy”,而“bolt action rifle”的相關(guān)短語(yǔ)有“gun”、“22 caliber”、“magazine fed”和“Armalite AR30M”,因此這些列表不相交。在此情況下,搜索系統(tǒng)120使Q1和Q2的記入列表正則(regular)相交以便獲得文獻(xiàn)用于計(jì)分。
      如果第三種情況適用,那么兩個(gè)短語(yǔ)Q1和Q2雖然不相關(guān),但它們具有至少一個(gè)共同的相關(guān)短語(yǔ)。例如,短語(yǔ)“bolt action rifle”和“22”都會(huì)有“gun”作為相關(guān)短語(yǔ)。在此情況下,搜索系統(tǒng)120檢索這兩個(gè)短語(yǔ)Q1和Q2的記入列表并且使這些列表相交以產(chǎn)生含有這兩個(gè)短語(yǔ)的文獻(xiàn)列表。
      然后,搜索系統(tǒng)120可以快速地對(duì)所得文獻(xiàn)中的每個(gè)文獻(xiàn)計(jì)分。首先,搜索系統(tǒng)120確定每個(gè)文獻(xiàn)的分?jǐn)?shù)調(diào)整值。分?jǐn)?shù)調(diào)整值是由在一文獻(xiàn)的相關(guān)短語(yǔ)位向量中對(duì)應(yīng)于查詢(xún)短語(yǔ)Q1和Q2的位置的位所形成的掩碼。例如,假定Q1和Q2對(duì)應(yīng)于文獻(xiàn)d的相關(guān)短語(yǔ)位向量中的第三和第六個(gè)雙位位置,并且第三個(gè)位置的位值是(1,1)且第六個(gè)位置的位值是(1,0),那么分?jǐn)?shù)調(diào)整值就是位掩碼“00 00 11 00 00 10”。然后,使用分?jǐn)?shù)調(diào)整值來(lái)屏蔽文獻(xiàn)的相關(guān)短語(yǔ)位向量,接著將修正后的短語(yǔ)位向量載入分等級(jí)函數(shù)(如下所述)以便用于計(jì)算所述文獻(xiàn)的體分?jǐn)?shù)。
      2.分等級(jí)a)基于所含短語(yǔ)對(duì)文獻(xiàn)分等級(jí)搜索系統(tǒng)120提供分等級(jí)階段604,在此階段,使用每個(gè)文獻(xiàn)的相關(guān)短語(yǔ)位向量中的短語(yǔ)信息和查詢(xún)短語(yǔ)的群集位向量來(lái)對(duì)搜索結(jié)果中的文獻(xiàn)分等級(jí)。此方法是根據(jù)文獻(xiàn)中所含有的短語(yǔ)或非正式的“體命中數(shù)”來(lái)分等級(jí)。
      如上所述,對(duì)于任一給定的短語(yǔ)gj,gj的記入列表中的每個(gè)文獻(xiàn)d都有一個(gè)用于識(shí)別在文獻(xiàn)d中存在哪些相關(guān)短語(yǔ)gk和哪些二級(jí)相關(guān)短語(yǔ)gi的相伴相關(guān)短語(yǔ)位向量。一給定文獻(xiàn)中存在的相關(guān)短語(yǔ)和二級(jí)相關(guān)短語(yǔ)越多,在給定短語(yǔ)的文獻(xiàn)相關(guān)短語(yǔ)位向量中就將設(shè)置越多的位。設(shè)置的位越多,相關(guān)短語(yǔ)位向量的數(shù)值就越大。
      因此,在一個(gè)實(shí)施例中,搜索系統(tǒng)120根據(jù)文獻(xiàn)的相關(guān)短語(yǔ)位向量的值來(lái)對(duì)搜索結(jié)果中的文獻(xiàn)排序。含有與查詢(xún)短語(yǔ)Q最相關(guān)的短語(yǔ)的文獻(xiàn)將具有最高值的相關(guān)短語(yǔ)位向量,并且這些文獻(xiàn)將是搜索結(jié)果中的最高等級(jí)的文獻(xiàn)。
      此方法之所以較理想是因?yàn)樵谡Z(yǔ)義上,這些文獻(xiàn)在主題上與查詢(xún)短語(yǔ)最相關(guān)。注意,此方法可以提供高度相關(guān)的文獻(xiàn),盡管這些文獻(xiàn)不含高頻率的輸入查詢(xún)項(xiàng)q,這是因?yàn)橄嚓P(guān)短語(yǔ)信息不僅用于識(shí)別相關(guān)文獻(xiàn),而且接著對(duì)這些文獻(xiàn)分等級(jí)。具有低頻率的輸入查詢(xún)項(xiàng)的文獻(xiàn)仍可具有查詢(xún)項(xiàng)的大量相關(guān)短語(yǔ),因此其可比具有高頻率的輸入查詢(xún)項(xiàng)和短語(yǔ)但無(wú)相關(guān)短語(yǔ)的文獻(xiàn)更相關(guān)。
      在第二實(shí)施例中,搜索系統(tǒng)120根據(jù)結(jié)果集合中每個(gè)文獻(xiàn)所含有的查詢(xún)短語(yǔ)Q的相關(guān)短語(yǔ)來(lái)對(duì)每個(gè)文獻(xiàn)計(jì)分。此通過(guò)如下方式完成。
      給定每個(gè)查詢(xún)短語(yǔ)Q,將存在某一數(shù)量N的與所述查詢(xún)短語(yǔ)相關(guān)的短語(yǔ)Qr,其可在短語(yǔ)識(shí)別過(guò)程中識(shí)別。如上所述,根據(jù)相關(guān)查詢(xún)短語(yǔ)Qr來(lái)自查詢(xún)短語(yǔ)Q的信息增益來(lái)對(duì)相關(guān)查詢(xún)短語(yǔ)Qr定序。然后,對(duì)這些相關(guān)短語(yǔ)指派點(diǎn)數(shù),先為第一相關(guān)短語(yǔ)Qr1(即,具有來(lái)自Q的最高信息增益的相關(guān)短語(yǔ)Qr)指派N個(gè)點(diǎn),然后為下一個(gè)相關(guān)短語(yǔ)Qr2指派N-1個(gè)點(diǎn),然后為Q3指派N-2個(gè)點(diǎn),依此類(lèi)推,因此將最后一個(gè)相關(guān)短語(yǔ)QrN指派為1個(gè)點(diǎn)。
      然后,確定存在查詢(xún)短語(yǔ)Q的哪些相關(guān)短語(yǔ)Qr,并且為所述文獻(xiàn)賦予指派給每個(gè)此等相關(guān)短語(yǔ)Qr的點(diǎn)數(shù),從而對(duì)搜索結(jié)果中的每個(gè)文獻(xiàn)計(jì)分。接著將所述文獻(xiàn)按照從高到低的分?jǐn)?shù)排序。
      作為另一改進(jìn),搜索系統(tǒng)120可以從結(jié)果集合中精選文獻(xiàn)。在某些情況下,文獻(xiàn)可能關(guān)于許多不同的主題;尤其對(duì)于較長(zhǎng)文獻(xiàn)而言更是如此。在許多情況下,相比于與許多不同主題相關(guān)的文獻(xiàn),用戶(hù)更喜歡那些與查詢(xún)中所表示的單個(gè)主題密切相關(guān)的文獻(xiàn)。
      為了精選后一種文獻(xiàn),搜索系統(tǒng)120使用查詢(xún)短語(yǔ)的群集位向量中的群集信息,并且除去其中具有多于臨界數(shù)量的群集的任何文獻(xiàn)。例如,搜索系統(tǒng)120可除去任何含有多于兩個(gè)群集的文獻(xiàn)。此群集閾值可預(yù)先確定,或由用戶(hù)設(shè)定為一個(gè)搜索參數(shù)。
      b)基于錨短語(yǔ)對(duì)文獻(xiàn)分等級(jí)除了基于查詢(xún)短語(yǔ)Q的體命中數(shù)來(lái)對(duì)搜索結(jié)果中的文獻(xiàn)分等級(jí)外,在一個(gè)實(shí)施例中,搜索系統(tǒng)120還基于以對(duì)其他文獻(xiàn)的錨出現(xiàn)的查詢(xún)短語(yǔ)Q和相關(guān)查詢(xún)短語(yǔ)Qr來(lái)對(duì)文獻(xiàn)分等級(jí)。在一個(gè)實(shí)施例中,搜索系統(tǒng)120計(jì)算每個(gè)文獻(xiàn)的分?jǐn)?shù),所述分?jǐn)?shù)是兩個(gè)分?jǐn)?shù)(即,體命中分?jǐn)?shù)和錨命中分?jǐn)?shù))的函數(shù)(例如,線(xiàn)性組合)。
      例如,一給定文獻(xiàn)的文獻(xiàn)分?jǐn)?shù)的計(jì)算可如下分?jǐn)?shù)=.30*(體命中分?jǐn)?shù))+.70*(錨命中分?jǐn)?shù))。
      .30和.70的權(quán)值可根據(jù)需要調(diào)整。以如上所述的方式給定查詢(xún)短語(yǔ)Qp,則一文獻(xiàn)的體命中分?jǐn)?shù)就是所述文獻(xiàn)的最高值的相關(guān)短語(yǔ)位向量的數(shù)值?;蛘?,搜索系統(tǒng)120可以通過(guò)如下方式直接獲得所述值查找索引150中的每個(gè)查詢(xún)短語(yǔ)Q,從查詢(xún)短語(yǔ)Q的記入列表訪問(wèn)文獻(xiàn),然后存取相關(guān)短語(yǔ)位向量。
      文獻(xiàn)d的錨命中分?jǐn)?shù)是查詢(xún)短語(yǔ)Q的相關(guān)短語(yǔ)位向量的函數(shù),其中Q是一引用文獻(xiàn)d的文獻(xiàn)中的錨項(xiàng)。當(dāng)索引系統(tǒng)110為文獻(xiàn)庫(kù)中的文獻(xiàn)編制索引時(shí),其為每個(gè)短語(yǔ)保存文獻(xiàn)列表,其中所述短語(yǔ)是一外鏈接中的錨文本,同時(shí)為每個(gè)文獻(xiàn)保存來(lái)自其他文獻(xiàn)的內(nèi)鏈接(和相關(guān)聯(lián)的錨文本)。一個(gè)文獻(xiàn)的內(nèi)鏈接是從其他文獻(xiàn)(引用文獻(xiàn))到給定文獻(xiàn)的引用(例如,超鏈接)。
      然后為了確定給定文獻(xiàn)d的錨命中分?jǐn)?shù),搜索系統(tǒng)120用錨短語(yǔ)Q在以索引列出的引用文獻(xiàn)R集合(i=1-引用文獻(xiàn)數(shù))上迭代,然后對(duì)下列乘積求和Ri.Q.相關(guān)短語(yǔ)位向量*D.Q.相關(guān)短語(yǔ)位向量。
      這里的乘積值是表示錨短語(yǔ)Q與文獻(xiàn)D主題相關(guān)的程度的分?jǐn)?shù)。這里將此分?jǐn)?shù)稱(chēng)為“入站分?jǐn)?shù)向量”。這個(gè)乘積有效地通過(guò)引用文獻(xiàn)R中的錨短語(yǔ)的相關(guān)位向量來(lái)對(duì)當(dāng)前文獻(xiàn)D的相關(guān)位向量加權(quán)。如果引用文獻(xiàn)R本身與查詢(xún)短語(yǔ)Q相關(guān)(且因此具有較高值的相關(guān)短語(yǔ)位向量),那么此會(huì)增加當(dāng)前文獻(xiàn)D分?jǐn)?shù)的有效性。然后,組合體命中分?jǐn)?shù)和錨命中分?jǐn)?shù)以便如上所述產(chǎn)生文獻(xiàn)分?jǐn)?shù)。
      接著,為每個(gè)引用文獻(xiàn)R,獲得每個(gè)錨短語(yǔ)Q的相關(guān)短語(yǔ)位向量。這是對(duì)錨短語(yǔ)Q與文獻(xiàn)R主題相關(guān)程度的度量。這里將該值稱(chēng)為“出站分?jǐn)?shù)向量”。
      然后從索引150,提取所有(引用文獻(xiàn),被引用文獻(xiàn))對(duì)的錨短語(yǔ)Q。然后通過(guò)這些對(duì)的相關(guān)聯(lián)的(出站分?jǐn)?shù)向量,入站分?jǐn)?shù)向量)值來(lái)對(duì)這些對(duì)排序。根據(jù)實(shí)施的不同,這些分量中的任一分量都可作為主排序關(guān)鍵字,而另一個(gè)分量可為次排序關(guān)鍵字。然后,將排序后的結(jié)果呈現(xiàn)給用戶(hù)。根據(jù)出站分?jǐn)?shù)分量對(duì)文獻(xiàn)排序會(huì)使那些具有許多個(gè)與查詢(xún)相關(guān)的短語(yǔ)作為錨命中的文獻(xiàn)的等級(jí)最高,從而將這些文獻(xiàn)表示為“專(zhuān)家”文獻(xiàn)。根據(jù)入站文獻(xiàn)分?jǐn)?shù)排序會(huì)使那些因?yàn)殄^項(xiàng)而經(jīng)常被引用的文獻(xiàn)的等級(jí)最高。
      3.基于短語(yǔ)的搜索個(gè)性化搜索系統(tǒng)120的另一個(gè)方面是根據(jù)用戶(hù)特定興趣的模型來(lái)自定義搜索結(jié)果的分等級(jí)或使其個(gè)性化606。以此方式,那些更可能與用戶(hù)的興趣相關(guān)的文獻(xiàn)會(huì)排在搜索結(jié)果中的較高等級(jí)。搜索結(jié)果的個(gè)性化如下。
      作為預(yù)備,比較有用的是就查詢(xún)和文獻(xiàn)(這兩項(xiàng)可用短語(yǔ)表示)定義用戶(hù)興趣(例如,用于模型)。對(duì)于一個(gè)輸入搜索查詢(xún),一個(gè)查詢(xún)是由查詢(xún)短語(yǔ)Q、Qr的相關(guān)短語(yǔ)和查詢(xún)短語(yǔ)Qp的擴(kuò)展短語(yǔ)Qe表示。因此,這組術(shù)語(yǔ)和短語(yǔ)表示查詢(xún)的含義。接著,用與頁(yè)相關(guān)聯(lián)的短語(yǔ)來(lái)表示文獻(xiàn)的含義。如上所述,給定查詢(xún)和文獻(xiàn),從所述文獻(xiàn)索引所指的所有短語(yǔ)的體分?jǐn)?shù)(相關(guān)位向量)確定所述文獻(xiàn)的相關(guān)短語(yǔ)。最后,可以按照代表這些元素中的每一元素的短語(yǔ)將用戶(hù)表示成一組查詢(xún)與一組文獻(xiàn)的并集??梢詮挠脩?hù)在先前的搜索結(jié)果中選擇的文獻(xiàn),或者通常通過(guò)瀏覽語(yǔ)料庫(kù)(例如,訪問(wèn)互聯(lián)網(wǎng)上的文獻(xiàn)),使用監(jiān)控用戶(hù)動(dòng)作及目的地的用戶(hù)端工具,來(lái)確定所述集合中所包括的代表用戶(hù)的特定文獻(xiàn)。
      建構(gòu)和使用用戶(hù)模型以進(jìn)行個(gè)性化分等級(jí)的過(guò)程如下。
      首先,為一給定用戶(hù),保存所訪問(wèn)過(guò)的最后K個(gè)查詢(xún)和P個(gè)文獻(xiàn)的列表,其中K和P較佳各為約250。這些列表可以保存在用戶(hù)帳號(hào)數(shù)據(jù)庫(kù)中,其中用戶(hù)是通過(guò)注冊(cè)或通過(guò)瀏覽器cookies來(lái)辨識(shí)。對(duì)于一給定用戶(hù),這些列表在用戶(hù)第一次提供查詢(xún)時(shí)將是空的。
      接著,從用戶(hù)接收查詢(xún)q。以如上所述的方式檢索q的相關(guān)短語(yǔ)Qr以及擴(kuò)展短語(yǔ)。此形成查詢(xún)模型。
      在第一遍中(例如,若沒(méi)有存儲(chǔ)用戶(hù)的任何查詢(xún)信息),搜索系統(tǒng)120運(yùn)作后只是返回搜索結(jié)果中與用戶(hù)查詢(xún)相關(guān)的文獻(xiàn),而不另外自定義分等級(jí)。
      用戶(hù)端瀏覽器工具監(jiān)控用戶(hù)通過(guò)(例如)點(diǎn)擊搜索結(jié)果中的文獻(xiàn)鏈接訪問(wèn)了搜索結(jié)果中的哪些文獻(xiàn)。用于作為選擇哪些短語(yǔ)的基礎(chǔ)的這些被訪問(wèn)文獻(xiàn)將成為用戶(hù)模型的一部分。對(duì)于每個(gè)此類(lèi)被訪問(wèn)文獻(xiàn),搜索系統(tǒng)120檢索所述文獻(xiàn)的文獻(xiàn)模型,其為與所述文獻(xiàn)相關(guān)的一列短語(yǔ)。將每個(gè)與所述被訪問(wèn)文獻(xiàn)相關(guān)的短語(yǔ)添加到用戶(hù)模型中。
      接著,給定與一被訪問(wèn)文獻(xiàn)相關(guān)的短語(yǔ),可從每個(gè)短語(yǔ)的群集位向量確定與這些短語(yǔ)相關(guān)聯(lián)的群集。對(duì)于每個(gè)群集,通過(guò)在含有群集號(hào)或如上所述的群集位向量表示的相關(guān)短語(yǔ)列表中查找短語(yǔ)來(lái)確定作為所述群集的組員的每個(gè)短語(yǔ)。然后,將這個(gè)群集號(hào)添加到用戶(hù)模型中。此外,對(duì)于每個(gè)此類(lèi)群集,保存一個(gè)計(jì)數(shù)器,并在每次將那個(gè)群集中的短語(yǔ)添加到用戶(hù)模型中時(shí),使計(jì)數(shù)器遞增。如下所述,這些技術(shù)可用作權(quán)。因此,從用戶(hù)通過(guò)存取而表示出興趣的文獻(xiàn)上所存在的群集中所包括的短語(yǔ)建立了用戶(hù)模型。
      同樣的通用方法可更精確地聚焦在俘獲用戶(hù)表明比僅僅訪問(wèn)文獻(xiàn)更高等級(jí)的短語(yǔ)信息(對(duì)此,用戶(hù)可能只是在需要是判斷文獻(xiàn)相關(guān))。例如,將短語(yǔ)收集到用戶(hù)模型中可能限于那些用戶(hù)打印、保存、存儲(chǔ)為喜愛(ài)或鏈接、電郵給另一用戶(hù)、或在瀏覽器窗口中打開(kāi)一段延長(zhǎng)時(shí)間(例如,10分鐘)的文獻(xiàn)。這些及其他動(dòng)作都表明對(duì)文獻(xiàn)的更高等級(jí)的興趣。
      當(dāng)從用戶(hù)接收到另一查詢(xún)時(shí),檢索相關(guān)查詢(xún)短語(yǔ)Qr。使這些相關(guān)查詢(xún)短語(yǔ)Qr與用戶(hù)模型中所列的短語(yǔ)相交,以便確定所述查詢(xún)與用戶(hù)模型中同時(shí)存在哪些短語(yǔ)。初始化所述查詢(xún)的相關(guān)短語(yǔ)Qr的掩碼位向量。如上所述,這個(gè)位向量是一個(gè)雙位向量。對(duì)于同時(shí)存在于用戶(hù)模型中的所述查詢(xún)的每個(gè)相關(guān)短語(yǔ)Qr,將此相關(guān)短語(yǔ)的兩個(gè)位設(shè)定在掩碼位向量中。因此,掩碼位向量代表同時(shí)存在于查詢(xún)與用戶(hù)模型中的相關(guān)短語(yǔ)。
      然后,使用掩碼位向量來(lái)通過(guò)使當(dāng)前搜索結(jié)果集合中的每個(gè)文獻(xiàn)的相關(guān)短語(yǔ)位向量與所述掩碼位向量進(jìn)行與操作(ANDing)來(lái)屏蔽所述相關(guān)短語(yǔ)位向量。此達(dá)到通過(guò)掩碼位向量調(diào)整體分?jǐn)?shù)和錨命中分?jǐn)?shù)的效果。然后,如前所述計(jì)算文獻(xiàn)的體分?jǐn)?shù)和錨分?jǐn)?shù)并將其呈現(xiàn)給用戶(hù)。此方法主要需要文獻(xiàn)具有包括在用戶(hù)模型中的查詢(xún)短語(yǔ)以便排到較高等級(jí)。
      作為一個(gè)不會(huì)強(qiáng)加前述嚴(yán)格約束的替代實(shí)施例,掩碼位向量可以排成數(shù)組,以便每個(gè)位都可用來(lái)對(duì)用戶(hù)模型中的相關(guān)短語(yǔ)的群集計(jì)數(shù)加權(quán)。因此,每個(gè)群集計(jì)數(shù)都被乘以0或1,從而有效地使計(jì)數(shù)為0或保持原計(jì)數(shù)。接著,就像使用權(quán)那樣使用這些計(jì)數(shù)本身來(lái)乘正在計(jì)分的每個(gè)文獻(xiàn)的相關(guān)短語(yǔ)。此方法的好處是仍允許適當(dāng)?shù)赜?jì)分哪些沒(méi)有查詢(xún)短語(yǔ)作為相關(guān)短語(yǔ)的文獻(xiàn)。
      最后,可將用戶(hù)模型限于當(dāng)前對(duì)話(huà),其中對(duì)話(huà)是搜索中有效時(shí)期的時(shí)間間隔,在此對(duì)話(huà)后,轉(zhuǎn)儲(chǔ)用戶(hù)模型。或者,一給定用戶(hù)的用戶(hù)模型可持續(xù)一段時(shí)間,然后使其權(quán)值下降或過(guò)期。
      IV.結(jié)果顯示顯示系統(tǒng)130從搜索系統(tǒng)120接收經(jīng)過(guò)計(jì)分和排序的搜索結(jié)果,并且執(zhí)行其他組織、注釋和群集操作,然后將結(jié)果呈現(xiàn)給用戶(hù)。這些操作有利于用戶(hù)理解搜索結(jié)果的內(nèi)容,去除重復(fù)結(jié)果,并且提供對(duì)搜索結(jié)果的更有代表性的取樣。圖7說(shuō)明顯示系統(tǒng)120的以下主要功能性操作700根據(jù)主題群集文獻(xiàn);702產(chǎn)生文獻(xiàn)說(shuō)明;704去除重復(fù)文獻(xiàn)。
      這些操作中的每個(gè)操作都與輸入搜索結(jié)果701和輸出修正后的搜索結(jié)果703一起采用。如圖7所示,這些操作的次序是獨(dú)立的,且可根據(jù)一給定實(shí)施例的需要而改變,因此,可以流水線(xiàn)的方式而不是如圖所示并行輸送這些輸入。
      1.顯示的動(dòng)態(tài)分類(lèi)產(chǎn)生對(duì)于一給定查詢(xún),通常會(huì)返回幾百個(gè)、甚至可能幾千個(gè)滿(mǎn)足所述查詢(xún)的文獻(xiàn)。在許多情況下,某些文獻(xiàn)雖然彼此內(nèi)容不同,但其足夠相關(guān)以形成一群有意義的相關(guān)文獻(xiàn),基本上就是一個(gè)群集。然而,大多數(shù)用戶(hù)不會(huì)看搜索結(jié)果中前30或40個(gè)以外的文獻(xiàn)。因此,如果前(例如)100個(gè)文獻(xiàn)來(lái)自三個(gè)群集,但接下來(lái)的100個(gè)文獻(xiàn)代表另外的4個(gè)群集,那么在不經(jīng)進(jìn)一步的調(diào)整下,用戶(hù)通常不會(huì)看后面這些文獻(xiàn),但事實(shí)上這些文獻(xiàn)可能與用戶(hù)查詢(xún)十分相關(guān),因?yàn)樗鼈兇砹烁鞣N與查詢(xún)相關(guān)的不同主題。因此,這里需要為用戶(hù)提供來(lái)自每個(gè)群集的樣本文獻(xiàn),從而向用戶(hù)展現(xiàn)來(lái)自搜索結(jié)果的不同文獻(xiàn)的更寬的選集。顯示系統(tǒng)130如下進(jìn)行。
      如同系統(tǒng)100的其他方面,顯示系統(tǒng)130利用搜索結(jié)果中每個(gè)文獻(xiàn)d的相關(guān)短語(yǔ)位向量。更詳細(xì)地說(shuō),對(duì)于每個(gè)查詢(xún)短語(yǔ)Q,且對(duì)于Q的記入列表中的每個(gè)文獻(xiàn)d,相關(guān)短語(yǔ)位向量指示文獻(xiàn)中存在哪些相關(guān)短語(yǔ)Qr。然后在搜索結(jié)果中的文獻(xiàn)集合上,對(duì)于每個(gè)相關(guān)短語(yǔ)Qr,通過(guò)合計(jì)對(duì)應(yīng)于Qr的位位置的位值來(lái)確定表示多少文獻(xiàn)含有相關(guān)短語(yǔ)Qr的計(jì)數(shù)。當(dāng)對(duì)搜索結(jié)果求和及排序時(shí),將指示最頻繁出現(xiàn)的相關(guān)短語(yǔ)Qr,其中的每個(gè)相關(guān)短語(yǔ)Qr都將是一文獻(xiàn)群集。最頻繁出現(xiàn)的相關(guān)短語(yǔ)是第一群集,取其相關(guān)短語(yǔ)Qr作為其名稱(chēng),對(duì)于最高的三到五個(gè)群集依此類(lèi)推。因此,識(shí)別了每個(gè)最高的群集,取短語(yǔ)Qr作為群集的名稱(chēng)或標(biāo)題。
      現(xiàn)在,可以各種方式將來(lái)個(gè)每個(gè)群集的文獻(xiàn)呈現(xiàn)給用戶(hù)。在一應(yīng)用中,可顯示固定數(shù)量的來(lái)自每個(gè)群集的文獻(xiàn),例如每個(gè)文獻(xiàn)中計(jì)分在前10的文獻(xiàn)。在另一應(yīng)用中,可顯示成比例數(shù)量的來(lái)自每個(gè)群集的文獻(xiàn)。因此,如果搜索結(jié)果中有100個(gè)文獻(xiàn),其中50個(gè)來(lái)自群集1,30個(gè)來(lái)自群集2,10個(gè)來(lái)自群集3,7個(gè)來(lái)自群集4,且3個(gè)來(lái)自群集5,并且希望只顯示20個(gè)文獻(xiàn),那么文獻(xiàn)的選擇如下10個(gè)文獻(xiàn)來(lái)自群集1,7個(gè)文獻(xiàn)來(lái)自群集2,2個(gè)文獻(xiàn)來(lái)自群集3,且1個(gè)文獻(xiàn)來(lái)自群集4。然后,在適當(dāng)?shù)娜杭Q(chēng)作為標(biāo)題下分組后,將各文獻(xiàn)展示給用戶(hù)。
      例如,假定搜索查詢(xún)?yōu)椤癰lue merle agility training(藍(lán)色默爾敏捷訓(xùn)練)”,對(duì)此搜索系統(tǒng)120接收到100個(gè)文獻(xiàn)。搜索系統(tǒng)120將已經(jīng)識(shí)別“blue merle”和“agility training”作為查詢(xún)短語(yǔ)。這些查詢(xún)短語(yǔ)的相關(guān)短語(yǔ)為“blue merle”“Australian Sphepherd”、“red merle”、“tricolor”、”aussie”;“agility training”“weave poles”、“teeter”、“tunnel”、“obstacle”、“border collie”。
      顯示系統(tǒng)130然后為每個(gè)查詢(xún)短語(yǔ)的每個(gè)上述相關(guān)短語(yǔ)確定表示含有所述短語(yǔ)的文獻(xiàn)數(shù)的計(jì)數(shù)。例如,假定短語(yǔ)“weave poles”出現(xiàn)在100個(gè)文獻(xiàn)中的75個(gè)文獻(xiàn)中,“teeter”出現(xiàn)在60個(gè)文獻(xiàn)中,“red merle”出現(xiàn)在50個(gè)文獻(xiàn)中。那么,第一群集稱(chēng)為“weave poles”,且存在選定數(shù)量的來(lái)自該群集的文獻(xiàn);第二群集稱(chēng)為“teeter”,且同樣存在選定數(shù)量;依此類(lèi)推。對(duì)于一固定顯示,可選擇10個(gè)來(lái)自每個(gè)群集的文獻(xiàn)。按比例顯示將使用相對(duì)于總文獻(xiàn)數(shù)成比例數(shù)量的來(lái)自每個(gè)群集的文獻(xiàn)。
      2.基于主題的文獻(xiàn)說(shuō)明顯示系統(tǒng)130的第二個(gè)功能是創(chuàng)建702文獻(xiàn)說(shuō)明,所述文獻(xiàn)說(shuō)明可插入每個(gè)文獻(xiàn)的搜索結(jié)果顯示中。這些說(shuō)明以每個(gè)文獻(xiàn)中所存在的相關(guān)短語(yǔ)為基礎(chǔ),因此有助于用戶(hù)以在內(nèi)容上與查詢(xún)相關(guān)的方式了解所述文獻(xiàn)是關(guān)于什么內(nèi)容。文獻(xiàn)說(shuō)明可以是一般性的,也可以是對(duì)用戶(hù)個(gè)性化的。
      a)一般主題文獻(xiàn)說(shuō)明如上所述,給定一查詢(xún),搜索系統(tǒng)120先確定查詢(xún)短語(yǔ)的相關(guān)查詢(xún)短語(yǔ)Qr以及擴(kuò)展短語(yǔ),然后為查詢(xún)識(shí)別相關(guān)文獻(xiàn)。顯示系統(tǒng)130訪問(wèn)搜索結(jié)果中的每個(gè)文獻(xiàn)并執(zhí)行下列操作。
      首先,顯示系統(tǒng)130通過(guò)查詢(xún)短語(yǔ)Q、相關(guān)查詢(xún)短語(yǔ)Qr和擴(kuò)展短語(yǔ)Qp的實(shí)例數(shù)來(lái)對(duì)文獻(xiàn)句子分等級(jí),進(jìn)而為文獻(xiàn)的每個(gè)句子保存這三個(gè)方面的計(jì)數(shù)。
      然后,通過(guò)這些計(jì)數(shù)來(lái)對(duì)句子排序,其中第一排序關(guān)鍵字是查詢(xún)短語(yǔ)Q的計(jì)數(shù),第二排序關(guān)鍵字是相關(guān)查詢(xún)短語(yǔ)Qr的計(jì)數(shù),且最后一個(gè)排序關(guān)鍵字是擴(kuò)展短語(yǔ)Qp的計(jì)數(shù)。
      最后,將排序后的前N(例如5)個(gè)句子用作文獻(xiàn)說(shuō)明??蓪⑦@組句子格式化,并將其包括在修正后的搜索結(jié)果703中的文獻(xiàn)顯示中。對(duì)搜索結(jié)果中的一定數(shù)量的文獻(xiàn)重復(fù)此過(guò)程,并且可以在每次用戶(hù)請(qǐng)求下一頁(yè)結(jié)果時(shí)按要求進(jìn)行。
      b)個(gè)性化的基于主題的文獻(xiàn)說(shuō)明在提供搜索結(jié)果的個(gè)性化的實(shí)施例中,可同樣使文獻(xiàn)說(shuō)明個(gè)性化以便反映用戶(hù)模型中所表示的用戶(hù)興趣。顯示系統(tǒng)130如下進(jìn)行。
      首先,如上所述,顯示系統(tǒng)通過(guò)使查詢(xún)相關(guān)短語(yǔ)Qr與用戶(hù)模型(其列出了出現(xiàn)在由用戶(hù)訪問(wèn)過(guò)的文獻(xiàn)中的短語(yǔ))相交來(lái)確定與用戶(hù)相關(guān)的相關(guān)短語(yǔ)。
      然后,顯示系統(tǒng)130根據(jù)位向量本身的值來(lái)對(duì)這組用戶(hù)相關(guān)短語(yǔ)U r穩(wěn)定的排序,將排序后的列表預(yù)先掛到查詢(xún)相關(guān)短語(yǔ)Qr的列表上,并除去任何重復(fù)短語(yǔ)。穩(wěn)定排序保留了同樣等級(jí)的短語(yǔ)的現(xiàn)有次序。此產(chǎn)生與查詢(xún)或用戶(hù)相關(guān)的相關(guān)短語(yǔ)集合,稱(chēng)為集合Qu。
      現(xiàn)在,以類(lèi)似于上述一般文獻(xiàn)說(shuō)明方法的方式,顯示系統(tǒng)130使用此有序短語(yǔ)列表作為對(duì)搜索結(jié)果中的每個(gè)文獻(xiàn)中的句子分等級(jí)的基礎(chǔ)。因此,對(duì)于一給定文獻(xiàn),顯示系統(tǒng)130通過(guò)每個(gè)用戶(hù)相關(guān)短語(yǔ)和查詢(xún)相關(guān)短語(yǔ)Qu的實(shí)例數(shù)來(lái)對(duì)文獻(xiàn)中的句子分等級(jí),并且根據(jù)查詢(xún)計(jì)數(shù)來(lái)對(duì)分等級(jí)后的句子排序,最后基于每個(gè)此類(lèi)短語(yǔ)的擴(kuò)展短語(yǔ)數(shù)排序。而在以前,排序關(guān)鍵字的次序是查詢(xún)短語(yǔ)Q、相關(guān)查詢(xún)短語(yǔ)Qr和擴(kuò)展短語(yǔ)Qp,但這里的排序關(guān)鍵字的次序是從高到低等級(jí)的用戶(hù)相關(guān)短語(yǔ)Qr。
      再次地,對(duì)搜索結(jié)果中的文獻(xiàn)重復(fù)此過(guò)程(按要求或預(yù)先)。于是對(duì)于每個(gè)此類(lèi)文獻(xiàn),所得文獻(xiàn)說(shuō)明包括來(lái)自所述文獻(xiàn)的N個(gè)最高等級(jí)的句子。此處,這些句子將是具有最高用戶(hù)相關(guān)短語(yǔ)Ur數(shù)量的句子,因此代表文獻(xiàn)中表示與用戶(hù)最相關(guān)的概念和主題的關(guān)鍵句(至少根據(jù)用戶(hù)模型中所俘獲的信息)。
      3.重復(fù)文獻(xiàn)檢測(cè)和去除在諸如互聯(lián)網(wǎng)的大語(yǔ)料庫(kù)中,其中在許多不同位置存在同一文獻(xiàn)的多個(gè)實(shí)例或一文獻(xiàn)的多個(gè)部分是十分常見(jiàn)的。例如,由一新聞局(例如,美聯(lián)社(Associated Press))產(chǎn)生的一篇給定的新聞文章可能被復(fù)制在一打或一打以上的網(wǎng)站或各報(bào)紙上。響應(yīng)搜索查詢(xún)而包括所有這些重復(fù)文獻(xiàn)只會(huì)使用戶(hù)負(fù)擔(dān)多余的信息,而不是有用地響應(yīng)查詢(xún)。因此,顯示系統(tǒng)130提供另一個(gè)用于識(shí)別那些可能彼此重復(fù)或接近重復(fù)的文獻(xiàn)而只在搜索結(jié)果中包括這些文獻(xiàn)中的一個(gè)文獻(xiàn)的能力704。因此,用戶(hù)接收到更多樣化且更強(qiáng)大的結(jié)果集合,而不必浪費(fèi)時(shí)間來(lái)看那些彼此重復(fù)的文獻(xiàn)。顯示系統(tǒng)130所提供的功能性如下。
      顯示系統(tǒng)130處理搜索結(jié)果集合701中的每個(gè)文獻(xiàn)。對(duì)于每個(gè)文獻(xiàn)d,顯示系統(tǒng)130首先確定與所述文獻(xiàn)相關(guān)聯(lián)的相關(guān)短語(yǔ)R的列表。對(duì)于這些相關(guān)短語(yǔ)中的每個(gè)短語(yǔ),顯示系統(tǒng)130根據(jù)這些短語(yǔ)中的每個(gè)短語(yǔ)的出現(xiàn)頻率來(lái)對(duì)文獻(xiàn)中的句子分等級(jí),然后選擇N個(gè)(例如,5到10個(gè))最高等級(jí)的句子。然后將這組句子與所述文獻(xiàn)結(jié)合存儲(chǔ)。這樣做的一個(gè)方法是連接這些選定的句子,然后利用散列表來(lái)存儲(chǔ)文獻(xiàn)識(shí)別符。
      接著,顯示系統(tǒng)130將每個(gè)文獻(xiàn)d的選定句子和搜索結(jié)果701中的其他文獻(xiàn)的選定句子進(jìn)行比較,如果這些選定句子匹配(在允許誤差內(nèi)),那么就認(rèn)為所述文獻(xiàn)重復(fù),并將其中一個(gè)文獻(xiàn)從搜索結(jié)果中去除。例如,顯示系統(tǒng)130可以將連接后的句子弄散列,如果散列表中已經(jīng)具有所述散列值的款目,那這就表明當(dāng)前文獻(xiàn)與不久前散列的文獻(xiàn)重復(fù)。然后,顯示系統(tǒng)130可以用所述文獻(xiàn)中的一個(gè)文獻(xiàn)的文獻(xiàn)ID來(lái)更新此表。較佳地,顯示系統(tǒng)130保持那個(gè)具有文獻(xiàn)有效性的較高頁(yè)等級(jí)或其他查詢(xún)無(wú)關(guān)度量的文獻(xiàn)。此外,顯示系統(tǒng)130可以修正索引150以除去重復(fù)文獻(xiàn),使得它不會(huì)出現(xiàn)在將來(lái)的任何查詢(xún)的搜索結(jié)果中。
      索引系統(tǒng)110可直接應(yīng)用相同的重復(fù)文獻(xiàn)去除方法。當(dāng)爬行一文獻(xiàn)時(shí),執(zhí)行上述文獻(xiàn)說(shuō)明方法以獲得選定句子,然后將這些句子弄散列。如果散列表已填滿(mǎn),那再次地,新爬行的文獻(xiàn)被視為是前一文獻(xiàn)的重復(fù)文獻(xiàn)。同樣地,索引系統(tǒng)110可以接著包括那個(gè)具有較高頁(yè)等級(jí)或其他查詢(xún)無(wú)關(guān)度量的文獻(xiàn)。
      上文就一個(gè)可能的實(shí)施例特別詳細(xì)地描述了本發(fā)明。所屬技術(shù)領(lǐng)域的技術(shù)人員將明白,可在其他實(shí)施例中實(shí)施本發(fā)明。首先,各組件的特定命名、術(shù)語(yǔ)的首字母大寫(xiě)、屬性、數(shù)據(jù)結(jié)構(gòu)或任何其他編程或結(jié)構(gòu)方面都不是強(qiáng)制或重要的,實(shí)現(xiàn)本發(fā)明的機(jī)制或其特征可以具有不同的名稱(chēng)、格式或協(xié)議。另外,所述系統(tǒng)可以如上所述通過(guò)硬件和軟件的組合或完全在硬件元件中來(lái)實(shí)現(xiàn)。而且,本文所描述的各系統(tǒng)組件之間的特定功能性劃分僅僅是示范性的而不是強(qiáng)制性的;由單個(gè)系統(tǒng)組件執(zhí)行的功能可以改為由多個(gè)組件執(zhí)行,由多個(gè)組件執(zhí)行的功能可以改為由單個(gè)組件執(zhí)行。
      上述說(shuō)明的一部分就信息操作的算法和符號(hào)表示介紹了本發(fā)明的特征。這些算法說(shuō)明和表示是數(shù)據(jù)處理領(lǐng)域的技術(shù)人員所用的方法,因此最有效地將其工作內(nèi)容轉(zhuǎn)給了所屬技術(shù)領(lǐng)域的其他技術(shù)人員。雖然在功能或邏輯上描述了這些操作,但應(yīng)了解這些操作是由計(jì)算機(jī)程序?qū)崿F(xiàn)的。此外,還證實(shí)有時(shí)可方便地將這些操作排列稱(chēng)為模塊或其他功能名稱(chēng),而不會(huì)喪失一般性。
      除非另外特定指出,否則由上述討論顯而易見(jiàn),在整篇說(shuō)明中,利用“處理”或“計(jì)算(“computing/calculating”或“確定”或“顯示”等術(shù)語(yǔ)的論述是指計(jì)算機(jī)系統(tǒng)或類(lèi)似電子計(jì)算裝置的動(dòng)作和過(guò)程,其操縱和轉(zhuǎn)換計(jì)算機(jī)系統(tǒng)的存儲(chǔ)器或寄存器或其他此類(lèi)信息存儲(chǔ)、傳輸或顯示裝置內(nèi)表示為物理(電子)量的數(shù)據(jù)。
      本發(fā)明的某些方面包括本文所述的算法形式的過(guò)程步驟和指令。應(yīng)注意,本發(fā)明的過(guò)程步驟和指令可體現(xiàn)在軟件、固件或硬件中,當(dāng)體現(xiàn)在軟件中時(shí),可將其下載以駐存在由實(shí)時(shí)網(wǎng)絡(luò)操作系統(tǒng)使用的不同平臺(tái)上并從這些平臺(tái)操作。
      本發(fā)明還涉及一種用于執(zhí)行本文所述的操作的設(shè)備。這種設(shè)備可以根據(jù)所需的目的特定地建造,或者其可包括一通用計(jì)算機(jī),該計(jì)算機(jī)可以由一個(gè)存儲(chǔ)在一可由所述計(jì)算機(jī)訪問(wèn)的計(jì)算機(jī)可讀媒體上的計(jì)算機(jī)程序選擇性地啟動(dòng)或重新配置。此類(lèi)計(jì)算機(jī)程序可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)媒體中,例如(但不限于)任何類(lèi)型的磁盤(pán)(包括軟盤(pán))、光盤(pán)、CD-OM、磁光盤(pán)、只讀存儲(chǔ)器(ROM)、隨機(jī)存取存儲(chǔ)器(RAM)、EPROM、EEPROM、磁卡或光卡、特殊應(yīng)用集成電路(ASIC),或任何類(lèi)型的適合存儲(chǔ)電子指令的媒體,且各自耦接至計(jì)算機(jī)系統(tǒng)總線(xiàn)。此外,本說(shuō)明書(shū)中提到的計(jì)算機(jī)可以包括單個(gè)處理器,或者可以是采用多個(gè)處理器設(shè)計(jì)以便增加計(jì)算能力的架構(gòu)。
      本文提出的算法和操作固有地與任何特定的計(jì)算機(jī)或其他設(shè)備無(wú)關(guān)。各種通用系統(tǒng)也可以與根據(jù)本文的教示的程序一起使用,或者可證實(shí)可以便利地建造更特殊的設(shè)備來(lái)設(shè)備來(lái)執(zhí)行所需方法步驟。所屬技術(shù)領(lǐng)域的技術(shù)人員將明白各種這些系統(tǒng)所需的結(jié)構(gòu)以及等效變化。此外,并沒(méi)有參照任何特定的編程語(yǔ)言來(lái)描述本發(fā)明??芍梢允褂酶鞣N編程語(yǔ)言來(lái)實(shí)現(xiàn)本文所述的本發(fā)明的教示,而且提到任何特定語(yǔ)言是為了揭示本發(fā)明的實(shí)現(xiàn)及最佳模式。
      本發(fā)明很適合眾多拓?fù)鋵W(xué)上的各種各樣的計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)。在此領(lǐng)域,大網(wǎng)絡(luò)的配置和管理包括存儲(chǔ)裝置和計(jì)算機(jī),其在通信上耦合至諸如互聯(lián)網(wǎng)的網(wǎng)絡(luò)上的不同計(jì)算機(jī)和存儲(chǔ)裝置。
      最后應(yīng)注意,本說(shuō)明書(shū)中所用的語(yǔ)言主要是為了可讀性和指導(dǎo)性的目的而選擇的,也可以不選擇這種語(yǔ)言來(lái)描繪或限定發(fā)明主題。因此,本發(fā)明的揭示內(nèi)容只是想說(shuō)明而不是限制本發(fā)明的范疇,本發(fā)明的范疇如權(quán)利要求書(shū)所述。
      權(quán)利要求
      1.一種用于識(shí)別一文獻(xiàn)庫(kù)中的有效短語(yǔ)的計(jì)算機(jī)實(shí)施方法,所述方法包括從所述文獻(xiàn)庫(kù)中的文獻(xiàn)收集可能短語(yǔ);根據(jù)每個(gè)可能短語(yǔ)的出現(xiàn)頻率將所述每個(gè)可能短語(yǔ)歸類(lèi)為一好短語(yǔ)或一壞短語(yǔ);及僅選擇性地保留預(yù)測(cè)所述文獻(xiàn)庫(kù)中出現(xiàn)至少一個(gè)其它好短語(yǔ)的好短語(yǔ)。
      2.如權(quán)利要求1所述的方法,其中所述收集可能短語(yǔ)的步驟包括用一個(gè)多字短語(yǔ)窗口來(lái)遍歷一文獻(xiàn)的各字,并且選擇在所述窗口中以所述窗口中的一第一字開(kāi)始的字的所有序列作為候選短語(yǔ)。
      3.如權(quán)利要求2所述的方法,其中所述短語(yǔ)窗口包括至少4個(gè)字。
      4.如權(quán)利要求1所述的方法,其中所述收集可能短語(yǔ)的步驟包括為每個(gè)可能短語(yǔ)與每個(gè)好短語(yǔ)保存含有所述短語(yǔ)的文獻(xiàn)數(shù)的一頻率計(jì)數(shù);為每個(gè)可能短語(yǔ)與每個(gè)好短語(yǔ)保存所述短語(yǔ)的實(shí)例數(shù)的一頻率計(jì)數(shù);及為每個(gè)可能短語(yǔ)與每個(gè)好短語(yǔ)保存所述短語(yǔ)的獨(dú)特實(shí)例數(shù)的一頻率計(jì)數(shù)。
      5.如權(quán)利要求4所述的方法,其中一短語(yǔ)的一獨(dú)特實(shí)例包括一個(gè)與所述文獻(xiàn)中的相鄰內(nèi)容的不同之處在于語(yǔ)法或格式標(biāo)記的短語(yǔ)。
      6.如權(quán)利要求1所述的方法,其中所述將每個(gè)可能短語(yǔ)歸類(lèi)為一好短語(yǔ)或一壞短語(yǔ)的步驟包括在一可能短語(yǔ)出現(xiàn)在最小數(shù)量的文獻(xiàn)中并且在所述文獻(xiàn)庫(kù)中出現(xiàn)最小數(shù)量的實(shí)例時(shí),將所述可能短語(yǔ)歸類(lèi)為一好短語(yǔ)。
      7.如權(quán)利要求1所述的方法,其中所述將每個(gè)可能短語(yǔ)歸類(lèi)為一好短語(yǔ)或一壞短語(yǔ)的步驟包括在一可能短語(yǔ)出現(xiàn)在所述文獻(xiàn)庫(kù)中的最小數(shù)量的獨(dú)特實(shí)例中時(shí),將所述可能短語(yǔ)歸類(lèi)為一好短語(yǔ)。
      8.如權(quán)利要求1所述的方法,其中所述選擇性地保留預(yù)測(cè)所述文獻(xiàn)庫(kù)中出現(xiàn)至少一個(gè)其它好短語(yǔ)的好短語(yǔ)的步驟包括如果所述好短語(yǔ)相對(duì)于至少一個(gè)其它好短語(yǔ)的信息增益超過(guò)一大于1的閾值,那就保留所述好短語(yǔ)。
      9.如權(quán)利要求8所述的方法,其中一好短語(yǔ)gj相對(duì)于另一好短語(yǔ)gk的所述信息增益為I(j,k)=A(j,k)/E(j,k)其中,A(j,k)是gj與gk的實(shí)際同時(shí)出現(xiàn)率;且E(j,k)是gj與gk的預(yù)期同時(shí)出現(xiàn)率。
      10.如權(quán)利要求9所述的方法,其中當(dāng)好短語(yǔ)gj與gk位于彼此的預(yù)定數(shù)量的字中時(shí),好短語(yǔ)gj與gk同時(shí)出現(xiàn)在一文獻(xiàn)中。
      11.如權(quán)利要求1所述的方法,其中所述保留預(yù)測(cè)所述文獻(xiàn)庫(kù)中出現(xiàn)至少一個(gè)其它好短語(yǔ)的好短語(yǔ)的步驟包括除去一個(gè)相對(duì)于復(fù)數(shù)個(gè)其它好短語(yǔ)的信息增益小于一預(yù)定閾值的好短語(yǔ)。
      12.如權(quán)利要求1所述的方法,其進(jìn)一步包括從所述好短語(yǔ)中除去不完整短語(yǔ)。
      13.如權(quán)利要求12所述的方法,其中一個(gè)不完整短語(yǔ)是一個(gè)僅預(yù)測(cè)其擴(kuò)展短語(yǔ)的短語(yǔ),并且其中一短語(yǔ)的一擴(kuò)展短語(yǔ)是以所述短語(yǔ)開(kāi)始的所述短語(yǔ)的一超序列。
      14.如權(quán)利要求12所述的方法,其進(jìn)一步包括為每個(gè)不完整短語(yǔ)保存所述不完整短語(yǔ)的至少一個(gè)擴(kuò)展短語(yǔ);及響應(yīng)一搜索查詢(xún)中的一個(gè)作為一不完整短語(yǔ)的短語(yǔ),在所述搜索查詢(xún)中包括所述不完整搜索短語(yǔ)的至少一個(gè)擴(kuò)展短語(yǔ)。
      15.如權(quán)利要求1所述的方法,其進(jìn)一步包括確定同時(shí)出現(xiàn)好短語(yǔ)的同時(shí)出現(xiàn)計(jì)數(shù);及確定一好短語(yǔ)gj是否預(yù)測(cè)另一好短語(yǔ)gj以作為gj、gk同時(shí)出現(xiàn)的同時(shí)出現(xiàn)率以及gj與gk的預(yù)期同時(shí)出現(xiàn)率的函數(shù)。
      16.如權(quán)利要求1所述的方法,其進(jìn)一步包括為一好短語(yǔ)識(shí)別至少一個(gè)作為所述好短語(yǔ)的一相關(guān)短語(yǔ)的其它好短語(yǔ)。
      17.如權(quán)利要求16所述的方法,其中一好短語(yǔ)gj是另一好短語(yǔ)gk的一相關(guān)短語(yǔ),其中g(shù)j相對(duì)于gk的信息增益超過(guò)一預(yù)定閾值。
      18.一種用于識(shí)別一文獻(xiàn)庫(kù)中的相關(guān)短語(yǔ)的方法,所述方法包括為復(fù)數(shù)個(gè)短語(yǔ)中的每一個(gè)短語(yǔ)確定所述短語(yǔ)在所述文獻(xiàn)庫(kù)中的出現(xiàn)頻率;為復(fù)數(shù)對(duì)短語(yǔ)中的每一對(duì)短語(yǔ)確定所述對(duì)短語(yǔ)在所述文獻(xiàn)庫(kù)中的同時(shí)出現(xiàn)率;為所述文獻(xiàn)庫(kù)中的一對(duì)短語(yǔ)gj與gk確定短語(yǔ)gk相對(duì)于gj的信息增益以作為在所述文獻(xiàn)庫(kù)中g(shù)j與gk的所述同時(shí)出現(xiàn)率以及gk與gj的所述頻率的函數(shù);及識(shí)別gk作為gj的一相關(guān)短語(yǔ),其中在gj面前gk的信息增益超過(guò)一預(yù)定閾值。
      19.如權(quán)利要求18所述的方法,其中所述預(yù)定閾值約為100。
      20.如權(quán)利要求18所述的方法,其中在gk面前gj的信息增益I為I(j,k)=A(j,k)/E(j,k)其中,A(j,k)是gj與gk的實(shí)際同時(shí)出現(xiàn)率;且E(j,k)是gj與gk的預(yù)期同時(shí)出現(xiàn)率。
      21.如權(quán)利要求18所述的方法,其包括為每個(gè)短語(yǔ)gj,識(shí)別一包含所述短語(yǔ)與至少一個(gè)相關(guān)短語(yǔ)gk的群集。
      22.如權(quán)利要求18所述的方法,其進(jìn)一步包括為每個(gè)短語(yǔ)gj,識(shí)別一包括復(fù)數(shù)個(gè)相關(guān)短語(yǔ)的集合R;為集合R中的每對(duì)相關(guān)短語(yǔ)確定所述對(duì)相關(guān)短語(yǔ)的信息增益;及識(shí)別短語(yǔ)gj與集合R中相對(duì)于集合R中的每個(gè)其它短語(yǔ)具有非零信息增益的每個(gè)相關(guān)短語(yǔ),以作為gj的相關(guān)短語(yǔ)的一群集。
      23.如權(quán)利要求22所述的方法,其進(jìn)一步包括向每個(gè)群集指派一個(gè)唯一群集號(hào)以作為包括在所述群集中的所述相關(guān)短語(yǔ)的函數(shù)。
      24.如權(quán)利要求22所述的方法,其進(jìn)一步包括向所述群集指派一個(gè)名稱(chēng),所述名稱(chēng)包括在所述群集的所述相關(guān)短語(yǔ)中具有最高信息增益的相關(guān)短語(yǔ)。
      25.如權(quán)利要求18所述的方法,其進(jìn)一步包括為一短語(yǔ)gj存儲(chǔ)一個(gè)位向量,其中每個(gè)位位置對(duì)應(yīng)于一有效短語(yǔ),并且對(duì)應(yīng)于所述位位置的所述位指示所述有效短語(yǔ)是否是gj的一個(gè)相關(guān)短語(yǔ)。
      26.一種用于識(shí)別一文獻(xiàn)庫(kù)中的有效短語(yǔ)的計(jì)算機(jī)程序產(chǎn)品,其包含計(jì)算機(jī)可操作指令,所述指令存儲(chǔ)在一計(jì)算機(jī)可存取媒體中并適合于控制一處理器來(lái)執(zhí)行以下操作從所述文獻(xiàn)庫(kù)中的文獻(xiàn)收集可能短語(yǔ);根據(jù)每個(gè)可能短語(yǔ)的出現(xiàn)頻率將每個(gè)可能短語(yǔ)歸類(lèi)為一好短語(yǔ)或一壞短語(yǔ);及僅選擇性地保留預(yù)測(cè)所述文獻(xiàn)庫(kù)中出現(xiàn)至少一個(gè)其它好短語(yǔ)的好短語(yǔ)。
      全文摘要
      本發(fā)明涉及一種信息檢索系統(tǒng),其使用短語(yǔ)來(lái)編制索引、檢索、組織并描述文獻(xiàn)。識(shí)別預(yù)測(cè)文獻(xiàn)中存在其它短語(yǔ)的短語(yǔ)。根據(jù)文獻(xiàn)中所包括的短語(yǔ)來(lái)對(duì)文獻(xiàn)編制索引。同時(shí)識(shí)別相關(guān)短語(yǔ)與擴(kuò)展短語(yǔ)。識(shí)別并使用查詢(xún)中的短語(yǔ)來(lái)檢索文獻(xiàn)并對(duì)文獻(xiàn)分等級(jí)。同時(shí)使用短語(yǔ)來(lái)群集搜索結(jié)果中的文獻(xiàn)、創(chuàng)建文獻(xiàn)說(shuō)明并從搜索結(jié)果與索引中去除重復(fù)文獻(xiàn)。
      文檔編號(hào)G06F17/30GK1728142SQ20051008537
      公開(kāi)日2006年2月1日 申請(qǐng)日期2005年7月26日 優(yōu)先權(quán)日2004年7月26日
      發(fā)明者安娜·林恩·帕特森 申請(qǐng)人:咕果公司
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1