專利名稱:響應(yīng)來自用戶的查詢的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明的各種實(shí)施例涉及信息檢索系統(tǒng),諸如提供法律文檔或其它相關(guān)內(nèi)容的那些。
背景技術(shù):
美國法律體系以及世界各地的一些其它法律體系很大程度上依賴于書面司法意見、書面法官宣判,以便明白地表達(dá)或解釋支配(govern)爭議解決的法律。每個(gè)司法意見不僅對(duì)解決特殊的法律爭議重要,而且對(duì)在將來解決類似的爭議或者案件重要。因?yàn)檫@點(diǎn), 我們的法律體系內(nèi)的法官和律師不斷地對(duì)日益膨脹的大量的過去意見、或者案例法進(jìn)行研究,找出與新爭議的解決最相關(guān)的那些。為了便于這些搜索,St.Paul 的 West Publishing 公司,Minnesota (進(jìn)行如 Thomson West那樣的商業(yè)活動(dòng))從跨美國的各個(gè)法院收集司法意見,并且使得它們可以通過它的flfestlaw 信息檢索系統(tǒng)以電子方式得到。(Westlaw是Thomson West的商標(biāo)。)這些意見中的很多是帶有對(duì)其它意見的文獻(xiàn)目錄引用或超鏈接來發(fā)表的,該其它意見是依賴于這些意見中的各種法律點(diǎn)或者是對(duì)這些意見中的各種法律點(diǎn)進(jìn)行評(píng)判。引用和超鏈接使研究者能找到包含相關(guān)意見或者通過計(jì)算機(jī)網(wǎng)絡(luò)容易地以電子方式訪問的相關(guān)意見的印刷冊。Westlaw系統(tǒng)使得用戶能夠搜索1億多文檔。本發(fā)明人所意識(shí)到的、對(duì)于該有效且非常成功的系統(tǒng)的至少一個(gè)問題是除了意見以外,還存在很多其它類型的文檔,它們可能對(duì)法律研究者有用,但是常常被忽略。例如,一些用戶沒有充分利用West Key Number 系統(tǒng),該系統(tǒng)提供了在司法意見中做出的法律點(diǎn)的分類概要(West Key Number是Hiomson West的商標(biāo))。稱為批注(headnote)的概要被分類到90,000個(gè)以上不同的法律種類,并且可被用于各種目的,諸如評(píng)價(jià)法律意見與特定法律問題的相關(guān)度。其它的則忽略了次級(jí)資源,諸如美國法律報(bào)告(American Law R印orts,ALR),其包括大約4,000篇深入的學(xué)術(shù)文章,每篇都教授了關(guān)于一個(gè)獨(dú)立的法律問題。因此,本發(fā)明人已經(jīng)認(rèn)識(shí)到對(duì)用于法律文檔的信息檢索系統(tǒng)的改進(jìn)的需要。
發(fā)明內(nèi)容
為了解決這個(gè)和/或其它需要,本發(fā)明人設(shè)計(jì)了響應(yīng)于對(duì)法律意見的查詢而便于相關(guān)非意見法律文檔的檢索的系統(tǒng)、方法和軟件。一個(gè)示范系統(tǒng)自動(dòng)將對(duì)于法律意見的用戶查詢遞交給第一和第二數(shù)據(jù)庫,第一數(shù)據(jù)庫存儲(chǔ)法律意見并且第二數(shù)據(jù)庫存儲(chǔ)非意見文檔,諸如來自West Key Number系統(tǒng)的批注、來自美國法律報(bào)告的文章和/或來自美國法學(xué) (American Jurisprudence)的文章。系統(tǒng)中的第一搜索引擎基于該查詢而在第一數(shù)據(jù)庫中搜索相關(guān)的法律意見。第二搜索引擎搜索第二數(shù)據(jù)庫兩次第一次基于用戶查詢以及第二次基于來自第一搜索引擎的結(jié)果。在一些實(shí)施例中,第一搜索引擎是常規(guī)的tf-idf (單文本詞匯頻率一逆文本頻率)搜索引擎,以及第二搜索引擎是基于合成矢量的分類器。來自第一和第二數(shù)據(jù)庫的結(jié)果都經(jīng)由圖形用戶界面呈現(xiàn)給用戶,該圖形用戶界面在分開的區(qū)域、窗格或窗口中顯示結(jié)果。在其它實(shí)施例中,第二數(shù)據(jù)庫提供了專題討論文、州實(shí)踐指南(state practice guides)、法令和/或法律評(píng)論文章以擴(kuò)充案例法數(shù)據(jù)庫的搜索。而且,其它實(shí)施例增加了法令搜索、規(guī)章搜索、次級(jí)(secondary)材料搜索以及新聞搜索。一些實(shí)施例為訪問第二數(shù)據(jù)庫的文檔收取獨(dú)立的或者附加的費(fèi)用。
圖1是相應(yīng)于本發(fā)明的一個(gè)或多個(gè)實(shí)施例的示范信息檢索系統(tǒng)100的圖2是相應(yīng)于操作系統(tǒng)100以及本發(fā)明的一個(gè)或多個(gè)實(shí)施例的一種或多種示范方法的流程圖;以及
圖3是相應(yīng)于本發(fā)明的一個(gè)或多個(gè)實(shí)施例的示范查詢窗口 300的復(fù)制; 圖4是相應(yīng)于本發(fā)明的一個(gè)或多個(gè)實(shí)施例的示范用戶界面400的復(fù)制。圖5是相應(yīng)于本發(fā)明的一個(gè)或多個(gè)實(shí)施例的示范用戶界面500的復(fù)制。圖6是相應(yīng)于本發(fā)明的一個(gè)或多個(gè)實(shí)施例的示范用戶界面600的復(fù)制。圖7是用于相應(yīng)于本發(fā)明的一個(gè)或多個(gè)實(shí)施例的次級(jí)搜索模塊的示范結(jié)構(gòu)和工作流程圖。圖8是用于相應(yīng)于本發(fā)明的一個(gè)或多個(gè)實(shí)施例的文本分類器的示范結(jié)構(gòu)或工作流程圖。
具體實(shí)施例方式參考并結(jié)合上述圖的本說明描述了發(fā)明的一個(gè)或多個(gè)具體實(shí)施例。這些被提供來不是限制而是僅僅例證和教授本發(fā)明的實(shí)施例足夠詳細(xì)地被示出和描述以使本領(lǐng)域的技術(shù)人員能實(shí)現(xiàn)或?qū)嵺`本發(fā)明。因此,在適當(dāng)之處為避免混淆本發(fā)明,本說明將忽略本領(lǐng)域技術(shù)人員已知的一些信息。另外,本文檔引入以下項(xiàng)作為參考2002年12月23日提交的美國臨時(shí)專利申請(qǐng) 60/436,191(律師案號(hào)962. 021PRV) ;2001年12月21日提交的美國專利申請(qǐng)10/027,914(律師案號(hào)962.015US1);2002年12月30日提交的美國臨時(shí)專利申請(qǐng)60/437,169 (律師案號(hào)962.016PRV)以及2003年6月19日提交的美國臨時(shí)專利申請(qǐng)60/480,476 (律師案號(hào) 962. 016PR0)。本申請(qǐng)的一個(gè)或多個(gè)實(shí)施例可以組合或者另外通過參考申請(qǐng)中的教義來擴(kuò)充而產(chǎn)生其它實(shí)施例。示范信息檢索系統(tǒng)
圖1示出了示范在線信息檢索系統(tǒng)100。系統(tǒng)100包括一個(gè)或多個(gè)數(shù)據(jù)庫110、一個(gè)或多個(gè)服務(wù)器120以及一個(gè)或多個(gè)訪問設(shè)備130。數(shù)據(jù)庫110包括一組主數(shù)據(jù)庫112和一組第二數(shù)據(jù)庫114。在示范實(shí)施例中,主數(shù)據(jù)庫112包括案例法數(shù)據(jù)庫1121和法令數(shù)據(jù)庫1122,其分別包括來自一個(gè)或多個(gè)地方、 州、聯(lián)邦和/或國際管轄區(qū)域的司法意見和法令。次級(jí)數(shù)據(jù)庫114,包含次級(jí)法律機(jī)關(guān)的法律文檔或更普遍地從屬于主數(shù)據(jù)庫中司法或立法機(jī)關(guān)提供的那些的法律文檔,該次級(jí)數(shù)據(jù)庫包括ALR (美國法律報(bào)告)數(shù)據(jù)庫1141、AMJUR數(shù)據(jù)庫1142、West Key Number (KNUM)分類數(shù)據(jù)庫1143、以及法律評(píng)論(LREV)數(shù)據(jù)庫1144。其它實(shí)施例可能包括非法律數(shù)據(jù)庫,其包括財(cái)政、科學(xué)或保健信息。此外,在一些實(shí)施例中,主和次級(jí)意味著搜索結(jié)果的呈現(xiàn)次序, 而不是必定意味著搜索結(jié)果的權(quán)威性或可信性。表現(xiàn)為一個(gè)或多個(gè)電子、磁或光數(shù)據(jù)存儲(chǔ)設(shè)備的示范形式的數(shù)據(jù)庫110包括或者另外與各自的索引(未示出)相關(guān)聯(lián)。每個(gè)索引包括與相應(yīng)的文檔地址相關(guān)聯(lián)的術(shù)語和短語、標(biāo)識(shí)符和其它常規(guī)信息。數(shù)據(jù)庫110經(jīng)由諸如局域網(wǎng)、廣域網(wǎng)、專用網(wǎng)或者虛擬專用網(wǎng)的無線或有線通信網(wǎng)絡(luò)被耦合到或者能夠被耦合到服務(wù)器120。服務(wù)器120通常代表用來服務(wù)于帶有關(guān)聯(lián)小應(yīng)用程序、ActiveX控制、遠(yuǎn)程調(diào)用對(duì)象或者其它相關(guān)軟件和數(shù)據(jù)結(jié)構(gòu)的網(wǎng)頁形式或者其它標(biāo)記語言形式的數(shù)據(jù)的一個(gè)或多個(gè)服務(wù)器,以服務(wù)于不同“厚度(thickness)”的客戶。更具體地,服務(wù)器120包括處理器模塊 121、存儲(chǔ)器模塊122、訂戶數(shù)據(jù)庫123、主搜索模塊124、次級(jí)搜索模塊125以及用戶界面模
塊 126ο處理器模塊121包括一個(gè)或多個(gè)本地或分布式處理器、控制器或虛擬機(jī)。在示范實(shí)施例中,處理器模塊121采取任何便利的或者期望的形式。表現(xiàn)為一個(gè)或多個(gè)電子、磁或光數(shù)據(jù)存儲(chǔ)設(shè)備的示范形式的存儲(chǔ)器模塊122存儲(chǔ)訂戶數(shù)據(jù)庫123、主搜索模塊124、次級(jí)搜索模塊125以及用戶界面模塊126。訂戶數(shù)據(jù)庫123包括訂戶相關(guān)的數(shù)據(jù),用于控制、掌管并管理數(shù)據(jù)庫110的帳單到期即付(pay -as- you 一 go)或者基于訂閱的訪問。在示范實(shí)施例中,訂戶數(shù)據(jù)庫123 包括一個(gè)或多個(gè)偏好數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)結(jié)構(gòu)1231是其代表。數(shù)據(jù)結(jié)構(gòu)1231包括顧客或者用戶標(biāo)識(shí)符部分1231A,其邏輯上與一個(gè)或多個(gè)次級(jí)搜索偏好相關(guān)聯(lián),諸如偏好1231B、1231C 以及1231D。偏好1231B包括一個(gè)缺省值,其支配著當(dāng)搜索選擇的數(shù)據(jù)庫,諸如案例法數(shù)據(jù)庫時(shí),使能還是禁止補(bǔ)充搜索。偏好1231C包括一個(gè)缺省值,其支配著次級(jí)搜索結(jié)果的補(bǔ)充的呈現(xiàn),例如,各種內(nèi)容類型的列出優(yōu)先權(quán)或者這樣的結(jié)果的最大顯示數(shù)。偏好1231D包括一個(gè)缺省值,其支配著在次級(jí)搜索期間使用兩個(gè)或多個(gè)次級(jí)搜索算法或接受準(zhǔn)則中的哪個(gè) (沒有臨時(shí)的用戶超控(override),例如在特定的查詢或者會(huì)話期間的超控,則補(bǔ)充搜索偏好的缺省值來支配)。主搜索模塊IM包括一個(gè)或多個(gè)搜索引擎以及相關(guān)的用戶界面組件,用于接收并處理對(duì)于一個(gè)或多個(gè)數(shù)據(jù)庫110的用戶查詢。在示范實(shí)施例中,與搜索模塊IM相關(guān)聯(lián)的一個(gè)或多個(gè)搜索引擎提供布爾、tf-idf·、自然語言搜索能力。次級(jí)搜索模塊125包括一個(gè)或多個(gè)搜索引擎,用于接收并處理對(duì)于一個(gè)或多個(gè)數(shù)據(jù)庫Iio的查詢。在示范實(shí)施例中,次級(jí)搜索模塊125通過使用用戶查詢和/或來自主搜索模塊1 的結(jié)果,提供基于合成矢量的分類搜索。在其它實(shí)施例中,第二數(shù)據(jù)庫提供專題討論文、州實(shí)踐指南、法令和/或法律評(píng)論文章以擴(kuò)充案例法數(shù)據(jù)庫的搜索。而且,其它實(shí)施例增加了法令搜索、規(guī)章搜索、次級(jí)材料搜索以及新聞搜索。一些實(shí)施例為訪問第二數(shù)據(jù)庫的文檔收取獨(dú)立的或者附加的費(fèi)用。用戶界面模塊1 包括機(jī)器可讀和/或可執(zhí)行指令組,用于在諸如訪問設(shè)備130 的一個(gè)或多個(gè)訪問設(shè)備上,通過無線或有線通信網(wǎng)絡(luò)完全或部分地定義基于web的用戶界面,諸如搜索界面1261和結(jié)果界面1262。訪問設(shè)備130通常代表一個(gè)或多個(gè)訪問設(shè)備。在示范實(shí)施例中,訪問設(shè)備130表現(xiàn)為個(gè)人計(jì)算機(jī)、工作站、個(gè)人數(shù)字助理、移動(dòng)電話、或者能夠給有效的用戶界面提供服務(wù)器或者數(shù)據(jù)庫的任何其它設(shè)備的形式。具體地,訪問設(shè)備130包括處理器模塊131 —個(gè)或多個(gè)處理器(或處理電路)131、存儲(chǔ)器132、顯示器133、鍵盤134以及圖形指示器或者選擇器 1;35。處理器模塊131包括一個(gè)或多個(gè)處理器、處理電路、或者控制器。在示范實(shí)施例中,處理器模塊131采取任何便利的或者期望的形式。存儲(chǔ)器132被耦合到處理器模塊131。存儲(chǔ)器132為操作系統(tǒng)136、瀏覽器137以及圖形用戶界面(⑶I )138存儲(chǔ)代碼(機(jī)器可讀的或者可執(zhí)行的指令)。在示范實(shí)施例中,操作系統(tǒng)136采取微軟Windows操作系統(tǒng)的版本形式,并且瀏覽器137采取微軟hternet Explorer版本的形式。操作系統(tǒng)136和瀏覽器137不僅接收來自鍵盤134和選擇器135的輸入,還支持在顯示器133上再現(xiàn)⑶I 138。剛一再現(xiàn),GUI 138就提供與一個(gè)或多個(gè)交互控制特征(或用戶界面元素)相關(guān)聯(lián)的數(shù)據(jù)。(示范實(shí)施例通過使用來自服務(wù)器120的小應(yīng)用程序或者其它與程序有關(guān)的對(duì)象或結(jié)構(gòu),定義了界面138的一個(gè)或多個(gè)部分。)
更具體地,圖形用戶界面138定義或提供一個(gè)或多個(gè)顯示區(qū)域,諸如查詢或搜索區(qū)域 1381以及搜索結(jié)果區(qū)域1382。查詢區(qū)域1381被定義在存儲(chǔ)器中并且剛一再現(xiàn)就包括一個(gè)或多個(gè)交互控制特征(元件或窗口小部件),諸如查詢輸入?yún)^(qū)域1381A、查詢遞交按鈕1381B 以及次級(jí)搜索選擇1381C。搜索結(jié)果區(qū)域1382也被定義在存儲(chǔ)器中,并且剛一再現(xiàn)就包括主結(jié)果區(qū)域1382A和次級(jí)結(jié)果區(qū)域1382B。區(qū)域1382A包括一個(gè)或多個(gè)交互控制特征,諸如用于經(jīng)由服務(wù)器120從一個(gè)或多個(gè)數(shù)據(jù)庫110訪問或檢索一個(gè)或多個(gè)相應(yīng)的主搜索結(jié)果文檔的特征A1、A2、A3。每個(gè)控制特征包括各自的文檔標(biāo)識(shí)符或者標(biāo)簽,諸如DOC X、D0C Y、D0C Z,以為相應(yīng)的文檔識(shí)別各自的題目和/或引用。區(qū)域1382B包括一個(gè)或多個(gè)交互控制特征,諸如用于經(jīng)由服務(wù)器120從一個(gè)或多個(gè)數(shù)據(jù)庫110訪問或者檢索一個(gè)或多個(gè)相應(yīng)的次搜索結(jié)果文檔的特征B1、B2、B3。每個(gè)控制特征包括各自的文檔標(biāo)識(shí)符或者標(biāo)簽,諸如 DOC UDOC 2, DOC 3,以為相應(yīng)的文檔識(shí)別各自的題目和/或引用。在示范實(shí)施例中,這些控制特征的每一個(gè)采取超鏈接或者其它瀏覽器可兼容的命令輸入的形式,并且提供對(duì)查詢區(qū)域1381和搜索結(jié)果區(qū)域1382的訪問以及控制。區(qū)域1382 中控制特征的用戶選擇導(dǎo)致界面138區(qū)域內(nèi)的相應(yīng)文檔的至少一部分的檢索和顯示(在本圖中沒有示出)。盡管圖1將查詢區(qū)域1381和結(jié)果區(qū)域1382顯示為同時(shí)顯示的,但是一些實(shí)施例在分開的時(shí)刻呈現(xiàn)它們。此外或者替代地,一些實(shí)施例在區(qū)域1382內(nèi)混合主和次結(jié)果。這些實(shí)施例的一些變化以將次級(jí)結(jié)果與主結(jié)果明顯區(qū)分開來的字體呈現(xiàn)該次級(jí)結(jié)果, 和/或組合指示它們?yōu)榇渭?jí)或補(bǔ)充的圖標(biāo)來呈現(xiàn)該次級(jí)結(jié)果。示范操作
圖2示出了操作諸如系統(tǒng)100的系統(tǒng)的一種或多種示范方法的流程圖200。流程圖200 包括塊210 - 270,這些塊和本描述中的其它塊一樣在示范實(shí)施例中以連續(xù)順序被安排并且被描述。然而,通過使用多個(gè)處理器或者類似處理器的設(shè)備或者組織為兩個(gè)或多個(gè)虛擬機(jī)或子處理器的單個(gè)處理器,一些實(shí)施例并行執(zhí)行兩個(gè)或多個(gè)塊。一些實(shí)施例還改變處理順序或者提供不同的功能分割以實(shí)現(xiàn)類似的結(jié)果。例如,一些實(shí)施例可以改變客戶一服務(wù)器的功能分配,以便于在服務(wù)器端示出和描述的功能在客戶端全部或部分地實(shí)現(xiàn),并且反之亦然。而且,還有其它實(shí)施例將所述塊實(shí)現(xiàn)為兩個(gè)或多個(gè)互連的硬件模塊,相關(guān)的控制和數(shù)據(jù)信號(hào)在模塊之間以及通過模塊來通信。因此,示范處理流程(圖2中以及在本描述的其它地方)應(yīng)用到軟件、硬件以及固件實(shí)現(xiàn)。塊210需要呈現(xiàn)搜索界面給用戶。在示范實(shí)施例中,這需要用戶將客戶訪問設(shè)備中的瀏覽器指向諸如Westlaw系統(tǒng)的在線信息檢索系統(tǒng)的互聯(lián)網(wǎng)一協(xié)議(IP)地址,然后登錄到該系統(tǒng)。成功的登錄導(dǎo)致諸如圖1中的界面138或圖3中的界面300 (或其一個(gè)或多個(gè)部分)的基于web的搜索界面從服務(wù)器120輸出、存儲(chǔ)在存儲(chǔ)器132中并且通過客戶訪問設(shè)備130來顯示。如圖3中所示,界面300包括多個(gè)交互控制特征,包括查詢輸入?yún)^(qū)域310、查詢遞交命令320以及次級(jí)指示區(qū)域330。查詢輸入?yún)^(qū)域310接收定義查詢的文本輸入。次級(jí)指示區(qū)域320允許用戶明確地使能或禁止次級(jí)數(shù)據(jù)庫或資源的搜索。該指示區(qū)域的初始狀態(tài)由存儲(chǔ)在諸如數(shù)據(jù)庫124的訂戶數(shù)據(jù)庫中的缺省用戶偏好值來確定。在示范實(shí)施例中,改變指示區(qū)域的狀態(tài)是為當(dāng)前的查詢改變了指示;缺省偏好值不受影響,除非是在較高的控制級(jí)別、諸如經(jīng)由偏好控制區(qū)域被改變。一些實(shí)施例還包括交互控制特征,諸如復(fù)選框或菜單組,其允許用戶定義與次級(jí)結(jié)果的顯示相關(guān)的偏好。例如,一個(gè)實(shí)施例允許用戶通過內(nèi)容類型來為次級(jí)結(jié)果的顯示次序區(qū)分優(yōu)先次序,具體而言是哪種內(nèi)容類型應(yīng)當(dāng)被首先列出。查詢遞交命令320允許用戶使得訪問設(shè)備130將在輸入?yún)^(qū)域310中定義的查詢以及次級(jí)指示區(qū)域320中的設(shè)置遞交給服務(wù)器,諸如服務(wù)器120。通過使用界面138或300,用戶可以定義或遞交查詢并使得它輸出給服務(wù)器,諸如服務(wù)器120。在其它實(shí)施例中,查詢可能已經(jīng)被用戶定義或選擇以自動(dòng)地基于進(jìn)度表或者事件驅(qū)動(dòng)來執(zhí)行。在這些情況下,查詢可能已經(jīng)駐留在信息檢索系統(tǒng)的服務(wù)器的存儲(chǔ)器中,并且因此不需要重復(fù)地傳給服務(wù)器。然后執(zhí)行前進(jìn)到塊220。塊220需要接收查詢。在示范實(shí)施例中,查詢包括查詢串和/或包括一個(gè)或多個(gè)選擇數(shù)據(jù)庫的一組目標(biāo)數(shù)據(jù)庫。在一些實(shí)施例中,查詢串包括一組術(shù)語和/或連接符,并且在其它實(shí)施例中包括自然語言串。而且,在一些實(shí)施例中,目標(biāo)數(shù)據(jù)庫組是基于系統(tǒng)或搜索界面的形式而被自動(dòng)定義或者缺省地定義的。而且在一些實(shí)施例中,接收到的查詢可能伴隨有其它信息,諸如定義是否搜索次級(jí)資源的信息。在任何情況下,執(zhí)行在塊230處繼續(xù)。塊230需要基于或者響應(yīng)于接收到的查詢來識(shí)別一組文檔或搜索結(jié)果。在示范實(shí)施例中,這需要服務(wù)器或組件受服務(wù)器控制或命令,以執(zhí)行對(duì)于目標(biāo)數(shù)據(jù)庫組的查詢并且識(shí)別滿足查詢準(zhǔn)則的文檔。執(zhí)行前進(jìn)到塊對(duì)0。塊240需要基于查詢而識(shí)別一組一個(gè)或多個(gè)次級(jí)文檔。(在一些實(shí)施例中,雙重識(shí)別塊的執(zhí)行要視一個(gè)規(guī)定是否識(shí)別重復(fù)文檔的缺省或者選擇的用戶選項(xiàng)而定。)在示范實(shí)施例中,次級(jí)識(shí)別通常需要使用第二搜索引擎或者更準(zhǔn)確地說多分類器文本分類引擎以搜索第二數(shù)據(jù)庫。更具體地,示范實(shí)施例遵循流程圖MO中示出的方法,其包括處理塊Ml - 2440 塊241需要基于用戶查詢來搜索次級(jí)數(shù)據(jù)庫。在示范實(shí)施例中,該搜索需要使用次級(jí)搜索模塊,其包括基于合成矢量的分類器。更具體地,一些示范系統(tǒng)通過確定一組合成得分來分類或者幫助人工分類一個(gè)輸入文本,每個(gè)合成得分對(duì)應(yīng)于被認(rèn)為用于包含作為次級(jí)搜索結(jié)果的各個(gè)文檔并且基于“一個(gè)或多個(gè),優(yōu)選地兩個(gè)或多個(gè)分類器的相似度或者相關(guān)度得分”。確定每個(gè)得分需要計(jì)算并應(yīng)用類別特定的權(quán)重到下列得分類型的一個(gè)或多個(gè)
第一類型,基于查詢文本(或主結(jié)果文檔)和與次級(jí)數(shù)據(jù)庫(可能的次級(jí)文檔)中一個(gè)相應(yīng)文檔相關(guān)聯(lián)的文本的相似度;
第二類型,基于一組與查詢文本相關(guān)聯(lián)的Key Number類和一組與可能的次級(jí)文檔中一個(gè)相應(yīng)文檔相關(guān)聯(lián)的Key Number類的相似度;
第三類型,基于給定一組一個(gè)或多個(gè)Key Number類時(shí)、可能的次級(jí)文檔中的一個(gè)文檔與查詢文本相關(guān)聯(lián)的可能性;以及
第四類型,基于給定本文(例如,批注)時(shí)、查詢文本與可能次級(jí)文檔中的一個(gè)相應(yīng)文檔相關(guān)聯(lián)的可能性。決定是否將特定的文檔包括在次級(jí)搜索結(jié)果中或者從其中排除需要對(duì)照決策準(zhǔn)則來評(píng)估每個(gè)得分,諸如文檔特定的閾值。塊對(duì)2需要基于來自塊230處的第一搜索引擎的結(jié)果而搜索次級(jí)數(shù)據(jù)庫。在示范實(shí)施例中,該搜索需要從主搜索結(jié)果的文檔子集中提取文本,諸如名詞對(duì),以定義特征池或集合。提取的文本然后被輸入到文本分類器中,諸如上面指出的多分類器引擎, 并且與可能相關(guān)的文章或者更普遍地次級(jí)數(shù)據(jù)庫中的文檔相比較。在文本分類器的上下文中,諸如ALR、AmJur或Key Number的數(shù)據(jù)庫中的可能的文檔,批注聚集(headnote conglomeration)被視為分類。然后那些由多分類器引擎依靠滿足相似度閾值而判斷為充分相似于其它搜索結(jié)果的文檔被包括在次級(jí)搜索結(jié)果中。在一些實(shí)施例中,來自主搜索結(jié)果的預(yù)置個(gè)數(shù)的最相關(guān)文檔一例如,前5個(gè)文檔或者文檔的前5% —被用作基礎(chǔ)。而且,一些實(shí)施例可能將主搜索結(jié)果的子集用作“更類似于其”類型的次級(jí)數(shù)據(jù)庫的搜索的基礎(chǔ)。執(zhí)行在塊243處繼續(xù)。塊243需要將來自次級(jí)數(shù)據(jù)庫的搜索結(jié)果組合到次級(jí)結(jié)果集合中。在示范實(shí)施例中,擴(kuò)展的或者次級(jí)搜索結(jié)果包括被確定為與查詢相關(guān)的ALR、AmJur部分以及West Key Number系統(tǒng)分類代碼(和/或相關(guān)聯(lián)的批注)。在示范實(shí)施例中,次級(jí)數(shù)據(jù)庫的主題范圍集中在法律材料。然而,在一些實(shí)施例中,任何相關(guān)的信息域可以被搜索,包括例如新聞和財(cái)政數(shù)據(jù)庫、專業(yè)目錄等等。在確定次級(jí)數(shù)據(jù)庫文檔的相關(guān)度中,一些實(shí)施例依賴次級(jí)搜索引擎之外的顧客跟蹤或者使用信息。 該信息確保在相似的搜索之后,頻繁被使用(也就是“點(diǎn)擊”)、打印和/或關(guān)鍵詞引用的文檔更可能被包括在次級(jí)結(jié)果中。此外,一些實(shí)施例將文檔中的術(shù)語位置用作在確定候選次級(jí)結(jié)果的相關(guān)得分或排序中的因素。執(zhí)行在塊250處繼續(xù)。塊250需要將來自主和次級(jí)數(shù)據(jù)庫的結(jié)果經(jīng)由圖形用戶界面呈現(xiàn)給用戶。在示范實(shí)施例中,這需要在一個(gè)或多個(gè)分開的區(qū)域、窗格或窗口中、臨近主結(jié)果的列表顯示次級(jí)結(jié)果的列表,每個(gè)列出的文檔或者更一般地是每個(gè)項(xiàng),與諸如超鏈接的相應(yīng)交互控制特征相關(guān)聯(lián),其可由用戶選擇以在相同或分開的窗口中調(diào)用關(guān)聯(lián)文檔(或其一部分)的檢索和/或顯示。例如,參見圖1中的區(qū)域1381和1382或者圖3中的區(qū)域310和320。一些實(shí)施例自動(dòng)地將在分開的窗格中示出的次級(jí)項(xiàng)數(shù)限制到預(yù)定的項(xiàng)數(shù),諸如 10。示范結(jié)果包括到來自美國法律報(bào)告(ALR)和美國法學(xué)2d (AMJUR)數(shù)據(jù)庫的文檔的鏈接,以及到West主題和檢索號(hào)參考的鏈接。(一些實(shí)施例還排除諸如ALR或AmJur文檔的次級(jí)結(jié)果文檔,其具有紅色KeyCite (關(guān)鍵詞引用)狀態(tài)標(biāo)志(指示文檔已被淘汰))。此外,包括案例法和法令的主結(jié)果可能包括到論文和法律評(píng)論的鏈接。一些實(shí)施例包括“擴(kuò)展”控制特征,其允許用戶選擇性地?cái)U(kuò)展顯示的次級(jí)結(jié)果列表的數(shù)量和/或大小,并且因此獲得對(duì)次級(jí)結(jié)果的更加擴(kuò)展的列表的訪問。塊沈0需要呈現(xiàn)次級(jí)搜索結(jié)果中的一個(gè)或多個(gè)。在示范實(shí)施例中,這需要用戶點(diǎn)擊列出的次級(jí)搜索結(jié)果中的一個(gè)或多個(gè)并且由此導(dǎo)致訪問設(shè)備130發(fā)起或遞交對(duì)這一個(gè)或多個(gè)項(xiàng)的請(qǐng)求。依賴于通常由訂閱參數(shù)確定的用戶的訪問權(quán),用戶帳戶被收取訪問次級(jí)搜索結(jié)果的費(fèi)用。一些實(shí)施例呈現(xiàn)關(guān)于任何費(fèi)用評(píng)估的咨詢消息給用戶,以給用戶提供一個(gè)選項(xiàng)來取消訪問。例如,點(diǎn)擊列出的項(xiàng)322 (圖3中)導(dǎo)致在諸如圖4中的界面400的界面內(nèi)呈現(xiàn)相應(yīng)的ALR文章。界面400包括示出至少一部分相應(yīng)的ALR文章的文檔顯示區(qū)域410、重新列出ALR文章的識(shí)別信息的文檔列表420、以及可選擇來導(dǎo)致為用戶進(jìn)行文章打印、電子郵寄或其它輸出的打印命令輸入430。類似地,選擇或點(diǎn)擊圖3中列出的項(xiàng)3M導(dǎo)致在諸如圖5中的界面500的界面內(nèi)呈現(xiàn)相應(yīng)的AMJUR文章。界面500包括示出至少一部分相應(yīng)的AMJUR文章的文檔顯示區(qū)域 510、重新列出AMJUR文章的識(shí)別信息的文檔列表520、以及可選擇來導(dǎo)致為用戶進(jìn)行文章打印、電子郵寄或其它輸出的打印命令輸入530。選擇在圖3中列出的項(xiàng)326導(dǎo)致在諸如圖6中的界面600的界面的呈現(xiàn),其顯示示出與列出的項(xiàng)326 Wriest Key Number分類有關(guān)的批注的定制摘要頁。界面600包括示出至少一部分相應(yīng)的定制摘要頁的文檔顯示區(qū)域610、重新列出West Key Number分類的識(shí)別信息的文檔列表620、以及可選擇來打印、電子郵寄或另外輸出文章的打印命令輸入 630。在察看了次級(jí)搜索結(jié)果之后,用戶可以重新顯示主搜索結(jié)果(以及次級(jí)搜索結(jié)果)。例如,用戶可以使用在她的瀏覽器上的“后退”按鈕或者激活界面400、500或600之一上的返回或“后退”鏈接。用于補(bǔ)充搜索功能的示范結(jié)構(gòu)
圖7示出了用于實(shí)現(xiàn)服務(wù)器120的補(bǔ)充搜索功能的示范結(jié)構(gòu)700。示范結(jié)構(gòu)包括負(fù)載平衡路由器710、命令和控制(CnC)服務(wù)720以及后端搜索(或分類)服務(wù)裝置730。具體地,負(fù)載平衡路由器710從諸如客戶702、704和706的一個(gè)或多個(gè)客戶接收主和次級(jí)搜索請(qǐng)求。路由器710以循環(huán)或其它方式發(fā)送查詢到CnC服務(wù),以確保同一請(qǐng)求的兩個(gè)階段(即,主和次級(jí)請(qǐng)求)都被發(fā)送給相同的后端服務(wù)裝置(或機(jī)器)并且從它的服務(wù)池中添加和減去機(jī)器以反映當(dāng)前的可用性。在被轉(zhuǎn)發(fā)到一個(gè)CnC服務(wù)720之前,所有請(qǐng)求 /響應(yīng)被以XML編碼。CnC服務(wù)720包括一個(gè)或多個(gè)獨(dú)立的CnC服務(wù),諸如CnC服務(wù)722、7M和726。通常代表每個(gè)CnC應(yīng)用服務(wù)的CnC服務(wù)7M包括消息處理機(jī)724A、AMJUR事件處理機(jī)724B、 Key Number (KN)事件處理機(jī)7MC、以及ALR事件處理機(jī)724D。每個(gè)CnC服務(wù)將客戶消息傳遞給后端服務(wù),組合來自后端服務(wù)730的響應(yīng)以產(chǎn)生建議(或搜索結(jié)果),并且通過路由器 710將它們發(fā)送回客戶。后端搜索服務(wù)裝置730包括分類器服務(wù)裝置732、734和736。在本示范實(shí)施例中通常代表每個(gè)分類器服務(wù)裝置的服務(wù)裝置734包括AMJUR分類器(或搜索)服務(wù)744A、KNA 分類器服務(wù)744B、KN查找服務(wù)744C、ALR-CC服務(wù)744D、ALR-HN服務(wù)744E、ALR-SEC服務(wù) 744F。每個(gè)服務(wù)的名稱反映了相關(guān)的查詢區(qū)域。例如,ALR-HN處理單詞對(duì)分類器或者從 ALR中引用的所有批注(HN)中提取的特征集合。這些后端服務(wù)在兩個(gè)處理階段內(nèi)“建議” 多個(gè)信息類別(例如,ALR注解)。第一階段是直接基于用戶查詢,而第二階段是基于主搜索引擎響應(yīng)于用戶查詢的、檢索到的案例。所述服務(wù)和CnC可作為web服務(wù)而得到并且使用 XML-RPC (遠(yuǎn)程進(jìn)程調(diào)用)來彼此通信。在示范實(shí)施例中,搜索查詢被發(fā)送到次級(jí)搜索模塊(階段1),并行地或者同時(shí)它被發(fā)送給主搜索模塊。在第二階段,檢索的案例(或其它文檔)一旦變得可用就由客戶將它們轉(zhuǎn)發(fā)到適當(dāng)?shù)腃nC服務(wù)。如果主搜索不檢索任何案例,則客戶發(fā)送空階段2請(qǐng)求,因?yàn)槁酚善骱虲nC服務(wù)正預(yù)期一個(gè)階段2請(qǐng)求。本圖中的上面一行代表Westlaw客戶,每個(gè)客戶發(fā)送它的階段1 (即,查詢文本)以及階段2 (即,結(jié)果案例)請(qǐng)求給路由器/負(fù)載平衡器。用于分類器服各的示范結(jié)構(gòu)
圖8示出了用于實(shí)現(xiàn)示范系統(tǒng)100和示范結(jié)構(gòu)700中使用的多分類器的示范結(jié)構(gòu)800。 結(jié)構(gòu)800包括特征池810、類別池820、分類器池830、元分類器池(meta-classifier pool) 840以及決策者池850。結(jié)論
促進(jìn)本領(lǐng)域技術(shù)的發(fā)展中,發(fā)明人提出了多種示范系統(tǒng)、方法和軟件,它們尤其有利于利用附加信息來補(bǔ)充搜索結(jié)果。一個(gè)示范系統(tǒng)自動(dòng)地將對(duì)于法律意見的用戶查詢遞交給第一和第二數(shù)據(jù)庫,第一數(shù)據(jù)庫存儲(chǔ)法律意見并且第二數(shù)據(jù)庫存儲(chǔ)非意見文檔,諸如來自 West Key Number系統(tǒng)的批注、來自美國法律報(bào)告的文章、和/或來自美國法學(xué)的文章。以上描述的實(shí)施例僅僅旨在圖示并教導(dǎo)實(shí)踐或者實(shí)現(xiàn)本發(fā)明的一種或多種方式, 而并不限制它的寬度或范圍。包含實(shí)踐或?qū)崿F(xiàn)本發(fā)明的教義的所有方式的本發(fā)明實(shí)際范圍只由以下權(quán)利要求和它們的等價(jià)物定義。
權(quán)利要求
1.一種系統(tǒng),包括用于一在線法律研究供應(yīng)者的服務(wù)器,所述服務(wù)器被耦合到包含法律相關(guān)文檔的一個(gè)或多個(gè)數(shù)據(jù)庫;客戶訪問設(shè)備,其經(jīng)由互聯(lián)網(wǎng)被耦合到所述服務(wù)器并且具有一顯示器用于呈現(xiàn)包括至少部分地由所述服務(wù)器配置或定義的一個(gè)或多個(gè)用戶界面元素的圖形用戶界面,其中所述元素中的一個(gè)或多個(gè)元素允許所述用戶定義和遞交一個(gè)或多個(gè)法律研究查詢,每個(gè)所述查詢具有一個(gè)或多個(gè)相關(guān)聯(lián)的搜索界限參數(shù),諸如一個(gè)或多個(gè)術(shù)語、和/或數(shù)據(jù)庫標(biāo)識(shí)符;與所述服務(wù)器相關(guān)聯(lián)的裝置,用于響應(yīng)于所接收到的查詢而返回搜索結(jié)果給所述客戶訪問設(shè)備,其中所述搜索結(jié)果包括第一組第一文檔和相關(guān)聯(lián)的第一用戶界面元素,以及第二組第二文檔和相關(guān)聯(lián)的第二用戶界面元素,其中所述第一組文檔在所接收的查詢界限內(nèi),并且所述第二組文檔包括在所接收查詢的界限之外的文檔;并且其中所述第一和第二用戶界面元素導(dǎo)致所述第一和第二結(jié)果被顯示為在所述圖形用戶界面的搜索結(jié)果顯示部分內(nèi)的獨(dú)立結(jié)果組。
2.如權(quán)利要求1所述的系統(tǒng),其中所述圖形用戶界面是由所述客戶訪問設(shè)備上的瀏覽器應(yīng)用控制的Windows類型的界面。
3.如權(quán)利要求1所述的系統(tǒng),包括一個(gè)或多個(gè)機(jī)器可讀媒體,存儲(chǔ)所述服務(wù)器、客戶訪問設(shè)備或圖形用戶界面的組件中的一個(gè)或多個(gè)。
4.一種響應(yīng)來自用戶的查詢的方法,包括基于所述查詢而搜索第一數(shù)據(jù)庫,以識(shí)別第一組一個(gè)或多個(gè)文檔;以及通過將至少一部分所述查詢輸入到基于與第二數(shù)據(jù)庫中文檔的相似度來分類文本的文本分類引擎中,而自動(dòng)地在所述第二數(shù)據(jù)庫中識(shí)別第二組一個(gè)或多個(gè)文檔;以及輸出所述第一和第二組文檔的每一組的至少一部分到與所述用戶相關(guān)聯(lián)的訪問設(shè)備。
5.一種響應(yīng)來自用戶的查詢的方法,包括基于所述查詢而搜索第一數(shù)據(jù)庫,以識(shí)別第一組一個(gè)或多個(gè)文檔; 通過將至少一部分所述第一組文檔輸入到基于與第二數(shù)據(jù)庫中文檔的相似度來分類文本的文本分類引擎中,而自動(dòng)地在所述第二數(shù)據(jù)庫中識(shí)別第二組一個(gè)或多個(gè)文檔;以及輸出所述第一和第二組文檔的每一組的至少一部分到與所述用戶相關(guān)聯(lián)的訪問設(shè)備。
6.一種響應(yīng)來自用戶的查詢的方法,包括 基于所述查詢而搜索第一數(shù)據(jù)庫;以及基于搜索所述第一數(shù)據(jù)庫的結(jié)果而自動(dòng)地搜索第二數(shù)據(jù)庫。
7.如權(quán)利要求6所述的方法,還包括 基于所述查詢而搜索所述第二數(shù)據(jù)庫。
8.如權(quán)利要求1所述的方法,其中基于搜索所述第一數(shù)據(jù)庫的結(jié)果來自動(dòng)地搜索所述第二數(shù)據(jù)庫。
全文摘要
本發(fā)明公開了響應(yīng)來自用戶的查詢的方法和系統(tǒng)。為了便于法律研究,諸如ThomsonWest的公司提供了基于訂閱的在線信息檢索系統(tǒng)。為了尋求提高這些以及相關(guān)的IR系統(tǒng),本發(fā)明人意識(shí)到研究者常常忽略可能對(duì)他們有用的一些文檔類型,諸如法律百科全書和論文。因此,本發(fā)明人設(shè)計(jì)了自動(dòng)搜索不被用戶查詢特別當(dāng)作目標(biāo)的其它類型的文檔的系統(tǒng)、方法和軟件。一個(gè)示范系統(tǒng)自動(dòng)地遞交對(duì)于法律意見的用戶查詢給第一和第二數(shù)據(jù)庫,第一數(shù)據(jù)庫存儲(chǔ)法律意見,并且第二數(shù)據(jù)庫存儲(chǔ)非意見文檔,諸如來自WestKeyNumber系統(tǒng)的批注、來自美國法律報(bào)告的文章、和/或來自美國法學(xué)的文章。
文檔編號(hào)G06F17/30GK102456075SQ20111037076
公開日2012年5月16日 申請(qǐng)日期2005年1月3日 優(yōu)先權(quán)日2003年12月31日
發(fā)明者卡利德·阿爾-科法伊, 彼得·杰克遜, 邁克爾·達(dá)恩 申請(qǐng)人:湯姆森路透社全球資源公司