專利名稱:展現(xiàn)及編輯信息檢索條件的系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種信息檢索系統(tǒng)及方法。
背景技術(shù):
隨著Internet的發(fā)展,人們越來越多的通過網(wǎng)絡(luò)獲得最新的咨詢信息。
現(xiàn)在,幾乎每個(gè)人都有看報(bào)紙的習(xí)慣,特別是一些對咨詢信息需求緊迫的個(gè)人和企業(yè),更加是要從很多的報(bào)紙上獲得自己需要的信息。我們幾乎能夠從網(wǎng)絡(luò)上看到所有的新聞,很多人已經(jīng)通過上網(wǎng)來獲取最新的新聞信息。但是,僅僅是上網(wǎng)看新聞并不能減少我們所需要的時(shí)間,我們?nèi)匀恍枰ㄗx一大篇的新聞或文章才能得到我們所需要的咨詢信息。而且網(wǎng)上的新聞一逝即過,很多人需要對多天以前的新聞進(jìn)行查詢,甚至需要對幾個(gè)月,一年前的新聞進(jìn)行查詢。這種情況下,通過網(wǎng)絡(luò)已經(jīng)不能滿足我們的要求了。
傳統(tǒng)的檢索所需文件的方法是基于統(tǒng)計(jì)的自動摘要的方法,一般利用數(shù)理統(tǒng)計(jì)的方法給文件中每一個(gè)詞都賦予一定的權(quán)值,計(jì)算權(quán)值的方法一般是通過計(jì)算詞在文章中的出現(xiàn)頻率來計(jì)算的。出現(xiàn)頻率高的詞,所具有的權(quán)值就更高。具有高權(quán)值的詞意味著這個(gè)詞是文章的中心。
文章的句子也是根據(jù)詞的權(quán)值來賦予的,當(dāng)我們給詞賦予完權(quán)值之后,我們就能夠計(jì)算出每個(gè)句子的權(quán)值,權(quán)值越高的句子越能夠代表文章的中心思想。我們能夠直接用權(quán)值高的句子來產(chǎn)生摘要。
這種方法生成摘要的速度很快,但是由于出現(xiàn)頻率高的詞并不一定就是文章的中心思想,而且沒有進(jìn)行語法分析,用權(quán)值高的句子拼湊而成的摘要的可讀性也是比較差的。
中國國家知識產(chǎn)權(quán)局于2004年10月13日公開、公開號為1536483的專利申請案,揭露了一種“網(wǎng)絡(luò)信息抽取及處理的方法”,該方法采用人工智能與自然語言處理技術(shù),能夠自動從各個(gè)指定的站點(diǎn)下載每天最新的新聞信息,并且進(jìn)行內(nèi)容抽取,分類,自動摘要精簡全文。
中國國家知識產(chǎn)權(quán)局于2004年10月13日公開、公開號為1536512的專利申請案,揭露了一種“快速檢索電話簿的方法”。
上述專利申請案所揭露的技術(shù)方案都只涉及到如何進(jìn)行信息檢索及檢索條件匹配,但卻沒有涉及到將信息查詢檢索條件可視化展現(xiàn)到用戶面前,使得用戶更容易處理邏輯復(fù)雜的查詢條件。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種展現(xiàn)及編輯信息檢索條件的系統(tǒng),該系統(tǒng)可視覺化展現(xiàn)及編輯信息檢索條件。
本發(fā)明的另一目的在于提供一種展現(xiàn)及編輯信息檢索條件的方法,該方法可視覺化展現(xiàn)及編輯信息檢索條件。
為實(shí)現(xiàn)第一個(gè)發(fā)明目的,本發(fā)明揭露一種展現(xiàn)及編輯信息檢索條件的系統(tǒng)。該系統(tǒng)包括一檔案服務(wù)器、通過網(wǎng)絡(luò)與其相連的客戶端計(jì)算機(jī)、及通過數(shù)據(jù)庫連接與其相連的數(shù)據(jù)庫。所述數(shù)據(jù)庫用于存儲語法參考列表和字段檢索提示信息,該語法參考列表定義了不同的查詢字段組件和操作組件。
所述檔案服務(wù)器包括一組件圖形化模塊,用于將每個(gè)查詢字段組件及操作組件用圖形表示;一接收查詢字符串模塊,用于接收用戶根據(jù)查詢問題描述,而通過客戶端計(jì)算機(jī)介面輸入的符合通用檢索語法的查詢字符串;一詞句分析模塊,用于定義所接收到的查詢字符串的最小記號單位,以定義的多個(gè)最小記號單位將該查詢字符串標(biāo)記為一記號序列;一語法分析模塊,識別出上述記號序列中的所有元素,查詢數(shù)據(jù)庫中的語法參考列表,調(diào)用相應(yīng)用圖形表示的查詢字段組件和操作組件產(chǎn)生樹狀數(shù)據(jù)結(jié)構(gòu),即語法樹,并將該語法樹展現(xiàn)于客戶端計(jì)算機(jī)介面;一語義分析模塊,用于根據(jù)上述語法樹,查詢數(shù)據(jù)庫中的語法參考列表及字段檢索提示,執(zhí)行各個(gè)字段組件的類型檢查,查詢值字段信息,判斷各個(gè)字段組件所錄入的值的類型是否符合值字段信息的內(nèi)容;一優(yōu)化模塊,將上述語法樹優(yōu)化,使解析語法樹更有效;一代碼生成模塊,用于根據(jù)優(yōu)化后的語法樹,生成查詢代碼。
為實(shí)現(xiàn)第二個(gè)發(fā)明目的,本發(fā)明揭露一種展現(xiàn)及編輯信息檢索條件的方法。該方法包括如下步驟(a)圖形化查詢字段組件和圖形化操作組件;(b)接收錄入的查詢字符串;(c)定義該查詢字符串的最小記號單位,并將該查詢字符串標(biāo)記成為一記號序列;(d)查詢數(shù)據(jù)庫中的語法參考列表,識別出上述記號序列的所有元素,調(diào)用相應(yīng)的用圖形表示的查詢字段組件和用圖形表示的操作組件將其展開成為樹狀數(shù)據(jù)結(jié)構(gòu),即語法樹,展現(xiàn)于客戶端計(jì)算機(jī)顯示介面上;(e)查詢數(shù)據(jù)庫中的語法參考列表及字段檢索提示,分析判斷該語法樹上的各個(gè)字段組件內(nèi)容的類型是否正確;(f)將上述語法樹進(jìn)行條件合并;(g)產(chǎn)生查詢代碼。
為實(shí)現(xiàn)第二個(gè)發(fā)明目的,本發(fā)明還揭露另一種展現(xiàn)及編輯信息檢索條件的方法。該方法包括如下步驟(h)圖形化查詢字段組件和圖形化操作組件;(i)拖動所需要的以圖形化表示的查詢字段組件和操作組件形成語法樹;(j)對查詢字段組件賦值,形成查詢條件;(k)查詢數(shù)據(jù)庫中的語法參考列表及字段檢索提示,分析判斷上述語法樹上的各個(gè)字段組件內(nèi)容的類型是否正確;(l)將上述語法樹進(jìn)行條件合并;(m)產(chǎn)生查詢代碼。
圖1是本發(fā)明展現(xiàn)及編輯信息檢索條件的系統(tǒng)的硬件實(shí)施環(huán)境示意圖。
圖2是本發(fā)明檔案服務(wù)器的功能模塊圖。
圖3是本發(fā)明標(biāo)記查詢字符串成一記號序列的示意圖。
圖4是本發(fā)明查詢字符串樹狀結(jié)構(gòu)示意圖。
圖5是本發(fā)明展現(xiàn)及編輯信息檢索條件的方法的流程圖。
具體實(shí)施方式本實(shí)施例以專利檢索條件為例進(jìn)行描述。
參閱圖1所示,是本發(fā)明展現(xiàn)及編輯信息檢索條件系統(tǒng)的硬件實(shí)施環(huán)境示意圖。該系統(tǒng)包括一檔案服務(wù)器10及與其通過網(wǎng)絡(luò)30相連的多個(gè)客戶端計(jì)算機(jī)20,通過數(shù)據(jù)庫連接40相連的一數(shù)據(jù)庫50。其中檔案服務(wù)器10用于將用戶錄入的查詢字符串轉(zhuǎn)化為樹狀圖形展現(xiàn)出來,并提供進(jìn)行檢索的多個(gè)文件及信息,所述文件在本實(shí)施例中是指專利文件??蛻舳擞?jì)算機(jī)20提供用戶訪問檔案服務(wù)器10的瀏覽器介面。網(wǎng)絡(luò)30可以是互聯(lián)網(wǎng),也可以是內(nèi)部局域網(wǎng)絡(luò)。
數(shù)據(jù)庫50用于存儲語法定義文件。該語法定義文件包括語法參考列表、字段檢索提示等信息。在語法參考列表中定義了不同的查詢字段組件、操作組件、值字段信息等。其中操作組件包括AND(與操作)、OR(或操作)、NOT(不包含)等;查詢字段組件指查詢內(nèi)容所處的范圍,包括AN(專利權(quán)人)、ACLM(專利權(quán)利要求)、ISD(日期)、PTO(專利局)、TTL(專利名稱)、PN(專利號)、IN(發(fā)明人姓名)、APN(申請?zhí)?等;值字段信息指日期類型、文字類型、枚舉類型(如國家、專利類型等)。如一查詢字符串為AN/(award or ibm)andACLM/BIOS AND ISD/[2004.1.1-2004.12.31],則在該查詢字符串中,操作組件有AND、OR、NOT;查詢字段組件有AN、ACLM、ISD。其中字段AN及ACLM的的值字段信息是文字類型,字段ISD的值字段信息是日期類型。
參閱圖2所示,是本發(fā)明檔案服務(wù)器的功能模塊圖。該檔案服務(wù)器10包括一組件圖形化模塊101、一接收查詢字符串模塊102、一詞句分析模塊103、一語法分析模塊104、一語義分析模塊105、一優(yōu)化模塊106及一代碼生成模塊107。
其中,組件圖形化模塊101用于將每個(gè)查詢字段組件及操作組件用圖形表示,該圖形化組件可被通過拖動并賦值,產(chǎn)生查詢條件,也可作為一個(gè)組件,嵌入到其它查詢系統(tǒng)中。所述其它查詢系統(tǒng)包括查詢專利的系統(tǒng)。
接收查詢字符串模塊102用于接收用戶根據(jù)專利查詢問題描述,通過客戶端計(jì)算機(jī)介面輸入的符合通用專利檢索語法的查詢字符串。
詞句分析模塊103用于定義所接收到的查詢字符串的最小記號單位,以定義的多個(gè)最小記號單位將該查詢字符串標(biāo)記為一記號序列。如將上述查詢字符串AN/(award or ibm)and ACLM/BIOS ANDISD/[2004.1.1-2004.12.31],以每一字段組件作為最小記號單位,即一元素,定義出17個(gè)最小記號(TOKEN)單位,標(biāo)記為如圖3所示的記號序列,保存于數(shù)據(jù)庫50中。
語法分析模塊104用于借助javaCC的JJTree功能,識別出上述記號序列中的所有元素,查詢數(shù)據(jù)庫50中的語法參考列表,調(diào)用相應(yīng)用圖形表示的查詢字段組件和操作組件產(chǎn)生如圖4所示的樹狀數(shù)據(jù)結(jié)構(gòu),即語法樹,并將該語法樹展現(xiàn)于客戶端計(jì)算機(jī)的介面且保存于數(shù)據(jù)庫50中。其中所述的樹狀數(shù)據(jù)結(jié)構(gòu)可以是Java樹據(jù)結(jié)構(gòu),也可以是用其它語言產(chǎn)生的樹狀數(shù)據(jù)結(jié)構(gòu),如XML。在本發(fā)明中也可以直接拖動圖形化的查詢字段組件和圖形化的操作組件,對查詢字段進(jìn)行賦值形成語法樹,產(chǎn)生查詢條件。
語義分析模塊105用于根據(jù)上述語法樹,查詢數(shù)據(jù)庫50中的語法參考列表及字段檢索提示,執(zhí)行各個(gè)字段組件的類型檢查,查詢值字段信息,判斷各個(gè)字段組件所錄入的值的類型是否符合值字段信息的內(nèi)容。
優(yōu)化模塊106將上述語法樹優(yōu)化,使解析語法樹更有效,例如進(jìn)行條件合并,將查詢字符串(AN/“award”or AN/ibm)優(yōu)化成查詢字符串AN/(“award”or ibm)。
代碼生成模塊107根據(jù)優(yōu)化后的語法樹,生成查詢條件??衫肑JTree產(chǎn)生動態(tài)樹結(jié)構(gòu),或者生成Java查詢代碼并將Java代碼嵌入到JavaCC腳本中,也可以生成SQL查詢語句。
參閱圖5所示,本發(fā)明展現(xiàn)及編輯信息檢索條件方法的流程圖。首先,通過組件圖形化模塊101圖形化查詢字段組件和圖形化操作組件(步驟S400)。接收查詢字符串模塊102接收用戶從客戶端計(jì)算機(jī)20錄入的查詢字符串(步驟S402)。通過詞句分析模塊103定義該查詢字符串的最小記號單位,并將該查詢字符串標(biāo)記成為一記號序列(步驟S404)。通過語法分析子模塊104查詢數(shù)據(jù)庫50中的語法參考列表,識別出上述記號序列的所有元素,調(diào)用相應(yīng)的用圖形表示的查詢字段組件和用圖形表示的操作組件將其展開成為樹狀數(shù)據(jù)結(jié)構(gòu),即語法樹,展現(xiàn)于客戶端計(jì)算機(jī)顯示介面上(步驟S406)。對上述所展現(xiàn)的樹狀結(jié)構(gòu),用戶可對相應(yīng)的圖形組件進(jìn)行賦值、拖動、增加、刪除等操作,再產(chǎn)生其它的查詢條件(步驟S408)。通過語義分析模塊105查詢數(shù)據(jù)庫50中的語法參考列表及字段檢索提示,分析判斷該語法樹上的各個(gè)字段組件的內(nèi)容的類型是否正確(步驟S410)。通過優(yōu)化模塊106將上述語法樹進(jìn)行條件合并(步驟S412);通過代碼生成模塊107產(chǎn)生查詢代碼。
本發(fā)明還可以拖動上述以圖形化表示的查詢字段組件和圖形化表示的操作組件,并對查詢字段組件賦值而直接生成語法樹,再對該語法樹進(jìn)行語義分析、條件優(yōu)化及最后生成查詢語句。
權(quán)利要求
1.一種展現(xiàn)及編輯信息檢索條件的系統(tǒng),該系統(tǒng)包括一檔案服務(wù)器、通過網(wǎng)絡(luò)與其相連的客戶端計(jì)算機(jī)、及通過數(shù)據(jù)庫連接與其相連的數(shù)據(jù)庫,其特征在于所述數(shù)據(jù)庫用于存儲語法參考列表和字段檢索提示信息,該語法參考列表定義了不同的查詢字段組件和操作組件;所述檔案服務(wù)器包括一組件圖形化模塊,用于將每個(gè)查詢字段組件及操作組件用圖形表示;一接收查詢字符串模塊,用于接收用戶根據(jù)查詢問題描述輸入的符合通用檢索語法的查詢字符串;一詞句分析模塊,用于定義所接收到的查詢字符串的最小記號單位,以定義的多個(gè)最小記號單位將該查詢字符串標(biāo)記為一記號序列;一語法分析模塊,用于識別出上述記號序列中的所有元素,查詢數(shù)據(jù)庫中的語法參考列表,調(diào)用相應(yīng)用圖形表示的查詢字段組件和操作組件產(chǎn)生樹狀數(shù)據(jù)結(jié)構(gòu),即語法樹,并將該語法樹展現(xiàn)于客戶端計(jì)算機(jī)的介面;一語義分析模塊,用于根據(jù)上述語法樹,查詢數(shù)據(jù)庫中的語法參考列表及字段檢索提示,執(zhí)行各個(gè)字段組件的類型檢查,查詢值字段信息,判斷各個(gè)字段組件所錄入的值的類型是否符合值字段信息的內(nèi)容;一優(yōu)化模塊,用于將上述語法樹優(yōu)化,使解析語法樹更有效;一代碼生成模塊,用于根據(jù)優(yōu)化后的語法樹,生成查詢條件。
2.如權(quán)利要求1所述的展現(xiàn)及編輯信息檢索條件的系統(tǒng),其特征在于,其中數(shù)據(jù)庫還用于存儲語法樹生成過程中所產(chǎn)生的信息,所述信息包括記號序列、樹狀數(shù)據(jù)結(jié)構(gòu)及生成的查詢代碼。
3.如權(quán)利要求1所述的展現(xiàn)及編輯信息檢索條件的系統(tǒng),其特征在于,其中圖形化的查詢字段組件和操作組件可被通過拖動并賦值產(chǎn)生查詢條件,也可作為一個(gè)組件,嵌入到另一個(gè)查詢系統(tǒng)中。
4.如權(quán)利要求1所述的展現(xiàn)及編輯信息檢索條件的系統(tǒng),其特征在于,其中語法分析模塊所產(chǎn)生的樹狀數(shù)據(jù)結(jié)構(gòu)可以是Java樹據(jù)結(jié)構(gòu)。
5.如權(quán)利要求1所述的展現(xiàn)及編輯信息檢索條件的系統(tǒng),其特征在于,其中語法分析模塊所產(chǎn)生的樹狀數(shù)據(jù)結(jié)構(gòu)可以是用XML語言產(chǎn)生的樹狀數(shù)據(jù)結(jié)構(gòu)。
6.如權(quán)利要求1所述的展現(xiàn)及編輯信息檢索條件的系統(tǒng),其特征在于,其中在代碼生成模塊中,可利用JJTree產(chǎn)生動態(tài)樹結(jié)構(gòu),或者生成Java查詢代碼并將Java代碼嵌入到JavaCC腳本中,也可以生成SQL查詢語句。
7.一種利用權(quán)利要求1所述的系統(tǒng)展現(xiàn)及編輯信息檢索條件的方法,其特征在于,該方法包括如下步驟圖形化查詢字段組件和圖形化操作組件;接收錄入的查詢字符串;定義該查詢字符串的最小記號單位,并將該查詢字符串標(biāo)記成為一記號序列;查詢數(shù)據(jù)庫中的語法參考列表,識別出上述記號序列的所有元素,調(diào)用相應(yīng)的用圖形表示的查詢字段組件和用圖形表示的操作組件,將其展開成為樹狀數(shù)據(jù)結(jié)構(gòu),即語法樹,展現(xiàn)于客戶端計(jì)算機(jī)的顯示介面上;查詢數(shù)據(jù)庫中的語法參考列表及字段檢索提示,分析判斷該語法樹上的各個(gè)字段組件內(nèi)容的類型是否正確;將上述語法樹進(jìn)行條件合并;產(chǎn)生查詢代碼。
8.如權(quán)利要求7所述的展現(xiàn)及編輯信息檢索條件的方法,其特征在于,其中所產(chǎn)生的樹狀數(shù)據(jù)結(jié)構(gòu)是Java數(shù)據(jù)結(jié)構(gòu)。
9.如權(quán)利要求7所述的展現(xiàn)及編輯信息檢索條件的方法,其特征在于,其中所產(chǎn)生的樹狀數(shù)據(jù)結(jié)構(gòu)是用XML語言產(chǎn)生的數(shù)據(jù)結(jié)構(gòu)。
10.如權(quán)利要求7所述的展現(xiàn)及編輯信息檢索條件的方法,其特征在于,其中展現(xiàn)的查詢字符串的樹狀數(shù)據(jù)結(jié)構(gòu)可作為一個(gè)組件,嵌入到另一個(gè)查詢系統(tǒng)。
11.如權(quán)利要求7所述的展現(xiàn)及編輯信息檢索條件的方法,其特征在于,其中對所展現(xiàn)的樹狀數(shù)據(jù)結(jié)構(gòu),用戶可對相應(yīng)的圖形組件進(jìn)行賦值、拖動、增加、刪除操作,再產(chǎn)生新的查詢條件。
12.一種利用權(quán)利要求1所述的系統(tǒng)進(jìn)行展現(xiàn)及編輯信息檢索條件的方法,其特征在于,該方法包括如下步驟圖形化查詢字段組件和圖形化操作組件;拖動所需要的以圖形化表示的查詢字段組件和操作組件形成語法樹;對查詢字段組件賦值,形成查詢條件;查詢數(shù)據(jù)庫中的語法參考列表及字段檢索提示,分析判斷上述語法樹上的各個(gè)字段組件內(nèi)容的類型是否正確;將上述語法樹進(jìn)行條件合并;產(chǎn)生查詢代碼。
全文摘要
本發(fā)明揭露一種展現(xiàn)及編輯信息檢索條件的方法,包括步驟圖形化查詢字段組件和圖形化操作組件;接收錄入的查詢字符串;定義該查詢字符串的最小記號單位,將該查詢字符串標(biāo)記成為一記號序列;識別出上述記號序列的所有元素,調(diào)用相應(yīng)的圖形化查詢字段組件和操作組件將其展開成為語法樹,展現(xiàn)于客戶端計(jì)算機(jī)介面;對上述所展現(xiàn)的語法樹,用戶可對相應(yīng)的圖形組件進(jìn)行賦值等操作,再產(chǎn)生其它的查詢條件;分析判斷該語法樹上的各個(gè)字段組件內(nèi)容的類型是否正確;將上述語法樹進(jìn)行條件合并;產(chǎn)生查詢代碼。本發(fā)明還揭露一種展現(xiàn)及編輯信息檢索條件的系統(tǒng)。
文檔編號G06F17/27GK1808428SQ200510032978
公開日2006年7月26日 申請日期2005年1月22日 優(yōu)先權(quán)日2005年1月22日
發(fā)明者李忠一, 葉建發(fā), 樊曉迪 申請人:鴻富錦精密工業(yè)(深圳)有限公司, 鴻海精密工業(yè)股份有限公司