專利名稱::檢索方法和檢索系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及檢索方法和檢索系統(tǒng),具體涉及使用相關(guān)反饋技術(shù)的檢索方法和檢索系統(tǒng)。
背景技術(shù):
:在所有檢索系統(tǒng)當(dāng)中,利用關(guān)鍵詞搜索引擎的檢索系統(tǒng)是最普遍使用的。隨著檢索技術(shù)的發(fā)展,一種利用反饋技術(shù)的新的檢索方法已越來越有效并且被普遍使用。在這種使用反饋技術(shù)的方法中,通過第一次檢索獲得的前N個(gè)文檔(N是可以被適當(dāng)設(shè)定的正整數(shù))被用作反饋文檔,并且從反饋文檔中提取的信息被用于進(jìn)行下一次檢索。圖7是示出在利用相關(guān)反饋信息的常規(guī)檢索系統(tǒng)中所使用的檢索過程的流程圖。在步驟S701中,系統(tǒng)獲得初始查詢式(query),并且基于所述初始查詢式執(zhí)行第一次檢索,以便獲得結(jié)果文檔列表,所述結(jié)果文檔列表可以被返回給用戶??梢岳帽绢I(lǐng)域技術(shù)人員所知的任何關(guān)鍵詞檢索方法執(zhí)行第一次檢索,只要通過第一次檢索獲得的結(jié)果文檔能夠根據(jù)指示這些文檔與初始查詢式的相關(guān)程度的分?jǐn)?shù)而被排序即可。在步驟S703中,列表中的結(jié)果文檔按照上述分?jǐn)?shù)按降序被排列。系統(tǒng)從文檔列表中選擇在前的N個(gè)文檔(前N個(gè)文檔)作為反饋文檔。N是可以由用戶任意選擇或可以按照其他方式適當(dāng)設(shè)定的正整數(shù)。在步驟S705中,系統(tǒng)對(duì)前N個(gè)文檔進(jìn)行循環(huán),以通過詞法分析器(lexicalparser)獲得分詞(wordsegment)結(jié)果。在步驟S707中,系統(tǒng)例如根據(jù)以下的式1計(jì)算反饋文檔(前N個(gè)文檔)中的每個(gè)詞的相關(guān)分?jǐn)?shù)。re/evawce—=Z(wo廠c/—score(iv乂,(ioc,-))(式丄)其中,Wj表示前N個(gè)文檔中的第j個(gè)詞,Wj可以遍歷所有前N個(gè)文檔中的所有詞;relevance_score(Wj)表示W(wǎng)j的相關(guān)分?jǐn)?shù),其示出詞w」與初始查詢式的相關(guān)程度;doCi表示前N個(gè)文檔中的第i個(gè)文檔,其中i從1循環(huán)到N;word_score(Wj,doCi)例如是Wj在當(dāng)前文檔d0Ci中出現(xiàn)的數(shù)量。在完成每個(gè)詞的相關(guān)分?jǐn)?shù)(即relevance—score)的計(jì)算之后,這些詞按照相關(guān)分?jǐn)?shù)被排序,具有最高相關(guān)分?jǐn)?shù)的M個(gè)詞被選擇作為反饋信息。在此,M是根據(jù)需要可以由用戶選擇或者可以由系統(tǒng)自動(dòng)預(yù)先確定的任意正整數(shù)。在步驟S709中,除了初始查詢式之外,系統(tǒng)還考慮反饋信息,并且生成新的查詢式。例如,系統(tǒng)將步驟S707中所計(jì)算的具有最高相關(guān)分?jǐn)?shù)的M個(gè)詞添加到初始查詢式中,并且獲得新的查詢式。在步驟S711中,系統(tǒng)使用步驟S709中獲得的新的查詢式來執(zhí)行第二次檢索。在步驟S713中,系統(tǒng)獲得第二次檢索結(jié)果作為最終檢索結(jié)果,并且將該結(jié)果返回給用戶。關(guān)于相關(guān)反饋的更多信息在各種文獻(xiàn)中公開,諸如Rocchio.J.J.的"RelevanceFeedbackinInformationRetrievalintheSmartSystem—experimentsinAutomaticDocumentProcessing",313-323,EnglewoodCliffs,NJ:PrenticeHallInc.,1971;G.Salton禾口ChrisBuckley的"ImprovingRetrievalPerformanceByRelevanceFeedback",JASIS41.288-297,CHRI,1990;C.T.YU、W.S.LUKE和T.Y.CHEUNG的"AStatisticalModelforRelevanceFeedbackinlnformationRetrieval",JournaloftheAmodationforComputingMachinery,Vol.23,No.2,1976年4月,pp.273-286。由于相關(guān)反饋技術(shù)已被本領(lǐng)域技術(shù)人員知曉,因此這里將省略對(duì)此技術(shù)的更詳細(xì)的描述。然而,在現(xiàn)有技術(shù)中,根據(jù)利用相關(guān)反饋信息的檢索系統(tǒng)的上述處理,系統(tǒng)僅利用了詞法分析器的分詞結(jié)果來計(jì)算相關(guān)分?jǐn)?shù),也就是說,在相關(guān)分?jǐn)?shù)的計(jì)算中僅利用了單個(gè)詞的信息,但是并沒有考慮詞之間的依存關(guān)系。進(jìn)一步地,反饋信息對(duì)第二次檢索的性能是有影響的。在利用相關(guān)反饋信息的常規(guī)檢索系統(tǒng)中,每個(gè)反饋信息被均等地用在第二次檢索中。然而,反饋信息的相關(guān)分?jǐn)?shù)彼此并不相等。這意味著,反饋信息中的詞的貢獻(xiàn)彼此并不相等,因此這些詞優(yōu)選地應(yīng)該被有差別地利用。進(jìn)一步地,在利用相關(guān)反饋信息的常規(guī)檢索系統(tǒng)中,通過第一次檢索生成的前N個(gè)文檔并不被進(jìn)一步處理而直接用于反饋檢索。發(fā)明人發(fā)現(xiàn),反饋檢索的性能對(duì)第二次檢索的準(zhǔn)確率也是有影響的,但是通過第一次檢索獲得的前N個(gè)文檔有時(shí)在反饋檢索中并不足夠好用。進(jìn)一步地,在利用相關(guān)反饋信息的常規(guī)檢索系統(tǒng)中,文檔長(zhǎng)度對(duì)反饋信息的計(jì)算也是有影響的。在計(jì)算反饋信息時(shí),較長(zhǎng)的文檔會(huì)具有不公平的"優(yōu)勢(shì)",因此優(yōu)選通過長(zhǎng)度歸一化來進(jìn)行調(diào)整。因此,需要一種新的相關(guān)反饋檢索方法和系統(tǒng),其提高反饋文檔的準(zhǔn)確率和檢索系統(tǒng)的性能。
發(fā)明內(nèi)容本發(fā)明的一個(gè)目的是提供一種用于解決至少一個(gè)上述技術(shù)問題的相關(guān)反饋檢索方法和系統(tǒng),所述相關(guān)反饋檢索方法和系統(tǒng)提高反饋文檔的準(zhǔn)確率和檢索系統(tǒng)的性能。根據(jù)本發(fā)明的第一個(gè)方面,提供一種檢索方法,包括第一次檢索步驟,通過使用初始查詢式對(duì)多個(gè)文檔執(zhí)行第一次檢索以獲得結(jié)果文檔,并且從所述結(jié)果文檔中選擇反饋文檔;選擇步驟,通過以反饋文檔中的短語數(shù)量作為準(zhǔn)則對(duì)反饋文檔進(jìn)行過濾,從反饋文檔中選擇一些文檔作為所選擇的反饋文檔,所述短語是由初始查詢式中的詞構(gòu)成的;反饋信息獲得步驟,基于所述所選擇的反饋文檔中的詞與初始查詢式中的詞之間的依存關(guān)系,從所述所選擇的反饋文檔中獲得反饋信息;生成步驟,通過將所述反饋信息添加到初始查詢式中,生成新的查詢式;以及第二次檢索步驟,通過使用新的查詢式,對(duì)所述多個(gè)文檔執(zhí)行第二次檢索。優(yōu)選地,所述反饋信息獲得步驟包括相關(guān)分?jǐn)?shù)計(jì)算步驟,基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的所述依存關(guān)系,計(jì)算相關(guān)分?jǐn)?shù)。優(yōu)選地,所述相關(guān)分?jǐn)?shù)計(jì)算步驟基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的所述依存關(guān)系,并且基于每個(gè)詞在所述所選擇的反饋文檔中出現(xiàn)的數(shù)量,計(jì)算相關(guān)分?jǐn)?shù)。優(yōu)選地,所述反饋信息獲得步驟基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的所述依存關(guān)系,并且基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的基本關(guān)系分?jǐn)?shù),獲得所述反饋信息。優(yōu)選地,所述反饋信息獲得步驟包括相關(guān)分?jǐn)?shù)計(jì)算步驟,基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的所述依存關(guān)系,并且基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的基本關(guān)系分?jǐn)?shù),計(jì)算相關(guān)分?jǐn)?shù)。優(yōu)選地,所述相關(guān)分?jǐn)?shù)計(jì)算步驟基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的所述依存關(guān)系,基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的基本關(guān)系分?jǐn)?shù),并且基于每個(gè)詞在所述所選擇的反饋文檔中出現(xiàn)的數(shù)量,計(jì)算相關(guān)分?jǐn)?shù)。優(yōu)選地,所述第二次檢索步驟包括權(quán)重調(diào)整步驟,通過利用所述相關(guān)分?jǐn)?shù),調(diào)整反饋信息中的每個(gè)詞的權(quán)重,所述權(quán)重在第二次檢索期間被使用。優(yōu)選地,所述反饋信息獲得步驟包括詞選擇步驟,選擇具有最高相關(guān)分?jǐn)?shù)的預(yù)定數(shù)量的詞作為所述反饋信息。優(yōu)選地,所述反饋信息獲得步驟包括文檔長(zhǎng)度歸一化步驟,根據(jù)每個(gè)所述所選擇的反饋文檔的長(zhǎng)度計(jì)算文檔長(zhǎng)度歸一化比率,并且將所述文檔長(zhǎng)度歸一化比率應(yīng)用于對(duì)所述反饋信息的計(jì)算中。優(yōu)選地,所述依存關(guān)系是通過使用語法分析器獲得的,更優(yōu)選地是通過淺層語法分析器獲得的。根據(jù)本發(fā)明的第二方面,提供一種檢索系統(tǒng),包括第一次檢索裝置,用于通過使用初始查詢式對(duì)多個(gè)文檔執(zhí)行第一次檢索以獲得結(jié)果文檔,并且從所述結(jié)果文檔中選擇反饋文檔;選擇裝置,用于通過以反饋文檔中的短語數(shù)量作為準(zhǔn)則對(duì)反饋文檔進(jìn)行過濾,從反饋文檔中選擇一些文檔作為所選擇的反饋文檔,所述短語是由初始查詢式中的詞構(gòu)成的;反饋信息獲得裝置,用于基于所述所選擇的反饋文檔中的詞與初始查詢式中的詞之間的依存關(guān)系,從所述所選擇的反饋文檔中獲得反饋信息;生成裝置,用于通過將所述反饋信息添加到初始查詢式中,生成新的查詢式;以及第二次檢索裝置,通過使用新的查詢式,對(duì)所述多個(gè)文檔執(zhí)行第二次檢索。根據(jù)本發(fā)明,確定反饋文檔中的詞與初始查詢式中的詞之間的依存關(guān)系,使得在計(jì)算相關(guān)分?jǐn)?shù)以獲得反饋信息時(shí)還考慮每個(gè)詞和初始查詢式之間的依存關(guān)系。根據(jù)一個(gè)優(yōu)選實(shí)施例,反饋信息的相關(guān)分?jǐn)?shù)還被用于校正反饋信息中的詞在第二次檢索期間的權(quán)重,以便考慮反饋信息中的詞之間的差異。根據(jù)另一個(gè)優(yōu)選實(shí)施例,還利用短語數(shù)量對(duì)反饋文檔進(jìn)行過濾,以從候選文檔中選擇更相關(guān)的文檔,從而提高反饋文檔的準(zhǔn)確率。根據(jù)再一個(gè)優(yōu)選實(shí)施例,還利用文檔歸一化校正反饋文檔中的詞的相關(guān)分?jǐn)?shù),以便降低較長(zhǎng)的文檔的影響。并入到說明書中并且組成說明書一部分的附圖示出本發(fā)明的實(shí)施例,并且與描述一起用于說明本發(fā)明的原理。圖1是示出用于實(shí)現(xiàn)根據(jù)本發(fā)明的檢索系統(tǒng)的計(jì)算裝置的布置的框圖。圖2是示出根據(jù)本發(fā)明第一實(shí)施例的使用相關(guān)反饋信息的檢索系統(tǒng)的配置的框圖。圖3是示出根據(jù)本發(fā)明第一實(shí)施例的利用相關(guān)反饋信息的檢索系統(tǒng)執(zhí)行的檢索過程的流程圖。圖4是示出在一個(gè)示例中通過詞法分析器獲得的分詞結(jié)果的圖。圖5是示出在一個(gè)示例中通過語法分析器(syntaxparser)獲得的語法結(jié)果的圖。圖6是用于示出在第三實(shí)施例中采用的過濾過程的流程圖。圖7是示出通過利用相關(guān)反饋信息的常規(guī)檢索系統(tǒng)執(zhí)行的檢索過程的流程圖。圖8是示出圖2中的反饋信息獲得裝置205的優(yōu)選配置的框圖。具體實(shí)施例方式以下將參照附圖詳細(xì)描述本發(fā)明的實(shí)施例。圖1是示出用于實(shí)現(xiàn)根據(jù)本發(fā)明的檢索系統(tǒng)的計(jì)算裝置的布置的框圖。為了簡(jiǎn)明起見,檢索系統(tǒng)被構(gòu)建在單個(gè)計(jì)算裝置中。然而,無論該檢索系統(tǒng)被構(gòu)建在單個(gè)計(jì)算裝置中還是構(gòu)建在作為網(wǎng)絡(luò)系統(tǒng)的多個(gè)計(jì)算裝置中,該檢索系統(tǒng)都是有效的。如圖1所示,計(jì)算裝置100用于實(shí)施檢索過程。計(jì)算裝置100可以包含CPU101、芯片組102、RAM103、存儲(chǔ)控制器104、顯示控制器105、硬盤驅(qū)動(dòng)器106、CD-ROM驅(qū)動(dòng)器107、以及顯示器108。計(jì)算裝置IOO還可以包括連接在CPU101和芯片組102之間的信號(hào)線111、連接在芯片組102和RAM103之間的信號(hào)線112、連接在芯片組102和各種外圍裝置之間的外圍裝置總線113、連接在存儲(chǔ)控制器104和硬盤驅(qū)動(dòng)器106之間的信號(hào)線114、連接在存儲(chǔ)控制器104和CD-ROM驅(qū)動(dòng)器107之間的信號(hào)線115、以及連接在顯示控制器105和顯示器108之間的信號(hào)線116。客戶端120可以經(jīng)由網(wǎng)絡(luò)130或直接連接到計(jì)算裝置100。客戶端120可以將檢索任務(wù)發(fā)送給計(jì)算裝置IOO,并且計(jì)算裝置IOO可以將檢索結(jié)果返回給客戶端120。圖2是示出根據(jù)本發(fā)明第一實(shí)施例的使用相關(guān)反饋信息的檢索系統(tǒng)的配置的框圖。如圖2所示,檢索系統(tǒng)包含第一次檢索裝置201,用于通過使用初始查詢式對(duì)多個(gè)文檔執(zhí)行第一次檢索以獲得結(jié)果文檔,并且從所述結(jié)果文檔中選擇反饋文檔;選擇裝置203,用于通過以反饋文檔中的短語數(shù)量作為準(zhǔn)則對(duì)反饋文檔進(jìn)行過濾,從反饋文檔中選擇一些文檔作為所選擇的反饋文檔,所述短語是由初始查詢式中的詞構(gòu)成的;反饋信息獲得裝置205,用于基于所述所選擇的反饋文檔中的詞與初始查詢式中的詞之間的依存關(guān)系,從所選擇的反饋文檔中獲得反饋信息;生成裝置207,用于通過將所述反饋信息添加到初始查詢式中,生成新的查詢式;以及第二次檢索裝置209,通過使用新的查詢式,對(duì)所述多個(gè)文檔執(zhí)行第二次檢索。8圖8是示出反饋信息獲得裝置205的優(yōu)選配置的框圖。如圖8所示,反饋信息獲得裝置205優(yōu)選包括詞選擇裝置801,用于選擇具有最高相關(guān)分?jǐn)?shù)的預(yù)定數(shù)量的詞作為所述反饋信息;文檔長(zhǎng)度歸一化裝置803,用于根據(jù)每個(gè)所述所選擇的反饋文檔的長(zhǎng)度計(jì)算文檔長(zhǎng)度歸一化比率,并且將所述文檔長(zhǎng)度歸一化比率應(yīng)用于對(duì)所述反饋信息的計(jì)算中;相關(guān)分?jǐn)?shù)計(jì)算裝置805,用于基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的所述依存關(guān)系,計(jì)算相關(guān)分?jǐn)?shù);詞排序裝置807,用于將反饋文檔中的詞按照相關(guān)分?jǐn)?shù)的降序進(jìn)行排序;反饋信息確定裝置809,用于確定具有最高相關(guān)分?jǐn)?shù)的前M個(gè)詞作為反饋信息,其中M是正整數(shù)。在以下,將詳細(xì)描述本發(fā)明的實(shí)施例。(第一實(shí)施例)將參照?qǐng)D3描述第一實(shí)施例。圖3是示出根據(jù)本發(fā)明第一實(shí)施例的利用相關(guān)反饋信息的檢索系統(tǒng)執(zhí)行的檢索過程的流程圖。該過程開始于步驟S301,在步驟S301,系統(tǒng)獲得初始查詢式并基于該初始查詢式執(zhí)行第一次檢索,以便獲得可被返回給用戶的結(jié)果文檔列表。第一次檢索可以利用本領(lǐng)域技術(shù)人員所知的任何關(guān)鍵詞檢索方法,只要檢索結(jié)果中的文檔可以根據(jù)指示文檔與查詢式之間的相關(guān)程度的分?jǐn)?shù)而被排序即可。例如,文檔與查詢式之間的分?jǐn)?shù)可以被計(jì)算為由初始查詢式的詞在文檔中出現(xiàn)的數(shù)量所表示的分?jǐn)?shù),如下。SCO^^/OC,.)-Z"(flf0C,.,&)(式2)每個(gè)&其中,doCi表示第i個(gè)文檔,score(doCi)表示doCi的分?jǐn)?shù),qk表示查詢式中的第k個(gè)詞,并且n(doCi,qk)表示doCi中qk的數(shù)量。本領(lǐng)域技術(shù)人員知曉可以用于第一次檢索以及文檔排序的許多其他方法。例如,優(yōu)選地但并非必需地,系統(tǒng)為每個(gè)查詢?cè)~分配相應(yīng)的權(quán)重。因此,式2被如下修改?!鰕core^oc,)-ZW."Woc,,^)(式3)每個(gè)w其中Wk表示查詢?cè)~qk的權(quán)重。本領(lǐng)域技術(shù)人員可以設(shè)計(jì)將權(quán)重分配給查詢?cè)~的各種方法。例如,如果查詢?cè)~在不相關(guān)的文檔中頻繁出現(xiàn),則此查詢?cè)~將被分配較低的權(quán)重。例如,諸如"是"、"的"、"了"之類的在各種不相關(guān)文檔中頻繁出現(xiàn)的查詢?cè)~將被分配非常低的權(quán)重。例如,可以采用在MinZhang等人的"DForIDFOntheUseofPrimaryFeatureModelforWebInformationRetrieval",vol.16,No.5,JournalofSoftware2005;ShaohanLiu等人的"ApplyingRelevanceFeedbacktoInformationRetrievalUsingKeywordandWeightAlgorithms,,,JournaloftheChinaSocietyforScientificandTechnicalInformation,Vol.21,No.6,December,2002中公開的技術(shù)。在步驟S303中,該列表中的結(jié)果文檔被按照上述分?jǐn)?shù)按降序進(jìn)行排列。系統(tǒng)從文檔列表中獲得前N個(gè)文檔。N是可以由用戶任意選擇或者可以由系統(tǒng)適當(dāng)?shù)卦O(shè)定的正整數(shù)。在步驟S305中,系統(tǒng)對(duì)這前N個(gè)文檔進(jìn)行循環(huán),以通過詞法分析器獲得分詞結(jié)果。任何詞法分析器都可被用于獲得分詞結(jié)果,諸如在JianfengGao等人的"D印endence9LanguageModelforlnformationRetrieval,,,AnnualACMConferenceonResearchandDevelopmentinInformationRetrieval,Proceedingsofthe27thannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformation,第170-177頁,2004年;DenizYuret的"DiscoveryofLinguisticRelationsUsingLexicalAttraction,,博士論文,MassachusettsInstituteofTechnology1998;PengWang等人的"ResearchesonRule-basedChineseParsingTechniques",ComputerEngineeringandApplications,Vol.29,2003山iuQ皿的"SummaryofChinesesyntaxparsingandlexicalparsingtechnology,,,Students'WorkshoponComputationalLinguistics,2002中所公開的那些。在步驟S307中,系統(tǒng)循環(huán)所述前N個(gè)文檔,以通過語法分析器獲得語法結(jié)果。語法分析器是這樣一種分析器,其能夠輸入句子的詞列表,并且輸出這些詞之間的依存關(guān)系(關(guān)聯(lián))。語法分析器是與自然語言處理相關(guān)的系統(tǒng)(諸如文本搜索系統(tǒng)、機(jī)器翻譯系統(tǒng)、信息提取系統(tǒng)、文-語轉(zhuǎn)換系統(tǒng)等)中的一種重要技術(shù)。語法分析器的任務(wù)是自動(dòng)分析句子的語法結(jié)構(gòu),然后將句子翻譯成結(jié)構(gòu)化的語法圖。在各種語法分析器中,給出句子中的詞之間的語法依存關(guān)系的一種特殊的語法分析器即淺層語法分析器(shallowsyntaxparser)越來越受到普遍使用,這是因?yàn)槠渚群退俣榷急韧耆Z法分析器(fullsyntaxparser)好得多。圖5給出了兩個(gè)句子的語法分析結(jié)果。在圖5中,在詞之間存在弧線,每個(gè)弧線都是無環(huán)、平面、且無向的弧線。在淺層語法分析器的技術(shù)中,每個(gè)弧線示出弧線兩端的詞之間的關(guān)聯(lián)或者依存關(guān)系。淺層語法分析器的技術(shù)中的關(guān)聯(lián)或者依存關(guān)系表明基于給定句子的所有可能關(guān)系中的最佳關(guān)系。圖5中示出兩個(gè)詞之間的依存關(guān)系的每個(gè)弧線都具有被稱為基本關(guān)系分?jǐn)?shù)的分?jǐn)?shù)。優(yōu)選地,在本發(fā)明中,所述依存關(guān)系與反饋文檔中的詞和初始查詢式中的詞之間的基本關(guān)系分?jǐn)?shù)可以相結(jié)合被使用?;娟P(guān)系分?jǐn)?shù)指示這些詞的相關(guān)程度。以下示出了利用所述依存關(guān)系與基本關(guān)系分?jǐn)?shù)這兩者的示例。然而應(yīng)該指出,依存關(guān)系可以被單獨(dú)使用而不考慮基本關(guān)系分?jǐn)?shù)??梢允褂萌魏握Z法分析器來獲得語法結(jié)果??梢圆捎美缭谥T如JianfengGao等人的"D印endenceLanguageModelforInformationRetrieval,,SIGIR_2004,Sheffield,UK,7月2529日;YuretDeniz,"DiscoveryofLinguisticRelationsUsingLexicalAttraction",博士論文,MIT,1998年中公開的那些淺層語法分析器。也可以采用完全語法分析器。然而,因?yàn)闇\層語法分析器的精度和速度都比完全語法分析器好得多,因此優(yōu)選使用淺層語法分析器。在步驟S309中,系統(tǒng)通過基于在步驟S305中獲得的分詞結(jié)果和在步驟S307中獲得的語法結(jié)果計(jì)算相關(guān)分?jǐn)?shù),獲得反饋信息。具體地,系統(tǒng)利用分詞結(jié)果和語法結(jié)果計(jì)算前N個(gè)文檔中的每個(gè)詞的相關(guān)分?jǐn)?shù)。例如,可以使用以下的式4來計(jì)算每個(gè)詞的相關(guān)分?jǐn)?shù)。re/ev朋ce—咖re(w》=woW—we(wy)+reto/o"—we(w/)<formula>formulaseeoriginaldocumentpage11</formula><formula>formulaseeoriginaldocumentpage11</formula>(式4)其中,Wj表示前N個(gè)文檔中的第j個(gè)詞,Wj可以遍歷所有反饋文檔中的所有詞;relevance_score(Wj)表示W(wǎng)j的相關(guān)分?jǐn)?shù);word_score(w》表示W(wǎng)j的、僅取決于關(guān)于Wj本身的信息的分?jǐn)?shù);relation—score(Wj)表示w」的、指示其與查詢?cè)~的依存程度的分?jǐn)?shù);doCi表示前N個(gè)文檔中的第i個(gè)文檔;WOrd_SCOre(Wj,doCi)是Wj在當(dāng)前文檔中出現(xiàn)的數(shù)量;qk表示初始查詢式中的第k個(gè)詞;relation_score(Wj,qk)表示W(wǎng)j和qk的基本關(guān)系分?jǐn)?shù),如果Wj與qk不具有任何依存關(guān)系,貝Urelation—score(Wj,qk)為零;relation—score(w」,qk,d0Ci)是d0Ci中Wj和qk的基本關(guān)系分?jǐn)?shù),其表示d0Ci中Wj和qk的依存關(guān)系。請(qǐng)注意,基本關(guān)系分?jǐn)?shù)可以根據(jù)需要被手動(dòng)設(shè)定,或者可以從預(yù)定的詞典中取出。作為替換方案,可通過使用語法分析器獲得基本關(guān)系分?jǐn)?shù)??梢酝ㄟ^以下的步驟來生成所述詞典-收集語料庫(kù);-將語料庫(kù)中的所有句子分割成詞節(jié)點(diǎn);-在統(tǒng)計(jì)上對(duì)各相鄰詞節(jié)點(diǎn)對(duì)出現(xiàn)在該語料庫(kù)中的數(shù)量進(jìn)行計(jì)數(shù);以及-記錄所述詞節(jié)點(diǎn)對(duì),并且對(duì)它們的出現(xiàn)數(shù)量進(jìn)行歸一化作為它們?cè)诨娟P(guān)系分?jǐn)?shù)詞典中的基本關(guān)系分?jǐn)?shù)。請(qǐng)注意,式4僅是用于使用分詞結(jié)果和語法結(jié)果二者計(jì)算相關(guān)分?jǐn)?shù)的示例。本領(lǐng)域技術(shù)人員可以根據(jù)需要選擇其他方式來利用分詞結(jié)果和語法結(jié)果的任何組合來計(jì)算相關(guān)分?jǐn)?shù)。例如,也可以使用revelacen—score(wj)=word_score(w》'relation—score(w》的算式。在完成對(duì)前N個(gè)文檔的每個(gè)文檔中的每個(gè)詞的相關(guān)分?jǐn)?shù)(即relevance—score)的計(jì)算之后,這些詞按照相關(guān)分?jǐn)?shù)被排序,并且具有最高相關(guān)分?jǐn)?shù)的M個(gè)詞被選擇作為反饋信息。在此,M是可以根據(jù)需要由用戶選擇或者由系統(tǒng)自動(dòng)預(yù)先確定的任意正整數(shù)。在步驟S311中,系統(tǒng)將所述反饋信息添加到初始查詢式中,以生成新的查詢式。在步驟S313中,系統(tǒng)使用包括反饋信息的新的查詢式以進(jìn)行第二次檢索。在步驟S315中,系統(tǒng)將從第二次檢索獲得的結(jié)果作為最終結(jié)果,并且將該結(jié)果返回給用戶,過程結(jié)束。根據(jù)上述的過程,不僅基于簡(jiǎn)單的分詞結(jié)果,而且還基于語法結(jié)果信息,獲得反饋信息。分詞僅區(qū)分每個(gè)詞,而語法分析還進(jìn)一步識(shí)別反饋文檔中的詞與初始查詢式中的詞之間的依存關(guān)系。在發(fā)明人進(jìn)行的仿真實(shí)驗(yàn)中,對(duì)于139353KB的普通話TREC語料庫(kù),評(píng)價(jià)了根據(jù)本實(shí)施例的利用相關(guān)反饋信息的上述檢索方法,并且獲得了如表1所示的結(jié)果。表1<table>tableseeoriginaldocumentpage12</column></row><table>在此,召回率、準(zhǔn)確率、R-準(zhǔn)確率是用于評(píng)價(jià)檢索方法或系統(tǒng)的三個(gè)常用的參數(shù)。"召回率"等于結(jié)果文檔列表中的回復(fù)文檔的數(shù)量與所有回復(fù)文檔的總數(shù)的比率。"準(zhǔn)確率"等于結(jié)果文檔列表中的回復(fù)文檔的數(shù)量與結(jié)果文檔的總數(shù)的比率。"R-準(zhǔn)確率"等于前R個(gè)結(jié)果文檔中的回復(fù)文檔的數(shù)量與所有回復(fù)文檔的總數(shù)的比率(R是正整數(shù))。在此,結(jié)果文檔是指通過檢索系統(tǒng)被檢索出或搜索出的文檔?;貜?fù)文檔是指用戶實(shí)際所需的文檔。這些參數(shù)的值越大,對(duì)應(yīng)的性能越好。召回率、準(zhǔn)確率、R-準(zhǔn)確率是本領(lǐng)域技術(shù)人員常用的參數(shù),因此將省略對(duì)它們的詳細(xì)說明。從表1可以看出,與常規(guī)方法相比,通過使用本發(fā)明的相關(guān)反饋方法改善了性能。[示例]現(xiàn)在,為了便于對(duì)本發(fā)明原理的理解,將示出根據(jù)第一實(shí)施例的上述過程的一個(gè)示例。應(yīng)該指出,以下的示例僅用于說明本發(fā)明原理的目的,任何具體數(shù)值、具體方程或表達(dá)式都不意圖限制本發(fā)明的范圍。在本示例中,查詢式Q是"音樂播放器",并且候選文檔總共包括三個(gè)文檔,即Dl:美國(guó)蘋果公司推出iP0D數(shù)字音樂播放器D2:美國(guó)一些公司推出新型音樂播放器D3:iP0Dshuffle最近在全球熱銷在本示例中,N(反饋文檔的數(shù)量)被設(shè)定為2,并且M(要被取作反饋信息的詞的數(shù)量)被設(shè)定為3。首先,將描述利用圖7所示的常規(guī)檢索方法的情況。在步驟S701中,上述查詢式"音樂播放器"被輸入,并且在D1D3之中進(jìn)行第一次檢索。在第一次檢索中,可以使用任何常規(guī)檢索方法,并且可以對(duì)查詢式"音樂播放器"進(jìn)行諸如分詞之類的處理,這屬于本領(lǐng)域技術(shù)人員常用的技術(shù)手段。因此,獲得D1和D2作為結(jié)果文檔。在步驟S703中,前N(N=2)個(gè)文檔即Dl和D2被獲得作為第一次檢索的反饋文檔。在步驟S705中,通過使用詞法分析器獲得分詞結(jié)果,如圖4所示。圖4是示出由詞法分析器獲得的分詞結(jié)果的圖。在圖4中,句子被分割成單個(gè)的詞。分詞過程可以通過本領(lǐng)域公知的任何詞法分析技術(shù)來執(zhí)行。在步驟S707中,根據(jù)式l,基于分詞結(jié)果信息計(jì)算反饋文檔中的每個(gè)詞的相關(guān)分?jǐn)?shù)。在此,設(shè)定i=1,2,并且可以獲得以下的相關(guān)分?jǐn)?shù)。relevance_score(美國(guó))=2;relevance_score(蘋果)=1;relevance—score(公司)=2;relevance—score(推出)relevance_score(iPod)=relevance—score(數(shù)字)relevance—score(—些)relevance—score(新型)在按照上述詞各自的相關(guān)分?jǐn)?shù)按降序?qū)υ~進(jìn)行排列之后,用于反饋的候選詞的列3)個(gè)詞作為反饋信息,并且將其表如下美國(guó),公司,推出,蘋果,數(shù)字,iPod,一些,新型。在步驟S709中,選擇具有最高相關(guān)分?jǐn)?shù)的M(M二添加到初始查詢式中,從而新的查詢式變?yōu)镼:音樂,播放器,美國(guó),公司,推出。在步驟S711中,進(jìn)行第二次檢索,并且在步驟S713,獲得最終檢索結(jié)果D1和D2,并且將其呈現(xiàn)給用戶。然后,以下將描述使用圖3所示的本發(fā)明的檢索方法的情況。在步驟S301中,上述查詢式"音樂播放器"被輸入,并且在DlD3之中進(jìn)行第一次檢索。在第一次檢索中,可以使用任何常規(guī)檢索方法,并且可以對(duì)查詢式"音樂播放器"進(jìn)行諸如分詞之類的處理,這屬于本領(lǐng)域技術(shù)人員常用的技術(shù)手段。根據(jù)一種常用的分詞方法,查詢式"音樂播放器"被分割為兩個(gè)查詢?cè)~,即"音樂"和"播放器"。在各種檢索方法中,有一種簡(jiǎn)單的檢索方法,即計(jì)算每個(gè)查詢?cè)~在每個(gè)文檔中出現(xiàn)的數(shù)量的和,并且對(duì)于每個(gè)文檔將根據(jù)式3獲得一個(gè)分?jǐn)?shù)。we<yoc,)=(式3)每個(gè)%其中,doci表示第i個(gè)文檔,score(doci)表示doCi的分?jǐn)?shù),qk表示查詢式中的第k個(gè)詞,Wk表示查詢?cè)~qk的權(quán)重,并且n(doCi,qk)表示doCi中qk的數(shù)量。本領(lǐng)域技術(shù)人員可以設(shè)計(jì)將權(quán)重分配給查詢?cè)~的任何方法。例如,如果查詢?cè)~在不相關(guān)的文檔中頻繁出現(xiàn),則此查詢?cè)~將被分配較低的權(quán)重。例如,諸如"是"、"的"、或"了"之類的在各種不相關(guān)文檔中頻繁出現(xiàn)的查詢?cè)~將被分配非常低的權(quán)重。在此例中,"音樂"和"播放器"被分配相等的查詢式權(quán)重。從而,獲得Dl和D2作為結(jié)果文檔。在步驟S303中,前N(N=2)個(gè)文檔即Dl和D2被獲得作為第一次檢索的反饋文檔。在步驟S305中,通過利用詞法分析器獲得分詞結(jié)果,如圖4所示。圖4是示出由詞法分析器獲得的D1和D2的分詞結(jié)果的圖。在圖4中,句子被分割成單個(gè)的詞。分詞過程可以通過本領(lǐng)域公知的任何詞法分析技術(shù)來執(zhí)行。在此,將doCi中Wj的數(shù)量用作式4中的word_—score(w"doc^)。因此,基于分詞結(jié)果,根據(jù)式4計(jì)算worcLscore,即每個(gè)Wj在文檔中出現(xiàn)的數(shù)量,如下.word_score(美國(guó))=2word_score(蘋果)=1word_score(公司)=2word_score(推出)=2;word_score(iPod)=1;word_score(數(shù)字)=1;word_score(—些)=1;word_score(新型)=1。在步驟S307中,系統(tǒng)對(duì)前N個(gè)文檔進(jìn)行循環(huán),以通過淺層語法分析器獲得語法結(jié)果。淺層語法分析器是這樣一種分析器,其能夠輸入句子的詞列表,并且輸出這些詞之間的依存關(guān)系(關(guān)聯(lián)),其中每個(gè)依存關(guān)系(關(guān)聯(lián))具有基本關(guān)系分?jǐn)?shù)。圖5是示出通過淺層語法分析器獲得的Dl和D2的語法結(jié)果的圖。在圖5中,如以上已描述的,示出了詞之間的依存關(guān)系和基本關(guān)系分?jǐn)?shù)??梢允褂萌魏螠\層語法分析器來獲得依存關(guān)系,并且基本關(guān)系分?jǐn)?shù)可以被手工確定或者從用于依存關(guān)系的詞典中確定??梢圆捎美缭谥T如JianfengGao等人的"DependenceLanguageModelforlnformationRetrieval"SIGIR_2004,Sheffield,UK,7月2529日;YuretDeniz,"DiscoveryofLinguisticRelationsUsingLexicalAttraction",博士論文,MIT,1998年中公開的淺層語法分析器。也可以采用完全語法分析器。通過這些淺層語法分析器中的任何一個(gè)都可以獲得相同的期望語法結(jié)果,雖然它們具有不同的性能。doci中的Wj和qk之間的基本關(guān)系分?jǐn)?shù)被用作式4中的"relatior^—score(Wj,qk,d0Ci)"。從而,根據(jù)式4和圖5,基于語法結(jié)果對(duì)文檔中的Wj和每個(gè)qk計(jì)算Wj和每個(gè)qk之間的relation_score(w》,如下。relation_score(美國(guó))=0;relation_score(蘋果)=0;relation_score(公司)=0;relation_score(推出)=2+2=4;relation—score(iPod)=3;relation_score(數(shù)字)=4;relation_score(—些)=0;relation_score(新型)=2。請(qǐng)注意,以上示出的基本關(guān)系分?jǐn)?shù)僅是示例性的??梢允褂镁哂性~之間的各種基本關(guān)系分?jǐn)?shù)的任何詞典。在一種特定情況下,所有基本關(guān)系分?jǐn)?shù)可被相等地設(shè)定,在這種情況下,詞的relation_score表示詞與初始查詢式中的詞的關(guān)系的數(shù)量。在步驟S309中,系統(tǒng)基于在步驟S305中獲得的分詞結(jié)果和在步驟S307中獲得的語法結(jié)果,獲得相關(guān)分?jǐn)?shù)。具體地,系統(tǒng)通過使用分詞結(jié)果和語法結(jié)果計(jì)算前N個(gè)文檔中的每個(gè)詞的相關(guān)分?jǐn)?shù)。根據(jù)式4計(jì)算前N個(gè)文檔中的每個(gè)詞的相關(guān)分?jǐn)?shù)即relevance—score(Wj)。在此,設(shè)定i=1,2,并且可以獲得以下的相關(guān)分?jǐn)?shù)。relevance_score(美國(guó))=word_score(美國(guó))+relation_score(美國(guó))=2relevance_score(蘋果)=word_score(蘋果)+relation_score(蘋果)=1relevance—score(公司)=word_score(公司)+relation_score(公司)=2relevance_score(推出)=word_score(推出)+relation_score(推出)=614下relevance—score(iPod)=word—score(iPod)+relation_score(iPod)=4relevance—score(數(shù)字)=word_score(數(shù)字)+relation_score(數(shù)字)=5relevance—score(—些)=word_score(—些)+relation_score(—些)=1relevance_score(新型)=word_score(新型)+relation_score(新型)=3在對(duì)這些詞按照其相應(yīng)的相關(guān)分?jǐn)?shù)以降序排列之后,用于反饋的候選詞列表如推出,數(shù)字,iPod,新型,美國(guó),公司,蘋果,一些。在步驟S311中,具有最高相關(guān)分?jǐn)?shù)的M(M二3)個(gè)詞被選擇作為反饋信息,并且被添加到初始查詢式中,從而新的查詢式變?yōu)镼:音樂,播放器,推出,數(shù)字,iPod。在步驟S313中,進(jìn)行第二次檢索??梢岳门c步驟S301中的第一次檢索相同的方法進(jìn)行第二次檢索。優(yōu)選地但不是必需地,系統(tǒng)給包括新查詢?cè)~的查詢?cè)~分配權(quán)重。在步驟S315中,獲得最終檢索結(jié)果D1、D2、D3,并且其被呈現(xiàn)給用戶。從上面可以看出,根據(jù)常規(guī)方法,"美國(guó)"、"公司"、"推出"被獲得作為反饋信息,僅是因?yàn)檫@些詞在通過第一次檢索獲得的前2個(gè)文檔中的數(shù)量是最高的。另一方面,根據(jù)本發(fā)明的方法,"推出"、"數(shù)字"、"iPOD"被獲得作為反饋信息,因?yàn)樵谟?jì)算相關(guān)分?jǐn)?shù)時(shí)還考慮到這樣的事實(shí)這些詞與初始查詢?cè)~"音樂"和"播放器"具有較高的基本關(guān)系分?jǐn)?shù)。結(jié)果,通過使用圖7中的方法獲得Dl和D2作為檢索結(jié)果,而通過使用圖3中的方法獲得Dl、D2和D3作為檢索結(jié)果。也就是說,在使用圖7中的常規(guī)方法時(shí),遺漏了D3,而D3也是用戶可能需要的高度相關(guān)文檔。另一方面,在使用根據(jù)圖3所示的本發(fā)明的方法的情況下,D3被呈現(xiàn)給用戶作為最終檢索結(jié)果。因此可以看出,根據(jù)本發(fā)明的檢索系統(tǒng)和方法與常規(guī)方法相比,在找到更期望的文檔方面可以帶來更優(yōu)越的性能。為了便于理解,已結(jié)合一個(gè)示例描述了本發(fā)明的第一實(shí)施例。然而,在此提及的具體數(shù)值或公式僅是示例性的,而不意圖限制本發(fā)明的范圍。如上所述,任何常規(guī)檢索方法可以被用于第一次和第二次檢索中,可以使用任何詞法分析器來獲得分詞結(jié)果,并且可以使用任何語法分析器來獲得詞之間的依存關(guān)系。(第二實(shí)施例)以下將描述第二實(shí)施例。在第一實(shí)施例的步驟S313中,系統(tǒng)優(yōu)選地為每個(gè)查詢?cè)~分配權(quán)重。在使用相關(guān)反饋信息的常規(guī)檢索系統(tǒng)中,從反饋信息獲得的每個(gè)新的查詢?cè)~被相等地用在第二次檢索中。例如,在以上示出的示例中,系統(tǒng)可以為相應(yīng)的查詢?cè)~分配權(quán)重W(音樂)=0.263,W(播放器)=0.263,W(推出)=0.158,W(數(shù)字)=0.158,W(iP0D)=0.158。然而,反饋信息中的詞的相關(guān)分?jǐn)?shù)彼此并不相等。這意味著,反饋信息中的詞的貢獻(xiàn)并不彼此相等,因此優(yōu)選地被不同地使用。在一個(gè)示例中,查詢?cè)~的權(quán)重可以根據(jù)以下的式5被調(diào)整?!?(^)-『kJ."/era"ce一scwe(^J/(^ye/eva"ce一jcwe(&)/A/)m=]_,,M(式5)其中,w,(q邁)表示反饋信息中的第m個(gè)詞的調(diào)整后的權(quán)重,W(qm)表示反饋信息中的第m個(gè)詞的未調(diào)整的15權(quán)重,1>"^"-",&)表示在步驟S309中計(jì)算的反饋信息中的所有詞的相關(guān)分?jǐn)?shù)的A:和,M表示反饋信息中的詞的總數(shù)量。因此,每個(gè)新查詢?cè)~的調(diào)整后的權(quán)重如下。W'(推出)=0.158*6/((6+5+4)/3)=0.1896,W,(數(shù)字)=0.158*5/((6+5+4)/3)=0.158,W,(iP0D)=0.158*4/((6+5+4)/3)=0.1246。從上面可看出,根據(jù)本實(shí)施例,每個(gè)新查詢?cè)~的調(diào)整后的權(quán)重顯示出對(duì)反饋信息的貢獻(xiàn)的差異。(第三實(shí)施例)以下將參照?qǐng)D6描述第三實(shí)施例。圖6是示出在第三實(shí)施例中使用的過濾過程的流程圖。在第一實(shí)施例的步驟S303中,通過第一次檢索,前N個(gè)文檔被獲得作為反饋文檔。在利用相關(guān)反饋信息的常規(guī)檢索系統(tǒng)中,由第一次檢索生成的前N個(gè)文檔并不進(jìn)一步被處理而直接用于反饋檢索。發(fā)明人發(fā)現(xiàn),反饋檢索的性能還取決于第一次檢索的準(zhǔn)確率,但是通過第一次檢索獲得的前N個(gè)文檔有時(shí)在反饋檢索中并不足夠好用。在第三實(shí)施例中,在通過第一次檢索獲得前N個(gè)文檔之后,所述前N個(gè)文檔在步驟S303中被進(jìn)一步過濾。圖6是示出在步驟S303中優(yōu)選執(zhí)行的過濾過程的流程圖。在步驟S601中,每個(gè)文檔被分析,并且找到短語分布。公知的短語技術(shù)給出了兩個(gè)詞如何可被看作一個(gè)短語。例如在高級(jí)別,如果兩個(gè)詞在查詢式中和在文檔中都相鄰,并且其間沒有別的詞,則這兩個(gè)詞可被看作是文檔中的一個(gè)短語。在中等級(jí)別,如果兩個(gè)詞在查詢式中相鄰,并且出現(xiàn)在文檔中的一個(gè)句子中(其間可能具有若干詞),則這兩個(gè)詞可被看作是一個(gè)短語。在低級(jí)別,如果兩個(gè)詞既出現(xiàn)在查詢式中也出現(xiàn)在文檔中的一個(gè)句子中(其間可能具有若干詞),則這兩個(gè)詞可被看作是一個(gè)短語。例如,當(dāng)查詢式是"中國(guó)經(jīng)濟(jì)發(fā)展"時(shí),在高級(jí)別,文檔1:中國(guó)經(jīng)濟(jì)。(短語數(shù)=1)文檔2:中國(guó)的經(jīng)濟(jì)。中國(guó)的發(fā)展。(短語數(shù)=0)文檔3:中國(guó)經(jīng)濟(jì)。經(jīng)濟(jì)發(fā)展。(短語數(shù)=2)在中等級(jí)別,文檔1:中國(guó)經(jīng)濟(jì)。(短語數(shù)=1)文檔2:中國(guó)的經(jīng)濟(jì)。中國(guó)的發(fā)展。(短語數(shù)=1)文檔3:中國(guó)經(jīng)濟(jì)。經(jīng)濟(jì)發(fā)展。(短語數(shù)=2)在低級(jí)別,文檔1:中國(guó)經(jīng)濟(jì)。(短語數(shù)=1)文檔2:中國(guó)的經(jīng)濟(jì)。中國(guó)的發(fā)展。(短語數(shù)=2)文檔3:中國(guó)經(jīng)濟(jì)。經(jīng)濟(jì)發(fā)展。(短語數(shù)=2)例如根據(jù)上述方式,計(jì)算每個(gè)文檔的短語數(shù)。16在步驟S603中,根據(jù)短語數(shù),每個(gè)文檔可被分類為文檔組,諸如其中每個(gè)文檔都不具有短語的文檔組,其中每個(gè)文檔僅具有一個(gè)短語的文檔組,以及其中每個(gè)文檔僅具有兩個(gè)短語的文檔組。例如,在高級(jí)別,文檔l被分類為文檔組{短語數(shù)=1};文檔2被分類為文檔組{短語數(shù)=0};文檔3被分類為文檔組{短語數(shù)=2}。在步驟S605,系統(tǒng)過濾掉一些文檔,并且僅保留在短語數(shù)方面滿足條件的文檔。例如,屬于文檔組{短語數(shù)>0}的文檔被保留。這些文檔作為最終所選擇的反饋文檔,而代替前N個(gè)文檔,用于步驟S305及其后續(xù)處理。(第四實(shí)施例)以下將描述第四實(shí)施例。在利用相關(guān)反饋信息的常規(guī)檢索系統(tǒng)和方法中,文檔長(zhǎng)度也對(duì)反饋信息的計(jì)算具有影響。因此,在計(jì)算反饋信息時(shí),較長(zhǎng)的文檔會(huì)具有不公平的"優(yōu)勢(shì)",因此相關(guān)分?jǐn)?shù)優(yōu)選通過長(zhǎng)度歸一化來進(jìn)行調(diào)整。在第四實(shí)施例中,在步驟S309中,基于文檔的長(zhǎng)度,對(duì)于每個(gè)文檔計(jì)算歸一化比率。例如,可以按照以下的式6計(jì)算歸一化比率。歸一化比率=1/(l+log(文檔長(zhǎng)度))(式6)然而,也可以采用用于計(jì)算歸一化比率的其他方法,例如歸一化比率可簡(jiǎn)單地計(jì)算為1/長(zhǎng)度。因此,可以使用以下的式7代替式4來計(jì)算每個(gè)詞的相關(guān)分?jǐn)?shù)。re/evawce一score(vv乂.)=—5roz-e(M^)+fe/a"'ow一score(M^.)每個(gè)rfo。每個(gè)4(式7)其中,Ai表示d0Ci的歸一化比率。在前文中,分別描述了四個(gè)實(shí)施例。第一實(shí)施例是用于利用語法分析結(jié)果進(jìn)行信息檢索的相關(guān)反饋系統(tǒng)。第二實(shí)施例是其中通過調(diào)整每個(gè)新的查詢?cè)~的權(quán)重而修改第一實(shí)施例中的步驟S313的過程的技術(shù)方案。第三實(shí)施例是其中通過對(duì)前N個(gè)文檔進(jìn)行過濾而修改第一實(shí)施例中的步驟S303的過程的技術(shù)方案。第四實(shí)施例是通過對(duì)每個(gè)文檔執(zhí)行長(zhǎng)度歸一化而修改第一實(shí)施例中的步驟S309的過程的技術(shù)方案。然而,對(duì)于本領(lǐng)域技術(shù)人員顯而易見的是,第一到第四實(shí)施例可以被任意組合。也就是說,上述實(shí)施例的任何組合都被包含在本發(fā)明的范圍內(nèi)??梢酝ㄟ^許多方式來實(shí)施本發(fā)明的方法和系統(tǒng)。例如,可以通過軟件、硬件、固件、或其任何組合來實(shí)施本發(fā)明的方法和系統(tǒng)。上述的方法步驟的次序僅是說明性的,本發(fā)明的方法步驟不限于以上具體描述的次序,除非以其他方式明確說明。此外,在一些實(shí)施例中,本發(fā)明還可以被實(shí)施為記錄在記錄介質(zhì)中的程序,其包括用于實(shí)現(xiàn)根據(jù)本發(fā)明的方法的機(jī)器可讀指令。因而,本發(fā)明還覆蓋存儲(chǔ)用于實(shí)現(xiàn)根據(jù)本發(fā)明的方法的程序的記錄介質(zhì)。雖然在上述示例中,中文語言作為示例被例示以說明本發(fā)明的原理,但本發(fā)明可以應(yīng)用于任何語言。也就是說,本發(fā)明中的方法是與語言種類無關(guān)的,并且適用于所有檢索系統(tǒng)。雖然已通過示例詳細(xì)展示了本發(fā)明的一些具體實(shí)施例,但是本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述示例僅意圖是示例性的而非限制本發(fā)明的范圍。本領(lǐng)域技術(shù)人員應(yīng)該理解,上述實(shí)施例可以被修改而不脫離本發(fā)明的范圍和實(shí)質(zhì)。本發(fā)明的范圍是通過所附的權(quán)利要求限定的。權(quán)利要求一種檢索方法,包括第一次檢索步驟,通過使用初始查詢式對(duì)多個(gè)文檔執(zhí)行第一次檢索以獲得結(jié)果文檔,并且從所述結(jié)果文檔中選擇反饋文檔;選擇步驟,通過以反饋文檔中的短語數(shù)量作為準(zhǔn)則對(duì)反饋文檔進(jìn)行過濾,從反饋文檔中選擇一些文檔作為所選擇的反饋文檔,所述短語是由初始查詢式中的詞構(gòu)成的;反饋信息獲得步驟,基于所述所選擇的反饋文檔中的詞與初始查詢式中的詞之間的依存關(guān)系,從所述所選擇的反饋文檔中獲得反饋信息;生成步驟,通過將所述反饋信息添加到初始查詢式中,生成新的查詢式;以及第二次檢索步驟,通過使用新的查詢式,對(duì)所述多個(gè)文檔執(zhí)行第二次檢索。2.如權(quán)利要求1所述的檢索方法,其中所述反饋信息獲得步驟包括相關(guān)分?jǐn)?shù)計(jì)算步驟,基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的所述依存關(guān)系,計(jì)算相關(guān)分?jǐn)?shù)。3.如權(quán)利要求2所述的檢索方法,其中所述相關(guān)分?jǐn)?shù)計(jì)算步驟基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的所述依存關(guān)系,并且基于每個(gè)詞在所述所選擇的反饋文檔中出現(xiàn)的數(shù)量,計(jì)算相關(guān)分?jǐn)?shù)。4.如權(quán)利要求1所述的檢索方法,其中所述反饋信息獲得步驟基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的所述依存關(guān)系,并且基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的基本關(guān)系分?jǐn)?shù),獲得所述反饋信息。5.如權(quán)利要求4所述的檢索方法,其中所述反饋信息獲得步驟包括相關(guān)分?jǐn)?shù)計(jì)算步驟,基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的所述依存關(guān)系,并且基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的基本關(guān)系分?jǐn)?shù),計(jì)算相關(guān)分?jǐn)?shù)。6.如權(quán)利要求5所述的檢索方法,其中所述相關(guān)分?jǐn)?shù)計(jì)算步驟基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的所述依存關(guān)系,基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的基本關(guān)系分?jǐn)?shù),并且基于每個(gè)詞在所述所選擇的反饋文檔中出現(xiàn)的數(shù)量,計(jì)算相關(guān)分?jǐn)?shù)。7.如權(quán)利要求2、3、5、6中任一項(xiàng)所述的檢索方法,其中所述第二次檢索步驟包括權(quán)重調(diào)整步驟,通過利用所述相關(guān)分?jǐn)?shù),調(diào)整反饋信息中的每個(gè)詞的權(quán)重,所述權(quán)重在第二次檢索期間被使用。8.如權(quán)利要求2、3、5、6中任一項(xiàng)所述的檢索方法,其中所述反饋信息獲得步驟包括詞選擇步驟,選擇具有最高相關(guān)分?jǐn)?shù)的預(yù)定數(shù)量的詞作為所述反饋信息。9.如權(quán)利要求7所述的檢索方法,其中所述反饋信息獲得步驟包括詞選擇步驟,選擇具有最高相關(guān)分?jǐn)?shù)的預(yù)定數(shù)量的詞作為所述反饋信息。10.如權(quán)利要求1-6和9中任一項(xiàng)所述的檢索方法,其中所述反饋信息獲得步驟包括文檔長(zhǎng)度歸一化步驟,根據(jù)每個(gè)所述所選擇的反饋文檔的長(zhǎng)度計(jì)算文檔長(zhǎng)度歸一化比率,并且將所述文檔長(zhǎng)度歸一化比率應(yīng)用于對(duì)所述反饋信息的計(jì)算中。11.如權(quán)利要求7所述的檢索方法,其中所述反饋信息獲得步驟包括文檔長(zhǎng)度歸一化步驟,根據(jù)每個(gè)所述所選擇的反饋文檔的長(zhǎng)度計(jì)算文檔長(zhǎng)度歸一化比率,并且將所述文檔長(zhǎng)度歸一化比率應(yīng)用于對(duì)所述反饋信息的計(jì)算中。12.如權(quán)利要求8所述的檢索方法,其中所述反饋信息獲得步驟包括文檔長(zhǎng)度歸一化步驟,根據(jù)每個(gè)所述所選擇的反饋文檔的長(zhǎng)度計(jì)算文檔長(zhǎng)度歸一化比率,并且將所述文檔長(zhǎng)度歸一化比率應(yīng)用于對(duì)所述反饋信息的計(jì)算中。13.如權(quán)利要求1-6中任一項(xiàng)所述的檢索方法,其中所述依存關(guān)系是通過利用語法分析器獲得的。14.如權(quán)利要求13所述的檢索方法,其中所述語法分析器是淺層語法分析器。15.—種檢索系統(tǒng),包括第一次檢索裝置,用于通過使用初始查詢式對(duì)多個(gè)文檔執(zhí)行第一次檢索以獲得結(jié)果文檔,并且從所述結(jié)果文檔中選擇反饋文檔;選擇裝置,用于通過以反饋文檔中的短語數(shù)量作為準(zhǔn)則對(duì)反饋文檔進(jìn)行過濾,從反饋文檔中選擇一些文檔作為所選擇的反饋文檔,所述短語是由初始查詢式中的詞構(gòu)成的;反饋信息獲得裝置,用于基于所述所選擇的反饋文檔中的詞與初始查詢式中的詞之間的依存關(guān)系,從所述所選擇的反饋文檔中獲得反饋信息;生成裝置,用于通過將所述反饋信息添加到初始查詢式中,生成新的查詢式;以及第二次檢索裝置,用于通過使用新的查詢式,對(duì)所述多個(gè)文檔執(zhí)行第二次檢索。16.如權(quán)利要求15所述的檢索系統(tǒng),其中所述反饋信息獲得裝置包括相關(guān)分?jǐn)?shù)計(jì)算裝置,用于基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的所述依存關(guān)系,計(jì)算相關(guān)分?jǐn)?shù)。17.如權(quán)利要求16所述的檢索系統(tǒng),其中所述相關(guān)分?jǐn)?shù)計(jì)算裝置基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的所述依存關(guān)系,并且基于每個(gè)詞在所述所選擇的反饋文檔中出現(xiàn)的數(shù)量,計(jì)算相關(guān)分?jǐn)?shù)。18.如權(quán)利要求15所述的檢索系統(tǒng),其中所述反饋信息獲得裝置基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的所述依存關(guān)系,并且基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的基本關(guān)系分?jǐn)?shù),獲得所述反饋信息。19.如權(quán)利要求18所述的檢索系統(tǒng),其中所述反饋信息獲得裝置包括相關(guān)分?jǐn)?shù)計(jì)算裝置,用于基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的所述依存關(guān)系,并且基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的基本關(guān)系分?jǐn)?shù),計(jì)算相關(guān)分?jǐn)?shù)。20.如權(quán)利要求19所述的檢索系統(tǒng),其中所述相關(guān)分?jǐn)?shù)計(jì)算裝置基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的所述依存關(guān)系,基于所述所選擇的反饋文檔中的詞與所述初始查詢式中的詞之間的基本關(guān)系分?jǐn)?shù),并且基于每個(gè)詞在所述所選擇的反饋文檔中出現(xiàn)的數(shù)量,計(jì)算相關(guān)分?jǐn)?shù)。21.如權(quán)利要求16、17、19、20中任一項(xiàng)所述的檢索系統(tǒng),其中所述第二次檢索裝置包權(quán)重調(diào)整裝置,用于通過利用所述相關(guān)分?jǐn)?shù),調(diào)整反饋信息中的每個(gè)詞的權(quán)重,所述權(quán)重在第二次檢索期間被使用。22.如權(quán)利要求16、17、19、20中任一項(xiàng)所述的檢索系統(tǒng),其中所述反饋信息獲得裝置包括詞選擇裝置,用于選擇具有最高相關(guān)分?jǐn)?shù)的預(yù)定數(shù)量的詞作為所述反饋信息。23.如權(quán)利要求21所述的檢索系統(tǒng),其中所述反饋信息獲得裝置包括詞選擇裝置,用于選擇具有最高相關(guān)分?jǐn)?shù)的預(yù)定數(shù)量的詞作為所述反饋信息。24.如權(quán)利要求15-20和23中任一項(xiàng)所述的檢索系統(tǒng),其中所述反饋信息獲得裝置包括文檔長(zhǎng)度歸一化裝置,用于根據(jù)每個(gè)所述所選擇的反饋文檔的長(zhǎng)度計(jì)算文檔長(zhǎng)度歸一化比率,并且將所述文檔長(zhǎng)度歸一化比率應(yīng)用于對(duì)所述反饋信息的計(jì)算中。25.如權(quán)利要求21所述的檢索系統(tǒng),其中所述反饋信息獲得裝置包括文檔長(zhǎng)度歸一化裝置,用于根據(jù)每個(gè)所述所選擇的反饋文檔的長(zhǎng)度計(jì)算文檔長(zhǎng)度歸一化比率,并且將所述文檔長(zhǎng)度歸一化比率應(yīng)用于對(duì)所述反饋信息的計(jì)算中。26.如權(quán)利要求22所述的檢索系統(tǒng),其中所述反饋信息獲得裝置包括文檔長(zhǎng)度歸一化裝置,用于根據(jù)每個(gè)所述所選擇的反饋文檔的長(zhǎng)度計(jì)算文檔長(zhǎng)度歸一化比率,并且將所述文檔長(zhǎng)度歸一化比率應(yīng)用于對(duì)所述反饋信息的計(jì)算中。27.如權(quán)利要求15-20中任一項(xiàng)所述的檢索系統(tǒng),其中所述依存關(guān)系是通過利用語法分析器獲得的。28.如權(quán)利要求27所述的檢索系統(tǒng),其中所述語法分析器是淺層語法分析器。全文摘要本發(fā)明公開一種檢索方法和檢索系統(tǒng)。該檢索方法包括第一次檢索步驟,通過使用初始查詢式對(duì)多個(gè)文檔執(zhí)行第一次檢索以獲得結(jié)果文檔,并且從所述結(jié)果文檔中選擇反饋文檔;選擇步驟,通過以反饋文檔中的短語數(shù)量作為準(zhǔn)則對(duì)反饋文檔進(jìn)行過濾,從反饋文檔中選擇一些文檔作為所選擇的反饋文檔,所述短語是由初始查詢式中的詞構(gòu)成的;反饋信息獲得步驟,基于所述所選擇的反饋文檔中的詞與初始查詢式中的詞之間的依存關(guān)系,從所述所選擇的反饋文檔中獲得反饋信息;生成步驟,通過將所述反饋信息添加到初始查詢式中,生成新的查詢式;以及第二次檢索步驟,通過使用新的查詢式,對(duì)所述多個(gè)文檔執(zhí)行第二次檢索。文檔編號(hào)G06F17/30GK101777046SQ200910001619公開日2010年7月14日申請(qǐng)日期2009年1月9日優(yōu)先權(quán)日2009年1月9日發(fā)明者譚誠(chéng),黃耀海申請(qǐng)人:佳能株式會(huì)社