專利名稱:一種檢索排序方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,特別是指一種檢索排序方法及系統(tǒng)。
背景技術(shù):
近年來,隨著互聯(lián)網(wǎng)的普及以及信息產(chǎn)生媒體的多樣化,信息資源總量以指數(shù)級(jí)速度不斷增長,一項(xiàng)針對(duì)2000年至2007年的互聯(lián)網(wǎng)頁總數(shù)的研究統(tǒng)計(jì)表明,參考附圖1,網(wǎng)頁數(shù)目增速也在不斷提高。同時(shí)普遍以非結(jié)構(gòu)化形式存儲(chǔ)于節(jié)點(diǎn)上。對(duì)用戶而言,如何有效獲取信息,急需相應(yīng)的理論和方法來解決。因此,學(xué)術(shù)界和工業(yè)界對(duì)信息檢索也掀起了一個(gè)新的研究高潮,成為當(dāng)前信息處理領(lǐng)域的一個(gè)研究熱點(diǎn)。目前信息檢索領(lǐng)域已經(jīng)形成了一些檢索模型,其中影響較大的有布爾模型、向量空間模型、語言模型、BM25模型等,不斷提高信息檢索性能,推動(dòng)信息檢索研究的發(fā)展。這·些方法在其特定應(yīng)用中都體現(xiàn)出一定的優(yōu)越性,但是它們?nèi)杂锌筛倪M(jìn)之處。其主要問題是,算法無法自適應(yīng)選取參數(shù),運(yùn)行過程中需手動(dòng)調(diào)整模型參數(shù),為此產(chǎn)生了基于機(jī)器學(xué)習(xí)的檢索算法,稱為排序?qū)W習(xí),即系統(tǒng)根據(jù)用戶提交的查詢短語自動(dòng)判斷存儲(chǔ)庫中文檔與查詢的相關(guān)度大小,并給出排序列表,位置越靠前表示返回結(jié)果與查詢?cè)较嚓P(guān)。同時(shí),檢索系統(tǒng)面臨如下問題當(dāng)用戶構(gòu)造一個(gè)好的查詢有困難時(shí),檢索結(jié)果往往不盡如人意,而讓用戶判斷文檔與其查詢的相關(guān)性卻是比較容易的,于是考慮通過用戶交互直接給出文檔相關(guān)性判斷引入檢索系統(tǒng),來提高檢索結(jié)果的準(zhǔn)確性,這就是基于用戶相關(guān)反饋的信息檢索方法。利用用戶相關(guān)反饋進(jìn)行檢索的反復(fù)迭代是非常有意義的,并且相關(guān)反饋對(duì)于跟蹤用戶信息需求的變化也是有效的。圖像檢索就是一個(gè)使用相關(guān)反饋很好的例子,因?yàn)樵趫D像檢索中返回結(jié)果直觀,而且用戶不容易用詞語來表達(dá)其需求,但很容易標(biāo)記相關(guān)和不相關(guān)的圖像結(jié)果。從基于機(jī)器學(xué)習(xí)的信息檢索方法和基于用戶相關(guān)反饋的信息檢索方法研究成果來看,目前兩類算法并沒有很好的交叉融合,往往各自具有一定的應(yīng)用范圍,如何結(jié)合機(jī)器學(xué)習(xí)方法和用戶相關(guān)反饋機(jī)制對(duì)信息進(jìn)行更有效的檢索與排序是本領(lǐng)域技術(shù)人員極為關(guān)注的技術(shù)問題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提出一種檢索排序方法及系統(tǒng),其能提供高效準(zhǔn)確的檢索結(jié)果?;谏鲜瞿康谋景l(fā)明提供的一種檢索排序方法,包括接收查詢短語并檢索;返回檢索結(jié)果;提取文檔庫中所有文檔的低維特征;獲取檢索結(jié)果中多個(gè)文檔的相關(guān)度反饋信息;生成相關(guān)度判斷模型;
計(jì)算檢索結(jié)果中所有文檔的相關(guān)度得分;返回按相關(guān)度得分高低排序的再次檢索結(jié)果。在一個(gè)實(shí)施例中,所述方法還包括初始化步驟提取文檔庫中所有文檔的多維特征。在另一個(gè)實(shí)施例中,所述檢索結(jié)果是按照相似度得分高低排序的。在另一個(gè)實(shí)施例中,所述相似度得分表達(dá)式為相似度得分=Id1 X TFJb2X TF2+- +bnX TFn,其中,TFn為文檔的多維特征,bn為該特征對(duì)應(yīng)的權(quán)重。
在另一個(gè)實(shí)施例中,所述低維特征的提取方法為主成分分析方法。 在另一個(gè)實(shí)施例中,所述相關(guān)度判斷模型的生成方法為利用檢索結(jié)果中多個(gè)文檔的相關(guān)度反饋信息及其低維特征進(jìn)行邏輯回歸。在另一個(gè)實(shí)施例中,所述相關(guān)度判斷模型表達(dá)式為相關(guān)度得分=ai XFi+a2XF2+··· +anXFn,其中,F(xiàn)n為文檔的低維特征,an為該特征對(duì)應(yīng)的系數(shù)。在另一個(gè)實(shí)施例中,所述文檔庫具有可擴(kuò)展性。本發(fā)明還提供了一種檢索排序系統(tǒng),包括檢索模塊,用于接收查詢短語并檢索,以及返回檢索結(jié)果和再次檢索結(jié)果;特征提取模塊,用于提取文檔庫中所有文檔的低維特征;相關(guān)度反饋模塊,用于獲取檢索結(jié)果中多個(gè)文檔的相關(guān)度反饋信息;排序模塊,用于生成相關(guān)度判斷模型,計(jì)算檢索結(jié)果中所有文檔的相關(guān)度得分,并對(duì)所有文檔按相關(guān)度得分高低排序; 存儲(chǔ)模塊,用于保存文檔庫和用于存儲(chǔ)低維特征的特征庫。在一個(gè)實(shí)施例中,所述特征提取模塊還用于提取文檔庫中所有文檔的多維特征,所述存儲(chǔ)模塊中的特征庫還用于存儲(chǔ)所述多維特征。在另一個(gè)實(shí)施例中,所述排序模塊還用于生成相似度判斷模型,計(jì)算檢索結(jié)果中所有文檔的相似度得分,并對(duì)檢索結(jié)果按照相似度得分高低排序。從上面所述可以看出,本發(fā)明提供的一種檢索排序方法及系統(tǒng),便于信息資源的及時(shí)注冊(cè)更新,統(tǒng)一管理,同時(shí)將相關(guān)度反饋信息引入檢索系統(tǒng)來提高檢索性能。該方法從實(shí)現(xiàn)角度來看,運(yùn)行過程中無需手動(dòng)調(diào)節(jié)算法參數(shù),同時(shí)計(jì)算復(fù)雜度低,降低了檢索時(shí)間,實(shí)現(xiàn)了快速自主的信息檢索與排序。結(jié)合低維特征和相關(guān)度反饋信息建立相關(guān)度判斷模型,對(duì)檢索結(jié)果進(jìn)行多次排序,最后得到并返回最佳排序的檢索結(jié)果。
圖I為互聯(lián)網(wǎng)網(wǎng)頁數(shù)量統(tǒng)計(jì)示意圖;圖2為本發(fā)明提供的檢索排序方法實(shí)施例流程圖;圖3為文檔庫中文檔特征表示模型實(shí)施例示意圖;圖4為本發(fā)明檢索排序系統(tǒng)工作界面實(shí)施例示意圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。參考附圖2,為本發(fā)明提供的檢索排序方法實(shí)施例流程圖。本實(shí)施例中所提供的一種檢索排序方法,包括接收查詢短語并檢索;返回檢索結(jié)果;提取文檔庫中所有文檔的低維特征;獲取檢索結(jié)果中多個(gè)文檔的相關(guān)度反饋信息;生成相關(guān)度判斷模型;計(jì)算檢索結(jié)果中所有文檔的相關(guān)度得分;返回按相關(guān)度得分高低排序的再次檢索結(jié)果。具體的,本實(shí)施例中所提供的一種檢索排序方法,可包括步驟I :在離線狀態(tài)下提取文檔庫中各個(gè)文檔的多維特征,便于檢索系統(tǒng)在進(jìn)行初次檢索時(shí)使用,同時(shí)可減少用戶的實(shí)時(shí)查詢時(shí)間。所述文檔庫中保存的文檔是待檢索的文件,優(yōu)選為各應(yīng)用域(如標(biāo)題、摘要、正文等)明確的HTML文件,便于后續(xù)特征的提取。根據(jù)信息檢索領(lǐng)域研究成果,結(jié)合文檔庫中以HTML文件形式保存的文檔,對(duì)基于應(yīng)用域的文檔信息提取重要特征,并建立了如表I所示的文檔多維特征表,并將此多維特征表信息在特征庫中以圖3所示格式存儲(chǔ)。表I
權(quán)利要求
1.一種檢索排序方法,其特征在于,包括 接收查詢短語并檢索; 返回檢索結(jié)果; 提取文檔庫中所有文檔的低維特征; 獲取檢索結(jié)果中多個(gè)文檔的相關(guān)度反饋信息; 生成相關(guān)度判斷模型; 計(jì)算檢索結(jié)果中所有文檔的相關(guān)度得分; 返回按相關(guān)度得分高低排序的再次檢索結(jié)果。
2.根據(jù)權(quán)利要求I所述的一種檢索排序方法,其特征在于,所述方法還包括初始化步驟 提取文檔庫中所有文檔的多維特征。
3.根據(jù)權(quán)利要求2所述的一種檢索排序方法,其特征在于,所述檢索結(jié)果是按照相似度得分高低排序的。
4.根據(jù)權(quán)利要求3所述的一種檢索排序方法,其特征在于,所述相似度得分表達(dá)式為 相似度得分=bi X TFJb2 X TF2+... +bnX TFn,其中,TFn為文檔的多維特征,bn為該特征對(duì)應(yīng)的權(quán)重。
5.根據(jù)權(quán)利要求2所述的一種檢索排序方法,其特征在于,所述低維特征的提取方法為主成分分析方法。
6.根據(jù)權(quán)利要求I所述的一種檢索排序方法,其特征在于,所述相關(guān)度判斷模型的生成方法為 利用檢索結(jié)果中多個(gè)文檔的相關(guān)度反饋信息及其低維特征進(jìn)行邏輯回歸。
7.根據(jù)權(quán)利要求6所述的一種檢索排序方法,其特征在于,所述相關(guān)度判斷模型表達(dá)式為 相關(guān)度得分=S1 XF^a2 XF2+- +anXFn,其中,F(xiàn)n為文檔的低維特征,an為該特征對(duì)應(yīng)的系數(shù)。
8.根據(jù)權(quán)利要求1-7任意一項(xiàng)所述的一種檢索排序方法,其特征在于,所述文檔庫和/或特征庫具有可擴(kuò)展性。
9.一種米用權(quán)利要求1-8任意一項(xiàng)所述檢索排序方法的檢索排序系統(tǒng),其特征在于,包括 檢索模塊,用于接收查詢短語并檢索,以及返回檢索結(jié)果和再次檢索結(jié)果; 特征提取模塊,用于提取文檔庫中所有文檔的低維特征; 相關(guān)度反饋模塊,用于獲取檢索結(jié)果中多個(gè)文檔的相關(guān)度反饋信息; 排序模塊,用于生成相關(guān)度判斷模型,計(jì)算檢索結(jié)果中所有文檔的相關(guān)度得分,并對(duì)所有文檔按相關(guān)度得分高低排序; 存儲(chǔ)模塊,用于保存文檔庫和用于存儲(chǔ)低維特征的特征庫。
10.根據(jù)權(quán)利要求9所述的一種檢索排序系統(tǒng),其特征在于,所述特征提取模塊還用于提取文檔庫中所有文檔的多維特征,所述存儲(chǔ)模塊中的特征庫還用于存儲(chǔ)所述多維特征。
11.根據(jù)權(quán)利要求10所述的一種檢索排序系統(tǒng),其特征在于,所述排序模塊還用于生成相似度判斷模型,計(jì)算檢索結(jié)果中所有文檔的相似度得分,并對(duì)檢索結(jié)果按照相似度得分高低排 序。
全文摘要
本發(fā)明公開了一種檢索排序方法,包括接收查詢短語并檢索;返回檢索結(jié)果;提取文檔庫中所有文檔的低維特征;獲取檢索結(jié)果中多個(gè)文檔的相關(guān)度反饋信息;生成相關(guān)度判斷模型;計(jì)算檢索結(jié)果中所有文檔的相關(guān)度得分;返回按相關(guān)度得分高低排序的再次檢索結(jié)果;本發(fā)明還公開了一種檢索排序系統(tǒng),包括檢索模塊、特征提取模塊、相關(guān)度反饋模塊、排序模塊、存儲(chǔ)模塊;本發(fā)明所提出的一種檢索排序方法及系統(tǒng),其能提供高效準(zhǔn)確的檢索結(jié)果。
文檔編號(hào)G06F17/30GK102890711SQ20121033790
公開日2013年1月23日 申請(qǐng)日期2012年9月13日 優(yōu)先權(quán)日2012年9月13日
發(fā)明者陳洪輝, 蔡飛, 舒振, 馬建威 申請(qǐng)人:中國人民解放軍國防科學(xué)技術(shù)大學(xué)