專利名稱:一種面向事件的查詢擴展方法
技術領域:
本發(fā)明屬于語言文字信息處理領域,具體地說是涉及一種面向事件的查詢擴展方 法。
背景技術:
在信息檢索領域,查詢擴展指在原查詢詞的基礎上加入相關的詞,從而組成新 的、更準確的查詢詞集,這在一定程度上能夠彌補用戶查詢信息不足的缺陷,也有助于改 善檢索的查全率和查準率。查詢擴展方法大致分為兩類基于語義知識辭典的查詢擴展 方法和基于語料庫的查詢擴展方法?;谡Z義知識辭典的查詢擴展方法是在進行查詢 擴展時通過已有的語義知識辭典來進行擴展詞的選取?;谡Z料庫的查詢擴展方法又 可細分為兩種全局分析方法和局部分析方法。最常用的局部分析技術是偽相關反饋 PRF(Pseudo Relevance Feedback)假設初始檢索結果的前面若干篇文檔是相關的,然后 利用相關反饋過程進行查詢擴展,例如,參考文獻的題目為New retrieval approaches using SMART (該文作者是C. Buckley, A. Singhal,M. Mitra, and G. Slaton,發(fā)表于 1995 年出版的期刊 Proceedings of the 4th TextRetrieval Conference),該文公開了使用 詞在文本集中出現(xiàn)的頻次作為查詢擴展的對象,但是,沒有考慮文本中的詞與查詢項之間 的關聯(lián)信息,會導致查詢擴展效果不穩(wěn)定。在2000年美國出版的期刊《ACM Transactions on information systems》中,題目為Improving theeffectiveness of informational retrieval with local context analysis (該文作者是J. Xu, B. ff. Croft),該文提出了 一種基于局部上下文分析LCA (Local Context Analysis)的查詢擴展方法,此方法依據(jù)文 本集中詞與整個查詢項的共現(xiàn)信息進行擴展,與偽相關反饋PRF相比取得了更好的查詢效 果,但沒有考慮到面向事件的信息檢索的特點,并不適用于事件類信息檢索。然而,隨著各 類突發(fā)事件的頻繁發(fā)生,獲取網(wǎng)絡上事件類的信息已經(jīng)變得非常迫切。在很多情況下,用戶 借助搜索引擎獲取事件類信息,但是,已有的信息查詢方法沒有分析查詢內容中不同的查 詢項的作用,沒能使用面向事件的查詢擴展技術,因此,對一些事件類信息的檢索結果的準 確率不高,不能滿足實際應用的需求。事件類信息的查詢和其他信息的查詢有許多不同之處,主要表現(xiàn)在(1)、事件是由事件觸發(fā)詞標識,關聯(lián)了參與者、時間和地點等要素的概念。事件的 各個要素在查詢內容中作用是不同的。比如,輸入“汶川地震”、“孟買恐怖襲擊”、“中國 SARS”等查詢內容。這些查詢內容中的“地震”、“恐怖襲擊”、“SARS”是事件觸發(fā)詞,其標識 所要查詢的事件類型稱為事件項。“汶川”、“孟買”、“中國”是事件的其它要素,其限定查詢 事件的范圍稱為事件的限定項。由于事件項和限定項在查詢內容中的作用不同,所以采取 不同的處理策略。(2)事件之間有著緊密的聯(lián)系,一個話題總是關聯(lián)了一些特定的事件。提及話題 “地震”,人們自然的就聯(lián)想到“死亡”、“救援”、“重建”等事件;看到話題“競選”,“演講”、“辯 論”、“投票”等事件自然浮現(xiàn)到腦海中,而不需要關心具體的事件要素。據(jù)此,可以進行事件到事件之間的聯(lián)想擴展。
發(fā)明內容
鑒于以上所述現(xiàn)有技術存在的問題和不足,本發(fā)明要解決的技術問題是提供一種 面向事件的查詢擴展方法,該方法通過分析查詢內容中不同的查詢項的作用,能提高事件 類信息查詢的準確率。為了解決上述問題,本發(fā)明采用下述技術方案一種面向事件的查詢擴展方法,其具體步驟如下(1)、輸入查詢內容,對查詢內容進行分詞、濾除停用詞后得到查詢項Q,計算查詢 項Q在待檢索的文本集合M中的每篇文本中出現(xiàn)的頻次iv按照mi的大小降序排列文本集 合M中的文本,選取前面的排序小于或等于n的文本組成局部文本集合N ;(2)、依據(jù)從文本中識別事件的規(guī)則,從局部文本集合N中識別得到所有的事件, 由上述所有事件組成的集合稱為事件集合E ;(3)、分別從查詢項中區(qū)分事件項和限定項;(4)、根據(jù)步驟(2)和步驟(3),計算查詢項的事件項Qe與事件集合E中每個事件 的關聯(lián)強度,從事件集合E中選擇關聯(lián)強度大的若干個事件添加到查詢項的事件項中擴 展,擴展后的事件項構成擴展事件項sr ;(5)、向量化查詢項的擴展事件項aexp、限定項Qy及文本集合M中的每篇文本,計 算擴展事件項與文本集合m中的一篇文本d的相似度&vkotw),計算限定項Qe'與文 本集合M中的一篇文本d的相似度為Sim(Qe,,d),計算得到擴展查詢項與文本集合M 中的一篇文本d的相似度為Sim((Tp,d),檢索文本按照查詢項與文本集合M中每篇文 本d之間的相似度Sim((Tp,d)的大小降序排列輸出。上述步驟(1)中所述的獲取局部文本集合N,其具體步驟如下(1-1)、將輸入的查詢內容,用ICTCLAS分詞工具分詞、濾除停用詞后,剩下的詞構 成查詢項Q ;(1-2)、計算查詢項Q在待檢索的文本集合M中的每篇文本中出現(xiàn)的頻次%,按照 mi的大小降序排列文本集合M中的文本,選取排序小于或等于n的文本組成局部文本集N。上述步驟(2)中所述的依據(jù)從文本中識別事件的規(guī)則,從局部文本集合N中識別 得到的所有的事件,由上述所有事件組成的集合稱為事件集合E,其具體步驟如下(2-1)、將局部文本集合N經(jīng)ICTCLAS分詞工具分詞后,依據(jù)《漢語文本詞性標注標 記集》選取所有的動詞(v)、名動詞(vn)構成候選事件集合El ;(2-2)、從候選事件集合E1中刪除表示屬性、狀態(tài)的動詞,得到候選事件集E2 ;(2-3)、從候選事件集E2中刪除表示主觀感知、猜想、闡述等的動詞,得到候選事 件集E3 ;(2-4)、從候選事件集E3中刪除一部分抽象意義高的動詞,然后再將與其一起出 現(xiàn)的名詞(n)添加到原來的候選事件集E3中,最后得到的候選事件集合E,即為所述局部文 本集合N的事件集合E。上述步驟(3)中所述的分別從查詢項中區(qū)分事件項和限定項,其具體步驟 如下
(3-1)、依據(jù)從文本中識別事件的規(guī)則,從查詢項中判別得到事件項;(3-2)、對查詢內容進行ICTCLAS分詞、濾除停用詞后,依據(jù)《漢語文本詞性標注標 記集》,從查詢項Q中選取所有的人名(\nr)、地名(\ns)、機構團體(\nt)和時間詞(\t)得 到限定項t。上述步驟(4)中所述的從事件集合E中選取關聯(lián)強度大的若干個事件添加到查詢 項的事件項中擴展,擴展后的事件項構成擴展事件項aexp,其具體步驟如下(4-1)、假設查詢項Q的事件項包含m個事件= {ei,e2,…ej,事件集合E中待 擴展中的一個事件記作 ,則ei G (^對 的影響因子的計算公式為 其中,wix是事件ei對事件ex的影響因子;N是所述的局部文本集合;d是所述的文本集合N中的任意一篇文本;N.e,是事件ei在文本d中出現(xiàn)的頻次;Fd(ei,ex)是事件ei出現(xiàn)的文本d,事件ex也同時在其中出現(xiàn)的次數(shù)。如果wix > 1,則令 wix = 1。(4-2)、事件集合E中待擴展的某個事件ex與事件項Qe = {e” e2,…ej的關聯(lián)強 度計算公式為 其中,wix是事件ei對事件ex影響的因子。根據(jù)f的大小,選取k個事件添加到查詢項的事件項中擴展,得到擴展后的擴 展事件項aexp。上述步驟(5)中所述的計算擴展查詢項Qexp與文本集合M中的每一篇文本之間的 相似度,檢索文本按照相似度的大小降序排列輸出,其具體步驟如下(5-1)、計算查詢項的擴展事件項的權值計算查詢項的擴展事件項的權值,其計算公式為wtj = 1. 0-0. 9Xi/s其中,是第i個事件項的權重;s是事件項的個數(shù)。(5-2)、計算查詢項的限定項的權值計算查詢項的限定項的權值,其計算公式為
其中,x G Qe, ,ff(x|Q)是限定項x的初始權重,W(x|Q)的計算是根據(jù)x在查詢項 Q中出現(xiàn)的頻次;ff (x | Qe,)是限定項x的最終權重;ff(x | d)為查詢項x在文本d中出現(xiàn)的頻次;
N是局部文本集合。(5-3)、計算文本集合M中每篇文本的特征項的權值文本集合M中每篇文本d的特征項的權值取該特征項在文本d中出現(xiàn)的頻次。(5-4)、根據(jù)步驟(5-1)和步驟(5-3),計算查詢項的擴展事件項與文本集合M 中每篇文本之間的相似度計算查詢項的擴展事件項與文本集合M中每篇文本d之間的相似度,其計算公 式為 其中A e QTV n J表示ei是efp和d的共同事件項;昧叫和|d|分別是向量^和d的大小。(5-5)、根據(jù)步驟(5-2)和步驟(5_3),計算查詢項的限定項與文本集合M中每 篇文本之間的相似度計算查詢項的限定項與文本集合M中每篇文本d的相似度,其計算公式為 其中,e' i G n d表示限定項e' i是Q一和d的共同限定項;|Qe, |是向量Qe,的大小。(5-6)、根據(jù)步驟(5-4)和步驟(5_5),計算查詢項與文本集合M中每篇文本之 間的相似度計算查詢項與文本集合M中每篇文本d的相似度,其計算公式為 (5-7)、檢索文本按照查詢項與文本集合M中每篇文本d之間的相似度 Sim(Qexp,d)的大小降序排列輸出。本發(fā)明的面向事件的查詢擴展方法與現(xiàn)有技術相比較,具有以下效果該方法由 于使用面向事件的查詢擴展,區(qū)分查詢內容中的事件項和限定項,在同樣的查詢主題上進 行信息查詢,能顯著的提高事件類信息檢索結果的準確率。
圖1是本發(fā)明的面向事件的查詢擴展方法的流程圖;圖2是圖1中步驟(5)所述的計算查詢項與文本的相似度的流程圖。
具體實施例方式下面結合附圖和具體實施方式
對本發(fā)明的實施過程作進一步詳細的描述。
參照圖1,本發(fā)明的一種面向事件的查詢擴展方法,該方法包括如下步驟(1)、輸入查詢內容,獲取局部文本集合N,其具體如下(1-1)、將輸入的查詢內容,用ICTCLAS分詞工具分詞、濾除停用詞后,剩下的詞構 成為查詢項Q,停用詞是一些常見的沒有具體意義的詞,例如,“的”、“是”、“了”、“哎呀”、“比 如”、“并且”等詞為停用詞。(1-2)、計算查詢項Q在待檢索的文本集合M中的每篇文本中出現(xiàn)的頻次%,按照 mi的大小降序排列,選取排序小于或等于n的文本組成局部文本集合N。(2)、依據(jù)從文本中識別事件的規(guī)則,從局部文本集合N中識別得到所有的事件, 由上述所有事件組成的集合稱為事件集合E,其具體如下(2-1)、將局部文本集合N經(jīng)ICTCLAS分詞工具分詞后,依據(jù)《漢語文本詞性標注標 記集》選取所有的動詞(v)、名動詞(vn)構成候選事件集合El ;(2-2)、從候選事件集合E1中刪除表示屬性、狀態(tài)的動詞,得到候選事件集E2,例 如,“是”、“屬于”、“有”等詞為表示屬性、狀態(tài)的動詞;(2-3)、從候選事件集E2中刪除表示主觀感知、猜想、闡述等的動詞,得到候選事 件集E3。例如,如下動詞“認為”、“猜想”、“說”、“覺得”、“相信”、“宣稱”、“宣布”、“支持”、 “反對”、“提出”、“暗示”、“明示”、“表示”等的詞為表示主觀感知、猜想、闡述等的動詞。(2-4)、從候選事件集E3中刪除一部分抽象意義高的動詞,然后再將與其一起出 現(xiàn)的名詞(n)添加到原來的候選事件集E3中,最后得到的候選事件集合E,即為所述局部文 本集合的事件集合E。例如,“發(fā)生地震”、“開始吃飯”,短語中的動詞“發(fā)生”、“開始”的抽象 意義較高,不作為事件,而“地震”、“吃飯”作為事件。(3)、分別從查詢項中區(qū)分事件項和限定項,其具體如下(3-1)、依據(jù)從文本中識別事件的規(guī)則,從查詢項中判別得到事件項;(3-2)對查詢內容進行ICTCLAS分詞、濾除停用詞后,依據(jù)《漢語文本詞性標注標 記集》,從查詢項Q中選取所有的人名(\nr)、地名(\ns)、機構團體(\nt)和時間詞(\t)得 到限定項t。(4)、根據(jù)步驟(2)和步驟(3),計算查詢項的事件項Qe與事件集合E中每個事件 的關聯(lián)強度,從事件集合E中選取關聯(lián)強度大的若干個事件添加到查詢項的事件項中擴 展,擴展后的事件項構成擴展事件項,其具體如下(4-1)、假設查詢項Q中的事件項包含m個事件Qe= {ei,e2,…eJ,事件集合E中 待擴展中的一個事件記作ex,則ei G (^對 的影響因子的計算公式為 其中,wix是事件ei對事件ex的影響因子;N是所述的局部文本集合;d是所述的局部文本集合N中的任意一篇文本;Ndei是事件ei在文本d中出現(xiàn)的頻次;Fd(ei,ex)是事件ei出現(xiàn)的文本d,事件ex也同時在其中出現(xiàn)的次數(shù)。
9
如果wix > 1,則令 wix = 1。(4-2)、事件集合E中待擴展的某個事件 與事件項= {ei,e2,…eJ的關聯(lián)強 度計算公式為
e-^O.其中,wix是事件ei對事件ex影響的因子。根據(jù)f的大小,選取k個事件添加到查詢項的事件項中擴展,得到擴展后的擴 展事件項。(5)、計算擴展查詢項(Tp與文本集合M中的每一篇文本之間的相似度,檢索文本 按照相似度的大小降序排列輸出,參照圖2,其具體步驟如下(5-1)、計算查詢項的擴展事件項的權值計算查詢項的擴展事件項的權值,其計算公式為wtj = 1. 0-0. 9Xi/s其中,是第i個事件項的權重;s是事件項的個數(shù)。(5-2)計算查詢項的限定項Qe,的權值計算查詢項的限定項的權值,其計算公式為其中,x G Qe, ,ff(x|Q)是限定項x的初始權重,W(x|Q)的計算是根據(jù)x在查詢項 Q中出現(xiàn)的頻次;ff(x | Qe,)是限定項x的最終權重;ff(x|d)為查詢項x在文本d中出現(xiàn)的頻次;N是局部文本集合。(5-3)計算文本集合M中每篇文本的特征項的權值文本集合M中每篇文本d的特征項的權值取該特征項在文本d中出現(xiàn)的頻次。(5-4)根據(jù)步驟(5-1)和步驟(5-3),計算查詢項的擴展事件項與文本集合M 中每篇文本之間的相似度計算查詢項的擴展事件項與文本集合m中每篇文本d之間的相似度,其計算公 式為 其中
表示ei是和d的共同事件項;|grp|和d分別是向量和 d的大小。(5-5)根據(jù)步驟(5-2)和步驟(5-3),計算查詢項的限定項t與文本集合M中每 篇文本之間的相似度計算查詢項的限定項與文本集合M中每篇文本d的相似度,其計算公式為
其中,e' i G n d表示限定項e' i是Q一和d的共同限定項;| |是向量 Qe'的大小。(5-6)根據(jù)步驟(5-4)和步驟(5-3),計算查詢項與文本集合M中每篇文本之 間的相似度計算查詢項(Tp與文本集合M中每篇文本d之間的相似度,其計算公式為 (5-7)、檢索文本按照查詢項與文本集合M中每篇文本d之間的相似度 Sim(Qexp,d)的大小降序排列輸出。本發(fā)明的一種面向事件的查詢擴展方法(簡記作E0)與偽相關反饋(簡記作PRF) 和局部上下文分析擴展方法(簡記作LCA)在同樣的查詢主題上進行信息查詢,分別對三種 方法的查詢準確率進行實驗比較。實驗語料圍繞突發(fā)事件領域收集,重點是“地震”、“火災”、“食物中毒”、“交通事故” 和“恐怖襲擊” 5大類別,借助Google搜索引擎,輸入一些查詢關鍵字,收集1639篇文本; 使用爬蟲工具,從指定的一些站點上下載2435篇文本。然后對所有的文本按照標題進行排 重,最后剩下4011篇文本作為本文實驗的語料。查詢主題的設置采用與用戶使用搜索引擎最為一致的方式輸入若干個關鍵字。 人工設置了 10個查詢主題,對于每個查詢主題,使用P010和P020作為評價指標。P@n指 標模擬常用搜索引擎返回的結果,是一個擬人化的指標,目前的搜索評測中用的較多。P@n 指標只關心檢索到的結果與查詢主題是否相關,不考慮返回的文本與查詢主題相關性的次 序,評測起來容易實現(xiàn)。使用Pooling技術確定每個查詢主題的標準答案。對于P@n,一個主題的標準答案 的確定,具體步驟是(1)取4種方法返回的前n篇文本合并得到一個集合S; (2)人工從這 個文本集合S中選取相關的文檔作為一個主題的標準答案。表1列出了使用的10個查詢主題。表1:10個查詢主題 例如,對于查詢主題“汶川重建”,使用3種擴展方法得到的前十個擴展項如表2所不。表2 3種擴展方法獲取的前10個擴展項_擴展方法擴展項_E0恢復地震支援建設施工援建審計受災規(guī)劃完成PRF地震災區(qū)資金規(guī)劃工作恢復四川災害情況問題LCA地震規(guī)劃恢復工作災區(qū)資金建設四川項目災害_從表2可見,不同的擴展方法得到的擴展項有較大的不同。E0和PRF有70%是不 同的,E0與LCA有60%是不同的。而且,3種方法得到的查詢項的排序都有些不同,即使是 得到相同的查詢項,但不同的排序影響了查詢項的權值,對計算查詢項與文本集合M中每 篇文本的相似度也會有較大的影響。對3種查詢擴展方法E0、PRF和LCA的擴展詞的個數(shù)從0_40之間進行實驗。3種 方法取10個查詢主題的平均結果的最優(yōu)值進行了對比。表3列出了對比結果。表3 不同的擴展方法獲得的最優(yōu)的檢索性能的比較 從表3可見,3種不同的查詢擴展方法,E0的檢索性能好于PRF和LCA,其中E0的 檢索性能是最好的,PRF的檢索性能是最差的。對評價指標P010和P@20,E0比PRF分別提 高了 0. 19和0. 13。主要原因一方面PRF和LCA沒有區(qū)分查詢項的不同類型,分別處理 ’另 一方面PRF和LCA沒有采用面向事件的聯(lián)想擴展策略。另外,實驗結果還表明,對于事件類 信息的查詢主題,查詢擴展的個數(shù)在較少的情況下已經(jīng)可以取得很好的查詢結果,對于PRF 和LCA方法擴展項的個數(shù)建議為10到16,而對于E0擴展方法擴展事件的個數(shù)為6個左右。本發(fā)明所述的方法并不限于具體實施方式
中所述的實施例,本領域技術人員根據(jù) 本發(fā)明的技術方案得出的其它的實施方式,同樣屬于本發(fā)明的技術創(chuàng)新范圍。
權利要求
一種面向事件的查詢擴展方法,其具體步驟如下(1)、輸入查詢內容,對查詢內容進行分詞、濾除停用詞后得到查詢項Q,計算查詢項Q在待檢索的文本集合M中的每篇文本中出現(xiàn)的頻次mi,按照mi的大小降序排列文本集合M中的文本,選取前面的排序小于或等于n的文本組成局部文本集合N;(2)、依據(jù)從文本中識別事件的規(guī)則,從局部文本集合N中識別得到所有的事件,由上述所有事件組成的集合稱為事件集合E;(3)、分別從查詢項中區(qū)分事件項Qe和限定項Qe′;(4)、根據(jù)步驟(2)和步驟(3),計算查詢項的事件項Qe與事件集合E中每個事件的關聯(lián)強度,從事件集合E中選擇關聯(lián)強度大的若干個事件添加到查詢項的事件項Qe中擴展,擴展后的事件項構成擴展事件項(5)、向量化查詢項的擴展事件項限定項Qe′及文本集合M中的每篇文本,計算擴展事件項與文本集合M中的一篇文本d的相似度計算限定項Qe′與文本集合M中的一篇文本d的相似度為Sim(Qe′,d),計算得到擴展查詢項Qexp與文本集合M中的一篇文本d的相似度為Sim(Qexp,d),檢索文本按照查詢項Qexp與文本集合M中每篇文本d之間的相似度Sim(Qexp,d)的大小降序排列輸出。FSA00000144167500011.tif,FSA00000144167500012.tif,FSA00000144167500013.tif,FSA00000144167500014.tif
2.根據(jù)權利要求1所述的一種面向事件的查詢擴展方法,其特征在于,上述步驟(1)中 所述的獲取局部文本集合N,其具體步驟如下(1-1)、將輸入的查詢內容,用ICTCLAS分詞工具分詞、濾除停用詞后,剩下的詞構成查 詢項Q ;(1-2)、計算查詢項Q在待檢索的文本集合M中的每篇文本中出現(xiàn)的頻次IV按照Hii的 大小降序排列文本集合M中的文本,選取排序小于或等于η的文本組成局部文本集N。
3.根據(jù)權利要求2所述的一種面向事件的查詢擴展方法,其特征在于,上述步驟(2)中 依據(jù)從文本中識別事件的規(guī)則,從局部文本集合N中識別得到的所有的事件,由上述所有 事件組成的集合稱為事件集合Ε,其具體步驟如下(2-1)、將局部文本集合N經(jīng)ICTCLAS分詞工具分詞后,依據(jù)《漢語文本詞性標注標記 集》選取所有的動詞(ν)、名動詞(νη)構成候選事件集合El ;(2-2)、從候選事件集合El中刪除表示屬性、狀態(tài)的動詞,得到候選事件集Ε2 ;(2-3)、從候選事件集Ε2中刪除表示主觀感知、猜想、闡述等的動詞,得到候選事件集Ε3 ;(2-4)、從候選事件集Ε3中刪除一部分抽象意義高的動詞,然后再將與其一起出現(xiàn)的 名詞(η)添加到原來的候選事件集Ε3中,最后得到的候選事件集合Ε,即為所述局部文本集 合N的事件集合Ε。
4.根據(jù)權利要求3所述的一種面向事件的查詢擴展方法,其特征在于,上述步驟(3)中 分別從查詢項中區(qū)分事件項Qe和限定項Q^,其具體步驟如下(3-1)、依據(jù)從文本中識別事件的規(guī)則,從查詢項中判別得到事件項Qe ;(3-2)、對查詢內容進行ICTCLAS分詞、濾除停用詞后,依據(jù)《漢語文本詞性標注標記 集》,從查詢項Q中選取所有的人名(\nr)、地名(\ns)、機構團體(\nt)和時間詞(\t)得到 限定項Qe,。
5.根據(jù)權利要求4所述的一種面向事件的查詢擴展方法,其特征在于,上述步驟(4)中所述的從事件集合E中選取關聯(lián)強度大的若干個事件添加到查詢項的事件項Qe中擴展,擴 展后的事件項構成擴展事件項βΓΡ,其具體步驟如下(4-1)、假設查詢項Q的事件項包含m個事件Qe = Ie1, e2,…em},事件集合E中待擴展 中的一個事件記作ex,則ei e Qe對 的影響因子的計算公式為 其中,Wix是事件A對事件ex的影響因子; N是所述的局部文本集合; d是所述的文本集合N中的任意一篇文本; Ndei是事件ei在文本d中出現(xiàn)的頻次;Fd(ei;ex)是事件ei出現(xiàn)的文本d,事件ex也同時在其中出現(xiàn)的次數(shù)。 如果Wix > 1,則令Wix = 1。(4-2)、事件集合E中待擴展的某個事件 與事件項Qe= Ie1, e2, -ej的關聯(lián)強度計 算公式為e.ea其中,Wix是事件A對事件ex影響的因子。根據(jù)f的大小,選取k個事件添加到查詢項的事件項Qe中擴展,得到擴展后的擴展事 件項。
6.根據(jù)權利要求5所述的一種面向事件的查詢擴展方法,其特征在于,上述步驟(5)中 所述的計算擴展查詢項Qrap與集合M中的每一篇文本之間的相似度,檢索文本按照相似度 的大小降序排列輸出,其具體步驟如下(5-1)、計算查詢項的擴展事件項的權值 計算查詢項的擴展事件項的權值,其計算公式為 Wti = 1. 0-0. 9Xi/s其中,Wti是第i個事件項的權重;s是事件項的個數(shù)。(5-2)、計算查詢項的限定項Qy的權值計算查詢項的限定項Qy的權值,其計算公式為 其中, 是限定項X的初始權重,W(x|Q)的計算是根據(jù)X在查詢項Q中 出現(xiàn)的頻次;W (x I Qe,)是限定項χ的最終權重; W(xId)為查詢項χ在文本d中出現(xiàn)的頻次; N是局部文本集合。(5-3)、計算文本集合M中每篇文本的特征項的權值文本集合M中每篇文本d的特征項的權值取該特征項在文本d中出現(xiàn)的頻次。(5-4)、根據(jù)步驟(5-1)和步驟(5-3),計算查詢項的擴展事件項STp與文本集合M中每 篇文本之間的相似度計算查詢項的擴展事件項βΓ與文本集合M中每篇文本d之間的相似度,其計算公式為 其中,e, e Qr (Id表示ei是和d的共同事件項; IaexpI和Idi分別是向量和d的大小。(5-5)、根據(jù)步驟(5-2)和步驟(5-3),計算查詢項的限定項Qy與文本集合M中每篇文 本之間的相似度計算查詢項的限定項Qy與集合M中每篇文本d的相似度,其計算公式為 其中,e' i e Qy η d表示限定項e' 1是Q一和d的共同限定項;Qe' I是向量Qe,的大小。(5-6)、根據(jù)步驟(5-4)和步驟(5-5),計算查詢項(Tp與文本集合M中每篇文本之間的 相似度計算查詢項(Tp與文本集合M中每篇文本d的相似度,其計算公式為 (5-7)、檢索文本按照查詢項(Tp與文本集合M中每篇文本d之間的相似度Sim((Γρ,d) 的大小降序排列輸出。
全文摘要
本發(fā)明公開了一種面向事件的查詢擴展方法,其步驟如下(1)輸入查詢內容,獲取局部文本集合N;(2)從集合N中識別得到事件集合E;(3)分別從查詢項中區(qū)分事件項Qe和限定項Qe′;(4)計算查詢項的事件項Qe與集合E中每個事件的關聯(lián)強度,從集合E中選擇關聯(lián)強度大的若干個事件添加到Qe中擴展,得到擴展的事件項(5)計算擴展事件項與集合M中的一篇文本d的相似度計算限定項Qe′與集合M中的一篇文本d的相似度為Sim(Qe′,d),計算得到Qexp與集合M中的一篇文本d的相似度為Sim(Qexp,d),依據(jù)相似度Sim(Qexp,d)的大小降序排列輸出檢索文本。該方法使用面向事件的查詢擴展技術,區(qū)分查詢內容中的事件項和限定項,在同樣的查詢主題上進行信息查詢,能顯著的提高事件類信息查詢結果的準確率。
文檔編號G06F17/30GK101853298SQ20101018619
公開日2010年10月6日 申請日期2010年5月26日 優(yōu)先權日2010年5月26日
發(fā)明者仲兆滿, 劉宗田, 周文 申請人:上海大學