內(nèi)容檢索和標(biāo)注信息主動服務(wù)的交互式檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)字出版物檢索技術(shù)領(lǐng)域,尤其涉及到一種內(nèi)容檢索和標(biāo)注信息主動服務(wù)的交互式檢索方法。
【背景技術(shù)】
[0002]現(xiàn)在的文檔服務(wù)模式大多以主動搜索式為主,面對網(wǎng)絡(luò)中大量的電子文檔可以通過鍵入關(guān)鍵字的搜索方式獲取一個(gè)文檔集,但對于一個(gè)已有的電子文檔主動提供關(guān)鍵內(nèi)容標(biāo)注的技術(shù)和應(yīng)用甚少。
[0003]一方面,對于電子文檔來說,為了順應(yīng)數(shù)字化的發(fā)展需要一種被動檢索和主動信息服務(wù)的雙向交互模式;另一方面,對于使用者來說,本模塊提出的交互方式是未來網(wǎng)上閱讀、無紙辦公提高信息獲取速度的一個(gè)重要方式。
【發(fā)明內(nèi)容】
[0004]本發(fā)明所要解決的技術(shù)問題是正對上述存在的技術(shù)不足,提供一種用戶可以按照關(guān)鍵字搜索內(nèi)容,系統(tǒng)也可以主動為用戶提供標(biāo)注內(nèi)容要素。不再是簡單的信息檢索模式,還提供提煉信息要素查看模式的內(nèi)容檢索和標(biāo)注信息主動服務(wù)的交互式檢索方法。
[0005]本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
內(nèi)容檢索和標(biāo)注信息主動服務(wù)的交互式檢索方法,其特征在于,包括如下步驟:
數(shù)據(jù)準(zhǔn)備:在計(jì)算機(jī)系統(tǒng)中,利用工具對文檔集進(jìn)行預(yù)處理、建立索引、并添加標(biāo)注,儲存在數(shù)據(jù)庫中,提供內(nèi)容檢索和標(biāo)注信息主動服務(wù)兩種模式下的數(shù)據(jù)需求。
[0006]信息檢索:為文本被動搜索過程,是一種信息被動輸出過程,對文本信息的搜索,輸入關(guān)鍵字后,計(jì)算機(jī)系統(tǒng)從數(shù)據(jù)庫中檢索文檔集索引,然后反饋回結(jié)果,選出文檔集。
[0007]標(biāo)注信息主動服務(wù):為文本主動標(biāo)注過程,是一種信息主動輸出過程,計(jì)算機(jī)首先將添加標(biāo)注后的文本的內(nèi)部信息進(jìn)行關(guān)聯(lián),選取一篇文檔之后,計(jì)算機(jī)主動調(diào)用與之相關(guān)聯(lián)的標(biāo)注信息,然后反饋回結(jié)果,將標(biāo)注信息主動顯示在文檔中。
[0008]其中內(nèi)容檢索和標(biāo)注信息主動服務(wù)兩種模式交互使用,并可同時(shí)進(jìn)行使用。
[0009]在上述方案中,所述的數(shù)據(jù)準(zhǔn)備為:
文本預(yù)處理:對原始文本進(jìn)行預(yù)處理,抽取處里面的文本信息。
[0010]建立索引:通過Lucene或其他索引工具,并配合如ansj等分詞器對抽取出來的文本建立合理帶關(guān)鍵字的倒排索引,創(chuàng)建的索引域粒度越細(xì),那么在文本被搜索的過程中獲取的文本集信息就接近需求,但對文本主動標(biāo)注展示沒有影響。
[0011]添加標(biāo)注:對抽取出來的文本信息進(jìn)行關(guān)鍵字提取、計(jì)算權(quán)值,并將關(guān)鍵字位置信息和權(quán)值保存到存儲系統(tǒng)中,標(biāo)注信息的建立對信息檢索沒有影響,不同的關(guān)鍵字算法抽取出來的關(guān)鍵字會不一樣,不同的權(quán)值計(jì)算方法,得到的關(guān)鍵字權(quán)值也會有多差異。
[0012]在上述方案中,所述的信息檢索為:
輸入關(guān)鍵字:用戶在系統(tǒng)界面輸入檢索關(guān)鍵字或關(guān)鍵字串,并把輸入信息傳入系統(tǒng)內(nèi)部。
[0013]檢索文檔集索引:接到檢索關(guān)鍵字,調(diào)用Lucene檢索接口檢索存儲系統(tǒng)中建立好的文檔集索引數(shù)據(jù),并返回帶高亮顯示的文本結(jié)果集。
[0014]返回檢索結(jié)果集:顯示結(jié)果集列表,點(diǎn)擊可瀏覽帶檢索關(guān)鍵字的高亮顯示的文檔。
[0015]在上述方案中,所述的標(biāo)注信息主動服務(wù)為:
選擇預(yù)覽文檔:在文檔列表中選取預(yù)覽文檔,返回關(guān)聯(lián)標(biāo)注的預(yù)覽文檔。
[0016]查看標(biāo)注信息:在返回的預(yù)覽文檔中點(diǎn)擊查看標(biāo)注信息可以查看到每段的標(biāo)注信肩、Ο
[0017]本發(fā)明的原理是用戶輸入關(guān)鍵字點(diǎn)擊搜索,可搜索出存儲系統(tǒng)中含有該關(guān)鍵字的文檔集;同時(shí)用戶選定系統(tǒng)各種已經(jīng)處理pdf文檔點(diǎn)擊查看,系統(tǒng)返回段落的標(biāo)注信息;兩種模式交互使用。
[0018]本發(fā)明的有益效果是:
本發(fā)明方法使用戶可以按照關(guān)鍵字搜索內(nèi)容,系統(tǒng)也可以主動為用戶提供標(biāo)注內(nèi)容要素;不再是簡單的信息檢索模式,還可以提供提煉信息要素查看的模式。
【附圖說明】
[0019]圖1是本發(fā)明實(shí)施例的總體流程圖;
圖2是本發(fā)明實(shí)施例的信息檢索流程圖;
圖3是本發(fā)明實(shí)施例的標(biāo)注信息主動服務(wù)流程圖。
【具體實(shí)施方式】
[0020]下面結(jié)合【具體實(shí)施方式】,對本發(fā)明作進(jìn)一步的說明:
如圖1至圖3所示的內(nèi)容檢索和標(biāo)注信息主動服務(wù)的交互式檢索方法,包括如下步驟:
數(shù)據(jù)準(zhǔn)備:利用工具對文檔集進(jìn)行預(yù)處理、建立索引、并添加標(biāo)注,儲存在數(shù)據(jù)庫中,提供內(nèi)容檢索和標(biāo)注信息主動服務(wù)兩種模式下的數(shù)據(jù)需求。
[0021]信息檢索:為文本被動搜索過程,是一種信息被動輸出過程,對文本信息的搜索,輸入關(guān)鍵字后,計(jì)算機(jī)系統(tǒng)從數(shù)據(jù)庫中檢索文檔集索引,然后反饋回結(jié)果,選出文檔集。
[0022]標(biāo)注信息主動服務(wù):為文本主動標(biāo)注過程,是一種信息主動輸出過程,計(jì)算機(jī)首先將添加標(biāo)注后的文本的內(nèi)部信息進(jìn)行關(guān)聯(lián),選取一篇文檔之后,計(jì)算機(jī)主動調(diào)用與之相關(guān)聯(lián)的標(biāo)注信息,然后反饋回結(jié)果,將標(biāo)注信息主動顯示在文檔中。
[0023]其中內(nèi)容檢索和標(biāo)注信息主動服務(wù)兩種模式交互使用,并可同時(shí)進(jìn)行使用。
[0024]在本實(shí)施例中,所述的數(shù)據(jù)準(zhǔn)備為:
文本預(yù)處理:對原始文本進(jìn)行預(yù)處理,抽取處里面的文本信息。
[0025]建立索引:通過Lucene或其他索引工具,并配合如ansj等分詞器對抽取出來的文本建立合理帶關(guān)鍵字的倒排索引,創(chuàng)建的索引域粒度越細(xì),那么在文本被搜索的過程中獲取的文本集信息就接近需求,但對文本主動標(biāo)注展示沒有影響。
[0026]添加標(biāo)注:對抽取出來的文本信息進(jìn)行關(guān)鍵字提取、計(jì)算權(quán)值,并將關(guān)鍵字位置信息和權(quán)值保存到存儲系統(tǒng)中,標(biāo)注信息的建立對信息檢索沒有影響,不同的關(guān)鍵字算法抽取出來的關(guān)鍵字會不一樣,不同的權(quán)值計(jì)算方法,得到的關(guān)鍵字權(quán)值也會有多差異。
[0027]在本實(shí)施例中,所述的信息檢索為:
輸入關(guān)鍵字:用戶在系統(tǒng)界面輸入檢索關(guān)鍵字或關(guān)鍵字串,并把輸入信息傳入系統(tǒng)內(nèi)部。
[0028]檢索文檔集索引:接到檢索關(guān)鍵字,調(diào)用Lucene檢索接口檢索存儲系統(tǒng)中建立好的文檔集索引數(shù)據(jù),并返回帶高亮顯示的文本結(jié)果集。
[0029]返回檢索結(jié)果集:顯示結(jié)果集列表,點(diǎn)擊可瀏覽帶檢索關(guān)鍵字的高亮顯示的文檔。
[0030]在本實(shí)施例中,所述的標(biāo)注信息主動服務(wù)為:
選擇預(yù)覽文檔:在文檔列表中選取預(yù)覽文檔,返回關(guān)聯(lián)標(biāo)注的預(yù)覽文檔。
[0031]查看標(biāo)注信息:在返回的預(yù)覽文檔中點(diǎn)擊查看標(biāo)注信息可以查看到每段的標(biāo)注信肩、Ο
[0032]本發(fā)明的保護(hù)范圍并不限于上述的實(shí)施例,顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變形而不脫離本發(fā)明的范圍和精神。倘若這些改動和變形屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍內(nèi),則本發(fā)明的意圖也包含這些改動和變形在內(nèi)。
【主權(quán)項(xiàng)】
1.內(nèi)容檢索和標(biāo)注信息主動服務(wù)的交互式檢索方法,其特征在于,包括如下步驟: 數(shù)據(jù)準(zhǔn)備:在計(jì)算機(jī)系統(tǒng)中,利用工具對文檔集進(jìn)行預(yù)處理、建立索引、并添加標(biāo)注,儲存在數(shù)據(jù)庫中,提供內(nèi)容檢索和標(biāo)注信息主動服務(wù)兩種模式下的數(shù)據(jù)需求; 信息檢索:為文本被動搜索過程,是一種信息被動輸出過程,對文本信息的搜索,輸入關(guān)鍵字后,計(jì)算機(jī)系統(tǒng)從數(shù)據(jù)庫中檢索文檔集索引,然后反饋回結(jié)果,選出文檔集; 標(biāo)注信息主動服務(wù):為文本主動標(biāo)注過程,是一種信息主動輸出過程,計(jì)算機(jī)首先將添加標(biāo)注后的文本的內(nèi)部信息進(jìn)行關(guān)聯(lián),選取一篇文檔之后,計(jì)算機(jī)主動調(diào)用與之相關(guān)聯(lián)的標(biāo)注信息,然后反饋回結(jié)果,將標(biāo)注信息主動顯示在文檔中; 其中內(nèi)容檢索和標(biāo)注信息主動服務(wù)兩種模式交互使用,并可同時(shí)進(jìn)行使用。2.如權(quán)利要求1所述的內(nèi)容檢索和標(biāo)注信息主動服務(wù)的交互式檢索方法,其特征在于:所述的數(shù)據(jù)準(zhǔn)備為: 文本預(yù)處理:對原始文本進(jìn)行預(yù)處理,抽取處里面的文本信息; 建立索引:通過Lucene或其他索引工具,并配合如ansj等分詞器對抽取出來的文本建立合理帶關(guān)鍵字的倒排索引,創(chuàng)建的索引域粒度越細(xì),那么在文本被搜索的過程中獲取的文本集信息就接近需求,但對文本主動標(biāo)注展示沒有影響; 添加標(biāo)注:對抽取出來的文本信息進(jìn)行關(guān)鍵字提取、計(jì)算權(quán)值,并將關(guān)鍵字位置信息和權(quán)值保存到存儲系統(tǒng)中,標(biāo)注信息的建立對信息檢索沒有影響,不同的關(guān)鍵字算法抽取出來的關(guān)鍵字會不一樣,不同的權(quán)值計(jì)算方法,得到的關(guān)鍵字權(quán)值也會有多差異。3.如權(quán)利要求1所述的內(nèi)容檢索和標(biāo)注信息主動服務(wù)的交互式檢索方法,其特征在于:所述的信息檢索為: 輸入關(guān)鍵字:用戶在系統(tǒng)界面輸入檢索關(guān)鍵字或關(guān)鍵字串,并把輸入信息傳入系統(tǒng)內(nèi)部; 檢索文檔集索引:接到檢索關(guān)鍵字,調(diào)用Lucene檢索接口檢索存儲系統(tǒng)中建立好的文檔集索引數(shù)據(jù),并返回帶高亮顯示的文本結(jié)果集; 返回檢索結(jié)果集:顯示結(jié)果集列表,點(diǎn)擊可瀏覽帶檢索關(guān)鍵字的高亮顯示的文檔。4.如權(quán)利要求1所述的內(nèi)容檢索和標(biāo)注信息主動服務(wù)的交互式檢索方法,其特征在于:所述的標(biāo)注信息主動服務(wù)為: 選擇預(yù)覽文檔:在文檔列表中選取預(yù)覽文檔,返回關(guān)聯(lián)標(biāo)注的預(yù)覽文檔; 查看標(biāo)注信息:在返回的預(yù)覽文檔中點(diǎn)擊查看標(biāo)注信息可以查看到每段的標(biāo)注信息。
【專利摘要】本發(fā)明提供一種內(nèi)容檢索和標(biāo)注信息主動服務(wù)的交互式檢索方法。包括如下步驟:數(shù)據(jù)準(zhǔn)備:利用工具對文檔集進(jìn)行預(yù)處理、建立索引、并添加標(biāo)注,儲存在數(shù)據(jù)庫中,提供內(nèi)容檢索和標(biāo)注信息主動服務(wù)兩種模式下的數(shù)據(jù)需求;信息檢索:為文本被動搜索過程,是一種信息被動輸出過程,對文本信息的搜索;標(biāo)注信息主動服務(wù):為文本主動標(biāo)注過程,是一種信息主動輸出過程;其中內(nèi)容檢索和標(biāo)注信息主動服務(wù)兩種模式交互使用,并可同時(shí)進(jìn)行使用。本發(fā)明方法使用戶可以按照關(guān)鍵字搜索內(nèi)容,系統(tǒng)也可以主動為用戶提供標(biāo)注內(nèi)容要素;不再是簡單的信息檢索模式,還可以提供提煉信息要素查看的模式。
【IPC分類】G06F17/30
【公開號】CN105320714
【申請?zhí)枴緾N201410562699
【發(fā)明人】劉永堅(jiān), 楊朝陽, 白立華, 李文忠, 楊慧, 朱馳風(fēng)
【申請人】武漢理工大學(xué)
【公開日】2016年2月10日
【申請日】2014年10月22日