国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      一種基于附加數(shù)據(jù)的文檔檢索方法及系統(tǒng)與流程

      文檔序號:11230536閱讀:423來源:國知局

      本發(fā)明涉及文檔處理技術(shù)領(lǐng)域,具體涉及一種基于附加數(shù)據(jù)的文檔檢索方法及系統(tǒng)。



      背景技術(shù):

      文檔是信息的載體,有多種格式,如pdf,jpeg等圖片格式,txt文檔,微軟office文檔,wps文檔等等。對文檔進(jìn)行檢索,是利用信息和知識的一種手段,效率越高越好。文檔檢索常見的兩種方式是,基于文件名及基于文件內(nèi)容。在常用的操作系統(tǒng)中,系統(tǒng)本身也提供了文件檢索的手段,如在windows系統(tǒng)上,通過dir命令檢索文件名,通過find,findstr等命令檢索文件內(nèi)容,甚至有更方便易用的軟件,如everything檢索文件名,surffind檢索文件內(nèi)容。在linux和mac系統(tǒng)上,無論是系統(tǒng)還是第三方軟件,都提供了檢索文檔名或文檔內(nèi)容的手段。

      上述方法存在的問題是,通過文件名標(biāo)識信息內(nèi)容,長度有限,如在windowsnt系統(tǒng)上,如果不進(jìn)行特殊處理,文件路徑最大只支持260個字符;基于內(nèi)容搜索,則是二進(jìn)制匹配,對于非文本內(nèi)容,需要做特殊處理,如對圖像需要進(jìn)行復(fù)雜的處理與識別,對微軟office文檔則需要進(jìn)行格式轉(zhuǎn)換或?qū)iT開發(fā)插件,對pdf文檔也需要復(fù)雜的處理。雖然現(xiàn)在發(fā)展了各種技術(shù)手段,使得文檔檢索越來越方便,如googledesktop等,但仍然存在各種問題。

      人類的大腦是最好的工具,如果由人腦來處理一篇文檔,并將分類,摘要等信息存儲到文檔中,依此來進(jìn)行檢索,將能提供準(zhǔn)確的檢索結(jié)果,大大提高利用知識的效率?;蛘呋诂F(xiàn)有技術(shù)手段,分析處理后將信息以統(tǒng)一格式存儲到文檔中,方便后續(xù)檢索利用。

      將信息存儲到文檔中,類似的方法有確保二進(jìn)制文件完整性的數(shù)字簽名,簽名后,會將簽名信息存入二進(jìn)制文件中;還有exif(exchangeableimagefileformat),可交換圖像文件格式,可以附加到j(luò)peg,tiff,riff等文件中,其中可以存儲各種信息。但遺憾的是,并沒有適用于所有文檔類型的通用方法。

      本發(fā)明提出并實(shí)現(xiàn)一種基于附加屬性且適用于所有文檔類型的檢索方法,該方法通過為文檔添加附加數(shù)據(jù),在其中保存分類標(biāo)簽,摘要等信息,以完成高效精確的基于內(nèi)容的文檔檢索。

      現(xiàn)有技術(shù)對文檔添加注釋等附加,要么是專有格式,要么與文檔本身分離,要么會因?yàn)閷ξ臋n處理而丟失附加信息。



      技術(shù)實(shí)現(xiàn)要素:

      為解決上述技術(shù)問題,本發(fā)明提供了一種基于附加數(shù)據(jù)的文檔檢索方法,該方法包括以下步驟:

      (1)用戶基于對文檔內(nèi)容的理解,輸入關(guān)鍵信息,或自動掃描文檔并提取關(guān)鍵信息;

      (2)將所述關(guān)鍵信息以附加數(shù)據(jù)形式,存入所述文檔;

      (3)打開/編輯所述文檔時,跳過所述附加數(shù)據(jù),從文檔真實(shí)數(shù)據(jù)起始位置進(jìn)行讀寫;文檔保存時,所述附加數(shù)據(jù)依然存在,且該附加數(shù)據(jù)能夠被編輯;

      (4)執(zhí)行文檔檢索時,首先判斷所述文檔是否存在附加數(shù)據(jù),如果存在,針對附加數(shù)據(jù)進(jìn)行基于內(nèi)容的檢索;如果不存在附加數(shù)據(jù),則以二進(jìn)制方式檢索或跳過。

      優(yōu)選的,所述步驟(1)提取的關(guān)鍵信息包括:分類標(biāo)簽、內(nèi)容摘要;并將提取的所述關(guān)鍵信息統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)的編碼格式,使其與所述文檔的格式無關(guān)。

      優(yōu)選的,所述步驟(2)將上述關(guān)鍵信息,以附加數(shù)據(jù)形式,與文檔原始數(shù)據(jù)存放在一起。

      優(yōu)選的,所述步驟(3)具體包括:所述打開/編輯文檔時,自動跳過所述附加數(shù)據(jù),從文檔真實(shí)數(shù)據(jù)起始位置進(jìn)行讀寫,確保文檔可以正常打開/編輯,而附加信息不會丟失,同時也可以隨時編輯文檔附加數(shù)據(jù)。

      優(yōu)選的,所述步驟(4)具體包括:執(zhí)行所述文檔檢索時,首先判斷被檢索的文檔是否存在附加數(shù)據(jù),若存在,針對該附加數(shù)據(jù)進(jìn)行基于內(nèi)容的檢索;如果不存在附加數(shù)據(jù),則以普通的二進(jìn)制方式檢索或跳過。

      為解決上述技術(shù)問題,本發(fā)明提供了一種基于附加數(shù)據(jù)的文檔檢索系統(tǒng),該系統(tǒng)包括:

      關(guān)鍵信息提取模塊,用戶基于對文檔內(nèi)容的理解,輸入關(guān)鍵信息,或自動掃描文檔并提取關(guān)鍵信息;

      關(guān)鍵信息保存模塊,將所述關(guān)鍵信息以附加數(shù)據(jù)形式,存入所述文檔;

      關(guān)鍵信息編輯模塊,打開/編輯所述文檔時,跳過所述附加數(shù)據(jù),從文檔真實(shí)數(shù)據(jù)起始位置進(jìn)行讀寫;文檔保存時,所述附加數(shù)據(jù)依然存在,且該附加數(shù)據(jù)能夠被編輯;

      文檔信息檢索模塊,接收文檔檢索命令,判斷所述文檔是否存在附加數(shù)據(jù),如果存在,針對附加數(shù)據(jù)進(jìn)行基于內(nèi)容的檢索;如果不存在附加數(shù)據(jù),則以二進(jìn)制方式檢索或跳過。

      優(yōu)選的,所述關(guān)鍵信息提取模塊提取的關(guān)鍵信息包括:分類標(biāo)簽、內(nèi)容摘要;并將提取的所述關(guān)鍵信息統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)的編碼格式,使其與所述文檔的格式無關(guān)。

      優(yōu)選的,所述關(guān)鍵信息保存模塊,將所述關(guān)鍵信息以附加數(shù)據(jù)形式,存入所述文檔。

      優(yōu)選的,所述關(guān)鍵信息編輯模塊,在打開/編輯文檔時,自動跳過所述附加數(shù)據(jù),從文檔真實(shí)數(shù)據(jù)起始位置進(jìn)行讀寫,確保文檔可以正常打開/編輯,而附加信息不會丟失,同時也可以隨時編輯文檔附加數(shù)據(jù)。

      為解決上述技術(shù)問題,本發(fā)明提供了一種計算機(jī)存儲介質(zhì),其包括計算機(jī)程序指令,當(dāng)執(zhí)行該計算機(jī)程序指令時,執(zhí)行所述方法之一。

      本發(fā)明的技術(shù)方案取得了以下技術(shù)效果:

      1)通過將用戶輸入或自動提取的關(guān)鍵信息,以附加數(shù)據(jù)形式同文檔原始數(shù)據(jù)保存在一起,使得可供檢索/查看的關(guān)鍵信息與文檔格式無關(guān)。

      2)通過本方法提出的完整技術(shù)解決方案,可以使人類大腦參與其中,大幅度提升檢索的速度和準(zhǔn)確度。

      附圖說明

      圖1是基于附加數(shù)據(jù)的文檔檢索處理流程圖

      具體實(shí)施方式

      名詞解釋:

      exif:exchangeableimagefileformat,可交換圖像文件格式,是專門為數(shù)碼相機(jī)的照片設(shè)定的,可以記錄數(shù)碼照片的屬性信息和拍攝數(shù)據(jù)。

      everything,一個windows平臺支持ntfs卷的文件/文件夾搜索工具。

      surffind,一個開源軟件,用于搜索文件內(nèi)容。

      為了解決上述技術(shù)問題,本發(fā)明中提出了基于附加數(shù)據(jù)的文檔檢索方法,針對各種文檔格式?jīng)]有統(tǒng)一的內(nèi)容檢索方法,造成檢索不精確的需求,解決了文檔精確檢索的問題。本方法從附加信息的存儲,打開/編輯文檔時附加信息的處理,附加信息的提取三個方面的技術(shù)問題著手,形成了全新的文檔檢索解決方案。

      首先,通過人工方式或程序自動掃描方式,將關(guān)鍵信息提取出來。

      其次,將關(guān)鍵信息以附加數(shù)據(jù)形式,同文檔原始數(shù)據(jù)存儲在一起。

      再次,為確保用戶能夠正常打開/編輯文檔,在打開/編輯文檔時,需要跳過附加數(shù)據(jù),從文檔原始數(shù)據(jù)處開始讀寫。

      再次,檢索時,如果判斷文檔有附加數(shù)據(jù),則提取附加數(shù)據(jù),基于附加數(shù)據(jù)進(jìn)行檢索。

      本發(fā)明提出的基于附加數(shù)據(jù)的文檔檢索方法的信息處理過程如圖1所示,其中包括了提取關(guān)鍵信息,以附加數(shù)據(jù)保存關(guān)鍵信息,打開/編輯時處理附加數(shù)據(jù),檢索時提取附加數(shù)據(jù)共4個處理模塊,通過這一系列的信息處理,形成了基于附加數(shù)據(jù)的文檔檢索方法。下面對這4個信息處理模塊逐一進(jìn)行介紹:

      (1)提取關(guān)鍵信息

      用戶手工輸入關(guān)鍵信息,或程序自動提取關(guān)鍵信息。如對圖片,根據(jù)圖片內(nèi)容,添加注釋信息;對pdf文檔等,根據(jù)文檔內(nèi)容,提取主要內(nèi)容的摘要信息等。用戶還可以根據(jù)自己的分類習(xí)慣,添加標(biāo)簽等信息。這些關(guān)鍵信息進(jìn)行統(tǒng)一編碼,如編碼為utf-8或unicode,使其與文檔格式和編碼無關(guān),同時便于檢索處理。

      (2),以附加數(shù)據(jù)保存關(guān)鍵信息

      將上述關(guān)鍵信息,以附加數(shù)據(jù)形式與文檔原始數(shù)據(jù)一起保存。為便于處理,默認(rèn)8k頭部,即附加數(shù)據(jù)最大8k,8k頭后面就是文檔的原始數(shù)據(jù)。

      (3),打開/編輯時處理附加數(shù)據(jù)

      打開/編輯文檔時,根據(jù)附加數(shù)據(jù)標(biāo)記判斷是否有附加數(shù)據(jù),如果有,將跳過附加數(shù)據(jù),根據(jù)上述(2),跳過8k數(shù)據(jù),從文檔原始數(shù)據(jù)起始位置開始讀寫。關(guān)閉文件時,附加信息也寫入其原始位置(8k頭內(nèi)),不會丟失。

      (4),提取附加數(shù)據(jù)

      檢索時,先讀取固定長度的數(shù)據(jù),根據(jù)上述(2)該長度為8k,判斷是否有特殊標(biāo)記存在。如果有,則說明有附加數(shù)據(jù),可以將該數(shù)據(jù)用于內(nèi)容檢索。

      本發(fā)明提供了一種基于附加數(shù)據(jù)的文檔檢索系統(tǒng),該系統(tǒng)包括:

      關(guān)鍵信息提取模塊,用戶基于對文檔內(nèi)容的理解,輸入關(guān)鍵信息,或自動掃描文檔并提取關(guān)鍵信息;

      關(guān)鍵信息保存模塊,將所述關(guān)鍵信息以附加數(shù)據(jù)形式,存入所述文檔;

      關(guān)鍵信息編輯模塊,打開/編輯所述文檔時,跳過所述附加數(shù)據(jù),從文檔真實(shí)數(shù)據(jù)起始位置進(jìn)行讀寫;文檔保存時,所述附加數(shù)據(jù)依然存在,且該附加數(shù)據(jù)能夠被編輯;

      文檔信息檢索模塊,接收文檔檢索命令,判斷所述文檔是否存在附加數(shù)據(jù),如果存在,針對附加數(shù)據(jù)進(jìn)行基于內(nèi)容的檢索;如果不存在附加數(shù)據(jù),則以二進(jìn)制方式檢索或跳過。

      所述關(guān)鍵信息提取模塊提取的關(guān)鍵信息包括:分類標(biāo)簽、內(nèi)容摘要;并將提取的所述關(guān)鍵信息統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)的編碼格式,使其與所述文檔的格式無關(guān)。

      所述關(guān)鍵信息保存模塊,將所述關(guān)鍵信息以附加數(shù)據(jù)形式,存入所述文檔。

      所述關(guān)鍵信息編輯模塊,在打開/編輯文檔時,自動跳過所述附加數(shù)據(jù),從文檔真實(shí)數(shù)據(jù)起始位置進(jìn)行讀寫,確保文檔可以正常打開/編輯,而附加信息不會丟失,同時也可以隨時編輯文檔附加數(shù)據(jù)。

      本發(fā)明提供了一種計算機(jī)存儲介質(zhì),其包括計算機(jī)程序指令,當(dāng)執(zhí)行該計算機(jī)程序指令時,執(zhí)行所述方法之一。

      本發(fā)明提供了一種計算機(jī),其包括處理器和計算機(jī)存儲介質(zhì),所述計算機(jī)存儲介質(zhì)包括計算機(jī)程序指令,當(dāng)處理器執(zhí)行該計算機(jī)程序指令時,執(zhí)行所述方法之一。

      通過本發(fā)明提供的實(shí)施方式,使得文檔關(guān)鍵信息與文檔原始內(nèi)容一起存儲,且與文檔格式無關(guān),因?yàn)榭梢杂腥四X參與提取關(guān)鍵信息,使得檢索結(jié)果更加精確,提高對信息的利用效率。

      以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換以及改進(jìn)等,均應(yīng)保護(hù)在本發(fā)明的保護(hù)范圍之內(nèi)。

      當(dāng)前第1頁1 2 
      網(wǎng)友詢問留言 已有0條留言
      • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
      1