基于文本語義挖掘的標(biāo)準(zhǔn)化自動(dòng)建檔方法

文檔序號(hào)：8258721閱讀：523來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于文本語義挖掘的標(biāo)準(zhǔn)化自動(dòng)建檔方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種文本語義分析技術(shù)的工程化應(yīng)用。具體地說是將文本語義分析相關(guān)技術(shù)(信息抽取、關(guān)鍵詞提取、自動(dòng)摘要）應(yīng)用到一類文本(有一定的內(nèi)容和格式要求）中，形成一種文檔標(biāo)準(zhǔn)化自動(dòng)建檔的方法。
【背景技術(shù)】
[0002] 檔案的種類很多，如人事檔案、財(cái)務(wù)檔案、技術(shù)檔案、合同檔案、案件檔案，等等。檔案和檔案管理，是各企事業(yè)單位、政府部門等不可或缺的一項(xiàng)重要工作。
[0003] 很多企業(yè)、政府部門等，都保有大量的文本文件，特別是一些有格式、內(nèi)容要求的文本文件(如法院的法律文書、公安部門的犯罪案件信息、企業(yè)存放的合同等)，這些文件是以自由文本形式存在，傳統(tǒng)方法進(jìn)行查詢文本信息時(shí)，通常只是根據(jù)關(guān)鍵字進(jìn)行查詢，需要花費(fèi)大量的時(shí)間查找所要的文件，但這會(huì)檢索出大量無用的信息，還需要采用信息抽取技術(shù)從這些文件中抽取結(jié)構(gòu)化信息，存入信息化系統(tǒng)中，以便提高查詢的效率和查詢結(jié)果的有效性，方便用戶使用。 1. 網(wǎng)絡(luò)爬蟲
[0004] 所謂網(wǎng)絡(luò)爬蟲（Web Spider)，是一個(gè)自動(dòng)提取網(wǎng)頁的程序，它可以從萬維網(wǎng)上自動(dòng)下載網(wǎng)頁，并將收集到的信息存儲(chǔ)到本地?cái)?shù)據(jù)庫中。網(wǎng)絡(luò)爬蟲用來從互聯(lián)網(wǎng)上的海量信息中，抓取網(wǎng)頁信息。
[0005] 傳統(tǒng)網(wǎng)絡(luò)爬蟲，包括一個(gè)協(xié)議處理模塊，URL處理模塊和內(nèi)容檢測(cè)模塊。其中，協(xié) 議處理模塊用來提供網(wǎng)絡(luò)爬蟲在爬行時(shí)所需的網(wǎng)絡(luò)協(xié)議；URL處理模塊負(fù)責(zé)對(duì)采集的URL 進(jìn)行排序；內(nèi)容檢測(cè)模塊用來處理網(wǎng)絡(luò)上大量存在、內(nèi)容重復(fù)的頁面，以提高網(wǎng)絡(luò)爬蟲的工作效率。
[0006] 傳統(tǒng)的網(wǎng)絡(luò)爬蟲從一個(gè)或若干初始網(wǎng)頁的URL開始，獲得初始網(wǎng)頁上的URL列表，在抓取網(wǎng)頁的過程中，不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列，直到滿足系統(tǒng)的一定停止條件。所有被爬蟲抓取的網(wǎng)頁會(huì)被系統(tǒng)存儲(chǔ)，進(jìn)行一定的分析和過濾。目前主流的網(wǎng)頁搜索策略主要有三種，即深度優(yōu)先、廣度優(yōu)先、最佳優(yōu)先。 2. 文本預(yù)處理技術(shù)
[0007] 文本預(yù)處理是進(jìn)行后續(xù)挖掘的基礎(chǔ)，其主要包括以下幾個(gè)方面：分詞，對(duì)文本信息進(jìn)行分析，便于提取關(guān)鍵詞；常用的分詞算法包括：基于字符串匹配的算法、基于理解的分詞算法、基于統(tǒng)計(jì)的分詞算法；文本表示，要使計(jì)算機(jī)能夠高效地處理真實(shí)文本，就必須找到一種理想的形式表示方法，這種表示一方面能夠真實(shí)地反映文檔的內(nèi)容，另一方面，要有對(duì)不同文檔的區(qū)分能力。常用的文本表示方法有向量空間模型、概念模型、概率模型等；特征選擇：特征選擇能剔除不相關(guān)或冗余的特征，選出能夠很好反映文本內(nèi)容的詞，由此降低文本向量空間維數(shù)，提高分類器的分類效率和分類精度。目前已有的特征選擇方法比較多，常用的有：詞頻方法、文檔頻次方法、信息增益法，#統(tǒng)計(jì)量法和互信息方法等；特征約減，綜合考慮各特征，通過原始特征的組合(線性）或轉(zhuǎn)換(非線性）得到的新特征，使其具有更好的分類特征。該方法能夠較好地處理多義詞（降低精度)、同義詞（降低召回率）問題。常用的特征約減算法有潛在語義索引、主成分分析和Fisher線性判決分析。 3. 信息抽取技術(shù)
[0008] 信息抽取技術(shù)，是指從一段文本中抽取指定的事件、事實(shí)等信息，形成結(jié)構(gòu)化的數(shù)據(jù)并存入數(shù)據(jù)庫，供用戶查詢和使用。信息抽取的主要過程包括：分詞和詞性標(biāo)注；句法分析；抽取所需信息，并填入到模板中；指代合并，處理文本中命名實(shí)體的指代重復(fù)問題。
[0009] 信息抽取算法主要包括兩種，知識(shí)工程方法和機(jī)器學(xué)習(xí)方法：知識(shí)工程方法一依靠人工編寫抽取模式，使系統(tǒng)能夠處理特定知識(shí)領(lǐng)域的信息抽取問題，這種方法要求編寫抽取模式的知識(shí)工程師對(duì)該知識(shí)領(lǐng)域有深入的了解。而且這些規(guī) 則很難保證具有整體的系統(tǒng)性和邏輯性，且可移植性差。
[0010] 機(jī)器學(xué)習(xí)方法一利用及其學(xué)習(xí)技術(shù)，讓信息抽取系統(tǒng)通過訓(xùn)練文本來獲得抽取模式，實(shí)現(xiàn)特定領(lǐng)域的信息抽取功能。常用的方法有：基于特征向量的機(jī)器學(xué)習(xí)方法，如支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)等；基于統(tǒng)計(jì)模型的機(jī)器學(xué)習(xí)方法，如隱馬爾可夫模型、最大熵模型和條件隨機(jī)場(chǎng)模型；基于Kernel的機(jī)器學(xué)習(xí)方法，只需直接使用字符串的原始形式作為處理對(duì)象，通過計(jì)算對(duì)象間的核函數(shù)來實(shí)現(xiàn)信息抽取。但基于機(jī)器學(xué)習(xí)的方法信息抽取需要大量的訓(xùn)練樣本，且結(jié)果準(zhǔn)確率不高。 4. 關(guān)鍵詞提取技術(shù)
[0011] 關(guān)鍵詞提取算法主要由三類：（1)基于統(tǒng)計(jì)特征的方法，如詞語頻率統(tǒng)計(jì)；（2)基于詞語網(wǎng)絡(luò)的方法，根據(jù)一定規(guī)則將文檔映射為詞語網(wǎng)絡(luò)，利用詞語網(wǎng)絡(luò)計(jì)算詞語的關(guān)建度；（3)基于語義的方法，利用詞語的語義特征提取關(guān)鍵詞。 5. 自動(dòng)摘要技術(shù)
[0012]自動(dòng)文本摘要，是指利用計(jì)算機(jī)從單文檔或多文檔集合中，自動(dòng)抽取包含原文檔中關(guān)鍵信息的文本。法律文書的自動(dòng)摘要是基于單文本的自動(dòng)摘要，即對(duì)每個(gè)文本都要生成相應(yīng)的摘要，對(duì)其內(nèi)容進(jìn)行抽取，并針對(duì)應(yīng)用需求，將文中最重要的內(nèi)容以壓縮的形式呈現(xiàn)給用戶。常見的單文檔摘要技術(shù)包括基于特征的方法、基于詞匯鏈的方法和基于圖排序的方法： 1)基于特征的方法。文檔摘要中常用的文章特征包括詞頻、特定段落(如首末段)、段落的特定句子等。因此，基于特征的自動(dòng)摘要方法，主要是根據(jù)詞的頻率、句子位置等，自動(dòng) 生成摘要； 2) 基于詞匯鏈的方法。主要是通過對(duì)文章內(nèi)容進(jìn)行自然語言分析生成摘要。其主要實(shí) 現(xiàn)過程是：選擇候選詞的集合；根據(jù)與詞匯鏈里成員的相關(guān)程度，為每個(gè)候選詞選擇詞匯鏈；若候選詞與詞匯鏈相關(guān)度高，則把候選詞加入詞匯鏈內(nèi)； 3) 基于圖排序的方法。一般思想是把文章分解為若干單元(句子或段落等)，每個(gè)單元對(duì)應(yīng)一個(gè)圖的頂點(diǎn)，單元間的關(guān)系作為邊，最后通過圖排序的算法得出各頂點(diǎn)的得分，并在此基礎(chǔ)上生成文本摘要。上述三種技術(shù)存在的難題和解決的方法： 1.信息抽取
[0013]標(biāo)準(zhǔn)化自動(dòng)建檔方法是針對(duì)特定文本文件的，這類文件具有一定的格式，但又不完全是固定的格式，對(duì)文件所要包含的信息有基本要求，但文件與文件內(nèi)容之間差距較大，不能采用通過訓(xùn)練文本來獲得抽取模式的機(jī)器學(xué)習(xí)方法。而傳統(tǒng)的知識(shí)工程方法依靠人工編寫抽取模式，規(guī)則本身的學(xué)習(xí)和提取成為信息抽取的關(guān)鍵，而信息抽取則退居為次要過程。這種方法要求編寫抽取模式的知識(shí)工程師對(duì)該知識(shí)領(lǐng)域有深入的了解。
[0014] 信息抽取主要存在的問題包括： (1) .抽取規(guī)則的適應(yīng)性抽取規(guī)則的適應(yīng)性較差，缺乏健壯性是現(xiàn)有信息抽取技術(shù)所面臨的難點(diǎn)。同時(shí)由于現(xiàn) 有技術(shù)均采用定制的語言表達(dá)抽取規(guī)則，缺乏通用性，系統(tǒng)不易升級(jí)。如何處理效率與健壯性之間的矛盾是一個(gè)重要問題； (2) .抽取規(guī)則的表達(dá)方式目前各類信息抽取技術(shù)中生成規(guī)則的依據(jù)主要有五類：結(jié)果特征、位置特征、顯示特征、語義特征和引用特征。這些方式各有缺陷，如何將基于結(jié)構(gòu)和基于文本方式有效地結(jié)合起來？是信息抽取需要解決的一個(gè)問題； (3) .抽取的自動(dòng)化處理性能較好的信息抽取技術(shù)需要用戶的大量參與，自動(dòng)化程度不高；而自動(dòng)化程度高的信息抽取其準(zhǔn)確率和適應(yīng)性較低，實(shí)用性較差。兩者之間的矛盾也需要解決。 2. 關(guān)鍵詞提取
[0015] 基于統(tǒng)計(jì)特征的算法雖然操作簡(jiǎn)單，但是會(huì)忽略出現(xiàn)頻率不高或在文檔中位置不重要但對(duì)于文檔具有關(guān)鍵意義的詞語。基于詞語網(wǎng)絡(luò)的方法，目前主要是將高頻詞語以及它們?cè)谕淮翱诘墓簿€關(guān)系映射成詞語網(wǎng)絡(luò)?；谡Z義的方法從語義角度判斷詞語的重要性，較符合人們的感知邏輯，也是目前關(guān)鍵詞提取領(lǐng)域的一個(gè)研究熱點(diǎn)，但這種方法借助一種中間模型表示文章語義結(jié)果，通過分析詞語間的語義關(guān)系，獲取關(guān)鍵詞，顯然，這類方法需要專業(yè)相關(guān)的先驗(yàn)知識(shí)。 3. 自動(dòng)摘要
[0016]對(duì)關(guān)鍵信息有一定要求的文本，其所要包含的內(nèi)容大部分也是

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：程宏亮;梁棟;盧耀宗;強(qiáng)勁;張兵;劉華興;張小平;
技術(shù)所有人：西安美林?jǐn)?shù)據(jù)技術(shù)股份有限公司;
我是此專利的發(fā)明人

上一篇：一種注冊(cè)號(hào)碼的生成方法
上一篇：基于瀏覽器的搜索方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語義挖掘相關(guān)技術(shù)

文本語義分析相關(guān)技術(shù)

文本語義相似度計(jì)算相關(guān)技術(shù)

語義文本分析工具在線相關(guān)技術(shù)

文本語義理解相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

基于文本語義挖掘的標(biāo)準(zhǔn)化自動(dòng)建檔方法