基于文本語義挖掘的標(biāo)準(zhǔn)化自動(dòng)建檔方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種文本語義分析技術(shù)的工程化應(yīng)用。具體地說是將文本語義分析相 關(guān)技術(shù)(信息抽取、關(guān)鍵詞提取、自動(dòng)摘要)應(yīng)用到一類文本(有一定的內(nèi)容和格式要求)中, 形成一種文檔標(biāo)準(zhǔn)化自動(dòng)建檔的方法。
【背景技術(shù)】
[0002] 檔案的種類很多,如人事檔案、財(cái)務(wù)檔案、技術(shù)檔案、合同檔案、案件檔案,等等。 檔案和檔案管理,是各企事業(yè)單位、政府部門等不可或缺的一項(xiàng)重要工作。
[0003] 很多企業(yè)、政府部門等,都保有大量的文本文件,特別是一些有格式、內(nèi)容要求的 文本文件(如法院的法律文書、公安部門的犯罪案件信息、企業(yè)存放的合同等),這些文件是 以自由文本形式存在,傳統(tǒng)方法進(jìn)行查詢文本信息時(shí),通常只是根據(jù)關(guān)鍵字進(jìn)行查詢,需 要花費(fèi)大量的時(shí)間查找所要的文件,但這會(huì)檢索出大量無用的信息,還需要采用信息抽取 技術(shù)從這些文件中抽取結(jié)構(gòu)化信息,存入信息化系統(tǒng)中,以便提高查詢的效率和查詢結(jié)果 的有效性,方便用戶使用。 1. 網(wǎng)絡(luò)爬蟲
[0004] 所謂網(wǎng)絡(luò)爬蟲(Web Spider),是一個(gè)自動(dòng)提取網(wǎng)頁的程序,它可以從萬維網(wǎng)上自 動(dòng)下載網(wǎng)頁,并將收集到的信息存儲(chǔ)到本地?cái)?shù)據(jù)庫中。網(wǎng)絡(luò)爬蟲用來從互聯(lián)網(wǎng)上的海量信 息中,抓取網(wǎng)頁信息。
[0005] 傳統(tǒng)網(wǎng)絡(luò)爬蟲,包括一個(gè)協(xié)議處理模塊,URL處理模塊和內(nèi)容檢測(cè)模塊。其中,協(xié) 議處理模塊用來提供網(wǎng)絡(luò)爬蟲在爬行時(shí)所需的網(wǎng)絡(luò)協(xié)議;URL處理模塊負(fù)責(zé)對(duì)采集的URL 進(jìn)行排序;內(nèi)容檢測(cè)模塊用來處理網(wǎng)絡(luò)上大量存在、內(nèi)容重復(fù)的頁面,以提高網(wǎng)絡(luò)爬蟲的 工作效率。
[0006] 傳統(tǒng)的網(wǎng)絡(luò)爬蟲從一個(gè)或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL列表, 在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停 止條件。所有被爬蟲抓取的網(wǎng)頁會(huì)被系統(tǒng)存儲(chǔ),進(jìn)行一定的分析和過濾。目前主流的網(wǎng)頁 搜索策略主要有三種,即深度優(yōu)先、廣度優(yōu)先、最佳優(yōu)先。 2. 文本預(yù)處理技術(shù)
[0007] 文本預(yù)處理是進(jìn)行后續(xù)挖掘的基礎(chǔ),其主要包括以下幾個(gè)方面: 分詞,對(duì)文本信息進(jìn)行分析,便于提取關(guān)鍵詞;常用的分詞算法包括:基于字符串匹配 的算法、基于理解的分詞算法、基于統(tǒng)計(jì)的分詞算法; 文本表示,要使計(jì)算機(jī)能夠高效地處理真實(shí)文本,就必須找到一種理想的形式表示方 法,這種表示一方面能夠真實(shí)地反映文檔的內(nèi)容,另一方面,要有對(duì)不同文檔的區(qū)分能力。 常用的文本表示方法有向量空間模型、概念模型、概率模型等; 特征選擇:特征選擇能剔除不相關(guān)或冗余的特征,選出能夠很好反映文本內(nèi)容的詞,由 此降低文本向量空間維數(shù),提高分類器的分類效率和分類精度。目前已有的特征選擇方法 比較多,常用的有:詞頻方法、文檔頻次方法、信息增益法,#統(tǒng)計(jì)量法和互信息方法等; 特征約減,綜合考慮各特征,通過原始特征的組合(線性)或轉(zhuǎn)換(非線性)得到的新特 征,使其具有更好的分類特征。該方法能夠較好地處理多義詞(降低精度)、同義詞(降低召 回率)問題。常用的特征約減算法有潛在語義索引、主成分分析和Fisher線性判決分析。 3. 信息抽取技術(shù)
[0008] 信息抽取技術(shù),是指從一段文本中抽取指定的事件、事實(shí)等信息,形成結(jié)構(gòu)化的 數(shù)據(jù)并存入數(shù)據(jù)庫,供用戶查詢和使用。信息抽取的主要過程包括:分詞和詞性標(biāo)注;句法 分析;抽取所需信息,并填入到模板中;指代合并,處理文本中命名實(shí)體的指代重復(fù)問題。
[0009] 信息抽取算法主要包括兩種,知識(shí)工程方法和機(jī)器學(xué)習(xí)方法: 知識(shí)工程方法一依靠人工編寫抽取模式,使系統(tǒng)能夠處理特定知識(shí)領(lǐng)域的信息抽取 問題,這種方法要求編寫抽取模式的知識(shí)工程師對(duì)該知識(shí)領(lǐng)域有深入的了解。而且這些規(guī) 則很難保證具有整體的系統(tǒng)性和邏輯性,且可移植性差。
[0010] 機(jī)器學(xué)習(xí)方法一利用及其學(xué)習(xí)技術(shù),讓信息抽取系統(tǒng)通過訓(xùn)練文本來獲得抽 取模式,實(shí)現(xiàn)特定領(lǐng)域的信息抽取功能。常用的方法有:基于特征向量的機(jī)器學(xué)習(xí)方法,如 支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)等;基于統(tǒng)計(jì)模型的機(jī)器學(xué)習(xí)方法,如隱馬爾可夫模型、最大熵模型 和條件隨機(jī)場(chǎng)模型;基于Kernel的機(jī)器學(xué)習(xí)方法,只需直接使用字符串的原始形式作為處 理對(duì)象,通過計(jì)算對(duì)象間的核函數(shù)來實(shí)現(xiàn)信息抽取。但基于機(jī)器學(xué)習(xí)的方法信息抽取需要 大量的訓(xùn)練樣本,且結(jié)果準(zhǔn)確率不高。 4. 關(guān)鍵詞提取技術(shù)
[0011] 關(guān)鍵詞提取算法主要由三類:(1)基于統(tǒng)計(jì)特征的方法,如詞語頻率統(tǒng)計(jì);(2)基 于詞語網(wǎng)絡(luò)的方法,根據(jù)一定規(guī)則將文檔映射為詞語網(wǎng)絡(luò),利用詞語網(wǎng)絡(luò)計(jì)算詞語的關(guān)建 度;(3)基于語義的方法,利用詞語的語義特征提取關(guān)鍵詞。 5. 自動(dòng)摘要技術(shù)
[0012]自動(dòng)文本摘要,是指利用計(jì)算機(jī)從單文檔或多文檔集合中,自動(dòng)抽取包含原文檔 中關(guān)鍵信息的文本。法律文書的自動(dòng)摘要是基于單文本的自動(dòng)摘要,即對(duì)每個(gè)文本都要生 成相應(yīng)的摘要,對(duì)其內(nèi)容進(jìn)行抽取,并針對(duì)應(yīng)用需求,將文中最重要的內(nèi)容以壓縮的形式呈 現(xiàn)給用戶。常見的單文檔摘要技術(shù)包括基于特征的方法、基于詞匯鏈的方法和基于圖排序 的方法: 1)基于特征的方法。文檔摘要中常用的文章特征包括詞頻、特定段落(如首末段)、段 落的特定句子等。因此,基于特征的自動(dòng)摘要方法,主要是根據(jù)詞的頻率、句子位置等,自動(dòng) 生成摘要; 2) 基于詞匯鏈的方法。主要是通過對(duì)文章內(nèi)容進(jìn)行自然語言分析生成摘要。其主要實(shí) 現(xiàn)過程是:選擇候選詞的集合;根據(jù)與詞匯鏈里成員的相關(guān)程度,為每個(gè)候選詞選擇詞匯 鏈;若候選詞與詞匯鏈相關(guān)度高,則把候選詞加入詞匯鏈內(nèi); 3) 基于圖排序的方法。一般思想是把文章分解為若干單元(句子或段落等),每個(gè)單元 對(duì)應(yīng)一個(gè)圖的頂點(diǎn),單元間的關(guān)系作為邊,最后通過圖排序的算法得出各頂點(diǎn)的得分,并在 此基礎(chǔ)上生成文本摘要。 上述三種技術(shù)存在的難題和解決的方法: 1.信息抽取
[0013]標(biāo)準(zhǔn)化自動(dòng)建檔方法是針對(duì)特定文本文件的,這類文件具有一定的格式,但又不 完全是固定的格式,對(duì)文件所要包含的信息有基本要求,但文件與文件內(nèi)容之間差距較大, 不能采用通過訓(xùn)練文本來獲得抽取模式的機(jī)器學(xué)習(xí)方法。而傳統(tǒng)的知識(shí)工程方法依靠人工 編寫抽取模式,規(guī)則本身的學(xué)習(xí)和提取成為信息抽取的關(guān)鍵,而信息抽取則退居為次要過 程。這種方法要求編寫抽取模式的知識(shí)工程師對(duì)該知識(shí)領(lǐng)域有深入的了解。
[0014] 信息抽取主要存在的問題包括: (1) .抽取規(guī)則的適應(yīng)性 抽取規(guī)則的適應(yīng)性較差,缺乏健壯性是現(xiàn)有信息抽取技術(shù)所面臨的難點(diǎn)。同時(shí)由于現(xiàn) 有技術(shù)均采用定制的語言表達(dá)抽取規(guī)則,缺乏通用性,系統(tǒng)不易升級(jí)。如何處理效率與健壯 性之間的矛盾是一個(gè)重要問題; (2) .抽取規(guī)則的表達(dá)方式 目前各類信息抽取技術(shù)中生成規(guī)則的依據(jù)主要有五類:結(jié)果特征、位置特征、顯示特 征、語義特征和引用特征。這些方式各有缺陷,如何將基于結(jié)構(gòu)和基于文本方式有效地結(jié)合 起來?是信息抽取需要解決的一個(gè)問題; (3) .抽取的自動(dòng)化處理 性能較好的信息抽取技術(shù)需要用戶的大量參與,自動(dòng)化程度不高;而自動(dòng)化程度高的 信息抽取其準(zhǔn)確率和適應(yīng)性較低,實(shí)用性較差。兩者之間的矛盾也需要解決。 2. 關(guān)鍵詞提取
[0015] 基于統(tǒng)計(jì)特征的算法雖然操作簡(jiǎn)單,但是會(huì)忽略出現(xiàn)頻率不高或在文檔中位置不 重要但對(duì)于文檔具有關(guān)鍵意義的詞語。基于詞語網(wǎng)絡(luò)的方法,目前主要是將高頻詞語以及 它們?cè)谕淮翱诘墓簿€關(guān)系映射成詞語網(wǎng)絡(luò)?;谡Z義的方法從語義角度判斷詞語的重要 性,較符合人們的感知邏輯,也是目前關(guān)鍵詞提取領(lǐng)域的一個(gè)研究熱點(diǎn),但這種方法借助一 種中間模型表示文章語義結(jié)果,通過分析詞語間的語義關(guān)系,獲取關(guān)鍵詞,顯然,這類方法 需要專業(yè)相關(guān)的先驗(yàn)知識(shí)。 3. 自動(dòng)摘要
[0016]對(duì)關(guān)鍵信息有一定要求的文本,其所要包含的內(nèi)容大部分也是