一種關(guān)鍵詞抽取方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于詞語處理技術(shù)領(lǐng)域,更具體的說,尤其涉及一種關(guān)鍵詞抽取方法及裝 置。
【背景技術(shù)】
[0002] 關(guān)鍵詞抽取是《知識(shí)庫管理系統(tǒng)》核心功能模塊之一,通過對(duì)知識(shí)對(duì)應(yīng)文本中進(jìn)行 關(guān)鍵詞抽取,可以使用戶迅速了解知識(shí)的主要內(nèi)容。其中關(guān)鍵詞抽取是從文本中抽取出體 現(xiàn)文本的核心內(nèi)容的詞匯,目前主要的關(guān)鍵詞抽取技術(shù)是對(duì)文本進(jìn)行分詞預(yù)處理得到候選 關(guān)鍵詞,然后再從候選關(guān)鍵詞中抽取出關(guān)鍵詞。
[0003] 如專利申請(qǐng)?zhí)枮?01010218156. 9,發(fā)明名稱為"一種抽取關(guān)鍵詞的方法"公開的技 術(shù)方案為:將通過現(xiàn)有方法抽取出的所有關(guān)鍵詞作為候選關(guān)鍵詞集;通過考查各個(gè)候選關(guān) 鍵詞在文本中的關(guān)聯(lián)度,將在文本中出現(xiàn)的所有相鄰候選關(guān)鍵詞的疊加組合作為候選未登 錄詞集;最后,將部分候選關(guān)鍵詞和部分候選未登錄詞作為最終抽取出的關(guān)鍵詞集。由于本 發(fā)明方法不僅考慮了詞語在文本中的權(quán)值,而且還考慮了詞語在文本中的關(guān)聯(lián)度,因此,對(duì) 于關(guān)鍵詞長(zhǎng)度較長(zhǎng)、且內(nèi)容較新的文本來說,采用本發(fā)明抽取關(guān)鍵詞的方法能夠準(zhǔn)確地抽 取出其中長(zhǎng)度較長(zhǎng)的關(guān)鍵詞,提高了抽取關(guān)鍵詞的準(zhǔn)確度。
[0004] 綜上可以看出,上述抽取關(guān)鍵詞的方法對(duì)于關(guān)鍵詞長(zhǎng)度較長(zhǎng),且內(nèi)容較新的文本 來說其準(zhǔn)確度得到提高,也就是說上述抽取關(guān)鍵詞的方法適用于在內(nèi)容較新的文本中,且 可以準(zhǔn)確抽取到長(zhǎng)度較長(zhǎng)的關(guān)鍵詞。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明提供一種關(guān)鍵詞抽取方法及裝置,用于抽取不同類型的關(guān)鍵詞, 提高抽取的準(zhǔn)確度和通用性。技術(shù)方案如下:
[0006] 本發(fā)明提供一種關(guān)鍵詞抽取方法,所述方法包括:
[0007] 通過正則表達(dá)式從輸入文本中抽取出與所述正則表達(dá)式對(duì)應(yīng)的特殊類型詞,其中 所述正則表達(dá)式對(duì)應(yīng)一種特殊類型詞,且對(duì)應(yīng)一種特殊類型詞的正則表達(dá)式預(yù)先構(gòu)建得 至IJ,所述正則表達(dá)式存儲(chǔ)于正則表達(dá)式集合中;
[0008] 對(duì)輸入文本進(jìn)行分詞處理,得到第一候選關(guān)鍵詞集合;
[0009] 對(duì)所述第一候選關(guān)鍵詞集合中的第一候選關(guān)鍵詞進(jìn)行任意組合,得到第二候選關(guān) 鍵詞集合;
[0010] 基于第一預(yù)設(shè)規(guī)則對(duì)所述第二候選關(guān)鍵詞集合中的各個(gè)第二候選關(guān)鍵詞進(jìn)行篩 選,得到第三候選關(guān)鍵詞集合,并將所述特殊類型詞作為第三候選關(guān)鍵詞添加至所述第三 候選關(guān)鍵詞集合中;
[0011] 計(jì)算所述第三候選關(guān)鍵詞集合中各個(gè)第三候選關(guān)鍵詞的特征值;
[0012] 基于所述第三候選關(guān)鍵詞集合中各個(gè)第三候選關(guān)鍵詞的特征值,計(jì)算所述第三候 選關(guān)鍵詞集合中各個(gè)第三候選關(guān)鍵詞的評(píng)分;
[0013] 基于所述第三候選關(guān)鍵詞集合中各個(gè)第三候選關(guān)鍵詞的評(píng)分,從所述第三候選關(guān) 鍵詞集合中各個(gè)第三候選關(guān)鍵詞中抽取出目標(biāo)關(guān)鍵詞。
[0014] 優(yōu)選地,所述對(duì)所述第一候選關(guān)鍵詞集合中的第一候選關(guān)鍵詞進(jìn)行任意組合,得 到第二候選關(guān)鍵詞集合,包括:
[0015] 對(duì)所述第一候選關(guān)鍵詞進(jìn)行任意組合,得到多個(gè)第二候選關(guān)鍵詞;
[0016] 基于第二預(yù)設(shè)規(guī)則對(duì)所述多個(gè)第二候選關(guān)鍵詞進(jìn)行篩選,得到第二候選關(guān)鍵詞集 合。
[0017] 優(yōu)選地,所述在基于第二預(yù)設(shè)規(guī)則對(duì)所述多個(gè)第二候選關(guān)鍵詞進(jìn)行篩選,得到第 二候選關(guān)鍵詞集合,包括:
[0018] 當(dāng)所述第一候選關(guān)鍵詞兩兩組合得到第二候選關(guān)鍵詞時(shí),刪除組合中第一個(gè)第一 候選關(guān)鍵詞長(zhǎng)度為3,且第二個(gè)第一候選關(guān)鍵詞長(zhǎng)度為1的第二候選關(guān)鍵詞;
[0019] 當(dāng)所述第一候選關(guān)鍵詞兩兩組合得到第二候選關(guān)鍵詞時(shí),刪除由無意義的第一候 選關(guān)鍵詞組合得到的第二候選關(guān)鍵詞;
[0020] 當(dāng)所述第一候選關(guān)鍵詞兩兩組合得到第二候選關(guān)鍵詞時(shí),獲取所述第二候選關(guān)鍵 詞中兩個(gè)第一候選關(guān)鍵詞的詞性,當(dāng)所述兩個(gè)第一候選關(guān)鍵詞的詞性不存在于預(yù)設(shè)詞性組 合規(guī)則集合中時(shí),刪除所述第二候選關(guān)鍵詞。
[0021] 優(yōu)選地,所述在基于第二預(yù)設(shè)規(guī)則對(duì)所述多個(gè)第二候選關(guān)鍵詞進(jìn)行篩選,得到第 二候選關(guān)鍵詞集合,包括:
[0022] 當(dāng)所述第一候選關(guān)鍵詞三三組合得到第二候選關(guān)鍵詞時(shí),刪除長(zhǎng)度大于8的第二 候選關(guān)鍵詞;
[0023] 當(dāng)所述第一候選關(guān)鍵詞三三組合得到第二候選關(guān)鍵詞時(shí),獲取第二候選關(guān)鍵詞在 輸入文本中的前綴和后綴,當(dāng)所述第二候選關(guān)鍵詞在輸入文本中的前綴為無意義詞或所述 第二候選關(guān)鍵詞在輸入文本中的后綴為無意義詞時(shí),刪除所述第二候選關(guān)鍵詞;
[0024] 當(dāng)所述第一候選關(guān)鍵詞三三組合得到第二候選關(guān)鍵詞時(shí),刪除由無意義的第一候 選關(guān)鍵詞組合得到的第二候選關(guān)鍵詞;
[0025] 當(dāng)所述第一候選關(guān)鍵詞三三組合得到第二候選關(guān)鍵詞時(shí),獲取所述第二候選關(guān)鍵 詞中三個(gè)第一候選關(guān)鍵詞的詞性,當(dāng)所述三個(gè)第一候選關(guān)鍵詞的詞性不存在于預(yù)設(shè)詞性組 合規(guī)則集合中時(shí),刪除所述第二候選關(guān)鍵詞。
[0026] 優(yōu)選地,所述在基于第二預(yù)設(shè)規(guī)則對(duì)所述多個(gè)第二候選關(guān)鍵詞進(jìn)行篩選,得到第 二候選關(guān)鍵詞集合,包括:
[0027] 當(dāng)所述第一候選關(guān)鍵詞四四組合得到第二候選關(guān)鍵詞時(shí),刪除長(zhǎng)度大于8,且組合 中第一個(gè)第一候選關(guān)鍵詞長(zhǎng)度大于2,且第二個(gè)第一候選關(guān)鍵詞長(zhǎng)度為1的第二候選關(guān)鍵 詞;
[0028] 當(dāng)所述第一候選關(guān)鍵詞四四組合得到第二候選關(guān)鍵詞時(shí),獲取第二候選關(guān)鍵詞在 輸入文本中的前綴和后綴,當(dāng)所述第二候選關(guān)鍵詞在輸入文本中的前綴為無意義詞或所述 第二候選關(guān)鍵詞在輸入文本中的后綴為無意義詞時(shí),刪除所述第二候選關(guān)鍵詞;
[0029] 當(dāng)所述第一候選關(guān)鍵詞四四組合得到第二候選關(guān)鍵詞時(shí),刪除由無意義的第一候 選關(guān)鍵詞組合得到的第二候選關(guān)鍵詞;
[0030] 當(dāng)所述第一候選關(guān)鍵詞四四組合得到第二候選關(guān)鍵詞時(shí),獲取所述第二候選關(guān)鍵 詞中四個(gè)第一候選關(guān)鍵詞的詞性,當(dāng)所述四個(gè)第一候選關(guān)鍵詞的詞性不存在于預(yù)設(shè)詞性組 合規(guī)則集合中時(shí),刪除所述第二候選關(guān)鍵詞。
[0031] 優(yōu)選地,所述基于第一預(yù)設(shè)規(guī)則對(duì)所述第二候選關(guān)鍵詞集合中的各個(gè)第二候選關(guān) 鍵詞進(jìn)行篩選,得到第三候選關(guān)鍵詞集合,包括:
[0032] 當(dāng)所述第二候選關(guān)鍵詞是所述第一候選關(guān)鍵詞兩兩組合得到時(shí),計(jì)算組合得到 所述第二候選關(guān)鍵詞的兩個(gè)所述第一候選關(guān)鍵詞單獨(dú)出現(xiàn)在輸入文本中的第一互信息比 例;
[0033] 當(dāng)所述第一互信息比例小于預(yù)設(shè)第一互信息比例時(shí),刪除所述第二候選關(guān)鍵詞;
[0034] 當(dāng)所述第二候選關(guān)鍵詞是所述第一候選關(guān)鍵詞三三組合得到時(shí),計(jì)算組合得到 所述第二候選關(guān)鍵詞的三個(gè)所述第一候選關(guān)鍵詞單獨(dú)出現(xiàn)在輸入文本中的第二互信息比 例;
[0035] 當(dāng)所述第二互信息比例小于預(yù)設(shè)第二互信息比例時(shí),刪除所述第二候選關(guān)鍵詞;
[0036] 當(dāng)所述第二候選關(guān)鍵詞是所述第一候選關(guān)鍵詞四四組合得到時(shí),計(jì)算組合得到 所述第二候選關(guān)鍵詞的四個(gè)所述第一候選關(guān)鍵詞單獨(dú)出現(xiàn)在輸入文本中的第三互信息比 例;
[0037] 當(dāng)所述第三互信息比例小于預(yù)設(shè)第三互信息比例時(shí),刪除所述第二候選關(guān)鍵詞;
[0038] 計(jì)算所述第二候選關(guān)鍵詞在多個(gè)輸入文本中的第一前詞綴比例和第一后詞綴比 例;
[0039] 當(dāng)所述第一前詞綴比例小于等于預(yù)設(shè)第一前詞綴比例,或所述第一后詞綴比例小 于等于預(yù)設(shè)第一后詞綴比例時(shí),刪除所述第二候選關(guān)鍵詞。
[0040] 優(yōu)選地,所述對(duì)應(yīng)一種特殊類型詞的正則表達(dá)式預(yù)先構(gòu)建得到,包括:
[0041] 獲取一種特殊類型詞的不同格式的第一輸入文本;
[0042] 對(duì)每個(gè)所述第一輸入文本進(jìn)行分割,得到字符串序列CS= {C1,C2,…Cn},其中Ci 為第一輸入文本中的一個(gè)字符,且η為第一輸入文本中字符總數(shù);
[0043] 將所述字符串序列CS中的每個(gè)字符轉(zhuǎn)換成正則表達(dá)式中相應(yīng)的屬性,得到初始 的正則表達(dá)式Rel=Rl,R2…Rn;
[0044] 將所述初始的正則表達(dá)式中的各個(gè)屬性逐個(gè)進(jìn)行比對(duì),當(dāng)所述相鄰屬性相同時(shí), 記錄相同屬性的出現(xiàn)次數(shù),得到正則表達(dá)式Re2 =Rl,R2…Rm。
[0045] 本發(fā)明還提供一種關(guān)鍵詞抽取裝置,所述裝置包括:
[0046] 第一抽取單元,用于通過正則表達(dá)式從輸入文本中抽取出與所述正則表達(dá)式對(duì)應(yīng) 的特殊類型詞,其中所述正則表達(dá)式對(duì)應(yīng)一種特殊類型詞,且對(duì)應(yīng)一種特殊類型詞的正則 表達(dá)式預(yù)先構(gòu)建得到,所述正則表達(dá)式存儲(chǔ)于正則表達(dá)式集合中;
[0047] 分詞單元,用于對(duì)輸入文本進(jìn)行分詞處理,得到第一候選關(guān)鍵詞集合;
[0048] 組合單元,用于對(duì)所述第一候選關(guān)鍵詞集合中的第一候選關(guān)鍵詞進(jìn)行任意組合, 得到第二候選關(guān)鍵詞集合;
[0049] 篩選單元,用于基于第一預(yù)設(shè)規(guī)則對(duì)所述第二候選關(guān)鍵詞集合中的各個(gè)第二候選 關(guān)鍵詞進(jìn)行篩選,得到第三候選關(guān)鍵詞集合,并將所述特殊類型詞作為第三候選關(guān)鍵詞添 加至所述第三候選關(guān)鍵詞集合中;
[0050] 第一計(jì)算單元,用于計(jì)算所述第三候選關(guān)鍵詞集合中各個(gè)第三候選關(guān)鍵詞的特征 值;
[0051] 第二計(jì)算單元,用于基于所述第三候選關(guān)鍵詞集合中各個(gè)第三候選關(guān)鍵詞的特征 值,計(jì)算所述第三候選關(guān)鍵詞集合中各個(gè)第三候選關(guān)鍵詞的評(píng)分;
[0052] 第二抽取單元,用于基于所述第三候選關(guān)鍵詞集合中各個(gè)第三候選關(guān)鍵詞的評(píng) 分,從所述第三候選關(guān)鍵詞集合中各個(gè)第三候選關(guān)鍵詞中抽取出目標(biāo)關(guān)鍵詞。
[0053] 優(yōu)選地,所述組合單元包括:
[0054] 組合子單元,用于對(duì)所述第一候選關(guān)鍵詞進(jìn)行任意組合,得到多個(gè)第二候選關(guān)鍵 詞;
[0055] 篩選子單元,用于基于第二預(yù)設(shè)規(guī)則對(duì)所述多個(gè)第二候選關(guān)鍵詞進(jìn)行篩選,得到 第二候選關(guān)鍵詞集合。
[0056] 優(yōu)選地,所述篩選子單元包括:
[0057] 刪除子單元,用于當(dāng)所述第一候選關(guān)鍵詞兩兩組合得到第二候選關(guān)鍵詞時(shí),刪除 組合中第一個(gè)第一候選關(guān)鍵詞長(zhǎng)度為3,且第二個(gè)第一候選關(guān)鍵詞長(zhǎng)度為1的第二候選關(guān) 鍵詞;
[0058] 第一刪除子單元,用于當(dāng)所述第一候選關(guān)鍵詞兩兩組合得到第二候選關(guān)鍵詞時(shí), 刪除由無意義的第一候選關(guān)鍵詞組合得到的第二候選關(guān)鍵詞;
[0059] 第二刪除子單元,用于當(dāng)所述第一候選關(guān)鍵詞兩兩組合得到第二候選關(guān)鍵詞時(shí), 獲取所述第二候選關(guān)鍵詞中兩個(gè)第一候選關(guān)鍵詞的詞性,當(dāng)所述兩個(gè)第一候選關(guān)鍵詞的詞 性不存在于預(yù)設(shè)詞性組合規(guī)則集合中時(shí),刪除所述第二候選關(guān)鍵詞。
[0060] 優(yōu)選地,所述篩選子單元包括:
[0061] 第三刪除子單元,用于當(dāng)所述第一候選關(guān)鍵詞三三組合得到第二候選關(guān)鍵詞時(shí), 刪除長(zhǎng)度大于8的第二候選關(guān)鍵詞;
[0062] 第四刪除子單元,用于當(dāng)所述第一候選關(guān)鍵詞三三組合得到第二候選關(guān)鍵詞時(shí), 獲取第二候選關(guān)鍵詞在輸入文本中的前綴和后綴,當(dāng)所述第二候選關(guān)鍵詞在輸入文本中的 前綴為無意義詞或所述第二候選關(guān)鍵詞在輸入文本中的后綴為無意義詞時(shí),刪除所述第二 候選關(guān)鍵詞;
[0063] 第五刪除子單元,用于當(dāng)所述第一候選關(guān)鍵詞三三組合得到第二候選關(guān)鍵詞時(shí), 刪除由無意義的第一候選關(guān)鍵詞組合得到的第二候選關(guān)鍵詞;
[0064] 第六刪除子單元,用于當(dāng)所述第一候選關(guān)鍵詞三三組合得到第二候選關(guān)鍵詞時(shí), 獲取所述第二候選關(guān)鍵詞中三個(gè)第一候選關(guān)鍵詞的詞性,當(dāng)所述三個(gè)第一候選關(guān)鍵詞的詞 性不存在于預(yù)設(shè)詞性組合規(guī)則集合中時(shí),刪除所述第二候選關(guān)鍵詞。
[0065] 優(yōu)選地,所述篩選子單元包括:
[0066] 第七刪除子單元,用于當(dāng)所述第一候選關(guān)鍵詞四四組合得到第二候選關(guān)鍵詞時(shí), 刪除長(zhǎng)度大于8,且組合中第一個(gè)第一候選關(guān)鍵詞長(zhǎng)度大于2,且第二個(gè)第一候選關(guān)鍵詞長(zhǎng) 度為1的第二候選關(guān)鍵詞;
[0067] 第八刪除子單元,用于當(dāng)所述第一候選關(guān)鍵詞四四組合得到第二候選關(guān)鍵詞時(shí), 獲取第二候選關(guān)鍵詞在輸入文本中的前綴和后綴,當(dāng)所述第二候選關(guān)鍵詞在輸入文本中的 前綴為無意義詞或所述第二候選關(guān)鍵詞在輸入文本中的后綴為無意義詞時(shí),刪除所述第二 候選關(guān)鍵詞;
[0068] 第九刪除子單元,用于當(dāng)所述第一候選關(guān)鍵詞四四組合得到第二候選關(guān)鍵詞時(shí), 刪除由無意義的第一候選關(guān)鍵詞組合得到的第二候選關(guān)鍵詞;
[0069] 第十刪除子單元,用于當(dāng)所述第一候選關(guān)鍵詞四四組合得到第二候選關(guān)鍵詞時(shí), 獲取所述第二候選關(guān)鍵詞中四個(gè)第一候選關(guān)鍵詞的詞性,當(dāng)所述四個(gè)第一候選關(guān)鍵詞的詞 性不存在于預(yù)設(shè)詞性組合規(guī)則集合中時(shí),刪除所述第二候選關(guān)鍵詞。
[0070] 優(yōu)選地,所述篩選單元包括:
[0071] 第一計(jì)算子單元,用于當(dāng)所述第二候選關(guān)鍵詞是所述第一候選關(guān)鍵詞兩兩組合得 到時(shí),計(jì)算組合得到所述第二候選關(guān)鍵詞的兩個(gè)所述第一候選關(guān)鍵詞單獨(dú)出現(xiàn)在輸入文本 中的第一互信息比例;
[0072] 第一詞刪除子單元,用于當(dāng)所述第一互信息比例小于預(yù)設(shè)第一互信息比例時(shí),刪 除所述第二候選關(guān)鍵詞;
[0073] 第二計(jì)算子單元,用于當(dāng)所述第二候選關(guān)鍵詞是所述第一候選關(guān)鍵詞三三組合