用于自然語言處理的領(lǐng)域詞典生成系統(tǒng)的制作方法

文檔序號：12550763閱讀：603來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明自然語言處理領(lǐng)域，特別涉及用于自然語言處理的領(lǐng)域詞典生成系統(tǒng)。

背景技術(shù)：

大數(shù)據(jù)時代的到來為世界創(chuàng)造了新的機(jī)會，對大數(shù)據(jù)進(jìn)行分析利用體現(xiàn)大數(shù)據(jù)的價值，自然語言處理在大數(shù)據(jù)分析中占據(jù)重要的地位，面對海量的網(wǎng)絡(luò)文本資源，通過運(yùn)用自然語言處理的分析方法自動地、智能提取出有用信息，或者判斷出文本或者文本發(fā)布者所蘊(yùn)含的某種情感傾向，無論是在輿情分析還是商業(yè)調(diào)查中都有著重要的實際應(yīng)用意義。利用分析結(jié)果，可以對事情的發(fā)展演變進(jìn)行或者用戶喜好正確的預(yù)判，進(jìn)而提前采取相應(yīng)的措施來實現(xiàn)更大的正面效果。

自然語言處理中經(jīng)常需要使用詞典來進(jìn)行對應(yīng)的特征抽取，以詞典中的詞作為特征，通過詞典匹配來抽取對應(yīng)的特征詞匯，在特征詞匯抽取的基礎(chǔ)上結(jié)合設(shè)定的模型或者算法來判定該文本對應(yīng)的傾向或者性質(zhì)，分析的可靠性大大增加。

然而現(xiàn)有的領(lǐng)域詞典，卻缺乏對具體問題的適用性，針對性不強(qiáng)。在分析具體領(lǐng)域或者具體話題時，使用現(xiàn)有的大而寬泛的領(lǐng)域詞典，并不能夠達(dá)到理想的分析效果，構(gòu)建針對性的領(lǐng)域詞典十分必要，然而手動構(gòu)建詞典非常的耗時耗力；不能滿足海量文本分析的需求。這樣的背景下如果能實現(xiàn)：根據(jù)用戶具體分析需求快速構(gòu)建針對性強(qiáng)的領(lǐng)域，將有極大節(jié)省全手動構(gòu)建詞典的人力物力，然而現(xiàn)有技術(shù)中還缺乏能夠?qū)崿F(xiàn)這類詞典快速構(gòu)建功能的相應(yīng)工具。

技術(shù)實現(xiàn)要素：

本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的上述不足，提供用于自然語言處理的領(lǐng)域詞典生成系統(tǒng)，用戶只需將待處理文本和領(lǐng)域種子詞輸入本系統(tǒng)中所述系統(tǒng)就可以實現(xiàn)在自動區(qū)分文本主題領(lǐng)域的基礎(chǔ)上，根據(jù)種子詞進(jìn)行對應(yīng)領(lǐng)域詞典的自動構(gòu)建。

為了實現(xiàn)上述發(fā)明目的，本發(fā)明提供了以下技術(shù)方案：用于自然語言處理的領(lǐng)域詞典生成系統(tǒng)，所述系統(tǒng)在自動區(qū)分文本主題領(lǐng)域的基礎(chǔ)上，根據(jù)種子詞進(jìn)行對應(yīng)領(lǐng)域詞典的自動構(gòu)建；

所述詞典構(gòu)建包含以下實現(xiàn)過程：

(1)提取出待處理文本集中各文本的關(guān)鍵詞；

(2)對待處理文本進(jìn)行聚類，生成N個主題文本集，其中N為整數(shù)且N≥2；

(3)統(tǒng)計種子詞在各主題文本集中出現(xiàn)的頻率；將頻率超過閾值的主題文本集保留，作為領(lǐng)域詞典擴(kuò)展的源文本集；

(4)計算種子詞與源文本集的文本中各候選詞的關(guān)聯(lián)度，將關(guān)聯(lián)度到達(dá)閾值的候選詞作為領(lǐng)域詞存入待擴(kuò)充的詞典中。

進(jìn)一步的，所述步驟(1)中采用以下算法公式提取文本中關(guān)鍵詞。所述算法的計算公式為：

TR(v_i)是文本中詞v_i的重要性，d是阻尼系數(shù)，一般設(shè)置為0.85，N是無向圖中所有詞的個數(shù)，relat{v_i}是與詞v_i有共現(xiàn)關(guān)系的詞集合，v_j是relat{v_i}中的任意一個詞，TR(v_j)是v_j的重要性，N(p_j)是與v_j有共現(xiàn)關(guān)系的詞的個數(shù)。

進(jìn)一步的，所述步驟(2)中對待處理文本聚類包含以下過程：

(2-1)初始時，每個待處理文本各自為一個類；

類間距離定義為兩個類中兩兩文本對間距離的最大值，文本間距離的計算公式如下：

其中C(t1，t2)表示文本1和文本2之間的距離，t1∩t2表示文本1和文本2之間包含相同關(guān)鍵詞的個數(shù)，mid(t1，t2)表示文本1和文本2中包含關(guān)鍵詞的平均個數(shù)；類間距離計算公式如下：

Dist(c_a，c_b)＝max{C(t_a，t_b)，t_a∈c_a，t_b∈c_b}

其中，Dist(c_a，c_b)表示任意兩個類簇之間的距離，c_a和c_b分別代表兩個類，C(t_a，t_b)表示兩個文本之間的距離，t_a和t_b分別表示兩個文本，并且要求t_a∈c_a、t_b∈c_b(2-2)計算所有類兩兩之間的距離，將距離最小的類進(jìn)行合并，命名為cnew；

(2-3)在待處理文本集中將已被合并的初始類簇刪除，并將新類簇cnew加入到聚類結(jié)果中；

(2-4)重復(fù)步驟(2-1)至(2-3)，直到待處理文本集中僅包含N個類簇時，停止聚類。此時待處理文本集中包含的是經(jīng)過聚類后形成的N個主題，其中N的具體個數(shù)，根據(jù)實際應(yīng)用所而自行設(shè)定。

作為一種優(yōu)選：所述步驟(4)中候選詞與種子詞的關(guān)聯(lián)度計算公式為：

其中p(word1，word2)為詞word1和詞word2共同出現(xiàn)的概率，p(word1)和p(word2)表示詞word1和詞word2分別出現(xiàn)的概率。

作為一種優(yōu)選，所述步驟(2)中，N＝3。

作為一種優(yōu)選，所述步驟(3)中，僅保留種子詞出現(xiàn)頻率最高的主題文本集作為詞典擴(kuò)充的源文本集。

作為一種優(yōu)選，所述步驟(4)中候選詞與種子詞的閾值設(shè)置為MI(word1，word2)＝0.2，當(dāng)文本集中詞匯與種子詞的關(guān)聯(lián)度≥0.2時，就將該詞作為擴(kuò)展詞匯添加到所要構(gòu)建的詞典中。

進(jìn)一步的，所述詞典生成系統(tǒng)為加載有上述功能的計算機(jī)或者服務(wù)器。

與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果：本發(fā)明提供用于自然語言處理的領(lǐng)域詞典生成系統(tǒng)，用戶只需將待處理文本和領(lǐng)域種子詞輸入本系統(tǒng)中所述系統(tǒng)就可以實現(xiàn)在自動區(qū)分文本主題領(lǐng)域的基礎(chǔ)上，根據(jù)種子詞進(jìn)行對應(yīng)領(lǐng)域詞典的自動構(gòu)建。本發(fā)明系統(tǒng)自動區(qū)分待處理文本的主題類型，并根據(jù)種子詞實現(xiàn)主題文本集與對應(yīng)領(lǐng)域的自動匹配，在關(guān)系密切的主題文本集中來實現(xiàn)詞典的詞匯的擴(kuò)展，詞典構(gòu)建的準(zhǔn)確性更高。

本發(fā)明系統(tǒng)的種子詞根據(jù)用戶需要自行選取，種子詞的選取可根據(jù)分析的具體方向而定，因此更加具有針對性，更加符合用戶使用的需要。相比于普通的領(lǐng)域詞典，本發(fā)明系統(tǒng)所構(gòu)建的領(lǐng)域詞典具有更強(qiáng)靈活。詞典的實用性更強(qiáng)，更加適應(yīng)于具體問題或者主題的文本分析。為自然語言處理提供可靠的詞典自動生成工具。

附圖說明：

圖1為本發(fā)明系統(tǒng)的系統(tǒng)結(jié)構(gòu)圖。

圖2為本發(fā)明系統(tǒng)詞典構(gòu)建的實現(xiàn)過程示意圖。

圖3為本發(fā)明系統(tǒng)詞典構(gòu)建步驟(4)的實現(xiàn)過程示意圖。

具體實施方式

下面結(jié)合試驗例及具體實施方式對本發(fā)明作進(jìn)一步的詳細(xì)描述。但不應(yīng)將此理解為本發(fā)明上述主題的范圍僅限于以下的實施例，凡基于本發(fā)明內(nèi)容所實現(xiàn)的技術(shù)均屬于本發(fā)明的范圍。

提供用于自然語言處理的領(lǐng)域詞典生成系統(tǒng)，所述系統(tǒng)在自動區(qū)分文本主題領(lǐng)域的基礎(chǔ)上，根據(jù)種子詞進(jìn)行對應(yīng)領(lǐng)域詞典的自動構(gòu)建。如圖1所示，包括文本預(yù)處理系統(tǒng)和詞典構(gòu)建系統(tǒng)，所述文本預(yù)處理系統(tǒng)對待處理的文本進(jìn)行包括分詞、去高頻詞和去停用詞的處理；所述詞典構(gòu)建系統(tǒng)根據(jù)領(lǐng)域種子詞對領(lǐng)域詞典進(jìn)行自動擴(kuò)充，構(gòu)建出對應(yīng)的領(lǐng)域詞典。

為了實現(xiàn)上述發(fā)明目的，本發(fā)明提供了以下技術(shù)方案：用于自然語言處理的領(lǐng)域詞典生成系統(tǒng)，詞典包含如圖2所示的以下實現(xiàn)步驟：

(1)提取出待處理文本集中各文本的關(guān)鍵詞；待處理文本通過文本輸入端口輸入到預(yù)處理系統(tǒng)中進(jìn)行預(yù)處理后，輸入到詞典構(gòu)建系統(tǒng)中。

(2)對待處理文本進(jìn)行聚類，形成N個主題文本集，其中N為≥2的整數(shù)。

(3)根據(jù)用戶所選取的種子詞，統(tǒng)計種子詞在各主題文本集中出現(xiàn)的頻率；將種子詞出現(xiàn)頻率超過閾值的主題文本集保留，作為領(lǐng)域詞典擴(kuò)展的源文本集。通過聚類對待處理文本集進(jìn)行分類，形成了不同主題的文本集合，同一主題內(nèi)的文本之間的關(guān)聯(lián)程度更高，為后續(xù)的詞典擴(kuò)展進(jìn)行了語料的準(zhǔn)備和篩選。

通過聚類形成不同主題文本集后，經(jīng)過計算種子詞在主題文本關(guān)鍵詞的出現(xiàn)頻率，進(jìn)而分析出不同主題與所構(gòu)建詞典領(lǐng)域之間的關(guān)系遠(yuǎn)近，將關(guān)系較遠(yuǎn)的文本集舍棄，這樣在進(jìn)行詞典擴(kuò)展時，只在領(lǐng)域較近的主題中進(jìn)行，大大提高了詞典擴(kuò)展來源語料的質(zhì)量，詞典擴(kuò)展的準(zhǔn)確性顯著提升，同時由于僅在于所擴(kuò)展的領(lǐng)域最近的文本集中進(jìn)行詞典擴(kuò)展，縮小了詞典擴(kuò)展時計算的范圍，減少了詞典擴(kuò)展的計算量，提高了詞典擴(kuò)展的效率。

用戶自行選取種子詞的方式，對于具體領(lǐng)域或者問題的針對性更強(qiáng)，所構(gòu)建的詞典的適用更加靈活。

(4)計算種子詞與源文本集的各詞的關(guān)聯(lián)度，將關(guān)聯(lián)度到達(dá)設(shè)定閾值的詞作為領(lǐng)域詞存入待擴(kuò)充的詞典中。

進(jìn)一步的，所述步驟(1)中采用以下算法公式提取文本中關(guān)鍵詞。所述算法的計算公式為：

TR(v_i)是文本中詞v_i的重要性。d是阻尼系數(shù)，一般設(shè)置為0.85。N是無向圖中(將文本分詞后，抽象成一個無向圖，其中文本中的每個詞是圖中的一個節(jié)點(diǎn))所有詞的個數(shù)。relat{v_i}是與詞v_i有共現(xiàn)關(guān)系的詞集合。v_j是relat{v_i}中的任意一個詞，TR(v_j)是v_j的重要性，N(p_j)是與v_j有共現(xiàn)關(guān)系的詞的個數(shù)。

通過本計算公式進(jìn)行迭代計算，抽取TR(v_i)大于閾值的對應(yīng)詞作為該文本的關(guān)鍵詞；通過關(guān)鍵詞的自動抽取，為文本聚類進(jìn)行準(zhǔn)備。

進(jìn)一步的，所述步驟(2)中對待處理文本聚類包含以下過程：

(2-1)初始時，每個待處理文本各自為一個類；

類間距離定義為兩個類中兩兩文本對間距離的最大值，文本間距離的計算公式如下：

Dist(c_a，c_b)＝max{C(t_a，t_b)，t_a∈c_a，t_b∈c_b}

(2-3)在待處理文本集中將已被合并的初始類簇刪除，并將新類簇cnew加入到聚類結(jié)果中；

(2-4)重復(fù)步驟(2-1)至(2-3)，直到待處理文本集中僅包含N個類簇時，停止聚類。此時待處理文本集中包含的是經(jīng)過聚類后形成的N個主題，其中N的具體個數(shù)，根據(jù)實際應(yīng)用而自行設(shè)定。

作為一種優(yōu)選，所述步驟(2-4)N＝3，將待處理文本集僅分為三個主題，方便后續(xù)計算。

作為一種優(yōu)選；所述步驟(3)中，僅保留種子詞出現(xiàn)頻率最高的主題文本集作為詞典擴(kuò)充的源文本集；本步驟從個主題文本集中選取與種子詞關(guān)系最密切的文本集，使得詞典擴(kuò)展的語料集更加符合領(lǐng)域的特點(diǎn)，詞典的擴(kuò)展質(zhì)量更高，針對性更強(qiáng)。

作為一種優(yōu)選：所述步驟(4)中詞匯與種子詞的關(guān)聯(lián)度計算采用互信息的計算思想，所采用的計算公式為：

其中p(word1，word2)為詞word1和詞word2共同出現(xiàn)的概率，p(word1)和p(word2)表示詞word1和詞word2分別出現(xiàn)的概率?；バ畔⑺惴▽τ诜治鲈~匯之間的關(guān)聯(lián)度，算法簡潔容易實現(xiàn)，計算效率較高；互信息是計算語言學(xué)模型的分析方法，它度量兩個對象之間的相互性。在過濾問題中用于度量特征對于主題的區(qū)分度。在進(jìn)行領(lǐng)域詞典構(gòu)建時，在用戶自行選取種子詞的基礎(chǔ)上，利用互信息的方法來計算待擴(kuò)充的詞匯和現(xiàn)有種子詞的相關(guān)性，相關(guān)度越高表示該詞與種子詞的關(guān)聯(lián)性越高。

作為一種優(yōu)選，所述步驟(4)的閾值設(shè)置為MI(word1，word2)＝0.2，當(dāng)文本集中候選詞與種子詞的關(guān)聯(lián)度≥0.2時，就將該詞作為擴(kuò)展詞匯添加到所要構(gòu)建的詞典中，所述步驟(4)的計算過程如圖3所示。

進(jìn)一步的，所述用于自然語言處理的領(lǐng)域詞典生成系統(tǒng)為加載有上述功能的計算機(jī)或服務(wù)器。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張曉霞;劉世林;
技術(shù)所有人：成都數(shù)聯(lián)銘品科技有限公司;
我是此專利的發(fā)明人

上一篇：一種石墨烯?鉛板柵合金母粒及其制作方法與流程
上一篇：一種新型魚竿裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

領(lǐng)域詞典相關(guān)技術(shù)

ruby主要用于哪些領(lǐng)域相關(guān)技術(shù)

氣焊主要用于什么領(lǐng)域相關(guān)技術(shù)

噴塑用于哪些領(lǐng)域相關(guān)技術(shù)

python用于哪些領(lǐng)域相關(guān)技術(shù)

linux用于哪些領(lǐng)域相關(guān)技術(shù)

国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

用于自然語言處理的領(lǐng)域詞典生成系統(tǒng)的制作方法