本發(fā)明自然語言處理領(lǐng)域,特別涉及用于自然語言處理的領(lǐng)域詞典生成系統(tǒng)。
背景技術(shù):
大數(shù)據(jù)時代的到來為世界創(chuàng)造了新的機(jī)會,對大數(shù)據(jù)進(jìn)行分析利用體現(xiàn)大數(shù)據(jù)的價值,自然語言處理在大數(shù)據(jù)分析中占據(jù)重要的地位,面對海量的網(wǎng)絡(luò)文本資源,通過運(yùn)用自然語言處理的分析方法自動地、智能提取出有用信息,或者判斷出文本或者文本發(fā)布者所蘊(yùn)含的某種情感傾向,無論是在輿情分析還是商業(yè)調(diào)查中都有著重要的實際應(yīng)用意義。利用分析結(jié)果,可以對事情的發(fā)展演變進(jìn)行或者用戶喜好正確的預(yù)判,進(jìn)而提前采取相應(yīng)的措施來實現(xiàn)更大的正面效果。
自然語言處理中經(jīng)常需要使用詞典來進(jìn)行對應(yīng)的特征抽取,以詞典中的詞作為特征,通過詞典匹配來抽取對應(yīng)的特征詞匯,在特征詞匯抽取的基礎(chǔ)上結(jié)合設(shè)定的模型或者算法來判定該文本對應(yīng)的傾向或者性質(zhì),分析的可靠性大大增加。
然而現(xiàn)有的領(lǐng)域詞典,卻缺乏對具體問題的適用性,針對性不強(qiáng)。在分析具體領(lǐng)域或者具體話題時,使用現(xiàn)有的大而寬泛的領(lǐng)域詞典,并不能夠達(dá)到理想的分析效果,構(gòu)建針對性的領(lǐng)域詞典十分必要,然而手動構(gòu)建詞典非常的耗時耗力;不能滿足海量文本分析的需求。這樣的背景下如果能實現(xiàn):根據(jù)用戶具體分析需求快速構(gòu)建針對性強(qiáng)的領(lǐng)域,將有極大節(jié)省全手動構(gòu)建詞典的人力物力,然而現(xiàn)有技術(shù)中還缺乏能夠?qū)崿F(xiàn)這類詞典快速構(gòu)建功能的相應(yīng)工具。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的上述不足,提供用于自然語言處理的領(lǐng)域詞典生成系統(tǒng),用戶只需將待處理文本和領(lǐng)域種子詞輸入本系統(tǒng)中所述系統(tǒng)就可以實現(xiàn)在自動區(qū)分文本主題領(lǐng)域的基礎(chǔ)上,根據(jù)種子詞進(jìn)行對應(yīng)領(lǐng)域詞典的自動構(gòu)建。
為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供了以下技術(shù)方案:用于自然語言處理的領(lǐng)域詞典生成系統(tǒng),所述系統(tǒng)在自動區(qū)分文本主題領(lǐng)域的基礎(chǔ)上,根據(jù)種子詞進(jìn)行對應(yīng)領(lǐng)域詞典的自動構(gòu)建;
所述詞典構(gòu)建包含以下實現(xiàn)過程:
(1)提取出待處理文本集中各文本的關(guān)鍵詞;
(2)對待處理文本進(jìn)行聚類,生成N個主題文本集,其中N為整數(shù)且N≥2;
(3)統(tǒng)計種子詞在各主題文本集中出現(xiàn)的頻率;將頻率超過閾值的主題文本集保留,作為領(lǐng)域詞典擴(kuò)展的源文本集;
(4)計算種子詞與源文本集的文本中各候選詞的關(guān)聯(lián)度,將關(guān)聯(lián)度到達(dá)閾值的候選詞作為領(lǐng)域詞存入待擴(kuò)充的詞典中。
進(jìn)一步的,所述步驟(1)中采用以下算法公式提取文本中關(guān)鍵詞。所述算法的計算公式為:
TR(vi)是文本中詞vi的重要性,d是阻尼系數(shù),一般設(shè)置為0.85,N是無向圖中所有詞的個數(shù),relat{vi}是與詞vi有共現(xiàn)關(guān)系的詞集合,vj是relat{vi}中的任意一個詞,TR(vj)是vj的重要性,N(pj)是與vj有共現(xiàn)關(guān)系的詞的個數(shù)。
進(jìn)一步的,所述步驟(2)中對待處理文本聚類包含以下過程:
(2-1)初始時,每個待處理文本各自為一個類;
類間距離定義為兩個類中兩兩文本對間距離的最大值,文本間距離的計算公式如下:
其中C(t1,t2)表示文本1和文本2之間的距離,t1∩t2表示文本1和文本2之間包含相同關(guān)鍵詞的個數(shù),mid(t1,t2)表示文本1和文本2中包含關(guān)鍵詞的平均個數(shù);類間距離計算公式如下:
Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}
其中,Dist(ca,cb)表示任意兩個類簇之間的距離,ca和cb分別代表兩個類,C(ta,tb)表示兩個文本之間的距離,ta和tb分別表示兩個文本,并且要求ta∈ca、tb∈cb(2-2)計算所有類兩兩之間的距離,將距離最小的類進(jìn)行合并,命名為cnew;
(2-3)在待處理文本集中將已被合并的初始類簇刪除,并將新類簇cnew加入到聚類結(jié)果中;
(2-4)重復(fù)步驟(2-1)至(2-3),直到待處理文本集中僅包含N個類簇時,停止聚類。此時待處理文本集中包含的是經(jīng)過聚類后形成的N個主題,其中N的具體個數(shù),根據(jù)實際應(yīng)用所而自行設(shè)定。
作為一種優(yōu)選:所述步驟(4)中候選詞與種子詞的關(guān)聯(lián)度計算公式為:
其中p(word1,word2)為詞word1和詞word2共同出現(xiàn)的概率,p(word1)和p(word2)表示詞word1和詞word2分別出現(xiàn)的概率。
作為一種優(yōu)選,所述步驟(2)中,N=3。
作為一種優(yōu)選,所述步驟(3)中,僅保留種子詞出現(xiàn)頻率最高的主題文本集作為詞典擴(kuò)充的源文本集。
作為一種優(yōu)選,所述步驟(4)中候選詞與種子詞的閾值設(shè)置為MI(word1,word2)=0.2,當(dāng)文本集中詞匯與種子詞的關(guān)聯(lián)度≥0.2時,就將該詞作為擴(kuò)展詞匯添加到所要構(gòu)建的詞典中。
進(jìn)一步的,所述詞典生成系統(tǒng)為加載有上述功能的計算機(jī)或者服務(wù)器。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:本發(fā)明提供用于自然語言處理的領(lǐng)域詞典生成系統(tǒng),用戶只需將待處理文本和領(lǐng)域種子詞輸入本系統(tǒng)中所述系統(tǒng)就可以實現(xiàn)在自動區(qū)分文本主題領(lǐng)域的基礎(chǔ)上,根據(jù)種子詞進(jìn)行對應(yīng)領(lǐng)域詞典的自動構(gòu)建。本發(fā)明系統(tǒng)自動區(qū)分待處理文本的主題類型,并根據(jù)種子詞實現(xiàn)主題文本集與對應(yīng)領(lǐng)域的自動匹配,在關(guān)系密切的主題文本集中來實現(xiàn)詞典的詞匯的擴(kuò)展,詞典構(gòu)建的準(zhǔn)確性更高。
本發(fā)明系統(tǒng)的種子詞根據(jù)用戶需要自行選取,種子詞的選取可根據(jù)分析的具體方向而定,因此更加具有針對性,更加符合用戶使用的需要。相比于普通的領(lǐng)域詞典,本發(fā)明系統(tǒng)所構(gòu)建的領(lǐng)域詞典具有更強(qiáng)靈活。詞典的實用性更強(qiáng),更加適應(yīng)于具體問題或者主題的文本分析。為自然語言處理提供可靠的詞典自動生成工具。
附圖說明:
圖1為本發(fā)明系統(tǒng)的系統(tǒng)結(jié)構(gòu)圖。
圖2為本發(fā)明系統(tǒng)詞典構(gòu)建的實現(xiàn)過程示意圖。
圖3為本發(fā)明系統(tǒng)詞典構(gòu)建步驟(4)的實現(xiàn)過程示意圖。
具體實施方式
下面結(jié)合試驗例及具體實施方式對本發(fā)明作進(jìn)一步的詳細(xì)描述。但不應(yīng)將此理解為本發(fā)明上述主題的范圍僅限于以下的實施例,凡基于本發(fā)明內(nèi)容所實現(xiàn)的技術(shù)均屬于本發(fā)明的范圍。
提供用于自然語言處理的領(lǐng)域詞典生成系統(tǒng),所述系統(tǒng)在自動區(qū)分文本主題領(lǐng)域的基礎(chǔ)上,根據(jù)種子詞進(jìn)行對應(yīng)領(lǐng)域詞典的自動構(gòu)建。如圖1所示,包括文本預(yù)處理系統(tǒng)和詞典構(gòu)建系統(tǒng),所述文本預(yù)處理系統(tǒng)對待處理的文本進(jìn)行包括分詞、去高頻詞和去停用詞的處理;所述詞典構(gòu)建系統(tǒng)根據(jù)領(lǐng)域種子詞對領(lǐng)域詞典進(jìn)行自動擴(kuò)充,構(gòu)建出對應(yīng)的領(lǐng)域詞典。
為了實現(xiàn)上述發(fā)明目的,本發(fā)明提供了以下技術(shù)方案:用于自然語言處理的領(lǐng)域詞典生成系統(tǒng),詞典包含如圖2所示的以下實現(xiàn)步驟:
(1)提取出待處理文本集中各文本的關(guān)鍵詞;待處理文本通過文本輸入端口輸入到預(yù)處理系統(tǒng)中進(jìn)行預(yù)處理后,輸入到詞典構(gòu)建系統(tǒng)中。
(2)對待處理文本進(jìn)行聚類,形成N個主題文本集,其中N為≥2的整數(shù)。
(3)根據(jù)用戶所選取的種子詞,統(tǒng)計種子詞在各主題文本集中出現(xiàn)的頻率;將種子詞出現(xiàn)頻率超過閾值的主題文本集保留,作為領(lǐng)域詞典擴(kuò)展的源文本集。通過聚類對待處理文本集進(jìn)行分類,形成了不同主題的文本集合,同一主題內(nèi)的文本之間的關(guān)聯(lián)程度更高,為后續(xù)的詞典擴(kuò)展進(jìn)行了語料的準(zhǔn)備和篩選。
通過聚類形成不同主題文本集后,經(jīng)過計算種子詞在主題文本關(guān)鍵詞的出現(xiàn)頻率,進(jìn)而分析出不同主題與所構(gòu)建詞典領(lǐng)域之間的關(guān)系遠(yuǎn)近,將關(guān)系較遠(yuǎn)的文本集舍棄,這樣在進(jìn)行詞典擴(kuò)展時,只在領(lǐng)域較近的主題中進(jìn)行,大大提高了詞典擴(kuò)展來源語料的質(zhì)量,詞典擴(kuò)展的準(zhǔn)確性顯著提升,同時由于僅在于所擴(kuò)展的領(lǐng)域最近的文本集中進(jìn)行詞典擴(kuò)展,縮小了詞典擴(kuò)展時計算的范圍,減少了詞典擴(kuò)展的計算量,提高了詞典擴(kuò)展的效率。
用戶自行選取種子詞的方式,對于具體領(lǐng)域或者問題的針對性更強(qiáng),所構(gòu)建的詞典的適用更加靈活。
(4)計算種子詞與源文本集的各詞的關(guān)聯(lián)度,將關(guān)聯(lián)度到達(dá)設(shè)定閾值的詞作為領(lǐng)域詞存入待擴(kuò)充的詞典中。
進(jìn)一步的,所述步驟(1)中采用以下算法公式提取文本中關(guān)鍵詞。所述算法的計算公式為:
TR(vi)是文本中詞vi的重要性。d是阻尼系數(shù),一般設(shè)置為0.85。N是無向圖中(將文本分詞后,抽象成一個無向圖,其中文本中的每個詞是圖中的一個節(jié)點(diǎn))所有詞的個數(shù)。relat{vi}是與詞vi有共現(xiàn)關(guān)系的詞集合。vj是relat{vi}中的任意一個詞,TR(vj)是vj的重要性,N(pj)是與vj有共現(xiàn)關(guān)系的詞的個數(shù)。
通過本計算公式進(jìn)行迭代計算,抽取TR(vi)大于閾值的對應(yīng)詞作為該文本的關(guān)鍵詞;通過關(guān)鍵詞的自動抽取,為文本聚類進(jìn)行準(zhǔn)備。
進(jìn)一步的,所述步驟(2)中對待處理文本聚類包含以下過程:
(2-1)初始時,每個待處理文本各自為一個類;
類間距離定義為兩個類中兩兩文本對間距離的最大值,文本間距離的計算公式如下:
其中C(t1,t2)表示文本1和文本2之間的距離,t1∩t2表示文本1和文本2之間包含相同關(guān)鍵詞的個數(shù),mid(t1,t2)表示文本1和文本2中包含關(guān)鍵詞的平均個數(shù);類間距離計算公式如下:
Dist(ca,cb)=max{C(ta,tb),ta∈ca,tb∈cb}
其中,Dist(ca,cb)表示任意兩個類簇之間的距離,ca和cb分別代表兩個類,C(ta,tb)表示兩個文本之間的距離,ta和tb分別表示兩個文本,并且要求ta∈ca、tb∈cb(2-2)計算所有類兩兩之間的距離,將距離最小的類進(jìn)行合并,命名為cnew;
(2-3)在待處理文本集中將已被合并的初始類簇刪除,并將新類簇cnew加入到聚類結(jié)果中;
(2-4)重復(fù)步驟(2-1)至(2-3),直到待處理文本集中僅包含N個類簇時,停止聚類。此時待處理文本集中包含的是經(jīng)過聚類后形成的N個主題,其中N的具體個數(shù),根據(jù)實際應(yīng)用而自行設(shè)定。
作為一種優(yōu)選,所述步驟(2-4)N=3,將待處理文本集僅分為三個主題,方便后續(xù)計算。
作為一種優(yōu)選;所述步驟(3)中,僅保留種子詞出現(xiàn)頻率最高的主題文本集作為詞典擴(kuò)充的源文本集;本步驟從個主題文本集中選取與種子詞關(guān)系最密切的文本集,使得詞典擴(kuò)展的語料集更加符合領(lǐng)域的特點(diǎn),詞典的擴(kuò)展質(zhì)量更高,針對性更強(qiáng)。
作為一種優(yōu)選:所述步驟(4)中詞匯與種子詞的關(guān)聯(lián)度計算采用互信息的計算思想,所采用的計算公式為:
其中p(word1,word2)為詞word1和詞word2共同出現(xiàn)的概率,p(word1)和p(word2)表示詞word1和詞word2分別出現(xiàn)的概率?;バ畔⑺惴▽τ诜治鲈~匯之間的關(guān)聯(lián)度,算法簡潔容易實現(xiàn),計算效率較高;互信息是計算語言學(xué)模型的分析方法,它度量兩個對象之間的相互性。在過濾問題中用于度量特征對于主題的區(qū)分度。在進(jìn)行領(lǐng)域詞典構(gòu)建時,在用戶自行選取種子詞的基礎(chǔ)上,利用互信息的方法來計算待擴(kuò)充的詞匯和現(xiàn)有種子詞的相關(guān)性,相關(guān)度越高表示該詞與種子詞的關(guān)聯(lián)性越高。
作為一種優(yōu)選,所述步驟(4)的閾值設(shè)置為MI(word1,word2)=0.2,當(dāng)文本集中候選詞與種子詞的關(guān)聯(lián)度≥0.2時,就將該詞作為擴(kuò)展詞匯添加到所要構(gòu)建的詞典中,所述步驟(4)的計算過程如圖3所示。
進(jìn)一步的,所述用于自然語言處理的領(lǐng)域詞典生成系統(tǒng)為加載有上述功能的計算機(jī)或服務(wù)器。