本發(fā)明涉及自動問答技術(shù)領域,尤其涉及一種領域新詞發(fā)現(xiàn)的方法及裝置。
背景技術(shù):
新詞抽取主要是基于統(tǒng)計和規(guī)則的方法?;谝?guī)則的方法通常是新詞的內(nèi)部構(gòu)成語法規(guī)則或者新詞的前后綴規(guī)則,以此為準則發(fā)現(xiàn)新詞?;诮y(tǒng)計方法一般是尋找描述新詞特征的統(tǒng)計量抽取候選詞串,計算其內(nèi)部聚合度和自由度,在此基礎上確定閾值,尋找聚合度和自由度最大的字符串組合。但閾值的確定是個難題,必然存在抽取的新詞并非新詞的問題,因此,新詞候選詞中包含垃圾詞串、通用詞、通用新詞和領域新詞,其中通用新詞屬于通用詞的一部分。之后,需要大量人工參與新詞過濾。而領域新詞發(fā)現(xiàn)通常是在通用新詞發(fā)現(xiàn)的基礎上,經(jīng)過人工過濾并分類實現(xiàn)的,工作量大且人工成本非常高。
技術(shù)實現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是,提供一種領域新詞發(fā)現(xiàn)的方法及裝置,能夠從領域新詞候選詞中自動過濾掉部分垃圾詞串和通用詞,有效地獲得更加準確的領域新詞候選詞。
本發(fā)明采用的技術(shù)方案是,所述領域新詞發(fā)現(xiàn)的方法,包括:
獲取通用新詞候選詞串;
根據(jù)預先設定的領域類別及對應的領域語料,采用統(tǒng)計的方法判斷所述通用新詞候選詞串是否為領域新詞候選詞串;
當所述新詞候選詞串為領域新詞候選詞串時,通過相似度計算判斷所述領域新詞候選詞串是否為領域新詞。
進一步的,所述獲取通用新詞候選詞串采用以下一種或多種方法的結(jié)合:內(nèi)部構(gòu)成語法規(guī)則方法、前后綴規(guī)則方法和特征統(tǒng)計方法。
進一步的,采用統(tǒng)計的方法判斷所述通用新詞候選詞串是否為領域新詞候選詞串包括:
采用包括所述通用新詞候選詞串的詞典對每個所述領域語料進行分詞處理,得到各領域的詞語集;
計算所述通用新詞候選詞串在每個領域的詞語集中出現(xiàn)概率,并將最大的所述出現(xiàn)概率對應的領域類別作為目標領域類別;
計算所述通用新詞候選詞串在至少部分預先設定的領域類別中分布的信息熵,當所述信息熵小于或等于信息熵閾值時,所述通用新詞候選詞串為所述目標領域類別的領域新詞候選詞串。
進一步的,所述信息熵閾值的取值范圍為:1.5~2.5。
進一步的,設a為所述通用新詞候選詞串,所述通用新詞候選詞串在至少部分預先設定的領域類別中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n為所述至少部分預先設定的領域類別的個數(shù),p1、p2、…、pn為所述通用新詞候選詞串a(chǎn)在n個所述領域語料的出現(xiàn)概率。
進一步的,所述方法還包括:在采用統(tǒng)計的方法判斷所述通用新詞候選詞串是否為領域新詞候選詞串之前,對所述預先設定的領域類別的領域語料進行如下預處理:
將所述預先設定的領域類別的領域語料的格式統(tǒng)一為文本格式;
去除含有敏感詞的領域語料,根據(jù)剩余的領域語料中所含有的斷句標點將所述剩余的領域語料分割成句。
進一步的,所述通過相似度計算判斷所述領域新詞候選詞串是否為領域新詞包括:
從所述領域新詞候選詞串對應的領域語料中選擇全部或部分的其他詞串作為種子詞串;
計算所述領域新詞候選詞串與每個所述種子詞串的相似度;
當最大所述相似度大于相似度閾值時,所述領域新詞候選詞串為領域新詞。
進一步的,所述相似度閾值的取值范圍為0.6-0.8。
進一步的,判定為領域新詞的領域新詞候選詞串也作為相應領域的種子詞串。
進一步的,所述方法還包括:
在得到多個所述領域新詞后,進行人工審核,得到領域新詞的發(fā)現(xiàn)準確率;
當所述發(fā)現(xiàn)準確率小于或等于準確率閾值時,調(diào)整所述信息熵閾值和/或所述相似度閾值,直至根據(jù)調(diào)整后的所述信息熵閾值和/或所述相似度閾值得到的發(fā)現(xiàn)準確率大于準確率閾值為止。
本發(fā)明還提供一種領域新詞發(fā)現(xiàn)的裝置,包括:
獲取模塊,用于獲取通用新詞候選詞串;
存儲模塊,用于存儲預先設定的領域類別及對應的領域語料;
統(tǒng)計模塊,用于根據(jù)預先設定的領域類別及對應的領域語料,采用統(tǒng)計的方法判斷所述通用新詞候選詞串是否為領域新詞候選詞串;
相似度計算模塊,用于當所述新詞候選詞串為領域新詞候選詞串時,通過相似度計算判斷所述領域新詞候選詞串是否為領域新詞。
進一步的,所述獲取模塊,用于采用以下一種或多種方法的結(jié)合獲取通用新詞候選詞串:內(nèi)部構(gòu)成語法規(guī)則方法、前后綴規(guī)則方法和特征統(tǒng)計方法。
進一步的,所述統(tǒng)計模塊,包括:
分詞單元,用于采用包括所述通用新詞候選詞串的詞典對每個所述領域語料進行分詞處理,得到各領域的詞語集;
概率計算單元,用于計算所述通用新詞候選詞串在每個領域的詞語集中出現(xiàn)概率;
目標領域確定單元,用于將最大的所述出現(xiàn)概率對應的領域類別作為目標領域類別;
信息熵計算單元,用于計算所述通用新詞候選詞串在至少部分預先設定的領域類別中分布的信息熵;
新詞確認單元,用于當所述信息熵小于或等于信息熵閾值時,確認所述通用新詞候選詞串為所述目標領域類別的領域新詞候選詞串。
進一步的,所述統(tǒng)計模塊,還包括:
預處理單元,用于在采用統(tǒng)計的方法判斷所述通用新詞候選詞串是否為領域新詞候選詞串之前,將所述預先設定的領域類別的領域語料的格式統(tǒng)一為文本格式;去除含有敏感詞的領域語料,根據(jù)剩余的領域語料中所含有的斷句標點將所述剩余的領域語料分割成句。
進一步的,所述信息熵閾值的取值范圍為:1.5~2.5。
進一步的,所述信息熵計算單元采用以下公式進行計算:設a為所述通用新詞候選詞串,所述通用新詞候選詞串在至少部分預先設定的領域類別中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n為所述至少部分預先設定的領域類別的個數(shù),p1、p2、…、pn為所述通用新詞候選詞串a(chǎn)在n個所述領域語料的出現(xiàn)概率。
進一步的,所述相似度計算模塊,包括:
種子詞串選擇單元,用于從所述領域新詞候選詞串對應的領域語料中選擇全部或部分的其他詞串作為種子詞串;
相似運算單元,用于計算所述領域新詞候選詞串與每個所述種子詞串的相似度;
判定單元,用于當最大所述相似度大于相似度閾值時,所述領域新詞候選詞串為領域新詞。
進一步的,所述相似度閾值的取值范圍為0.6-0.8。
進一步的,所述相似度計算模塊,還包括:
種子詞串更新單元,用于將判定為領域新詞的領域新詞候選詞串也作為相應領域的種子詞串。
進一步的,所述裝置還包括:
準確率確定模塊,用于在得到多個所述領域新詞后,進行人工審核,得到領域新詞的發(fā)現(xiàn)準確率;
校正模塊,用于當所述發(fā)現(xiàn)準確率小于或等于準確率閾值時,調(diào)整所述信息熵閾值和/或所述相似度閾值,直至根據(jù)調(diào)整后的所述信息熵閾值和/或所述相似度閾值得到的發(fā)現(xiàn)準確率大于準確率閾值為止。
采用上述技術(shù)方案,本發(fā)明至少具有下列優(yōu)點:
作為自動問答領域的基礎技術(shù)和重要的步驟,本發(fā)明所述領域新詞發(fā)現(xiàn)的方法及裝置為領域新詞候選詞的過濾提供了新的思路,本發(fā)明能夠簡便且有效地過濾掉部分垃圾詞串和通用詞,篩選出領域新詞從而減少了工作量,降低了人工成本。以爬取的百度知道語料為例,領域新詞的準確率為91.5%左右。
附圖說明
圖1為本發(fā)明第一實施例的領域新詞發(fā)現(xiàn)的方法流程圖;
圖2為本發(fā)明第二實施例的領域新詞發(fā)現(xiàn)的方法流程圖;
圖3為本發(fā)明第三實施例的領域新詞發(fā)現(xiàn)的方法流程圖;
圖4為本發(fā)明第四實施例的領域新詞發(fā)現(xiàn)的裝置組成結(jié)構(gòu)示意圖;
圖5為本發(fā)明第五實施例的領域新詞發(fā)現(xiàn)的裝置組成結(jié)構(gòu)示意圖;
圖6為本發(fā)明第六實施例的領域新詞發(fā)現(xiàn)的裝置組成結(jié)構(gòu)示意圖;
圖7為本發(fā)明第七實施例的各領域語料的獲取及預處理流程圖;
圖8為本發(fā)明第七實施例的領域新詞候選詞串的篩選流程圖;
圖9為本發(fā)明第七實施例的領域新詞的篩選流程圖。
具體實施方式
為更進一步闡述本發(fā)明為達成預定目的所采取的技術(shù)手段及功效,以下結(jié)合附圖及較佳實施例,對本發(fā)明進行詳細說明如后。
本發(fā)明第一實施例,一種領域新詞發(fā)現(xiàn)的方法,如圖1所示,包括以下具體步驟:
步驟S101,獲取通用新詞候選詞串。
具體的,所述獲取通用新詞候選詞串采用以下一種或多種方法的結(jié)合:內(nèi)部構(gòu)成語法規(guī)則方法、前后綴規(guī)則方法和特征統(tǒng)計方法。
步驟S102,根據(jù)預先設定的領域類別及對應的領域語料,采用統(tǒng)計的方法判斷所述通用新詞候選詞串是否為領域新詞候選詞串。
具體的,預先設定的領域類別及對應的領域語料可以基于網(wǎng)絡爬蟲獲得的新語料設定,通常語料的領域有14個大的領域。
需要說明的是,本發(fā)明不限定領域類別及每個領域類別對應的領域語料。
在步驟S102中,采用統(tǒng)計的方法判斷所述通用新詞候選詞串是否為領域新詞候選詞串包括:
采用包括所述通用新詞候選詞串的詞典對每個所述領域語料進行分詞處理,得到各領域的詞語集;
計算所述通用新詞候選詞串在每個領域的詞語集中出現(xiàn)概率,并將最大的所述出現(xiàn)概率對應的領域類別作為目標領域類別;
計算所述通用新詞候選詞串在至少部分預先設定的領域類別中分布的信息熵,當所述信息熵小于或等于信息熵閾值時,所述通用新詞候選詞串為所述目標領域類別的領域新詞候選詞串。
其中,所述信息熵閾值的取值范圍可以為:1.5~2.5,如:1.5、2.0或2.5等。
進一步的,設a為所述通用新詞候選詞串,所述通用新詞候選詞串在至少部分預先設定的領域類別中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n為所述至少部分預先設定的領域類別的個數(shù),p1、p2、…、pn為所述通用新詞候選詞串a(chǎn)在n個所述領域語料的出現(xiàn)概率。由于新詞候選詞中的垃圾詞串、通用詞通常出現(xiàn)概率較高,并且垃圾詞串和通用詞均在各個領域出現(xiàn)頻率相近,而領域新詞出現(xiàn)的概率較小,并且領域新詞會在不同的領域有明顯的偏重,甚至只出現(xiàn)在對應領域。本發(fā)明實施例根據(jù)這一原理,在現(xiàn)有的通用新詞發(fā)現(xiàn)方法發(fā)現(xiàn)的通用新詞候選詞的基礎上,將得到的通用新詞候選詞串進一步處理,通過計算各個通用新詞候選詞串在所有領域類別中分布上的信息熵,信息熵越大表明該通用新詞候選詞串在各個領域上的分布越平衡,反之,表明該通用新詞候選詞串的分布偏重某領域。之后,通過確定一個合適的信息熵閾值h過濾掉部分垃圾詞串和通用詞串,若H(a)>h時,則通用新詞候選詞串a(chǎn)為垃圾詞串或通用詞,反之,則通用新詞候選詞串a(chǎn)為對應出現(xiàn)概率最大的領域的領域新詞候選詞串,從而篩選出領域新詞候選詞串。
步驟S103,當所述新詞候選詞串為領域新詞候選詞串時,通過相似度計算判斷所述領域新詞候選詞串是否為領域新詞。
具體的,在步驟S103中,通過相似度計算判斷所述領域新詞候選詞串是否為領域新詞,包括:
從所述領域新詞候選詞串對應的領域語料中選擇全部或部分的其他詞串作為種子詞串;
計算所述領域新詞候選詞串與每個所述種子詞串的相似度;進一步的,可以將領域新詞候選詞輸入到word2vec模型得到領域新詞候選詞串的詞向量,將每個所述種子詞串輸入到word2vec模型得到相應的每個所述種子詞串的詞向量,再計算該領域新詞候選詞串的詞向量與每個所述種子詞串的詞向量的語義相似度。
當最大所述相似度大于相似度閾值時,所述領域新詞候選詞串為領域新詞。所述相似度閾值的取值范圍可以為0.6-0.8,如:0.6、0.7或0.8等。優(yōu)選的,判定為領域新詞的領域新詞候選詞串后續(xù)也可以作為相應領域的種子詞串,這樣做可以對每個領域的語料進行及時的完善。
本發(fā)明實施例的步驟S102是基于統(tǒng)計的思想尋找領域新詞候選詞串,而未考慮詞與領域的語義關(guān)系,為了提高確定領域新詞的準確度,步驟S103是在語義層面進一步篩選出領域新詞。即,將利用word2vec模型計算該領域新詞候選詞串與某一領域語料中的各詞串之間的語義相似度,相似度越大越則越有可能是對應領域的領域新詞。之后,領域新詞逐漸增加,可以逐漸完善領域詞典。
本發(fā)明第二實施例,一種領域新詞發(fā)現(xiàn)的方法,如圖2所示,包括以下具體步驟:
步驟S201,獲取通用新詞候選詞串。
具體的,所述獲取通用新詞候選詞串采用以下一種或多種方法的結(jié)合:內(nèi)部構(gòu)成語法規(guī)則方法、前后綴規(guī)則方法和特征統(tǒng)計方法。
步驟S202,對預先設定的領域類別的領域語料進行預處理。
具體的,步驟S202包括:
將所述預先設定的領域類別的領域語料的格式統(tǒng)一為文本格式;
去除含有敏感詞的領域語料,根據(jù)剩余的領域語料中所含有的斷句標點將所述剩余的領域語料分割成句。
需要說明的是,本發(fā)明實施例與第一實施例的區(qū)別就在于,本實施例的所述方法在步驟S203采用統(tǒng)計的方法判斷所述通用新詞候選詞串是否為領域新詞候選詞串之前,還要通過步驟S202對所述預先設定的領域類別的領域語料進行預處理,由于已對領域語料統(tǒng)一格式并去除敏感詞和斷句,這樣做便于步驟S203中對每個領域的語料進行分詞處理,提高分詞處理的效率和準確率。
步驟S203,根據(jù)預先設定的領域類別及對應的經(jīng)過預處理后的領域語料,采用統(tǒng)計的方法判斷所述通用新詞候選詞串是否為領域新詞候選詞串。
具體的,在步驟S203中,采用統(tǒng)計的方法判斷所述通用新詞候選詞串是否為領域新詞候選詞串包括:
采用包括所述通用新詞候選詞串的詞典對每個所述領域語料進行分詞處理,得到各領域的詞語集;
計算所述通用新詞候選詞串在每個領域的詞語集中出現(xiàn)概率,并將最大的所述出現(xiàn)概率對應的領域類別作為目標領域類別;
計算所述通用新詞候選詞串在至少部分預先設定的領域類別中分布的信息熵,當所述信息熵小于或等于信息熵閾值時,所述通用新詞候選詞串為所述目標領域類別的領域新詞候選詞串。所述信息熵閾值的取值范圍為:1.5~2.5。
進一步的,設a為所述通用新詞候選詞串,所述通用新詞候選詞串在至少部分預先設定的領域類別中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n為所述至少部分預先設定的領域類別的個數(shù),p1、p2、…、pn為所述通用新詞候選詞串a(chǎn)在n個所述領域語料的出現(xiàn)概率。
步驟S204,當所述新詞候選詞串為領域新詞候選詞串時,通過相似度計算判斷所述領域新詞候選詞串是否為領域新詞。
具體的,在步驟S204中,通過相似度計算判斷所述領域新詞候選詞串是否為領域新詞,包括:
從所述領域新詞候選詞串對應的領域語料中選擇全部或部分的其他詞串作為種子詞串;
計算所述領域新詞候選詞串與每個所述種子詞串的相似度;
當最大所述相似度大于相似度閾值時,所述領域新詞候選詞串為領域新詞。所述相似度閾值的取值范圍為0.6-0.8。優(yōu)選的,判定為領域新詞的領域新詞候選詞串也作為相應領域的種子詞串,這樣做可以對每個領域的語料進行及時的完善。
本發(fā)明第三實施例,一種領域新詞發(fā)現(xiàn)的方法,如圖3所示,包括以下具體步驟:
步驟S301,獲取通用新詞候選詞串。
具體的,所述獲取通用新詞候選詞串采用以下一種或多種方法的結(jié)合:內(nèi)部構(gòu)成語法規(guī)則方法、前后綴規(guī)則方法和特征統(tǒng)計方法。
步驟S302,對預先設定的領域類別的領域語料進行預處理。
具體的,步驟S302包括:
將所述預先設定的領域類別的領域語料的格式統(tǒng)一為文本格式;
去除含有敏感詞的領域語料,根據(jù)剩余的領域語料中所含有的斷句標點將所述剩余的領域語料分割成句。
步驟S303,根據(jù)預先設定的領域類別及對應的經(jīng)過預處理后的領域語料,采用統(tǒng)計的方法判斷所述通用新詞候選詞串是否為領域新詞候選詞串。
具體的,在步驟S303中,采用統(tǒng)計的方法判斷所述通用新詞候選詞串是否為領域新詞候選詞串包括:
采用包括所述通用新詞候選詞串的詞典對每個所述領域語料進行分詞處理,得到各領域的詞語集;
計算所述通用新詞候選詞串在每個領域的詞語集中出現(xiàn)概率,并將最大的所述出現(xiàn)概率對應的領域類別作為目標領域類別;
計算所述通用新詞候選詞串在至少部分預先設定的領域類別中分布的信息熵,當所述信息熵小于或等于信息熵閾值時,所述通用新詞候選詞串為所述目標領域類別的領域新詞候選詞串。所述信息熵閾值的取值范圍為:1.5~2.5。
進一步的,設a為所述通用新詞候選詞串,所述通用新詞候選詞串在至少部分預先設定的領域類別中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n為所述至少部分預先設定的領域類別的個數(shù),p1、p2、…、pn為所述通用新詞候選詞串a(chǎn)在n個所述領域語料的出現(xiàn)概率。
步驟S304,當所述新詞候選詞串為領域新詞候選詞串時,通過相似度計算判斷所述領域新詞候選詞串是否為領域新詞。
具體的,在步驟S304中,通過相似度計算判斷所述領域新詞候選詞串是否為領域新詞,包括:
從所述領域新詞候選詞串對應的領域語料中選擇全部或部分的其他詞串作為種子詞串;
計算所述領域新詞候選詞串與每個所述種子詞串的相似度;
當最大所述相似度大于相似度閾值時,所述領域新詞候選詞串為領域新詞。所述相似度閾值的取值范圍為0.6-0.8。
優(yōu)選的,判定為領域新詞的領域新詞候選詞串也作為相應領域的種子詞串。
步驟S305,在得到多個所述領域新詞后,進行人工審核,得到領域新詞的發(fā)現(xiàn)準確率;
步驟S306,當所述發(fā)現(xiàn)準確率小于或等于準確率閾值時,調(diào)整所述信息熵閾值和/或所述相似度閾值,直至根據(jù)調(diào)整后的所述信息熵閾值和/或所述相似度閾值得到的發(fā)現(xiàn)準確率大于準確率閾值為止。
本發(fā)明實施例與第二實施例的區(qū)別在于,本實施例在確定出領域新詞之后,還要審核領域新詞的發(fā)現(xiàn)準確率,并據(jù)此對在領域新詞確定過程中所用到的所述信息熵閾值和/或所述相似度閾值進行調(diào)整,以通過逐漸優(yōu)化的方式進一步提高領域新詞發(fā)現(xiàn)的準確率。之后,領域新詞在人工參與后逐漸增加,逐漸完善領域詞典。
本發(fā)明第四實施例,與第一實施例對應,本實施例介紹一種領域新詞發(fā)現(xiàn)的裝置,如圖4所示,包括以下組成部分:
1)獲取模塊100,用于獲取通用新詞候選詞串。
具體的,獲取模塊100,用于采用以下一種或多種方法的結(jié)合獲取通用新詞候選詞串:內(nèi)部構(gòu)成語法規(guī)則方法、前后綴規(guī)則方法和特征統(tǒng)計方法。
2)存儲模塊200,用于存儲預先設定的領域類別及對應的領域語料。
3)統(tǒng)計模塊300,用于根據(jù)預先設定的領域類別及對應的領域語料,采用統(tǒng)計的方法判斷所述通用新詞候選詞串是否為領域新詞候選詞串。
具體的,統(tǒng)計模塊300,包括:
分詞單元301,用于采用包括所述通用新詞候選詞串的詞典對每個所述領域語料進行分詞處理,得到各領域的詞語集。
概率計算單元302,用于計算所述通用新詞候選詞串在每個領域的詞語集中出現(xiàn)概率。
目標領域確定單元303,用于將最大的所述出現(xiàn)概率對應的領域類別作為目標領域類別。
信息熵計算單元304,用于計算所述通用新詞候選詞串在至少部分預先設定的領域類別中分布的信息熵。信息熵計算單元304采用以下公式進行計算:設a為所述通用新詞候選詞串,所述通用新詞候選詞串在至少部分預先設定的領域類別中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n為所述至少部分預先設定的領域類別的個數(shù),p1、p2、…、pn為所述通用新詞候選詞串a(chǎn)在n個所述領域語料的出現(xiàn)概率。
新詞確認單元305,用于當所述信息熵小于或等于信息熵閾值時,確認所述通用新詞候選詞串為所述目標領域類別的領域新詞候選詞串。所述信息熵閾值的取值范圍為:1.5~2.5。
4)相似度計算模塊400,用于當所述新詞候選詞串為領域新詞候選詞串時,通過相似度計算判斷所述領域新詞候選詞串是否為領域新詞。
具體的,相似度計算模塊400,包括:
種子詞串選擇單元401,用于從所述領域新詞候選詞串對應的領域語料中選擇全部或部分的其他詞串作為種子詞串;
相似運算單元402,用于計算所述領域新詞候選詞串與每個所述種子詞串的相似度;
判定單元403,用于當最大所述相似度大于相似度閾值時,所述領域新詞候選詞串為領域新詞。所述相似度閾值的取值范圍為0.6-0.8。
優(yōu)選的,相似度計算模塊400,還包括:
種子詞串更新單元404,用于將判定為領域新詞的領域新詞候選詞串也作為相應領域的種子詞串。
本發(fā)明第五實施例,與第二實施例對應,本實施例介紹一種領域新詞發(fā)現(xiàn)的裝置,如圖5所示,包括以下組成部分:
1)獲取模塊100,用于獲取通用新詞候選詞串。
具體的,獲取模塊100,用于采用以下一種或多種方法的結(jié)合獲取通用新詞候選詞串:內(nèi)部構(gòu)成語法規(guī)則方法、前后綴規(guī)則方法和特征統(tǒng)計方法。
2)存儲模塊200,用于存儲預先設定的領域類別及對應的領域語料。
3)統(tǒng)計模塊300,用于根據(jù)預先設定的領域類別及對應的領域語料,采用統(tǒng)計的方法判斷所述通用新詞候選詞串是否為領域新詞候選詞串。
具體的,統(tǒng)計模塊300,包括:
預處理單元306,用于將所述預先設定的領域類別的領域語料的格式統(tǒng)一為文本格式;去除含有敏感詞的領域語料,根據(jù)剩余的領域語料中所含有的斷句標點將所述剩余的領域語料分割成句。
分詞單元301,用于采用包括所述通用新詞候選詞串的詞典對預處理單元306輸出的每個所述領域語料進行分詞處理,得到各領域的詞語集。
概率計算單元302,用于計算所述通用新詞候選詞串在每個領域的詞語集中出現(xiàn)概率。
目標領域確定單元303,用于將最大的所述出現(xiàn)概率對應的領域類別作為目標領域類別。
信息熵計算單元304,用于計算所述通用新詞候選詞串在至少部分預先設定的領域類別中分布的信息熵。信息熵計算單元304采用以下公式進行計算:設a為所述通用新詞候選詞串,所述通用新詞候選詞串在至少部分預先設定的領域類別中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n為所述至少部分預先設定的領域類別的個數(shù),p1、p2、…、pn為所述通用新詞候選詞串a(chǎn)在n個所述領域語料的出現(xiàn)概率。
新詞確認單元305,用于當所述信息熵小于或等于信息熵閾值時,確認所述通用新詞候選詞串為所述目標領域類別的領域新詞候選詞串。所述信息熵閾值的取值范圍為:1.5~2.5。
4)相似度計算模塊400,用于當所述新詞候選詞串為領域新詞候選詞串時,通過相似度計算判斷所述領域新詞候選詞串是否為領域新詞。
具體的,相似度計算模塊400,包括:
種子詞串選擇單元401,用于從所述領域新詞候選詞串對應的領域語料中選擇全部或部分的其他詞串作為種子詞串;
相似運算單元402,用于計算所述領域新詞候選詞串與每個所述種子詞串的相似度;
判定單元403,用于當最大所述相似度大于相似度閾值時,所述領域新詞候選詞串為領域新詞。所述相似度閾值的取值范圍為0.6-0.8。
優(yōu)選的,相似度計算模塊400,還包括:
種子詞串更新單元404,用于將判定為領域新詞的領域新詞候選詞串也作為相應領域的種子詞串。
本發(fā)明實施例與第四實施例的區(qū)別在于,本實施例的所述裝置的統(tǒng)計模塊300中還包括預處理單元306,用于在采用統(tǒng)計的方法判斷所述通用新詞候選詞串是否為領域新詞候選詞串之前,對所述預先設定的領域類別的領域語料進行預處理,由于已對領域語料統(tǒng)一格式并去除敏感詞和斷句,這樣做便于分詞單元301對每個領域的語料進行分詞處理,提高分詞處理的效率和準確率。
本發(fā)明第六實施例,與第三實施例對應,本實施例介紹一種領域新詞發(fā)現(xiàn)的裝置,如圖6所示,包括以下組成部分:
1)獲取模塊100,用于獲取通用新詞候選詞串。
具體的,獲取模塊100,用于采用以下一種或多種方法的結(jié)合獲取通用新詞候選詞串:內(nèi)部構(gòu)成語法規(guī)則方法、前后綴規(guī)則方法和特征統(tǒng)計方法。
2)存儲模塊200,用于存儲預先設定的領域類別及對應的領域語料。
3)統(tǒng)計模塊300,用于根據(jù)預先設定的領域類別及對應的領域語料,采用統(tǒng)計的方法判斷所述通用新詞候選詞串是否為領域新詞候選詞串。
具體的,統(tǒng)計模塊300,包括:
預處理單元306,用于將所述預先設定的領域類別的領域語料的格式統(tǒng)一為文本格式;去除含有敏感詞的領域語料,根據(jù)剩余的領域語料中所含有的斷句標點將所述剩余的領域語料分割成句。
分詞單元301,用于采用包括所述通用新詞候選詞串的詞典對預處理單元306輸出的每個所述領域語料進行分詞處理,得到各領域的詞語集。
概率計算單元302,用于計算所述通用新詞候選詞串在每個領域的詞語集中出現(xiàn)概率。
目標領域確定單元303,用于將最大的所述出現(xiàn)概率對應的領域類別作為目標領域類別。
信息熵計算單元304,用于計算所述通用新詞候選詞串在至少部分預先設定的領域類別中分布的信息熵。信息熵計算單元304采用以下公式進行計算:設a為所述通用新詞候選詞串,所述通用新詞候選詞串在至少部分預先設定的領域類別中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n為所述至少部分預先設定的領域類別的個數(shù),p1、p2、…、pn為所述通用新詞候選詞串a(chǎn)在n個所述領域語料的出現(xiàn)概率。
新詞確認單元305,用于當所述信息熵小于或等于信息熵閾值時,確認所述通用新詞候選詞串為所述目標領域類別的領域新詞候選詞串。所述信息熵閾值的取值范圍為:1.5~2.5。
4)相似度計算模塊400,用于當所述新詞候選詞串為領域新詞候選詞串時,通過相似度計算判斷所述領域新詞候選詞串是否為領域新詞。
具體的,相似度計算模塊400,包括:
種子詞串選擇單元401,用于從所述領域新詞候選詞串對應的領域語料中選擇全部或部分的其他詞串作為種子詞串;
相似運算單元402,用于計算所述領域新詞候選詞串與每個所述種子詞串的相似度;
判定單元403,用于當最大所述相似度大于相似度閾值時,所述領域新詞候選詞串為領域新詞。所述相似度閾值的取值范圍為0.6-0.8。
優(yōu)選的,相似度計算模塊400,還包括:
種子詞串更新單元404,用于將判定為領域新詞的領域新詞候選詞串也作為相應領域的種子詞串。
5)準確率確定模塊500,用于在得到多個所述領域新詞后,進行人工審核,得到領域新詞的發(fā)現(xiàn)準確率;
6)校正模塊600,用于當所述發(fā)現(xiàn)準確率小于或等于準確率閾值時,調(diào)整新詞確認單元305中用到的信息熵閾值和/或判定單元403中用到的相似度閾值,直至根據(jù)調(diào)整后的所述信息熵閾值和/或所述相似度閾值得到的發(fā)現(xiàn)準確率大于準確率閾值為止。
本發(fā)明實施例與第五實施例的區(qū)別在于,本實施例在確定出領域新詞之后,還要通過準確率確定模塊500審核領域新詞的發(fā)現(xiàn)準確率,并通過校正模塊600根據(jù)準確率確定模塊500審核的結(jié)果,對在領域新詞確定過程中所用到的所述信息熵閾值和/或所述相似度閾值進行調(diào)整,以通過逐漸優(yōu)化的方式進一步提高領域新詞發(fā)現(xiàn)的準確率。
本發(fā)明第七實施例,本實施例是在上述實施例的基礎上,結(jié)合附圖7~9介紹一個本發(fā)明的應用實例。
本發(fā)明實施例提出一種自動問答領域內(nèi)領域新詞的過濾方法,其基本思想是:在所有語料(通過網(wǎng)絡爬蟲獲得的新語料,14個大領域)中,新詞候選詞中的垃圾詞串、通用詞通常出現(xiàn)概率較高,并且垃圾詞串和通用詞均在各個領域出現(xiàn)頻率相近,而領域新詞和通用詞中的通用新詞出現(xiàn)的概率較小,并且領域新詞會在不同的領域有明顯的偏重,甚至只出現(xiàn)在對應領域。根據(jù)這一原理,在現(xiàn)有的通用新詞發(fā)現(xiàn)方法發(fā)現(xiàn)的通用新詞候選詞串的基礎上,將得到的通用新詞候選詞串進一步處理,通過計算各個通用新詞候選詞串在14個領域中分布上的信息熵,篩選出領域新詞候選詞串。即,將通用新詞候選詞串加入到分詞詞典后,基于該分詞詞典對所有領域即14個領域的語料分別進行分詞,并分別計算每個通用新詞候選詞串在各個領域出現(xiàn)的概率;然后計算每個通用新詞候選詞串在14個領域中分布上的信息熵,例如:通用新詞候選詞串a(chǎn),其在各個領域出現(xiàn)的概率歸一化后為:p1,p2,…,p14,則通用新詞候選詞串a(chǎn)在14個領域中分布上的信息熵信息熵為H(a)=(-p1*log2(p1)-p2*log2(p2)-…-p14*log2(p14))。信息熵越大表明該通用新詞候選詞串在各個領域上的分布越平衡,反之,表明該通用新詞候選詞串的分布偏重某領域。之后,通過確定一個合適的信息熵閾值h過濾掉部分垃圾詞串和通用詞串,若H(a)>h時,則通用新詞候選詞串a(chǎn)為垃圾詞串或通用詞,反之,則通用新詞候選詞串a(chǎn)為對應出現(xiàn)概率最大的領域的領域新詞候選詞串,從而篩選出領域新詞候選詞串。
以上是基于統(tǒng)計的思想尋找領域新詞候選詞串,而未考慮詞與領域的語義關(guān)系,因此,為了提高確定領域新詞的準確度,優(yōu)選的,可以在語義層面進一步篩選出領域新詞。即,將利用word2vec模型計算該領域新詞候選詞串與某一領域語料中的各詞串之間的語義相似度,相似度越大越則越有可能是對應領域的領域新詞。之后,領域新詞在人工參與后逐漸增加,逐漸完善領域詞典。
本實施例的所述自動問答領域內(nèi)領域新詞的過濾方法,具體包括如果三個流程:
如圖7所示,各領域語料的獲取及預處理流程包括:
步驟S1:利用網(wǎng)絡爬蟲獲得所有14個領域的領域語料。
步驟S2:將獲取的所有領域的語料格式統(tǒng)一為文本格式,過濾無效的格式,去除含有敏感詞的文檔,并對處理后的語料按大標點,比如:“?”和“!”,分割成句后保存。
步驟S3:將采用通用新詞發(fā)現(xiàn)方法獲得的通用新詞候選詞串加載到分詞詞典后,基于該分詞詞典對預處理后的語料分別進行分詞并過濾停用詞后,按領域類別分別保存;
現(xiàn)有的通用新詞發(fā)現(xiàn)方法一般采用基于統(tǒng)計或規(guī)則的方法或者兩者結(jié)合的方法。基于規(guī)則的方法通常是新詞的內(nèi)部構(gòu)成語法規(guī)則或者新詞的前后綴規(guī)則,以此為準則發(fā)現(xiàn)新詞?;诮y(tǒng)計方法一般是尋找描述新詞特征的統(tǒng)計量來抽取候選詞串,常用統(tǒng)計量如成詞概率、互信息、剛性等等。
如圖8所示,領域新詞候選詞串的篩選流程包括:
步驟A1:采用通用新詞發(fā)現(xiàn)方法獲得的通用新詞候選詞串。
步驟A2:針對通用新詞候選側(cè)串x,分別計算通用新詞候選側(cè)串x在各個領域出現(xiàn)的概率,計算方法是:在某一領域的概率=通用新詞候選側(cè)串x串出現(xiàn)的次數(shù)÷某一領域的總詞數(shù),某一領域的總詞數(shù)可以由步驟S3得出。若通用新詞候選詞串在某一領域的語料中沒出現(xiàn),則概率為0。之后將結(jié)果存放到列表p_list=[p1,p2,…,p14];然后對該通用新詞候選側(cè)串x的概率列表值進行歸一化,即p_list_1=[p1/sum(p_list),p2/sum(p_list),…,p14/sum(p_list)]。
步驟A3:求通用新詞候選側(cè)串x在所有14個領域中分布上的信息熵H(x)=-p1/sum(p_list)*log2(p1/sum(p_list))-p2/sum(p_list)*log2(p2/sum(p_list))-…-p14/sum(p_list)*log2(p14/sum(p_list))。
步驟A4:若H(x)大于閾值h,則該通用新詞候選側(cè)串x是通用詞串或垃圾詞串,反之,為領域新詞候選詞串。閾值h需要根據(jù)具體情況進行調(diào)優(yōu),以爬取的百度知道語料為例,h取值2.0較合適。
如圖9所示,領域新詞的篩選流程包括:
步驟B1:將步驟S3中的分詞結(jié)果輸入到word2vec模型,得到所有詞的詞向量。
步驟B2:針對通用新詞候選側(cè)串x對應的領域,選取部分領域詞作為種子(領域詞典較大的情況下,為了減少計算的復雜度,未選取全部領域詞作為種子),計算領域新詞候選詞x的詞向量和對應領域的各種子向量的語義相似度的最大值sim,并設定特定的閾值p。語義相似度越大越可能是對應領域的領域新詞,因此,sim大于閾值p時,就進一步認為該是領域新詞,并且將該詞加入到對應的種子中使其動態(tài)更新,否則,不是領域新詞。閾值p需要根據(jù)具體情況進行調(diào)優(yōu),以爬取的百度知道語料為例,p取值0.71較合適。
步驟B3:將人工過濾后的領域新詞加載到對應領域新詞詞典,不斷完善領域詞典。
通過具體實施方式的說明,應當可對本發(fā)明為達成預定目的所采取的技術(shù)手段及功效得以更加深入且具體的了解,然而所附圖示僅是提供參考與說明之用,并非用來對本發(fā)明加以限制。