專利名稱:一種多特征融合識(shí)別中文機(jī)構(gòu)名的控制方法
技術(shù)領(lǐng)域:
本發(fā)明涉及命名實(shí)體識(shí)別、關(guān)系挖掘、文檔摘要、句法分析、機(jī)器翻譯、信息抽取等技術(shù)領(lǐng)域,具體說(shuō)是對(duì)中文文檔中機(jī)構(gòu)名進(jìn)行識(shí)別標(biāo)注的系統(tǒng)。
背景技術(shù):
隨著計(jì)算機(jī)的廣泛使用和互聯(lián)網(wǎng)的快速發(fā)展,大量的信息以電子文檔的形式呈現(xiàn)在人們面前。人們迫切需要一些自動(dòng)化的工具幫助他們?cè)诤A康男畔⒃粗醒杆僬业秸嬲枰男畔?,因此,?duì)信息文檔的處理應(yīng)運(yùn)而生。由于中文文檔不同于英文文檔,詞之間沒(méi)有空格分隔,并且對(duì)于專有詞如公司名、人名,地名等沒(méi)有大小寫之分,這更大程度上加大的了對(duì)中文文檔處理的難度,所以對(duì)中文文檔進(jìn)行分詞、實(shí)體識(shí)別迫切需要。目前,對(duì)人名和地名的識(shí)別已經(jīng)作了非常廣泛細(xì)致的研究,提出來(lái)各種各樣的處理方法,已能夠較好的滿足人們的使用需求。但對(duì)于中文機(jī)構(gòu)名,由于對(duì)其研究較少,并且·其涵蓋范圍大、用詞廣泛、長(zhǎng)度不定、慣用簡(jiǎn)稱等特點(diǎn),導(dǎo)致對(duì)其識(shí)別的效果并不理想?,F(xiàn)在,基于角色標(biāo)注的中文機(jī)構(gòu)名識(shí)別方法能較好的實(shí)現(xiàn)機(jī)構(gòu)名識(shí)別,但是構(gòu)建一個(gè)完整的角色庫(kù)難度非常大,而且該種方法對(duì)復(fù)雜機(jī)構(gòu)名的識(shí)別并不理想?;诮y(tǒng)計(jì)的中文機(jī)構(gòu)名識(shí)別方法,由于統(tǒng)計(jì)方法比較復(fù)雜,導(dǎo)致識(shí)別方法的實(shí)現(xiàn)極為困難。而本文所提出的方法并不需要構(gòu)建完整的規(guī)則模式,只需構(gòu)建機(jī)構(gòu)名的特征尾詞庫(kù)和機(jī)構(gòu)名的左邊界特征,構(gòu)建方法簡(jiǎn)單快速,并且識(shí)別效果理想。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種在自然語(yǔ)言處理系統(tǒng)中多特征融合識(shí)別中文機(jī)構(gòu)名的控制方法,其特征在于,包括如下步驟a.根據(jù)中文機(jī)構(gòu)名右邊界特征詞庫(kù)以及中文機(jī)構(gòu)名左邊界規(guī)則識(shí)別待語(yǔ)句中待識(shí)別機(jī)構(gòu)名的左右邊界,生成候選中文機(jī)構(gòu)名;b.確定所述候選中文機(jī)構(gòu)名的構(gòu)成模式,對(duì)所述候選中文機(jī)構(gòu)名進(jìn)行篩選;以及c.與中文機(jī)構(gòu)名上下文語(yǔ)義環(huán)境特征詞進(jìn)行比較,驗(yàn)證所述候選中文機(jī)構(gòu)名以確定中文機(jī)構(gòu)名。根據(jù)本發(fā)明的一個(gè)方面,提供一種多特征融合的中文機(jī)構(gòu)名識(shí)別系統(tǒng),包括機(jī)構(gòu)名識(shí)別和評(píng)估兩個(gè)部分。所述機(jī)構(gòu)名識(shí)別根據(jù)預(yù)先定義的右邊界特征詞庫(kù)和左邊界規(guī)則確定待識(shí)別機(jī)構(gòu)名的左右邊界,從而達(dá)到識(shí)別機(jī)構(gòu)名的目的;所述機(jī)構(gòu)名評(píng)估先是對(duì)得到的識(shí)別結(jié)果,經(jīng)過(guò)分詞獲取其構(gòu)成模式特征,然后與已知機(jī)構(gòu)名的構(gòu)成模式進(jìn)行相似度匹配,再對(duì)其的上下文語(yǔ)義環(huán)境進(jìn)行判斷,確定其左右邊界的準(zhǔn)確性。優(yōu)選地,所述系統(tǒng)包括如下面特征機(jī)構(gòu)名右邊界特征,機(jī)構(gòu)名的尾詞,用于確定機(jī)構(gòu)名的右邊界。左邊界規(guī)則,中文機(jī)構(gòu)名的左邊界規(guī)則是指能夠?qū)C(jī)構(gòu)名與機(jī)構(gòu)名的前綴相區(qū)分的語(yǔ)法單元,本方法中將其用于確定機(jī)構(gòu)名左邊界。機(jī)構(gòu)名構(gòu)成模式特征,對(duì)已有機(jī)構(gòu)名的構(gòu)成模式進(jìn)行分析總結(jié)而得。主要用于篩選識(shí)別得到的機(jī)構(gòu)名是否符合構(gòu)成模式特征,刪除不符合的識(shí)別結(jié)果。機(jī)構(gòu)名上下語(yǔ)義環(huán)境特征,主要用于判斷識(shí)別得到的機(jī)構(gòu)名的左右邊界是否正確,對(duì)邊界識(shí)別錯(cuò)誤的機(jī)構(gòu)名的左右邊界根據(jù)上下文特征進(jìn)行重新確定。優(yōu)選地,對(duì)機(jī)構(gòu)名構(gòu)成模式的匹配,采用相似度匹配方式。優(yōu)選地,先是運(yùn)用機(jī)構(gòu)名的右邊界特征和左邊界規(guī)則,識(shí)別機(jī)構(gòu)名,然后再運(yùn)用機(jī)構(gòu)名構(gòu)成模式特征和上下文語(yǔ)義環(huán)境特征進(jìn)行評(píng)估優(yōu)化。優(yōu)選地,機(jī)構(gòu)名的構(gòu)成模式特征用于篩除錯(cuò)誤的識(shí)別結(jié)果,上下文語(yǔ)義環(huán)境特征用于對(duì)識(shí)別錯(cuò)誤的機(jī)構(gòu)名進(jìn)行優(yōu)化。根據(jù)本發(fā)明的又一個(gè)方面,提供一種對(duì)中文機(jī)構(gòu)名進(jìn)行識(shí)別的方法,該方法是在一個(gè)已經(jīng)經(jīng)過(guò)中科院分詞軟件ICTCLAS分詞詞性標(biāo)注處理的文檔上進(jìn)行識(shí)別的系統(tǒng)。機(jī)構(gòu)名右邊界特征詞庫(kù)和上下文語(yǔ)義環(huán)境特征一旦構(gòu)建完成,即可對(duì)輸入端文檔進(jìn)行機(jī)構(gòu)名的識(shí)別。 本發(fā)明的目的是這樣實(shí)現(xiàn)的多特征融合的中文機(jī)構(gòu)名識(shí)別方法,需要預(yù)先構(gòu)建中文機(jī)構(gòu)名右邊界特征詞庫(kù)和上下文語(yǔ)義環(huán)境特征庫(kù),并總結(jié)分析獲取左邊界規(guī)則和中文機(jī)構(gòu)名的構(gòu)成模式特征。然后基于上述的中文機(jī)構(gòu)名特征,對(duì)機(jī)構(gòu)名進(jìn)行識(shí)別,并對(duì)識(shí)別結(jié)果進(jìn)行評(píng)估。具體步驟如下第一步對(duì)人民日?qǐng)?bào)1998年I月份標(biāo)注語(yǔ)料庫(kù)進(jìn)行處理,構(gòu)建機(jī)構(gòu)名右邊界特征詞庫(kù)和機(jī)構(gòu)名上下文語(yǔ)義環(huán)境特征,總結(jié)機(jī)構(gòu)名左邊界規(guī)則和機(jī)構(gòu)名構(gòu)成模式特征。第二步依據(jù)機(jī)構(gòu)名右邊界特征詞庫(kù),從左向右逐個(gè)確定輸入文檔中符合右邊界要求的詞位置。第三步根據(jù)第二步確定的詞位置,從右向左進(jìn)行尋找,判斷符合左邊界規(guī)則的詞位置。若同時(shí)符合多個(gè)左邊界規(guī)則,則根據(jù)左邊界規(guī)則的權(quán)重大小,確定權(quán)重大的作為最終的左邊界位置。第四步根據(jù)左邊界位置和右邊界詞位置,得到機(jī)構(gòu)名的識(shí)別結(jié)果。第五步對(duì)識(shí)別得到的結(jié)果進(jìn)行分詞處理,提取其構(gòu)成模式。第六步提取得到的構(gòu)成模式與預(yù)先定義的錯(cuò)誤機(jī)構(gòu)名構(gòu)成特征模式進(jìn)行相似度匹配計(jì)算,去除相似度閾值高于給定值的識(shí)別結(jié)果。第七步對(duì)第六步保留下來(lái)的識(shí)別結(jié)果,提取識(shí)別結(jié)果的前后各三個(gè)詞,與機(jī)構(gòu)名上下文語(yǔ)義環(huán)境特征詞進(jìn)行比較,檢驗(yàn)機(jī)構(gòu)的左右邊界是否存在錯(cuò)誤,若有誤,則進(jìn)行修正,重新確定左右邊界。第八步得到最終的機(jī)構(gòu)名識(shí)別結(jié)果。第九步結(jié)束。與背景技術(shù)相比,本發(fā)明有以下優(yōu)點(diǎn)易行性本方法不需要構(gòu)建完整的規(guī)則模式,只需要構(gòu)建機(jī)構(gòu)名的右邊界特征詞庫(kù)和機(jī)構(gòu)名的左邊界特征即可實(shí)現(xiàn)機(jī)構(gòu)名的識(shí)別。適用范圍廣本方法對(duì)于簡(jiǎn)單機(jī)構(gòu)名和復(fù)雜的機(jī)構(gòu)名都適用。本發(fā)明對(duì)識(shí)別得到的簡(jiǎn)單機(jī)構(gòu)名,將其視為一個(gè)整體,可以作為其他機(jī)構(gòu)的組成部分,通過(guò)這種方式,實(shí)現(xiàn)復(fù)雜機(jī)構(gòu)名的識(shí)別目的。實(shí)用性本方法通過(guò)機(jī)構(gòu)名的構(gòu)成模式特征和機(jī)構(gòu)名的上下文語(yǔ)義環(huán)境特征對(duì)識(shí)別得到的機(jī)構(gòu)名進(jìn)行評(píng)估,刪除錯(cuò)誤識(shí)別的結(jié)果,并對(duì)左右邊界有誤的機(jī)構(gòu)名進(jìn)行修正,降低了由于左右邊界過(guò)于寬泛而引起的識(shí)別錯(cuò)誤,更符合實(shí)際使用需求。規(guī)則和統(tǒng)計(jì)相結(jié)合本方法將規(guī)則和統(tǒng)計(jì)的方法結(jié)合在一起,彌補(bǔ)兩種方法各自存在的不足之處。首先,利用基于規(guī)則的方式,確定機(jī)構(gòu)名左右邊界,識(shí)別機(jī)構(gòu)名。然后,再利用統(tǒng)計(jì)的特征,對(duì)識(shí)別得到的機(jī)構(gòu)名進(jìn)行評(píng)估。
通過(guò)閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯圖I示出根據(jù)本發(fā)明的第一實(shí)施例的,所述多特征融合識(shí)別中文機(jī)構(gòu)名的控制方法的流程圖;
圖2示出根據(jù)本發(fā)明的第一實(shí)施例的,所述多特征融合識(shí)別中文機(jī)構(gòu)名的控制方法對(duì)待識(shí)別語(yǔ)句確認(rèn)左右邊界的流程圖;圖3示出根據(jù)本發(fā)明的第二實(shí)施例的,所述多特征融合識(shí)別中文機(jī)構(gòu)名的控制方法對(duì)候選中文機(jī)構(gòu)名進(jìn)一步驗(yàn)證的流程圖;以及圖4示出根據(jù)本發(fā)明的一個(gè)具體實(shí)施方式
的,所述多特征融合識(shí)別中文機(jī)構(gòu)名的控制方法的實(shí)例流程圖。
具體實(shí)施例方式本發(fā)明依賴中科院分詞軟件ICTICLAS對(duì)輸入的文檔進(jìn)行分詞和詞性標(biāo)注處理。其中,右邊界特征詞和機(jī)構(gòu)名上下文語(yǔ)義特征從人民日?qǐng)?bào)1998年I月份已標(biāo)注的語(yǔ)料庫(kù)中獲取。左邊界特征和構(gòu)成模式通過(guò)對(duì)已有的機(jī)構(gòu)名進(jìn)行分析總結(jié)獲取。具體的操作步驟第一步,對(duì)輸入的文檔利用中科院分詞軟件ICTCLAS進(jìn)行分詞和詞性標(biāo)注。第二步,根據(jù)右邊界特征詞庫(kù),確定機(jī)構(gòu)名右邊界詞的位置。第三步,從右邊界的位置開(kāi)始,自右向左進(jìn)行左邊界規(guī)則的匹配。第四步,若符合多個(gè)左邊界規(guī)則,則根據(jù)左邊界規(guī)則權(quán)重大小,將權(quán)重大的左邊界確定為機(jī)構(gòu)名左邊界。第五步,得到識(shí)別的結(jié)果。第六步,對(duì)識(shí)別得到的結(jié)果,進(jìn)行分詞,提取識(shí)別結(jié)果的構(gòu)成模式。第七步,符合構(gòu)成模式的識(shí)別結(jié)果,提取其上下文信息。第八步,根據(jù)上下文語(yǔ)義特征庫(kù),判斷識(shí)別結(jié)果左右邊界是否正確,若不正確,重新確定左右邊界。第九步,得到結(jié)果,結(jié)束。上述方法和系統(tǒng)描述中一些部分對(duì)結(jié)構(gòu)特征和方法進(jìn)行了具體的描述,但是應(yīng)該了解,在所述權(quán)利要求中定義的本發(fā)明不必限于所述的具體特征或動(dòng)作。此具體特征或動(dòng)作僅為了更好地說(shuō)明本發(fā)明作為一個(gè)例子而存在的。本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。本發(fā)明提供了一種多特征融合的中文機(jī)構(gòu)名識(shí)別系統(tǒng),首先對(duì)輸入的文檔利用中科院分詞軟件ICTCLAS進(jìn)行分詞詞性標(biāo)注處理,然后利用預(yù)先獲取的機(jī)構(gòu)名右邊界特征詞和機(jī)構(gòu)名左邊界規(guī)則,識(shí)別機(jī)構(gòu)名,再對(duì)識(shí)別得到的機(jī)構(gòu)名進(jìn)行構(gòu)成模式的抽取,與已知機(jī)構(gòu)名構(gòu)成模式進(jìn)行相似度匹配,判斷其是否符合機(jī)構(gòu)名構(gòu)成模式,接著利用機(jī)構(gòu)名的上下文語(yǔ)義環(huán)境,最終確定其左右邊界,從而達(dá)到機(jī)構(gòu)名識(shí)別的目的。通過(guò)閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯
圖I示出根據(jù)本發(fā)明的第一實(shí)施例的,所述多特征融合識(shí)別中文機(jī)構(gòu)名的控制方法的流程圖。具體地,本圖示出了兩個(gè)模塊,首先所述待識(shí)別語(yǔ)句經(jīng)過(guò)分詞處理。將經(jīng)過(guò)分詞處理過(guò)的待識(shí)別語(yǔ)句輸入機(jī)構(gòu)名識(shí)別模塊,所述機(jī)構(gòu)名識(shí)別模塊根據(jù)所述分詞結(jié)果確定所述候選中文機(jī)構(gòu)名的左右邊界,更具體地,所述左右邊界確定的步驟如圖2所示,在此不予贅述。所述候選中文機(jī)構(gòu)名識(shí)別完成后輸入所述機(jī)構(gòu)名評(píng)估模塊,所述機(jī)構(gòu)名評(píng)估模塊用于確定所述候選中文機(jī)構(gòu)名的構(gòu)成模式,對(duì)所述候選中文機(jī)構(gòu)名進(jìn)行篩選。以及與中文機(jī)構(gòu)名上下文語(yǔ)義環(huán)境特征詞進(jìn)行比較,驗(yàn)證所述候選中文機(jī)構(gòu)名以確定中文機(jī)構(gòu)名。具體地,所述機(jī)構(gòu)名評(píng)估過(guò)程也就是所述機(jī)構(gòu)名模式驗(yàn)證以及根據(jù)上下文語(yǔ)義環(huán)境特征詞驗(yàn)證左右邊界的過(guò)程如圖3所示,具體地,在此不予贅述。本發(fā)明通過(guò)上述機(jī)構(gòu)名識(shí)別模塊以及機(jī)構(gòu)名評(píng)估模塊最終輸出識(shí)別出的中文機(jī)構(gòu)名。其中,所述機(jī)構(gòu)名識(shí)別模塊以及機(jī)構(gòu)名評(píng)估模塊結(jié)合了機(jī)構(gòu)名的構(gòu)成模式特征,機(jī)構(gòu)名的上下文語(yǔ)義環(huán)境特征詞以及左邊界規(guī)則右邊界詞庫(kù)對(duì)待識(shí)別語(yǔ)句進(jìn)行識(shí)別和評(píng)估,降低了由于左右邊界過(guò)于寬泛而引起的識(shí)別錯(cuò)誤,更符合實(shí)際使用需求。本發(fā)明對(duì)識(shí)別得到的簡(jiǎn)單機(jī)構(gòu)名,將其視為一個(gè)整體,可以作為其他機(jī)構(gòu)的組成部分,通過(guò)這種方式,實(shí)現(xiàn)復(fù)雜機(jī)構(gòu)名的識(shí)別目的。圖2示出根據(jù)本發(fā)明的第一實(shí)施例的,所述多特征融合識(shí)別中文機(jī)構(gòu)名的控制方法對(duì)待識(shí)別語(yǔ)句確認(rèn)左右邊界的流程圖。具體地,本圖示出了三個(gè)步驟。首先是步驟S201·根據(jù)所述右邊界特征詞庫(kù)從左向右掃描待識(shí)別語(yǔ)句,確定所述中文機(jī)構(gòu)名的右邊界詞。然后是步驟S202根據(jù)所述左邊界規(guī)則從右向左掃描待識(shí)別語(yǔ)句,確定所述中文機(jī)構(gòu)名的左邊界詞。最后是步驟S203根據(jù)所述右邊界詞以及左邊界詞生成候選中文機(jī)構(gòu)名。具體地,本領(lǐng)域技術(shù)人員理解所述右邊界特征詞庫(kù)以及左邊界規(guī)則預(yù)先根據(jù)語(yǔ)料庫(kù)訓(xùn)練生成。其中,所述中文機(jī)構(gòu)名右邊界特征詞庫(kù)為中文機(jī)構(gòu)名的尾詞詞庫(kù),其用于確定中文機(jī)構(gòu)名的右邊界。所述中文機(jī)構(gòu)名左邊界規(guī)則用于將所述特征語(yǔ)法單元之后的詞確定為所述中文機(jī)構(gòu)名左邊界,其中所述特征語(yǔ)法單元是指中文機(jī)構(gòu)名之前的語(yǔ)法單元。左邊界規(guī)則主要包括6條,分別是Rulel <標(biāo)點(diǎn)符號(hào)>+〈機(jī)構(gòu)名前綴修飾詞>+〈機(jī)構(gòu)名特征尾詞 > ;例如***年,華東師范大學(xué)成立。Rule2 <介詞>+〈機(jī)構(gòu)名前綴修飾詞>+〈機(jī)構(gòu)名特征尾詞 > ;例如在華東師范大學(xué)全體學(xué)生的幫助下。Rule3 <連詞>+〈機(jī)構(gòu)名前綴修飾詞>+〈機(jī)構(gòu)名特征尾詞 > ;例如上海交通大學(xué)和華東師范大學(xué)均有學(xué)生出席。Rule4 <部分常用詞>+〈機(jī)構(gòu)名前綴修飾詞>+〈機(jī)構(gòu)名特征尾詞 > ;例如簽約了華東師范大學(xué)Rule5 <部分及物動(dòng)詞>+〈機(jī)構(gòu)名前綴修飾詞>+〈機(jī)構(gòu)名特征尾詞 > ;例如陳群擔(dān)任華東師范大學(xué)新校長(zhǎng)。Rule6 :機(jī)構(gòu)名出現(xiàn)在句首;華東師范大學(xué)是一所“985”院校。與六個(gè)規(guī)則相應(yīng)的語(yǔ)法單元分別為,第一語(yǔ)法單元,其至少包括標(biāo)點(diǎn)符號(hào);第二語(yǔ)法單元,其至少包括介詞;第三語(yǔ)法單元,其至少包括連詞;第四語(yǔ)法單元,其至少包括部分常用詞;第五語(yǔ)法單元,其至少包括部分及物動(dòng)詞;以及第六語(yǔ)法單元,其至少包括句首。
當(dāng)所述步驟S202根據(jù)所述左邊界規(guī)則,確定多個(gè)左邊界詞時(shí),則根據(jù)所述左邊界規(guī)則特征語(yǔ)法單元的權(quán)重大小,將權(quán)重大的所述特征語(yǔ)法單元后的詞作為最終左邊界詞。左邊界規(guī)則的權(quán)重是預(yù)先定義的,定義是根據(jù)不同機(jī)構(gòu)名特征詞確定的。例如對(duì)于機(jī)構(gòu)名特征尾詞是“學(xué)?!?,則規(guī)則權(quán)重為rule6>rulel>rule3>rule4>rule5>rule2與其相適應(yīng)地,所述特征語(yǔ)法單元的權(quán)重根據(jù)從大到小排列順序如下第六語(yǔ)法單元,第一語(yǔ)法單元,第三語(yǔ)法單元,第四語(yǔ)法單元,第五語(yǔ)法單元以及第二語(yǔ)法單元。更具體地,本領(lǐng)域技術(shù)人員理解,所述候選中文機(jī)構(gòu)名包括左邊界詞以及右邊界詞,其中,所述左邊界詞為所述中文機(jī)構(gòu)名前綴修飾詞,所述右邊界詞為所述中文機(jī)構(gòu)尾
ο圖3示出根據(jù)本發(fā)明的第二實(shí)施例的,所述多特征融合識(shí)別中文機(jī)構(gòu)名的控制方法對(duì)候選中文機(jī)構(gòu)名進(jìn)一步驗(yàn)證的流程圖。具體地,本圖示出了 7個(gè)步驟。首先是步驟S401對(duì)所述候選中文機(jī)構(gòu)名進(jìn)行分詞處理,并根據(jù)分詞處理結(jié)果提取所述候選中文機(jī)構(gòu)構(gòu)成模式。然后是步驟S402與中文機(jī)構(gòu)名的錯(cuò)誤構(gòu)成模式進(jìn)行相似度計(jì)算。相似度計(jì)算完畢后執(zhí)行步驟S403去除錯(cuò)誤構(gòu)成模式的候選中文機(jī)構(gòu)名。去除錯(cuò)誤模式的候選中文機(jī)構(gòu)名后執(zhí)行步驟S404從上下文語(yǔ)義特征詞庫(kù)中提取出所述候選中文機(jī)構(gòu)名對(duì)應(yīng)特征尾詞相適應(yīng)的上下文語(yǔ)義特征詞。步驟S405將上述上下文語(yǔ)義特征詞與所述候選中文機(jī)構(gòu)名對(duì)應(yīng)的待識(shí)別語(yǔ)句進(jìn)行匹配,并判斷所述左右邊界是否介于所述上下文語(yǔ)義特征詞之間。若所述左右邊界不介于所述上下文語(yǔ)義特征詞之間,則執(zhí)行步驟S406重新定位所述左右邊界,確定最終識(shí)別的中文機(jī)構(gòu)名。若所述左右邊界介于所述上下文語(yǔ)義特征詞之間,則執(zhí)行步驟S407確定所述候選中文機(jī)構(gòu)名尾最終識(shí)別的中文機(jī)構(gòu)名。具體地,本領(lǐng)域技術(shù)人員理解,所述中文機(jī)構(gòu)名錯(cuò)誤構(gòu)成模式以及所述中文機(jī)構(gòu)名上下文語(yǔ)義環(huán)境特征詞庫(kù)預(yù)先根據(jù)語(yǔ)料庫(kù)訓(xùn)練生成,其中所述中文機(jī)構(gòu)名上下文語(yǔ)義環(huán)境特征詞庫(kù)與所述右邊界特征詞庫(kù)相適應(yīng)。更進(jìn)一步地,所述中文機(jī)構(gòu)名錯(cuò)誤構(gòu)成模式主要有以下幾個(gè)模式I :指示代詞+機(jī)構(gòu)名特征尾詞,例如他們學(xué)校。模式2 :部分動(dòng)詞+機(jī)構(gòu)名特征尾詞,例如關(guān)注學(xué)校。模式3 :數(shù)量詞+機(jī)構(gòu)名特征尾詞,例如二所學(xué)校。更進(jìn)一步地,上下語(yǔ)義環(huán)境特征也是機(jī)構(gòu)名上下文信息,優(yōu)選地,本發(fā)明用的上下文語(yǔ)義特征是從訓(xùn)練文本(1988年I月份人名日?qǐng)?bào)語(yǔ)料庫(kù)沖提取的,本發(fā)明主要提取了句子中機(jī)構(gòu)名前后的各三個(gè)非實(shí)體詞(也即除人名,機(jī)構(gòu)名,地名外的其他詞)作為機(jī)構(gòu)名的上下文語(yǔ)義環(huán)境特征。例如對(duì)于句子“陳群擔(dān)任[華東師范大學(xué)]校長(zhǎng)”,提取出的中文機(jī)構(gòu)名上下文語(yǔ)義環(huán)境特征為“擔(dān)任……校長(zhǎng)”。對(duì)于重新確定機(jī)構(gòu)名左右邊界,是根據(jù)機(jī)構(gòu)名的上下文語(yǔ)義環(huán)境特征來(lái)確定的。主要針對(duì)的類似如下這種情況的識(shí)別錯(cuò)誤將“擔(dān)任華東師范大學(xué)”作為一個(gè)機(jī)構(gòu)名識(shí)別出來(lái)(由于“擔(dān)任”前有一個(gè)標(biāo)點(diǎn),這是由于“擔(dān)任”的權(quán)重小于標(biāo)點(diǎn)符號(hào),所以左邊界規(guī)則采用rule 1,即將“擔(dān)任”作為了機(jī)構(gòu)名的一部分)。這是可以發(fā)現(xiàn),對(duì)于機(jī)構(gòu)名特征尾詞“學(xué)校”,有“擔(dān)任……校長(zhǎng)”這樣一個(gè)上下文環(huán)境特征,因此,可以發(fā)現(xiàn),“擔(dān)任” 一詞不是機(jī)構(gòu)名的組成部分,而是上下文環(huán)境特征的一部分,因此將機(jī)構(gòu)名的左邊向后移動(dòng)一個(gè)詞,也即新的機(jī)構(gòu)名左邊界為“華東”,故新的機(jī)構(gòu)名為“華東師范大學(xué)”。
圖4示出根據(jù)本發(fā)明的一個(gè)具體實(shí)施方式
的,所述多特征融合識(shí)別中文機(jī)構(gòu)名的控制方法的實(shí)例流程圖。首先將待識(shí)別語(yǔ)句,也就是待識(shí)別文檔“俞立中擔(dān)任華東師范大學(xué)校長(zhǎng)”。對(duì)該待識(shí)別語(yǔ)句經(jīng)過(guò)分詞處理后,獲得“俞立中/nr擔(dān)任/V華東/ns師范/n大學(xué)/n校長(zhǎng)/η”。根據(jù)所述中文機(jī)構(gòu)名右邊界特征詞庫(kù)從左向右找到右邊界詞“大學(xué)”。再?gòu)摹按髮W(xué)”開(kāi)始,根據(jù)所述中文機(jī)構(gòu)名左邊界規(guī)則,從右向左找到可能的左邊界詞。根據(jù)所述中文機(jī)構(gòu)名左邊界規(guī)則,“華東”被確定為候選中文機(jī)構(gòu)名的左邊界詞。獲取候選中文機(jī)構(gòu)名“華東師范大學(xué)”。根據(jù)所述候選中文機(jī)構(gòu)名提取其組成模式地名+修飾詞+中心詞。將該模式與錯(cuò)誤機(jī)構(gòu)模式進(jìn)行相似度計(jì)算,計(jì)算結(jié)果該相似度小于第一閾值,則進(jìn)一步根據(jù)所述上下文語(yǔ)義環(huán)境特征詞進(jìn)行左右邊界匹配。根據(jù)“大學(xué)”這一尾詞,提取出的中文機(jī)構(gòu)名上下文語(yǔ)義環(huán)境特征為“擔(dān)任……校長(zhǎng)”。則所述候選中文機(jī)構(gòu)名符合這一上下文語(yǔ)義環(huán)境特征。最終識(shí)別出“華東師范大學(xué)”為中文機(jī)構(gòu)名。
以上對(duì)本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述特定實(shí)施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。
權(quán)利要求
1.一種在自然語(yǔ)言處理系統(tǒng)中多特征融合識(shí)別中文機(jī)構(gòu)名的控制方法,其特征在于,包括如下步驟 a.根據(jù)中文機(jī)構(gòu)名右邊界特征詞庫(kù)以及中文機(jī)構(gòu)名左邊界規(guī)則識(shí)別待語(yǔ)句中待識(shí)別機(jī)構(gòu)名的左右邊界,生成候選中文機(jī)構(gòu)名; b.確定所述候選中文機(jī)構(gòu)名的構(gòu)成模式,對(duì)所述候選中文機(jī)構(gòu)名進(jìn)行篩選;以及 c.與中文機(jī)構(gòu)名上下文語(yǔ)義環(huán)境特征詞進(jìn)行比較,驗(yàn)證所述候選中文機(jī)構(gòu)名以確定中文機(jī)構(gòu)名。
2.根據(jù)權(quán)利要求I所述的控制方法,其特征在于,所述步驟a之前還包括如下步驟 -根據(jù)語(yǔ)料庫(kù)生成所述中文機(jī)構(gòu)名右邊界特征詞庫(kù); -根據(jù)語(yǔ)料庫(kù)生成所述中文機(jī)構(gòu)名左邊界規(guī)則; -根據(jù)語(yǔ)料庫(kù)生成所述中文機(jī)構(gòu)名錯(cuò)誤構(gòu)成模式;以及 -根據(jù)語(yǔ)料庫(kù)生成所述中文機(jī)構(gòu)名上下文語(yǔ)義環(huán)境特征詞庫(kù)。
3.根據(jù)權(quán)利要求2所述的控制方法,其特征在于,所述中文機(jī)構(gòu)名右邊界特征詞庫(kù)為中文機(jī)構(gòu)名的尾詞詞庫(kù),其用于確定中文機(jī)構(gòu)名的右邊界。
4.根據(jù)權(quán)利要求2所述的控制方法,其特征在于,所述中文機(jī)構(gòu)名左邊界規(guī)則用于將所述特征語(yǔ)法單元之后的詞確定為所述中文機(jī)構(gòu)名左邊界,其中所述特征語(yǔ)法單元是指中文機(jī)構(gòu)名之前的語(yǔ)法單元。
5.根據(jù)權(quán)利要求4所述的控制方法,其特征在于,所述特征語(yǔ)法單元包括 -第一語(yǔ)法單元標(biāo)點(diǎn)符號(hào); -第二語(yǔ)法單元介詞; -第三語(yǔ)法單元連詞; -第四語(yǔ)法單元部分常用詞; -第五語(yǔ)法單元部分及物動(dòng)詞;以及 -第六語(yǔ)法單兀句首。
6.根據(jù)權(quán)利要求2所述的控制方法,其特征在于,所述中文機(jī)構(gòu)名上下文語(yǔ)義環(huán)境特征詞庫(kù)與所述右邊界特征詞庫(kù)相適應(yīng)。
7.根據(jù)權(quán)利要求I至6任一項(xiàng)所述的控制方法,其特征在于,所述步驟a包括如下步驟 al.根據(jù)所述右邊界特征詞庫(kù)從左向右掃描待識(shí)別語(yǔ)句,確定所述中文機(jī)構(gòu)名的右邊界詞; a2.根據(jù)所述左邊界規(guī)則從右向左掃描待識(shí)別語(yǔ)句,確定所述中文機(jī)構(gòu)名的左邊界詞;以及 a3.根據(jù)所述右邊界詞以及左邊界詞生成候選中文機(jī)構(gòu)名。
8.根據(jù)權(quán)利要求7所述的控制方法,其特征在于,所述步驟a2包括如下步驟 a21.根據(jù)所述左邊界規(guī)則,確定多個(gè)左邊界詞,則根據(jù)所述左邊界規(guī)則特征語(yǔ)法單元的權(quán)重大小,將權(quán)重大的所述特征語(yǔ)法單元后的詞作為最終左邊界詞。
9.根據(jù)權(quán)利要求7或8所述的控制方法,其特征在于,所述左邊界詞為所述中文機(jī)構(gòu)名前綴修飾詞,所述右邊界詞為所述中文機(jī)構(gòu)尾詞,所述候選中文機(jī)構(gòu)名包括左邊界詞以及右邊界詞。
10.根據(jù)權(quán)利要求I至9任一項(xiàng)所述的控制方法,其特征在于,所述特征語(yǔ)法單元的權(quán)重不同由右邊界特征詞庫(kù)預(yù)先定義。
11.根據(jù)權(quán)利要求I至10任一項(xiàng)所述的控制方法,其特征在于,所述步驟b包括如下步驟 bl.對(duì)所述候選中文機(jī)構(gòu)名進(jìn)行分詞處理; b2.根據(jù)所述步驟bl的分詞處理結(jié)果提取所述候選中文機(jī)構(gòu)構(gòu)成模式;以及b3.與中文機(jī)構(gòu)名的錯(cuò)誤構(gòu)成模式進(jìn)行相似度匹配,去除錯(cuò)誤構(gòu)成模式的候選中文機(jī)構(gòu)名。
12.根據(jù)權(quán)利要求11所述的控制方法,其特征在于,所述步驟b3包括如下步驟 b31.判斷所述候選中文機(jī)構(gòu)名構(gòu)成模式與所述中文機(jī)構(gòu)名的錯(cuò)誤構(gòu)成模式的相似度是否大于第一閾值; b32.若所述候選中文機(jī)構(gòu)名構(gòu)成模式與所述中文機(jī)構(gòu)名的錯(cuò)誤構(gòu)成模式的相似度大于第一閾值,則去除所述候選中文機(jī)構(gòu)名;以及 b33.若所述候選中文機(jī)構(gòu)名構(gòu)成模式與所述中文機(jī)構(gòu)名的錯(cuò)誤構(gòu)成模式的相似度不大于第一閾值,則保留所述候選中文機(jī)構(gòu)名。
13.根據(jù)權(quán)利要求I至12任一項(xiàng)所述的控制方法,其特征在于,所述步驟c包括如下步驟 Cl.從上下文語(yǔ)義特征詞庫(kù)中提取出所述候選中文機(jī)構(gòu)名對(duì)應(yīng)特征尾詞相適應(yīng)的上下文語(yǔ)義特征詞; c2.將上述上下文語(yǔ)義特征詞與所述候選中文機(jī)構(gòu)名對(duì)應(yīng)的待識(shí)別語(yǔ)句進(jìn)行匹配,并判斷所述左右邊界是否介于所述上下文語(yǔ)義特征詞之間; c3.若所述左右邊界不介于所述上下文語(yǔ)義特征詞之間,則重新定位所述左右邊界,確定最終識(shí)別的中文機(jī)構(gòu)名;以及 c4.若所述左右邊界介于所述上下文語(yǔ)義特征詞之間,則確定所述候選中文機(jī)構(gòu)名尾最終識(shí)別的中文機(jī)構(gòu)名。
全文摘要
本發(fā)明提供了一種在自然語(yǔ)言處理系統(tǒng)中多特征融合識(shí)別中文機(jī)構(gòu)名的控制方法,其特征在于,包括如下步驟a.根據(jù)中文機(jī)構(gòu)名右邊界特征詞庫(kù)以及中文機(jī)構(gòu)名左邊界規(guī)則識(shí)別待識(shí)別語(yǔ)句的左右邊界,生成候選中文機(jī)構(gòu)名;b.確定所述候選中文機(jī)構(gòu)名的構(gòu)成模式,對(duì)所述候選中文機(jī)構(gòu)名進(jìn)行篩選;以及c.與中文機(jī)構(gòu)名上下文語(yǔ)義環(huán)境特征詞進(jìn)行比較,驗(yàn)證所述候選中文機(jī)構(gòu)名以確定中文機(jī)構(gòu)名。
文檔編號(hào)G06F17/27GK102955842SQ201210348109
公開(kāi)日2013年3月6日 申請(qǐng)日期2012年9月18日 優(yōu)先權(quán)日2012年9月18日
發(fā)明者凌雅娟, 楊靜 申請(qǐng)人:華東師范大學(xué)