一種基于條件隨機(jī)場的中文人名自動識別方法
【專利摘要】本發(fā)明提供了一種基于條件隨機(jī)場的中文人名自動識別方法,通過對中文人名特征的研究,結(jié)合統(tǒng)計學(xué)的概率模型,構(gòu)建出中文人名自動識別系統(tǒng),通過對文本信息進(jìn)行分詞處理,基于條件隨機(jī)場并結(jié)合上下文規(guī)則及人名可信度的方法,最后得到候選人名,借助局部統(tǒng)計算法對邊界識別錯誤的人名進(jìn)行修正,最終得到系統(tǒng)的識別結(jié)果,本系統(tǒng)大大降低了由于分詞而產(chǎn)生的識別錯誤,較好的解決了其他命名實(shí)體識別為中文人名的情況,提高了識別效果。
【專利說明】一種基于條件隨機(jī)場的中文人名自動識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理領(lǐng)域,具體地說是命名實(shí)體識別中的中文人名識別技術(shù)。
【背景技術(shù)】
[0002]中文人名主要包括中國人名、日本人名、外國音譯人名等。中文人名的識別是中文命名實(shí)體識別的重要組成部分,同時也是信息挖掘、信息抽取、機(jī)器翻譯、文本分類等研究領(lǐng)域重要的基礎(chǔ)性工作。此外,在分詞領(lǐng)域,絕大多數(shù)的未登錄詞是人名,中文人名的識別效果直接影響了分詞的效果。中文人名識別問題的解決是提高中文文本自動分詞精度的先決條件,識別效果有待提聞。
[0003]有鑒于此,發(fā)明人提供了一種基于條件隨機(jī)場的中文人名自動識別方法。
【發(fā)明內(nèi)容】
[0004]針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供了一種基于條件隨機(jī)場的中文人名自動識別方法,克服了現(xiàn)有技術(shù)的困難,通過對中文人名特征的研究,結(jié)合統(tǒng)計學(xué)的概率模型,構(gòu)建出中文人名自動識別系統(tǒng)。通過對文本信息進(jìn)行分詞處理,基于條件隨機(jī)場并結(jié)合上下文規(guī)則及人名可信度的方法,最后得到候選人名。借助局部統(tǒng)計算法對邊界識別錯誤的人名進(jìn)行修正,最終得到系統(tǒng)的識別結(jié)果。本系統(tǒng)大大降低了由于分詞而產(chǎn)生的識別錯誤,較好的解決了其他命名實(shí)體識別為中文人名的情況,提高了識別效果。
[0005]本發(fā)明提出了基于條件隨機(jī)場(CRF)和上下文規(guī)則及人名可信度的方法(CRRM)進(jìn)行中文人名識別。所采用的方法可以分為兩個階段,即訓(xùn)練階段和識別階段,預(yù)處理訓(xùn)練階段包含CRF訓(xùn)練和獲取規(guī)則集兩部分,在CRF訓(xùn)練階段,系統(tǒng)在訓(xùn)練語料庫的基礎(chǔ)上依次進(jìn)行特征提取,特征選擇和參數(shù)訓(xùn)練,最后得到CRF參數(shù)模型;另外利用基于轉(zhuǎn)換的錯誤驅(qū)動的學(xué)習(xí)方法進(jìn)行規(guī)則提取并最終獲得規(guī)則集。CRRM人名識別過程,首先利用訓(xùn)練階段設(shè)定的特征構(gòu)建CRF模型并進(jìn)行人名初識別,然后對CRF識別的結(jié)果進(jìn)行預(yù)處理,再利用人名可信度模型、規(guī)則等對識別結(jié)果進(jìn)行確認(rèn),最后利用局部統(tǒng)計算法對邊界識別錯誤的人名進(jìn)行了修正,并利用擴(kuò)散操作召回系統(tǒng)中未被識別的人名。
[0006]根據(jù)本發(fā)明的一個方面,提供一種基于條件隨機(jī)場的中文人名自動識別方法,包括以下步驟:
[0007]構(gòu)建條件隨機(jī)場模型;
[0008]獲取人名規(guī)則集,首先利用初始狀態(tài)的標(biāo)注器來標(biāo)注文本,接下來采用轉(zhuǎn)換模板和目標(biāo)函數(shù),通過與已經(jīng)正確標(biāo)注過的參考語料相比較得到多條候選的轉(zhuǎn)換模板,然后從中找出應(yīng)用一條轉(zhuǎn)換模板后可產(chǎn)生標(biāo)注錯誤次數(shù)最少的轉(zhuǎn)換式,作為一條新的標(biāo)注規(guī)則作用到標(biāo)注語料庫,直到找不出這樣的規(guī)則為止;
[0009]利用訓(xùn)練階段得到的條件隨機(jī)場模型對測試文本語料進(jìn)行人名識別并輸出每個標(biāo)記的邊緣概率;
[0010]對條件隨機(jī)場的識別結(jié)果進(jìn)行預(yù)處理;
[0011]對于邊緣概率低的人名以及未被識別的潛在人名利用人名可信度模型進(jìn)行識別;
[0012]對于識別的潛在人名,利用訓(xùn)練階段獲取的人名規(guī)則集進(jìn)行篩選,去除誤識別的人名;
[0013]利用局部統(tǒng)計算法對邊界識別錯誤的人名進(jìn)行修正,并借助已經(jīng)正確識別的人名進(jìn)行擴(kuò)散操作標(biāo)記未被識別的人名;以及
[0014]擴(kuò)散識別,對多次出現(xiàn)的一個人名根據(jù)不同位置進(jìn)行分別識別。
[0015]優(yōu)選地,所述構(gòu)建條件隨機(jī)場模型包括以下步驟:
[0016]對各標(biāo)注語料進(jìn)行相應(yīng)的標(biāo)記轉(zhuǎn)換,使之符合條件隨機(jī)場所使用的語料庫格式,在此共定義了三組標(biāo)注轉(zhuǎn)換規(guī)則,每一組對應(yīng)條件隨機(jī)場的一類特征。
[0017]對標(biāo)注轉(zhuǎn)換后的語料進(jìn)行特征提取,其中將特征分為四類:上下文特征、人名用字特征、邊界詞特征、字符特征。
[0018]選擇特征模板,特征模板描述了我們在訓(xùn)練和測試過程中將會使用哪些特征,它為特征函數(shù)的生成提供了一個統(tǒng)一的模式,通過特征模板的使用可以使條件隨機(jī)場方便的獲得人名識別所需要的所有特征函數(shù)。
[0019]通過設(shè)置閾值來選擇出現(xiàn)頻次高于該閾值的特征:
[0020]
【權(quán)利要求】
1.一種基于條件隨機(jī)場的中文人名自動識別方法,其特征在于,包括以下步驟: 構(gòu)建條件隨機(jī)場模型; 獲取人名規(guī)則集,首先利用初始狀態(tài)的標(biāo)注器來標(biāo)注文本,接下來采用轉(zhuǎn)換模板和目標(biāo)函數(shù),通過與已經(jīng)正確標(biāo)注過的參考語料相比較得到多條候選的轉(zhuǎn)換模板,然后從中找出應(yīng)用一條轉(zhuǎn)換模板后可產(chǎn)生標(biāo)注錯誤次數(shù)最少的轉(zhuǎn)換式,作為一條新的標(biāo)注規(guī)則作用到標(biāo)注語料庫,直到找不出這樣的規(guī)則為止; 利用訓(xùn)練階段得到的條件隨機(jī)場模型對測試文本語料進(jìn)行人名識別并輸出每個標(biāo)記的邊緣概率; 對條件隨機(jī)場的識別結(jié)果進(jìn)行預(yù)處理; 對于邊緣概率低的人名以及未被識別的潛在人名利用人名可信度模型進(jìn)行識別; 對于識別的潛在人名,利用訓(xùn)練階段獲取的人名規(guī)則集進(jìn)行篩選,去除誤識別的人名; 利用局部統(tǒng)計算法對邊界識別錯誤的人名進(jìn)行修正,并借助已經(jīng)正確識別的人名進(jìn)行擴(kuò)散操作標(biāo)記未被識別的人名;以及 擴(kuò)散識別,對多次出現(xiàn)的一個人名根據(jù)不同位置進(jìn)行分別識別。
2.如權(quán)利要求1所述的一種基于條件隨機(jī)場的中文人名自動識別方法,其特征在于:所述構(gòu)建條件隨機(jī)場模型包括以下步驟: 對各標(biāo)注語料進(jìn)行相應(yīng)的標(biāo)記轉(zhuǎn)換,使之符合條件隨機(jī)場所使用的語料庫格式,在此共定義了三組標(biāo)注轉(zhuǎn)換規(guī)則,每一組對應(yīng)條件隨機(jī)場的一類特征。 對標(biāo)注轉(zhuǎn)換后的語料進(jìn)行特征提取,其中將特征分為四類:上下文特征、人名用字特征、邊界詞特征、字符特征。 選擇特征模板,特征模板描述了我們在訓(xùn)練和測試過程中將會使用哪些特征,它為特征函數(shù)的生成提供了一個統(tǒng)一的模式,通過特征模板的使用可以使條件隨機(jī)場方便的獲得人名識別所需要的所有特征函數(shù)。 通過設(shè)置閾值來選擇出現(xiàn)頻次高于該閾值的特征:
其中表示訓(xùn)練樣本,C表示特征集,K即為設(shè)定的閾值。
3.如權(quán)利要求1所述的一種基于條件隨機(jī)場的中文人名自動識別方法,其特征在于:所述獲取人名規(guī)則集包括以下步驟: 利用條件隨機(jī)場進(jìn)行人名識別,識別結(jié)果作為錯誤驅(qū)動學(xué)習(xí)的訓(xùn)練語料庫。 將人名識別結(jié)果和正確的人工標(biāo)注結(jié)果進(jìn)行比較,分析錯誤識別的案例,并總結(jié)規(guī)則。 依次將第二步總結(jié)的各條規(guī)則應(yīng)用到人名識別結(jié)果的副本中,根據(jù)各條規(guī)則對人名識別正確率貢獻(xiàn)的大小進(jìn)行由高到低進(jìn)行排序。 將貢獻(xiàn)最大的規(guī)則作用到已經(jīng)識別的文本重新進(jìn)行人名標(biāo)注,得到一個更新的已識別文本。
4.如權(quán)利要求1所述的一種基于條件隨機(jī)場的中文人名自動識別方法,其特征在于:所述對條件隨機(jī)場的識別結(jié)果進(jìn)行預(yù)處理包括: 將條件隨機(jī)場的識別結(jié)果轉(zhuǎn)換為便于后續(xù)處理的格式;以及 對于轉(zhuǎn)換后的結(jié)果,利用收集的中文詞典采用簡單的基于最長匹配的分詞方法對轉(zhuǎn)換后的結(jié)果進(jìn)行詞語切分。
5.如權(quán)利要求4所述的一種基于條件隨機(jī)場的中文人名自動識別方法,其特征在于:所述中文詞典由標(biāo)準(zhǔn)中文詞集、沖突詞集以及關(guān)聯(lián)詞集三部分組成; 標(biāo)準(zhǔn)中文詞集包含的詞既不能是人名,也不可以作為人名的部分出現(xiàn),該詞集將作為分詞器的詞集使用; 沖突詞集包含的詞可以作為人名的部分出現(xiàn),而它本身又不是人名; 關(guān)聯(lián)詞集包括那些既可以是人名又可以是地名或其他實(shí)體名的詞及其相關(guān)的表征詞。
6.如權(quán)利要求1所述的一種基于條件隨機(jī)場的中文人名自動識別方法,其特征在于:所述對于邊緣概率低的人名以及未被識別的潛在人名利用人名可信度模型進(jìn)行識別包括: 將姓和名統(tǒng)一看待,其定義如下:
TP-Name代表外國音譯人名; S代表單個漢字的人名; F、M、L分別代表外國音譯人名首字、中字和尾字。
7.如權(quán)利要求6所述的一種基于條件隨機(jī)場的中文人名自動識別方法,其特征在于:所述對于邊緣概率低的人名以及未被識別的潛在人名利用人名可信度模型進(jìn)行識別還包括:并利用β來提高長字符串作為人名的可信度,β定義如下:
則外國音譯人名TP-Name的可信度P (TP-Name)足乂如下:
P (TP-Name) = Pf (F) *Pm (M) ^P1 (L) * β。
8.如權(quán)利要求7所述的一種基于條件隨機(jī)場的中文人名自動識別方法,其特征在于:設(shè)定位于左右邊界詞之間及邊界詞之外的音譯人名的可信度閾值分別為0.39和0.592。
【文檔編號】G06F17/30GK104182423SQ201310202667
【公開日】2014年12月3日 申請日期:2013年5月27日 優(yōu)先權(quán)日:2013年5月27日
【發(fā)明者】呂釗, 高維維 申請人:華東師范大學(xué)