專利名稱:中文分詞方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及中文處理領(lǐng)域,具體而言,涉及一種中文分詞方法和裝置。
背景技術(shù):
相關(guān)技術(shù)提供了一種基于詞典的分詞方法,此方法又稱為機械的分詞方法。此方 法需要一個分詞詞典,主要特點是比較簡單,容易實現(xiàn),但分詞速率較慢,容易產(chǎn)生歧義。發(fā)明內(nèi)容
本發(fā)明旨在提供一種中文分詞方法和裝置,以解決相關(guān)技術(shù)分詞速率較慢,容易 產(chǎn)生歧義的問題。
在本發(fā)明的實施例中,提供了一種中文分詞方法,包括對已分詞的語料進行訓(xùn)練 得到CRF模型;采用CRF模型對未分詞的語料進行分詞;判斷分詞成功的語料是否滿足設(shè) 置的條件,如果是,則加入到已分詞的語料中;循環(huán)執(zhí)行上述步驟,直至已分詞的語料的規(guī) 模不再擴大,得到最終的CRF模型。
在本發(fā)明的實施例中,提供了一種中文分詞裝置,包括訓(xùn)練模塊,用于對已分詞 的語料進行訓(xùn)練得到CRF模型;分詞模塊,用于采用CRF模型對未分詞的語料進行分詞; 加入模塊,用于判斷分詞成功的語料是否滿足設(shè)置的條件,如果是,則加入到已分詞的語料 中;循環(huán)模塊,用于循環(huán)調(diào)用訓(xùn)練模塊、分詞模塊和加入模塊,直至已分詞的語料的規(guī)模不 再擴大,得到最終的CRF模型。
本發(fā)明上述實施例的中文分詞方法和裝置因為采用CRF技術(shù),所以克服了基于詞 典的分詞方法分詞速率較慢,容易產(chǎn)生歧義的問題,進而達到了提高分詞速率,減少分詞歧 義的效果。
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā) 明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中
圖1示出了根據(jù)本發(fā)明實施例的中文分詞方法的流程圖2是跨領(lǐng)域的中文分詞的裝置圖3是分詞模型的訓(xùn)練和測試的流程圖4是語句篩選的流程圖5示出了根據(jù)本發(fā)明實施例的中文分詞裝置的示意圖具體實施方式
下面將參考附圖并結(jié)合實施例,來詳細說明本發(fā)明。
圖1示出了根據(jù)本發(fā)明實施例的中文分詞方法的流程圖,包括
步驟S10,對已分詞的語料進行訓(xùn)練得到CRF模型;
步驟S20,采用CRF模型對未分詞的語料進行分詞;
步驟S30,判斷分詞成功的語料是否滿足設(shè)置的條件,如果是,則加入到已分詞的 語料中;
步驟S40,循環(huán)執(zhí)行上述步驟,直至已分詞的語料的規(guī)模不再擴大,得到最終的 CRF模型。
基于詞典的分詞方法分詞速率較慢,容易產(chǎn)生歧義,而本實施例采用了 CRF技術(shù), 所以克服了基于詞典的分詞方法分詞速率較慢,容易產(chǎn)生歧義的問題,進而達到了提高分 詞速率,減少分詞歧義的效果。
條件隨機場模型是由Lafferty在2001年提出的一種典型的判別式模型。它在觀 測序列的基礎(chǔ)上對目標(biāo)序列進行建模,重點解決序列化標(biāo)注(在本發(fā)明中,標(biāo)注即分詞)的 問題條件隨機場模型既具有判別式模型的優(yōu)點,又具有產(chǎn)生式模型考慮到上下文標(biāo)記間的 轉(zhuǎn)移概率,以序列化形式進行全局參數(shù)優(yōu)化和解碼的特點,解決了其他判別式模型(如最 大熵馬爾科夫模型)難以避免的標(biāo)記偏置問題。
CRF(Conditional random field,條件隨機場)理論可以用于序列標(biāo)記、數(shù)據(jù)分 割、組塊分析等自然語言處理任務(wù)中。在中文分詞、中文人名識別、歧義消解等漢語自然語 言處理任務(wù)中都有應(yīng)用,表現(xiàn)很好。目前基于CRFs的主要系統(tǒng)實現(xiàn)有CRF,F(xiàn)lexCRF,CRF++。 條件隨機場模型是一種無向圖模型,它是在給定需要標(biāo)記的觀察序列的條件下,計算整個 標(biāo)記序列的聯(lián)合概率分布,而不是在給定當(dāng)前狀態(tài)條件下,定義下一個狀態(tài)的狀態(tài)分布。即 給定觀察序列0,求最佳序列S。
優(yōu)選地,步驟SlO包括使用有效的字符特征將已分詞的語料表示成特征向量形 式,進行訓(xùn)練得到CRF模型。
優(yōu)選地,使用有效的字符特征將已分詞的語料表示成特征向量形式包括
判斷已分詞的語料中的字符是否是數(shù)字,如果是則用標(biāo)記“N” (Number)表示;
判斷已分詞的語料中的字符是否是字母,如果是則用標(biāo)記“L” (Letter)表示;
判斷已分詞的語料中的字符是否是標(biāo)點符號(包括中文和西文標(biāo)點),如果是則 用標(biāo)記“P” (Puncture)表示;
判斷已分詞的語料中的字符是否是時間詞,如果是則用標(biāo)記“D” (Date)表示;
如果以上所有判斷均為否,則記為“C”(Character),表示除以上四種類型外的所有普通字符。
優(yōu)選地,采用CRF模型對未分詞的語料進行分詞包括使用有效的字符特征將未 分詞的語料轉(zhuǎn)化為特征向量形式,采用CRF模型進行分詞。
優(yōu)選地,使用有效的字符特征將未分詞的語料轉(zhuǎn)化為特征向量形式包括
判斷未分詞的語料中的字符是否是數(shù)字,如果是則用標(biāo)記“N”表示;
判斷未分詞的語料中的字符是否是字母,如果是則用標(biāo)記“L”表示;
判斷未分詞的語料中的字符是否是標(biāo)點符號,如果是則用標(biāo)記“P”表示;
判斷未分詞的語料中的字符是否是時間詞,如果是則用標(biāo)記“D”表示;
如果以上所有判斷均為否,則記為“C”。
優(yōu)選地,設(shè)計合適的特征模板,進行CRF模型的訓(xùn)練,得到初始的統(tǒng)計模型。本發(fā) 明優(yōu)選實施例使用5窗口的特征模板格式,模板格式如下
權(quán)利要求
1.一種中文分詞方法,其特征在于,包括 對已分詞的語料進行訓(xùn)練得到CRF模型; 采用所述CRF模型對未分詞的語料進行分詞; 判斷分詞成功的語料是否滿足設(shè)置的條件,如果是,則加入到所述已分詞的語料中; 循環(huán)執(zhí)行上述步驟,直至所述已分詞的語料的規(guī)模不再擴大,得到最終的CRF模型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,對已分詞的語料進行訓(xùn)練得到CRF模型包括 使用有效的字符特征將所述已分詞的語料表示成特征向量形式,進行訓(xùn)練得到所述CRF模型。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,采用所述CRF模型對未分詞的語料進行分詞包括 使用所述有效的字符特征將所述未分詞的語料轉(zhuǎn)化為特征向量形式,采用所述CRF模型進行分詞。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,使用有效的字符特征將所述已分詞的語料表示成特征向量形式包括判斷所述已分詞的語料中的字符是否是數(shù)字,如果是則用標(biāo)記“N”表示;判斷所述已分詞的語料中的字符是否是字母,如果是則用標(biāo)記“L”表示;判斷所述已分詞的語料中的字符是否是標(biāo)點符號,如果是則用標(biāo)記“P”表示;判斷所述已分詞的語料中的字符是否是時間詞,如果是則用標(biāo)記“D”表示;如果以上所有判斷均為否,則記為 “C,,; 使用所述有效的字符特征將所述未分詞的語料轉(zhuǎn)化為特征向量形式包括判斷所述未分詞的語料中的字符是否是數(shù)字,如果是則用標(biāo)記“N”表示;判斷所述未分詞的語料中的字符是否是字母,如果是則用標(biāo)記“L”表示;判斷所述未分詞的語料中的字符是否是標(biāo)點符號,如果是則用標(biāo)記“P”表示;判斷所述未分詞的語料中的字符是否是時間詞,如果是則用標(biāo)記“D”表示;如果以上所有判斷均為否,則記為“C”。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,用于訓(xùn)練所述已分詞的語料的模板的格式如下
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,判斷所述分詞成功的語料的輸出概率大于閾值,則將所述分詞成功的語料加入到所述已分詞的語料中。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,在對已分詞的語料進行訓(xùn)練之前,還包括以下至少一個步驟 將所述已分詞的語料按照中文的語句分隔符“?!薄ⅰ?;”、“?”、“! ”分割成意義相對獨立的句子; 將所述已分詞的語料中連續(xù)的非漢字字符作為一個處理單位; 使用B、B2、B3、M、E、S標(biāo)注所述已分詞的語料,B、B2、B3、M、E、S分別表示詞組的首字、第二個字、第三個字、第三個字后繼的中間字、末尾字以及單字詞語。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,在采用所述CRF模型對未分詞的語料進行分詞之前,還包括以下至少一個步驟 將所述未分詞的語料按照中文的語句分隔符“?!?、“ ;”、“?”、“! ”分割成意義相對獨立的句子; 將所述未分詞的語料中連續(xù)的非漢字字符作為一個處理單位; 使用B、B2、B3、M、E、S標(biāo)注所述未分詞的語料,B、Β2、Β3、M、E、S分別表示詞組的首字、第二個字、第三個字、第三個字后繼的中間字、末尾字以及單字詞語。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括 搜索引擎接收用戶輸入的待搜索內(nèi)容; 采用最終生成的所述CRF模型對所述待搜索內(nèi)容進行分詞。
10.一種中文分詞裝置,其特征在于,包括 訓(xùn)練模塊,用于對已分詞的語料進行訓(xùn)練得到CRF模型; 分詞模塊,用于采用所述CRF模型對未分詞的語料進行分詞; 加入模塊,用于判斷分詞成功的語料是否滿足設(shè)置的條件,如果是,則加入到所述已分詞的語料中; 循環(huán)模塊,用于循環(huán)調(diào)用所述訓(xùn)練模塊、所述分詞模塊和所述加入模塊,直至所述已分詞的語料的規(guī)模不再擴大,得到最終的CRF模型。
全文摘要
本發(fā)明提供了中文分詞方法,包括對已分詞的語料進行訓(xùn)練得到CRF模型;采用CRF模型對未分詞的語料進行分詞;判斷分詞成功的語料是否滿足設(shè)置的條件,是則加入到已分詞的語料中;循環(huán)執(zhí)行上述步驟,直至已分詞的語料的規(guī)模不再擴大,得到最終的CRF模型。本發(fā)明提供了中文分詞裝置,包括訓(xùn)練模塊,用于對已分詞的語料進行訓(xùn)練得到CRF模型;分詞模塊,用于采用CRF模型對未分詞的語料進行分詞;加入模塊,用于判斷分詞成功的語料是否滿足設(shè)置的條件,是則加入到已分詞的語料中;循環(huán)模塊,用于循環(huán)調(diào)用訓(xùn)練模塊、分詞模塊和加入模塊,直至已分詞的語料的規(guī)模不再擴大,得到最終的CRF模型。本發(fā)明提高了分詞速率,減少了分詞歧義。
文檔編號G06F17/27GK103020034SQ20111028772
公開日2013年4月3日 申請日期2011年9月26日 優(yōu)先權(quán)日2011年9月26日
發(fā)明者秦曉, 萬小軍, 吳於茜 申請人:北京大學(xué), 北大方正集團有限公司