專利名稱:文本分析方法及文本分析器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及數(shù)據(jù)挖掘技術(shù),尤其涉及一種文本分析方法及文本分析器。
背景技術(shù):
目前,在自然語(yǔ)言處理技術(shù)中,對(duì)文本進(jìn)行詞法分析是其他中文信息處理的基礎(chǔ),例如,目前廣泛應(yīng)用的搜索引擎、機(jī)器翻譯、語(yǔ)音合成、自動(dòng)分類、自動(dòng)摘要、自動(dòng)校對(duì)等,都需要基于詞法分析技術(shù)。對(duì)語(yǔ)句或文本進(jìn)行詞法分析的目的有兩個(gè):分詞及詞性標(biāo)注,分詞就是將字與字之間緊密相連的文本序列按詞進(jìn)行劃分,從而將文本序列轉(zhuǎn)化為詞語(yǔ)序列;詞性標(biāo)注在分詞的基礎(chǔ)上,根據(jù)句子的上下文信息,給劃分的詞語(yǔ)進(jìn)行詞性標(biāo)記,例如,將詞語(yǔ)標(biāo)記為動(dòng)詞、名詞、副詞或形容詞等。其中,詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分,在漢語(yǔ)中,詞與詞之間不存在分隔符,詞本身也缺乏明顯的形態(tài)標(biāo)記,因此,中文信息處理就是如何將漢語(yǔ)的字串分割為合理的詞語(yǔ)序列,即分詞。現(xiàn)有的文本分析器,基于規(guī)則或基于統(tǒng)計(jì)的算法,采用一體化的分詞及詞性標(biāo)注,可以對(duì)輸入的文本實(shí)現(xiàn)分詞、詞性標(biāo)注、實(shí)體識(shí)別等功能,即對(duì)文本進(jìn)行分詞、詞性標(biāo)注、實(shí)體識(shí)別等功能處理?,F(xiàn)有技術(shù)中,在進(jìn)行一體化的分詞及詞性標(biāo)注時(shí),均是在標(biāo)注語(yǔ)料時(shí),對(duì)分詞信息及詞性標(biāo)注信息進(jìn)行聯(lián)合標(biāo)注,即對(duì)分詞語(yǔ)料與詞性標(biāo)注語(yǔ)料,采用同一份標(biāo)注,也就是說,在每個(gè)字上,既標(biāo)注分詞信息又標(biāo)注詞性標(biāo)注信息,在進(jìn)行一體化處理后,將處理結(jié)果(文本分析結(jié)果)輸出。但現(xiàn)有對(duì)文本采用一體化的分詞及詞性標(biāo)注進(jìn)行分析時(shí),采用統(tǒng)一的分詞策略對(duì)文本進(jìn)行分詞及詞性標(biāo)注后,沒有考慮實(shí)體詞和非實(shí)體詞對(duì)于分詞的差異,即在實(shí)際應(yīng)用中,對(duì)于常用的文本分析器,要求對(duì)非實(shí)體詞采用小粒度分割,而對(duì)于實(shí)體詞,例如,人名、地名、機(jī)構(gòu)名,應(yīng)該以大粒度進(jìn)行分詞和詞性標(biāo)注,舉例來說,對(duì)于非實(shí)體詞人民大眾,進(jìn)行小粒度的分詞及詞性標(biāo)注后,得到的結(jié)果為:人民η;大眾n,其中,η表示名詞;而對(duì)于實(shí)體詞,例如,人名、地名、機(jī)構(gòu)名等,需要得到粗粒度的分詞及詞性標(biāo)注結(jié)果,舉例來說,對(duì)于實(shí)體詞人民大會(huì)堂,期望得到粗粒度的分詞及詞性標(biāo)注結(jié)果為:人民大會(huì)堂nt,其中,nt表示機(jī)構(gòu)名,而非期望得到小粒度的分詞及詞性標(biāo)注結(jié)果為:人民η ;大會(huì)堂η,因?yàn)?,?duì)于實(shí)體詞,小粒度的分詞及詞性標(biāo)注結(jié)果(人民η ;大會(huì)堂η)顯然與實(shí)際應(yīng)用(人民大會(huì)堂nt)不相一致。由上述可見,現(xiàn)有的文本分析方法,采用統(tǒng)一的策略對(duì)文本進(jìn)行分析,沒有區(qū)分實(shí)體詞與非實(shí)體詞,使得實(shí)體詞的文本分析準(zhǔn)確率較低。
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供一種文本分析方法,提高實(shí)體詞的文本分析準(zhǔn)確率。本發(fā)明的實(shí)施例還提供一種文本分析器,提高實(shí)體詞的文本分析準(zhǔn)確率。為達(dá)到上述目的,本發(fā)明實(shí)施例提供的一種文本分析方法,包括:
對(duì)獲取的文本以字符為單位進(jìn)行切分處理,對(duì)切分得到的字符按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征字串;按照預(yù)先構(gòu)建的分詞模型,對(duì)特征字串進(jìn)行分詞處理,得到包含字序的分詞結(jié)果;根據(jù)分詞結(jié)果中的字序進(jìn)行合并處理,對(duì)合并得到的詞按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征詞串;根據(jù)預(yù)先構(gòu)建的詞性標(biāo)注模型,對(duì)特征詞串進(jìn)行詞性標(biāo)注,得到詞性標(biāo)注結(jié)果;確認(rèn)詞性標(biāo)注結(jié)果中包含實(shí)體詞詞性標(biāo)注,則按照相鄰相同規(guī)則,合并詞性標(biāo)注結(jié)果中包含實(shí)體詞詞性標(biāo)注的實(shí)體詞,得到文本分析結(jié)果。其中,所述分詞模型的預(yù)先構(gòu)建包括采集語(yǔ)料;對(duì)語(yǔ)料以字符為單位進(jìn)行切分處理,對(duì)切分得到的字符按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征字串;通過條件隨機(jī)場(chǎng)CRF算法,對(duì)特征字串采用分類標(biāo)簽方式進(jìn)行訓(xùn)練,得到分詞模型。其中,所述詞性標(biāo)注模型的預(yù)先構(gòu)建包括基于分詞模型,進(jìn)行特征提取,形成詞,以詞的最后一個(gè)字符的字符特征作為詞的字符特征,形成特征詞串;將特征詞串分類為實(shí)體詞以及非實(shí)體詞,根據(jù)預(yù)先存儲(chǔ)的詞性庫(kù),分別提取實(shí)體詞以及非實(shí)體詞的特征值,通過CRF算法訓(xùn)練,對(duì)實(shí)體詞以及非實(shí)體詞進(jìn)行詞性標(biāo)注,形成詞性標(biāo)注模型。其中,所述字符特征包括漢字、英文字符、數(shù)字、時(shí)間以及符號(hào);所述對(duì)切分得到的字符按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注包括對(duì)文本中的各字符分別進(jìn)行字符特征的標(biāo)注,將各字符及其字符特征相連,形成特征字串;所述對(duì)合并得到的詞按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,包括以詞的最后一個(gè)字符的字符特征作為詞的字符特征,對(duì)文本中的各詞分別進(jìn)行字符特征的標(biāo)注,將各詞及其字符特征相連,形成特征詞串。其中,所述對(duì)實(shí)體詞進(jìn)行詞性標(biāo)注包括按照實(shí)體詞的詞性,分別標(biāo)注實(shí)體詞中的每個(gè)單元詞,每個(gè)單元詞的詞性與實(shí)體詞的詞性相同。其中,所述方法進(jìn)一步包括如果詞性標(biāo)注結(jié)果中不包含實(shí)體詞詞性標(biāo)注,則直接輸出詞性標(biāo)注結(jié)果作為文本分析結(jié)果。一種文本分析器,該文本分析器包括分詞模型模塊、詞性標(biāo)注模型模塊、特征字串生成模塊、分詞處理模塊、特征詞串生成模塊、詞性標(biāo)注模塊以及實(shí)體詞合并模塊,其中,分詞模型模塊,用于預(yù)先構(gòu)建分詞模型并存儲(chǔ)構(gòu)建的分詞模型;詞性標(biāo)注模型模塊,用于預(yù)先構(gòu)建詞性標(biāo)注模型并存儲(chǔ)構(gòu)建的詞性標(biāo)注模型;特征字串生成模塊,用于對(duì)獲取的文本以字符為單位進(jìn)行切分處理,對(duì)切分得到的字符按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征字串,輸出至分詞處理模塊;分詞處理模塊,用于根據(jù)分詞模型模塊中預(yù)先構(gòu)建的分詞模型,對(duì)接收的特征字串進(jìn)行分詞處理,得到包含字序的分詞結(jié)果,輸出至特征詞串生成模塊;特征詞串生成模塊,用于根據(jù)接收的分詞結(jié)果中的字序,進(jìn)行合并處理,并對(duì)合并得到的詞按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征詞串;詞性標(biāo)注模塊,用于根據(jù)詞性標(biāo)注模型模塊中預(yù)先構(gòu)建的詞性標(biāo)注模型,對(duì)接收的特征詞串進(jìn)行詞性標(biāo)注,輸出詞性標(biāo)注結(jié)果至實(shí)體詞合并模塊;實(shí)體詞合并模塊,用于判斷接收的詞性標(biāo)注結(jié)果中是否包含實(shí)體詞詞性標(biāo)注,如果是,按照相鄰相同規(guī)則,合并詞性標(biāo)注結(jié)果中包含實(shí)體詞詞性標(biāo)注的實(shí)體詞,得到文本分析結(jié)果并輸出;如果否,將詞性標(biāo)注結(jié)果作為文本分析結(jié)果輸出。較佳地,所述分詞模型模塊包括語(yǔ)料采集單元、特征字串生成單元、分詞訓(xùn)練單元以及分詞模型存儲(chǔ)單元,其中,語(yǔ)料采集單元,用于采集語(yǔ)料;特征字串生成單元,用于對(duì)語(yǔ)料采集單元采集的語(yǔ)料,以字符為單位進(jìn)行切分處理,對(duì)切分得到的字符按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征字串,輸出至分詞訓(xùn)練單元;分詞訓(xùn)練單元,通過CRF算法,對(duì)接收的特征字串采用分類標(biāo)簽方式進(jìn)行訓(xùn)練,得到分詞模型,輸出至分詞模型存儲(chǔ)單元;分詞模型存儲(chǔ)單元,用于存儲(chǔ)分詞訓(xùn)練單元訓(xùn)練得到的分詞模型。較佳地,所述詞性標(biāo)注模型模塊包括特征詞串生成單元、詞性標(biāo)注模型單元以及詞性標(biāo)注模型存儲(chǔ)單元,其中,特征詞串生成單元,用于基于分詞模型,進(jìn)行特征提取,形成詞,以詞的最后一個(gè)字符的字符特征作為詞的字符特征,形成特征詞串;詞性標(biāo)注模型單元,用于將特征詞串分類為實(shí)體詞以及非實(shí)體詞,根據(jù)預(yù)先存儲(chǔ)的詞性庫(kù),分別提取實(shí)體詞以及非實(shí)體詞的特征值,通過CRF算法訓(xùn)練,對(duì)實(shí)體詞以及非實(shí)體詞進(jìn)行詞性標(biāo)注,形成詞性標(biāo)注模型,輸出至詞性標(biāo)注模型存儲(chǔ)單元;詞性標(biāo)注模型存儲(chǔ)單元,用于存儲(chǔ)詞性標(biāo)注模型單元形成的詞性標(biāo)注模型。較佳地,所述實(shí)體詞合并模塊包括判斷單元以及實(shí)體詞合并單元,其中,判斷單元,用于判斷接收的詞性標(biāo)注結(jié)果中是否包含實(shí)體詞詞性標(biāo)注,如果是,將詞性標(biāo)注結(jié)果輸出至實(shí)體詞合并單元;否則,將接收的詞性標(biāo)注結(jié)果輸出;實(shí)體詞合并單元,用于按照相鄰相同規(guī)則,合并接收的詞性標(biāo)注結(jié)果中包含實(shí)體詞詞性標(biāo)注的實(shí)體詞并輸出。 由上述技術(shù)方案可見,本發(fā)明實(shí)施例提供的一種文本分析方法及文本分析器,對(duì)獲取的文本以字符為單位進(jìn)行切分處理,對(duì)切分得到的字符按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征字串;按照預(yù)先構(gòu)建的分詞模型,對(duì)特征字串進(jìn)行分詞處理,得到包含字序的分詞結(jié)果;根據(jù)分詞結(jié)果中的字序進(jìn)行合并處理,對(duì)合并得到的詞按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征詞串;根據(jù)預(yù)先構(gòu)建的詞性標(biāo)注模型,對(duì)特征詞串進(jìn)行詞性標(biāo)注,得到詞性標(biāo)注結(jié)果;確認(rèn)詞性標(biāo)注結(jié)果中包含實(shí)體詞詞性標(biāo)注,則按照相鄰相同規(guī)貝U,合并詞性標(biāo)注結(jié)果中包含實(shí)體詞詞性標(biāo)注的實(shí)體詞,得到文本分析結(jié)果。這樣,通過對(duì)分詞及詞性標(biāo)注的實(shí)體詞進(jìn)行合并處理,從而可以進(jìn)行粗粒度的分詞及詞性標(biāo)注,使輸出結(jié)果更符合應(yīng)用需求,提高了實(shí)體詞的文本分析準(zhǔn)確率。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,以下將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹。顯而易見地,以下描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員而言,還可以根據(jù)這些附圖所示實(shí)施例得到其它的實(shí)施例及其附圖。圖1為本發(fā)明實(shí)施例文本分析方法流程示意圖。圖2為本發(fā)明實(shí)施例文本分析器結(jié)構(gòu)示意圖。
具體實(shí)施例方式以下將結(jié)合附圖對(duì)本發(fā)明各實(shí)施例的技術(shù)方案進(jìn)行清楚、完整的描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明的一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所得到的所有其它實(shí)施例,都屬于本發(fā)明所保護(hù)的范圍?,F(xiàn)有的文本分析方法,采用統(tǒng)一的策略對(duì)文本進(jìn)行分析,沒有區(qū)分實(shí)體詞與非實(shí)體詞,即對(duì)實(shí)體詞以及非實(shí)體詞均采用小粒度進(jìn)行分詞及詞性標(biāo)注,而在實(shí)際應(yīng)用中,對(duì)于實(shí)體詞,進(jìn)行分詞及詞性標(biāo)注的結(jié)果不能滿足應(yīng)用需求,使得進(jìn)行分詞及詞性標(biāo)注的結(jié)果的準(zhǔn)確性較低,實(shí)體詞的文本分析準(zhǔn)確率較低。本發(fā)明實(shí)施例中,考慮到分詞及詞性標(biāo)注的準(zhǔn)確性,對(duì)前述提及的應(yīng)用來說,具有十分重要的作用。例如,對(duì)于包括字、詞、句子或段落的原始文本,互聯(lián)網(wǎng)應(yīng)用中數(shù)據(jù)對(duì)分詞及詞性標(biāo)注的一般要求是,對(duì)于非實(shí)體詞,需要得到小粒度的分詞及詞性標(biāo)注結(jié)果,而對(duì)于實(shí)體詞,例如,人名、地名、機(jī)構(gòu)名等,需要得到粗粒度的分詞及詞性標(biāo)注結(jié)果,舉例來說,對(duì)于實(shí)體詞人民大會(huì)堂,期望得到粗粒度的分詞及詞性標(biāo)注結(jié)果為:人民大會(huì)堂nt,其中,nt表示機(jī)構(gòu)名,而非期望得到小粒度的分詞及詞性標(biāo)注結(jié)果為:人民η ;大會(huì)堂η?;谏鲜龇治龊涂紤],通過訓(xùn)練以及條件隨機(jī)場(chǎng)(CRF, ConditionalRandomFields)的方法,分別生成分詞的語(yǔ)料庫(kù)及詞性標(biāo)注的語(yǔ)料庫(kù),并對(duì)實(shí)體詞與非實(shí)體詞的分詞及詞性標(biāo)注分別進(jìn)行相關(guān)處理,訓(xùn)練出相關(guān)的分詞模型及詞性標(biāo)注模型,從而對(duì)于文本中的非實(shí)體詞,可以進(jìn)行小粒度的分詞及詞性標(biāo)注,對(duì)于文本中的實(shí)體詞,可以進(jìn)行粗粒度的分詞及詞性標(biāo)注,提高實(shí)體詞的分詞與詞性標(biāo)注的性能,提升輸出的對(duì)實(shí)體詞進(jìn)行分詞與詞性標(biāo)注的結(jié)果的準(zhǔn)確性。圖1為本發(fā)明實(shí)施例文本分析方法流程示意圖。本發(fā)明實(shí)施例中,采用CRF進(jìn)行分詞及詞性標(biāo)注的概率與路徑分析,參見圖1,該流程包括:步驟101,預(yù)先構(gòu)建分詞模型以及詞性標(biāo)注模型;本步驟中,構(gòu)建分詞模型包括:All,采集語(yǔ)料;本步驟中,語(yǔ)料為文本集合,由于在統(tǒng)計(jì)自然語(yǔ)言處理中,實(shí)際上不可能觀測(cè)到大規(guī)模的語(yǔ)言實(shí)例,因而,可以簡(jiǎn)單地用文本集合作為替代,并將文本集合中的上下文關(guān)系作為實(shí)際語(yǔ)言的上下文關(guān)系。較佳地,采集公開的6個(gè)月的人民日?qǐng)?bào)語(yǔ)料。A12,對(duì)語(yǔ)料以字符為單位進(jìn)行切分處理,對(duì)切分得到的字符按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征字串;本步驟中,字符特征包括:漢字(HAN)、英文字符(ALPHA)、數(shù)字(NUM)、時(shí)間( ΜΕ)、符號(hào)(SIG)以及其他(OTHER)。特征字串包括:切分得到的字符及其字符特征。例如,語(yǔ)料人民大會(huì)堂,經(jīng)過切分后,得到切分字:人;民;大;會(huì);堂。五個(gè)切分字的字符特征均為漢字,因而,其特征字串表示為:人HAN;民HAN;大HAN;會(huì)HAN;堂HAN。對(duì)切分得到的字符按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注包括:對(duì)文本中的各字符分別進(jìn)行字符特征的標(biāo)注,將各字符及其字符特征相連,形成特征字串。A13,通過CRF算法,對(duì)特征字串采用分類標(biāo)簽(6Tag)方式進(jìn)行訓(xùn)練,得到分詞模型。本步驟中,分詞模型的訓(xùn)練方式采用6Tag方式,B表示詞的開頭,即詞首,E表示詞的最后一個(gè)字,即詞尾…表示詞中間最靠近詞尾E的字,Ml、M2分別表示詞中間的第一及
第二個(gè)字。其中,實(shí)體 詞(人名、地名、機(jī)構(gòu))按照小粒度的成詞規(guī)律進(jìn)行標(biāo)注,小粒度成詞標(biāo)注是指以切分得到的字符及字符特征對(duì)文本進(jìn)行標(biāo)注,即以字符為單位,對(duì)文本中的實(shí)體詞和非實(shí)體詞分別進(jìn)行字符特征標(biāo)注。舉例來說,對(duì)于文本中包含的機(jī)構(gòu)“人民大會(huì)堂”,進(jìn)行訓(xùn)練得到的分詞模型中,標(biāo)注為“人HAN B ;民HAN E ;大HAN B ;會(huì)HAN M ;堂HAN E ; ”,而非標(biāo)注為“人HAN B ;民HAN Ml ;大HAN M2 ;會(huì)HAN M ;堂HANE ; ”;對(duì)于文本中包含的人名,進(jìn)行訓(xùn)練得到的分詞模型中,按照名與姓分開標(biāo)注,例如,人名“劉德華”標(biāo)注為“劉HANB JIHAN B ;$HANE”,關(guān)于文本中的非實(shí)體詞標(biāo)注,以切分得到的字符及字符特征進(jìn)行標(biāo)注,詳細(xì)可參見相關(guān)技術(shù)文獻(xiàn),在此不再贅述。本發(fā)明實(shí)施例中,分詞模型以CRF為分類器,以字符特征為特征,利用CRF算法,采用6Tag方式進(jìn)行訓(xùn)練,能夠給出小粒度的實(shí)體詞與非實(shí)體詞分詞結(jié)果。關(guān)于CRF算法、采用6Tag方式進(jìn)行訓(xùn)練的詳細(xì)流程,具體可參見相關(guān)技術(shù)文獻(xiàn),在此不再贅述。構(gòu)建詞性標(biāo)注模型包括:A21,基于分詞模型,進(jìn)行特征提取,形成詞,以詞的最后一個(gè)字符的字符特征作為詞的字符特征,形成特征詞串;本步驟中,根據(jù)分詞模型中的分詞結(jié)果,進(jìn)行特征提取,形成詞。例如,對(duì)于分詞模型中的“人HAN B ;民HAN E ;大HAN B ;會(huì)HAN M ;堂HAN E ; ”,進(jìn)行特征提取后,形成詞“人民;大會(huì)堂”,對(duì)于“人民”以及“大會(huì)堂”,詞最后一個(gè)字“民”、“堂”的字符特征均為漢字,則形成的特征詞串為“人民HAN ;大會(huì)堂HAN”。A22,將特征詞串分類為實(shí)體詞以及非實(shí)體詞,根據(jù)預(yù)先存儲(chǔ)的詞性庫(kù),分別提取實(shí)體詞以及非實(shí)體詞的特征值,通過CRF算法訓(xùn)練,對(duì)實(shí)體詞以及非實(shí)體詞進(jìn)行詞性標(biāo)注,形成詞性標(biāo)注模型。
本步驟中,詞性庫(kù)中存儲(chǔ)有43種詞性,例如,名詞(η)、動(dòng)詞(vn)、機(jī)構(gòu)名(nt)、地名(ns)等。本發(fā)明實(shí)施例中,每一詞在不同的語(yǔ)境中,具有不同的詞性,通過提取實(shí)體詞以及非實(shí)體詞的特征值,通過CRF算法訓(xùn)練,可以確定每一詞的詞性,其中,對(duì)于非實(shí)體詞,其詞性標(biāo)注與現(xiàn)有技術(shù)相同,而對(duì)于實(shí)體詞,按照實(shí)體詞的屬性,分別標(biāo)注其中的每個(gè)單元詞,每個(gè)單元詞的詞性與實(shí)體詞的詞性相同,例如,均為機(jī)構(gòu)詞性(nt)。例如,對(duì)于非實(shí)體詞“人民大眾”,詞性標(biāo)注為“人民HAN η;大眾HAN η”,對(duì)于實(shí)體詞“人民大會(huì)堂”,詞性標(biāo)注為“人民HAN nt;大會(huì)堂HAN nt”,再例如,實(shí)體詞“中國(guó)國(guó)際廣播電臺(tái)”,詞性標(biāo)注為“中國(guó)HANnt ;國(guó)際HAN nt ;廣播HANnt ;電臺(tái)HAN nt”,而非采用非實(shí)體詞的詞性標(biāo)注“中國(guó)HAN ns ;國(guó)際HANn ;廣播HAN vn ;電臺(tái)HAN η”。關(guān)于提取實(shí)體詞以及非實(shí)體詞的特征值,通過CRF算法訓(xùn)練的詳細(xì)處理流程,具體可參見相關(guān)技術(shù)文獻(xiàn),在此不 再贅述。在本發(fā)明實(shí)施例的文本分析方法中,步驟101只需執(zhí)行一次,而非在每次進(jìn)行文本分析時(shí),都需要執(zhí)行。步驟102,對(duì)獲取的文本以字符為單位進(jìn)行切分處理,對(duì)切分得到的字符按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征字串;本步驟中,對(duì)用戶輸入的文本進(jìn)行預(yù)處理,即以字符為單位,對(duì)預(yù)先獲取的文本進(jìn)行切分處理,得到字符,計(jì)算其字符特征,并以字符為單位,對(duì)文本中的實(shí)體詞和非實(shí)體詞分別進(jìn)行字符特征標(biāo)注。切分得到的字符及其字符特征組成特征字串,例如,對(duì)于輸入的文本“人民大會(huì)堂”,特征字串為“人 HAN ;民 HAN AHAN ^HAN ;^ HAN^0步驟103,按照預(yù)先構(gòu)建的分詞模型,對(duì)特征字串進(jìn)行分詞處理,得到包含字序的分詞結(jié)果;本步驟中,通過預(yù)先存儲(chǔ)的分詞模型,對(duì)形成的特征字串進(jìn)行分詞處理。例如,對(duì)于特征字串“人HAN ;民HAN ;大HAN ;會(huì)HAN ;堂ΗΑΝ”,按照構(gòu)建的分詞模型,進(jìn)行分詞處理,得到分詞結(jié)果為“人HAN B;民HANE ;大HAN B ;會(huì)HAN Μ;堂HAN Ε”,其中,人為詞的詞首,民為詞的詞尾;大為另一詞的詞首,會(huì)為該另一詞的詞中,堂為該另一詞的詞尾。步驟104,根據(jù)分詞結(jié)果中的字序進(jìn)行合并處理,對(duì)合并得到的詞按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征詞串;本步驟中,根據(jù)接收的分詞結(jié)果中的字序,合并分詞結(jié)果,得到合并的詞,并按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征詞串。也就是說,根據(jù)分詞結(jié)果中的字序,對(duì)分詞結(jié)果進(jìn)行再次預(yù)處理,其中,對(duì)合并得到的詞按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,包括:以詞的最后一個(gè)字符的字符特征作為詞的字符特征,對(duì)文本中的各詞分別進(jìn)行字符特征的標(biāo)注,將各詞及其字符特征相連,形成特征詞串。例如,將分詞結(jié)果“人HANB ;民HANE ;大HAN B;會(huì)HAN Μ;堂HAN Ε”進(jìn)行合并處理,得到詞,并以合并得到的詞的最后一個(gè)字符的字符特征作為該詞的字符特征,將詞與字符特征結(jié)合,形成特征詞串,即“人民HAN ;大會(huì)堂ΗΑΝ”。步驟105,根據(jù)預(yù)先構(gòu)建的詞性標(biāo)注模型,對(duì)特征詞串進(jìn)行詞性標(biāo)注,得到詞性標(biāo)
注結(jié)果;
本步驟中,將特征詞串通過詞性標(biāo)注模型進(jìn)行詞性標(biāo)注,得到詞性標(biāo)注結(jié)果。本發(fā)明實(shí)施例中,對(duì)特征詞串“人民HAN ;大會(huì)堂HAN”進(jìn)行詞性標(biāo)注后,得到詞性標(biāo)注結(jié)果“人民HAN nt ;大會(huì)堂HAN nt”;再例如,對(duì)于特征詞串“人民HAN ;大眾HAN”進(jìn)行詞性標(biāo)注后,得到詞性標(biāo)注結(jié)果“人民HAN η ;大眾HAN η”。步驟106,確認(rèn)詞性標(biāo)注結(jié)果中包含實(shí)體詞詞性標(biāo)注,則按照相鄰相同規(guī)則,合并詞性標(biāo)注結(jié)果中包含實(shí)體詞詞性標(biāo)注的實(shí)體詞,得到文本分析結(jié)果。本步驟中,確定詞性標(biāo)注結(jié)果中是否包含實(shí)體詞詞性標(biāo)注,如果包含實(shí)體詞詞性標(biāo)注,對(duì)包含的實(shí)體詞詞性標(biāo)注,按照相鄰相同規(guī)則合并詞性標(biāo)注結(jié)果中的實(shí)體詞,然后輸出;如果不包含實(shí)體詞詞性標(biāo)注,則直接輸出詞性標(biāo)注結(jié)果。例如,對(duì)于詞性標(biāo)注結(jié)果“人民HAN η;大眾HAN η”,不包含有實(shí)體詞詞性標(biāo)注,將該結(jié)果直接輸出;而對(duì)于詞性標(biāo)注結(jié)果“人民HAN nt;大會(huì)堂HAN nt”,包含有實(shí)體詞(機(jī)構(gòu))詞性標(biāo)注nt,按照相鄰相同規(guī)則,合并包含實(shí)體詞詞性標(biāo)注的實(shí)體詞,即合并為“人民大會(huì)堂HAN nt”。這樣,通過對(duì)具有“相鄰相同”實(shí)體詞屬性詞進(jìn)行合并,即可完成對(duì)實(shí)體詞的識(shí)別,而對(duì)于非實(shí)體詞,則保留原標(biāo)注狀態(tài),即對(duì)實(shí)體詞進(jìn)行平滑處理。在對(duì)實(shí)體詞完成平滑處理之后,可將其作為分詞結(jié)果輸出,即可完成對(duì)非實(shí)體詞的小粒度分詞,而對(duì)實(shí)體詞的大粒度分詞。關(guān)于按照相鄰相同規(guī)則進(jìn)行合并的詳細(xì)描述,具體可參見相關(guān)技術(shù)文獻(xiàn),在此不再贅述。 由上述可見,本發(fā)明實(shí)施例的文本分析方法,通過在訓(xùn)練分詞模型時(shí),在語(yǔ)料中考慮對(duì)實(shí)體詞的處理,并通過在詞性標(biāo)注模型中,對(duì)實(shí)體詞中各單元詞采用該實(shí)體詞的標(biāo)注方式,在詞性標(biāo)注中為單元實(shí)體詞進(jìn)行識(shí)別工作,并在平滑處理中,通過相鄰相同規(guī)則合并詞性標(biāo)注中的單元實(shí)體詞,最終完成對(duì)實(shí)體詞的識(shí)別,從而可以有效提高實(shí)體詞識(shí)別的準(zhǔn)確率,提高實(shí)體詞的分詞與詞性標(biāo)注的性能,提升輸出結(jié)果中對(duì)實(shí)體詞進(jìn)行分詞與詞性標(biāo)注的準(zhǔn)確性;同時(shí),融合分詞、詞性標(biāo)注、實(shí)體識(shí)別,在分詞階段與詞性標(biāo)注階段,實(shí)體詞與非實(shí)體詞均采用小粒度標(biāo)注,與現(xiàn)有技術(shù)不同的是,在詞性標(biāo)注的模型訓(xùn)練階段,以每個(gè)實(shí)體詞的屬性來標(biāo)注其內(nèi)部各單元詞,而不是以各單元詞固有的詞性進(jìn)行標(biāo)注,可以有效利用并改善了文本分析器對(duì)非實(shí)體詞與實(shí)體詞不同粒度的要求。圖2為本發(fā)明實(shí)施例文本分析器結(jié)構(gòu)示意圖。參見圖2,該文本分析器包括:分詞模型模塊、詞性標(biāo)注模型模塊、特征字串生成模塊、分詞處理模塊、特征詞串生成模塊、詞性標(biāo)注模塊以及實(shí)體詞合并模塊,其中,分詞模型模塊,用于預(yù)先構(gòu)建分詞模型并存儲(chǔ)構(gòu)建的分詞模型;詞性標(biāo)注模型模塊,用于預(yù)先構(gòu)建詞性標(biāo)注模型并存儲(chǔ)構(gòu)建的詞性標(biāo)注模型;特征字串生成模塊,用于對(duì)獲取的文本以字符為單位進(jìn)行切分處理,對(duì)切分得到的字符按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征字串,輸出至分詞處理模塊;本發(fā)明實(shí)施例中,字符特征包括:漢字(HAN)、英文字符(ALPHA)、數(shù)字(NUM)、時(shí)間( ΜΕ)、符號(hào)(SIG)以及其他(OTHER)。分詞處理模塊,用于根據(jù)分詞模型模塊中預(yù)先構(gòu)建的分詞模型,對(duì)接收的特征字串進(jìn)行分詞處理,得到包含字序的分詞結(jié)果,輸出至特征詞串生成模塊;特征詞串生成模塊,用于根據(jù)接收的分詞結(jié)果中的字序,進(jìn)行合并處理,并對(duì)合并得到的詞按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征詞串;詞性標(biāo)注模塊,用于根據(jù)詞性標(biāo)注模型模塊中預(yù)先構(gòu)建的詞性標(biāo)注模型,對(duì)接收的特征詞串進(jìn)行詞性標(biāo)注,輸出詞性標(biāo)注結(jié)果至實(shí)體詞合并模塊;實(shí)體詞合并模塊,用于判斷接收的詞性標(biāo)注結(jié)果中是否包含實(shí)體詞詞性標(biāo)注,如果是,按照相鄰相同規(guī)則,合并詞性標(biāo)注結(jié)果中包含實(shí)體詞詞性標(biāo)注的實(shí)體詞,得到文本分析結(jié)果并輸出;如果否,將詞性標(biāo)注結(jié)果作為文本分析結(jié)果輸出。其中,分詞模型模塊包括語(yǔ)料采集單元、特征字串生成單元、分詞訓(xùn)練單元以及分詞模型存儲(chǔ)單元(圖中未示出),其中,語(yǔ)料采集單元,用于采集語(yǔ)料;本發(fā)明實(shí)施例中,語(yǔ)料采集單元采集公開的6個(gè)月的人民日?qǐng)?bào)語(yǔ)料。特征字串生成單元,用于對(duì)語(yǔ)料采集單元采集的語(yǔ)料,以字符為單位進(jìn)行切分處理,對(duì)切分得到的字符按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征字串,輸出至分詞訓(xùn)練單元;分詞訓(xùn)練單元,通過CRF算法,對(duì)接收的特征字串采用分類標(biāo)簽(6Tag)方式進(jìn)行訓(xùn)練,得到分詞模型,輸出至分詞模型存儲(chǔ)單元;分詞模型存儲(chǔ)單元,用于存儲(chǔ)分詞訓(xùn)練單元訓(xùn)練得到的分詞模型。詞性標(biāo)注模型模塊包括特征詞串生成單元、詞性標(biāo)注模型單元以及詞性標(biāo)注模型存儲(chǔ)單元(圖中未示出),其中,特征詞串生成單元,用于基于分詞模型,進(jìn)行特征提取,形成詞,以詞的最后一個(gè)字符的字符特征作為詞的字符特征,形成特征詞串;詞性標(biāo)注模型單元,將特征詞串分類為實(shí)體詞以及非實(shí)體詞,根據(jù)預(yù)先存儲(chǔ)的詞性庫(kù),分別提取實(shí)體詞以及非實(shí)體詞的特征值,通過CRF算法訓(xùn)練,對(duì)實(shí)體詞以及非實(shí)體詞進(jìn)行詞性標(biāo)注,形成詞性標(biāo)注模型,輸出至詞性標(biāo)注模型存儲(chǔ)單元;詞性標(biāo)注模型存儲(chǔ)單元,用于存儲(chǔ)詞性標(biāo)注模型單元形成的詞性標(biāo)注模型。實(shí)體詞合并模塊包括判斷單元以及實(shí)體詞合并單元(圖中未示出),其中,判斷單元,用于判斷接收的詞性標(biāo)注結(jié)果中是否包含實(shí)體詞詞性標(biāo)注,如果是,將詞性標(biāo)注結(jié)果輸出至實(shí)體詞合并單元;否則,將接收的詞性標(biāo)注結(jié)果輸出;本發(fā)明實(shí)施例中,將接收的詞性標(biāo)注結(jié)果輸出,以向用戶返回詞性標(biāo)注結(jié)果。實(shí)體詞合并單元,用于按照相鄰相同規(guī)則,合并接收的詞性標(biāo)注結(jié)果中包含實(shí)體詞詞性標(biāo)注的實(shí)體詞并輸出。顯然,本領(lǐng)域技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若對(duì)本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1.一種文本分析方法,包括: 對(duì)獲取的文本以字符為單位進(jìn)行切分處理,對(duì)切分得到的字符按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征字串; 按照預(yù)先構(gòu)建的分詞模型,對(duì)特征字串進(jìn)行分詞處理,得到包含字序的分詞結(jié)果; 根據(jù)分詞結(jié)果中的字序進(jìn)行合并處理,對(duì)合并得到的詞按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征詞串; 根據(jù)預(yù)先構(gòu)建的詞性標(biāo)注模型,對(duì)特征詞串進(jìn)行詞性標(biāo)注,得到詞性標(biāo)注結(jié)果; 確認(rèn)詞性標(biāo)注結(jié)果中包含實(shí)體詞詞性標(biāo)注,則按照相鄰相同規(guī)則,合并詞性標(biāo)注結(jié)果中包含實(shí)體詞詞性標(biāo)注的實(shí)體詞,得到文本分析結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述分詞模型的預(yù)先構(gòu)建包括: 米集語(yǔ)料; 對(duì)語(yǔ)料以字符為單位進(jìn)行切分處理,對(duì)切分得到的字符按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征字串; 通過條件隨機(jī)場(chǎng)CRF算法,對(duì)特征字串采用分類標(biāo)簽方式進(jìn)行訓(xùn)練,得到分詞模型。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述詞性標(biāo)注模型的預(yù)先構(gòu)建包括: 基于分詞模型,進(jìn)行特征提取,形成詞,以詞的最后一個(gè)字符的字符特征作為詞的字符特征,形成特征詞串; 將特征詞串分類為實(shí)體詞以及非實(shí)體詞,根據(jù)預(yù)先存儲(chǔ)的詞性庫(kù),分別提取實(shí)體詞以及非實(shí)體詞的特征值,通過 CRF算法訓(xùn)練,對(duì)實(shí)體詞以及非實(shí)體詞進(jìn)行詞性標(biāo)注,形成詞性標(biāo)注模型。
4.根據(jù)權(quán)利要求3所述的方法,其中,所述字符特征包括:漢字、英文字符、數(shù)字、時(shí)間以及符號(hào); 所述對(duì)切分得到的字符按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注包括: 對(duì)文本中的各字符分別進(jìn)行字符特征的標(biāo)注,將各字符及其字符特征相連,形成特征字串; 所述對(duì)合并得到的詞按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,包括: 以詞的最后一個(gè)字符的字符特征作為詞的字符特征,對(duì)文本中的各詞分別進(jìn)行字符特征的標(biāo)注,將各詞及其字符特征相連,形成特征詞串。
5.根據(jù)權(quán)利要求3所述的方法,其中,所述對(duì)實(shí)體詞進(jìn)行詞性標(biāo)注包括: 按照實(shí)體詞的詞性,分別標(biāo)注實(shí)體詞中的每個(gè)單元詞,每個(gè)單元詞的詞性與實(shí)體詞的詞性相同。
6.根據(jù)權(quán)利要求1所述的方法,其中,所述方法進(jìn)一步包括: 如果詞性標(biāo)注結(jié)果中不包含實(shí)體詞詞性標(biāo)注,則直接輸出詞性標(biāo)注結(jié)果作為文本分析結(jié)果。
7.一種文本分析器,其特征在于,該文本分析器包括:分詞模型模塊、詞性標(biāo)注模型模塊、特征字串生成模塊、分詞處理模塊、特征詞串生成模塊、詞性標(biāo)注模塊以及實(shí)體詞合并模塊,其中, 分詞模型模塊,用于預(yù)先構(gòu)建分詞模型并存儲(chǔ)構(gòu)建的分詞模型; 詞性標(biāo)注模型模塊,用于預(yù)先構(gòu)建詞性標(biāo)注模型并存儲(chǔ)構(gòu)建的詞性標(biāo)注模型;特征字串生成模塊,用于對(duì)獲取的文本以字符為單位進(jìn)行切分處理,對(duì)切分得到的字符按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征字串,輸出至分詞處理模塊; 分詞處理模塊,用于根據(jù)分詞模型模塊中預(yù)先構(gòu)建的分詞模型,對(duì)接收的特征字串進(jìn)行分詞處理,得到包含字序的分詞結(jié)果,輸出至特征詞串生成模塊; 特征詞串生成模塊,用于根據(jù)接收的分詞結(jié)果中的字序,進(jìn)行合并處理,并對(duì)合并得到的詞按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征詞串; 詞性標(biāo)注模塊,用于根據(jù)詞性標(biāo)注模型模塊中預(yù)先構(gòu)建的詞性標(biāo)注模型,對(duì)接收的特征詞串進(jìn)行詞性標(biāo)注,輸出詞性標(biāo)注結(jié)果至實(shí)體詞合并模塊; 實(shí)體詞合并模塊,用于判斷接收的詞性標(biāo)注結(jié)果中是否包含實(shí)體詞詞性標(biāo)注,如果是,按照相鄰相同規(guī)則,合并詞性標(biāo)注結(jié)果中包含實(shí)體詞詞性標(biāo)注的實(shí)體詞,得到文本分析結(jié)果并輸出;如果否,將詞性標(biāo)注結(jié)果作為文本分析結(jié)果輸出。
8.根據(jù)權(quán)利要求7所述的文本分析器,其特征在于,所述分詞模型模塊包括:語(yǔ)料采集單元、特征字串生成單元、分詞訓(xùn)練單元以及分詞模型存儲(chǔ)單元,其中, 語(yǔ)料采集單元,用于采集語(yǔ)料; 特征字串生成單元,用于對(duì)語(yǔ)料采集單元采集的語(yǔ)料,以字符為單位進(jìn)行切分處理,對(duì)切分得到的字符按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征字串,輸出至分詞訓(xùn)練單元; 分詞訓(xùn)練單元,通過CRF算法,對(duì)接收的特征字串采用分類標(biāo)簽方式進(jìn)行訓(xùn)練,得到分詞模型,輸出至分詞模型存儲(chǔ)單元; 分詞模型存儲(chǔ)單元,用于存儲(chǔ)分詞訓(xùn)練單元訓(xùn)練得到的分詞模型。
9.根據(jù)權(quán)利要求7所述的文本分析器,其特征在于,所述詞性標(biāo)注模型模塊包括:特征詞串生成單元、詞性標(biāo)注模型單元以及詞性標(biāo)注模型存儲(chǔ)單元,其中, 特征詞串生成單元,用于基于分詞模型,進(jìn)行特征提取,形成詞,以詞的最后一個(gè)字符的字符特征作為詞的字符特征,形成特征詞串; 詞性標(biāo)注模型單元,用于將特征詞串分類為實(shí)體詞以及非實(shí)體詞,根據(jù)預(yù)先存儲(chǔ)的詞性庫(kù),分別提取實(shí)體詞以及非實(shí)體詞的特征值,通過CRF算法訓(xùn)練,對(duì)實(shí)體詞以及非實(shí)體詞進(jìn)行詞性標(biāo)注,形成詞性標(biāo)注模型,輸出至詞性標(biāo)注模型存儲(chǔ)單元; 詞性標(biāo)注模型存儲(chǔ)單元,用于存儲(chǔ)詞性標(biāo)注模型單元形成的詞性標(biāo)注模型。
10.根據(jù)權(quán)利要求7至9任一項(xiàng)所述的文本分析器,其特征在于,所述實(shí)體詞合并模塊包括:判斷單元以及實(shí)體詞合并單元,其中, 判斷單元,用于判斷接收的詞性標(biāo)注結(jié)果中是否包含實(shí)體詞詞性標(biāo)注,如果是,將詞性標(biāo)注結(jié)果輸出至實(shí)體詞合并單兀;否則,將接收的詞性標(biāo)注結(jié)果輸出; 實(shí)體詞合并單元,用于按照相鄰相同規(guī)則,合并接收的詞性標(biāo)注結(jié)果中包含實(shí)體詞詞性標(biāo)注的實(shí)體詞并輸 出。
全文摘要
本發(fā)明公開了一種文本分析方法及文本分析器。該方法包括對(duì)獲取的文本以字符為單位進(jìn)行切分處理,對(duì)切分得到的字符按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征字串;按照預(yù)先構(gòu)建的分詞模型,對(duì)特征字串進(jìn)行分詞處理,得到包含字序的分詞結(jié)果;根據(jù)分詞結(jié)果中的字序進(jìn)行合并處理,對(duì)合并得到的詞按照預(yù)先設(shè)置的字符特征進(jìn)行特征標(biāo)注,形成特征詞串;根據(jù)預(yù)先構(gòu)建的詞性標(biāo)注模型,對(duì)特征詞串進(jìn)行詞性標(biāo)注,得到詞性標(biāo)注結(jié)果;確認(rèn)詞性標(biāo)注結(jié)果中包含實(shí)體詞詞性標(biāo)注,則按照相鄰相同規(guī)則,合并詞性標(biāo)注結(jié)果中包含實(shí)體詞詞性標(biāo)注的實(shí)體詞,得到文本分析結(jié)果。應(yīng)用本發(fā)明,可以提高實(shí)體詞的文本分析準(zhǔn)確率。
文檔編號(hào)G06F17/27GK103077164SQ201210581448
公開日2013年5月1日 申請(qǐng)日期2012年12月27日 優(yōu)先權(quán)日2012年12月27日
發(fā)明者戴明洋 申請(qǐng)人:新浪網(wǎng)技術(shù)(中國(guó))有限公司