基于規(guī)則的文本標(biāo)引方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明涉及文本標(biāo)弓I的技術(shù)領(lǐng)域,具體說(shuō)是一種基于規(guī)則的文本標(biāo)弓I方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)已成為巨大的、分布廣泛的信息源,在對(duì)網(wǎng)絡(luò)信息進(jìn)行分析時(shí),往往需要對(duì)互聯(lián)網(wǎng)上的新聞評(píng)論、論壇帖子等文本進(jìn)行分析,判斷其中是否有傳銷(xiāo)廣告、色情及其他違規(guī)信息,并對(duì)其打上相應(yīng)的標(biāo)簽。
[0003]又由于中文語(yǔ)言文本結(jié)構(gòu)非常復(fù)雜,業(yè)界在文本標(biāo)引中普遍使用的關(guān)鍵詞掃描技術(shù)、廣告聯(lián)系方式匹配技術(shù)和建模統(tǒng)計(jì)技術(shù)均無(wú)法達(dá)到需要的精準(zhǔn)度,且此類(lèi)技術(shù)在上線后若需進(jìn)行效果改善,或遇到新問(wèn)題急需解決的情況,都存在可操作性差甚至無(wú)法人工改善,且改善后上線周期長(zhǎng)的問(wèn)題。
【發(fā)明內(nèi)容】
[0004]本發(fā)明要解決的技術(shù)問(wèn)題是提供一種基于規(guī)則的文本標(biāo)引方法。
[0005]本發(fā)明為解決公知技術(shù)中存在的技術(shù)問(wèn)題所采取的技術(shù)方案是:
本發(fā)明的基于規(guī)則的文本標(biāo)引方法,包括以下步驟:
A、建立包括有關(guān)鍵詞集合的知識(shí)集合,建立以詞為基礎(chǔ)的特征集合;
B、將上述特征集合按樹(shù)形分類(lèi)分等級(jí)并形成詞樹(shù)集,詞樹(shù)集中的每一枝節(jié)點(diǎn)作為規(guī)則引用的最小集合;
C、建立規(guī)則集合,定義文本打標(biāo)簽的條件;
D、掃描文本,對(duì)文本進(jìn)行關(guān)鍵詞掃描、分詞,提取文本內(nèi)的關(guān)鍵特征;
E、對(duì)提取出的關(guān)鍵特征進(jìn)行整理,并逐一與規(guī)則進(jìn)行匹配;
F、關(guān)鍵特征與規(guī)則成功匹配的,則觸發(fā)“命中”邏輯,將規(guī)則所攜帶的標(biāo)簽信息及關(guān)鍵特征作為結(jié)果輸出。
[0006 ]本發(fā)明還可以采用以下技術(shù)措施:
步驟D之后,對(duì)關(guān)鍵詞掃描的結(jié)果和分詞結(jié)果進(jìn)行匹配,刪除關(guān)鍵詞掃描中輸出的歧義關(guān)鍵詞。
[0007 ]關(guān)鍵詞集合中又包括特征詞集、特征鄰接詞集、禁止詞集;特征詞集中包括廣告特征,色情特征,聯(lián)系方式特征,禁止詞特征。
[0008]本發(fā)明具有的優(yōu)點(diǎn)和積極效果是:
本發(fā)明的基于規(guī)則的文本標(biāo)引方法,包括以下步驟:建立特征枚舉集合,集合中包括特征詞集,特征鄰接詞集,禁止詞集及其他特征變量集合等;建立規(guī)則集合,描述當(dāng)某些特征符合某種同現(xiàn)關(guān)系后需要激活哪些標(biāo)引標(biāo)簽的邏輯;對(duì)文本進(jìn)行特征掃描,得到該文本包含的特征元素集合;對(duì)逐一使用規(guī)則匹配文本的特征關(guān)系集合;符合規(guī)則的文本,將根據(jù)規(guī)則的描述打上相應(yīng)的標(biāo)簽,并將特征及其同現(xiàn)關(guān)系作為線索輸出。本發(fā)明解決了單純特征匹配無(wú)法在復(fù)雜的中文語(yǔ)義下進(jìn)行準(zhǔn)確判斷的問(wèn)題。
【具體實(shí)施方式】
[0009]以下通過(guò)具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明。
[0010]本發(fā)明的基于規(guī)則的文本標(biāo)弓I方法,包括以下步驟:
A、建立包括有關(guān)鍵詞集合的知識(shí)集合,建立以詞為基礎(chǔ)的特征集合;
B、將上述特征集合按樹(shù)形分類(lèi)分等級(jí)并形成詞樹(shù)集,詞樹(shù)集中的每一枝節(jié)點(diǎn)作為規(guī)則引用的最小集合;
C、建立規(guī)則集合,定義文本打標(biāo)簽的條件;
D、掃描文本,對(duì)文本進(jìn)行關(guān)鍵詞掃描、分詞,提取文本內(nèi)的關(guān)鍵特征;
E、對(duì)提取出的關(guān)鍵特征進(jìn)行整理,并逐一與規(guī)則進(jìn)行匹配;
F、關(guān)鍵特征與規(guī)則成功匹配的,則觸發(fā)“命中”邏輯,將規(guī)則所攜帶的標(biāo)簽信息及關(guān)鍵特征作為結(jié)果輸出。
[0011]步驟D之后,對(duì)關(guān)鍵詞掃描的結(jié)果和分詞結(jié)果進(jìn)行匹配,刪除關(guān)鍵詞掃描中輸出的歧義關(guān)鍵詞。
[0012]關(guān)鍵詞集合中又包括特征詞集、特征鄰接詞集、禁止詞集;特征詞集中包括廣告特征,色情特征,聯(lián)系方式特征,禁止詞特征。
[0013]實(shí)施例1:
下面以廣告文本標(biāo)引為例:
“$Ru_廣告 _賣(mài)考試答案=IsNear(WordFilter(FindWTSSeg(〃class 廣告 _交易行為〃),F(xiàn)indWTS( "class廣告_交易行為干擾詞")),HaveContact (ceI lphone ,0.5),10) &IsHaveffTS ("class廣告_考試答案〃)”是網(wǎng)頁(yè)內(nèi)的一段對(duì)應(yīng)數(shù)據(jù),
本發(fā)明的處理步驟如下:
1)關(guān)鍵詞掃描得到文中是否有"class廣告_交易行為""class廣告_交易行為干擾詞""class 廣告 _考試答案〃類(lèi)的特征詞(FindWTSSeg,F(xiàn)indWTS,IsHaveWTS);
2)對(duì)〃class廣告_交易行為〃類(lèi)詞的掃描結(jié)果和分詞結(jié)果進(jìn)行匹配,刪除不符合中文分詞語(yǔ)法的誤命中詞(例如“本店有售”出現(xiàn)在“本店有售后服務(wù)”中的情況)(FindWTSSeg);
3)對(duì)文本進(jìn)行聯(lián)系方式提取,得到文中的聯(lián)系方式權(quán)值在0.5以上的手機(jī)號(hào)碼特征(HaveContact);
4)class廣告_交易行為干擾詞"的特征詞結(jié)果,對(duì)"class廣告_交易行為"進(jìn)行干擾詞排除,將"class廣告_交易行為"的命中詞更加精確化(WordFilter);
5)對(duì)〃class廣告_交易行為〃和手機(jī)號(hào)特征進(jìn)行距離檢查,找出在文中出現(xiàn)兩特征距離小于1個(gè)字的特征組合(IsNear );
6)若5步驟的特征組合存在,且(&)文中同時(shí)存在"class廣告_考試答案〃的特征詞,則此規(guī)則命中,將對(duì)此文本打上名為“廣告_賣(mài)考試答案”的標(biāo)簽。
[0014]以上所述,僅是本發(fā)明的較佳實(shí)施例而已,并非對(duì)本發(fā)明作任何形式上的限制,雖然本發(fā)明已以較佳實(shí)施例公開(kāi)如上,然而,并非用以限定本發(fā)明,任何熟悉本專(zhuān)業(yè)的技術(shù)人員,在不脫離本發(fā)明技術(shù)方案范圍內(nèi),當(dāng)然會(huì)利用揭示的技術(shù)內(nèi)容作出些許更動(dòng)或修飾,成為等同變化的等效實(shí)施例,但凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所作的任何簡(jiǎn)單修改、等同變化與修飾,均屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種基于規(guī)則的文本標(biāo)弓I方法,包括以下步驟: A、建立包括有關(guān)鍵詞集合的知識(shí)集合,建立以詞為基礎(chǔ)的特征集合; B、將上述特征集合按樹(shù)形分類(lèi)分等級(jí)并形成詞樹(shù)集,詞樹(shù)集中的每一枝節(jié)點(diǎn)作為規(guī)則引用的最小集合; C、建立規(guī)則集合,定義文本打標(biāo)簽的條件; D、掃描文本,對(duì)文本進(jìn)行關(guān)鍵詞掃描、分詞,提取文本內(nèi)的關(guān)鍵特征; E、對(duì)提取出的關(guān)鍵特征進(jìn)行整理,并逐一與規(guī)則進(jìn)行匹配; F、關(guān)鍵特征與規(guī)則成功匹配的,則觸發(fā)“命中”邏輯,將規(guī)則所攜帶的標(biāo)簽信息及關(guān)鍵特征作為結(jié)果輸出。2.根據(jù)權(quán)利要求1所述的基于規(guī)則的文本標(biāo)引方法,其特征在于:步驟D之后,對(duì)關(guān)鍵詞掃描的結(jié)果和分詞結(jié)果進(jìn)行匹配,刪除關(guān)鍵詞掃描中輸出的歧義關(guān)鍵詞。3.根據(jù)權(quán)利要求1所述的基于規(guī)則的文本標(biāo)引方法,其特征在于:關(guān)鍵詞集合中又包括特征詞集、特征鄰接詞集、禁止詞集;特征詞集中包括廣告特征,色情特征,聯(lián)系方式特征,禁止詞特征。
【專(zhuān)利摘要】一種基于規(guī)則的文本標(biāo)引方法,包括以下步驟:建立特征枚舉集合,集合中包括特征詞集,特征鄰接詞集,禁止詞集及其他特征變量集合等;建立規(guī)則集合,描述當(dāng)某些特征符合某種同現(xiàn)關(guān)系后需要激活哪些標(biāo)引標(biāo)簽的邏輯;對(duì)文本進(jìn)行特征掃描,得到該文本包含的特征元素集合;對(duì)逐一使用規(guī)則匹配文本的特征關(guān)系集合;符合規(guī)則的文本,將根據(jù)規(guī)則的描述打上相應(yīng)的標(biāo)簽,并將特征及其同現(xiàn)關(guān)系作為線索輸出。本發(fā)明解決了單純特征匹配無(wú)法在復(fù)雜的中文語(yǔ)義下進(jìn)行準(zhǔn)確判斷的問(wèn)題。
【IPC分類(lèi)】G06F17/27, G06F17/21
【公開(kāi)號(hào)】CN105573968
【申請(qǐng)?zhí)枴緾N201510910423
【發(fā)明人】常毅, 周祖勝
【申請(qǐng)人】天津海量信息技術(shù)有限公司
【公開(kāi)日】2016年5月11日
【申請(qǐng)日】2015年12月10日