本發(fā)明涉及計(jì)算機(jī)技術(shù),尤其涉及一種變形詞識別方法及裝置。
背景技術(shù):
隨著網(wǎng)絡(luò)的發(fā)展,出現(xiàn)了越來越多的變形詞。網(wǎng)絡(luò)平臺需要對輸入的信息進(jìn)行變形詞識別,以防止由于部分用戶使用惡意的變形詞而造成的嚴(yán)重后果。
現(xiàn)有技術(shù)中,首先可以通過統(tǒng)計(jì)和規(guī)則的方法識別出實(shí)體詞的變形詞,進(jìn)而,再通過分類或者標(biāo)注的方法識別出變形詞所對應(yīng)的實(shí)體詞,以用于后續(xù)的變形詞識別。
但是,現(xiàn)有技術(shù)在識別變形詞時(shí),需要使用人工標(biāo)注的語料,因此進(jìn)行變形詞識別的效率較低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種變形詞識別方法及裝置,用于解決現(xiàn)有技術(shù)中進(jìn)行變形詞識別效率較低的問題。
本發(fā)明第一方面提供一種變形詞識別方法,包括:
獲取新增的語料庫;
從所述新增的語料庫中識別至少一個(gè)新詞;
分別確定用戶輸入的實(shí)體詞與從所述新增的語料庫中識別出的每個(gè)新詞的相似度;
根據(jù)用戶輸入的實(shí)體詞與從所述新增的語料庫中識別出的每個(gè)新詞的相似度,分別確定所述新詞是否為所述實(shí)體詞的變形詞。
進(jìn)一步地,所述根據(jù)用戶輸入的實(shí)體詞與從所述新增的語料庫中識別出的每個(gè)新詞的相似度,分別確定所述新詞是否為所述實(shí)體詞的變形詞,包括:
對所述至少一個(gè)新詞按照所述新詞與所述實(shí)體詞的相似度進(jìn)行排序;
根據(jù)所述至少一個(gè)新詞的排序結(jié)果,確定所述新詞是否為所述實(shí)體詞的變形詞。
進(jìn)一步地,還包括:
將所述至少一個(gè)新詞加入分詞字典。
進(jìn)一步地,所述從新增的語料庫中識別至少一個(gè)新詞,包括:
使用所述分詞字典對所述新增的語料庫進(jìn)行分詞;
根據(jù)分詞結(jié)果從所述新增的語料庫中識別至少一個(gè)新詞。
進(jìn)一步地,所述根據(jù)所述至少一個(gè)新詞的排序結(jié)果,確定所述新詞是否為所述實(shí)體詞的變形詞,包括:
如果,確定出第一新詞的排序與從所述新增的語料庫中識別出的新詞數(shù)量的比值小于預(yù)設(shè)閾值,則就可以確定所述第一新詞即為所述實(shí)體詞的變形詞;
其中,所述第一新詞為從所述新增的語料庫中識別出的至少一個(gè)新詞中的任意一個(gè)新詞。
本發(fā)明第二方面提供一種變形詞識別裝置,包括:
獲取模塊,用于獲取新增的語料庫;
識別模塊,用于從所述新增的語料庫中識別至少一個(gè)新詞;
第一確定模塊,用于分別確定用戶輸入的實(shí)體詞與從所述新增的語料庫中識別出的每個(gè)新詞的相似度;
第二確定模塊,用于根據(jù)用戶輸入的實(shí)體詞與從所述新增的語料庫中識別出的每個(gè)新詞的相似度,分別確定所述新詞是否為所述實(shí)體詞的變形詞。
進(jìn)一步地,所述第二確定模塊包括:
排序單元,用于對所述至少一個(gè)新詞按照所述新詞與所述實(shí)體詞的相似度進(jìn)行排序;
確定單元,用于根據(jù)所述至少一個(gè)新詞的排序結(jié)果,確定所述新詞是否為所述實(shí)體詞的變形詞。
進(jìn)一步地,還包括:
增加模塊,用于將所述至少一個(gè)新詞加入分詞字典。
進(jìn)一步地,所述識別模塊包括:
分詞單元,用于使用所述分詞字典對所述新增的語料庫進(jìn)行分詞;
識別單元,用于根據(jù)分詞結(jié)果從所述新增的語料庫中識別至少一個(gè)新詞。
進(jìn)一步地,所述確定單元具體用于:
若第一新詞的排序與從所述新增的語料庫中識別出的新詞數(shù)量的比值小于預(yù)設(shè)閾值,則確定所述第一新詞為所述實(shí)體詞的變形詞;
其中,所述第一新詞為從所述新增的語料庫中識別出的至少一個(gè)新詞中的任意一個(gè)新詞。
本發(fā)明所提供的變形詞識別方法及裝置,首先自動(dòng)發(fā)現(xiàn)語料庫中的新詞,其次根據(jù)新詞與實(shí)體詞的相似度來識別變形詞,從而實(shí)現(xiàn)自動(dòng)發(fā)現(xiàn)可能的新的變形詞,從而提升變形詞識別的效率。并且,該方法根據(jù)新詞與實(shí)體詞的相似度來識別變形詞,相比于現(xiàn)有技術(shù)人工識別變形詞的方法,變形詞識別的準(zhǔn)確率也得到了較大提升。
附圖說明
為了更清楚地說明本發(fā)明或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明提供的變形詞識別方法實(shí)施例一的流程示意圖;
圖2為本發(fā)明提供的變形詞識別方法實(shí)施例二的流程示意圖;
圖3為本發(fā)明提供的變形詞識別方法實(shí)施例三的流程示意圖;
圖4為本發(fā)明提供的變形詞識別方法實(shí)施例四的流程示意圖;
圖5為本發(fā)明提供的變形詞識別裝置實(shí)施一的模塊結(jié)構(gòu)圖;
圖6為本發(fā)明提供的變形詞識別裝置實(shí)施二的模塊結(jié)構(gòu)圖;
圖7為本發(fā)明提供的變形詞識別裝置實(shí)施三的模塊結(jié)構(gòu)圖;
圖8為本發(fā)明提供的變形詞識別裝置實(shí)施四的模塊結(jié)構(gòu)圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
以下首先對本發(fā)明所涉及到的概念進(jìn)行解釋。
語料庫:是一些實(shí)際使用中真實(shí)出現(xiàn)過的語音材料的集合,例如報(bào)紙上所發(fā)表的一篇文章、網(wǎng)絡(luò)論壇上發(fā)的一篇帖子等,都可以作為語料庫。
實(shí)體詞:也可以稱為原形詞,是指在字典中可以查詢或者已經(jīng)被廣泛使用的詞語。
變形詞:相對于實(shí)體詞,對于實(shí)體詞進(jìn)行過轉(zhuǎn)換的詞語。例如,對于實(shí)體詞“同學(xué)”而言,“童鞋”為該實(shí)體詞的變形詞。
新詞:是指未在字典中出現(xiàn)過的詞語。
現(xiàn)有技術(shù)中進(jìn)行變形詞識別時(shí),需要使用人工標(biāo)注的語料,即需要在獲取到語料庫之后通過人工識別語料庫中的變形詞,進(jìn)而基于識別出的變形詞進(jìn)行其他場景下的變形詞識別,這種處理方法的效率低下,并且,對新出現(xiàn)的變形詞的識別能力也較差。
本發(fā)明基于上述問題,提出一種變形詞識別方法,通過自動(dòng)發(fā)現(xiàn)語料庫中的新詞,以及比較新詞與實(shí)體詞的相似度來識別變形詞,從而實(shí)現(xiàn)自動(dòng)發(fā)現(xiàn)可能的新的變形詞,從而提升變形詞識別的效率。
圖1為本發(fā)明提供的變形詞識別方法實(shí)施例一的流程示意圖,該方法的執(zhí)行主體為具有處理能力并且連接網(wǎng)絡(luò)的設(shè)備,例如臺式機(jī)、筆記本電腦等終端,或者其他服務(wù)器等。本發(fā)明以下都以終端為例來進(jìn)行說明。如圖1所示,該方法包括:
S101、獲取新增的語料庫。
終端可以以事件觸發(fā)方式或者周期性地從網(wǎng)絡(luò)論壇、微博等互聯(lián)網(wǎng)絡(luò)平臺上獲取用戶的發(fā)帖等,將這些信息作為新增的語料庫。
實(shí)際使用過程中,只有產(chǎn)生的變形詞有趣,才有可能被廣泛傳播,而網(wǎng)絡(luò)論壇、微博等作為社交網(wǎng)絡(luò),能夠較好地體現(xiàn)變形詞的傳播程度,因此,從這些網(wǎng)絡(luò)平臺上獲取新增的語料庫,可以更準(zhǔn)確地識別出實(shí)體詞的變形詞。
S102、從新增的語料庫中識別至少一個(gè)新詞。
S103、分別確定用戶輸入的實(shí)體詞與從所述新增的語料庫中識別出的每個(gè)新詞的相似度。
用戶可以在終端中輸入一個(gè)或多個(gè)實(shí)體詞,由終端來自動(dòng)識別該實(shí)體詞的變形詞。當(dāng)用戶輸入多個(gè)實(shí)體詞時(shí),終端可以分別針對每個(gè)實(shí)體詞使用本發(fā)明的方法來識別出該實(shí)體詞的變形詞。
對于一個(gè)實(shí)體詞,終端需要確定該實(shí)體詞與從新增的語料庫中識別的每個(gè)新新詞的相似度??蛇x地,終端可以根據(jù)語義和規(guī)則來綜合確定相似度,其中,語義相似度可以根據(jù)詞的上下文來識別,規(guī)則相似度主要通過統(tǒng)計(jì)變形的規(guī)則來計(jì)算相似度。
S104、根據(jù)用戶輸入的實(shí)體詞與從新增的語料庫中識別出的每個(gè)新詞的相似度,分別確定新詞是否為實(shí)體詞的變形詞。
本實(shí)施例中,首先自動(dòng)發(fā)現(xiàn)語料庫中的新詞,其次根據(jù)新詞與實(shí)體詞的相似度來識別變形詞,從而實(shí)現(xiàn)自動(dòng)發(fā)現(xiàn)可能的新的變形詞,從而提升變形詞識別的效率。并且,該方法根據(jù)新詞與實(shí)體詞的相似度來識別變形詞,相比于現(xiàn)有技術(shù)人工識別變形詞的方法,變形詞識別的準(zhǔn)確率也得到了較大提升。
在上述實(shí)施例的基礎(chǔ)上,本實(shí)施例涉及確定新詞是否為實(shí)體詞的變形詞的具體方法,即,圖2為本發(fā)明提供的變形詞識別方法實(shí)施例二的流程示意圖,如圖2所示,上述步驟S103具體包括:
S201、對上述至少一個(gè)新詞按照新詞與實(shí)體詞的相似度進(jìn)行排序。
具體可以按照相似度的大小升序排列,或者降序排列。
S202、根據(jù)至少一個(gè)新詞的排序結(jié)果,確定新詞是否為實(shí)體詞的變形詞。
以相似度升序排列為例,即越靠前的新詞與實(shí)體詞的相似度越高。如果某個(gè)新詞在排序結(jié)果中排列靠前,則說明該新詞與該實(shí)體詞相似度大,可以認(rèn)為是該實(shí)體詞的的變形詞。
更進(jìn)一步地,可以按照下述方法確定新詞是否為實(shí)體詞的變形詞:
若第一新詞的排序與從新增的語料庫中識別出的新詞數(shù)量的比值小于預(yù)設(shè)閾值,則確定該第一新詞為該實(shí)體詞的變形詞;
其中,上述第一新詞為從新增的語料庫中識別出的至少一個(gè)新詞中的任意一個(gè)新詞。
預(yù)設(shè)閾值可以根據(jù)實(shí)際情況進(jìn)行設(shè)置,當(dāng)?shù)谝恍略~的排序與新詞數(shù)量的比值小于預(yù)設(shè)閾值時(shí),說明該新詞的與實(shí)體詞的相似度很高,則可以確定該以新詞為該實(shí)體詞的變形詞。
在上述實(shí)施例的基礎(chǔ)上,本實(shí)施例涉及生成分詞字典的具體方法,即,圖3為本發(fā)明提供的變形詞識別方法實(shí)施例三的流程示意圖,如圖3所示,該方法包括:
S301、獲取新增的語料庫。
具體過程與S301的過程相同,可以參見S101,此處不再贅述。
S302、從新增的語料庫中識別至少一個(gè)新詞。
具體過程與S102的過程相同,可以參見S102,此處不再贅述。
S303、將上述至少一個(gè)新詞加入分詞字典。
分詞字典為詞語庫,每次從新增的語料庫中識別出新詞之后,可以將識別出的新詞加入到分詞字典中,以用于下一次的新詞識別。
S304、分別確定用戶輸入的實(shí)體詞與從所述新增的語料庫中識別出的每個(gè)新詞的相似度。
具體過程與S103的過程相同,可以參見S103,此處不再贅述。
S305、根據(jù)用戶輸入的實(shí)體詞與從新增的語料庫中識別出的每個(gè)新詞的相似度,分別確定新詞是否為實(shí)體詞的變形詞。
具體過程與S104的過程相同,可以參見S104,此處不再贅述。
基于上述的分詞字典,可以從新增的語料庫中識別至少一個(gè)新詞,即,圖4為本發(fā)明提供的變形詞識別方法實(shí)施例四的流程示意圖,如圖4所示,上述步驟S101的具體執(zhí)行過程為:
S401、使用分詞字典對新增的語料庫進(jìn)行分詞。
分詞字典中的詞語是本次分詞之前的多次分詞過程中所積累下的詞語,因此,使用分詞字典對新增的語料庫進(jìn)行分詞,能夠保證分詞結(jié)果的準(zhǔn)確性,并且,分詞的速度也得到提升。
對新增的語料庫進(jìn)行分詞之后,終端可以獲取到多個(gè)獨(dú)立的詞語。
S402、根據(jù)分詞結(jié)果從新增的語料庫中識別至少一個(gè)新詞。
獲取到多個(gè)獨(dú)立的詞語之后,終端可以進(jìn)行新詞識別,例如,終端可以通過統(tǒng)計(jì)的方法進(jìn)行多字詞識別,再與已有詞表進(jìn)行對照,來識別出新詞。或者,終端也可以根據(jù)詞語的凝結(jié)度和自由度來識別出新詞。
圖5為本發(fā)明提供的變形詞識別裝置實(shí)施一的模塊結(jié)構(gòu)圖,如圖5所示,該裝置包括:
獲取模塊501,用于獲取新增的語料庫。
識別模塊502,用于從新增的語料庫中識別至少一個(gè)新詞。
第一確定模塊503,用于分別確定用戶輸入的實(shí)體詞與從新增的語料庫中識別出的每個(gè)新詞的相似度。
第二確定模塊504,用于根據(jù)用戶輸入的實(shí)體詞與從新增的語料庫中識別出的每個(gè)新詞的相似度,分別確定新詞是否為實(shí)體詞的變形詞。
該裝置用于實(shí)現(xiàn)前述方法實(shí)施例,其實(shí)現(xiàn)原理和技術(shù)效果類似,此處不再贅述。
圖6為本發(fā)明提供的變形詞識別裝置實(shí)施二的模塊結(jié)構(gòu)圖,如圖6所示,第二確定模塊504包括:
排序單元5041,用于對上述至少一個(gè)新詞按照新詞與實(shí)體詞的相似度進(jìn)行排序。
確定單元5042,用于根據(jù)上述至少一個(gè)新詞的排序結(jié)果,確定新詞是否為實(shí)體詞的變形詞。
圖7為本發(fā)明提供的變形詞識別裝置實(shí)施三的模塊結(jié)構(gòu)圖,如圖7所示,該裝置還包括:
增加模塊505,用于將上述至少一個(gè)新詞加入分詞字典。
圖8為本發(fā)明提供的變形詞識別裝置實(shí)施四的模塊結(jié)構(gòu)圖,如圖8所示,識別模塊502包括:
分詞單元5021,用于使用分詞字典對新增的語料庫進(jìn)行分詞。
識別單元5022,用于根據(jù)分詞結(jié)果從新增的語料庫中識別至少一個(gè)新詞。
另一實(shí)施例中,上述確定單元5042具體用于:
若第一新詞的排序與從新增的語料庫中識別出的新詞數(shù)量的比值小于預(yù)設(shè)閾值,則確定第一新詞為實(shí)體詞的變形詞。
其中,第一新詞為從新增的語料庫中識別出的至少一個(gè)新詞中的任意一個(gè)新詞。
本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述各方法實(shí)施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成。前述的程序可以存儲于一計(jì)算機(jī)可讀取存儲介質(zhì)中。該程序在執(zhí)行時(shí),執(zhí)行包括上述各方法實(shí)施例的步驟;而前述的存儲介質(zhì)包括:ROM、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。