一種描述詞篩選方法及裝置制造方法
【專利摘要】本申請公開了一種描述詞篩選方法及裝置,包括:針對(duì)多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象,基于描述詞詞典包括的各描述詞,從該業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中,抽取在描述詞詞典中存在的描述詞,并確定該存在的描述詞在該業(yè)務(wù)對(duì)象的指定描述信息中是否存在,如果存在,按照設(shè)定增量更新該存在的描述詞對(duì)應(yīng)的第一統(tǒng)計(jì)值,如果不存在,按照設(shè)定增量更新該存在的描述詞對(duì)應(yīng)的第二統(tǒng)計(jì)值;在針對(duì)該多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象均進(jìn)行上述統(tǒng)計(jì)之后,根據(jù)描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,對(duì)描述詞詞典包括的各描述詞進(jìn)行篩選,得到更新后的描述詞詞典。采用本申請實(shí)施例提供的方案,提高了對(duì)業(yè)務(wù)對(duì)象的描述詞確定的準(zhǔn)確性。
【專利說明】一種描述詞篩選方法及裝置
【技術(shù)領(lǐng)域】
[0001]本申請涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】和計(jì)算機(jī)【技術(shù)領(lǐng)域】,尤其涉及一種描述詞篩選方法及
>J-U ρ?α裝直。
【背景技術(shù)】
[0002]在現(xiàn)有的互聯(lián)網(wǎng)技術(shù)中,網(wǎng)站上一般會(huì)發(fā)布一些業(yè)務(wù)對(duì)象,供登錄該網(wǎng)站的用戶瀏覽,以及進(jìn)一步的針對(duì)特定業(yè)務(wù)對(duì)象的后續(xù)處理操作。例如,以電子商務(wù)網(wǎng)站為例,業(yè)務(wù)對(duì)象具體可以是賣家用戶發(fā)布的產(chǎn)品,業(yè)務(wù)對(duì)象的信息具體可以是對(duì)產(chǎn)品的各種特征的描述信息等,如產(chǎn)品的類型信息、價(jià)格信息、性能信息和品牌信息等,登錄電子商務(wù)網(wǎng)站的用戶可以通過瀏覽所發(fā)布產(chǎn)品的各種信息,了解該產(chǎn)品的詳細(xì)情況,并可以進(jìn)一步的執(zhí)行收藏、購買或推薦給其他用戶等處理操作;以社區(qū)網(wǎng)站為例,業(yè)務(wù)對(duì)象具體可以是社區(qū)用戶發(fā)布的帖子,業(yè)務(wù)對(duì)象的信息具體可以是帖子的描述信息,帖子的內(nèi)容信息等,登錄社區(qū)網(wǎng)站的瀏覽用戶可以通過瀏覽發(fā)布的帖子的各種信息,了解該帖子的詳細(xì)情況,并可以進(jìn)一步的執(zhí)行收藏、回帖或推薦給其他用戶等處理操作。
[0003]在實(shí)際應(yīng)用中,業(yè)務(wù)對(duì)象的描述信息可以是由業(yè)務(wù)對(duì)象的提供者在發(fā)布該業(yè)務(wù)對(duì)象時(shí)輸入的,并且由于各種實(shí)際原因,如操作失誤,對(duì)業(yè)務(wù)對(duì)象不夠了解等原因,可能出現(xiàn)業(yè)務(wù)對(duì)象的提供者針對(duì)其提供的業(yè)務(wù)對(duì)象所輸入的描述信息不準(zhǔn)確的情況。例如,對(duì)于品牌信息的輸入,可能由于提供者對(duì)業(yè)務(wù)對(duì)象的實(shí)際品牌不熟悉,或者認(rèn)識(shí)錯(cuò)誤等原因,導(dǎo)致輸入的品牌詞并非是一個(gè)真實(shí)存在的品牌。而此時(shí)如果將基于錯(cuò)誤的品牌信息數(shù)據(jù)提取出來的品牌詞列表,用于業(yè)務(wù)對(duì)象的品牌識(shí)別處理中,將會(huì)進(jìn)一步的導(dǎo)致識(shí)別結(jié)果不準(zhǔn)確,從而還需要進(jìn)一步的對(duì)不準(zhǔn)確`的識(shí)別結(jié)果進(jìn)行更正,從而浪費(fèi)了處理資源,且降低了品牌識(shí)別的處理效率。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本申請實(shí)施例提供一種描述詞篩選方法及裝置,用于解決現(xiàn)有技術(shù)中存在的對(duì)業(yè)務(wù)對(duì)象的描述詞確定不準(zhǔn)確的問題。
[0005]本申請實(shí)施例通過如下技術(shù)方案實(shí)現(xiàn):
[0006]本申請實(shí)施例提供了一種描述詞篩選方法,包括:
[0007]針對(duì)多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象,執(zhí)行如下步驟A和步驟B:
[0008]步驟A:基于描述詞詞典包括的各描述詞,從該業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中,抽取在所述描述詞詞典中存在的描述詞;
[0009]步驟B:確定所述存在的描述詞在該業(yè)務(wù)對(duì)象的指定描述信息中是否存在,如果存在,按照設(shè)定增量更新所述存在的描述詞對(duì)應(yīng)的第一統(tǒng)計(jì)值,如果不存在,按照所述設(shè)定增量更新所述存在的描述詞對(duì)應(yīng)的第二統(tǒng)計(jì)值;
[0010]在針對(duì)所述多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象,執(zhí)行步驟A和步驟B之后,根據(jù)所述描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,對(duì)所述描述詞詞典包括的各描述詞進(jìn)行篩選,得到更新后的描述詞詞典。
[0011]本申請實(shí)施例還提供了一種描述詞篩選裝置,包括:
[0012]第一抽取單元,用于針對(duì)多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象,基于描述詞詞典包括的各描述詞,從該業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中,抽取在所述描述詞詞典中存在的描述詞;
[0013]統(tǒng)計(jì)單元,用于確定所述存在的描述詞在該業(yè)務(wù)對(duì)象的指定描述信息中是否存在,如果存在,按照設(shè)定增量更新所述存在的描述詞對(duì)應(yīng)的第一統(tǒng)計(jì)值,如果不存在,按照所述設(shè)定增量更新所述存在的描述詞對(duì)應(yīng)的第二統(tǒng)計(jì)值;
[0014]篩選單元,用于在針對(duì)所述多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象,通過所述第一抽取單元和所述統(tǒng)計(jì)單元進(jìn)行處理之后,根據(jù)所述描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,對(duì)所述描述詞詞典包括的各描述詞進(jìn)行篩選,得到更新后的描述詞詞典。
[0015]本申請實(shí)施例提供的上述至少一個(gè)技術(shù)方案中,在基于描述詞詞典包括的各描述詞進(jìn)行篩選時(shí),首先針對(duì)多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象,基于描述詞詞典包括的各描述詞,從該業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中,抽取在描述詞詞典中存在的描述詞,然后確定該存在的描述詞在該業(yè)務(wù)對(duì)象的指定描述信息中是否存在,如果存在,按照設(shè)定增量更新該存在的描述詞對(duì)應(yīng)的第一統(tǒng)計(jì)值,如果不存在,按照設(shè)定增量更新該存在的描述詞對(duì)應(yīng)的第二統(tǒng)計(jì)值;其中,當(dāng)一個(gè)描述詞在業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容和指定描述信息中均存在時(shí),表示該描述詞一定程度上是準(zhǔn)確的,反之,當(dāng)一個(gè)描述詞只在業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中存在,而在該業(yè)務(wù)對(duì)象的指定描述信息中不存在時(shí),表示該描述詞一定程度上是不準(zhǔn)確的,所以,在對(duì)多個(gè)業(yè)務(wù)對(duì)象都完成上述統(tǒng)計(jì)之后,描述詞詞典包括的每個(gè)描述詞都對(duì)應(yīng)有第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,并且,對(duì)應(yīng)的第一統(tǒng)計(jì)值越大表示該描述詞越準(zhǔn)確,對(duì)應(yīng)的第二統(tǒng)計(jì)值越大表示該描述詞越不準(zhǔn)確,從而根據(jù)描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,對(duì)描述詞詞典包括的各描述詞進(jìn)行篩選,去除不準(zhǔn)確的描述詞,能夠得到其中描述詞更準(zhǔn)確的更新后的描述詞詞典,即提高了所確定的描述詞的準(zhǔn)確性。
[0016]本申請的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本申請而了解。本申請的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
【專利附圖】
【附圖說明】
[0017]附圖用來提供對(duì)本申請的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本申請實(shí)施例一起用于解釋本申請,并不構(gòu)成對(duì)本申請的限制。在附圖中:
[0018]圖1為本申請實(shí)施例提供的描述詞篩選方法的流程圖;
[0019]圖2為本申請實(shí)施例1中提供的描述詞篩選方法的流程圖;
[0020]圖3為本申請實(shí)施例1中提供的描述詞識(shí)別處理的流程圖;
[0021]圖4為本申請實(shí)施例2中提供的描述詞篩選裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0022]為了給出提高確定業(yè)務(wù)對(duì)象的描述詞的準(zhǔn)確性的實(shí)現(xiàn)方案,本申請實(shí)施例提供了一種描述詞篩選方法及裝置,該技術(shù)方案可以應(yīng)用于確定業(yè)務(wù)對(duì)象的描述詞詞典的過程,既可以實(shí)現(xiàn)為一種方法,也可以實(shí)現(xiàn)為一種裝置。以下結(jié)合說明書附圖對(duì)本申請的優(yōu)選實(shí)施例進(jìn)行說明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實(shí)施例僅用于說明和解釋本申請,并不用于限定本申請。并且在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互組合。
[0023]本申請實(shí)施例提供一種描述詞篩選方法,如圖1所示,包括:
[0024]針對(duì)多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象,執(zhí)行如下步驟101和步驟102:
[0025]步驟101:基于描述詞詞典包括的各描述詞,從該業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中,抽取在描述詞詞典中存在的描述詞。
[0026]步驟102:確定該存在的描述詞在該業(yè)務(wù)對(duì)象的指定描述信息中是否存在,如果存在,按照設(shè)定增量更新該存在的描述詞對(duì)應(yīng)的第一統(tǒng)計(jì)值,如果不存在,按照設(shè)定增量更新該存在的描述詞對(duì)應(yīng)的第二統(tǒng)計(jì)值。
[0027]步驟103、在針對(duì)該多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象,執(zhí)行步驟101和步驟102之后,根據(jù)描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,對(duì)描述詞詞典包括的各描述詞進(jìn)行篩選,得到更新后的描述詞詞典。
[0028]其中,描述詞詞典包括的各描述詞,可以是由在該多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)過的描述詞組成的。
[0029]進(jìn)一步的,本申請實(shí)施例提供的上述方法中,在得到更新后的描述詞詞典之后,可以針對(duì)更新后的描述詞詞典,采用上述圖1所示的描述詞篩選方式,對(duì)更新后的描述詞詞典包括的各描述詞再次進(jìn)行篩選,以便進(jìn)一步的提高描述詞詞典所包括的描述詞的準(zhǔn)確性。
[0030]進(jìn)一步的,本申請實(shí)施例提供的上述方法中,在得到更新后的描述詞詞典之后,SP可以基于該更新后的描述詞詞典包括的各描述詞,對(duì)一個(gè)業(yè)務(wù)對(duì)象進(jìn)行描述詞識(shí)別處理,以補(bǔ)充該業(yè)務(wù)對(duì)象的指定描述信息,或者糾正該業(yè)務(wù)對(duì)象的指定描述信息中不準(zhǔn)確的描述詞,針對(duì)一個(gè)待處理業(yè)務(wù)對(duì)象,具體可以包括:
[0031]基于更新后的描述詞詞典包括的各描述詞,從待處理業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中,抽取在更新后的描述詞詞典中存在的描述詞;
[0032]當(dāng)抽取的該描述詞在待處理業(yè)務(wù)對(duì)象的指定描述信息中不存在時(shí),將抽取的該描述詞加入到待處理業(yè)務(wù)對(duì)象的指定描述信息中,或者,將抽取的該描述詞替換待處理業(yè)務(wù)對(duì)象的指定描述信息中的描述詞。
[0033]下面結(jié)合附圖,用具體實(shí)施例對(duì)本申請?zhí)峁┑姆椒把b置進(jìn)行詳細(xì)描述。
[0034]實(shí)施例1:
[0035]圖2為本申請實(shí)施例1中提供的描述詞篩選方法的流程圖,具體包括如下處理步驟:
[0036]步驟201、獲取多個(gè)業(yè)務(wù)對(duì)象中每個(gè)業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容,以及該多個(gè)業(yè)務(wù)對(duì)象中每個(gè)業(yè)務(wù)對(duì)象的指定描述信息。
[0037]其中,該多個(gè)業(yè)務(wù)對(duì)象可以為屬于同一類目的多個(gè)業(yè)務(wù)對(duì)象,例如,以電子商務(wù)網(wǎng)站為例,多個(gè)業(yè)務(wù)對(duì)象可以屬于同一產(chǎn)品類目,如男裝類目,女裝類目,或手機(jī)類目等。
[0038]該指定描述信息可以是業(yè)務(wù)對(duì)象的屬性信息,比如業(yè)務(wù)對(duì)象為商品時(shí),該指定描述信息可以為商品的品牌信息。該指定描述信息可以與后續(xù)所篩選的描述詞的類型有關(guān),例如,后續(xù)篩選的描述詞為品牌詞時(shí),相應(yīng)的,該指定描述信息可以為品牌信息。[0039]步驟202、確定該多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中的描述詞。
[0040]步驟203、將在該多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)過的描述詞組成描述詞詞典。
[0041]本步驟中,還可以分別統(tǒng)計(jì)描述詞詞典包括的各描述詞在該多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)的次數(shù),該次數(shù)可用于后續(xù)對(duì)描述詞詞典中的描述詞的篩選。
[0042]在得到初始的描述詞詞典之后,即可以將該多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象分別作為待處理業(yè)務(wù)對(duì)象,執(zhí)行如下步驟204至步驟207。
[0043]步驟204、基于該描述詞詞典包括的各描述詞,從當(dāng)前待處理業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中,抽取在該描述詞詞典中存在的描述詞。
[0044]本步驟可以基于當(dāng)前待處理業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容進(jìn)行分詞處理,并確定得到的每個(gè)分詞在該描述詞詞典中是否存在。
[0045]本步驟也可以基于描述詞詞典中的每個(gè)描述詞,確定該描述詞是否在當(dāng)前待處理業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中存在,此時(shí)不需要對(duì)當(dāng)前待處理業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容進(jìn)行分詞處理。
[0046]優(yōu)選的,本步驟具體可以采用Aho-Corasick算法實(shí)現(xiàn),Aho-Corasick算法是一種基于詞典的字符串集合匹配算法,是一通通過有限狀態(tài)自動(dòng)結(jié)構(gòu)建類似Trie樹結(jié)構(gòu)的字符串匹配算法。
[0047]步驟205、對(duì)于上述步驟204中確定出的在描述詞詞典中存在,且在當(dāng)前待處理業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中也存在的一個(gè)描述詞,確定該描述詞在當(dāng)前待處理業(yè)務(wù)對(duì)象的指定描述信息中是否存在,如果存在,進(jìn)入步驟206,如果不存在,進(jìn)入步驟207。
[0048]步驟206、按照設(shè)定增量更新該描述詞對(duì)應(yīng)的第一統(tǒng)計(jì)值。
[0049]S卩,將設(shè)定增量與該描述詞對(duì)應(yīng)的原第一統(tǒng)計(jì)值的和值,作為該描述詞對(duì)應(yīng)的更新后的第一統(tǒng)計(jì)值。
[0050]在后續(xù)針對(duì)其它待處理業(yè)務(wù)對(duì)象按照步驟204至步驟207進(jìn)行統(tǒng)計(jì)時(shí),將本步驟中的得到的該描述詞更新后的第一統(tǒng)計(jì)值,迭代入下一次針對(duì)該描述詞進(jìn)行的統(tǒng)計(jì)計(jì)算中。即在下一次對(duì)該描述詞的第一統(tǒng)計(jì)值的更新為對(duì)在本步驟中得到的該描述詞更新后的第一統(tǒng)計(jì)值基礎(chǔ)上的更新。
[0051]也就是說,對(duì)該描述詞的第一統(tǒng)計(jì)值更新前的值為上一次對(duì)該描述詞更新后的第一統(tǒng)計(jì)值。其中,在首次針對(duì)該描述詞進(jìn)行統(tǒng)計(jì)時(shí),其對(duì)應(yīng)的第一統(tǒng)計(jì)值為初始值,該初始值可以設(shè)置為O。該設(shè)定增量可以設(shè)置為I。
[0052]步驟207、按照設(shè)定增量更新該描述詞對(duì)應(yīng)的第二統(tǒng)計(jì)值。
[0053]S卩,將設(shè)定增量與該描述詞對(duì)應(yīng)的原第二統(tǒng)計(jì)值的和值,作為該描述詞對(duì)應(yīng)的更新后的第二統(tǒng)計(jì)值。
[0054]在后續(xù)針對(duì)其它待處理業(yè)務(wù)對(duì)象按照步驟204至步驟207進(jìn)行統(tǒng)計(jì)時(shí),將本步驟中的得到的該描述詞更新后的第二統(tǒng)計(jì)值,迭代入下一次針對(duì)該描述詞進(jìn)行的統(tǒng)計(jì)計(jì)算中,即在下一次對(duì)該描述詞的第二統(tǒng)計(jì)值的更新為對(duì)在本步驟中得到的該描述詞更新后的第二統(tǒng)計(jì)值基礎(chǔ)上的更新。
[0055]也就是說,對(duì)該描述詞的第二統(tǒng)計(jì)值更新前的值為上一次對(duì)該描述詞更新后的第二統(tǒng)計(jì)值。其中,在首次針對(duì)該存在的描述詞進(jìn)行統(tǒng)計(jì)時(shí),其對(duì)應(yīng)的第二統(tǒng)計(jì)值為初始值,該初始值可以設(shè)置為O。該設(shè)定增量可以設(shè)置為I。
[0056]步驟208、在針對(duì)該多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象,分別執(zhí)行步驟204至步驟207之后,該描述詞詞典包括的各描述詞分別對(duì)應(yīng)有第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,本步驟中,即可以根據(jù)該描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,對(duì)該描述詞詞典包括的各描述詞進(jìn)行篩選,得到更新后的描述詞詞典,具體可以采用如下方式:
[0057]第一種方式:首先,根據(jù)該描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,確定該描述詞詞典包括的各描述詞的綜合分值;
[0058]其中,一個(gè)描述詞對(duì)應(yīng)的第一統(tǒng)計(jì)值越高,表示該描述詞越準(zhǔn)確,所以,綜合分值可以隨著第一統(tǒng)計(jì)值的增加而增加,反之,一個(gè)描述詞對(duì)應(yīng)的第二統(tǒng)計(jì)值越高,表示該描述詞越不準(zhǔn)確,所以,綜合分值可以隨著第二統(tǒng)計(jì)值的增加而增加;
[0059]綜合分值的具體計(jì)算方式可以根據(jù)需要采用各種方式,例如,可以為第一統(tǒng)計(jì)值減去第二統(tǒng)計(jì)值的差值,也可以為第一統(tǒng)計(jì)值占第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值的和值的比例等;
[0060]然后,按照綜合分值的高低,對(duì)該描述詞詞典包括的各描述詞進(jìn)行篩選,例如,將綜合分值小于預(yù)設(shè)分值閾值的描述詞從該描述詞詞典中排除,保留綜合分值不小于預(yù)設(shè)分值閾值的描述詞,從而得到更新后的描述詞詞典。
[0061]第二種方式:從該描述詞詞典包括的各描述詞中,選擇對(duì)應(yīng)的第一統(tǒng)計(jì)值滿足第一預(yù)設(shè)統(tǒng)計(jì)值條件,且對(duì)應(yīng)的第二統(tǒng)計(jì)值滿足第二預(yù)設(shè)統(tǒng)計(jì)值條件的描述詞,組成更新后的描述詞詞典;
[0062]其中,第一預(yù)設(shè)統(tǒng)計(jì)值條件和第二預(yù)設(shè)統(tǒng)計(jì)值條件,可以根據(jù)實(shí)際需要進(jìn)行靈活設(shè)置,例如,由于一個(gè)描述詞對(duì)應(yīng)的第一統(tǒng)計(jì)值越高,表不該描述詞越準(zhǔn)確,反之,一個(gè)描述詞對(duì)應(yīng)的第二統(tǒng)計(jì)值越高,表示該描述詞越不準(zhǔn)確,所以,第一預(yù)設(shè)統(tǒng)計(jì)值條件可以為對(duì)應(yīng)的第一統(tǒng)計(jì)值不小于第一預(yù)設(shè)統(tǒng)計(jì)值閾值,第二預(yù)設(shè)統(tǒng)計(jì)值條件可以為對(duì)應(yīng)的第二統(tǒng)計(jì)值小于第二預(yù)設(shè)統(tǒng)計(jì)值閾值。
[0063]當(dāng)上述步驟203中還統(tǒng)計(jì)了描述詞詞典包括的各描述詞在該多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)的次數(shù)時(shí),本步驟中,也可以根據(jù)該描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,以及在該多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)的次數(shù),對(duì)該描述詞詞典包括的各描述詞進(jìn)行篩選,得到更新后的描述詞詞典,具體可以采用如下方式:
[0064]第三種方式:首先,根據(jù)該描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,以及各描述詞分別在該多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)的次數(shù),確定該描述詞詞典包括的各描述詞的綜合分值;
[0065]其中,一個(gè)描述詞對(duì)應(yīng)的第一統(tǒng)計(jì)值越高,表示該描述詞越準(zhǔn)確,綜合分值可以隨著第一統(tǒng)計(jì)值的增加而增加,反之,一個(gè)描述詞對(duì)應(yīng)的第二統(tǒng)計(jì)值越高,表示該描述詞越不準(zhǔn)確,綜合分值可以隨著第二統(tǒng)計(jì)值的增加而增加;而一個(gè)描述詞在該多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)的次數(shù)越大,表示該描述詞越準(zhǔn)確,綜合分值可以隨著該次數(shù)的增加而增加;
[0066]綜合分值的具體計(jì)算方式可以根據(jù)需要采用各種方式,例如,可以為該次數(shù)加上第一統(tǒng)計(jì)值再減去第二統(tǒng)計(jì)值得到的數(shù)值,也可以針對(duì)第一統(tǒng)計(jì)值減去第二統(tǒng)計(jì)值的差值,以及該次數(shù),進(jìn)行加權(quán)求和得到的數(shù)值;
[0067]優(yōu)選的,本申請實(shí)施例中提出可以采用如下公式計(jì)算描述詞的綜合分值:
[0068]Score = log (C+n) + ((P+n2) / (N+n2) +1) /Th ;
[0069]其中,Score為一個(gè)描述詞的綜合分值,C為該描述詞在該多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)的次數(shù),P為該描述詞對(duì)應(yīng)的第一統(tǒng)計(jì)值,N為該描述詞對(duì)應(yīng)的第二統(tǒng)計(jì)值,Th為調(diào)整閾值。Ii1及112為平滑調(diào)整系數(shù),其目的是為了得到平滑數(shù)據(jù),例如,ηι可以設(shè)定為2,n2可以設(shè)定為I。調(diào)整閾值Th可以根據(jù)實(shí)際需要和實(shí)際統(tǒng)計(jì)情況進(jìn)行靈活設(shè)置,用于濾除噪聲;
[0070]然后,按照綜合分值的高低,對(duì)該描述詞詞典包括的各描述詞進(jìn)行篩選,例如,將綜合分值小于預(yù)設(shè)分值閾值的描述詞從該描述詞詞典中排除,保留綜合分值不小于預(yù)設(shè)分值閾值的描述詞,從而得到更新后的描述詞詞典。
[0071]第四種方式:從該描述詞詞典包括的各描述詞中,選擇對(duì)應(yīng)的第一統(tǒng)計(jì)值滿足第一預(yù)設(shè)統(tǒng)計(jì)值條件,且對(duì)應(yīng)的第二統(tǒng)計(jì)值滿足第二預(yù)設(shè)統(tǒng)計(jì)值條件,且在該多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)的次數(shù)滿足預(yù)設(shè)次數(shù)條件的描述詞,組成更新后的描述詞詞典;
[0072]其中,第一預(yù)設(shè)統(tǒng)計(jì)值條件、第二預(yù)設(shè)統(tǒng)計(jì)值條件和預(yù)設(shè)次數(shù)條件,可以根據(jù)實(shí)際需要進(jìn)行靈活設(shè)置,例如,由于一個(gè)描述詞對(duì)應(yīng)的第一統(tǒng)計(jì)值越高,表示該描述詞越準(zhǔn)確,反之,一個(gè)描述詞對(duì)應(yīng)的第二統(tǒng)計(jì)值越高,表示該描述詞越不準(zhǔn)確,一個(gè)描述詞在該多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)的次數(shù)越大,表示該描述詞越準(zhǔn)確,所以,第一預(yù)設(shè)統(tǒng)計(jì)值條件可以為對(duì)應(yīng)的第一統(tǒng)計(jì)值不小于第一預(yù)設(shè)統(tǒng)計(jì)值閾值,第二預(yù)設(shè)統(tǒng)計(jì)值條件可以為對(duì)應(yīng)的第二統(tǒng)計(jì)值小于第二預(yù)設(shè)統(tǒng)計(jì)值閾值;預(yù)設(shè)次數(shù)閾值可以為在該多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)的次數(shù)滿足預(yù)設(shè)次數(shù)不小于預(yù)設(shè)次數(shù)閾值。
[0073]采用本申請實(shí)施例1提供的上述描述詞篩選方法,由于當(dāng)一個(gè)描述詞在業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容和指定描述信息中均存在時(shí),表示該描述詞一定程度上是準(zhǔn)確的,反之,當(dāng)一個(gè)描述詞只在業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中存在,而在該業(yè)務(wù)對(duì)象的指定描述信息中不存在時(shí),表示該描述詞一定程度上是不準(zhǔn)確的,所以,在對(duì)多個(gè)業(yè)務(wù)對(duì)象都完成統(tǒng)計(jì)之后,描述詞詞典包括的每個(gè)描述詞都對(duì)應(yīng)有第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,并且,對(duì)應(yīng)的第一統(tǒng)計(jì)值越大表示該描述詞越準(zhǔn)確,對(duì)應(yīng)的第二統(tǒng)計(jì)值越大表示該描述詞越不準(zhǔn)確,從而根據(jù)描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,對(duì)描述詞詞典包括的各描述詞進(jìn)行篩選,去除不準(zhǔn)確的描述詞,能夠得到其中描述詞更準(zhǔn)確的更新后的描述詞詞典,即提高了所確定的描述詞的準(zhǔn)確性。
[0074]本申請實(shí)施例中,在通過上述描述詞篩選方法,得到更新后的描述詞詞典之后,還可以對(duì)更新后的描述詞詞典中的描述詞進(jìn)行排序顯示,在排序時(shí)可以按照采用上述第三種方式確定的綜合分值從高到低的順序進(jìn)行排序。
[0075]本申請實(shí)施例中,在通過上述描述詞篩選方法,得到更新后的描述詞詞典之后,還可以基于該更新后的描述詞詞典包括的各描述詞,對(duì)一個(gè)業(yè)務(wù)對(duì)象進(jìn)行描述詞識(shí)別處理,以補(bǔ)充該業(yè)務(wù)對(duì)象的指定描述信息,或者糾正該業(yè)務(wù)對(duì)象的指定描述信息中不準(zhǔn)確的描述詞,針對(duì)一個(gè)待處理業(yè)務(wù)對(duì)象,如圖3所示,具體可以包括如下處理步驟:
[0076]步驟301、基于更新后的描述詞詞典包括的各描述詞,從待處理業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中,抽取在更新后的描述詞詞典中存在的描述詞。[0077]本步驟可以基于該業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容進(jìn)行分詞處理,并確定得到的每個(gè)分詞在該更新后的描述詞詞典中是否存在。
[0078]本步驟也可以基于更新后的描述詞詞典中的每個(gè)描述詞,確定該描述詞是否在該業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中存在,此時(shí)不需要對(duì)該業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容進(jìn)行分詞處理。
[0079]優(yōu)選的,本步驟具體可以采用Aho-Corasick算法實(shí)現(xiàn)。
[0080]步驟302、確定抽取的該描述詞在待處理業(yè)務(wù)對(duì)象的指定描述信息中是否存在,如果不存在,進(jìn)入步驟303,如果存在,進(jìn)入步驟304。
[0081]步驟303、根據(jù)抽取的該描述詞更新該待處理業(yè)務(wù)對(duì)象的指定描述信息。
[0082]具體的,可以將抽取的該描述詞加入到待處理業(yè)務(wù)對(duì)象的指定描述信息中,或者,將抽取的該描述詞替換待處理業(yè)務(wù)對(duì)象的指定描述信息中的描述詞。
[0083]具體的,如果待處理業(yè)務(wù)對(duì)象的指定描述信息為空,則可以將抽取的該描述詞加入到該待處理業(yè)務(wù)對(duì)象的指定描述信息中;如果待處理業(yè)務(wù)對(duì)象的指定描述信息不為空,且抽取的該描述詞與該指定描述信息中的描述詞相似時(shí),例如,存在相同的文字,則可以將抽取的該描述詞替換待處理業(yè)務(wù)對(duì)象的指定描述信息中的描述詞。
[0084]步驟304、保持該待處理業(yè)務(wù)對(duì)象的指定描述信息不變。
[0085]由于更新后的描述詞詞典包括的描述詞更準(zhǔn)確,所以,基于該更新后的描述詞詞典對(duì)業(yè)務(wù)對(duì)象進(jìn)行描述詞識(shí)別處理時(shí),提高了識(shí)別處理的準(zhǔn)確性,且避免了后續(xù)對(duì)識(shí)別結(jié)果的更正處理,從而減少了處理資源的浪費(fèi),并提高了描述詞識(shí)別的處理效率。
[0086]實(shí)施例2:
[0087]基于同一發(fā)明構(gòu)思,根據(jù)本申請上述實(shí)施例提供的描述詞篩選方法,相應(yīng)地,本申請實(shí)施例2還提供了一種描述詞篩選裝置,其結(jié)構(gòu)示意圖如圖4所示,具體包括:
[0088]第一抽取單元401,用于針對(duì)多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象,基于描述詞詞典包括的各描述詞,從該業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中,抽取在所述描述詞詞典中存在的描述詞;
[0089]統(tǒng)計(jì)單元402,用于確定所述存在的描述詞在該業(yè)務(wù)對(duì)象的指定描述信息中是否存在,如果存在,按照設(shè)定增量更新所述存在的描述詞對(duì)應(yīng)的第一統(tǒng)計(jì)值,如果不存在,按照所述設(shè)定增量更新所述存在的描述詞對(duì)應(yīng)的第二統(tǒng)計(jì)值;
[0090]篩選單元403,用于在針對(duì)所述多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象,通過所述第一抽取單元和所述統(tǒng)計(jì)單元進(jìn)行處理之后,根據(jù)所述描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,對(duì)所述描述詞詞典包括的各描述詞進(jìn)行篩選,得到更新后的描述詞詞典。
[0091]進(jìn)一步的,上述裝置,還包括:
[0092]詞典確定單元404,用于確定所述多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中的描述詞;并將在所述多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)過的描述詞組成所述描述詞詞典。
[0093]進(jìn)一步的,上述裝置,還包括:
[0094]次數(shù)確定單元405,用于分別統(tǒng)計(jì)所述描述詞詞典包括的各描述詞在所述多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)的次數(shù);
[0095]篩選單元403,具體用于根據(jù)所述描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,以及在所述多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)的次數(shù),對(duì)所述描述詞詞典包括的各描述詞進(jìn)行篩選。[0096]進(jìn)一步的,篩選單元403,具體用于根據(jù)所述描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,確定所述描述詞詞典包括的各描述詞的綜合分值;并按照綜合分值的高低,對(duì)所述描述詞詞典包括的各描述詞進(jìn)行篩選。
[0097]進(jìn)一步的,篩選單元403,具體用于從所述描述詞詞典包括的各描述詞中,選擇對(duì)應(yīng)的第一統(tǒng)計(jì)值滿足第一預(yù)設(shè)統(tǒng)計(jì)值條件,且對(duì)應(yīng)的第二統(tǒng)計(jì)值滿足第二預(yù)設(shè)統(tǒng)計(jì)值條件的描述詞,組成更新后的描述詞詞典。
[0098]進(jìn)一步的,上述裝置,還包括:
[0099]第二抽取單元406,用于基于所述更新后的描述詞詞典包括的各描述詞,從待處理業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中,抽取在所述更新后的描述詞詞典中存在的描述詞;
[0100]描述詞補(bǔ)充單元407,用于當(dāng)抽取的該描述詞在所述待處理業(yè)務(wù)對(duì)象的指定描述信息中不存在時(shí),將抽取的該描述詞加入到所述待處理業(yè)務(wù)對(duì)象的指定描述信息中,或者,將抽取的該描述詞替換所述待處理業(yè)務(wù)對(duì)象的指定描述信息中的描述詞。
[0101]上述各單元的功能可對(duì)應(yīng)于圖1至圖3所示流程中的相應(yīng)處理步驟,在此不再贅述。
[0102]綜上所述,本申請實(shí)施例提供的方案,包括:針對(duì)多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象,基于描述詞詞典包括的各描述詞,從該業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中,抽取在描述詞詞典中存在的描述詞,并確定該存在的描述詞在該業(yè)務(wù)對(duì)象的指定描述信息中是否存在,如果存在,按照設(shè)定增量更新該存在的描述詞對(duì)應(yīng)的第一統(tǒng)計(jì)值,如果不存在,按照設(shè)定增量更新該存在的描述詞對(duì)應(yīng)的第二統(tǒng)計(jì)值;在針對(duì)該多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象均進(jìn)行上述統(tǒng)計(jì)之后,根據(jù)描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,對(duì)描述詞詞典包括的各描述詞進(jìn)行篩選,得到更新后的描述詞詞典。采用本申請實(shí)施例提供的方案,提高了對(duì)業(yè)務(wù)對(duì)象的描述詞確定的準(zhǔn)確性。
[0103]本申請的實(shí)施例所提供的篩選裝置可通過計(jì)算機(jī)程序?qū)崿F(xiàn)。本領(lǐng)域技術(shù)人員應(yīng)該能夠理解,上述的模塊劃分方式僅是眾多模塊劃分方式中的一種,如果劃分為其他模塊或不劃分模塊,只要篩選裝置具有上述功能,都應(yīng)該在本申請的保護(hù)范圍之內(nèi)。
[0104]本申請是參照根據(jù)本申請實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
[0105]這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
[0106]這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
[0107]顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本申請進(jìn)行各種改動(dòng)和變型而不脫離本申請的精神和范圍。這樣,倘若本申請的這些修改和變型屬于本申請權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請也意圖包含這些改動(dòng)和變型在內(nèi)。
【權(quán)利要求】
1.一種描述詞篩選方法,其特征在于,包括: 針對(duì)多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象,執(zhí)行如下步驟A和步驟B: 步驟A:基于描述詞詞典包括的各描述詞,從該業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中,抽取在所述描述詞詞典中存在的描述詞; 步驟B:確定所述存在的描述詞在該業(yè)務(wù)對(duì)象的指定描述信息中是否存在,如果存在,按照設(shè)定增量更新所述存在的描述詞對(duì)應(yīng)的第一統(tǒng)計(jì)值,如果不存在,按照所述設(shè)定增量更新所述存在的描述詞對(duì)應(yīng)的第二統(tǒng)計(jì)值; 在針對(duì)所述多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象,執(zhí)行步驟A和步驟B之后,根據(jù)所述描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,對(duì)所述描述詞詞典包括的各描述詞進(jìn)行篩選,得到更新后的描述詞詞典。
2.如權(quán)利要求1所述的方法,其特征在于,描述詞詞典的確定方法包括: 確定所述多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中的描述詞; 將在所述多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)過的描述詞組成描述詞詞典。
3.如權(quán)利要求2所述的方法,其特征在于,還包括: 分別統(tǒng)計(jì)所述描述詞詞典包括的各描述詞在所述多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)的次數(shù); 根據(jù)所述描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,對(duì)所述描述詞詞典包括的各描述詞進(jìn)行篩選,具體為: 根據(jù)所述描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,以及在所述多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)的次數(shù),對(duì)所述描述詞詞典包括的各描述詞進(jìn)行篩選。
4.如權(quán)利要求1所述的方法,其特征在于,根據(jù)所述描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,對(duì)所述描述詞詞典包括的各描述詞進(jìn)行篩選,具體包括: 根據(jù)所述描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,確定所述描述詞詞典包括的各描述詞的綜合分值;并按照綜合分值的高低,對(duì)所述描述詞詞典包括的各描述詞進(jìn)行篩選。
5.如權(quán)利要求4所述的方法,其特征在于,所述綜合分值采用如下公式計(jì)算:Score=log (C+n) + ((P+n2) / (N+n2) +1) /Th ; 其中,Score為一個(gè)描述詞的綜合分值,C為該描述詞在該多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)的次數(shù),P為該描述詞對(duì)應(yīng)的第一統(tǒng)計(jì)值,N為該描述詞對(duì)應(yīng)的第二統(tǒng)計(jì)值,Th為調(diào)整閾值,H1及n2為平滑調(diào)整系數(shù)。
6.如權(quán)利要求1所述的方法,其特征在于,根據(jù)所述描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,對(duì)所述描述詞詞典包括的各描述詞進(jìn)行篩選,具體包括: 從所述描述詞詞典包括的各描述詞中,選擇對(duì)應(yīng)的第一統(tǒng)計(jì)值滿足第一預(yù)設(shè)統(tǒng)計(jì)值條件,且對(duì)應(yīng)的第二統(tǒng)計(jì)值滿足第二預(yù)設(shè)統(tǒng)計(jì)值條件的描述詞,組成更新后的描述詞詞典。
7.如權(quán)利要求1所述的方法,其特征在于,還包括: 基于所述更新后的描述詞詞典包括的各描述詞,從待處理業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中,抽取在所述更新后的描述詞詞典中存在的描述詞; 當(dāng)抽取的該描述詞在所述待處理業(yè)務(wù)對(duì)象的指定描述信息中不存在時(shí),將抽取的該描述詞加入到所述待處理業(yè)務(wù)對(duì)象的指定描述信息中,或者,將抽取的該描述詞替換所述待處理業(yè)務(wù)對(duì)象的指定描述信息中的描述詞。
8.如權(quán)利要求1-7任一所述的方法,其特征在于,所述多個(gè)業(yè)務(wù)對(duì)象為屬于同一類目的多個(gè)業(yè)務(wù)對(duì)象。
9.如權(quán)利要求1-7任一所述的方法,其特征在于,所述描述詞詞典包括的各描述詞為品牌詞,所述指定描述信息為品牌信息。
10.一種描述詞篩選裝置,其特征在于,包括: 第一抽取單元,用于針對(duì)多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象,基于描述詞詞典包括的各描述詞,從該業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中,抽取在所述描述詞詞典中存在的描述詞; 統(tǒng)計(jì)單元,用于確定所述存在的描述詞在該業(yè)務(wù)對(duì)象的指定描述信息中是否存在,如果存在,按照設(shè)定增量更新所述存在的描述詞對(duì)應(yīng)的第一統(tǒng)計(jì)值,如果不存在,按照所述設(shè)定增量更新所述存在的描述詞對(duì)應(yīng)的第二統(tǒng)計(jì)值; 篩選單元,用于在針對(duì)所述多個(gè)業(yè)務(wù)對(duì)象中的每個(gè)業(yè)務(wù)對(duì)象,通過所述第一抽取單元和所述統(tǒng)計(jì)單元進(jìn)行處理之后,根據(jù)所述描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,對(duì)所述描述詞詞典包括的各描述詞進(jìn)行篩選,得到更新后的描述詞詞典。
11.如權(quán)利要求10所述的裝置,其特征在于,還包括: 詞典確定單元,用于確定所述多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中的描述詞;并將在所述多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)過的描述詞組成所述描述詞詞典。`
12.如權(quán)利要求11所述的裝置,其特征在于,還包括: 次數(shù)確定單元,用于分別統(tǒng)計(jì)所述描述詞詞典包括的各描述詞在所述多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)的次數(shù); 所述篩選單元,具體用于根據(jù)所述描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,以及在所述多個(gè)業(yè)務(wù)對(duì)象的指定描述信息中出現(xiàn)的次數(shù),對(duì)所述描述詞詞典包括的各描述詞進(jìn)行篩選。
13.如權(quán)利要求10所述的裝置,其特征在于,所述篩選單元,具體用于根據(jù)所述描述詞詞典包括的各描述詞分別對(duì)應(yīng)的第一統(tǒng)計(jì)值和第二統(tǒng)計(jì)值,確定所述描述詞詞典包括的各描述詞的綜合分值;并按照綜合分值的高低,對(duì)所述描述詞詞典包括的各描述詞進(jìn)行篩選。
14.如權(quán)利要求10所述的裝置,其特征在于,所述篩選單元,具體用于從所述描述詞詞典包括的各描述詞中,選擇對(duì)應(yīng)的第一統(tǒng)計(jì)值滿足第一預(yù)設(shè)統(tǒng)計(jì)值條件,且對(duì)應(yīng)的第二統(tǒng)計(jì)值滿足第二預(yù)設(shè)統(tǒng)計(jì)值條件的描述詞,組成更新后的描述詞詞典。
15.如權(quán)利要求10所述的裝置,其特征在于,還包括: 第二抽取單元,用于基于所述更新后的描述詞詞典包括的各描述詞,從待處理業(yè)務(wù)對(duì)象的標(biāo)題內(nèi)容中,抽取在所述更新后的描述詞詞典中存在的描述詞; 描述詞補(bǔ)充單元,用于當(dāng)抽取的該描述詞在所述待處理業(yè)務(wù)對(duì)象的指定描述信息中不存在時(shí),將抽取的該描述詞加入到所述待處理業(yè)務(wù)對(duì)象的指定描述信息中,或者,將抽取的該描述詞替換所述待處理業(yè)務(wù)對(duì)象的指定描述信息中的描述詞。
【文檔編號(hào)】G06F17/27GK103870446SQ201210551720
【公開日】2014年6月18日 申請日期:2012年12月18日 優(yōu)先權(quán)日:2012年12月18日
【發(fā)明者】侯磊, 李軍 申請人:阿里巴巴集團(tuán)控股有限公司