国产精品1024永久观看,大尺度欧美暖暖视频在线观看,亚洲宅男精品一区在线观看,欧美日韩一区二区三区视频,2021中文字幕在线观看

  • <option id="fbvk0"></option>
    1. <rt id="fbvk0"><tr id="fbvk0"></tr></rt>
      <center id="fbvk0"><optgroup id="fbvk0"></optgroup></center>
      <center id="fbvk0"></center>

      <li id="fbvk0"><abbr id="fbvk0"><dl id="fbvk0"></dl></abbr></li>

      名稱(chēng)數(shù)據(jù)處理方法及裝置與流程

      文檔序號(hào):12825958閱讀:331來(lái)源:國(guó)知局
      名稱(chēng)數(shù)據(jù)處理方法及裝置與流程

      【技術(shù)領(lǐng)域】

      本申請(qǐng)涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種名稱(chēng)數(shù)據(jù)處理方法及裝置。



      背景技術(shù):

      在實(shí)際應(yīng)用中,用戶(hù)可能需要對(duì)各種名稱(chēng)數(shù)據(jù)進(jìn)行管理。例如,在企業(yè)的客戶(hù)關(guān)系管理(customerrelationshipmanagement,crm)系統(tǒng)中,需要管理大量客戶(hù)的企業(yè)名稱(chēng)。例如,在旅游行業(yè)的信息系統(tǒng)中,需要管理大量旅游景點(diǎn)名稱(chēng)。例如,在教育系統(tǒng)中,需要管理所在轄區(qū)甚至是全國(guó)范圍內(nèi)的學(xué)校名稱(chēng)。例如,在一些銷(xiāo)售商的信息庫(kù)中,需要管理各地的特產(chǎn)名稱(chēng)等。

      各種名稱(chēng)在注冊(cè)時(shí)的規(guī)則較多,另外,相關(guān)業(yè)務(wù)人員在錄入系統(tǒng)時(shí)采用的標(biāo)準(zhǔn)可能不同,例如有些人員可能會(huì)錄入簡(jiǎn)稱(chēng),有些人員可能會(huì)錄入全稱(chēng),這些都會(huì)在管理上帶來(lái)一定困難。為了解決名稱(chēng)數(shù)據(jù)管理過(guò)程中的困難,首要問(wèn)題是能夠從機(jī)器的角度準(zhǔn)確識(shí)別這些名稱(chēng),而目前并沒(méi)有很好的方案解決該問(wèn)題。



      技術(shù)實(shí)現(xiàn)要素:

      本申請(qǐng)的多個(gè)方面提供一種名稱(chēng)數(shù)據(jù)處理方法及裝置,用以解決名稱(chēng)數(shù)據(jù)的識(shí)別問(wèn)題,達(dá)到準(zhǔn)確識(shí)別名稱(chēng)數(shù)據(jù)的目的。

      本申請(qǐng)的一方面,提供一種名稱(chēng)數(shù)據(jù)處理方法,包括:

      獲取待處理名稱(chēng)數(shù)據(jù);

      對(duì)所述待處理名稱(chēng)數(shù)據(jù)進(jìn)行各地域?qū)蛹?jí)上的地域信息解析以及后綴信息解析,以確定所述待處理名稱(chēng)數(shù)據(jù)中的地域信息和后綴信息;

      根據(jù)所述待處理名稱(chēng)數(shù)據(jù)中的地域信息和后綴信息,確定所述待處理名稱(chēng) 數(shù)據(jù)中的個(gè)性化信息。

      本申請(qǐng)的另一方面,提供一種名稱(chēng)數(shù)據(jù)處理裝置,包括:

      獲取模塊,用于獲取待處理名稱(chēng)數(shù)據(jù);

      第一確定模塊,用于對(duì)所述待處理名稱(chēng)數(shù)據(jù)進(jìn)行各地域?qū)蛹?jí)上的地域信息解析以及后綴信息解析,以確定所述待處理名稱(chēng)數(shù)據(jù)中的地域信息和后綴信息;

      第二確定模塊,用于根據(jù)所述待處理名稱(chēng)數(shù)據(jù)中的地域信息和后綴信息,確定所述待處理名稱(chēng)數(shù)據(jù)中的個(gè)性化信息。

      在本申請(qǐng)中,在獲取待處理名稱(chēng)數(shù)據(jù)之后,對(duì)待處理名稱(chēng)數(shù)據(jù)進(jìn)行各地域?qū)蛹?jí)上的地域信息解析以及后綴信息解析,從而確定待處理名稱(chēng)數(shù)據(jù)中的地域信息和后綴信息,進(jìn)而根據(jù)確定出的地域信息和后綴信息,確定待處理名稱(chēng)數(shù)據(jù)中的個(gè)性化信息,實(shí)現(xiàn)對(duì)待處理名稱(chēng)數(shù)據(jù)的識(shí)別,為管理名稱(chēng)數(shù)據(jù)提供了便利條件。

      【附圖說(shuō)明】

      為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

      圖1為本申請(qǐng)一實(shí)施例提供的名稱(chēng)數(shù)據(jù)處理方法的流程示意圖;

      圖2為本申請(qǐng)另一實(shí)施例提供的名稱(chēng)數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖;

      圖3為本申請(qǐng)又一實(shí)施例提供的名稱(chēng)數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。

      【具體實(shí)施方式】

      為使本申請(qǐng)實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然, 所描述的實(shí)施例是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例。基于本申請(qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。

      圖1為本申請(qǐng)一實(shí)施例提供的名稱(chēng)數(shù)據(jù)處理方法的流程示意圖。如圖1所示,該方法包括:

      101、獲取待處理名稱(chēng)數(shù)據(jù)。

      102、對(duì)上述待處理名稱(chēng)數(shù)據(jù)進(jìn)行各地域?qū)蛹?jí)上的地域信息解析以及后綴信息解析,以確定待處理名稱(chēng)數(shù)據(jù)中的地域信息和后綴信息。

      103、根據(jù)上述待處理名稱(chēng)數(shù)據(jù)中的地域信息和后綴信息,確定待處理名稱(chēng)數(shù)據(jù)中的個(gè)性化信息。

      本實(shí)施例提供一種名稱(chēng)數(shù)據(jù)處理方法,用以實(shí)現(xiàn)對(duì)名稱(chēng)數(shù)據(jù)的解析,確定名稱(chēng)數(shù)據(jù)中的地域信息、后綴信息以及個(gè)性化信息,從而達(dá)到識(shí)別名稱(chēng)數(shù)據(jù)的目的,為名稱(chēng)數(shù)據(jù)的管理工作提供便利條件。

      本實(shí)施例提供的名稱(chēng)數(shù)據(jù)處理方法可以對(duì)任何名稱(chēng)數(shù)據(jù)進(jìn)行處理,例如可以是企業(yè)名稱(chēng)、旅游景點(diǎn)名稱(chēng)、學(xué)校名稱(chēng)、地方特產(chǎn)名稱(chēng)等。相應(yīng)的,執(zhí)行該名稱(chēng)數(shù)據(jù)處理方法的裝置(即名稱(chēng)數(shù)據(jù)處理裝置)可以是位于各應(yīng)用場(chǎng)景中的管理系統(tǒng)中實(shí)現(xiàn),例如可作為crm系統(tǒng)中的功能模塊用以對(duì)企業(yè)名稱(chēng)進(jìn)行識(shí)別,或者可作為旅游行業(yè)的信息系統(tǒng)中的功能模塊用以對(duì)各旅游景點(diǎn)名稱(chēng)進(jìn)行識(shí)別,等等。除此之外,名稱(chēng)數(shù)據(jù)處理裝置也可以獨(dú)立于各應(yīng)用場(chǎng)景中的管理系統(tǒng),但可以與各應(yīng)用場(chǎng)景中的管理系統(tǒng)進(jìn)行通信。

      為便于描述和區(qū)分,本實(shí)施例將需要進(jìn)行處理的名稱(chēng)數(shù)據(jù)稱(chēng)為待處理名稱(chēng)數(shù)據(jù)。

      在需要識(shí)別名稱(chēng)數(shù)據(jù)的應(yīng)用場(chǎng)景中,名稱(chēng)數(shù)據(jù)處理裝置獲取待處理名稱(chēng)數(shù)據(jù)。例如用戶(hù)可以手動(dòng)輸入待處理名稱(chēng)數(shù)據(jù),或者是名稱(chēng)數(shù)據(jù)處理裝置可以根據(jù)處理指令,從其它設(shè)備上讀取待處理名稱(chēng)數(shù)據(jù)。

      在獲取待處理名稱(chēng)數(shù)據(jù)之后,名稱(chēng)數(shù)據(jù)處理裝置可以對(duì)待處理名稱(chēng)數(shù)據(jù)進(jìn)行識(shí)別。一般來(lái)說(shuō),名稱(chēng)數(shù)據(jù)都有一定的命名規(guī)則。當(dāng)然根據(jù)應(yīng)用場(chǎng)景的不同, 名稱(chēng)數(shù)據(jù)的命名規(guī)則也會(huì)有所不同。

      以企業(yè)名稱(chēng)為例,一般包括行政區(qū)域、字號(hào)以及行業(yè)特征等信息,行政區(qū)域用于指示企業(yè)所在地,可理解為名稱(chēng)數(shù)據(jù)中的地域信息;字號(hào)一般是指企業(yè)自己設(shè)置的個(gè)性化信息;行業(yè)特征用于指示企業(yè)類(lèi)別或?qū)傩裕瑢儆诿Q(chēng)數(shù)據(jù)中的后綴。例如,以溫州市三明電器有限公司為例,溫州市屬于地域信息,三明電器屬于個(gè)性化信息,而有限公司屬于后綴信息。

      以旅游景點(diǎn)名稱(chēng)為例,一般會(huì)包括景點(diǎn)所在地,景點(diǎn)所屬類(lèi)型以及一些類(lèi)似“景區(qū)”、“風(fēng)景區(qū)”、“度假村”等后綴信息。常見(jiàn)的旅游景點(diǎn)名稱(chēng)有陜西華山風(fēng)景區(qū)、山東泰山風(fēng)景名勝區(qū)、北京大興區(qū)野生動(dòng)物園、北京香山植物園等。

      由上述分析可知,對(duì)于主要包括地域信息、個(gè)性化信息以及后綴信息的名稱(chēng)數(shù)據(jù),對(duì)這些名稱(chēng)數(shù)據(jù)的識(shí)別過(guò)程實(shí)際上就是確定這些名稱(chēng)數(shù)據(jù)中的地域信息、個(gè)性化信息以及后綴信息的過(guò)程。

      具體的,名稱(chēng)數(shù)據(jù)處理裝置對(duì)待處理名稱(chēng)數(shù)據(jù)進(jìn)行各地域?qū)蛹?jí)上的地域信息解析以及后綴信息解析,以確定待處理名稱(chēng)數(shù)據(jù)中的地域信息和后綴信息,之后,根據(jù)所確定的地域信息和后綴信息,確定待處理名稱(chēng)數(shù)據(jù)中的個(gè)性化信息。

      值得說(shuō)明的是,本實(shí)施例并不限定地域信息解析過(guò)程與后綴信息解析過(guò)程之間的執(zhí)行順序,可以并行執(zhí)行,也可以順序執(zhí)行。

      在本實(shí)施例中,考慮到地域信息之間的層級(jí)關(guān)系,例如省、市、區(qū)/縣,為了能夠精確確定名稱(chēng)數(shù)據(jù)中的地域信息,本實(shí)施例對(duì)待處理名稱(chēng)數(shù)據(jù)在各地域?qū)蛹?jí)上進(jìn)行地域信息解析,以便解析出待處理名稱(chēng)數(shù)據(jù)中各地域?qū)蛹?jí)上的地域信息。

      為了便于對(duì)名稱(chēng)數(shù)據(jù)進(jìn)行地域信息解析,預(yù)先生成各地域?qū)蛹?jí)對(duì)應(yīng)的地域信息表。在各地域?qū)蛹?jí)對(duì)應(yīng)的地域信息表中,存儲(chǔ)有對(duì)應(yīng)地域?qū)蛹?jí)上的所有地域信息。例如,以省對(duì)應(yīng)的地域信息表為例,該地域信息表中存儲(chǔ)有全國(guó)各省的名稱(chēng)或簡(jiǎn)稱(chēng)等可唯一標(biāo)識(shí)具體省份的信息。可選的,地域信息表可以是hash 表。優(yōu)選的,可以取各地域信息中指定數(shù)量(例如3個(gè))的字符作鍵值對(duì)中的鍵(key)。

      在對(duì)待處理名稱(chēng)數(shù)據(jù)進(jìn)行地域信息解析之前,可以預(yù)先將各地域?qū)蛹?jí)對(duì)應(yīng)的地域信息表加載到緩存中,以便提高解析效率。

      另外,為了解析出待處理名稱(chēng)數(shù)據(jù)中的后綴信息,預(yù)先建立后綴信息表,該后綴信息表中存儲(chǔ)有待處理名稱(chēng)數(shù)據(jù)所屬應(yīng)用場(chǎng)景中一些常見(jiàn)的后綴信息,例如有限公司、責(zé)任有限公司等。基于此,可以將待處理名稱(chēng)數(shù)據(jù)去除已經(jīng)解析出的地域信息之后剩余的部分?jǐn)?shù)據(jù)在后綴信息表中進(jìn)行匹配,如果匹配到該剩余的部分?jǐn)?shù)據(jù)中包含后綴信息表中某個(gè)后綴信息,則可以將該后綴信息作為待處理名稱(chēng)數(shù)據(jù)中的后綴信息。

      在一可選實(shí)施方式中,名稱(chēng)數(shù)據(jù)處理裝置具體可以根據(jù)各地域?qū)蛹?jí)對(duì)應(yīng)的地域信息表,對(duì)待處理名稱(chēng)數(shù)據(jù)進(jìn)行各地域?qū)蛹?jí)上的地域信息解析,以確定待處理名稱(chēng)數(shù)據(jù)中的地域信息;然后,根據(jù)預(yù)設(shè)的后綴信息表,對(duì)待處理名稱(chēng)數(shù)據(jù)去除已確定的該待處理名稱(chēng)數(shù)據(jù)中的地域信息后剩余的部分?jǐn)?shù)據(jù)進(jìn)行后綴解析,以確定待處理名稱(chēng)數(shù)據(jù)中的后綴信息。在該實(shí)施方式中,名稱(chēng)數(shù)據(jù)處理裝置先行解析地域信息,再行解析后綴信息,這樣可以按照從左到右的順序依次對(duì)待處理名稱(chēng)數(shù)據(jù)進(jìn)行解析,符合常規(guī)處理邏輯,并且從解析出地域信息之后剩余的部分?jǐn)?shù)據(jù)中再行解析后綴信息,與從整個(gè)待處理名稱(chēng)數(shù)據(jù)中解析后綴數(shù)據(jù)相比,所需處理的數(shù)據(jù)量相對(duì)較小,有利于提高解析效率。

      進(jìn)一步,考慮到在地域信息中,一般也是按照地域?qū)蛹?jí)由高到低的順序進(jìn)行排序,因此,名稱(chēng)數(shù)據(jù)處理裝置具體可以按照地域?qū)蛹?jí)由高到低的順序,根據(jù)每一地域?qū)蛹?jí)對(duì)應(yīng)的地域信息表,對(duì)待處理名稱(chēng)數(shù)據(jù)進(jìn)行每一地域?qū)蛹?jí)上的地域信息解析,以確定待處理名稱(chēng)數(shù)據(jù)中每一地域?qū)蛹?jí)上的地域信息;將待處理名稱(chēng)數(shù)據(jù)中每一地域?qū)蛹?jí)上的地域信息進(jìn)行組裝,以獲得待處理名稱(chēng)數(shù)據(jù)中的地域信息。例如,以省、市、區(qū)/縣三個(gè)層級(jí)為例,可以先解析省,再解析市,最后解析區(qū)/縣。

      在每一地域?qū)蛹?jí)上的地域信息解析過(guò)程具體如下:

      將待處理名稱(chēng)數(shù)據(jù)或待處理名稱(chēng)數(shù)據(jù)去除當(dāng)前地域?qū)蛹?jí)之前已解析出的各地域?qū)蛹?jí)上的地域信息后剩余的部分?jǐn)?shù)據(jù)作為待匹配數(shù)據(jù);

      按照從左到右的順序,從待匹配數(shù)據(jù)中讀取指定數(shù)量的字符;

      判斷指定數(shù)量的字符是否存在于當(dāng)前地域?qū)蛹?jí)對(duì)應(yīng)的地域信息表中;

      當(dāng)指定數(shù)量的字符存在于當(dāng)前地域?qū)蛹?jí)對(duì)應(yīng)的地域信息表中時(shí),說(shuō)明指定數(shù)量的字符代表當(dāng)前地域?qū)蛹?jí)上的地域信息,于是將指定數(shù)量的字符作為待處理名稱(chēng)數(shù)據(jù)在當(dāng)前地域?qū)蛹?jí)上的地域信息,并進(jìn)入下一地域?qū)蛹?jí)上的地域信息解析流程或后綴信息解析流程;

      當(dāng)指定數(shù)量的字符不存在于當(dāng)前地域?qū)蛹?jí)對(duì)應(yīng)的地域信息表中時(shí),進(jìn)入下一地域?qū)蛹?jí)上的地域信息解析流程或后綴信息解析流程。

      如果當(dāng)前地域?qū)蛹?jí)是預(yù)設(shè)地域?qū)蛹?jí)關(guān)系中的最高地域?qū)蛹?jí),則需要將待處理名稱(chēng)數(shù)據(jù)作為待匹配數(shù)據(jù)。如果當(dāng)前地域?qū)蛹?jí)是預(yù)設(shè)地域?qū)蛹?jí)關(guān)系中的非最高地域?qū)蛹?jí),則需要獲取待處理名稱(chēng)數(shù)據(jù)去除當(dāng)前地域?qū)蛹?jí)之前已解析出的各地域?qū)蛹?jí)上的地域信息后剩余的部分?jǐn)?shù)據(jù)作為待匹配數(shù)據(jù)。如果當(dāng)前地域?qū)蛹?jí)是預(yù)設(shè)地域?qū)蛹?jí)關(guān)系中的非最低地域?qū)蛹?jí),則在執(zhí)行完當(dāng)前地域?qū)蛹?jí)上的地域信息解析流程之后進(jìn)入下一地域?qū)蛹?jí)上的地域信息解析流程。如果當(dāng)前地域?qū)蛹?jí)是預(yù)設(shè)地域?qū)蛹?jí)關(guān)系中的最低地域?qū)蛹?jí),則在執(zhí)行完當(dāng)前地域?qū)蛹?jí)上的地域信息解析流程之后進(jìn)入后綴信息解析流程。

      進(jìn)一步可選的,考慮到一些特殊情況,例如用戶(hù)手寫(xiě)錯(cuò)誤,從而出現(xiàn)類(lèi)似“河北省溫州市三明電器有限公司”這樣的名稱(chēng)數(shù)據(jù)。為了能夠及時(shí)發(fā)現(xiàn)名稱(chēng)數(shù)據(jù)中的地域信息的錯(cuò)誤,本實(shí)施例在將指定數(shù)量的字符作為待處理名稱(chēng)數(shù)據(jù)在當(dāng)前地域?qū)蛹?jí)上的地域信息之前,執(zhí)行以下操作:

      判斷待處理名稱(chēng)數(shù)據(jù)是否具有上一地域?qū)蛹?jí)上的地域信息;

      若待處理名稱(chēng)數(shù)據(jù)具有上一地域?qū)蛹?jí)上的地域信息,判斷指定數(shù)量的字符與上一地域?qū)蛹?jí)上的地域信息是否滿(mǎn)足所屬關(guān)系;

      若待處理名稱(chēng)數(shù)據(jù)不具有上一地域?qū)蛹?jí)上的地域信息,或者指定數(shù)量的字符與上一地域?qū)蛹?jí)上的地域信息滿(mǎn)足所屬關(guān)系,將指定數(shù)量的字符作為待處理 名稱(chēng)數(shù)據(jù)在當(dāng)前地域?qū)蛹?jí)上的地域信息。

      進(jìn)一步,若指定數(shù)量的字符與上一地域?qū)蛹?jí)上的地域信息不滿(mǎn)足所屬關(guān)系,則進(jìn)入下一地域?qū)蛹?jí)上的地域信息解析流程或后綴信息解析流程,并輸出匹配異常警示信息。例如,以河北省溫州市三明電器有限公司為例,假設(shè)上述指定數(shù)量的字符為溫州市,經(jīng)過(guò)判斷發(fā)現(xiàn)該溫州市與公司名稱(chēng)在上一地域?qū)蛹?jí)上的地域信息(即河北省)不滿(mǎn)足所屬關(guān)系,溫州市屬于浙江省而不是河北省,此時(shí)不將溫州市作為當(dāng)前地域?qū)蛹?jí)上的地域信息,該公司名稱(chēng)中的地域信息僅包括河北省這一層級(jí)??蛇x的,此時(shí)可以結(jié)束整個(gè)地域信息解析流程,或者如果當(dāng)前地域?qū)蛹?jí)是地域?qū)蛹?jí)關(guān)系中的非最低地域?qū)蛹?jí),則在執(zhí)行完當(dāng)前地域?qū)蛹?jí)上的地域信息解析流程之后進(jìn)入下一地域?qū)蛹?jí)上的地域信息解析流程,只是在其它地域?qū)蛹?jí)上的地域信息解析均會(huì)失敗,無(wú)法解析出相應(yīng)地域?qū)蛹?jí)上的地域信息。另外,為了便于查錯(cuò),還可以向用戶(hù)或管理人員發(fā)出異常警示信息,以提示用戶(hù)或管理人員手動(dòng)檢查該公司名稱(chēng)中的錯(cuò)誤。

      進(jìn)一步,在上述過(guò)程中還可以做一些特殊處理,例如上海市和上海省實(shí)際上是同一個(gè)地方,因此在碰到類(lèi)似上海市和上海省之間的判斷時(shí),可以取其中任意一個(gè)作為地域信息。

      進(jìn)一步,除了預(yù)先建立地域信息表和后綴信息表,還可以建立自定義信息表。在自定義信息表中主要存儲(chǔ)一些需要特殊處理的字符,例如括號(hào)及括號(hào)內(nèi)的信息,英文符號(hào)等。當(dāng)名稱(chēng)數(shù)據(jù)中出現(xiàn)這些字符時(shí),可以對(duì)這些字符進(jìn)行一些特殊處理,例如去除或者利用正則表達(dá)式進(jìn)行替換。例如將名稱(chēng)數(shù)據(jù)中的“(普通合伙)”去除,或者將其替換為“普通合伙”,這樣可以避免這些特殊字符帶來(lái)的識(shí)別困擾,有利于提高識(shí)別精度。

      在一可選實(shí)施方式中,基于上述自定義信息表,在對(duì)待處理名稱(chēng)數(shù)據(jù)進(jìn)行各地域?qū)蛹?jí)上的地域信息解析以及后綴信息解析之前,可以預(yù)先根據(jù)自定義信息表,將待處理名稱(chēng)數(shù)據(jù)中指定的字符去除或用正則表達(dá)式替換,以實(shí)現(xiàn)對(duì)待處理名稱(chēng)數(shù)據(jù)的預(yù)處理,為后續(xù)識(shí)別待處理名稱(chēng)數(shù)據(jù)提供良好的條件。

      在另一可選實(shí)施方式中,考慮到這些特殊字符多數(shù)會(huì)出現(xiàn)在用戶(hù)自定義的 個(gè)性化信息這一部分,因此也可以在獲得地域信息和后綴信息之后,基于上述自定義信息表,對(duì)剩下的部分?jǐn)?shù)據(jù)進(jìn)行修正處理。具體的,名稱(chēng)數(shù)據(jù)處理裝置可以根據(jù)待處理名稱(chēng)數(shù)據(jù)中的地域信息和后綴信息,確定待處理名稱(chēng)數(shù)據(jù)中的初始個(gè)性化信息;根據(jù)自定義信息表,將初始個(gè)性化信息中的指定字符去除或用戶(hù)正則表達(dá)式替換,以獲得待處理名稱(chēng)數(shù)據(jù)中的個(gè)性化信息。

      由上可見(jiàn),本實(shí)施例通過(guò)對(duì)待處理名稱(chēng)數(shù)據(jù)進(jìn)行各地域?qū)蛹?jí)上的地域信息解析以及后綴信息解析,可以確定待處理名稱(chēng)數(shù)據(jù)中的地域信息和后綴信息,進(jìn)而可以根據(jù)確定出的地域信息和后綴信息,確定待處理名稱(chēng)數(shù)據(jù)中的個(gè)性化信息,實(shí)現(xiàn)對(duì)待處理名稱(chēng)數(shù)據(jù)的識(shí)別,為管理名稱(chēng)數(shù)據(jù)提供了便利條件。

      另外,本實(shí)施例從名稱(chēng)數(shù)據(jù)中區(qū)分地域信息、個(gè)性化信息以及后綴信息,基于這三部分信息進(jìn)行名稱(chēng)數(shù)據(jù)的識(shí)別,能夠準(zhǔn)確識(shí)別名稱(chēng)數(shù)據(jù),有利于避免識(shí)別錯(cuò)誤,提高識(shí)別精度。例如,對(duì)于溫州市三明電器有限公司和淄博三明電器有限公司這兩個(gè)企業(yè)名稱(chēng),在現(xiàn)有技術(shù)方案中,由于對(duì)地域信息的識(shí)別是粗粒度的,不能精準(zhǔn)匹配到個(gè)性化信息,會(huì)將上述兩個(gè)企業(yè)名稱(chēng)判定為同一個(gè)企業(yè)名稱(chēng),但實(shí)際上卻是兩個(gè)不同企業(yè)的名稱(chēng),而采用本實(shí)施例提供的方法可以準(zhǔn)確識(shí)別出各地域?qū)蛹?jí)上的地域信息,對(duì)于上述兩個(gè)企業(yè)名稱(chēng),可以識(shí)別出一個(gè)是溫州市,一個(gè)是淄博,從地域信息上可以確定這兩個(gè)企業(yè)名稱(chēng),而不是同一家公司的名稱(chēng),達(dá)到準(zhǔn)確識(shí)別的目的。

      再者,本實(shí)施例不僅可以識(shí)別出名稱(chēng)數(shù)據(jù)中的地域信息,而且可以精確識(shí)別出各地域?qū)蛹?jí)上的地域信息,實(shí)現(xiàn)地域信息的精確識(shí)別,例如能夠精確識(shí)別名稱(chēng)數(shù)據(jù)中的省/市/區(qū)三級(jí)結(jié)構(gòu)。

      在識(shí)別出待處理名稱(chēng)數(shù)據(jù)中的地域信息、個(gè)性化信息和后綴信息之后,可以基于所識(shí)別的地域信息、個(gè)性化信息和后綴信息進(jìn)行名稱(chēng)數(shù)據(jù)的去重、存儲(chǔ)或查找。

      具體的,在確定待處理名稱(chēng)數(shù)據(jù)中的地域信息、后綴信息和個(gè)性化信息之后,還可以根據(jù)待處理名稱(chēng)數(shù)據(jù)中的地域信息、后綴信息和個(gè)性化信息,在名稱(chēng)數(shù)據(jù)庫(kù)中進(jìn)行匹配;名稱(chēng)數(shù)據(jù)庫(kù)中存儲(chǔ)有已有的名稱(chēng)數(shù)據(jù);若未在名稱(chēng)數(shù)據(jù) 中匹配到與待處理名稱(chēng)數(shù)據(jù)中的地域信息、后綴信息和個(gè)性化信息對(duì)應(yīng)的名稱(chēng)數(shù)據(jù),意味著名稱(chēng)數(shù)據(jù)庫(kù)中尚未存在該待處理名稱(chēng)數(shù)據(jù),于是可以將待處理名稱(chēng)數(shù)據(jù)存儲(chǔ)到名稱(chēng)數(shù)據(jù)庫(kù)中。若在名稱(chēng)數(shù)據(jù)中匹配到與待處理名稱(chēng)數(shù)據(jù)中的地域信息、后綴信息和個(gè)性化信息對(duì)應(yīng)的名稱(chēng)數(shù)據(jù),意味著名稱(chēng)數(shù)據(jù)庫(kù)中已經(jīng)存在于待處理名稱(chēng)數(shù)據(jù)中,則無(wú)需再將該待處理名稱(chēng)數(shù)據(jù)存儲(chǔ)到名稱(chēng)數(shù)據(jù)庫(kù)中或者可以從名稱(chēng)數(shù)據(jù)庫(kù)中讀取該待處理名稱(chēng)數(shù)據(jù)。由此可見(jiàn),通過(guò)該實(shí)施方式可以進(jìn)行名稱(chēng)數(shù)據(jù)的去重、存儲(chǔ)或查找。

      進(jìn)一步,在實(shí)際應(yīng)用中,經(jīng)常出現(xiàn)類(lèi)似“淄博三明電器有限公司”這樣的名稱(chēng)數(shù)據(jù),在這類(lèi)名稱(chēng)數(shù)據(jù)中,只包含市級(jí)的地域信息,未包含省級(jí)的地域信息,屬于不完整的地域信息。為了便于使用,在確定待處理名稱(chēng)數(shù)據(jù)中的地域信息之后,可以判斷該地域信息是否完整;如果判斷結(jié)果為否,則可以按照地域?qū)蛹?jí)由高到低的順序,對(duì)待處理名稱(chēng)數(shù)據(jù)中的地域信息進(jìn)行補(bǔ)全。例如,可以將“淄博三明電器有限公司”中的地域信息由淄博市補(bǔ)全為山東省淄博市。又例如,可以將“溫州市三明電器有限公司”中的地域信息由溫州市補(bǔ)全為浙江省溫州市。

      基于上述,在進(jìn)行名稱(chēng)數(shù)據(jù)的去重、存儲(chǔ)或查詢(xún)時(shí),可以根據(jù)待處理名稱(chēng)數(shù)據(jù)中經(jīng)補(bǔ)全后的地域信息、個(gè)性化信息以及后綴信息,在名稱(chēng)數(shù)據(jù)庫(kù)中進(jìn)行匹配;并根據(jù)匹配結(jié)果進(jìn)行相應(yīng)處理,例如存儲(chǔ)、丟棄或讀取等。通過(guò)對(duì)地域信息進(jìn)行補(bǔ)全,可以進(jìn)一步提高識(shí)別精度,降低誤判概率。例如,對(duì)于像a市b區(qū)和b市b區(qū)這兩種情況,若直接使用b區(qū)進(jìn)行匹配,有可能發(fā)生誤匹配,即將a市的b區(qū)誤認(rèn)為是b市的b區(qū),但是經(jīng)過(guò)補(bǔ)全之后,地域信息更加精確,可以輕易區(qū)分是a市b區(qū)還是b市b區(qū),進(jìn)而區(qū)分兩個(gè)名稱(chēng)數(shù)據(jù)是否相同,有利于提高識(shí)別精度。

      需要說(shuō)明的是,對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本申請(qǐng)并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本申請(qǐng),某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描述的實(shí)施例均屬于優(yōu)選實(shí)施 例,所涉及的動(dòng)作和模塊并不一定是本申請(qǐng)所必須的。

      在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒(méi)有詳述的部分,可以參見(jiàn)其他實(shí)施例的相關(guān)描述。

      圖2為本申請(qǐng)另一實(shí)施例提供的名稱(chēng)數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。如圖2所示,該裝置包括:獲取模塊21、第一確定模塊22和第二確定模塊23。

      獲取模塊21,用于獲取待處理名稱(chēng)數(shù)據(jù)。

      第一確定模塊22,用于對(duì)獲取模塊21獲取的待處理名稱(chēng)數(shù)據(jù)進(jìn)行各地域?qū)蛹?jí)上的地域信息解析以及后綴信息解析,以確定待處理名稱(chēng)數(shù)據(jù)中的地域信息和后綴信息。

      第二確定模塊23,用于根據(jù)第一確定模塊22確定出的待處理名稱(chēng)數(shù)據(jù)中的地域信息和后綴信息,確定待處理名稱(chēng)數(shù)據(jù)中的個(gè)性化信息。

      在一可選實(shí)施方式中,第一確定模塊22具體用于:

      根據(jù)各地域?qū)蛹?jí)對(duì)應(yīng)的地域信息表,對(duì)待處理名稱(chēng)數(shù)據(jù)進(jìn)行各地域?qū)蛹?jí)上的地域信息解析,以確定待處理名稱(chēng)數(shù)據(jù)中的地域信息;

      根據(jù)預(yù)設(shè)的后綴信息表,對(duì)待處理名稱(chēng)數(shù)據(jù)去除待處理名稱(chēng)數(shù)據(jù)中的地域信息后剩余的部分?jǐn)?shù)據(jù)進(jìn)行后綴信息解析,以確定待處理名稱(chēng)數(shù)據(jù)中的后綴信息。

      進(jìn)一步,第一確定模塊22在根據(jù)各地域?qū)蛹?jí)對(duì)應(yīng)的地域信息表,對(duì)待處理名稱(chēng)數(shù)據(jù)進(jìn)行各地域?qū)蛹?jí)上的地域信息解析,以確定待處理名稱(chēng)數(shù)據(jù)中的地域信息時(shí),具體用于:

      按照地域?qū)蛹?jí)由高到低的順序,根據(jù)每一地域?qū)蛹?jí)對(duì)應(yīng)的地域信息表,對(duì)待處理名稱(chēng)數(shù)據(jù)進(jìn)行每一地域?qū)蛹?jí)上的地域信息解析,以確定待處理名稱(chēng)數(shù)據(jù)中每一地域?qū)蛹?jí)上的地域信息;

      將待處理名稱(chēng)數(shù)據(jù)中每一地域?qū)蛹?jí)上的地域信息進(jìn)行組裝,以獲得待處理名稱(chēng)數(shù)據(jù)中的地域信息。

      更進(jìn)一步,第一確定模塊22在按照地域?qū)蛹?jí)由高到低的順序,根據(jù)每一地域?qū)蛹?jí)對(duì)應(yīng)的地域信息表,對(duì)待處理名稱(chēng)數(shù)據(jù)進(jìn)行每一地域?qū)蛹?jí)上的地域信息 解析,以確定待處理名稱(chēng)數(shù)據(jù)中每一地域?qū)蛹?jí)上的地域信息時(shí),具體用于:

      將待處理名稱(chēng)數(shù)據(jù)或待處理名稱(chēng)數(shù)據(jù)去除當(dāng)前地域?qū)蛹?jí)之前已解析出的各地域?qū)蛹?jí)上的地域信息后剩余的部分?jǐn)?shù)據(jù)作為待匹配數(shù)據(jù);

      按照從左到右的順序,從待匹配數(shù)據(jù)中讀取指定數(shù)量的字符;

      判斷指定數(shù)量的字符是否存在于當(dāng)前地域?qū)蛹?jí)對(duì)應(yīng)的地域信息表中;當(dāng)指定數(shù)量的字符存在于當(dāng)前地域?qū)蛹?jí)對(duì)應(yīng)的地域信息表中時(shí),將指定數(shù)量的字符作為待處理名稱(chēng)數(shù)據(jù)在當(dāng)前地域?qū)蛹?jí)上的地域信息,并進(jìn)入下一地域?qū)蛹?jí)上的地域信息解析流程或后綴信息解析流程;

      當(dāng)指定數(shù)量的字符不存在于當(dāng)前地域?qū)蛹?jí)對(duì)應(yīng)的地域信息表中時(shí),進(jìn)入下一地域?qū)蛹?jí)上的地域信息解析流程或后綴信息解析流程。

      更進(jìn)一步,第一確定模塊22在將指定數(shù)量的字符作為待處理名稱(chēng)數(shù)據(jù)在當(dāng)前地域?qū)蛹?jí)上的地域信息時(shí),具體用于:

      判斷待處理名稱(chēng)數(shù)據(jù)是否具有上一地域?qū)蛹?jí)上的地域信息;

      若待處理名稱(chēng)數(shù)據(jù)具有上一地域?qū)蛹?jí)上的地域信息,判斷指定數(shù)量的字符與上一地域?qū)蛹?jí)上的地域信息是否滿(mǎn)足所屬關(guān)系;

      若待處理名稱(chēng)數(shù)據(jù)不具有上一地域?qū)蛹?jí)上的地域信息,或者指定數(shù)量的字符與上一地域?qū)蛹?jí)上的地域信息滿(mǎn)足所屬關(guān)系,將指定數(shù)量的字符作為待處理名稱(chēng)數(shù)據(jù)在當(dāng)前地域?qū)蛹?jí)上的地域信息。

      更進(jìn)一步,第一確定模塊22還用于:

      若指定數(shù)量的字符與上一地域?qū)蛹?jí)上的地域信息不滿(mǎn)足所屬關(guān)系,進(jìn)入下一地域?qū)蛹?jí)上的地域信息解析流程或后綴信息解析流程,并輸出匹配異常警示信息。

      在一可選實(shí)施方式中,第二確定模塊23具體用于:

      將待處理名稱(chēng)數(shù)據(jù)去除待處理名稱(chēng)數(shù)據(jù)中的地域信息和后綴信息后剩余的部分?jǐn)?shù)據(jù),作為待處理名稱(chēng)數(shù)據(jù)中的初始個(gè)性化信息;

      根據(jù)預(yù)設(shè)的自定義規(guī)則表,將待處理名稱(chēng)數(shù)據(jù)中的初始個(gè)性化信息中的指定字符去除或用正則表達(dá)式進(jìn)行替換,以獲得待處理名稱(chēng)數(shù)據(jù)中的個(gè)性化信息。

      在一可選實(shí)施方式中,第一確定模塊22在對(duì)獲取模塊21獲取的待處理名稱(chēng)數(shù)據(jù)進(jìn)行各地域?qū)蛹?jí)上的地域信息解析以及后綴信息解析,以確定待處理名稱(chēng)數(shù)據(jù)中的地域信息和后綴信息之前,還用于:

      根據(jù)預(yù)設(shè)的自定義規(guī)則表,將待處理名稱(chēng)數(shù)據(jù)中的指定字符去除或用正則表達(dá)式替換。

      進(jìn)一步,如圖3所示,該裝置還包括:匹配模塊24和存儲(chǔ)模塊25。

      匹配模塊24,用于根據(jù)待處理名稱(chēng)數(shù)據(jù)中的地域信息、后綴信息和個(gè)性化信息,在名稱(chēng)數(shù)據(jù)庫(kù)中進(jìn)行匹配。

      存儲(chǔ)模塊25,用于在匹配模塊24未在名稱(chēng)數(shù)據(jù)中匹配到與待處理名稱(chēng)數(shù)據(jù)中的地域信息、后綴信息和個(gè)性化信息對(duì)應(yīng)的名稱(chēng)數(shù)據(jù)時(shí),將待處理名稱(chēng)數(shù)據(jù)存儲(chǔ)到名稱(chēng)數(shù)據(jù)庫(kù)中。

      進(jìn)一步,匹配模塊24還用于:在根據(jù)待處理名稱(chēng)數(shù)據(jù)中的地域信息、后綴信息和個(gè)性化信息,在名稱(chēng)數(shù)據(jù)庫(kù)中進(jìn)行匹配之前,判斷待處理名稱(chēng)數(shù)據(jù)中的地域信息是否完整,并在判斷結(jié)果為否時(shí),按照地域?qū)蛹?jí)由高到低的順序,對(duì)待處理名稱(chēng)數(shù)據(jù)中的地域信息進(jìn)行補(bǔ)全。

      本實(shí)施例提供的名稱(chēng)數(shù)據(jù)處理裝置,在獲取待處理名稱(chēng)數(shù)據(jù)之后,對(duì)待處理名稱(chēng)數(shù)據(jù)進(jìn)行各地域?qū)蛹?jí)上的地域信息解析以及后綴信息解析,從而確定待處理名稱(chēng)數(shù)據(jù)中的地域信息和后綴信息,進(jìn)而根據(jù)確定出的地域信息和后綴信息,確定待處理名稱(chēng)數(shù)據(jù)中的個(gè)性化信息,實(shí)現(xiàn)對(duì)待處理名稱(chēng)數(shù)據(jù)的識(shí)別,為管理名稱(chēng)數(shù)據(jù)提供了便利條件。

      所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng),裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。

      在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或 一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。

      所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。

      另外,在本申請(qǐng)各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以?xún)蓚€(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。

      上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。上述軟件功能單元存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤(pán)、移動(dòng)硬盤(pán)、只讀存儲(chǔ)器(read-onlymemory,rom)、隨機(jī)存取存儲(chǔ)器(randomaccessmemory,ram)、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。

      最后應(yīng)說(shuō)明的是:以上實(shí)施例僅用以說(shuō)明本申請(qǐng)的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本申請(qǐng)進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本申請(qǐng)各實(shí)施例技術(shù)方案的精神和范圍。

      當(dāng)前第1頁(yè)1 2 
      網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
      • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
      1