將遍歷到的當(dāng)前類二元組數(shù)據(jù)按照地址進(jìn)行去重處理,并統(tǒng)計去重處理后的當(dāng)前類二元組數(shù)據(jù)的數(shù)量;
[0054]為了便于獲取各類二元組數(shù)據(jù)中不同地址的數(shù)量,本實施方式中,通過遍歷各類二元組數(shù)據(jù),并將遍歷到的當(dāng)前類二元組數(shù)據(jù)按照地址進(jìn)行去重處理。
[0055]但由于在去重處理時需要確定地址是否重復(fù),而二元組數(shù)據(jù)中的地址存在格式不同,若直接將兩個地址進(jìn)行比較,會導(dǎo)致由于相同地址的格式不同,而影響去重效果;
[0056]假設(shè)第一個地址為:海淀區(qū)知春路羅莊西里太月圓3號樓底商(近華潤萬家超市),第二個地址為:北京海淀區(qū)知春路羅莊西里太月圓3號樓底商。
[0057]這兩個地址實質(zhì)上指的是同一個地址,但在去重處理時,若直接將這兩個地址進(jìn)行比較,會將這兩個地址確定為不同的地址,而不對其進(jìn)行去重處理,為避免出現(xiàn)該問題,本實施方式中,所述將遍歷到的當(dāng)前類二元組數(shù)據(jù)中的地址進(jìn)行去重處理之前,所述方法還包括:
[0058]將遍歷到的當(dāng)前類二元組數(shù)據(jù)中的地址進(jìn)行格式統(tǒng)一處理。
[0059]下面同樣以上述兩個地址為例來說明格式統(tǒng)一處理,可將所述第一個地址中的括號及括號中的內(nèi)容進(jìn)行刪除,刪除后的第一個地址為:海淀區(qū)知春路羅莊西里太月圓3號樓底商;可將所述第二個地址中的北京進(jìn)行刪除,刪除后的第二個地址為:海淀區(qū)知春路羅莊西里太月圓3號樓底商;
[0060]在對格式統(tǒng)一處理后的兩個地址進(jìn)行比較時,則可明確地確定為相同地址,從而,有效地提高去重處理的準(zhǔn)確率。
[0061]S204:在所述數(shù)量超過預(yù)設(shè)閾值時,將該類二元組數(shù)據(jù)的分割結(jié)果作為連鎖品牌。
[0062]需要說明的是,步驟S204與圖1所示的實施方式的步驟S104相同,在此不再贅述。
[0063]對于方法實施方式,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明實施方式并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明實施方式,某些步驟可以采用其他順序或者同時進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實施方式均屬于優(yōu)選實施方式,所涉及的動作并不一定是本發(fā)明實施方式所必須的。
[0064]圖3是本發(fā)明一種實施方式的基于POI數(shù)據(jù)的連鎖品牌采集裝置的結(jié)構(gòu)框圖;參照圖3,所述裝置包括:
[0065]數(shù)據(jù)提取器301,適于獲取若干POI數(shù)據(jù),從各POI數(shù)據(jù)中分別提取包括名稱和地址的二元組數(shù)據(jù);
[0066]分割聚類器302,適于將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)規(guī)則進(jìn)行分割,并根據(jù)分割結(jié)果對所述二元組數(shù)據(jù)進(jìn)行聚類,以獲得各類二元組數(shù)據(jù);
[0067]數(shù)量獲取器303,適于獲取各類二元組數(shù)據(jù)中不同地址的數(shù)量;
[0068]品牌獲取器304,適于在所述數(shù)量超過預(yù)設(shè)閾值時,將該類二元組數(shù)據(jù)的分割結(jié)果作為連鎖品牌。
[0069]在本發(fā)明的一種可選實施方式中,所述分割聚類器302,進(jìn)一步適于將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)符號進(jìn)行分割,并將所述預(yù)設(shè)符號前的部分作為分割結(jié)果。
[0070]在本發(fā)明的一種可選實施方式中,所述分割聚類器302,進(jìn)一步適于將具有相同分割結(jié)果的二元組數(shù)據(jù)聚為一類,以獲得各類二元組數(shù)據(jù)。
[0071]在本發(fā)明的一種可選實施方式中,所述數(shù)量獲取器303,進(jìn)一步適于遍歷各類二元組數(shù)據(jù),并將遍歷到的當(dāng)前類二元組數(shù)據(jù)按照地址進(jìn)行去重處理,并統(tǒng)計去重處理后的當(dāng)前類二元組數(shù)據(jù)的數(shù)量。
[0072]在本發(fā)明的一種可選實施方式中,所述數(shù)量獲取器303,還適于將遍歷到的當(dāng)前類二元組數(shù)據(jù)中的地址進(jìn)行格式統(tǒng)一處理。
[0073]對于裝置實施方式而言,由于其與方法實施方式基本相似,所以描述的比較簡單,相關(guān)之處參見方法實施方式的部分說明即可。
[0074]應(yīng)當(dāng)注意的是,在本發(fā)明的裝置的各個部件中,根據(jù)其要實現(xiàn)的功能而對其中的部件進(jìn)行了邏輯劃分,但是,本發(fā)明不受限于此,可以根據(jù)需要對各個部件進(jìn)行重新劃分或者組合,例如,可以將一些部件組合為單個部件,或者可以將一些部件進(jìn)一步分解為更多的子部件。
[0075]本發(fā)明的各個部件實施方式可以以硬件實現(xiàn),或者以在一個或者多個處理器上運(yùn)行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施方式的裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機(jī)程序和計算機(jī)程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機(jī)可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0076]應(yīng)該注意的是上述實施方式對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施方式。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計算機(jī)來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
[0077]以上實施方式僅用于說明本發(fā)明,而并非對本發(fā)明的限制,有關(guān)技術(shù)領(lǐng)域的普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術(shù)方案也屬于本發(fā)明的范疇,本發(fā)明的專利保護(hù)范圍應(yīng)由權(quán)利要求限定。
【主權(quán)項】
1.一種基于POI數(shù)據(jù)的連鎖品牌采集方法,其特征在于,所述方法包括: 獲取若干POI數(shù)據(jù),從各POI數(shù)據(jù)中分別提取包括名稱和地址的二元組數(shù)據(jù); 將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)規(guī)則進(jìn)行分割,并根據(jù)分割結(jié)果對所述二元組數(shù)據(jù)進(jìn)行聚類,以獲得各類二元組數(shù)據(jù); 獲取各類二元組數(shù)據(jù)中不同地址的數(shù)量; 在所述數(shù)量超過預(yù)設(shè)閾值時,將該類二元組數(shù)據(jù)的分割結(jié)果作為連鎖品牌。2.如權(quán)利要求1所述的方法,其特征在于,所述將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)規(guī)則進(jìn)行分割,進(jìn)一步包括: 將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)符號進(jìn)行分割,并將所述預(yù)設(shè)符號前的部分作為分割結(jié)果。3.如權(quán)利要求1?2中任一項所述的方法,其特征在于,所述根據(jù)分割結(jié)果對所述二元組數(shù)據(jù)進(jìn)行聚類,以獲得各類二元組數(shù)據(jù),進(jìn)一步包括: 將具有相同分割結(jié)果的二元組數(shù)據(jù)聚為一類,以獲得各類二元組數(shù)據(jù)。4.如權(quán)利要求1?3中任一項所述的方法,其特征在于,所述獲取各類二元組數(shù)據(jù)中不同地址的數(shù)量,進(jìn)一步包括: 遍歷各類二元組數(shù)據(jù),并將遍歷到的當(dāng)前類二元組數(shù)據(jù)按照地址進(jìn)行去重處理,并統(tǒng)計去重處理后的當(dāng)前類二元組數(shù)據(jù)的數(shù)量。5.如權(quán)利要求1?4中任一項所述的方法,其特征在于,所述將遍歷到的當(dāng)前類二元組數(shù)據(jù)中的地址進(jìn)行去重處理之前,所述方法還包括: 將遍歷到的當(dāng)前類二元組數(shù)據(jù)中的地址進(jìn)行格式統(tǒng)一處理。6.一種基于POI數(shù)據(jù)的連鎖品牌采集裝置,其特征在于,所述裝置包括: 數(shù)據(jù)提取器,適于獲取若干POI數(shù)據(jù),從各POI數(shù)據(jù)中分別提取包括名稱和地址的二元組數(shù)據(jù); 分割聚類器,適于將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)規(guī)則進(jìn)行分割,并根據(jù)分割結(jié)果對所述二元組數(shù)據(jù)進(jìn)行聚類,以獲得各類二元組數(shù)據(jù); 數(shù)量獲取器,適于獲取各類二元組數(shù)據(jù)中不同地址的數(shù)量; 品牌獲取器,適于在所述數(shù)量超過預(yù)設(shè)閾值時,將該類二元組數(shù)據(jù)的分割結(jié)果作為連鎖品牌。7.如權(quán)利要6所述的裝置,其特征在于,所述分割聚類器,進(jìn)一步適于將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)符號進(jìn)行分割,并將所述預(yù)設(shè)符號前的部分作為分割結(jié)果。8.如權(quán)利要求6?7中任一項所述的裝置,其特征在于,所述分割聚類器,進(jìn)一步適于將具有相同分割結(jié)果的二元組數(shù)據(jù)聚為一類,以獲得各類二元組數(shù)據(jù)。9.如權(quán)利要求6?8中任一項所述的裝置,其特征在于,所述數(shù)量獲取器,進(jìn)一步適于遍歷各類二元組數(shù)據(jù),并將遍歷到的當(dāng)前類二元組數(shù)據(jù)按照地址進(jìn)行去重處理,并統(tǒng)計去重處理后的當(dāng)前類二元組數(shù)據(jù)的數(shù)量。10.如權(quán)利要求6?9中任一項所述的裝置,其特征在于,所述數(shù)量獲取器,還適于將遍歷到的當(dāng)前類二元組數(shù)據(jù)中的地址進(jìn)行格式統(tǒng)一處理。
【專利摘要】本發(fā)明公開了一種基于POI數(shù)據(jù)的連鎖品牌采集方法及裝置,涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,本發(fā)明通過從各POI數(shù)據(jù)中分別提取包括名稱和地址的二元組數(shù)據(jù),將各二元組數(shù)據(jù)中的名稱按照預(yù)設(shè)規(guī)則進(jìn)行分割,并根據(jù)分割結(jié)果對所述二元組數(shù)據(jù)進(jìn)行聚類,以獲得各類二元組數(shù)據(jù),獲取各類二元組數(shù)據(jù)中不同地址的數(shù)量,在所述數(shù)量超過預(yù)設(shè)閾值時,將該類二元組數(shù)據(jù)的分割結(jié)果作為連鎖品牌,采集連鎖品牌的方式非常簡便,大幅提高了采集效率,并且準(zhǔn)確率和召回率均較高。
【IPC分類】G06F17/30
【公開號】CN105095390
【申請?zhí)枴緾N201510378083
【發(fā)明人】王智廣, 曲冰
【申請人】北京奇虎科技有限公司, 奇智軟件(北京)有限公司
【公開日】2015年11月25日
【申請日】2015年6月30日