本申請涉及地址檢索
技術(shù)領(lǐng)域:
,特別是涉及地址數(shù)據(jù)檢索方法及裝置。
背景技術(shù):
:地址數(shù)據(jù)檢索,就是在輸入一個(gè)檢索文本(該檢索文本一般也是一個(gè)地址文本)時(shí),由檢索引擎在預(yù)置的地址庫中檢索出與該檢索文本相似的至少一條目標(biāo)地址數(shù)據(jù)。例如,在快遞服務(wù)商進(jìn)行包裹配送的過程中,需要根據(jù)收貨地址來選擇為該包裹進(jìn)行派送服務(wù)的網(wǎng)店,然后將包裹從分撥中心發(fā)往該網(wǎng)點(diǎn)。在傳統(tǒng)的方式下,上述分揀的過程是由人工的方式完成的,但是存在不準(zhǔn)確、效率低等問題。在使用地址數(shù)據(jù)檢索技術(shù)的情況下,可以將包裹的收貨地址作為輸入的待搜索地址,在地址庫中搜索出與該地址相似的其他地址,然后再根據(jù)歷史派送記錄中記錄的為其他地址分配的派送網(wǎng)點(diǎn),就可以確定出當(dāng)前的收貨地址對應(yīng)的派送網(wǎng)點(diǎn)。地址數(shù)據(jù)檢索是一類特殊的檢索,以至于在使用傳統(tǒng)的檢索技術(shù)進(jìn)行地址數(shù)據(jù)的檢索時(shí),得到的檢索結(jié)果往往準(zhǔn)確性比較低,或者可能會(huì)匹配出錯(cuò)誤的檢索結(jié)果。這是因?yàn)?,現(xiàn)有的檢索排序理論,主要是將一個(gè)文檔進(jìn)行關(guān)鍵詞分詞,一個(gè)關(guān)鍵詞對應(yīng)多個(gè)包含該關(guān)鍵詞的文檔集合。關(guān)鍵詞檢索時(shí),將待檢索的多個(gè)關(guān)鍵詞所對應(yīng)的文檔集合進(jìn)行交叉運(yùn)算。對檢索結(jié)果進(jìn)行排序時(shí),主要從關(guān)鍵詞的數(shù)量、關(guān)鍵詞在文檔中的位置以及文檔的大小、時(shí)間等這些方面來計(jì)算關(guān)鍵詞的權(quán)重。而地址文本數(shù)據(jù)的特殊性,在于不同的地址關(guān)鍵詞段,所表述的地理語義不同,因此,對于地址文本數(shù)據(jù)的處理,現(xiàn)有的檢索排序理論對于相似度計(jì)算和排序效果較差。因此,如何提供更準(zhǔn)確的地址數(shù)據(jù)檢索結(jié)果,成為需要本領(lǐng)域技術(shù)人員解決的技術(shù)問題。技術(shù)實(shí)現(xiàn)要素:本申請?zhí)峁┝说刂窋?shù)據(jù)檢索方法及裝置,可以使得檢索結(jié)果的準(zhǔn)確度得到提高。本申請?zhí)峁┝巳缦路桨福阂环N地址數(shù)據(jù)檢索方法,預(yù)先設(shè)置多個(gè)預(yù)定義地址段,每個(gè)預(yù)定義地址段對應(yīng)一個(gè)預(yù)置權(quán)重,所述方法包括:確定待檢索地址文本,并確定所述待檢索地址文本中包含的至少一個(gè)預(yù)定義地址段,以及每個(gè)預(yù)定義地址段上的文本內(nèi)容;根據(jù)所述待檢索地址文本從預(yù)置的地址庫中檢索出滿足預(yù)置條件的至少一條目標(biāo)地址,并確定所述目標(biāo)地址包含的至少一個(gè)預(yù)定義地址段,以及每個(gè)預(yù)定義地址段上的文本內(nèi)容;針對所述目標(biāo)地址,通過以下方式確定至少一個(gè)目標(biāo)地址段:判斷所述目標(biāo)地址在某預(yù)定義地址段上的文本內(nèi)容是否與所述待檢索地址文本的在對應(yīng)預(yù)定義地址段的文本內(nèi)容相同,如果是,則將該地址段確定為所述目標(biāo)地址段;將同一目標(biāo)地址中確定出的各個(gè)目標(biāo)地址段對應(yīng)的預(yù)置權(quán)重進(jìn)行累加,確定目標(biāo)地址相對于所述待檢索地址文本的相似度權(quán)重;根據(jù)各目標(biāo)地址對應(yīng)的相似度權(quán)重,返回檢索結(jié)果。一種地址數(shù)據(jù)檢索裝置,預(yù)先設(shè)置多個(gè)預(yù)定義地址段,每個(gè)預(yù)定義地址段對應(yīng)一個(gè)預(yù)置權(quán)重,所述裝置包括:待檢索地址文本確定單元,用于確定待檢索地址文本,并確定所述待檢索地址文本中包含的至少一個(gè)預(yù)定義地址段,以及每個(gè)預(yù)定義地址段上的文本內(nèi)容;檢索單元,用于根據(jù)所述待檢索地址文本從預(yù)置的地址庫中檢索出滿足預(yù)置條件的至少一條目標(biāo)地址,并確定所述目標(biāo)地址包含的至少一個(gè)預(yù)定義地址段,以及每個(gè)預(yù)定義地址段上的文本內(nèi)容;目標(biāo)地址段確定單元,用于針對所述目標(biāo)地址,通過以下方式確定至少一個(gè)目標(biāo)地址段:判斷所述目標(biāo)地址在某預(yù)定義地址段上的文本內(nèi)容是否與所述待檢索地址文本的在對應(yīng)預(yù)定義地址段的文本內(nèi)容相同,如果是,則將該地址段確定為所述目標(biāo)地址段;相似度權(quán)重確定單元,用于將同一目標(biāo)地址中確定出的各個(gè)目標(biāo)地址段對應(yīng)的預(yù)置權(quán)重進(jìn)行累加,確定目標(biāo)地址相對于所述待檢索地址文本的相似度權(quán)重;檢索結(jié)果返回單元,用于根據(jù)各目標(biāo)地址對應(yīng)的相似度權(quán)重,返回檢索結(jié)果。根據(jù)本申請?zhí)峁┑木唧w實(shí)施例,本申請公開了以下技術(shù)效果:通過本申請實(shí)施例,可以將地址文本分為多個(gè)地址段,這樣,對于待檢索地址文本與檢索結(jié)果中的目標(biāo)地址文本,可以在對應(yīng)的地址段上進(jìn)行文本內(nèi)容的比對,并根據(jù)這種比對結(jié)果確定目標(biāo)地址文本與待檢索地址文本之間的相似度,進(jìn)而可以基于這種相似度返回檢索結(jié)果。由于在比對的過程中是將對應(yīng)地址段上的文本內(nèi)容進(jìn)行比對,因此,可以使得檢索結(jié)果的準(zhǔn)確度得到提高。另外,還可以將地址文本以二進(jìn)制編碼的形式進(jìn)行表示,通過這種通過二進(jìn)制編碼,可以將檢索得到的目標(biāo)地址與具體應(yīng)用中的地址完整性要求進(jìn)行確定性匹配的方式,這樣可以簡化匹配的過程,提高效率。當(dāng)然,實(shí)施本申請的任一產(chǎn)品并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。附圖說明為了更清楚地說明本申請實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本申請實(shí)施例提供的方法的流程圖;圖2是本申請實(shí)施例提供的裝置的示意圖。具體實(shí)施方式下面將結(jié)合本申請實(shí)施例中的附圖,對本申請實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾堉械膶?shí)施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實(shí)施例,都屬于本申請保護(hù)的范圍。在本申請實(shí)施例中,可以為了更好的適用于地址數(shù)據(jù)的檢索,可以預(yù)先設(shè)置多個(gè)預(yù)定義的地址段,并為各個(gè)地址段設(shè)置對應(yīng)的權(quán)重。這些地址段可以是通過對地址數(shù)據(jù)進(jìn)行研究,根據(jù)關(guān)鍵詞等進(jìn)行劃分的,并且,可以將地址段劃分為不同的級(jí)別。例如,各個(gè)預(yù)定義地址段及示例可以如以下表1所示:表1級(jí)別預(yù)定義地址段描述示例1省浙江省2市杭州市3區(qū)余杭區(qū)4工業(yè)區(qū)——5鄉(xiāng)填余杭鎮(zhèn)6村/社區(qū)西溪園區(qū)7組——8商圈——9道路文一西路10支路——11道路門牌號(hào)969號(hào)12道路支門牌號(hào)——13標(biāo)志性POI,主門牌附屬POI——14樓棟號(hào)1號(hào)樓15單元號(hào)——16樓層號(hào)2樓17房間號(hào)20318地址描述——上述地址段涵蓋了一個(gè)地址中所有可能出現(xiàn)的地址段,并且兼容城市地址 和農(nóng)村地址,通常書寫的一個(gè)實(shí)際的地址只是上述地址段的子集。例如,上述表3的實(shí)例中描述的地址,是由以下地址段來描述的:省、市、區(qū)、鄉(xiāng)鎮(zhèn)、村/社區(qū)、道路、道路門牌號(hào)、樓棟號(hào)、樓層號(hào)、房間號(hào),并不包含“工業(yè)區(qū)”、“組”、“商圈”等地址段。在設(shè)置了上述預(yù)定義地址段之后,還可以為各個(gè)地址段設(shè)置不同的權(quán)重。具體實(shí)現(xiàn)時(shí),在設(shè)置權(quán)重是可以是根據(jù)各個(gè)預(yù)定義地址段的地理語義重要性確定的。也就是說,不同的預(yù)定義地址段,所表述的地理語義不同,對于整個(gè)地址完整性的貢獻(xiàn)度、對于判斷地址相似性時(shí)的貢獻(xiàn)度可能是不同的。因此,可以基于該原則為不同級(jí)別的地址段分配預(yù)置權(quán)重。對于整個(gè)地址完整性的貢獻(xiàn)度以及判斷地址相似性時(shí)的貢獻(xiàn)度越高的地址段,預(yù)置的權(quán)重也越高,反之則越低。例如,針對表1中的各個(gè)預(yù)定義地址段,按照級(jí)別由高到低排列可以為:表2上述表2中,是按照級(jí)別由高到低的順序排列的。其中,在確定各個(gè)地址段的級(jí)別時(shí),可以根據(jù)實(shí)際的需求而定,上述表2只是示例性的介紹,在實(shí)際應(yīng)用中,還可以有其他的級(jí)別排序結(jié)果。例如,如果在實(shí)際應(yīng)用中的場景是,針對當(dāng)前需要分揀的包裹的收貨地址,確定出與該收貨地址相似的其他地址,以便確定出需要將該包裹分揀到哪個(gè)具體的配送網(wǎng)點(diǎn),進(jìn)而由該配送網(wǎng)點(diǎn)的服務(wù)人員將該包裹派送到具體的收貨地址。對于上述場景,由于不同的配送網(wǎng)點(diǎn)一般會(huì)具有不同的配送范圍,而對于同一行政區(qū)域范圍內(nèi)的不同配送網(wǎng)點(diǎn)而言,其配送范圍間的區(qū)別往往能夠通過POI、主路、支路、商圈等的不同而體現(xiàn)出來,并且還能夠準(zhǔn)確的確定出應(yīng)該對應(yīng)哪個(gè)配送網(wǎng)點(diǎn),因此,這些地址段的級(jí)別最高。其次是行政區(qū)劃信息方面的信息,包括省、市、區(qū)、村鎮(zhèn)等等,這些信息可以用于進(jìn)行粗粒度的分撥,但對于具體服務(wù)網(wǎng)點(diǎn)的確定,其貢獻(xiàn)度要低于POI、主路、支路等信息,因此,其級(jí)別略低。并且,行政區(qū)劃級(jí)別越高,在本申請實(shí)施例中的地址段級(jí)別越低,例如,從表2中可見,“省”的級(jí)別低 于“市”,“市”的級(jí)別低于“區(qū)”,等等。地址段級(jí)別最低的是樓棟號(hào)、樓層號(hào)、房間號(hào)等,一方面,這些信息本身在不同地址之間的區(qū)分度很低,因?yàn)榫退闶遣煌鞘械牟煌^(qū),也可能出現(xiàn)相同的樓棟號(hào)、樓層號(hào)、房間號(hào),因此,極端情況下,如果兩個(gè)地址僅在樓棟號(hào)、樓層號(hào)、房間號(hào)上相同,兩個(gè)地址的相似性其實(shí)是很低的;而如果兩個(gè)地址僅在樓棟號(hào)、樓層號(hào)、房間號(hào)上不同,其他地址段的內(nèi)容都相同,則這兩個(gè)地址的相似性則是很高的,并且一般會(huì)對應(yīng)同一個(gè)配送網(wǎng)點(diǎn)。因此,對于樓棟號(hào)、樓層號(hào)、房間號(hào)等,其地址段級(jí)別最低,對應(yīng)分配的權(quán)重也最低,在檢索過程中進(jìn)行地址間的相似性比對時(shí),這樣可以使得樓棟號(hào)、樓層號(hào)、房間號(hào)對應(yīng)的具體內(nèi)容對比對結(jié)果的影響比較小??傊跒椴煌牡刂范卧O(shè)置了不同的級(jí)別以及對應(yīng)的權(quán)重的情況下,可以使得不同地址段對地址相似性比對的影響是不同的,并且使得更重要的信息的影響比較凸顯,這樣有利于得到更為準(zhǔn)確的地址數(shù)據(jù)檢索結(jié)果。其中,具體在設(shè)置各個(gè)級(jí)別對應(yīng)的預(yù)置權(quán)重時(shí),可以有多種實(shí)現(xiàn)方式。例如,可以使得不同級(jí)別之間的權(quán)重呈現(xiàn)線性增長的趨勢,或者,還可以使得不同級(jí)別之間的權(quán)重呈現(xiàn)非線性(例如級(jí)數(shù)關(guān)系等)增長的趨勢。例如,第n級(jí)別的預(yù)定義地址段對應(yīng)的權(quán)重為2n-1,其中,n=1,2,3……N,N為正整數(shù),是預(yù)定義地址段的總數(shù)。例如,在前述例子中,N=18,相應(yīng)的,各個(gè)預(yù)定義地址段以及對應(yīng)的權(quán)重可以如表3所示:表3例如,某地址為“浙江省杭州市余杭區(qū)余杭鎮(zhèn)西溪園區(qū)文一路99號(hào)同城印象1號(hào)樓2單元5樓501”,該地址具有的預(yù)定義地址段包括:省、市、區(qū)、鎮(zhèn)、開發(fā)區(qū)、主路、主路號(hào)、POI、樓棟號(hào)、單元號(hào)、樓層、房間,如以下表4所示:表4整個(gè)地址文本的權(quán)重為21+22+23+24+25+26+27+28+29+213+215+217=173054,轉(zhuǎn)換為二進(jìn)制為101010001111111110,二進(jìn)制的每一碼位恰為地址段所對應(yīng)的級(jí)別有無,1表示有,0表示無。這種二進(jìn)制權(quán)重設(shè)計(jì),不但可以精確地表現(xiàn)出地址段權(quán)重與級(jí)別的關(guān)系,而且這種權(quán)重模型,對于后續(xù)返回的檢索結(jié)果的確定性匹配問題也有幫助,關(guān)于該確定性匹配問題,在后文中會(huì)有詳細(xì)介紹。總之,在設(shè)置了多個(gè)預(yù)定義地址段及其級(jí)別,并對各個(gè)級(jí)別的地址段設(shè)置了對應(yīng)的權(quán)重之后,就可以基于上述信息進(jìn)行具體的地址數(shù)據(jù)檢索。下面對具體的檢索方法進(jìn)行介紹。參見圖1,本申請實(shí)施例首先提供了一種地址數(shù)據(jù)檢索方法,如前文所述,可以預(yù)先設(shè)置多個(gè)預(yù)定義地址段,每個(gè)預(yù)定義地址段對應(yīng)一個(gè)預(yù)置權(quán)重,具體進(jìn)行檢索時(shí),所述方法可以包括以下步驟:S101:確定待檢索地址文本,并確定所述待檢索地址文本中包含的至少一個(gè)預(yù)定義地址段,以及每個(gè)預(yù)定義地址段上的文本內(nèi)容;待檢索地址文本可以是接收到的用戶輸入,或者也可以是系統(tǒng)自動(dòng)確定出的。例如,當(dāng)用戶基于某種需求需要搜索與某地址相似的地址時(shí),就可以輸入一地址文本作為待檢索地址文本?;蛘?,假設(shè)快遞服務(wù)商在對各個(gè)包裹進(jìn)行分揀處理時(shí),也可以將各個(gè)包裹對應(yīng)的收貨地址自動(dòng)確定為待檢索地址文本,等等。在確定了待檢索地址文本之后,可以確定出其中包含的至少一個(gè)預(yù)定義地址段,以及每個(gè)預(yù)定義地址段上的文本內(nèi)容。具體實(shí)現(xiàn)時(shí),可以預(yù)先為各個(gè)預(yù)定義地址段設(shè)置判斷規(guī)則,例如,每個(gè)地址段常用的關(guān)鍵字,前后相鄰字段的常用關(guān)鍵字,在地址文本中的位置,等等。這樣,在確定了待檢索地址文本之后,可以首先對待檢索地址文本進(jìn)行分詞,然后根據(jù)分詞得到的各個(gè)詞條以及前述判斷規(guī)則,判斷分別屬于哪個(gè)地址段。例如,地址段“省”的判斷規(guī)則為:出現(xiàn)在地址文本的起始位置,一般包含關(guān)鍵字“省”,其相鄰的后一個(gè)字段的常用關(guān)鍵字為“市”,等等,因此,如果某待檢索地址文本中包含的第一個(gè)分詞結(jié)果是“浙江省”,則可以確定該地址文本中包含地址段“省”,并且其文本內(nèi)容為“浙江”。其他地址段的判斷也可以同理進(jìn)行。這樣,針對一個(gè)待檢索文本就可以確定出其包含哪些預(yù)定義地址段,各個(gè)預(yù)定義地址段上分別為什么文本內(nèi)容。例如,待檢索地址文本為“浙江省杭州市余杭區(qū)余杭鎮(zhèn)西溪園區(qū)文一路99號(hào)同城印象1號(hào)樓2單元5樓501”,則確定出的包含的地址段以及各種的文本內(nèi)容可以如表3中的第2行以及第3行所示。S102:根據(jù)所述待檢索地址文本從預(yù)置的地址庫中檢索出滿足預(yù)置條件的至少一條目標(biāo)地址,并確定所述目標(biāo)地址包含的至少一個(gè)預(yù)定義地址段,以及每個(gè)預(yù)定義地址段上的文本內(nèi)容;從地址庫中檢索的過程與傳統(tǒng)的檢索方式類似,檢索的條件可以根據(jù)實(shí)際需要而設(shè)置。例如,同樣假設(shè)待檢索地址文本為“浙江省杭州市余杭區(qū)余杭鎮(zhèn)西溪園區(qū)文一路99號(hào)同城印象1號(hào)樓2單元5樓501”,檢索的條件可以設(shè)置為:前四級(jí)行政區(qū)劃信息完全匹配,則該檢索的過程可以為:從地址庫中檢索出包含“浙江省杭州市余杭區(qū)余杭鎮(zhèn)”的至少一條目標(biāo)地址;或者,檢索的條件還可以為:前五級(jí)行政區(qū)劃信息完全匹配,則該檢索的過程可以為:從地址庫中檢索出包含“浙江省杭州市余杭區(qū)余杭鎮(zhèn)西溪園區(qū)”的至少一條目標(biāo)地址,等等。在本申請實(shí)施例中,確定出前述符合條件的至少一條目標(biāo)地址之后,還可以分別確定出各個(gè)目標(biāo)地址包含的至少一個(gè)預(yù)定義地址段,以及每個(gè)預(yù)定義地址段上的文本內(nèi)容。由于各個(gè)目標(biāo)地址也具有各自的地址文本,因此,具體的 方式與步驟S101中描述的確定待檢索地址文本中包含的預(yù)定義地址段及其文本內(nèi)容的過程類似,也即,可以對目標(biāo)地址的文本進(jìn)行分詞,然后根據(jù)各個(gè)地址段對應(yīng)的判定規(guī)則,確定出分詞后的結(jié)果分別屬于哪個(gè)預(yù)定義地址段,以及各自對應(yīng)的文本內(nèi)容。例如,某目標(biāo)地址為“浙江省杭州市余杭區(qū)余杭鎮(zhèn)華一路3號(hào)”,則可以確定出該目標(biāo)地址包含的預(yù)定義地址段以及各自對應(yīng)的文本內(nèi)容,如以下表5所示:表5另一目標(biāo)地址為:“浙江省杭州市余杭區(qū)余杭鎮(zhèn)西溪園區(qū)文一路80號(hào)”則可以確定出該目標(biāo)地址包含的預(yù)定義地址段以及各自對應(yīng)的文本內(nèi)容,如以下表6所示:表6其他各目標(biāo)地址也都可以按照類似的方式分別進(jìn)行處理。S103:針對所述目標(biāo)地址,通過以下方式確定至少一個(gè)目標(biāo)地址段:判斷 所述目標(biāo)地址在某預(yù)定義地址段上的文本內(nèi)容是否與所述待檢索地址文本的在對應(yīng)預(yù)定義地址段的文本內(nèi)容相同,如果是,則將該地址段確定為所述目標(biāo)地址段;在針對各個(gè)目標(biāo)地址確定出其包含的預(yù)定義地址段及其文本內(nèi)容之后,就可以與待檢索地址文本進(jìn)行相似度計(jì)算,針對每個(gè)目標(biāo)地址,都可以確定出至少一個(gè)目標(biāo)地址段。具體在確定這種目標(biāo)地址段時(shí),可以判斷目標(biāo)地址在某預(yù)定義地址段上的文本內(nèi)容是否與待檢索地址文本的在對應(yīng)預(yù)定義地址段的文本內(nèi)容相同,如果是,則將該地址段確定為所述目標(biāo)地址段。例如,對于前述表5中所示的目標(biāo)地址的例子,在與表4中的待檢索地址文本的各個(gè)預(yù)定義地址段進(jìn)行比對時(shí)發(fā)現(xiàn),在省、市、區(qū)、鎮(zhèn)這幾個(gè)地址段上的文本內(nèi)容相同;該目標(biāo)地址中雖然還包含“主路”以及“主路號(hào)”這兩個(gè)預(yù)定義地址段,但是其文本內(nèi)容與待檢索地址文本在對應(yīng)地址段上的內(nèi)容不同;另外,該目標(biāo)地址中也不再包含其他預(yù)定義地址段,因此,對于該目標(biāo)地址,目標(biāo)地址段就是省、市、區(qū)、鎮(zhèn)這四個(gè)地址段。又如,對于前述表6中所示的目標(biāo)地址的例子,在與表4中的待檢索地址文本的各個(gè)預(yù)定義地址段進(jìn)行比對時(shí)發(fā)現(xiàn),在省、市、區(qū)、鎮(zhèn)、開發(fā)區(qū)、主路這幾個(gè)地址段上的文本內(nèi)容相同,目標(biāo)地址中雖然還包含“主路號(hào)”這一預(yù)定義地址段,但是其文本內(nèi)容與待檢索地址文本在對應(yīng)地址段上的內(nèi)容不同,因此;另外,該目標(biāo)地址不再包含其他預(yù)定義地址段,對于該目標(biāo)地址,目標(biāo)地址段就是省、市、區(qū)、鎮(zhèn)、開發(fā)區(qū)、主路這六個(gè)地址段。S104:將同一目標(biāo)地址中確定出的各個(gè)目標(biāo)地址段對應(yīng)的預(yù)置權(quán)重進(jìn)行累加,確定目標(biāo)地址相對于所述待檢索地址文本的相似度權(quán)重;由于每個(gè)目標(biāo)地址中都可以確定出至少一個(gè)目標(biāo)地址段,因此,在確定目標(biāo)地址相對于待檢索地址文本的相似度權(quán)重時(shí),就可以將同一目標(biāo)地址中確定出的各個(gè)目標(biāo)地址段對應(yīng)的預(yù)置權(quán)重進(jìn)行累加,得到的值就可以作為該目標(biāo)地址相對于當(dāng)前待檢索地址文本的相似度權(quán)重。例如,對于前述表5中所示的目標(biāo)地址,其相對于表4中所示的待檢索地 址文本,相似度權(quán)重為省、市、區(qū)、鎮(zhèn)這四個(gè)預(yù)定義地址段分別對應(yīng)的權(quán)重值和,也即:25+26+27+28=480對于前述表6中所示的目標(biāo)地址,其相對于表4中所示的待檢索地址文本,相似度權(quán)重為省、市、區(qū)、鎮(zhèn)、開發(fā)區(qū)、主路這六個(gè)預(yù)定義地址段分別對應(yīng)的權(quán)重值和,也即:25+26+27+28+29+215=33808S105:根據(jù)各目標(biāo)地址對應(yīng)的相似度權(quán)重,返回檢索結(jié)果。在確定出各個(gè)目標(biāo)地址對應(yīng)的相似度權(quán)重之后,就可以據(jù)此返回檢索結(jié)果。例如,可以將相似度權(quán)重高于某閾值的目標(biāo)地址返回,或者,還可以按照該相似度權(quán)重由高到低的順序進(jìn)行排序后返回,等等??傊ㄟ^本申請實(shí)施例,可以將地址文本分為多個(gè)地址段,這樣,對于待檢索地址文本與檢索結(jié)果中的目標(biāo)地址文本,可以在對應(yīng)的地址段上進(jìn)行文本內(nèi)容的比對,并根據(jù)這種比對結(jié)果確定目標(biāo)地址文本與待檢索地址文本之間的相似度,進(jìn)而可以基于這種相似度返回檢索結(jié)果。由于在比對的過程中是將對應(yīng)地址段上的文本內(nèi)容進(jìn)行比對,因此,可以使得檢索結(jié)果的準(zhǔn)確度得到提高。需要說明的是,在具體的應(yīng)用中,對檢索結(jié)果中各個(gè)目標(biāo)地址的地址完整性可能是有要求的,這種地址完整性要求一般為:要求目標(biāo)地址中至少包括指定預(yù)定義地址段,其中,這種指定預(yù)定義地址段為至少一個(gè)。例如,某應(yīng)用要求目標(biāo)地址必須包括“省/市/區(qū)/道路/路號(hào)”這幾個(gè)地址段,另一個(gè)應(yīng)用可能要求目標(biāo)地址中必須包括“省/市/區(qū)/POI”這幾個(gè)地址段,等等。因此,在通過上述方式確定出檢索結(jié)果之后,還可以根據(jù)這種地址完整性要求,對各個(gè)目標(biāo)地址進(jìn)行過濾,使得最終的檢索結(jié)果能夠滿足具體應(yīng)用的要求。其中,具體在進(jìn)行上述過濾時(shí),由于本申請實(shí)施例中已經(jīng)預(yù)先對各個(gè)預(yù)定義地址段進(jìn)行了分級(jí),并按照級(jí)別的高低進(jìn)行了排序,因此,可以通過以下方 式進(jìn)行:步驟一:按照各個(gè)預(yù)定義地址段的順序,以及目標(biāo)地址在對應(yīng)預(yù)定義地址段上信息的有無,生成第一二進(jìn)制編碼串;所述第一二進(jìn)制編碼串的長度為N,N為預(yù)定義地址段的總數(shù)量,在編碼串的各個(gè)碼位上,如果目標(biāo)地址在對應(yīng)的預(yù)定義地址段上有信息,則為1,否則為0。例如,對于表5中所示的目標(biāo)地址,生成的第一二進(jìn)制編碼串為:001010000111100000對于表6中所示的目標(biāo)地址,生成的第一二進(jìn)制編碼串為:001010001111100000步驟二:對于地址完整性要求,由于也可以通過包含哪些預(yù)定義地址段來描述,因此,也可以按照各個(gè)地址段的順序,以及地址完整性要求中對應(yīng)地址段上信息的有無,生成第二二進(jìn)制編碼串;該第二二進(jìn)制編碼串的長度也為N,N為預(yù)定義地址段的總數(shù)量,同樣的,在編碼串的各個(gè)碼位上,如果地址完整性要求在對應(yīng)的預(yù)定義地址段上有信息,則為1,否則為0。例如,對于必須包括“省/市/區(qū)/道路/路號(hào)”這幾個(gè)地址段這一地址完整性要求,生成的第二二進(jìn)制編碼串為:001010000011100000對于必須包括“省/市/區(qū)/POI”這幾個(gè)地址段這一地址完整性要求,生成的第二二進(jìn)制編碼串為:100000000011100000步驟三:將所述第一二進(jìn)制編碼串轉(zhuǎn)換為1×N的第一矩陣;例如,對于表5中的目標(biāo)地址對應(yīng)的第一二進(jìn)制編碼串,轉(zhuǎn)換成的第一矩陣為:[001010000111100000] 對于表6中的目標(biāo)地址對應(yīng)的第一二進(jìn)制編碼串,轉(zhuǎn)換成的第一矩陣為:[001010001111100000]步驟四:將所述第二二進(jìn)制編碼轉(zhuǎn)換為N×1的第二矩陣;例如,對于必須包括“省/市/區(qū)/道路/路號(hào)”這幾個(gè)地址段這一地址完整性要求,轉(zhuǎn)換成的第二矩陣為:[001010000011100000]T對于必須包括“省/市/區(qū)/POI”這幾個(gè)地址段這一地址完整性要求,轉(zhuǎn)換成的第二矩陣為:[100000000011100000]T其中,T表示矩陣的轉(zhuǎn)置。步驟五:將所述第一矩陣與第二矩陣進(jìn)行叉乘;例如,對于表5中的目標(biāo)地址,地址完整性要求為必須包括“省/市/區(qū)/道路/路號(hào)”這幾個(gè)地址段,則叉乘運(yùn)算可以表示為:[001010000111100000]×[001010000011100000]T=5步驟六:根據(jù)叉乘計(jì)算結(jié)果,確定所述目標(biāo)地址是否滿足所述地址完整性要求。例如,對于前述步驟五中的例子,叉乘計(jì)算的結(jié)果為5,也就是說,表5中的目標(biāo)地址包含該完整性要求中的全部5個(gè)地址段,因此,符合該地址完整性要求。當(dāng)然,在具體實(shí)現(xiàn)時(shí),同一應(yīng)用可能會(huì)具有多個(gè)地址完整性要求,不同的要求之間可能是“且”或者“或”的關(guān)系。例如,某應(yīng)用的地址完整性要求為:“省/市/區(qū)/道路/路號(hào)”或“省/市/區(qū)/POI”或“省/市/區(qū)/開發(fā)區(qū)”。則可以分別將這多個(gè)要求生成所述第二二進(jìn)制編碼串,并轉(zhuǎn)換成N×M的第三矩陣。其中,M為地址完整性要求的數(shù)量。在該例子中,M=3,生成的第三矩陣可以 為:在將第一矩陣與第三矩陣進(jìn)行叉乘計(jì)算:也就是說,該目標(biāo)地址命中了第一個(gè)地址完整要求中的全部5個(gè)地址段,但只命中了第二個(gè)地址完整要求中的3個(gè)地址段,第三個(gè)地址完整要求中的3個(gè)地址段,因此,該目標(biāo)地址僅符合第一個(gè)地址完整性要求。如果該應(yīng)用的條件為:符合其中一個(gè)地址完整性要求即可,則可以確定該目標(biāo)地址符合該應(yīng)用的要求。如果某目標(biāo)地址對其中任意一個(gè)完整性要求都不滿足,則可以將該目標(biāo)地址從檢索結(jié)果中過濾掉。通過這種通過二進(jìn)制編碼,將檢索得到的目標(biāo)地址與具體應(yīng)用中的地址完整性要求進(jìn)行確定性匹配的方式,可以簡化匹配的過程,提高效率。與本申請實(shí)施例提供的地址數(shù)據(jù)檢索方法相對應(yīng),本申請實(shí)施例還提供了一種地址數(shù)據(jù)檢索裝置,預(yù)先設(shè)置多個(gè)預(yù)定義地址段,每個(gè)預(yù)定義地址段對應(yīng)一個(gè)預(yù)置權(quán)重,參見圖2,所述裝置可以包括:待檢索地址文本確定單元201,用于確定待檢索地址文本,并確定所述待檢索地址文本中包含的至少一個(gè)預(yù)定義地址段,以及每個(gè)預(yù)定義地址段上的文本內(nèi)容;檢索單元202,用于根據(jù)所述待檢索地址文本從預(yù)置的地址庫中檢索出滿足預(yù)置條件的至少一條目標(biāo)地址,并確定所述目標(biāo)地址包含的至少一個(gè)預(yù)定義地址段,以及每個(gè)預(yù)定義地址段上的文本內(nèi)容;目標(biāo)地址段確定單元203,用于針對所述目標(biāo)地址,通過以下方式確定至 少一個(gè)目標(biāo)地址段:判斷所述目標(biāo)地址在某預(yù)定義地址段上的文本內(nèi)容是否與所述待檢索地址文本的在對應(yīng)預(yù)定義地址段的文本內(nèi)容相同,如果是,則將該地址段確定為所述目標(biāo)地址段;相似度權(quán)重確定單元204,用于將同一目標(biāo)地址中確定出的各個(gè)目標(biāo)地址段對應(yīng)的預(yù)置權(quán)重進(jìn)行累加,確定目標(biāo)地址相對于所述待檢索地址文本的相似度權(quán)重;檢索結(jié)果返回單元205,用于根據(jù)各目標(biāo)地址對應(yīng)的相似度權(quán)重,返回檢索結(jié)果。其中,各個(gè)預(yù)定義地址段對應(yīng)的預(yù)置權(quán)重根據(jù)各個(gè)預(yù)定義地址段的地理語義重要性確定。預(yù)定義地址段可以包括N個(gè)級(jí)別,第n級(jí)別的預(yù)定義地址段對應(yīng)的權(quán)重為2n-1;其中,n=1,2,3……N,N為正整數(shù)。具體實(shí)現(xiàn)時(shí),該裝置還可以包括:過濾單元,用于按照預(yù)置的地址完整性要求對所述目標(biāo)地址進(jìn)行過濾,所述地址完整性要求為:目標(biāo)地址中至少包括指定預(yù)定義地址段,所述指定預(yù)定義地址段為至少一個(gè)。另外,該裝置還可以包括:排序單元,用于按照預(yù)置權(quán)重的大小對各個(gè)預(yù)定義地址段進(jìn)行排序;第一編碼串生成單元,用于按照各個(gè)預(yù)定義地址段的順序,以及所述目標(biāo)地址在對應(yīng)預(yù)定義地址段上信息的有無,生成第一二進(jìn)制編碼串;所述第一二進(jìn)制編碼串的長度為N,N為預(yù)定義地址段的總數(shù)量,在編碼串的各個(gè)碼位上,如果所述目標(biāo)地址在對應(yīng)的預(yù)定義地址段上有信息,則為1,否則為0;第二編碼串生成單元,用于按照各個(gè)地址段的順序,以及所述地址完整性 要求中對應(yīng)地址段上信息的有無,生成第二二進(jìn)制編碼串;所述第二二進(jìn)制編碼串的長度為N,N為預(yù)定義地址段的總數(shù)量,在編碼串的各個(gè)碼位上,如果所述地址完整性要求在對應(yīng)的預(yù)定義地址段上有信息,則為1,否則為0;第一轉(zhuǎn)換單元,用于將所述第一二進(jìn)制編碼串轉(zhuǎn)換為1×N的第一矩陣;第二轉(zhuǎn)換單元,用于將所述第二二進(jìn)制編碼轉(zhuǎn)換為N×M的第二矩陣;其中,M為正整數(shù),表示地址完整性要求的數(shù)量;矩陣計(jì)算單元,用于將所述第一矩陣與第二矩陣進(jìn)行叉乘計(jì)算;確定單元,用于根據(jù)叉乘計(jì)算結(jié)果,確定所述目標(biāo)地址是否滿足所述地址完整性要求。通過本申請實(shí)施例,可以將地址文本分為多個(gè)地址段,這樣,對于待檢索地址文本與檢索結(jié)果中的目標(biāo)地址文本,可以在對應(yīng)的地址段上進(jìn)行文本內(nèi)容的比對,并根據(jù)這種比對結(jié)果確定目標(biāo)地址文本與待檢索地址文本之間的相似度,進(jìn)而可以基于這種相似度返回檢索結(jié)果。由于在比對的過程中是將對應(yīng)地址段上的文本內(nèi)容進(jìn)行比對,因此,可以使得檢索結(jié)果的準(zhǔn)確度得到提高。通過以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn)。基于這樣的理解,本申請的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對于系統(tǒng)或系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。以上所描述的系統(tǒng)及系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需 要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。以上對本申請所提供的地址數(shù)據(jù)檢索方法及裝置,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對本申請的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本申請的方法及其核心思想;同時(shí),對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對本申請的限制。當(dāng)前第1頁1 2 3