專利名稱:一種基于反向生成的地址樹的地址匹配方法及匹配系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于數(shù)據(jù)處理領(lǐng)域,尤其涉及一種基于反向生成的地址樹的地址匹配方法及匹配系統(tǒng)。
背景技術(shù):
目前,基于地址匹配的技術(shù)在物流行業(yè)被廣泛采用,根據(jù)收貨人的全地址信息匹配到郵編,或配送機構(gòu),或具體位置信息,然后再根據(jù)匹配的信息封發(fā)出口,大大提高了其配貨效率,另外,根據(jù)匹配的信息還可將貨物信息傳遞給接貨機構(gòu),使貨物的運輸和接收質(zhì)量得到保障?,F(xiàn)有的地址匹配技術(shù)通常有以下兩種行地址樽糊匹配一根據(jù)客戶的地址內(nèi)容,在行地址庫進行查詢或模糊查詢,或者將客戶的地址內(nèi)容進行分割,在地址庫進行模糊查詢,找到相似的記錄。這種算法存在三個問題1.行地址庫寫法各異,同一個地址可能有幾十種寫法,以致需要收集大量的行地址樹據(jù),匹配效率將大大下降。2.對于行地址對應(yīng)的郵編,配貨站維護不便,一旦有地址基礎(chǔ)信息發(fā)生變化,其地址庫的維護不能保證相同的地址也能維護到。3.行地址的多條信息與模糊匹配算法造成匹配結(jié)果有多條,對于大批量的匹配,自動運算并自動選擇其中一條, 造成匹配正確率下降?;A(chǔ)地址元匹配—又稱地址樹匹配,通過地址維護系統(tǒng)進行基礎(chǔ)地址維護,不斷累積,形成地址元字典,地址元之間的關(guān)系通過樹型描述,客戶待匹配的地址通過地址元字典和地址樹進行查找進行匹配。這種算法存在兩個問題1.地址元字典需要大量的人工去維護。2.如果地址元的門牌內(nèi)容其配送機構(gòu)發(fā)生變化,其基礎(chǔ)數(shù)據(jù)的更改工作非常巨大, 更改不及時,造成匹配正確率下降。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題在于提供一種基于反向生成的地址樹的地址匹配方法,旨在降低地址匹配的人工成本并提高匹配正確率。本發(fā)明是這樣實現(xiàn)的,一種基于反向生成的地址樹的地址匹配方法,包括下述步驟步驟A,將待匹配的行地址拆為若干地址元;步驟B,根據(jù)步驟A拆得的地址元在地址樹中查找對應(yīng)的節(jié)點;所述地址樹為一樹狀結(jié)構(gòu)的數(shù)據(jù)庫,根據(jù)已投遞的地址信息或未投遞但經(jīng)過分揀的郵件地址信息定期生成, 所述地址樹包含有呈層級分布的多個地址節(jié)點,其中上一級節(jié)點的地址范圍包含下一級節(jié)點的地址范圍,區(qū)以下的各節(jié)點對應(yīng)有站段規(guī)則信息;步驟C,根據(jù)步驟B中查找到的節(jié)點從所述地址樹中篩出與待匹配的行地址對應(yīng)的地址樹分枝;步驟D,根據(jù)步驟C篩出的地址樹分枝將待匹配的行地址匹配到對應(yīng)的站段規(guī)則。
進一步地,在所述步驟A之前,所述方法還包括下述步驟步驟A0,根據(jù)已投遞地址信息或未投遞但經(jīng)過分揀的郵件地址信息定期生成地址樹。進一步地,所述步驟AO具體為根據(jù)已投遞地址信息或未投遞但經(jīng)過分揀的郵件地址信息,并結(jié)合原有的地址樹,定期生成新的地址樹。本發(fā)明還提供了一種基于反向生成的地址匹配系統(tǒng),包括反向地址樹生成單元,用于根據(jù)已投遞地址信息或未投遞但經(jīng)過分揀的郵件地址信息定期生成地址樹;所述地址樹為一樹狀結(jié)構(gòu)的數(shù)據(jù)庫,包含有呈層級分布的多個地址節(jié)點,其中上一級節(jié)點的地址范圍包含下一級節(jié)點的地址范圍,區(qū)以下的各節(jié)點對應(yīng)有站段規(guī)則信息;行地址拆詞單元,用于將待匹配的行地址拆為若干地址元;節(jié)點查找單元,用于根據(jù)所述行地址拆詞單元拆得的地址元在所述反向地址樹生成單元生成的地址樹中查找對應(yīng)的節(jié)點;地址樹分枝確定單元,用于根據(jù)所述節(jié)點查找單元查找到的節(jié)點從所述地址樹中篩出與待匹配的行地址對應(yīng)的地址樹分枝;匹配單元,用于根據(jù)所述地址樹分枝確定單元篩出的地址樹分枝將待匹配的行地址匹配到對應(yīng)的站段規(guī)則。進一步地,所述反向地址樹生成單元具體根據(jù)已投遞地址信息或未投遞但經(jīng)過分揀的郵件地址信息,并結(jié)合原有的地址樹,定期生成新的地址樹。進一步地,所述站段規(guī)則信息包括郵編信息、投遞站信息、投遞段信息、序信息。本發(fā)明還提供了一種郵政信息分揀系統(tǒng),其包括如上所述的基于反向生成的地址樹的地址匹配系統(tǒng)。本發(fā)明還提供了一種綜合型地址匹配系統(tǒng),包括包括如上所述的基于反向生成的地址樹的地址匹配系統(tǒng)在內(nèi)的若干地址匹配子系統(tǒng);權(quán)重系數(shù)設(shè)置子系統(tǒng),用于設(shè)置所述若干地址匹配子系統(tǒng)分別針對各個行地址信息的權(quán)重系數(shù);匹配結(jié)果計算子系統(tǒng),用于根據(jù)所述若干地址匹配子系統(tǒng)針對待匹配的行地址的匹配結(jié)果,以及所述權(quán)重系數(shù)設(shè)置子系統(tǒng)中預(yù)設(shè)所述若干地址匹配子系統(tǒng)分別針對各個行地址信息的權(quán)重系數(shù),計算得到最終匹配結(jié)果。本發(fā)明利用生產(chǎn)過程中的已投遞信息、未投遞但經(jīng)過分揀的郵件地址信息,根據(jù)關(guān)鍵字提取算法,反向形成基礎(chǔ)地址節(jié)點并定期更新地址樹,使地址樹能夠做到與生產(chǎn)近期數(shù)據(jù)同步,自動更新其對應(yīng)郵編、投遞、站段等結(jié)果,不用人工參與,大大降低了人工成本。此匹配算法可與其他的匹配算法集成應(yīng)用,彌補其他匹配算法的不足,提高整體地址匹配能力。
圖1是本發(fā)明實施例提供的基于反向生成的地址樹的地址匹配方法的實現(xiàn)流程圖;圖2是本發(fā)明實施例提供的地址樹的拓撲原理圖;圖3是本發(fā)明實施例提供的基于反向生成的地址樹的地址匹配系統(tǒng)的結(jié)構(gòu)原理圖;圖4是本發(fā)明實施例提供的綜合型地址匹配系統(tǒng)的架構(gòu)圖。
具體實施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明實施例中,利用生產(chǎn)過程中的已投遞信息、未投遞但經(jīng)過分揀的郵件地址信息,反向生成地址樹并可定期更新,使地址樹能夠做到與生產(chǎn)近期數(shù)據(jù)同步。圖1示出了本發(fā)明實施例提供的基于反向生成的地址樹的地址匹配方法的實現(xiàn)流程,詳述如下。在步驟A中,將待匹配的行地址拆為若干地址元。本發(fā)明實施例中,行地址即為待投遞的地址,投遞前需將行地址匹配到相應(yīng)的投遞站、投遞段等,以已安排相關(guān)的投遞員進行投遞,如“廣東省深圳市羅湖區(qū)深南東路3040 號郵政大廈”即為一行地址,可將此行地址拆為“廣東省”、“深圳市”、“羅湖區(qū)”、“深南東路”、 “3040 號”等。步驟B,根據(jù)步驟A拆得的地址元在反向生成的地址樹中查找對應(yīng)的節(jié)點。上述地址樹為一樹狀結(jié)構(gòu)的數(shù)據(jù)庫,如圖2所示,其根據(jù)已投遞的地址信息或未投遞但經(jīng)過分揀的郵件地址信息生成,可保證地址樹能夠做到與生產(chǎn)近期數(shù)據(jù)同步,提高匹配正確率。上述地址樹包含有呈層級分布的多個地址節(jié)點,其中上一級節(jié)點的地址范圍包含下一級節(jié)點的地址范圍,如圖2示出的地址樹中,根節(jié)點為“中國”,與根節(jié)點“中國”直接相鄰的第一層級節(jié)點為“北京”、“廣東”等,“北京”的第二層級節(jié)點包括“西城區(qū)”,“廣東” 的第二層級節(jié)點包括“廣州”、“深圳”等,“深圳”再下面的層級中包含有區(qū)、路、門牌號等層級,圖2中粗線框內(nèi)表示的節(jié)點路徑即為“廣東省深圳市羅湖區(qū)深南東路3040號郵政大廈” 所對應(yīng)的地址樹分枝,而區(qū)以下的各節(jié)點對應(yīng)有站段規(guī)則信息。 本發(fā)明中,此站段規(guī)則信息具體又包含與行政區(qū)劃匹配信息和標(biāo)志地址信息對應(yīng)的郵編信息、投遞站信息、投遞段信息和序信息,站段規(guī)則用于表征投遞地址區(qū)域,其中投遞站信息為郵政投遞機構(gòu)信息,代表著投遞站負責(zé)的投遞區(qū)域,投遞段信息比投遞站范圍小,通常為單個投遞員負責(zé)的投遞區(qū)域,序信息為在投遞過程中的順序號。例如行政區(qū)劃為羅湖區(qū),標(biāo)志地址為郵政大廈的標(biāo)志地址對應(yīng)的郵編為518001,投遞站為建設(shè)路投遞站,投遞段為1段,序為2。因此進一步地,在步驟A之前,還包括下述步驟步驟A0,根據(jù)已投遞地址信息或未投遞但經(jīng)過分揀的郵件地址信息定期生成地址樹。本發(fā)明中,具體可通過如下方式反向生成地址樹將已投遞地址信息或未投遞但經(jīng)過分揀的郵件地址信息拆分,例如對"山東省濟南市市中區(qū)奎盛街2號"進行拆分的結(jié)果為"山東省濟南市市中區(qū)奎盛街/2號",對于每條信息的拆分結(jié)果,按照地址范圍從大到小的順序依次在上一節(jié)點的基礎(chǔ)上添加節(jié)點形成樹結(jié)構(gòu),并將站段規(guī)則信息加入?yún)^(qū)縣以下的節(jié)點,如上述地址的樹結(jié)構(gòu)為"山東省/濟南市/市中區(qū)/奎盛街/2號",其中站段規(guī)則信息為"25000112",“ 1"。生成地址樹時,對于某些使用頻率過低的站段信息,可以舍棄??紤]到每次進行地址匹配都去生成地址樹不太現(xiàn)實,具體實施時可根據(jù)上述步驟 AO定期反向生成一次地址樹,如三個月生成一次地址樹。具體地,地址樹全部可以由已投遞地址信息或未投遞但經(jīng)過分揀的郵件地址信息定期生成,也可以根據(jù)近期已投遞地址信息或未投遞但經(jīng)過分揀的郵件地址信息,并結(jié)合原有的地址樹,定期生成新的地址樹,考慮到原地址樹中的節(jié)點分布在實際情況中可能有變,因此本發(fā)明推薦使用前一種,更能保證地址樹整體的客觀性和準(zhǔn)確性。步驟C,根據(jù)步驟B中查找到的節(jié)點從所述地址樹中篩出與待匹配的行地址對應(yīng)的地址樹分枝。如上文所述,在圖2中粗線框表示的節(jié)點路徑即為“廣東省深圳市羅湖區(qū)深南東路3040號郵政大廈”所對應(yīng)的地址樹分枝。步驟D,根據(jù)步驟C篩出的地址樹分枝將待匹配的行地址匹配到對應(yīng)的站段規(guī)則。匹配出郵編、投遞站、投遞段、序之后,意味著匹配過程結(jié)束,即可安排相應(yīng)的投遞員進行投遞了。本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述各實施例提供的方法中的全部或部分步驟可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲于一計算機可讀取存儲介質(zhì)中,該存儲介質(zhì)可以為ROM/RAM、磁盤、光盤等。圖3示出了本發(fā)明實施例提供的基于反向生成的地址樹的地址匹配系統(tǒng)的結(jié)構(gòu)原理,為了便于描述,僅示出了與本發(fā)明相關(guān)的部分。此地址匹配系統(tǒng)可以為內(nèi)置于郵件信息分揀系統(tǒng)、郵政商函業(yè)務(wù)處理系統(tǒng)中的軟件單元或軟硬件結(jié)合的單元。參照圖3,本地址匹配系統(tǒng)包括反向地址樹生成單元31、行地址拆詞單元32、節(jié)點查找單元33、地址樹分枝確定單元34以及匹配單元35。其中,反向地址樹生成單元31用于根據(jù)已投遞地址信息或未投遞但經(jīng)過分揀的郵件地址信息定期生成地址樹,所述地址樹為一樹狀結(jié)構(gòu)的數(shù)據(jù)庫,包含有呈層級分布的多個地址節(jié)點,其中上一級節(jié)點的地址范圍包含下一級節(jié)點的地址范圍,區(qū)以下的各節(jié)點對應(yīng)有站段規(guī)則信息。進行地址匹配時,行地址拆詞單元32首先將將待匹配的行地址拆為若干地址元,然后由節(jié)點查找單元33根據(jù)行地址拆詞單元32拆得的地址元在反向地址樹生成單元31生成的地址樹中查找對應(yīng)的節(jié)點。 地址樹分枝確定單元34根據(jù)節(jié)點查找單元33查找到的節(jié)點從所述地址樹中篩出與待匹配的行地址對應(yīng)的地址樹分枝,最后由匹配單元35根據(jù)所述地址樹分枝確定單元篩出的地址樹分枝將待匹配的行地址匹配到對應(yīng)的站段規(guī)則。上述各單元進行拆詞、查找、匹配的原理如上文所述,此處不再贅述。如上文所述,反向地址樹生成單元31可以全部由已投遞地址信息或未投遞但經(jīng)過分揀的郵件地址信息定期生成地址樹,也可以具體根據(jù)已投遞地址信息或未投遞但經(jīng)過分揀的郵件地址信息,并結(jié)合原有的地址樹,定期生成新的地址樹。本發(fā)明實施例還提供了一種綜合型地址匹配系統(tǒng),如圖4所示,包括若干地址匹配子系統(tǒng)411-41Π、權(quán)重系數(shù)設(shè)置子系統(tǒng)42、匹配結(jié)果計算子系統(tǒng)43。其中,若干地址匹配子系統(tǒng)411-41n集成了多種匹配算法,其中有一個子系統(tǒng)411采用圖3所示的基于反向生成的地址樹的地址匹配系統(tǒng),多種匹配算法采用互相獨立運行的多進程方式。權(quán)重系數(shù)設(shè)置子系統(tǒng)42用于設(shè)置若干地址匹配子系統(tǒng)41 l-41n分別針對各個行地址信息的權(quán)重系數(shù), 例如其中一個子系統(tǒng)采用全地址匹配算法,歷史匹配記錄顯示根據(jù)此匹配方法對某一行地址的匹配的準(zhǔn)確率為100%,即可將采用此匹配方法的匹配子系統(tǒng)針對此行地址的權(quán)重設(shè)為1,其余的匹配子系統(tǒng)的權(quán)重設(shè)為0,而若采用本發(fā)明提供的基于地址樹的匹配方法準(zhǔn)確率為100%,則可將采用本匹配方法的匹配子系統(tǒng)針對此行地址的權(quán)重設(shè)為1。最終由匹配結(jié)果計算子系統(tǒng)43根據(jù)若干地址匹配子系統(tǒng)41 l-41n針對待匹配的行地址的匹配結(jié)果,以及權(quán)重系數(shù)設(shè)置子系統(tǒng)42中預(yù)設(shè)的若干地址匹配子系統(tǒng)411-41Π分別針對各個行地址信息的權(quán)重系數(shù),計算得到最終匹配結(jié)果,匹配結(jié)果計算子系統(tǒng)43的界面功能以C/S架構(gòu)中的WINDOW客戶端方式呈現(xiàn)給用戶。本發(fā)明首先利用已投遞信息、未投遞但經(jīng)過分揀的郵件地址信息,反向形成地址樹并定期更新,然后對于客戶提供待匹配的行地址信息,根據(jù)地址樹匹配算法進行匹配,可匹配到郵編、投遞站、段和序。上述匹配方法可用于客戶地址數(shù)據(jù)的服務(wù),為客戶提供郵編和地址校驗功能,還可應(yīng)用于郵件信息分揀系統(tǒng)、郵政商函業(yè)務(wù)處理系統(tǒng)、貨物網(wǎng)運和投遞環(huán)節(jié),配合機械分揀開拆設(shè)備,根據(jù)地址匹配,進行分揀,提高分揀速度。還可以結(jié)合GPS技術(shù)應(yīng)用于物流行業(yè),該匹配算法可以根據(jù)眾多配送地址信息,匹配到具體的地理位置,進行合理制定配送路線,減少物流企業(yè)的配送成本,提高配送效率。以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種基于反向生成的地址樹的地址匹配方法,其特征在于,包括下述步驟步驟A,將待匹配的行地址拆為若干地址元;步驟B,根據(jù)步驟A拆得的地址元在地址樹中查找對應(yīng)的節(jié)點;所述地址樹為一樹狀結(jié)構(gòu)的數(shù)據(jù)庫,根據(jù)已投遞的地址信息或未投遞但經(jīng)過分揀的郵件地址信息定期生成,所述地址樹包含有呈層級分布的多個地址節(jié)點,其中上一級節(jié)點的地址范圍包含下一級節(jié)點的地址范圍,區(qū)以下的各節(jié)點對應(yīng)有站段規(guī)則信息;步驟C,根據(jù)步驟B中查找到的節(jié)點從所述地址樹中篩出與待匹配的行地址對應(yīng)的地址樹分枝;步驟D,根據(jù)步驟C篩出的地址樹分枝將待匹配的行地址匹配到對應(yīng)的站段規(guī)則。
2.如權(quán)利要求1所述的基于反向生成的地址樹的地址匹配方法,其特征在于,在所述步驟A之前,所述方法還包括下述步驟步驟A0,根據(jù)已投遞地址信息或未投遞但經(jīng)過分揀的郵件地址信息定期生成地址樹。
3.如權(quán)利要求2所述的基于反向生成的地址樹的地址匹配方法,其特征在于,所述步驟AO具體為根據(jù)已投遞地址信息或未投遞但經(jīng)過分揀的郵件地址信息,并結(jié)合原有的地址樹,定期生成新的地址樹。
4.如權(quán)利要求1所述的基于反向生成的地址樹的地址匹配方法,其特征在于,所述站段規(guī)則信息包括郵編信息、投遞站信息、投遞段信息、序信息。
5.一種的基于反向生成的地址樹的地址匹配系統(tǒng),其特征在于,包括反向地址樹生成單元,用于根據(jù)已投遞地址信息或未投遞但經(jīng)過分揀的郵件地址信息定期生成地址樹;所述地址樹為一樹狀結(jié)構(gòu)的數(shù)據(jù)庫,包含有呈層級分布的多個地址節(jié)點, 其中上一級節(jié)點的地址范圍包含下一級節(jié)點的地址范圍,區(qū)以下的各節(jié)點對應(yīng)有站段規(guī)則 fn息;行地址拆詞單元,用于將待匹配的行地址拆為若干地址元;節(jié)點查找單元,用于根據(jù)所述行地址拆詞單元拆得的地址元在所述反向地址樹生成單元生成的地址樹中查找對應(yīng)的節(jié)點;地址樹分枝確定單元,用于根據(jù)所述節(jié)點查找單元查找到的節(jié)點從所述地址樹中篩出與待匹配的行地址對應(yīng)的地址樹分枝;匹配單元,用于根據(jù)所述地址樹分枝確定單元篩出的地址樹分枝將待匹配的行地址匹配到對應(yīng)的站段規(guī)則。
6.如權(quán)利要求5所述的基于反向生成的地址樹的地址匹配系統(tǒng),其特征在于,所述反向地址樹生成單元具體根據(jù)已投遞地址信息或未投遞但經(jīng)過分揀的郵件地址信息,并結(jié)合原有的地址樹,定期生成新的地址樹。
7.如權(quán)利要求5所述的基于反向生成的地址樹的地址匹配系統(tǒng),其特征在于,所述站段規(guī)則信息包括郵編信息、投遞站信息、投遞段信息、序信息。
8.—種郵政信息分揀系統(tǒng),其特征在于,包括如權(quán)利要求5至7任一項所述的基于反向生成的地址樹的地址匹配系統(tǒng)。
9.一種綜合型地址匹配系統(tǒng),其特征在于,包括包括如權(quán)利要求5至7任一項所述的基于反向生成的地址樹的地址匹配系統(tǒng)在內(nèi)的若干地址匹配子系統(tǒng);權(quán)重系數(shù)設(shè)置子系統(tǒng),用于設(shè)置所述若干地址匹配子系統(tǒng)分別針對各個行地址信息的權(quán)重系數(shù);匹配結(jié)果計算子系統(tǒng),用于根據(jù)所述若干地址匹配子系統(tǒng)針對待匹配的行地址的匹配結(jié)果,以及所述權(quán)重系數(shù)設(shè)置子系統(tǒng)中預(yù)設(shè)所述若干地址匹配子系統(tǒng)分別針對各個行地址信息的權(quán)重系數(shù),計算得到最終匹配結(jié)果。
全文摘要
本發(fā)明適用于數(shù)據(jù)處理領(lǐng)域,提供了一種基于反向生成的地址樹的地址匹配方法,包括下述步驟步驟A,將待匹配的行地址拆為若干地址元;步驟B,根據(jù)步驟A拆得的地址元在地址樹中查找對應(yīng)的節(jié)點,地址樹為一樹狀結(jié)構(gòu)的數(shù)據(jù)庫,根據(jù)已投遞的地址信息或未投遞但經(jīng)過分揀的郵件地址信息定期生成;步驟C,根據(jù)步驟B中查找到的節(jié)點從地址樹中篩出與待匹配的行地址對應(yīng)的地址樹分枝;步驟D,根據(jù)步驟C篩出的地址樹分枝將待匹配的行地址匹配到對應(yīng)的站段規(guī)則。本發(fā)明利用生產(chǎn)過程中的已投遞信息、未投遞但經(jīng)過分揀的郵件地址信息反向生成地址樹,使地址樹能夠做到與生產(chǎn)近期數(shù)據(jù)同步,自動更新其對應(yīng)郵編、投遞站、投遞段等結(jié)果。
文檔編號G06Q10/08GK102393937SQ20111030888
公開日2012年3月28日 申請日期2011年10月12日 優(yōu)先權(quán)日2011年10月12日
發(fā)明者崔超 申請人:深圳市絡(luò)道科技有限公司